Análisis Multivariante

F. Tusell
1
2 de diciembre de 2008
1
c ( F. Tusell. Estas notas cubren sólo unos pocos temas del programa, y aún así de
modo incompleto. Su reproducción es libre para alumnos de Estadística: Análisis Mul-
tivariante para su uso privado. Toda otra utilización requiere permiso expreso del autor.
Sucesivas versiones se han beneficiado de las correcciones hechas por varias promociones
de alumnos. También han corregido muchos errores M.J. Bárcena y V. Núñez y Cristina
González.
2
Índice general
1. Normal multivariante y asociadas 11
1.1. Introducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.2. Distribución normal multivariante. . . . . . . . . . . . . . . . . . 12
1.3. Regresión lineal. . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.4. Correlación simple, parcial y múltiple. . . . . . . . . . . . . . . . 18
1.5. Distribución de Wishart. . . . . . . . . . . . . . . . . . . . . . . 20
1.6. Formas cuadráticas generalizadas. . . . . . . . . . . . . . . . . . 21
1.7. Distribución T
2
de Hotelling. . . . . . . . . . . . . . . . . . . . . 24
1.8. Distribución de Wilks y asociadas . . . . . . . . . . . . . . . . . 27
1.9. Contrastes en la distribución normal . . . . . . . . . . . . . . . . 29
1.9.1. Diagnósticos de normalidad univariante . . . . . . . . . . 29
1.9.2. Diagnósticos de normalidad multivariante . . . . . . . . . 30
1.9.3. Búsqueda de outliers . . . . . . . . . . . . . . . . . . . . 32
2. Inferencia en poblaciones normales multivariantes. 35
2.1. Inferencia sobre el vector de medias. . . . . . . . . . . . . . . . . 35
2.1.1. Contraste sobre el vector de medias conocida Σ. . . . . . 35
2.1.2. Contraste sobre el vector de medias con Σ desconocida. . 36
2.1.3. Contraste de igualdad de medias en dos poblaciones con
matriz de covarianzas común. . . . . . . . . . . . . . . . 36
2.1.4. Contraste de hipótesis lineales generales sobre el vector de
medias de una única población. . . . . . . . . . . . . . . 37
2.1.5. Contraste de hipótesis lineales sobre los vectores de me-
dias de dos poblaciones. . . . . . . . . . . . . . . . . . . 38
2.2. Inferencia sobre el coeficiente de correlación entre dos v.a. norma-
les X
1
, X
2
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
2.3. Inferencia sobre la matriz de covarianzas. . . . . . . . . . . . . . 41
2.3.1. Contraste de igualdad de matrices de covarianzas en dos
poblaciones normales. . . . . . . . . . . . . . . . . . . . 41
2.3.2. Contraste de diagonalidad por bloques de la matriz de cova-
rianzas de una única población normal. . . . . . . . . . . 41
3
4 ÍNDICE GENERAL
2.3.3. Contraste de esfericidad . . . . . . . . . . . . . . . . . . 43
3. Análisis de varianza multivariante 45
3.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.2. Modelo MANOVA con un tratamiento . . . . . . . . . . . . . . . 45
3.3. Relación entre diversos contrastes . . . . . . . . . . . . . . . . . 46
3.4. Modelos MANOVA con dos o más tratamientos . . . . . . . . . . 47
3.5. Extensiones y bibliografía . . . . . . . . . . . . . . . . . . . . . 48
4. Análisis de correlación canónica 51
4.1. Introducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.2. Variables canónicas y coeficientes de correlación canónica. . . . . 51
4.3. Relación con otros contrastes . . . . . . . . . . . . . . . . . . . . 54
4.4. Interpretación. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
5. Componentes principales. 57
5.1. Introducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5.2. Obtención de las componentes principales. . . . . . . . . . . . . . 58
5.3. Propiedades de las componentes principales. . . . . . . . . . . . . 61
5.4. Interpretación geométrica. . . . . . . . . . . . . . . . . . . . . . 63
5.5. Comentarios adicionales . . . . . . . . . . . . . . . . . . . . . . 64
6. Análisis Factorial. 67
6.1. Introducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
6.2. La igualdad fundamental . . . . . . . . . . . . . . . . . . . . . . 68
6.3. Análisis Factorial y el objetivo de la parsimonia . . . . . . . . . . 69
6.4. Indeterminación de las soluciones factoriales. Rotaciones . . . . . 71
6.5. Estimación del modelo . . . . . . . . . . . . . . . . . . . . . . . 74
6.5.1. Método del factor principal . . . . . . . . . . . . . . . . . 74
6.5.2. Método de máxima verosimilitud . . . . . . . . . . . . . 74
7. Biplots 75
7.1. Descomposición en valores singulares. . . . . . . . . . . . . . . . 75
7.2. Biplots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
7.2.1. Interpretación . . . . . . . . . . . . . . . . . . . . . . . . 77
7.2.2. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
7.3. Lectura recomendada . . . . . . . . . . . . . . . . . . . . . . . . 81
8. Datos categóricos multivariantes 83
8.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
8.2. Tipos de muestreo . . . . . . . . . . . . . . . . . . . . . . . . . . 84
8.3. La paradoja de Simpson . . . . . . . . . . . . . . . . . . . . . . . 85
8.4. Modelos logarítmico-lineales . . . . . . . . . . . . . . . . . . . . 87
8.5. Lectura recomendada . . . . . . . . . . . . . . . . . . . . . . . . 89
ÍNDICE GENERAL 5
9. Análisis de Correspondencias 91
9.1. Análisis de las filas de X . . . . . . . . . . . . . . . . . . . . . . 91
9.1.1. Notación . . . . . . . . . . . . . . . . . . . . . . . . . . 91
9.1.2. Distancia entre las filas de la matriz de datos . . . . . . . 91
9.1.3. Matriz de covarianzas muestral . . . . . . . . . . . . . . . 93
9.2. Análisis de las columnas de X . . . . . . . . . . . . . . . . . . . 95
9.3. Reciprocidad y representación conjunta . . . . . . . . . . . . . . 95
9.4. Lectura recomendada . . . . . . . . . . . . . . . . . . . . . . . . 96
10. Análisis Procrustes 97
10.1. Introducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
10.2. Obtención de la transformación Procrustes . . . . . . . . . . . . . 98
10.2.1. Traslación a . . . . . . . . . . . . . . . . . . . . . . . . 99
10.2.2. Rotación P. . . . . . . . . . . . . . . . . . . . . . . . . . 99
10.2.3. Parámetro de escala ρ . . . . . . . . . . . . . . . . . . . . 99
10.3. Análisis y comentarios adicionales . . . . . . . . . . . . . . . . . 100
11. Reescalado Multidimensional 101
11.1. Introducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
11.2. Reescalado multidimensional métrico . . . . . . . . . . . . . . . 102
12. Análisis discriminante 107
12.1. Introducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
12.2. Discriminación máximo-verosímil . . . . . . . . . . . . . . . . . 109
12.3. Discriminación con información a priori . . . . . . . . . . . . . . 110
12.4. Variables normales . . . . . . . . . . . . . . . . . . . . . . . . . 113
12.4.1. Matriz de covarianzas Σ común y dos grupos . . . . . . . 113
12.4.2. Diferentes covarianzas: Σ
1
= Σ
2
, y dos grupos . . . . . . 114
12.4.3. Caso de varios grupos . . . . . . . . . . . . . . . . . . . 115
12.5. La regla lineal de Fisher . . . . . . . . . . . . . . . . . . . . . . 115
12.5.1. Dos grupos con matriz de covarianzas Σ común . . . . . . 116
12.5.2. Más de dos grupos con matriz de covarianzas Σ común . . 117
12.6. Evaluación de funciones discriminantes . . . . . . . . . . . . . . 119
12.7. Bibliografía comentada . . . . . . . . . . . . . . . . . . . . . . . 122
13. Arboles de regresión y clasificación 125
13.1. Arboles binarios . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
13.2. Construcción de árboles binarios . . . . . . . . . . . . . . . . . . 127
13.2.1. Medidas de “impureza” de nodos y árboles. . . . . . . . . 128
13.2.2. Espacio de búsqueda . . . . . . . . . . . . . . . . . . . . 129
13.2.3. Estimación de la tasa de error . . . . . . . . . . . . . . . 131
13.2.4. Tasa de error penalizada . . . . . . . . . . . . . . . . . . 132
13.2.5. Criterios de parada y/o poda . . . . . . . . . . . . . . . . 132
13.2.6. El algoritmo de construcción de árboles . . . . . . . . . . 135
6 ÍNDICE GENERAL
13.3. Antecedentes y refinamientos . . . . . . . . . . . . . . . . . . . . 135
13.4. Bibliografía comentada . . . . . . . . . . . . . . . . . . . . . . . 135
14. Redes Neuronales Artificiales 137
14.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
14.2. Neuronas biológicas y neuronas artificiales . . . . . . . . . . . . 137
14.2.1. Morfología y funcionamiento de una neurona humana . . 137
14.2.2. Neuronas artificiales . . . . . . . . . . . . . . . . . . . . 138
14.2.3. Redes neuronales artificiales (RNA) . . . . . . . . . . . . 140
14.3. Entrenamiento de una RNA . . . . . . . . . . . . . . . . . . . . . 141
14.3.1. Entrenamiento de un perceptrón . . . . . . . . . . . . . . 141
14.3.2. El método de corrección de error. . . . . . . . . . . . . . 143
14.3.3. El algoritmo de propagación hacia atrás . . . . . . . . . . 145
14.4. Mapas auto-organizados (SOM) . . . . . . . . . . . . . . . . . . 146
14.5. Maquinas de vectores soporte (SVM) . . . . . . . . . . . . . . . 148
15. Análisis de agrupamientos 149
15.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
15.2. Medidas de similaridad y disimilaridad entre objetos . . . . . . . 150
15.2.1. Variables reales . . . . . . . . . . . . . . . . . . . . . . . 150
15.2.2. Variables cualitativas nominales . . . . . . . . . . . . . . 151
15.3. Medidas de similaridad y disimilaridad entre grupos . . . . . . . . 151
15.4. Estrategias de construcción de grupos . . . . . . . . . . . . . . . 152
15.4.1. Procedimientos jerárquicos . . . . . . . . . . . . . . . . . 152
A. Cálculo diferencial. Notación matricial. 155
A.0.2. Notación . . . . . . . . . . . . . . . . . . . . . . . . . . 155
A.0.3. Algunos resultados útiles . . . . . . . . . . . . . . . . . . 156
B. Datos 157
B.1. Records atléticos de diversos países. . . . . . . . . . . . . . . . . 157
Índice de figuras
2.1. Disposición de dos vectores de medias paralelos . . . . . . . . . . 39
5.1. U
i
es proyección de X sobre a
i
. . . . . . . . . . . . . . . . . . 63
5.2. Records representados en el plano generado por U
1
y U
2
. . . . . 65
7.1. Biplot de número de hogares (en valor absoluto) en cada Comu-
nidad Autónoma que poseen diferentes tipos de equipamiento re-
lacionado con la sociedad de la información. Se aprecia el fuerte
efecto “tamaño” que oblitera cualquier otro. . . . . . . . . . . . . 80
7.2. Biplot del porcentaje de hogares en cada Comunidad Autónoma
que poseen diferentes tipos de equipamiento relacionado con la
sociedad de la información. Al desaparecer el efecto tamaño por
ser todas las magnitudes relativas, se aprecian las diferencias entre
comunidades en la dotación relativa. . . . . . . . . . . . . . . . . 82
11.1. Mapa reconstruido mediante reescalado multidimensional métrico
a partir de las distancias por carretera entre capitales de provincia. 103
12.1. La mejor dirección discriminante puede no ser aquélla en que más
dispersión presentan las observaciones . . . . . . . . . . . . . . . 117
12.2. Con p = 3 grupos hay hasta p − 1 direcciones discriminantes.
Puede haber direcciones discriminantes asociadas a un λ bajo, y
no obstante muy útiles para discriminar en algún subconjunto. Por
ejemplo, la dirección asociada a a
2
discrimina bien entre los gru-
pos C
1
y C
2
por un lado y C
3
por otro. . . . . . . . . . . . . . . . 119
12.3. Probabilidad F(N, d) de separar perfectamente N puntos en posi-
ción general en un espacio de d = 10 dimensiones . . . . . . . . . 121
13.1. Árbol binario con tres hojas, A, B, C y raíz r. . . . . . . . . . . . 126
13.2. Árbol binario para clasificar pacientes en grupos de supervivencia
homogénea . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
7
8 ÍNDICE DE FIGURAS
13.3. Una división en X
1
= S es inútil por si misma, pero abre la vía a
otras sumamente provechosas . . . . . . . . . . . . . . . . . . . . 133
14.1. Esquema describiendo las partes principales de una neurona huma-
na. Tomado de Haykin (1998), p. 8. . . . . . . . . . . . . . . . . 138
14.2. Esquema de una neurona artificial N. Recibe la entrada x = (x
0
, . . . , x
6
)
computando la función de excitación ϕ(x) =
¸
6
i=0
w
i1
x
i
y entre-
gado f(ϕ(x)) a la salida. . . . . . . . . . . . . . . . . . . . . . . 140
14.3. RNA con tres neuronas. Las unidades de entrada, E
0
a E
6
, repar-
ten el input x = (x
0
, . . . , x
6
) a las tres neuronas que forman la
capa oculta, N
j
(j = 1, 3). Cada una de estas neuronas computa
ϕ
j
(x) =
¸
6
i=0
w
ij
x
i
y entrega f
j

j
(x)) a cada unidad de salida.
S
1
y S
2
suman sus inputs y producen y = (y
1
, y
2
). . . . . . . . . 141
15.1. Agrupamiento jerárquico con distancia promedio de 10 puntos to-
mados al azar en R
4
. . . . . . . . . . . . . . . . . . . . . . . . . 154
Índice de cuadros
1.1. Equivalencia entre estadísticos uni- y multivariantes. . . . . . . . 27
3.1. Tabla de Análisis de Varianza para un modelo con dos tratamientos
e interacción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
5.1. Valores propios de R . . . . . . . . . . . . . . . . . . . . . . . . 62
7.1. Dotación de los hogares por Comunidades Autónomas (miles de
hogares que poseen cada uno de los equipamientos indicados).
Fuente: INE, Encuesta de Tecnologías de la información en los
hogares, 2002. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
8.1. Color de pelo y ojos medidos para cinco sujetos . . . . . . . . . . 83
8.2. Tabla de contingencia relacionando color de pelo y ojos para cinco
sujetos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
9.1. Notación empleada . . . . . . . . . . . . . . . . . . . . . . . . . 92
12.1. Muestra de entrenamiento en análisis discriminante con dos grupos 108
14.1. Funciones de activación f(u) usuales . . . . . . . . . . . . . . . 139
15.1. Tabulación cruzada de valores de p variables dicotómicas en x
i
, x
j
. 151
9
10 ÍNDICE DE CUADROS
Capítulo 1
Normal multivariante y asociadas
1.1. Introducción.
Consideraremos en lo que sigue variables aleatorias n-variantes, es decir, apli-
caciones X: Ω −→ R
n
. A cada ω ∈ Ω corresponderá entonces un X =
X(ω) ∈ R
n
. Designaremos por X
i
= (X
i1
, X
i2
, . . . , X
in
)

a la observación i-
ésima de la variable aleatoria n-variante X, y por F
X
(x) y f
X
(x) a las funciones
de distribución y densidad respectivamente de X. Emplearemos el convenio de
utilizar mayúsculas para las variables aleatorias y minúsculas para sus valores con-
cretos en un muestreo determinado. Llamaremos X
j
a la variable aleatoria j-ésima.
¿Por qué no emplear las técnicas habituales (univariantes) sobre cada X
j
?. Po-
dríamos en efecto estudiar cada X
j
por separado. Si lo hiciéramos, perderíamos
sin embargo la posibilidad de extraer partido de la (posible) correlación entre dife-
rentes variables X
j
y X
k
en X. Los métodos de Análisis Multivariante comparten
la idea de explotar esta información.
Llamaremos µ
X
al vector de medias de la variable aleatoria X, y Σ
X
a su
matriz de covarianzas.
µ
X
= EX (1.1)
Σ
X
= E[(X −µ
X
)(X −µ
X
)

] (1.2)
Al igual que la distribución normal desempeña un papel destacado en la Esta-
dística univariante, una generalización de ella, la distribución normal multivariante,
constituye un modelo teórico de gran trascendencia en el Análisis Multivariante.
11
12 CAPÍTULO 1. NORMAL MULTIVARIANTE Y ASOCIADAS
1.2. Distribución normal multivariante.
Se dice que X ∼ N(0, 1) si:
f
X
(x) =
1


e
−x
2
/2
−∞< x < ∞
y por ende:
F
X
(x) =
1

x
−∞
e

1
2
x
2
dx −∞< x < ∞ (1.3)
ψ
X
(u) = Ee
iuX
(1.4)
=


−∞
1


e

1
2
(x−iu)
2
e

1
2
u
2
dx (1.5)
= e

1
2
u
2
(1.6)
Por transformación lineal de una variable aleatoria N(0, 1) : Y = σX + µ se
obtiene una variable aleatoria normal general N(µ, σ
2
) cuyas funciones de densi-
dad, distribución y característica son:
f
Y
(y) =
1
σ


e

(y−µ)
2

2
−∞< y < ∞ (1.7)
F
Y
(y) =
1
σ

y
−∞
e

(y−µ)
2

2
dy −∞< y < ∞ (1.8)
ψ
Y
(u) = e
iuµ−
1
2
σ
2
u
2
(1.9)
Si tenemos p variables aleatorias X
j
con distribución N(0, 1), independientes
unas de otras, la función de densidad conjunta de la variable aleatoria p-variante
X = (X
1
, . . . , X
p
)

viene dada por el producto de las marginales
f
X
(x) =

1

p
e

1
2
(x
2
1
+...+x
2
p
)
(1.10)
=

1

p
e

1
2
x

Ix
, (1.11)
y la función característica por:
ψ
X
(u) = e

1
2
u

u
. (1.12)
Decimos que la variable aleatoria p-variante X cuya función de densidad es
(1.10) sigue una distribución N
p
(

0, I), designando el primer argumento el vector
de medias y el segundo la matriz de covarianzas. Esta última es diagonal, en virtud
de la independencia entre las distintas componentes de X.
1.2. DISTRIBUCIÓN NORMAL MULTIVARIANTE. 13
Si efectuamos una transformación lineal X −→Y como
Y
1
= a
11
X
1
+a
12
X
2
+. . . +a
1p
X
p

1
(1.13)
Y
2
= a
21
X
1
+a
22
X
2
+. . . +a
2p
X
p

2
(1.14)
.
.
.
Y
p
= a
p1
X
1
+a
p2
X
2
+. . . +a
pp
X
p

p
(1.15)
o, en notación matricial, Y = AX + µ, y A es de rango completo, tenemos que
X = A
−1
(Y − µ) y la función de densidad de Y se obtiene fácilmente de la de
X:
f
Y
(y) = f
X
(A
−1
(y −µ))

∂X
∂Y

(1.16)
=

1

p
e

1
2
(y−µ)

(A
−1
)

(A
−1
)(y−µ)
[A
−1
[ (1.17)
=

1

p
1
[A[
e

1
2
(y−µ)

(AA

)
−1
(y−µ)
(1.18)
Como
Σ
Y
= E(Y −µ)(Y −µ)

(1.19)
= EAXX

A

(1.20)
= AA

, (1.21)
tenemos que la función de densidad (1.18) puede escribirse así:
f
Y
(y) =

1

p
1

Y
[
1/2
e

1
2
(y−µ)

Σ
−1
Y
(y−µ)
, (1.22)
ya que [A[ =

[A[[A[ =

[A[[A

[ =


Y
[. Por otra parte, la función caracte-
rística de Y es:
ψ
Y
(u) = Ee
iu

Y
(1.23)
= Ee
iu

(AX+µ)
(1.24)
= ψ
X
(A

u)e
iu

µ
(1.25)
= e
iu

µ−
1
2
u

AA

u
(1.26)
= e
iu

µ−
1
2
u

Σ
Y
u
(1.27)
La expresión (1.22) requiere para estar definida que Σ
Y
sea de rango total –sólo
así puede encontrarse la inversa–. La expresión (1.27) por el contrario es una fun-
ción característica incluso aunque Σ
Y
sea de rango deficiente. Se dice que (1.22)
y (1.27) son funciones de densidad y característica de un vector aleatorio con dis-
tribución N
p
(µ, Σ
Y
). Si Σ
Y
es de rango deficiente, se dice que estamos ante una
distribución normal singular, que carece de densidad (1.22).
14 CAPÍTULO 1. NORMAL MULTIVARIANTE Y ASOCIADAS
Observación 1.1 La función de densidad normal multivariante es uni-
modal, alcanza su máximo para y coincidente con el vector de medias µ, y
tiene contornos de igual densidad elípticos (o hiper-elípticos).
Los siguientes hechos son de muy sencilla demostración:
1. Las distribuciones de cualesquiera combinaciones lineales de componentes
de Y son normales.
2. Si Y es normal multivariante, cualesquiera marginales son normales uni- o
multivariantes.
3. Si X e Y son vectores independientes conjuntamente definidos con dis-
tribuciones respectivas N
p

X
, Σ
X
) y N
p

Y
, Σ
Y
), y A, B son matrices
cualesquiera de orden d p, (d ≤ p), y rango d, se verifica:
AX +BY ∼ N
d
(Aµ
X
+Bµ
Y
, AΣ
X
A

+BΣ
Y
B

)
Como caso particular, CX ∼ N
d
(Cµ
X
, CΣ
X
C

).
4. La incorrelación entre cualesquiera componentes X
i
, X
j
(o grupos de com-
ponentes) de X, implica su independencia. En el caso de variables alea-
torias con distribución normal multivariante, incorrelación e independencia
son nociones coextensivas.
5. Transformaciones lineales ortogonales de vectores N
d
(

0, σ
2
I) tienen distri-
bución N
d
(

0, σ
2
I).
Observación 1.2 Una normal multivariante tiene contornos de igual
densidad, cuando esta densidad existe, cuya expresión viene dada por:

1
2
(y −µ)

Σ
−1
Y
(y −µ) = k.
Como la matriz de covarianzas (en el caso de rango completo, para el que
existe la densidad) es definida positiva, la expresión anterior proporciona la
superficie de un hiper-elipsoide: una elipse ordinaria en R
2
, un elipsoide (si-
milar a un balón de rugby) en R
3
, y figuras que ya no podemos visualizar en
más de tres dimensiones.
Observación 1.3 Hay versiones multivariantes del Teorema Central
del Límite, que sugieren que variables multivariantes que son:
Suma de muchas otras,
Aproximadamente independientes, y
Sin influencia abrumadora de ninguna sobre el conjunto,
siguen distribución aproximadamente normal multivariante. Es un hecho, sin
embargo, que el supuesto de normalidad multivariante es sumamente res-
trictivo, y de rara plausibilidad en la práctica. En particular, el supuesto de
normalidad multivariante es mucho más fuerte que el de normalidad de las
marginales, como el siguiente ejemplo ilustra.
1.2. DISTRIBUCIÓN NORMAL MULTIVARIANTE. 15
Ejemplo 1.1 Supongamos un vector bivariante (X
1
, X
2
), en que X
1
y
X
2
son respectivamente temperaturas máximas y mínimas de una ubicación.
Podemos perfectamente imaginar un caso con normalidad marginal (las mí-
nimas y máximas se distribuyen cada una de modo normal). Sin embargo,
el supuesto de normalidad bivariante sería claramente inadecuado: por de-
finición, X
1
≥ X
2
, y por tanto el vector (X
1
, X
2
) se distribuye sólo en el
semiplano por debajo de la recta X
1
= X
2
. Una normal bivariante debe estar
definida en todo el plano real.
El siguiente teorema será de utilidad:
Teorema 1.1 Sea X un vector aleatorio con distribución normal (p+q)-variante,
particionado del modo que se indica:
X =

X
1
X
2

∼ N

µ
1
µ
2

,

Σ
11
Σ
12
Σ
21
Σ
22

Entonces la distribución de X
1
condicionada por X
2
= x
2
es:
N
p

1
+ Σ
12
Σ
−1
22
(x
2
−µ
2
), Σ
11
−Σ
12
Σ
−1
22
Σ
21
)
DEMOSTRACION:
Una demostración conceptualmente simple se limitaría a efectuar el cociente de
la densidad conjunta entre la densidad marginal f(X
1
), simplificando el cociente
hasta encontrar una densidad normal con el vector de medias y matriz de covarian-
zas que indica el enunciado. Una aproximación más simple es la que sigue (véase
Chatfield and Collins (1980), p. 99). Consideremos la variable aleatoria
Y = X
1
+MX
2
,
siendo M una matriz de dimensiones p q. La matriz de covarianzas entre las Y
y las X
2
será:
Cov(Y , X
2
) = E
¸
[(X
1
−µ
1
) +M(X
2
−µ
2
)](X
2
−µ
2
)

¸
(1.28)
= E
¸
(X
1
−µ
1
)(X
2
−µ
2
)

+M(X
2
−µ
2
)(X
2
−µ
2
)

¸
(1.29)
= Σ
12
+MΣ
22
(1.30)
Si hacemos M = −Σ
12
Σ
−1
22
, la expresión anterior será una matriz de ceros; por
tanto, Y = X
1
−Σ
12
Σ
−1
22
X
2
es un vector aleatorio normal multivariante indepen-
diente de X
2
.
Siendo independiente, su distribución incondicionada y condicionada por X
2
=
x
2
es la misma. Tomando valor medio y matrices de covarianzas en ambos casos,
obtenemos los siguientes momentos:
a) Incondicionados:
E[Y ] = E[X
1
−Σ
12
Σ
−1
22
X
2
] = µ
1
−Σ
12
Σ
−1
22
µ
2
(1.31)
Σ
Y
= E[(X
1
−µ
1
) −Σ
12
Σ
−1
22
(X
2
−µ
2
)][(X
1
−µ
1
) −Σ
12
Σ
−1
22
(X
2
−µ
2
)]

= Σ
11
−Σ
12
Σ
−1
22
Σ
22
Σ
−1
22
Σ
12

= Σ
11
−Σ
12
Σ
−1
22
Σ
12

(1.32)
16 CAPÍTULO 1. NORMAL MULTIVARIANTE Y ASOCIADAS
b) Condicionados:
E[Y [X
2
= x
2
] = E[X
1
[X
2
= x
2
] −Σ
12
Σ
−1
22
x
2
(1.33)
Σ
Y |X
2
=x
2
= Σ
(X
1
|X
2
=x
2
)
(1.34)
e igualando (1.31) a (1.33) y (1.32) a (1.34) llegamos a:
E[X
1
[X
2
= x
2
] = µ
1
+ Σ
12
Σ
−1
22
(x
2
−µ
2
) (1.35)
Σ
Y|X
2
=x
2
= Σ
11
−Σ
12
Σ
−1
22
Σ
21
(1.36)
Las expresiones (1.35) y (1.36) junto con la normalidad de X
1
demuestran el teo-
rema.
1.3. Regresión lineal.
Supongamos, con la notación de la Sección anterior, que p = 1 (con lo que
X
1
es un escalar), y que nos planteamos el siguiente problema: encontrar g(X
2
)
aproximando de manera “óptima” a X
1
. “Óptima” se entiende en el sentido de
minimizar E[X
1
− g(X
2
)]
2
. Demostraremos que la función g(X
2
) buscada es
precisamente E[X
1
[X
2
]. Para ello precisamos algunos resultados instrumentales.
Lema 1.1 Si denotamos mediante un superíndice la v.a. con respecto a la cual se
toma valor medio (es decir, E
(X
1
)
[Z] =


−∞
Zf
X
1
(x
1
)dx
1
), se tiene:
E[X
1
] = E
(X
1
)
[X
1
] = E
(X
2
)
[E
(X
1
)
(X
1
[X
2
)]
DEMOSTRACION:
E
(X
2
)
[E
(X
1
)
(X
1
[X
2
)] =

f
X
2
(x
2
)[E
(X
1
)
(X
1
[X
2
)]dx
2
(1.37)
=

f
X
2
(x
2
)
¸
x
1
f
X
1
|X
2
(x
1
[x
2
)dx
1

dx
2
(1.38)
=

dx
1

dx
2

x
1
f
X
1
|X
2
(x
1
[x
2
)f
X
2
(x
2
)

(1.39)
=

dx
1

dx
2
[x
1
f
X
1
,X
2
(x
1
, x
2
)] (1.40)
=

x
1
dx
1

f
X
1
,X
2
(x
1
, x
2
)dx
2
(1.41)
=

x
1
f
X
1
(x
1
)dx
1
(1.42)
= E
(X
1
)
[X
1
] (1.43)
1.3. REGRESIÓN LINEAL. 17
Lema 1.2 Sea,
X =

X
1
X
2

∼ N

µ
1
µ
2

,

σ
2
11
Σ
12
Σ
21
Σ
22

Entonces, Z = X
1
−E[X
1
[X
2
] es una v.a. incorrelada con cualquier función
ℓ(X
2
).
DEMOSTRACION:
Como, de acuerdo con el lema anterior, E[Z] = 0, tenemos que:
cov[Z, ℓ(X
2
)] = E [Z(ℓ(X
2
) −E[ℓ(X
2
)])] (1.44)
= E[Zℓ(X
2
)] (1.45)
= E[X
1
ℓ(X
2
) −E[X
1
[X
2
]ℓ(X
2
)] (1.46)
= 0 (1.47)
haciendo uso del lema anterior para evaluar la expresión (1.46). Tenemos así el
siguiente,
Teorema 1.2 La mejor aproximación en términos de error cuadrático medio de
X
1
en función de X
2
es la proporcionada por g(X
2
) = E[X
1
[X
2
].
DEMOSTRACION: Consideremos cualquier otra función h(X
2
). Entonces:
E[X
1
−h(X
2
)]
2
= E[X
1
−g(X
2
) +g(X
2
) −h(X
2
)]
2
= E[X
1
−g(X
2
)]
2
+E[g(X
2
) −h(X
2
)]
2
+2cov[X
1
−g(X
2
)
. .. .
Z
, g(X
2
) −h(X
2
)
. .. .
ℓ(X
2
)
]
= E[X
1
−g(X
2
)]
2
+E[g(X
2
) −h(X
2
)]
2
≥ E[X
1
−g(X
2
)]
2
Es interesante observar que E[X
1
[X
2
] es una función lineal de X
2
en el caso
que consideramos de distribución normal multivariante conjunta de X
1
, X
2
. La
expresión de E[X
1
[X
2
] es reminiscente de la de X
ˆ
β en regresión lineal, pero aquí
la linealidad no es un supuesto, sino un resultado.
Definición 1.1 Llamamos varianza generalizada de una distribución multivarian-
te al determinante de su matriz de covarianzas, [Σ[. Llamamos varianza total a
traza(Σ).
Lema 1.3 Las varianzas generalizadas de la distribución de X =

X
1
X
2

y las
correspondientes a las distribuciones de X
1
[X
2
= x
2
y X
2
están relacionadas
por:
[Σ[ = [Σ
11
−Σ
12
Σ
−1
22
Σ
21
[[Σ
22
[
18 CAPÍTULO 1. NORMAL MULTIVARIANTE Y ASOCIADAS
DEMOSTRACION: Basta tomar determinantes en la igualdad matricial,

I −Σ
12
Σ
−1
22
0 I

Σ
11
Σ
12
Σ
21
Σ
22

I 0
−Σ
−1
22
Σ

12
I

=

Σ
11
−Σ
12
Σ
−1
22
Σ
21
0
0 Σ
22

Emplearemos la notación Σ
11,2
para designar la matriz de covarianzas Σ
11

Σ
12
Σ
−1
22
Σ
21
.
Algunas cosas merecen resaltarse. La matriz de covarianzas de la distribución
condicionada por X
2
= x
2
no depende de x
2
. Por otra parte, la expresión que da
el valor medio de X
1
condicionado por X
2
= x
2
es formalmente similar a la que
se obtendría regresando los valores centrados de X
1
sobre los valores centrados de
X
2
. Es una función lineal en x
2
.
Una tercera observación de interés es que las varianzas de las X
1
en la distri-
bución condicionada son no mayores que en la distribución no condicionada; esto
es fácil de ver si reparamos en que los elementos diagonales de Σ
12
Σ
−1
22
Σ
21
(que
se restan de sus homólogos de Σ
11
) resultan de evaluar una forma cuadrática de
matriz Σ
−1
22
definida no negativa. Esto es lógico: conocido X
2
= x
2
, disminuye
la incertidumbre acerca de los valores que puede tomar X
1
. El único caso en que
las varianzas –condicionadas e incondicionadas– serían idénticas es aquél en que
Σ
12
= 0.
1.4. Correlación simple, parcial y múltiple.
Sean X
i
y X
j
dos variables aleatorias conjuntamente definidas. Sean σ
2
i
y σ
2
j
sus varianzas respectivas, y λ
ij
su covarianza. Se denomina coeficiente de correla-
ción simple entre ambas a:
ρ
ij
def
=
λ
ij
+

σ
2
i
σ
2
j
. (1.48)
Se demuestra fácilmente haciendo uso de la desigualdad de Schwartz que −1 ≤
ρ
ij
≤ +1. Un coeficiente de correlación simple igual a 1 en valor absoluto (+1
ó -1) indica una perfecta asociación lineal entre las variables aleatorias X
i
y X
j
(véase Trocóniz (1987b), Cap. 14, por ej.).
Imaginemos que X
i
, X
j
son variables aleatorias de entre las que componen el
vector X
1
. Si las varianzas y covarianzas en (1.48), en lugar de proceder de Σ
11
,
proceden de los lugares homólogos en Σ
11,2
, tenemos el llamado coeficiente de
correlación parcial entre X
i
y X
j
controlado el efecto de X
2
:
ρ
ij.X
2
def
=
λ
ij,2
+

σ
2
i,2
σ
2
j,2
.
Podemos interpretar ρ
ij.X
2
como el coeficiente de correlación entre X
i
y X
j
una
vez que de ambas se ha eliminado la parte que cabe expresar como combinación
lineal de las variables aleatorias en X
2
.
1.4. CORRELACIÓN SIMPLE, PARCIAL Y MÚLTIPLE. 19
Definimos coeficiente de correlación múltiple al cuadrado entre la variable X
j
(en X
1
) y X
2
así:
R
2
j.X
2
=

σ
2
j
−σ
2
j.X
2
σ
2
j

,
o en forma reminiscente del R
2
= 1 −SSE/SST habitual en regresión,
R
2
j.X
2
= 1 −
σ
2
j.X
2
σ
2
j
.
El coeficiente de correlación múltiple al cuadrado es aquella parte de la varianza
de X
j
“explicada” linealmente por las variables aleatorias X
2
.
Ejemplo 1.2 Consideremos una matriz de covarianzas
1
entre las tres
variables X
1
=“Tensión arterial”, X
2
=“Renta disponible” y X
3
=“Edad”.
Σ =

¸
1,00 0,60 0,90
0,60 1,00 0,80
0,90 0,80 1,00
¸

;
Una apreciación superficial podría llevar a concluir que hay una abultada
correlación de 0.60 entre la variable X
2
(Renta) y la variable X
1
(Tensión
arterial). Si efectuamos el análisis controlando el efecto de la variable X
3
, el
resultado cambia drásticamente. En efecto, tendríamos:
Σ
11
=

1,00 0,60
0,60 1,00

Σ
22
=

1,00

Σ
12
=

0,90
0,80

Por consiguiente, la matriz de covarianzas de las variables X
1
, X
2
controlado
el efecto de X
3
, en aplicación del Teorema 1.1, resulta ser:
Σ
11·2
=

1,00 0,60
0,60 1,00

0,90
0,80

1,00

0,90 0,80

(1.49)

0,19 −0,12
−0,12 0,30

(1.50)
El coeficiente de correlación parcial (eliminado el efecto de X
3
entre X
1
y
X
2
sería ahora:
ρ
12,3

−0,12

0,19 0,30
≈ −0,4588;
es decir, una correlación apreciable y de signo contrario al inicial.
No cuesta imaginar el origen de la aparente paradoja. Las dos variables
X
1
y X
2
aparecen altamente correladas con la X
3
(Edad), y ello induce una
correlación espúrea entre ellas. Al eliminar el efecto (lineal) de la variable
X
3
, la aparente relación directa entre X
1
y X
2
desaparece por completo (de
hecho, se torna de relación inversa).
1
Valores ficticios. El ejemplo es puramente ilustrativo.
20 CAPÍTULO 1. NORMAL MULTIVARIANTE Y ASOCIADAS
1.5. Distribución de Wishart.
Definición 1.2 Sean X
i
(i = 1, . . . , n) vectores aleatorios independientes, con
distribución común N
d
(

0, Σ). Entonces, la matriz aleatoria
A =
n
¸
i=1
X
i
X
i

con
1
2
d(d + 1) elementos distintos –dado que es simétrica– sigue la distribución
conocida como distribución de Wishart, W
d
(n, Σ), con n grados de libertad y
matriz de parámetros Σ.
La distribución de Wishart puede en cierto modo considerarse como una gene-
ralización de la χ
2
; en efecto, si X
i
∼ N
1
(0, σ
2
) se verifica que: A =
¸
n
i=1
X
2
i

σ
2
χ
2
n
= W
1
(n, σ
2
). De la definición se deducen de modo inmediato las siguientes
propiedades:
1. Si S ∼ W
d
(n, Σ), T ∼ W
d
(m, Σ) y ambas son independientes, S + T ∼
W
d
(m+n, Σ).
2. Si S ∼ W
d
(n, Σ) y C es una matriz q d de rango q, entonces:
CSC

∼ W
q
(n, CΣC

)
DEMOSTRACION: S ∼ W
d
(n, Σ) ⇔S =
¸
n
i=1
X
i
X
i

con X
i
∼ N
d
(

0, Σ).
Por consiguiente,
CSC

= C

n
¸
i=1
X
i
X
i

C

=
n
¸
i=1
(CX
i
)(CX
i
)

Pero CX
i
∼ N
q
(

0, CΣC

), lo que muestra que CSC

∼ W
q
(n, CΣC

).
3. Como caso particular de la propiedad anterior, si a es un vector de constantes
y S ∼ W
d
(n, Σ) tenemos:
a

Sa ∼ W
1
(n, a

Σa) ∼ (a

Σa)χ
2
n
(1.51)
o, lo que es igual,
a

Sa
a

Σa
∼ χ
2
n
∀a = 0 (1.52)
4. Como caso particular de (1.52), si a

= (0 . . . 0 1 0 . . . 0) (un único “uno”
en posición i-ésima) se verifica que cuando S ∼ W
d
(n, Σ),
a

Sa = s
2
ii
∼ σ
2
ii
χ
2
n
. (1.53)
Es decir, el cociente entre un elemento diagonal de una matriz de Wishart y
la correspondiente varianza poblacional, se distribuye como una χ
2
n
, con los
mismos grados de libertad que la Wishart.
1.6. FORMAS CUADRÁTICAS GENERALIZADAS. 21
1.6. Formas cuadráticas generalizadas.
Sea X una matriz N d, que representaremos alternativamente de una de las
siguientes formas:
X =

¸
¸
¸
¸
X
1

X
2

.
.
.
X
N

¸

=

X
(1)
X
(2)
. . . X
(d)

Entonces, la “suma de cuadrados” W =
¸
N
i=1
X
i
X
i

puede escribirse como:
W = X

X. Es una matriz d d. Llamaremos forma cuadrática generalizada a
una expresión como:
X

AX =
¸
i
¸
j
a
ij
X
i
X
j

.
Es, como la “suma de cuadrados” anterior, una matriz d d.
Lema 1.4 Si las filas de X siguen una distribución X
i
iid
∼N
d
(

0, Σ), se verifica lo
siguiente:
1. X
(j)
∼ N
N
(

0, σ
2
jj
I
N
).
2. X

a ∼ N
d
(

0, [[a[[
2
Σ).
3. Si a
1
, . . . , a
r
, r ≤ N, son vectores en R
N
mutuamente ortogonales, u
i
=
X

a
i
(i = 1, . . . , r) son mutuamente independientes. Si [[a
i
[[
2
= 1, u
i

N
d
(

0, Σ).
DEMOSTRACION: Solo (3) requiere demostración, siendo inmediatos los res-
tantes apartados. Consideremos u
i
, u
j
(i = j). Claramente, E[u
i
] = E[u
j
] =

0,
y:
E[u
i
u
j

] = E
¸
¸
k
a
ik
X
k

¸
l
a
jl
X
l


¸
=
¸
k
¸
l
a
ik
a
jl
E[X
k
X
l

]
=
¸
k
a
ik
a
jk
Σ
=

0
d×d
si i = j (de donde se sigue la independencia)
Σ si i = j y [[a
i
[[
2
= 1
Lema 1.5 Sea X una matriz aleatoria N d cuyas filas X
i

son independientes
con distribución común N
d
(

0, Σ). Sea U una matriz ortogonal NN, e Y = UX.
Entonces, Y

Y = X

X se distribuye como una W
d
(N, Σ).
22 CAPÍTULO 1. NORMAL MULTIVARIANTE Y ASOCIADAS
DEMOSTRACION:
Es inmediata: Y

Y = X

U

UX = X

X. Es claro además que X

X =
¸
n
i=1
X
i
X
i

sigue la distribución indicada.
Teorema 1.3 Sea X una matriz aleatoria Nd cuyas filas X

i
son independientes
con distribución común N
d
(

0, Σ). Los estimadores habituales del vector de medias
y matriz de covarianzas:
S =
1
N
N
¸
i=1
(X
i
−X)(X
i
−X)

(1.54)
X =
1
N
N
¸
i=1
X
i
(1.55)
verifican:
1. S es independiente de X.
2. NS ∼ W
d
(N −1, Σ).
DEMOSTRACION: Consideremos una matriz U ortogonal N N cuya última fila
sea:

1

N
. . .
1

N
1

N

.
Sea Y = UX. Su última fila es: Y
N
=
¸
N
i=1
u
Ni
X
i
=
1

N
¸
N
i=1
X
i
= X

N.
Por tanto, Y
N
Y
N

= NX X

. Por otra parte,
NS =
N
¸
i=1
(X
i
−X)(X
i
−X)

=
N
¸
i=1
X
i
X
i

−NXX

−NXX

+NXX

=
N
¸
i=1
X
i
X
i

−NXX

=
N
¸
i=1
X
i
X
i

−Y
N
Y
N

=
N
¸
i=1
Y
i
Y
i

−Y
N
Y
N

=
N−1
¸
i=1
Y
i
Y
i

1.6. FORMAS CUADRÁTICAS GENERALIZADAS. 23
Como las filas

Y
i
son independientes unas de otras, y X y NS dependen de fi-
las diferentes, son claramente independientes. Es de destacar que, aunque hemos
supuesto E[X] = 0, este supuesto es innecesario. Puede comprobarse fácilmente
que si sumamos una constante cualquiera a cada columna X
(j)
, S no se altera.
24 CAPÍTULO 1. NORMAL MULTIVARIANTE Y ASOCIADAS
1.7. Distribución T
2
de Hotelling.
Sea W ∼ W
d
(n, Σ) y X ∼ N
d
(µ, Σ), ambas independientes. Entonces:
n(X −µ)

W
−1
(X −µ)
sigue la distribución conocida como T
2
de Hotelling, de dimensión d y con n
grados de libertad. La denotaremos por T
2
d,n
. Esta distribución puede verse como
una generalización de la T
1,n
(y, por tanto, T como una generalización de la t de
Student). En efecto, cuando d = 1,
W ∼ W
1
(n, σ
2
) = σ
2
χ
2
n
(1.56)
X ∼ N(µ, σ
2
) (1.57)
y:
n(X −µ)

W
−1
(X −µ) =
(X −µ)
2
W/n
=

X−µ
σ

2
W/nσ
2
∼ T
1,n
No es preciso contar con tablas de la distribución de Hotelling, pues una rela-
ción muy simple la liga con la distribución T de Snedecor. Para su establecimiento
necesitaremos los lemas a continuación. La presentación sigue de modo bastan-
te ajustado a Seber (1984), p. 29 y siguientes, donde se puede acudir para más
detalles.
Lema 1.6 Si Y ∼ N
d
(0, Σ) y Σ es de rango completo, entonces: Y

Σ
−1
Y ∼ χ
2
d
.
DEMOSTRACION: Siendo Σ definida positiva, Σ
−1
existe y es también definida
positiva. Entonces puede encontrarse Σ

1
2
tal que: Σ

1
2
Σ

1
2
= Σ
−1
. Por otra
parte, X = Σ

1
2
Y se distribuye como N
d
(0, I
d
). Entonces,
Y

Σ
−1
Y = Y

Σ

1
2
Σ

1
2
Y = X

X ∼ χ
2
d
Lema 1.7 Sea X

= (X
1
.
.
. X
2

) un vector N
d
(µ, Σ), con µ = (µ
1
.
.
. µ
2

) y
Σ =

σ
11
Σ
12
Σ
21
Σ
22

. Sea σ
ij
el elemento genérico en el lugar ij–ésimo de la matriz
Σ
−1
. Entonces,
Var[X
1
[X
2
= x
2
] =
1
σ
11
.
1.7. DISTRIBUCIÓN T
2
DE HOTELLING. 25
DEMOSTRACION: De acuerdo con el Teorema 1.1, p. 15,
σ
X
1
|X
2
=x
2
= σ
11
−Σ
12
Σ
−1
22
Σ
21
. (1.58)
Por otra parte, por el Lema 1.3, p. 17, sabemos que:
[Σ[ = [σ
11
−Σ
12
Σ
−1
22
Σ
21
[[Σ
22
[. (1.59)
De (1.58) y (1.59) se deduce entonces que σ
X
1
|X
2
=x
2
=
[Σ[

22
[
= 1/σ
11
.
Lema 1.8 Sea Y = Zβ + ǫ con Z de orden n p y ǫ ∼ N
n
(0, σ
2
I
n
). Sea
Q = m´ın
β
[[Y −Zβ[[
2
= [[Y −Z
ˆ
β[[
2
. Entonces:
Q ∼ σ
2
χ
2
n−p
(1.60)
Q = 1/w
11
(1.61)
siendo W
−1
= [w
ij
] y W =

Y

Y Y

Z
Z

Y Z

Z

.
DEMOSTRACION: Que Q ∼ σ
2
χ
2
n−p
lo sabemos por teoría de regresión lineal;
Qno es otra cosa que SSE, la suma de cuadrados de los residuos al ajustar Y sobre
las Z. Por consiguiente,
Q = [[(I −Z(Z

Z)
−1
Z

)Y [[
2
(1.62)
= Y

(I −Z(Z

Z)
−1
Z

)Y (1.63)
= Y

Y −Y

Z(Z

Z)
−1
Z

Y (1.64)
Por otra parte, de la definición de W se tiene (empleando el mismo procedimiento
que en la demostración del Lema 1.3, p. 17) que:
[W[ = [Y

Y −Y

Z(Z

Z)
−1
Z

Y [[Z

Z[ (1.65)
De (1.64) y (1.65) se deduce entonces que Q =
|W|
|Z

Z|
= 1/w
11
.
Lema 1.9 Sea W ∼ W
d
(n, Σ), n ≥ d. Entonces:
1.
σ
11
w
11
∼ χ
2
n−d+1
es independiente de w
ij
, i, j = 2, . . . , d.
2.


Σ
−1



W
−1


∼ χ
2
n−d+1
, para cualquier ℓ = 0.
DEMOSTRACION: W ∼ W
d
(n, Σ) ⇐⇒ W = X

X =
¸
n
i=1
X
i
X
i

con X
i

26 CAPÍTULO 1. NORMAL MULTIVARIANTE Y ASOCIADAS
N
d
(0, Σ). Si regresáramos la primera variable sobre todas las restantes, de acuerdo
con el Lema 1.7, p. 24 anterior,
Q = [[X
(1)

d
¸
i=2
ˆ
β
i
X
(i)
[[
2

1
σ
11
χ
2
n−(d−1)
Además, Q es independiente de las columnas de X empleadas como regresores:
X
(2)
, . . . , X
(d)
. Por otra parte, Q = 1/w
11
. Por consiguiente,
1/w
11
∼ (1/σ
11

2
n−(d−1)
(1.66)
σ
11
/w
11
∼ χ
2
n−(d−1)
. (1.67)
Para demostrar la segunda parte, sea L una matriz ortogonal dd cuya fila superior
fuera: ℓ

/[[ℓ[[. Siempre puede encontrarse una matriz así. Entonces, LWL


W
d
(n, LΣL

). Como,
(LWL

)
−1
= LW
−1
L

(1.68)
(LΣL

)
−1
= LΣ
−1
L

(1.69)
se tiene que:


Σ
−1



W
−1

=


Σ
−1
ℓ/[[ℓ[[
2


W
−1
ℓ/[[ℓ[[
2
(1.70)
=
(LΣ
−1
L

)
11
(LW
−1
L

)
11
(1.71)
=
(LΣL

)
11
(LWL

)
11
(1.72)
= χ
2
n−d+1
(1.73)
aplicando (1.53). Es de resaltar que la distribución no depende de ℓ.
Teorema 1.4 Si Z
2
= nY

W
−1
Y con Y ∼ N
d
(0, Σ), n ≥ d y W ∼ W
d
(n, Σ),
siendo Y y W independientes (y siguiendo por tanto Z
2
una distribución T
2
d,n
),
entonces:
n −d + 1
d
Z
2
n
∼ T
d,n−d+1
DEMOSTRACION:
Z
2
n
= Y

W
−1
Y =
Y

Σ
−1
Y
Y

Σ
−1
Y /Y

W
−1
Y
(1.74)
El numerador de (1.74) se distribuye como una χ
2
con d grados de libertad, y el
denominador como una χ
2
con n −d +1 grados de libertad. Además, como ponía
de manifiesto el lema anterior, ambos son independientes, de donde se sigue la
distribución T de Snedecor del cociente.
1.8. DISTRIBUCIÓN DE WILKS Y ASOCIADAS 27
1.8. Distribución de Wilks y asociadas
Multitud de contrastes univariantes resultan de efectuar cocientes de sumas de
cuadrados, que debidamente normalizadas siguen, bajo el supuesto de normalidad
de las observaciones, distribución T de Snedecor. Cuando las observaciones son
multivariantes, las “sumas de cuadrados” son formas cuadráticas generalizadas,
con distribuciones de Wishart, y el cociente entre determinantes de las mismas
puede verse como generalización de los contrastes univariantes.
Definición 1.3 Supongamos dos matrices aleatorias E y H con distribuciones res-
pectivas,
H ∼ W
p

H
, Σ) (1.75)
E ∼ W
p

E
, Σ) (1.76)
independientes. Entonces, el cociente:
[E[
[E +H[
sigue la distribución conocida como lambda de Wilks de dimensión p y con grados
de libertad ν
H
y ν
E
, que denotaremos por Λ(p, ν
H
, ν
E
).
La distribución anterior se conoce también como distribución U.
En las aplicaciones surgen de modo muy natural matrices de Wishart E y H
asociadas a “suma de cuadrados de los residuos” y “suma de cuadrados atribui-
ble a la hipótesis H”. La Tabla 1.1 muestra el paralelismo existente entre algunos
productos de matrices Wishart y cocientes de sumas de cuadrados habituales en
regresión y ANOVA univariantes.
Cuadro 1.1: Equivalencia entre estadísticos uni- y multivariantes.
Matriz Distribución Análogo Distribución
multivariante univariante univariante
E

1
2
HE

1
2
Beta tipo II ˆ σ
2
H
/ˆ σ
2
E
ν
E
ν
H
T
ν
E

H
multivariante
(E +H)

1
2
H(E +H)

1
2
Beta tipo I
ˆ σ
2
H
ˆ σ
2
H
+ˆ σ
2
E
Beta(
ν
E
2
,
ν
H
2
)
multivariante
Los siguientes teoremas sobre los valores propios de las matrices en la Tabla
1.1 y sus análogas no simétricas HE
−1
y H(E +H)
−1
son de utilidad.
Teorema 1.5 Sean E y H matrices simétricas y definidas positivas. Entonces los
valores propios de HE
−1
son no negativos y los de H(E + H)
−1
no negativos y
menores que 1.
28 CAPÍTULO 1. NORMAL MULTIVARIANTE Y ASOCIADAS
DEMOSTRACION:
[HE
−1
−φI[ = 0 ⇔ [HE

1
2
−φE
1
2
[ = 0
⇔ [E

1
2
HE

1
2
−φI[ = 0
Es claro que E

1
2
HE

1
2
es semidefinida positiva, pues para cualquier x tenemos
que x

E

1
2
HE

1
2
x = z

Hz, en que z = E

1
2
x.
Sean entonces φ
1
, . . . , φ
d
los valores propios de HE
−1
. Tenemos de manera
enteramente similar que los de H(E +H)
−1
son soluciones de
[H(E +H)
−1
−θI[ = 0 ⇔ [H −θ(E +H)[ = 0
⇔ [(1 −θ)H −θE[ = 0

HE
−1

θ
1 −θ
I

= 0
lo que evidencia que
φ
i
=
θ
i
1 −θ
i
, (i = 1, . . . , d)
y por tanto
θ
i
=
φ
i
1 +φ
i
. (i = 1, . . . , d)
claramente comprendido entre 0 y 1.
Hay diversas tabulaciones de funciones de interés de dichos valores propios
cuando las matrices E y H son Wishart independientes: del mayor de ellos, de
la suma, del producto, etc., funciones todas ellas que se presentan de modo natu-
ral como posibles estadísticos de contraste en las aplicaciones. Un examen de las
relaciones entre los diversos estadísticos se posterga a las Secciones 3.3 y 4.3.
1.9. CONTRASTES EN LA DISTRIBUCIÓN NORMAL 29
1.9. Contrastes en la distribución normal
El supuesto de normalidad encuentra parcial justificación en el teorema central
del límite: si las influencias sobre un sistema son múltiples, aproximadamente in-
correladas entre sí, y sin ninguna que tenga una importancia dominadora del total,
cabe esperar que el resultado se distribuirá de modo aproximadamente normal.
En la práctica, ello resulta mucho más problemático con variables multivarian-
tes que univariantes. Tiene interés disponer de contrastes que permitan evaluar el
ajuste a una normal tanto en el caso uni- como multivariante. En lo que sigue se
introducen algunos de esos contrastes.
Debe tenerse presente que, incluso aunque el supuesto de normalidad parezca
claramente inadecuado, muchos de los procedimientos desarrollados bajo el mismo
continúan dando resultados aceptables. En lo sucesivo trataremos de indicar en ca-
da caso como afecta el incumplimiento del supuesto de normalidad a los contrastes
y estimaciones.
1.9.1. Diagnósticos de normalidad univariante
Podría, desde luego, emplearse un contraste de ajuste “todo terreno”, como la
prueba χ
2
o el test de Kolmogorov-Smirnov, descritos en cualquier texto básico de
Estadística (por ej., Trocóniz (1987a), p. 249). Pero hay contrastes especializados
que dan habitualmente mejor resultado cuando la hipótesis de ajuste a contrastar
es la de normalidad.
Gráficos QQ. Una de las pruebas más simples e ilustrativas para evaluar el ajuste
de una muestra y
1
, . . . , y
n
a una distribución normal consiste en construir su gráfico
QQ. Se hace de la siguiente manera:
1. Se ordena la muestra, obteniendo y
(1)
≤ . . . ≤ y
(n)
. Entonces y
(i)
es el
cuantil
i
n
muestral —deja a su izquierda o sobre él una fracción
i
n
de la
muestra—. Habitualmente se considera como el cuantil
(i−
1
2
)
n
(corrección de
continuidad).
2. Se obtienen (mediante tablas o por cualquier otro procedimiento) los cuan-
tiles
(i−
1
2
)
n
de una distribución N(0, 1), es decir, los valores q
1
≤ . . . ≤ q
n
verificando:

q
i
−∞
1


exp


x
2
2

dx =
(i −
1
2
)
n
.
3. Se hace la gráfica de los puntos (q
i
, y
(i)
), i = 1, . . . , n.
Es fácil ver que en el supuesto de normalidad los puntos deberían alinearse apro-
ximadamente sobre una recta. Si no presentara forma aproximadamente rectilínea,
tendríamos motivo para cuestionar la normalidad.
30 CAPÍTULO 1. NORMAL MULTIVARIANTE Y ASOCIADAS
Contraste de Shapiro-Wilk. Está basado en el cociente del cuadrado de la me-
jor, o aproximadamente mejor, estimación lineal insesgada de la desviación stan-
dard dividida por la varianza muestral. El numerador se construye tomando una
combinación lineal de los valores ordenados de la muestra, con coeficientes pro-
porcionados en Shapiro and Wilk (1965). Lógicamente, cada tamaño de muestra
requiere unos coeficientes diferentes. En su formulación original, era de aplicación
sólo a muestras reducidas —con n ≤ 50 aproximadamente—. No obstante, trabajo
posterior (ver Royston (1995)) ha permitido extenderlo a tamaños muestrales tan
grandes como n ≤ 5000. Una alternativa para n muy grande es el contraste de
D’Agostino a continuación.
Observación 1.4
Contraste de D’Agostino. El contraste de D’Agostino (ver D’Agostino (1971);
tablas en D’Agostino (1972) reproducidas en Rencher (1995) y en el Apéndice)
emplea el estadístico
D =
¸
n
i=1

i −
1
2
(n + 1)

y
(i)

n
3
¸
n
i=1
(y
(i)
−y)
2
(1.77)
o alternativamente su expresión aproximadamente centrada y tipificada
Y =

n

D −(2

π)
−1

0,02998598
. (1.78)
Requiere n > 50. Su distribución para diferentes n está tabulada. Es un contraste
“ómnibus”, sin una alternativa predefinida. No obstante, el valor de Y proporciona
información acerca de la naturaleza de la desviación de la muestra analizada res-
pecto al comportamiento normal: cuando la kurtosis es más de la esperada bajo una
hipótesis normal, Y tiende a tomar valores negativos. Lo contrario sucede cuando
la muestra presenta menos kurtosis de la esperable en una normal.
Hay otros varios contrastes, explotando una idea similar o comparando la si-
metría y kurtosis de la muestra con las esperables bajo la hipótesis de normalidad:
véase Rencher (1995), Sec. 4.4 para un resumen.
1.9.2. Diagnósticos de normalidad multivariante
Un paso previo consistirá en examinar la normalidad de las distribuciones mar-
ginales unidimensionales: esta es necesaria, pero no suficiente, para la normalidad
multivariante, que es más restrictiva que la mera normalidad de las marginales. Hay
un caso, no obstante, en que la normalidad de las marginales si implica normalidad
multivariante: el caso de independencia, como resulta fácil comprobar.
Puede pensarse en explotar las ideas en los contrastes univariantes descritos,
pero hay que hacer frente a problemas adicionales: no hay una ordenación natu-
ral en el espacio p-dimensional, y tropezamos rápidamente con la “maldición de
1.9. CONTRASTES EN LA DISTRIBUCIÓN NORMAL 31
la dimensionalidad” (dimensionality curse). Lo primero es claro; para adquirir al-
guna intuición sobre la “maldición de la dimensionalidad” es bueno considerar el
siguiente ejemplo.
Ejemplo 1.3 (en un espacio de elevada dimensionalidad, los puntos
quedan casi siempre “lejos”) Consideremos un espacio de dimensión dos;
los puntos cuyas coordenadas no difieran en más de una unidad, distan a lo
sumo (en distancia euclídea)

2. En R
3
, la distancia sería

3 y, en general,

p en R
p
. Alternativamente podríamos pensar en los siguientes términos. El
volumen de una hiper-esfera de radio r en p dimensiones tiene por expresión
S
p
=
π
p/2
r
p
Γ(
p
2
+ 1)
. (1.79)
Esta fórmula da para p = 2 y p = 3 las familiares fórmulas de la superficie
del círculo y volumen de la esfera
2
. Cuando p = 3, la esfera de radio unidad
ocupa un volumen de 4π/3 = 4,1887; el cubo circunscrito (de lado 2, por
tanto) tiene un volumen de 8. De los puntos en el cubo, más de la mitad
quedan a distancia menos de 1 del centro de la esfera. Cuando la dimensión
p crece, la razón de volúmenes de la hiper-esfera y el hiper-cubo circunscritos
es
π
p/2
2
p
Γ(
p
2
+ 1)
, (1.80)
rápidamente decreciente a cero. Casi todo el volumen de un cubo en p ≫ 3
dimensiones está en las “esquinas”. No hay apenas puntos a corta distancia
del centro de la esfera.
Lo que el ejemplo sugiere es que una muestra, salvo de tamaño descomunal,
será siempre escasa si el número de dimensiones es alto, y ello no permite concebir
muchas esperanzas en cuanto a la potencia que podamos obtener.
Contraste de Gnanadesikan y Kettenring. Dada una muestra y
1
, . . . , y
n
pro-
ponen construir los estadísticos,
u
i
=
n
(n −1)
2
(y
i
−y)

S
−1
(y
i
−y) (1.81)
que se demuestra siguen una distribución B(α, β) con α y β definidos así:
α =
p −1
2p
(1.82)
β =
n −p −2
2(n −p −1)
. (1.83)
2
Basta recordar que Γ(r) = (r −1)Γ(r −1), Γ(1) = 1 y Γ(
1
2
) =

π.
32 CAPÍTULO 1. NORMAL MULTIVARIANTE Y ASOCIADAS
Los cuantiles de una B(α, β) vienen dados por
v
i
=
i −α
n −α −β + 1
, (1.84)
lo que sugiere hacer la gráfica de los puntos (v
i
, u
(i)
) y comprobar su alineación
sobre una recta. La separación de la recta es indicativa de violación de la hipótesis
de normalidad multivariante.
Al igual que en la sección anterior, cabe pensar en contrastes formales que
ayuden a nuestro juicio subjetivo sobre la falta de linealidad o no de los puntos
mencionados. Como estadístico puede utilizarse
D
2
(n)
= m´ax
i
D
2
i
, (1.85)
en que D
2
i
= (y
i
−y)

S
−1
(y
i
−y). Los valores críticos están tabulados en Barnett
and Lewis (1978).
Un hecho de interés es que el contraste está basado en las cantidades D
i
, que
son de interés en si mismas como medida de la “rareza” de puntos muestrales
—miden la lejanía de cada punto al vector de medias estimado de la muestra en
distancia de Mahalanobis—. El contraste reseñado puede por tanto verse también
como un contraste de presencia de puntos extraños o outliers.
Otros contrastes. Se han propuesto otros contrastes, como el de Mardia (1974),
que investiga la asimetría y kurtosis en la muestra en relación con la esperable en
una normal multivariante.
1.9.3. Búsqueda de outliers
Es en general mucho más difícil en espacios de elevada dimensionalidad que
en una, dos o tres dimensiones, donde es posible la visualización.
Un método atrayente es el siguiente: sea S la estimación habitual de la matriz
de covarianzas basada en una muestra de tamaño n y sea S
−i
el mismo estimador
prescindiendo de la observación i-ésima. Consideremos el estadístico:
W = m´ax
i
[(n −2)S
−i
[
[(n −1)S[
(1.86)
Si hubiera alguna observación que fuera un outlier, “hincharía” mucho la estima-
ción de la matriz de covarianzas, y esperaríamos que W tuviera un valor “peque-
ño”; por tanto, W tendrá su región crítica por la izquierda. Se puede demostrar
que
W = 1 −
nD
2
(n)
(n −1)
2
(1.87)
con D
(n)
definido con en (1.85), p. 32, lo que permite emplear para el contraste
basado en W las tablas en Barnett and Lewis (1978).
1.9. CONTRASTES EN LA DISTRIBUCIÓN NORMAL 33
Alternativamente, definamos
F
i
=
n −p −1
p

1 −
nD
2
i
(n −1)
2

−1
(i = 1, . . . , n) (1.88)
Entonces, F
i
iid
∼F
p,n−p−1
y
P

m´ax
i
F
i
> f

= 1 −[P(F < f)]
n
(1.89)
en que F es una variable con distribución T de Snedecor. Obsérvese que ambos
contrastes están relacionados:
F
(n)
def
= m´ax
i
F
i
=
n −p −1
p

1
W
−1

. (1.90)
CUESTIONES, COMPLEMENTOS Y COSAS PARA HACER
1.1 Las funciones de R qqnorm y shapiro.test(ésta última en el
paquete ctest) permiten realizar con comodidad gráficas QQ y el contraste
de Shapiro-Wilk respectivamente.
34 CAPÍTULO 1. NORMAL MULTIVARIANTE Y ASOCIADAS
Capítulo 2
Inferencia en poblaciones
normales multivariantes.
2.1. Inferencia sobre el vector de medias.
Como estimador de µ empleamos habitualmente X =
1
N
¸
N
i=1
X
i
, que es
el estimador máximo verosímil si la distribución es normal multivariante. Como
estimador de la matriz de covarianzas puede emplearse S = (1/N)
¸
N
i=1
(X
i

X)(X
i
−X)

(máximo verosímil, sesgado) o N(N−1)
−1
S = (N−1)
−1
¸
N
i=1
(X
i

X)(X
i
−X)

(insesgado). Es habitualmente irrelevante cual de ellos se emplee,
en especial si N es moderadamente grande. En los desarrollos que siguen emplea-
remos S.
2.1.1. Contraste sobre el vector de medias conocida Σ.
Como X ∼ N
d
(µ,
1
N
Σ), tenemos que:
N(X −µ)

Σ
−1
(X −µ) ∼ χ
2
d
Para contrastar H
0
: µ = µ
0
calcularíamos el valor del estadístico
Q
0
= N(X −µ
0
)

Σ
−1
(X −µ
0
),
rechazando la hipótesis al nivel de significación α si Q
0
> χ
2
d,α
.
35
36 CAPÍTULO 2. INFERENCIA EN NORMAL MULTIVARIANTE
2.1.2. Contraste sobre el vector de medias con Σ desconocida.
Como,
NS ∼ W
d
(N −1, Σ) (2.1)

N(X −µ) ∼ N
d
(0, Σ) (2.2)
y además son independientes, podemos asegurar que bajo la hipótesis nula H
0
: µ =
µ
0
se verifica
N(N −1)(X −µ
0
)

(NS)
−1
(X −µ
0
) ∼ T
2
d,N−1
,
o sea,
(N −1)(X −µ
0
)

S
−1
(X −µ
0
) ∼ T
2
d,N−1
.
Por consiguiente,
N −1 −d + 1
d
T
2
d,N−1
N −1
∼ T
d,N−1−d+1
(2.3)
N −d
d
(X −µ
0
)

S
−1
(X −µ
0
) ∼ T
d,N−d
(2.4)
El rechazo se producirá al nivel de significación α si el estadístico supera T
α
d,N−d
.
2.1.3. Contraste de igualdad de medias en dos poblaciones con matriz
de covarianzas común.
Si tenemos dos muestras,
Muestra 1 : X
1
, X
2
, . . . , X
N
1
(2.5)
Muestra 2 : Y
1
, Y
2
, . . . , Y
N
2
(2.6)
procedentes de sendas poblaciones normales multivariantes con matriz de cova-
rianzas común Σ, entonces:
X =
1
N
1
N
1
¸
i=1
X
i
(2.7)
Y =
1
N
2
N
2
¸
j=1
Y
j
(2.8)
(2.9)
N
1
S
1
=
N
1
¸
i=1
(X
i
−X)(X
i
−X)

∼ W
d
(N
1
−1, Σ) (2.10)
N
2
S
2
=
N
2
¸
j=1
(Y
j
−Y )(Y
j
−Y )

∼ W
d
(N
2
−1, Σ) (2.11)
2.1. INFERENCIA SOBRE EL VECTOR DE MEDIAS. 37
Por consiguiente, S = (N
1
S
1
+N
2
S
2
)/(N
1
+N
2
) es un estimador de Σ que hace
uso de información en ambas muestras, y (N
1
+ N
2
)S ∼ W
d
(N
1
+ N
2
− 2, Σ).
Bajo la hipótesis H
0
: E[X] = E[Y ] = µ
0
, E(X −Y ) = 0. Por otra parte,
Σ
(X−Y)
=
1
N
1
Σ +
1
N
2
Σ =
(N
1
+N
2
)
N
1
N
2
Σ.
Por consiguiente, bajo H
0
,

N
1
N
2
N
1
+N
2
(X −Y ) ∼ N
d
(0, Σ)
(N
1
+N
2
−2)
N
1
N
2
(N
1
+N
2
)
2
(X −Y )

S
−1
(X −Y ) ∼ T
2
d,N
1
+N
2
−2
N
1
+N
2
−d −1
d
N
1
N
2
(N
1
+N
2
)
2
(X −Y )

S
−1
(X −Y ) ∼ T
d,N
1
+N
2
−d−1
.
Como en el caso anterior, se producirá el rechazo de la hipótesis nula de igual-
dad de medias al nivel de significación α cuando el estadístico anterior supere
T
α
d,N
1
+N
2
−d−1
.
2.1.4. Contraste de hipótesis lineales generales sobre el vector de me-
dias de una única población.
Supongamos que la hipótesis que deseamos contrastar es expresable en la for-
ma H
0
: Cµ = δ, siendo δ un vector q 1 y C una matriz q d de rango q.
De acuerdo con la teoría en la Sección anterior, bajo H
0
:

N(CX − δ) ∼
N
q
(0, CΣC

), y NCSC

∼ W
q
(N −1, CΣC

). Por consiguiente:
N(N −1)(CX −δ)

(NCSC

)
−1
(CX −δ) ∼ T
2
q,N−1
(2.12)
(N −1)(CX −δ)

(CSC

)
−1
(CX −δ) ∼ T
2
q,N−1
(2.13)
N −q
q
(CX −δ)

(CSC

)
−1
(CX −δ) ∼ T
q,N−q
(2.14)
siendo de nuevo la región crítica la formada por la cola derecha de la distribución
(valores grandes del estadístico producen el rechazo de la hipótesis de contraste).
Ejemplo 2.1 Supongamos que estamos interesados en contrastar si la
resistencia al desgaste de dos diferentes marcas de neumáticos es la misma o
no. Este es un problema típico de Análisis de Varianza: montaríamos los dos
tipos de neumáticos en diferentes coches y, dentro de cada coche, en dife-
rentes ruedas, y diseñaríamos el experimento de modo que hasta donde fuera
posible ningún factor ajeno al tipo de neumático influyera en su duración. Por
ejemplo, nos abstendríamos de probar el primer tipo de neumático siempre
en ruedas traseras, y el segundo en ruedas delanteras, etc.
Sin embargo, no siempre podemos controlar todos los factores en pre-
sencia. Supongamos que los dos tipos de neumáticos se montan por pares en
38 CAPÍTULO 2. INFERENCIA EN NORMAL MULTIVARIANTE
cada coche, cada tipo en una rueda delantera y una trasera. Obtendríamos de
cada coche un vector X = (X
1
, X
2
, X
3
, X
4
) de valores, los dos primeros
correspondiendo al primer tipo de neumático y los dos siguientes al segun-
do. Salvo que hayamos diseñado el experimento con total control del tipo
de conductor, estilo de conducción, trayecto, tiempo atmosférico, etc., no es
prudente dar por supuesta la independencia entre las componentes de cada
vector, como sería necesario para hacer un análisis de varianza univariante
ordinario. En efecto, todas ellas han sido influenciadas por factores comunes
—como coche, conductor, trayecto recorrido—.
Si µ = (µ
1
, . . . , µ
4
) es el vector de medias, la hipótesis de interés podría
expresarse así:
Cµ = 0
con
C =

1 0 −1 0
0 1 0 −1

.
El contraste haría entonces uso de (2.14).
2.1.5. Contraste de hipótesis lineales sobre los vectores de medias de
dos poblaciones.
Sean dos poblaciones normales multivariantes, con matriz de covarianzas común
Σ, de las que poseemos sendas muestras aleatorias simples:
Muestra 1 : X
1
, X
2
, . . . , X
N
1
(2.15)
Muestra 2 : Y
1
, Y
2
, . . . , Y
N
2
(2.16)
Si la hipótesis H
0
: Cµ
1
−Cµ
2
= δ es cierta y C es una matriz q d de rango
q, se verifica,

N
1
N
2
N
1
+N
2
(CX −CY −δ) ∼ N
q
(0, CΣC

)
(N
1
+N
2
)S = N
1
S
1
+N
2
S
2
∼ W
d
(N
1
+N
2
−2, Σ)
(N
1
+N
2
)CSC

∼ W
q
(N
1
+N
2
−2, CΣC

),
y por tanto,
ℓ(CX −CY −δ)

[(N
1
+N
2
)CSC

]
−1
(CX −CY −δ) ∼ T
2
q,N
1
+N
2
−2
con
ℓ =
N
1
N
2
N
1
+N
2
(N
1
+N
2
−2),
que tras simplificar proporciona:
k(CX −CY −δ)

(CSC

)
−1
(CX −CY −δ) ∼ T
q,N
1
+N
2
−q−1
(2.17)
2.1. INFERENCIA SOBRE EL VECTOR DE MEDIAS. 39
Figura 2.1: Disposición de dos vectores de medias paralelos
µ
1
µ
2
con
k =
N
1
+N
2
−q −1
q
N
1
N
2
(N
1
+N
2
)
2
.
Ejemplo 2.2 Contrastes de esta naturaleza surgen de forma habitual.
Hay veces en que la hipótesis de interés no se refiere a la igualdad de los
vectores de medias, sino a su forma. Por ejemplo, sean X
i
e Y
j
vectores
aleatorios dando para los sujetos i-ésimo (respectivamente, j-ésimo) de dos
poblaciones las sensibilidades auditivas a sonidos de diferentes frecuencias.
Si una de las poblaciones agrupa a jóvenes y otra a ancianos, la hipóte-
sis de igualdad de medias no tendría mayor interés: podemos esperar menor
sensibilidad en los mayores. Podría interesarnos en cambio contrastar si los
vectores de medias son paralelos (véase Figura 2.1). Es decir, si la espera-
ble pérdida de audición de los ancianos se produce de forma uniforme sobre
todas las frecuencias consideradas, o si por el contrario se pierde más sensi-
bilidad para sonidos graves, agudos, u otros. Tal hipótesis se traduciría a una
hipótesis de desplazamiento uniforme del vector de medias de una población
respecto al de la otra.
Es fácil ver como llevar a cabo dicho contraste con ayuda de (2.17):
bastaría tomar
C =

¸
¸
¸
¸
1 −1 0 . . . 0
1 0 −1 . . . 0
.
.
.
.
.
.
.
.
.
.
.
.
1 0 0 . . . −1
¸

y δ = 0.
40 CAPÍTULO 2. INFERENCIA EN NORMAL MULTIVARIANTE
2.2. Inferencia sobre el coeficiente de correlación entre
dos v.a. normales X
1
, X
2
.
Si X =

X
1
X
2


∼ N
2
(µ, Σ), Z =
¸
n
i=1
(X
i
−X)(X
i
−X)

se distribuye
como W
2
(n − 1, Σ). El coeficiente de correlación muestral al cuadrado, R
2
X
1
,X
2
,
es entonces Z
2
12
/Z
11
Z
22
, y su función de densidad puede obtenerse por transfor-
mación de la de la Z. Omitimos los detalles
1
. Puede comprobarse que la función
de densidad de R = R
X
1
,X
2
(prescindimos de los subíndices por comodidad nota-
cional) es:
f
R
(r) =
(1 −ρ
2
)
n/2

πΓ

n
2

Γ

n−1
2
(1 −r
2
)
(n−3)/2

Γ

n
2

2
+

¸
p=1
(2ρr)
p
p!

Γ

n +p
2

2
¸
¸
([r[ < 1)
De ella se deduce que:
E[R] = ρ +O

1
n

(2.18)
Var[R] =
(1 −ρ
2
)
2
n
+O

1
n
3/2

. (2.19)
Bajo la hipótesis nula H
0
: ρ = 0 la densidad se simplifica notablemente:
f
R
(r) =
1
B

1
2
,
n−1
2
(1 −r
2
)
(n−3)/2
([r[ < 1)
y T
2
= (n − 1)R
2
/(1 − R
2
) sigue una distribución T
1,n−1
, lo que permite con-
trastar fácilmente la hipótesis de nulidad. Por otra parte, Fisher mostró que
Z =
1
2
log
e
1 +R
1 −R
= tanh
−1
R
se distribuye aproximadamente como:
Z ∼ N
¸
1
2
log
e
1 +ρ
1 −ρ
,
1
n −3

para n “grande”, lo que permite construir intervalos de confianza para ρ. La apro-
ximación anterior es válida en el caso normal, y resulta fuertemente afectada por
la kurtosis.
1
Pueden consultarse en Fourgeaud and Fuchs (1967) p. 135.
2.3. INFERENCIA SOBRE LA MATRIZ DE COVARIANZAS. 41
2.3. Inferencia sobre la matriz de covarianzas.
Existen contrastes para una gran variedad de hipótesis sobre la matriz de cova-
rianzas de una población normal, o sobre las matrices de covarianzas de más de
una población: Seber (1984) y Anderson (1978) son referencias adecuadas. Sólo
a título de ejemplo, señalaremos los estadísticos empleados en el contraste de dos
hipótesis particulares.
2.3.1. Contraste de igualdad de matrices de covarianzas en dos pobla-
ciones normales.
Sean dos poblaciones normales multivariantes de las que poseemos sendas
muestras:
Muestra 1 : X
1
, X
2
, . . . , X
N
1
∼ N
d

1
, Σ
1
) (2.20)
Muestra 2 : Y
1
, Y
2
, . . . , Y
N
2
∼ N
d

2
, Σ
2
) (2.21)
Sean,
S
1
=
1
N
1
N
1
¸
i=1
(X
i
−X)(X
i
−X)

(2.22)
S
2
=
1
N
2
N
2
¸
j=1
(Y
j
−Y )(Y
j
−Y )

(2.23)
S =
1
N
1
+N
2
(N
1
S
1
+N
2
S
2
) (2.24)
N = N
1
+N
2
(2.25)
los estimadores habituales de las matrices de covarianzas en cada población y de
la matriz de covarianzas conjunta. Sea,
ℓ =
[S[
−N/2
[S
1
[
−N
1
/2
[S
2
[
−N
2
/2
(2.26)
Bajo la hipótesis nula H
0
: Σ
1
= Σ
2
, −2 log
e
ℓ ∼ χ
2
1
2
d(d+1)
asintóticamente.
2.3.2. Contraste de diagonalidad por bloques de la matriz de cova-
rianzas de una única población normal.
Bajo la hipótesis H
0
: Σ =

Σ
11
0
0 Σ
22

, y con la notación habitual, se tiene:
Λ
def
=
[S[
[S
11
[[S
22
[
=
[S
11
−S
12
S
−1
22
S
21
[[S
22
[
[S
11
[[S
22
[
=
[S
11,2
[
[S
11
[
. (2.27)
42 CAPÍTULO 2. INFERENCIA EN NORMAL MULTIVARIANTE
Bajo la hipótesis nula, la matriz en el numerador es una Wishart W
p
(N−q−1, Σ
11
)
y la del denominador W
p
(N − 1, Σ
11
). Por otra parte, como X
1
= E[X
1
[X
2
] +
(X
1
− E[X
1
[X
2
]) es una descomposición de X
1
en sumandos independientes,
tenemos que: S
11
= S
11,2
+ (S
11
− S
11,2
) descompone S
11
en la suma de dos
Wishart independientes. Por tanto,
Λ =
[S
11,2
[
[S
11,2
+ (S
11
−S
11,2
)[
∼ Λ
p,q,N−q−1
lo que sugiere un modo de hacer el contraste.
Existen diferentes aproximaciones para la distribución Λ. Para valores ausentes
en tablas, puede emplearse la aproximación
−(N −
1
2
(p +q + 3)) log
e
Λ ∼ χ
2
pq
,
o alternativamente
1 −Λ
1/t
Λ
1/t
gl
2
gl
1
∼ T
gl
1
,gl
2
en que
gl
1
= pq
gl
2
= wt −
1
2
pq + 1
w = N −
1
2
(p +q + 3)
t =

p
2
q
2
−4
p
2
+q
2
−5
.
Observación 2.1 λ = Λ
N
2
con Λ definida en (2.27) sería la razón ge-
neralizada de verosimilitudes bajo las hipótesis respectivas: H
0
: Σ
12
= 0
versus H
a
: Σ general. Un resultado asintótico utilizable en general cuando
las hipótesis son (como en este caso) anidadas, establece que
−2 log
e
λ ∼ χ
2
n
siendo n la diferencia de parámetros adicionales que especifica la hipótesis
nula respecto de la alternativa. En nuestro caso, n = pq, porque la hipótesis
nula prescribe pq parámetros nulos (las covarianzas contenidas en el bloque
Σ
12
).
El mismo resultado asintótico se ha empleado en el apartado anterior
para aproximar la distribución de ℓ en (2.26). Más detalles sobre contras-
tes razón generalizada de verosimilitudes pueden encontrarse en Garthwaite
et al. (1995), p. 84 y Cox and Hinkley (1974).
2.3. INFERENCIA SOBRE LA MATRIZ DE COVARIANZAS 43
2.3.3. Contraste de esfericidad
Sea Y
1
, . . . , Y
N
una muestra procedente de una población N
p
(µ, Σ). Estamos
interesados en contrastar si la matriz de covarianzas es de la forma Σ = σ
2
I, lo
que se traduciría en contornos de igual densidad que serían superficies o hiper-
superficies esféricas.
El contraste se efectúa haciendo uso de la técnica de la razón de verosimilitudes
(Observación 2.1), que en este caso proporciona:
L =
¸
[S[
(traza(S)/p)
p
N
2
. (2.28)
Por tanto, asintóticamente,
−2 log
e
L = −N log
e
¸
[S[
(traza(S)/p)
p

∼ χ
2
p(p+1)
2
−1
.
Los grados de libertad de la χ
2
son la diferencia de parámetros entre una matriz
de covarianzas general (
p(p+1)
2
, habida cuenta de la simetría) y los de otra con
estructura escalar σ
2
I (sólamente uno).
El estadístico en (2.28) puede escribirse en función de los valores propios de S
así:
L =
¸
[
¸
i=1
λ
i
[
(
¸
p
i=1
λ
i
/p)
p
N
2
.
El cociente en la expresión anterior es (la potencia de orden p) de la media geomé-
trica a la media aritmética de los autovalores, y por tanto un índice de su disimila-
ridad, tanto más pequeño cuanto más desiguales sean éstos; lo que es acorde con
la intuición.
Una mejor aproximación a la distribución χ
2
se logra sustituyendo −2 log
e
L
por el estadístico
L

= −

ν −
2p
2
+p + 2
6p

log
e
¸
[
¸
p
i=1
λ
i
[
(
¸
p
i=1
λ
i
/p)
p

,
en que ν es el número de grados de libertad de la Wishart que ha dado lugar a S:
N − 1 si ha sido estimada a partir de una sóla muestra con media desconocida, y
N − k si ha sido estimada a partir de k muestras en cada una de las cuales se ha
ajustado una media.
CUESTIONES, COMPLEMENTOS Y COSAS PARA HACER
2.1 Mostrar que el estadístico T
2
de Hotelling
(N −1)(X −µ
0
)

S
−1
(X −µ
0
) (2.29)
empleado para el contraste multivariante de H
0
: µ = µ
0
, tomará un va-
lor significativo al nivel α sólo si existe un vector de coeficientes a tal que
H
0
: a

µ = a

µ
0
resulta rechazada al mismo nivel α por un contraste t de
Student univariante ordinario.
44 CAPÍTULO 2. INFERENCIA EN NORMAL MULTIVARIANTE
Capítulo 3
Análisis de varianza
multivariante
3.1. Introducción
Los modelos de Análisis de Varianza Multivariante (MANOVA) son una gene-
ralización directa de los univariantes. Lo único que varía es que la respuesta que
se estudia es un vector para cada observación, en lugar de una variable aleatoria
escalar. Ello conlleva que las sumas de cuadrados cuyos cocientes proporcionan
los contrastes de las diferentes hipótesis, sean ahora formas cuadráticas generali-
zadas. Los estadísticos de contraste, por su parte, serán cocientes de determinantes
(con distribución Λ de Wilks) o diferentes funciones de valores propios de ciertas
matrices.
Un descripción del modelo univariante puede encontrarse en casi cualquier tex-
to de regresión: Seber (1977), Stapleton (1995) o Trocóniz (1987a), por mencionar
sólo algunos. Cuadras (1981), Cap. 20 y 21 contiene una presentación autoconte-
nida de los modelos ANOVA y MANOVA.
La exposición que sigue presupone familiaridad con el modelo de análisis de
varianza univariante.
3.2. Modelo MANOVA con un tratamiento
Estudiamos una característica multivariante Y
ij
que suponemos generada así:
Y
ij
= µ
i

ij
= µ +α
i

ij
(3.1)
ǫ
ij
∼ N(0, Σ) (3.2)
45
46 CAPÍTULO 3. ANÁLISIS DE VARIANZA MULTIVARIANTE
En (3.1), Y
ij
es el vector de valores que toma la v.a. multivariante estudiada para el
caso j-ésimo sujeto al tratamiento i-ésimo. De existir un efecto atribuible al nivel
i-ésimo del tratamiento, éste vendría recogido por el vector α
i
. Supondremos el
mismo número de casos estudiados con cada nivel del único tratamiento (es decir,
consideraremos sólo el caso de diseño equilibrado): hay k niveles y la muestra
incluye n casos tratados con cada nivel.
La hipótesis de interés más inmediato sería:
H
0
: µ
1
= µ
2
= . . . = µ
k
(⇔α
i
= 0 ∀i)
versus H
a
: µ
i
= µ
j
para algún i, j.
De un modo enteramente similar a como sucede en el caso ANOVA univariante, la
suma generalizada de cuadrados en torno a la media Y
..
se descompone así:
k
¸
i=1
n
¸
j=1
(Y
ij
− Y
..
)(Y
ij
−Y
..
)

=
k
¸
i=1
n
¸
j=1
(Y
ij
−Y
i.
+Y
i.
−Y
..
)(Y
ij
−Y
i.
+Y
i.
−Y
..
)

=
k
¸
i=1
n
¸
j=1
(Y
ij
−Y
i.
)(Y
ij
−Y
i.
)

. .. .
E
+n
k
¸
i=1
(Y
i.
−Y
..
)(Y
i.
−Y
..
)

. .. .
H
Ahora bien, la teoría anterior (en particular, el Teorema 1.3, p. 22), muestra que las
matrices aleatorias E y H en la expresión anterior tienen distribuciones respectivas,
E ∼ W(k(n −1), Σ) (3.3)
H
H
0

W(k −1, Σ). (3.4)
La distribución de E se sigue de los supuestos; la de H es correcta cuando la
hipótesis nula es cierta. Además, hay independencia entre ambas matrices Wishart,
en virtud del Teorema 1.3. En consecuencia, bajo la hipótesis nula,
Λ =
[E[
[E +H[
∼ Λ
p,k−1,k(n−1)
.
Si H
0
no se verifica, H “engordará”: será una Wishart no central. Son valores
pequeños del estadístico Λ anterior los que cabe interpretar como evidencia contra
la hipótesis nula.
3.3. Relación entre diversos contrastes
Observemos que si δ
1
, . . . , δ
p
son los valores propios de E
−1
H,
Λ =
[E[
[E +H[
=
p
¸
i=1

1
1 +δ
i

. (3.5)
3.4. MODELOS MANOVA CON DOS O MÁS TRATAMIENTOS 47
El estadístico de contraste es una particular función de los autovalores de E
−1
H.
No es la única elección posible: hay otras que mencionamos brevemente.
Estadístico máxima raíz de Roy.
θ =
δ
1
1 +δ
1
.
Estadístico de Pillai.
V =
p
¸
i=1
δ
i
1 +δ
i
.
Estadístico de Lawley–Hotelling.
U =
p
¸
i=1
δ
i
.
De todos ellos hay tabulaciones que permiten contrastar H
0
con comodidad. Su
comportamiento es diferente dependiendo del tipo de incumplimiento de la hipóte-
sis H
0
. Por ejemplo, el estadístico de Roy está particularmente indicado cuando los
vectores de medias µ
1
, . . . , µ
k
están aproximadamente alineados: esto hace crecer
el primer valor propio de H y de E
−1
H. En cambio, cuando los vectores de me-
dias son diferentes y no están alineados, los otros estadísticos proporcionarán en
general más potencia. Volveremos sobre esta cuestión en la Sección 4.3, p. 54.
3.4. Modelos MANOVA con dos o más tratamientos
De modo análogo a como sucede en el caso univariante, un modelo MANOVA
con dos tratamientos supone que la respuesta (multivariante) Y
ijk
(correspondiente
al k-ésimo caso, tratado con los niveles i y j de los tratamientos A y B respec-
tivamente) se genera alternativamente de una de las siguientes formas (sin y con
interacción, respectivamente):
Y
ijk
= µ +α
i

j

ijk
Y
ijk
= µ +α
i

j

ij

ijk
El análisis es entonces reminiscente del que se realiza en el caso univariante. Las
sumas de cuadrados del análisis univariante son ahora sumas de cuadrados gene-
ralizadas: matrices que, bajo los supuestos de normalidad multivariante y de vi-
gencia de las respectivas hipótesis de contraste, se distribuyen como Wishart. A
título puramente ilustrativo transcribimos en la Tabla 3.1 la partición de la suma
generalizada de cuadrados para un modelo con dos tratamientos e interacción.
48 CAPÍTULO 3. ANÁLISIS DE VARIANZA MULTIVARIANTE
Cuadro 3.1: Tabla de Análisis de Varianza para un modelo con dos tratamientos e
interacción
Fuente Suma cuadrados G.L.
A H
A
= KJ
¸
I
i=1
(Y
i..
−Y
...
)(Y
i..
−Y
...
)

I −1
B H
B
= KI
¸
J
j=1
(Y
.j.
−Y
...
)(Y
.j.
−Y
...
)

J −1
AB H
AB
= K
¸
I
i=1
¸
J
j=1
(Y
ij.
−Y
i..
−Y
.j.
+Y
...
)
(Y
ij.
−Y
i..
−Y
.j.
+Y
...
)

(I −1)(J −1)
Error E =
¸
I
i=1
¸
J
j=1
¸
K
k=1
(Y
ijk
−Y
ij.
)(Y
ijk
−Y
ij.
)

IJ(K −1)
Total T =
¸
I
i=1
¸
J
j=1
¸
K
k=1
(Y
ijk
−Y
...
)(Y
ijk
−Y
...
)

IJK −1
Podemos ahora construir contrastes para las hipótesis de nulidad de cada uno
de los efectos, empleando el estadístico Λ de Wilks, o cualquiera de los presentados
en la Sección 3.3. Si empleamos el primero tendríamos, por ejemplo, que bajo la
hipótesis H
A
: α
i
= 0 para i = 1, . . . , I,
Λ
A
=
[E[
[E +H
A
[
∼ Λ
p,I−1,IJ(K−1)
y valores suficientemente pequeños de Λ
A
conducirían al rechazo de la hipótesis.
Similares cocientes de sumas de cuadrados generalizadas permitirían contrastar
cada una de las restantes hipótesis de interés.
Salvo el contraste basado en el estadístico de Roy, los demás son bastante ro-
bustos a la no normalidad y a la heterogeneidad en las matrices de covarianzas de
los vectores de observaciones. Son bastante sensibles, en cambio, a la no indepen-
dencia de las observaciones. La robustez al incumplimiento de las hipótesis es en
general menor cuando aumenta la dimensión.
3.5. Extensiones y bibliografía
Cada modelo ANOVA univariante encuentra una generalización multivariante.
Métodos introducidos en el Capítulo 2 tienen también generalización al caso de
más de dos poblaciones, en el contexto de modelos MANOVA. Por ejemplo, el
modelo MANOVA con un único tratamiento puede verse como una generalización
del contraste en la Sección 2.1.3, p. 36. Del mismo modo otros.
Pueden consultarse sobre este tema Cuadras (1981), Cap. 20 y 21 y Rencher
(1995), Cap. 6.
CUESTIONES, COMPLEMENTOS Y COSAS PARA HACER
3.5. EXTENSIONES Y BIBLIOGRAFÍA 49
3.1 En S-PLUS, puede realizarse análisis de varianza multivariante
mediante la función manova. La sintaxis es muy similar a la de la función
lm, pero la respuesta debe ser una matriz, cuya filas son las observaciones.
Por ejemplo, podría invocar manova así:
solucion <- manova(resp ~ diseño,data=frame).
La función devuelve (en solución) un objeto de tipo maov, cuyas com-
ponentes pueden examinarse mediante
summary(solucion).
Los contrastes relacionados en la Sección 3.2 pueden obtenerse mediante la
opción test= de summary, que admite como valores “wilks lambda”,
“pillai”, “roy largest” y “hotelling-lawley”. Por ejem-
plo,
summary(solucion, test="pillai")
realizaría el contraste de Pillai.
50 CAPÍTULO 3. ANÁLISIS DE VARIANZA MULTIVARIANTE
Capítulo 4
Análisis de correlación canónica
4.1. Introducción.
Supongamos que tenemos un vector aleatorio X con (p+q) componentes, que
particionamos así: X

= (X
1

[X
2

). Sean,
Σ =

Σ
11
Σ
12
Σ
21
Σ
22

µ =

µ
1
µ
2

la matriz de covarianzas y el vector de medias particionados consecuentemente.
Desconocemos la matriz Σ, pero con ayuda de una muestra hemos obtenido su
estimador:
S =

S
11
S
12
S
21
S
22

Estamos interesados en contrastar la hipótesis H
0
: Σ
12
= 0 frente a la alter-
nativa H
a
: Σ
12
= 0; es decir, queremos saber si el primer grupo de p variables
(X
1
) está o no correlado con el segundo grupo de q variables X
2
. Podríamos en-
frentar este problema directamente, contrastando si Σ es o no diagonal por bloques
(para lo que hay teoría disponible). Seguiremos una aproximación diferente que,
entre otras cosas, hará emerger el concepto de variable canónica y el principio de
unión-intersección de Roy.
4.2. Variables canónicas y coeficientes de correlación ca-
nónica.
Consideremos variables auxiliares,
51
52 CAPÍTULO 4. ANÁLISIS DE CORRELACIÓN CANÓNICA
x = a

X
1
y = b

X
2
.
El coeficiente de correlación entre ambas es:
ρ
x,y
(a, b) =
a

Σ
12
b

a

Σ
11
a b

Σ
22
b
una estimación del cual es proporcionada por:
r
x,y
(a, b) =
a

S
12
b

a

S
11
ab

S
22
b
Si ambos vectores X
1
, X
2
fueran independientes, para cualesquiera vectores
a, b tendríamos que ρ
x,y
(a, b) = 0. De un modo intuitivo, parece pues evidente
que debieran ser valores cercanos a cero de r
2
x,y
(a, b) los que condujeran a la acep-
tación de la hipótesis de independencia, en tanto la región crítica estaría formada
por los valores r
2
x,y
(a, b) superando un cierto umbral (se emplea el cuadrado del
coeficiente de correlación para que tenga signo positivo en todo caso).
Obsérvese, sin embargo, que r
2
x,y
(a, b) depende de a y de b. El método de
unión-intersección de Roy maximiza primero r
2
x,y
(a, b) respecto de a, b y compara
el valor resultante con la distribución del máximo bajo la hipótesis nula. La idea es
sustancialmente la misma que cuando se contrastan muchas hipótesis simultáneas.
El problema de maximización de r
2
x,y
(a, b) está insuficientemente especifica-
do; multiplicando a, b, o ambos por una constante cualquiera, r
2
x,y
(a, b) no altera
su valor. Utilizaremos por ello restricciones de normalización:
a

S
11
a = 1 b

S
22
b = 1
Si formamos el lagrangiano,
Φ(a, b) = (a

S
12
b)
2
−λ(a

S
11
a −1) −µ(b

S
22
b −1),
derivamos, e igualamos las derivadas a cero, obtenemos:

∂Φ(a, b)
∂a


= 2(a

S
12
b)S
12
b −2λS
11
a = 0
p×1
(4.1)
∂Φ(a, b)
∂b
= 2(a

S
12
b)S
12

a −2µS
22
b = 0
q×1
. (4.2)
Reordenando las anteriores ecuaciones:
−λS
11
a + (a

S
12
b)S
12
b = 0 (4.3)
(a

S
12
b)S
21
a −µS
22
b = 0 (4.4)
4.2. VARIABLES Y COEFICIENTES CANÓNICOS 53
Premultiplicando (4.3)–(4.4) por a

y b

obtenemos: λ = µ = (a

S
12
b)
2
=
r
2
x,y
(a, b), valores que llevados a dichas ecuaciones proporcionan
−λS
11
a +λ
1
2
S
12
b = 0
µ
1
2
S
21
a −µS
22
b = 0
o sea,
−λ
1
2
S
11
a +S
12
b = 0 (4.5)
S
21
a −µ
1
2
S
22
b = 0 (4.6)
Para que este sistema tenga solución distinta de la trivial ha de verificarse

−λ
1
2
S
11
S
12
S
21
−µ
1
2
S
22

= 0, (4.7)
o sea, haciendo uso del Lema 1.3,
[ −µ
1
2
S
22
[[ −λ
1
2
S
11
+S
12
S
−1
22
S
21
µ

1
2
[ = 0 (4.8)
Como suponemos S
22
definida positiva, el primer factor es no nulo, por lo que de
(4.8) se deduce:
[ −λ
1
2
S
11
+S
12
S
−1
22
S
21
µ

1
2
[ = [S
11
[[S
12
S
−1
22
S
21
S
−1
11
−λI[ = 0. (4.9)
De nuevo suponiendo que S
11
es definida positiva, concluimos de (4.9) que
[S
12
S
−1
22
S
21
S
−1
11
−λI[ = 0, (4.10)
y por tanto las soluciones de λ son los valores propios de S
12
S
−1
22
S
21
S
−1
11
. Puesto
que λ es también r
2
x,y
(a, b), es claro que debemos tomar el mayor de los valores
propios para resolver nuestro problema de maximización.
El contraste deseado, por tanto, se reduce a comparar dicho λ máximo con su
distribución bajo la hipótesis nula. Esta distribución tiene interesantes propieda-
des: para nada depende de Σ
11
ni Σ
22
. Detalles teóricos pueden obtenerse de Giri
(1977), p. 301.
Una particularidad del contraste propuesto es que si efectuáramos transforma-
ciones lineales cualesquiera de las variables aleatorias en ambos subvectores, los
resultados no se alterarían
1
.
En efecto, si Y
1
= AX
1
e Y
2
= BX
2
siendo A y B matrices cualesquiera,
tenemos que la matriz cuyos valores propios hemos de computar es, en función de
las matrices de covarianzas muestrales de X
1
y X
2
,
AS
12
B

(B

)
−1
S
−1
22
B
−1
BS
21
A

(A

)
−1
S
−1
11
A
−1
= AS
12
S
−1
22
S
21
S
−1
11
A
−1
.(4.11)
1
Se dice que el contraste es invariante frente a transformaciones lineales no degeneradas. La
idea de invariancia es importante en Estadística; es uno de los procedimientos más habituales para
restringir la clase de contrastes merecedores de atención. Véase una discusión más completa en Cox
and Hinkley (1974), p. 41 y Kiefer (1983), Sec. 7.3.
54 CAPÍTULO 4. ANÁLISIS DE CORRELACIÓN CANÓNICA
Como los valores propios no nulos de CD y de DC son idénticos (supuesto que
ambos productos pueden realizarse), los valores propios de la última matriz en
(4.11) son idénticos a los de S
12
S
−1
22
S
21
S
−1
11
.
Calculado λ podemos regresar a (4.5)–(4.6) y obtener a y b. Las variables
x = a

X
1
e y = b

X
2
, combinaciones lineales de las originales con a y b corres-
pondientes al máximo λ, se denominan primeras variables canónicas; son las com-
binaciones lineales de variables en X
1
y en X
2
con máxima correlación muestral.
Los siguientes valores de λ solución de (6) proporcionan las segundas, terceras,
etc. variables canónicas. Hay s = m´ın(p, q) pares de variables canónicas, y conse-
cuentemente s coeficientes de correlación canónica. Se demuestra fácilmente que
las sucesivas variables canónicas son incorreladas entre sí.
4.3. Relación con otros contrastes
Diferentes modelos multivariantes pueden verse como casos particulares de
análisis de correlación canónica. Mencionamos brevemente la relación con MA-
NOVA de un tratamiento; el mismo argumento puede repetirse en conexión con
análisis discriminante (Capítulo 12).
Supongamos que el vector X
1
agrupa las variables regresandos, y que como
vector X
2
tomamos variables indicadoras, en número igual al de niveles del único
tratamiento. La muestra tendría la siguiente apariencia:

¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
X
11
X
12
. . . X
1p
1 0 . . . 0
X
21
X
22
. . . X
2p
1 0 . . . 0
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
X
n
1
,1
X
n
1
,2
. . . X
n
1
,p
1 0 . . . 0
X
n
1
+1,1
X
n
1
+1,2
. . . X
n
1
+1,p
0 1 . . . 0
X
n
1
+2,1
X
n
1
+2,2
. . . X
n
1
+2,p
0 1 . . . 0
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
X
N1
X
N2
. . . X
Np
0 0 . . . 1
¸

. (4.12)
Es decir, un 1 en posición j-ésima en X
2
señala que el caso correspondiente ha
recibido el tratamiento j-ésimo.
Es ahora intuitivo que, en el caso de que los diferentes niveles de tratamiento
no tengan ninguna influencia, no deberíamos esperar ninguna relación lineal entre
las variables en X
1
y las variables en X
2
; y en efecto este es el caso. Contrastar
la hipótesis de efecto nulo en MANOVA y de mayor correlación canónica nula es
algo equivalente.
En efecto, salvo en una constante, podríamos identificar las matrices Wishart
E y H empleadas en el modelo MANOVA de un tratamiento así:
E = S
11
−S
12
S
−1
22
S
21
H = S
12
S
−1
22
S
21
4.4. INTERPRETACIÓN. 55
En MANOVA buscábamos los autovalores definidos por la ecuación característica
[E
−1
H −δI[ = 0. Observemos que,
[E
−1
H −δI[ = 0 ⇔ [H −δE[ = 0 (4.13)
⇔ [S
12
S
−1
22
S
21
−δ(S
11
−S
12
S
−1
22
S
21
)[ = 0 (4.14)
⇔ [(1 +δ)S
12
S
−1
22
S
21
−δS
11
[ = 0 (4.15)
⇔ [S
12
S
−1
22
S
21

δ
1 +δ
S
11
[ = 0 (4.16)
⇔ [S
−1
11
S
12
S
−1
22
S
21

δ
1 +δ
I[ = 0. (4.17)
Los autovalores de la matriz E
−1
H están en relación biunívoca con las correlacio-
nes canónicas al cuadrado:
r
2
i
= λ
i
=
δ
i
1 +δ
i
δ
i
=
λ
i
1 −λ
i
.
Es equivalente contrastar la hipótesis de nulidad de ρ
2
1
(mayor correlación canónica
al cuadrado) o la de δ
1
(mayor autovalor de E
−1
H “anormalmente grande” bajo
H
0
: µ
1
= . . . = µ
K
).
Observación 4.1 Incidentalmente, la relación anterior entre los auto-
valores de una y otra matriz y (3.5), muestra que bajo la hipótesis “Todos los
coeficientes de correlación canónica son nulos”, el estadístico
J−1
¸
i
(1 −r
2
i
) =
J−1
¸
i=1
1
1 +δ
i
se distribuye como una Λ de Wilks.
4.4. Interpretación.
A menudo es difícil, pero cuando resulta posible suele ser iluminante. En oca-
siones, cualquier pareja formada por una variable en X
1
y otra en X
2
tiene débil
correlación, y hay sin embargo combinaciones lineales de variables en X
1
muy
correladas con combinaciones lineales de variables en X
2
. En este caso, el examen
de dichas combinaciones lineales puede arrojar luz sobre aspectos del problema
analizado que de otro modo pasarían desapercibidos.
El empleo de contrastes sobre el primer coeficiente de correlación canónica es
también el método adecuado cuando investigamos la existencia de correlación entre
características no directamente medibles. Por ejemplo. podríamos estar interesados
en la hipótesis de si existe relación entre ideología política de los individuos y su
nivel cultural. Ninguna de estas dos cosas es medible de manera unívoca, sino
56 CAPÍTULO 4. ANÁLISIS DE CORRELACIÓN CANÓNICA
que podemos imaginar múltiples indicadores de cada una de ellas: la ideología
política podría venir descrita para cada individuo por un vector X
1
de variables
conteniendo valoraciones sobre diferentes cuestiones. Análogamente sucedería con
el nivel cultural. El investigar pares de variables aisladas sería un procedimiento
claramente inadecuado; la utilización de contrastes sobre el primer coeficiente de
correlación canónica permite contrastar la hipótesis de interés de modo simple y
directo.
CUESTIONES, COMPLEMENTOS Y COSAS PARA HACER
4.1 En R puede realizarse análisis de correlación canónica con como-
didad utilizando la función cancor.
Capítulo 5
Componentes principales.
5.1. Introducción.
Es frecuente el caso en que se tiene un colectivo cada uno de cuyos integrantes
puede ser descrito por un vector X, de dimensión p. En tales casos, es también fre-
cuente que entre las diferentes componentes del vector X exista cierta correlación,
que, en el caso más extremo, haría que alguna de las variables X
i
fuera combina-
ción lineal exacta de otra u otras. En tales casos, surge de modo natural la pregunta
de si no sería más útil tomar un subconjunto de las variables originales —o quizá
un número reducido de variables compuestas, transformadas de las originales—
que describiera el colectivo sin gran pérdida de información.
Naturalmente, el problema así planteado es demasiado vago para admitir una
solución precisa. Porque, ¿qué significa “sin gran pérdida de información”? Y, ¿qué
nuevas variables, distintas de las primitivas, estamos dispuestos a considerar? Los
siguientes ejemplos tratan de ilustrar el problema a resolver y motivar la solución
que se ofrece en la Sección 5.2.
Ejemplo 5.1 Consideremos un colectivo de niños sobre cada uno de
los cuales se han medido las siguientes tres variables:
Variable Descripción
X
1
Nota obtenida en Matemáticas
X
2
Nota obtenida en idiomas
X
3
Nota obtenida en Ciencias Naturales
Podemos ver cada niño como descrito por un vector aleatorio X, procedente
de una distribución cuya matriz de covarianzas es R. Imaginemos también
57
58 CAPÍTULO 5. COMPONENTES PRINCIPALES.
que, calculada la matriz de correlación entre dichas tres variables (en la prác-
tica, dicha matriz de covarianzas sería normalmente estimada a partir de una
muestra de niños), obtenemos el resultado siguiente:
R =

¸
1,00 0,68 0,92
0,68 1,00 0,57
0,92 0,57 1,00
¸

. (5.1)
El examen de la anterior matriz de correlación sugiere lo siguiente: las
notas en Matemáticas (X
1
) y en Ciencias Naturales (X
3
) están estrechamen-
te correlacionadas. Si un niño tiene nota alta en Matemáticas, con bastante
seguridad podemos decir que su nota en Ciencias Naturales es también alta.
En cambio, la nota en Idioma Moderno muestra también correlación con las
otras dos, pero mucho mas baja (0.57 y 0.68 respectivamente).
En resumen, podríamos decir que, aunque descrito por tres variables,
cada niño podría sin gran pérdida de información ser descrito por dos: una
reflejando su aptitud/interés por las Matemáticas y Ciencias Naturales (quizá
la nota media en ambas disciplinas) y otra reflejando su aptitud/interés por el
Idioma Moderno.
Observemos el razonamiento implícito que hemos efectuado: dos varia-
bles (X
1
y X
3
) presentan elevada correlación, lo que sugiere que la informa-
ción que aportan es muy redundante. En efecto, conocido el valor que toma
una podríamos conocer con bastante aproximación el valor que toma la otra.
Ejemplo 5.2 La Tabla B.1 en el Apéndice B recoge los records ob-
tenidos por atletas de diferentes nacionalidades en varias especialidades. El
simple examen de los mismos, sugiere que quizá no son precisas todas las
variables para obtener una buena descripción del nivel del atletismo en los
diferentes países. Parece que hay países que destacan en todas las especiali-
dades, y otros que muestran bajo nivel también en todas. ¿Podemos asignar
una única “nota media” a cada país sin gran pérdida de información respecto
a la que aporta la totalidad de las variables? ¿Es, quizá, precisa más de una
nota? Si éste fuera el caso, ¿cómo decidir cuántas “notas”, y de qué mane-
ra obtenerlas? La Sección que sigue plantea el problema de modo formal, y
ofrece una posible solución al mismo.
5.2. Obtención de las componentes principales.
Podemos suponer X centrado
1
. Por simplicidad, limitaremos nuestra atención
a variables que puedan obtenerse como combinación lineal de las variables origina-
les. Si éstas formaban para cada elemento de la muestra el vector X de dimensión
1
Esto simplifica la notación, sin pérdida de generalidad: si X no fuera centrado, bastaría restarle
su vector de medias y resolver el problema resultante.
5.2. OBTENCIÓN DE LAS COMPONENTES PRINCIPALES. 59
p, consideraremos entonces (no más de p) variables de la forma:
U
1
= a
1

X
U
2
= a
2

X
.
.
. (5.2)
U
p
= a
p

X
El problema, pues, radica en la elección de los vectores de coeficientes a
1
, . . . , a
p
que permitan obtener U
1
, . . . , U
p
como combinaciones lineales de las variables
originales en X.
Puesto que la correlación entre variables implica redundancia en la información
que aportan, resulta sensato requerir de las nuevas variables U
1
, . . . , U
p
que sean
incorreladas. Por otra parte, tenemos interés en que las nuevas variables U
1
, . . . , U
p
tengan varianza lo más grande posible: en efecto, una variable que tomara valores
muy parecidos para todos los elementos de la población (es decir, que tuviera re-
ducida varianza) sería de escaso valor descriptivo
2
. Podríamos entonces enunciar
el problema que nos ocupa así:
Encontrar variables, U
1
, . . . , U
p
, combinación lineal de las primi-
tivas en X, que sean mutuamente incorreladas, teniendo cada U
i
va-
rianza máxima entre todas las posibles combinaciones lineales de X
incorreladas con U
1
, . . . , U
i−1
.
Las variables U
i
verificando las condiciones anteriores se denominan compo-
nentes principales.
Resolveremos el problema de su obtención secuencialmente; obtendremos pri-
mero el vector de coeficientes a
1
proporcionando la variable U
1
, combinación li-
neal de X, con máxima varianza. Obtendremos luego a
2
proporcionando U
2
de
varianza máxima bajo la restricción de que U
2
sea incorrelada con U
1
. A continua-
ción, obtendremos a
3
proporcionando U
3
bajo las restricciones de incorrelación
con U
1
y U
2
, y así sucesivamente.
Observemos, sin embargo, que si no acotamos el módulo de a
i
, el problema
carece de solución. En efecto, siempre podríamos incrementar la varianza de U
i
multiplicando por una constante mayor que uno el correspondiente vector de coe-
ficientes a
i
. Debemos por consiguiente establecer una restricción sobre los coefi-
cientes, que puede ser [[a
i
[[
2
= 1, para i = 1, . . . , p. Con esta restricción, debemos
en primer lugar solucionar el siguiente problema:
m´ax
a
1
E[U
2
1
] condicionado a a
1

a
1
= 1 (5.3)
Obsérvese que si, como hemos supuesto, E[X] = 0, entonces E[U
1
] = E[a
1

X] =
0 y Var(U
1
) = E[U
2
1
] = a
1

Ra
1
. Teniendo en cuenta esto y usando la técnica
2
Naturalmente, la varianza de las diferentes variables es función de las unidades de medida;
volveremos sobre esta cuestión algo más adelante.
60 CAPÍTULO 5. COMPONENTES PRINCIPALES.
habitual para resolver (5.3) mediante multiplicadores de Lagrange, tenemos que el
problema se reduce a:
m´ax
a
1
¸
a
1

Ra
1
−λ[a
1

a
1
−1]
¸
. (5.4)
Derivando respecto a a
1
e igualando la derivada a 0 obtenemos
2Ra
1
−2λa
1
= 0, (5.5)
lo que muestra que a
1
es un vector propio de R, cuyo valor propio asociado es λ.
Como estamos buscando la variable U
1
de máxima varianza, y
Var(U
1
) = a
1

Ra
1
= λa
1

a
1
= λ, (5.6)
debemos tomar como a
1
el vector propio de R asociado a λ
1
, el mayor de los
valores propios de R.
La obtención de a
2
es similar. Debemos maximizar ahora Var(U
2
) sujeto a dos
restricciones: la de normalización [[a
2
[[
2
= 1 y la de incorrelación con U
1
. Como
Cov(U
1
, U
2
) = E

a
1

Xa
2

X

= E[a
1

XX

a
2
] = a
1

Ra
2
, (5.7)
el problema a resolver ahora es
m´ax
a
2
¸
a
2

Ra
2
−λ(a
2

a
2
−1) −µ(a
2

Ra
1
)
¸
, (5.8)
que tomando derivadas respecto a a
2
, λ y µ proporciona:
2Ra
2
−2λa
2
−µRa
1
= 0 (5.9)
a
2

a
2
= 1 (5.10)
a
2

Ra
1
= 0. (5.11)
Premultiplicando (5.9) por a
1

y teniendo en cuenta (5.11) obtenemos que µ = 0
y por tanto (5.9) es equivalente a
2Ra
2
−2λa
2
= 0, (5.12)
lo que de nuevo muestra que a
2
es un vector propio de R. Un razonamiento simi-
lar al efectuado en el caso de a
1
muestra que a
2
es el vector propio asociado al
segundo mayor valor propio de de R, λ
2
, y que Var(U
2
) = λ
2
.
La obtención de las restantes variables U
3
, . . . , U
p
se efectúa de manera similar,
con el resultado de que cada una de ellas es una combinación lineal de variables en
X con vector de coeficientes a
i
que es vector propio de R.
5.3. PROPIEDADES DE LAS COMPONENTES PRINCIPALES. 61
5.3. Propiedades de las componentes principales.
Dado que los vectores de coeficientes a
i
son vectores propios de R, si defini-
mos A = (a
1
.
.
.a
2
.
.
. . . .
.
.
.a
p
) y U

= (U
1
, U
2
, . . . , U
p
) tenemos:
U = A

X (5.13)
E

UU

= A

RA = Λ (5.14)
siendo Λ una matriz diagonal con los valores propios de Ren la diagonal principal.
La ecuación (5.14) muestra la incorrelación entre las componentes principales, así
como el hecho, ya apuntado, de ser sus respectivas varianzas iguales a los valores
propios de R. Como A es ortogonal, pre- y postmultiplicando (5.14) por A y A

obtenemos:
R = AΛA

=
p
¸
i=1
λ
i
a
i
a
i

(5.15)
La ecuación (5.15) muestra R como una suma de matrices de rango uno.
Observación 5.1 De acuerdo con el teorema de Eckart-Young, la me-
jor aproximación R

de rango k de R, en el sentido de minimizar traza((R

−R)(R

−R)

)
es
¸
k
i=1
λ
i
a
i
a
i

.
Las ecuaciones (5.14)–(5.15) muestran también que traza(R) = traza(Λ) =
¸
λ
i
, dado que:
p = traza(R) = traza(AΛA

) = traza(ΛA

A) = traza(Λ) =
p
¸
i=1
λ
i
.
En consecuencia, incluso sin calcular todos los valores propios, puede calcularse
con facilidad la fracción que representan sobre el total de traza. Esto es de interés
porque algunos de los métodos numéricos para cálculo de valores propios los ob-
tienen por orden de magnitud; se puede entonces detener el proceso de obtención
cuando
¸
λ
i
representa una fracción “suficiente"sobre el total de la traza.
Ejemplo 5.3 La matriz de correlación estimada R de los datos en el
Apéndice B, Tabla B.1, es:
m100 m200 m400 m800 m1500 Km5 Km10 Maratón
m100 1.000 0.922 0.841 0.756 0.700 0.619 0.632 0.519
m200 0.922 1.000 0.850 0.806 0.774 0.695 0.696 0.596
m400 0.841 0.850 1.000 0.870 0.835 0.778 0.787 0.704
m800 0.756 0.806 0.870 1.000 0.918 0.863 0.869 0.806
m1500 0.700 0.774 0.835 0.918 1.000 0.928 0.934 0.865
Km 5 0.619 0.695 0.778 0.863 0.928 1.000 0.974 0.932
Km10 0.632 0.696 0.787 0.869 0.934 0.974 1.000 0.943
Maratón 0.519 0.596 0.704 0.806 0.865 0.932 0.943 1.000
62 CAPÍTULO 5. COMPONENTES PRINCIPALES.
Cuadro 5.1: Valores propios de R
i λ
i
% s/traza
¸
i
λ
i
% (4) s/traza
(1) (2) (3) (4) (5)
1 6.622 82.77 6.622 82.77
2 0.877 10.96 7.499 93.73
3 0.159 1.99 7.658 95.72
4 0.124 1.55 7.782 97.27
5 0.080 1.00 7.862 98.27
6 0.068 0.85 7.930 99.12
7 0.046 0.58 7.976 99.70
8 0.023 0.29 7.999 99.99
Puede verse la acusada correlación existente entre casi todas las varia-
bles, siendo la más baja 0.519 (entre las marcas de 100 metros y la de Mara-
tón). Ala vista de dicha matriz de correlación, cabría imaginar que un número
reducido de componentes principales bastaría para describir adecuadamente
el colectivo.
Al diagonalizar la matriz de correlación se obtienen los valores propios
en la Tabla 5.1. La primera componente principal es la combinación lineal de
variables originales tipificadas con coeficientes dados por el vector propio
a
1
=

¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
0,317
0,337
0,355
0,368
0,373
0,364
0,366
0,342
¸

es decir:
U
1
= 0,317X
1
+ 0,337X
2
+. . . + 0,342X
8
Nótese que si los vectores propios lo son de la matriz de correlación, las
variables cuya combinación lineal da las U
i
son las de X tipificadas; si los
vectores propios lo son de la matriz de covarianzas, las variables a emplear
son las originales (centradas, si se quiere que E[U
i
] = 0). Los vectores pro-
pios a
i
de la matriz de covarianzas y la matriz de correlación no están rela-
cionados de ninguna manera obvia. En la Tabla 5.1 puede verse que, salvo
los dos primeros, los valores propios son muy reducidos; parece adecuado
describir datos como los exhibidos mediante dos componentes principales.
La elección del número de componentes principales a emplear es en prin-
cipio subjetiva; una regla frecuentemente seguida (cuando las variables han
sido tipificadas) es tomar tantas componentes principales como valores pro-
5.4. INTERPRETACIÓN GEOMÉTRICA. 63
Figura 5.1: U
i
es proyección de X sobre a
i
a
1 U
1
X
pios mayores que la unidad haya, pero esto no es nada absoluto ni que deba
realizarse ciegamente.
5.4. Interpretación geométrica.
Si examinamos la ecuación (5.13) podemos interpretar fácilmente los valores
que toman las componentes principales U
1
, . . . , U
p
como las coordenadas en un
cierto sistema de ejes.
De (5.13) se deduce que:
U
i
= a
i

X (5.16)
U
i
= [a
i
[[X[ cos(α) = [X[ cos(α), (5.17)
en que α es el ángulo formado por el vector X y el vector a
i
; recuérdese que
éste último tiene módulo unitario. En consecuencia, U
i
es la coordenada del pun-
to X cuando se representa en un sistema de ejes coordenados en las direcciones
(ortogonales) dadas por los vectores a
1
, . . . , a
p
. La Figura 5.1 ilustra esto.
En general, tal como sugiere la Observación 5.1, las primeras k componentes
principales proporcionan la mejor representación k-dimensional de los datos, en el
sentido de: i) Dar cuenta del máximo de traza de la matriz de covarianza (o corre-
lación), y ii) Permitir reconstruir aproximaciones de las variables originales que
yacen en un subespacio k-dimensional del original con la matriz de covarianzas
(o correlación) que mejor aproxima la original, en el sentido que dicha Observa-
ción 5.1 especifica.
Por ello, una etapa rutinaria en el análisis de datos multivariantes consiste de
ordinario en obtener una representación en pocas dimensiones de los datos. Si con
dos o tres componentes principales se obtiene una representación fiel, puede hacer-
se una gráfica bi- o tridimensional cuya mera observación será instructiva. Cosas
como agrupamientos suelen ser fáciles de detectar.
A veces, una determinada componente principal puede ser interpretada. En el
caso del Ejemplo 5.3, la primera componente principal podría interpretarse como
64 CAPÍTULO 5. COMPONENTES PRINCIPALES.
un índice de la calidad atlética de los respectivos países. Si observamos el segundo
vector propio,
a
2
=

¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
−0,566
−0,461
−0,248
−0,012
+0,139
+0,312
+0,306
+0,438
¸

podemos ver que pondera con signo negativo las cuatro primeras variables, y con
signo positivo las cuatro últimas. La variable U
2
tomará valores grandes para aque-
llos países en que los tiempos en las pruebas de fondo estén por debajo de la media,
y los tiempos en las pruebas de velocidad por encima; es una variable que comple-
menta la información proporcionada por U
1
, separando los diversos países según
sus respectivas especializaciones en fondo o velocidad.
Ejemplo 5.4 La Figura 5.2 muestra un tal mapa, referido a los datos
presentados en el Ejemplo 5.3. Puede verse a algunos países muy separados
de la principal concentración, en la esquina inferior. La primera componen-
te principal puede interpretarse como midiendo la “calidad general” atlética
de cada país (correspondiendo el lado izquierdo a países “mejores”). La se-
gunda componente principal (vertical) separa países con predominio relativo
en distancias cortas (que se sitúan hacia la parte superior del gráfico) y con
predominio relativo en distancias largas (que se sitúan hacia la parte inferior).
La interpretación de las componentes generales se facilita en ocasiones, como
en el caso anterior, atendiendo a los valores que toman los coeficientes a
ij
. Algunos
autores prefieren utilizar como ayuda en la interpretación las correlaciones o cova-
rianzas entre las variables originales y las componentes principales. El argumento
es en tales casos que los coeficientes a
ij
tienen gran varianza. La cuestión está
sujeta a controversia: véase por ejemplo el criterio contrario de Rencher (1998),
p. 361.
5.5. Comentarios adicionales
Es importante reparar en los siguientes aspectos:
1. El empleo de componentes principales no presupone ningún modelo sub-
yacente. Es sólo una técnica, fundamentalmente de naturaleza descriptiva,
que obtiene una representación de menor dimensionalidad de un conjunto de
puntos en R
p
.
2. El método selecciona un subespacio de R
p
, cuyos ejes vienen dados por
las direcciones de a
1
, a
2
, . . . , a
k
, (k < p). Los ejes son ortogonales y en
5.5. COMENTARIOS ADICIONALES 65
Figura 5.2: Records representados en el plano generado por U
1
y U
2























































u1
u
2
-4 -2 0 2 4 6 8 10
-
1
0
1
2
Argentina
Australia
Austria
Belgica
Bermuda
Brazil
Birmania
Canada
Chile
China
Colombia
Cook_Islas
Costa
Checoslova
Dinamarca
Rep_Domini
Finlandia
Francia
RDA
RFA
Gbni
Grecia
Guatemala
Hungria
India
Indonesia
Irlanda
Israel
Italia
Japon
Kenya
Korea
RD_Korea
Luxemburgo
Malasia
Mauricio
Mexico
Holanda
Nueva_Zelan
Noruega
Png
Filipinas
Polonia
Portugal
Rumania
Singapur
Espana
Suecia
Suiza
Taiwan
Tailandia
Turquia
USA
USSR
Samoa
66 CAPÍTULO 5. COMPONENTES PRINCIPALES.
las direcciones de mayor dispersión de los datos. Pero no hay nada que nos
fuerce a considerar dichos ejes; lo realmente relevante es la reducción de
la dimensionalidad y la fijación de un subespacio adecuado. La base que
tomemos del mismo puede escogerse con cualquier criterio conveniente —
no tiene por qué estar formada por a
1
, a
2
, . . . , a
k
—.
3. El método se puede emplear tanto con las variables en las escalas originales
como con variables tipificadas. Los resultados, en general, son completa-
mente diferentes.
4. Los signos de los a
i
son irrelevantes. En efecto, si a
i
es vector propio, −a
i
también lo es.
En el Capítulo que sigue se introduce el modelo factorial. Por una parte, se hace
uso de un modelo explícito, que realiza supuestos acerca del modo de generación
de las observaciones. Por otro, en relación a la segunda cuestión mencionada en el
apartado anterior, veremos que existen modos alternativos de escoger la base del
subespacio de interés, y que ello permite mejorar la interpretabilidad del análisis.
Capítulo 6
Análisis Factorial.
6.1. Introducción.
El Análisis Factorial es un conjunto de técnicas que persiguen identificar fac-
tores ocultos. Suponemos que una cierta variable aleatoria multivariante de la que
poseemos una muestra se genera así:
X = AF +L+m (6.1)
En (6.1), F (vector de factores comunes) y L (vector de factores específicos) son
vectores aleatorios, y A es una matríz de constantes. Supondremos en lo que sigue
que X ha sido centrado, con lo que prescindiremos del vector de medias m. Los
respectivos vectores y matrices verifican:
X = vector p 1
A = matriz p k
F = vector k 1
L = vector p 1
67
68 CAPÍTULO 6. ANÁLISIS FACTORIAL.
Se realizan además los siguientes supuestos:
E[F] = 0
(k×1)
(6.2)
E [L] = 0
(p×1)
(6.3)
E

FL

= 0
(k×p)
(6.4)
E

FF

= I
(k×k)
(6.5)
D = E

LL

=

¸
¸
¸
¸
d
1
0 . . . 0
0 d
2
. . . 0
.
.
.
.
.
.
.
.
.
0 0 . . . d
p
¸

(6.6)
En (6.1), los factores comunes F influyen en X a traves de los coeficientes en
la matriz A; cada uno de los factores específicos en L sólo influye en la variable
homóloga. Un modelo como (6.1) parece indicado cuando se investigan fenómenos
en que un número grande de variables son concebiblemente causadas por unos
pocos factores comunes.
Observación 6.1 Históricamente, la investigación psicométrica pro-
porcionó la motivación inicial para el desarrollo de este tipo de modelos; un
vector de items procedente de un test sicológico se intentaba poner en corres-
pondencia mediante (6.1) con un número reducido de facetas (inobservables)
que supuestamente describen la personalidad.
El problema del Análisis Factorial consiste en estimar A y D. Obsérvese cierta
semejanza con el modelo de regresión lineal, pero con la salvedad de que la va-
riable respuesta es multivariante (cada observación es un X), los “regresores” F
son inobservables, e incluso su número nos es desconocido. Pese a todo ello, las
restricciones permiten en general obtener una solución —si bien, como veremos,
no única—.
6.2. La igualdad fundamental
De las definiciones se deduce inmediatamente,
Teorema 6.1
Σ = E[(X −m)(X −m)

] = AA

+D (6.7)
DEMOSTRACION: En efecto,
Σ = E[(X −m)(X −m)

] (6.8)
= E(AF +L)(AF +L)

] (6.9)
= E[AFF

A

+AFL

+LF

A

+LL

] (6.10)
= AA

+D (6.11)
6.2. ANÁLISIS FACTORIAL Y PARSIMONIA 69
La igualdad (6.7), en particular, implica que
σ
ii
=
k
¸
j=1
a
2
ij
+d
i
(i = 1, . . . , p)
σ
ij
=
k
¸
l=1
a
il
a
jl
(i = j; i, j = 1, . . . , p)
Se llama comunalidad y se denota por h
2
i
a aquélla parte de la varianza de la
variable X
i
de que dan cuenta los factores comunes, es decir, h
2
i
=
¸
k
j=1
a
2
ij
.
6.3. Análisis Factorial y el objetivo de la parsimonia
Un modelo es una representación estilizada de la realidad, que pretende captar
sus rasgos de la manera más simple posible.
Observación 6.2 Esto sería una definición si supiéramos qué es la
“realidad”, qué significa “captar sus rasgos” y qué significa “de la mane-
ra más simple posible”. Es de temer que no sabemos demasiado bien qué
es ninguna de estas cosas, y por tanto la frase anterior sea una tautología o
una idiotez. El buscar modelos simples es una regla de economía intelectual,
y probablemente no tenga más defensa que la constatación de su enorme
eficacia, acreditada desde Guillermo de Ockham hacia acá. Por lo demás,
admitiendo una realidad, ¿por qué habría de ser simple y no complicada?
En el contexto en que nos movemos, tomaremos “más simple” por sinónimo
de “con el mínimo número de parámetros”. Observemos entonces que Σ en el lado
izquierdo de (6.7) incluye
1
2
p(p + 1) parámetros diferentes, mientras que, si selec-
cionamos k como número de factores, el lado derecho requiere pk +p −
1
2
k(k −1
parámetros (pk en la matriz A y otros p adicionales en la diagonal de D, deducien-
do
1
2
k(k −1) porque, como veremos, la solución factorial que obtengamos deja A
indeterminada en ese número de parámetros; véase Cuadras (1981), p. 114, y la
Observación 6.3, pág. 72.)
Si k puede hacerse considerablemente menor que p (es decir, si podemos es-
pecificar nuestro modelo con muchos menos factores comunes que variables), ha-
bremos logrado una reducción considerable en el número de parámetros necesa-
rios, y en este sentido nuestro modelo será más “simple”. Llamamos parsimo-
nia a esta simplicidad. A título ilustrativo, se recogen los valores de
1
2
p(p + 1)
y pk +p −
1
2
k(k −1 para diferentes p y k, y la correspondiente ganancia en parsi-
monía medida en número de parámetros. Los valores de p y k no son inusuales en
problemas como los que se presentan en la práctica.
70 CAPÍTULO 6. ANÁLISIS FACTORIAL.
Parámetros Parámetros Ganancia
p k Σ AA

+D en parsimonia
10 3 55 37 18
20 2 210 59 151
20 4 210 94 116
30 3 465 104 349
A la luz de todo lo anterior, podríamos formular el problema a resolver en análisis
factorial así:
“Encontrar matrices A y D verificando (6.7) para una matriz Σ
dada, con A teniendo el mínimo número de columnas.”
Evidentemente, en la práctica no conocemos Σ y habremos de trabajar con una
estimación de la misma. Además, aún cuando el modelo fuera “correcto” (es decir,
los datos se generasen realmente tal como especifica (6.1)), la igualdad (6.7) se
verificará a lo sumo de modo aproximado. Nuestro objetivo en la práctica será
pues obtener una buena reconstrucción de una matriz de covarianzas estimada a
partir del producto AA

más una matriz diagonal D.
Ejemplo 6.1 Este ejemplo procede de Mardia et al. (1979), quienes a
su vez lo toman de un trabajo de Spearman de 1904. Es un caso sumamente
simple, pero que ilustra los conceptos anteriores.
Se parte de una matriz de correlación
1
, conteniendo las correlaciones
entre calificaciones de tres asignaturas (Lenguas Clásicas, Francés e Inglés),
estimadas en una muestra de niños. La matriz resulta ser,
S =

¸
1,00 0,83 0,78
1,00 0,67
1,00
¸

(6.12)
Spearman ajustó un modelo con un sólo factor, es decir,

¸
X
1
X
2
X
3
¸

=

¸
a
11
a
21
a
31
¸

F
1
+

¸
L
1
L
2
L
3
¸

(6.13)
que implica:
Σ =

¸
a
11
a
21
a
31
¸

a
11
a
21
a
31

+

¸
d
1
0 0
0 d
2
0
0 0 d
3
¸

(6.14)
de acuerdo con el teorema de Thurstone, (6.7). Sustituyendo Σ en (6.14) por
su estimación S tenemos la igualdad matricial

¸
1,00 0,83 0,78
1,00 0,67
1,00
¸

=

¸
ˆ a
11
ˆ a
21
ˆ a
31
¸

ˆ a
11
ˆ a
21
ˆ a
31

+

¸
ˆ
d
1
0 0
0
ˆ
d
2
0
0 0
ˆ
d
3
¸

1
Sobre el uso de la matriz de covarianzas o correlaciones como punto de partida, valen las obser-
vaciones hechas para componentes principales en el Capítulo 5.
6.3. INDETERMINACIÓN Y ROTACIONES 71
de la que obtenemos las ecuaciones:
1 = ˆ a
2
11
+
ˆ
d
1
(6.15)
1 = ˆ a
2
21
+
ˆ
d
2
(6.16)
1 = ˆ a
2
31
+
ˆ
d
3
(6.17)
0,83 = ˆ a
11
ˆ a
21
(6.18)
0,78 = ˆ a
11
ˆ a
31
(6.19)
0,67 = ˆ a
21
ˆ a
31
. (6.20)
Tenemos pues seis ecuaciones con seis incógnitas que permiten encontrar una
solución “exacta” a partir de la igualdad fundamental (6.7). Tras resolver, el
modelo estimado es

¸
X
1
X
2
X
3
¸

=

¸
0,983
0,844
0,793
¸

F
1
+

¸
L
1
L
2
L
3
¸

, (6.21)
y las comunalidades son
h
2
1
= 0,966
h
2
2
= 0,712
h
2
3
= 0,629.
Por tanto, el modelo con un único factor da cuenta muy bien de la primera
calificación (Lenguas Clásicas), y algo peor de las dos restantes.
6.4. Indeterminación de las soluciones factoriales. Rota-
ciones
Con el problema planteado como en la Sección anterior, es ahora evidente que
la solución no es única. En efecto, si
Σ = E[(X −m)(X −m)

] = AA

+D,
y G es una matriz ortogonal (k k), también será cierto que
Σ = E[(X −m)(X −m)

] = AGG

A

+D = BB

+D. (6.22)
Por tanto, B será una solución tan válida como A. Obsérvese además de (6.1) se
deduce
X = AGG

F +L+m (6.23)
= BF
G
+L+m (6.24)
con F
G
= G

F que continúa verificando todas las condiciones impuestas a los
factores comunes (6.2)–(6.6), como es fácil comprobar.
72 CAPÍTULO 6. ANÁLISIS FACTORIAL.
Esto tiene enorme trascendencia. Estando las soluciones factoriales indetermi-
nadas hasta el producto por una matriz ortogonal (geométricamente, una rotación,
reflexión, o combinación de ambas), somos libres de tomar la solución que más
nos convenga. De ordinario, esto permite escoger soluciones con la estructura de
A que nos parece más interpretable.
Observación 6.3 Podemos ahora volver al asunto brevemente tocado
en la Sección 6.3, acerca del número de grados de libertad consumidos (o
parámetros estimados) al encontrar una solución factorial. Si A cuenta con
pk parámetros pero está indeterminada, es claro que no hemos consumido de
modo efectivo pk grados de libertad, sino menos.
Si reparamos en que las columnas de A deben generar un cierto sub-
espacio de dimensión k, tendremos un modo fácil de persuadirnos de que
una solución factorial supone estimar pk−
1
2
k(k −1) parámetros. En efecto,
cualquier subespacio de dimensión k de R
p
puede generarse mediante una
base “escalonada”, formada por las columnas de una matriz como

¸
¸
¸
¸
¸
¸
¸
¸
a
11
0 0 . . . 0
a
21
a
22
0 . . . 0
a
31
a
32
a
33
. . . 0
.
.
.
.
.
.
.
.
.
.
.
.
a
p−1,1
a
p−1,2
a
p−1,3
. . . 0
a
p1
a
p2
a
p3
. . . a
pk
¸

; (6.25)
y especificar tal matriz requiere precisamente pk −
1
2
k(k −1) parámetros.
Alternativamente, si A está indeterminada hasta el producto por una matriz
ortogonal, conservará tantos grados de libertad como existan para fijar una
matriz ortogonal k k. Hay
1
2
k(k −1) elementos libres en una tal matriz.
La primera columna sólo está constreñida a tener módulo unitario (k − 1
elementos son por tanto libres); la segunda, está además constreñida a ser
ortogonal a la primera (k−2 elementos libres por tanto); la tercera y sucesivas
tienen cada una una restricción adicional. El número total de elementos libres
es por tanto (k −1) + (k −2) +. . . + 1 =
1
2
k(k −1).
Si tenemos cierta margen de maniobra al escoger una solución factorial, desea-
remos hacerlo de modo que la interpretación resulte favorecida. Idealmente, para
poder rotular un factor desearíamos que su influencia alcanzara a algunas de las
variables de modo notable, y al resto en absoluto. Por ejemplo, si tuviéramos una
matriz A como,

¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
1 0 0 0
1 0 0 0
1 0 0 0
0 1 0 0
0 1 0 0
0 0 1 0
0 0 1 0
0 0 0 1
0 0 0 1
¸

(6.26)
6.4. INDETERMINACIÓN Y ROTACIONES 73
recordando que
X = AF +L (6.27)
razonaríamos así: “El factor F
1
es algo que está relacionado con las variables X
1
,
X
2
y X
3
. Los factores F
2
, F
3
y F
4
influyen cada uno en las variables X
4
y X
5
, X
6
y X
7
y en X
8
y X
9
, respectivamente”. El conocimiento de las variables ayudaría
así a dotar de interpretación a los factores F
1
a F
4
: F
1
, por ejemplo, podríamos
imaginarlo como lo que quiera que las variables X
1
a X
3
tuvieran en común. Y
similarmente con los otros.
Naturalmente, una estructura de ceros y unos, como la del ejemplo anterior, no
será muchas veces factible: pero, en la medida de lo posible, desearíamos tender a
ella.
Una forma de lograrlo es determinar Gde manera que A
G
= AGtenga mucho
“contraste”. Hay varias formas de formalizar esta idea intuitiva hasta convertirla
en un problema con solución matemática. En lo que sigue, mencionaremos dos de
las propuestas más utilizadas, que ilustran bien el modo de abordar el problema.
Más detalles pueden encontrarse en Harman (1960), Cuadras (1981), Basilevsky
(1992), o cualquier texto sobre análisis factorial o multivariante. Carroll (1953) y
Kaiser (1958) son dos de las referencias pioneras. La idea de la rotación quartimax
es escoger la matriz A
G
= AG para la que es máxima la “varianza” por filas de
los cuadrados de los elementos a
ij
. La toma del cuadrado obedece a que estamos
interesados en lograr términos “grandes” y “pequeños”: no nos importa el signo.
Maximizamos por ello
1
k
2
p
¸
i=1

k
k
¸
j=1
(a
2
ij
)
2

¸
k
¸
j=1
a
2
ij
¸

2
¸
¸
. (6.28)
Esta propuesta logra contraste entre unos términos y otros: pero nada en la forma
de la expresion a maximizar impide que los a
ij
“grandes” se agrupen en la primera
columna de la matriz A
G
. Ello da lugar a una solución con un factor “general”, que
parece influir en todas las variables: puede o no ser deseable o fácil de interpretar.
Habitualmente preferimos que cada factor de cuenta del comportamiento de
un grupo de variables originales, con las que poder relacionarle. Si es el caso, la
rotación varimax puede ser más atractiva. Buscamos en ella maximizar
1
p
2
k
¸
j=1

p
p
¸
i=1
(a
2
ij
)
2

p
¸
i=1
a
2
ij

2
¸
¸
, (6.29)
es decir, la “varianza” de los a
2
ij
por columnas. Ello forzará a que en cada columna
haya elementos muy grandes y muy pequeños.
Hay algunos detalles adicionales que pueden consultarse en Kaiser (1958); por
ejemplo, en lugar de maximizar las expresiones (6.28) o (6.29) tal cual, frecuente-
mente se normalizan los elementos de cada fila dividiendo entre la comunalidad:
se intenta con ello evitar que las filas de A con elevada comunalidad dominen las
expresiones citadas.
74 CAPÍTULO 6. ANÁLISIS FACTORIAL.
6.5. Estimación del modelo
Hemos de hacer frente a dos problemas: determinar el número de factores de-
seado, y obtener una estimación (inicial, indeterminada) de A. Estimada A, las
especificidades y comunalidades quedan también estimadas. Describiremos sóla-
mente dos de los métodos más utilizados.
6.5.1. Método del factor principal
Obsérvese que, si conociéramos las comunalidades (o, equivalentemente, la
matriz de especificidades, D), de la igualdad fundamental (6.7) se deduciría que la
matriz de covarianzas (o correlación) muestral ha de verificar aproximadamente
S −D ≈
ˆ
A
ˆ
A

; (6.30)
ello sugiere emplear alguna estimación de D para computar S

= S −
ˆ
D, A con-
tinuación, podemos factorizar esta S

como producto de dos matrices de rango k.
Si S

tiene sus k mayores valores propios positivos, ello no ofrecerá problema:
podemos emplear la aproximación
S


ˆ
A
ˆ
A

, (6.31)
en que
ˆ
A =
¸
k
i=1

λ
i
v
i
, siendo los λ
i
y v
i
los valores y vectores propios de S

.
No es preciso que nos detengamos en la estimación de
ˆ
A recién obtenida, sino
que podríamos ahora emplearla para obtener una estimación mejor, quizá, de las
comunalidades,
D
(2)
= diag(S −
ˆ
A
ˆ
A

), (6.32)
una estimación actualizada de S

,
S

(2)
= (S −D
(2)
), (6.33)
y consiguientemente una nueva estimación de A por factorización de S

(2)
:
S

(2)

ˆ
A
(2)
ˆ
A
(2)

. (6.34)
Con la nueva estimación
ˆ
A
(2)
de A podríamos reiniciar el proceso e iterar hasta
convergencia, si se produce (nada garantiza que se produzca, aunque habitualmente
se obtiene convergencia cuando k es suficientemente grande).
6.5.2. Método de máxima verosimilitud
Podemos también estimar los parámetros del modelo (6.1) por máxima verosi-
militud, si conocemos la distribución de X (en la práctica, ello equivale a suponer
normalidad multivariante).
Capítulo 7
Biplots
Estudiaremos en lo que sigue dos técnicas para la representación simultánea de
observaciones y variables. La primera —el biplot— es un gráfico en el que se re-
presentan las observaciones en posiciones dadas por sus dos primeras componentes
principales. Sobre el mismo plano se superponen p puntos representando las varia-
bles —las columnas de la matriz de datos X en posiciones que hacen interpretables
las relaciones entre ellas y las observaciones.
La segunda técnica —el análisis de correspondencias— produce de modo si-
milar una representación simultánea de observaciones y variables, y es de aplica-
ción a tablas de contingencia.
A ambas técnicas subyace la descomposición en valores singulares de una ma-
triz rectangular, que se presenta a continuación.
7.1. Descomposición en valores singulares.
Sea X una matriz Np cualquiera. Mostraremos que puede siempre escribirse
como producto de una matriz de columnas ortogonales N p, una matriz diagonal
p p con elementos no negativos en la diagonal principal y una matriz ortogonal
p p. La exposición sigue a Lebart (1997).
Tanto X

X como X X

son matrices cuadradas simétricas, y por tanto dia-
gonalizables. Para j = 1, . . . , p hay vectores propios a
i
de X

X (y b
j
de X X

)
asociados a valores propios en general no nulos λ
i
(para los a
i
) y ν
j
(para los b
j
).
X

Xa
j
= λ
j
a
j
(7.1)
X X

b
j
= ν
j
b
j
. (7.2)
75
76 CAPÍTULO 7. BIPLOTS
La matriz X X

posee además N − p valores propios nulos y correspondien-
tes vectores propios asociados. Los vectores propios a
j
y b
j
están relacionados.
En efecto multiplicando las igualdades anteriores por X y X

respectivamente,
obtenemos:
X X

(Xa
j
) = λ
j
(Xa
j
) (7.3)
X

X

X

b
j

= ν
j

X

b
j

. (7.4)
Ello muestra que Xa
j
es vector propio de X X

y X

b
j
es vector propio de
X

X.
Es además fácil ver que los valores propios no nulos son idénticos. Suponga-
mos que λ
1
es el mayor valor propio de X

X y ν
1
el mayor valor propio de X X

.
Como Xa
1
es vector propio de X X

con valor propio asociado λ
1
, se sigue que
ν
1
= m´ax
j
ν
j
≥ λ
1
. Análogamente, si b
1
es el vector propio de X X

asociado al
mayor valor propio ν
1
, entonces X

b
1
es vector propio de X

X con valor propio
asociado ν
1
, y por tanto ν
1
≤ λ
1
. De ambas desigualdades se deduce ν
1
= λ
1
, y el
argumento puede reiterarse para los valores propios sucesivos.
En definitiva,
a
j
∝ X

b
j
(7.5)
b
j
∝ Xa
j
, (7.6)
par j = 1, . . . , p. Además, las relaciones de proporcionalidad anteriores pueden
convertirse en igualdades si tenemos en cuenta que
|X

b
j
|
2
= b
j

X X

b
j
= ν
j
(7.7)
|Xa
j
|
2
= a
j

X

Xa
j
= λ
j
, (7.8)
lo que permite normalizar los lados derechos de las expresiones (7.5)–(7.6) y con-
vertirlas en igualdades:
a
j
= λ

1
2
j
X

b
j
(7.9)
b
j
= λ

1
2
j
Xa
j
. (7.10)
Estas expresiones para j = 1, . . . , p se resumen en las igualdades matriciales
A = X



1
2
(7.11)
B = XAΛ

1
2
. (7.12)
Si proyectamos las filas y columnas de X sobre los subespacios engendrados por
el vector propio a
j
y b
j
respectivamente, tenemos:
u
j
= Xa
j
= λ

1
2
j
X X

b
j
= λ
1
2
j
b
j
(7.13)
v
j
= X

b
j
= λ

1
2
j
X

Xa
j
= λ
1
2
j
a
j
. (7.14)
7.2. BIPLOTS 77
Si tomamos la igualdad (7.9), premultiplicamos por X, postmultiplicamos por a
j

y sumamos respecto j, obtenemos:
X

¸
p
¸
j=1
a
j
a
j

¸

=
p
¸
j=1
λ
1
2
j
b
j
a
j

= BΛ
1
2
A

. (7.15)
Como
¸
p
j=1
a
j
a
j

= AA

= I, la igualdad anterior se reduce a:
X =
p
¸
j=1

λ
j
b
j
a
j

= BΛ
1
2
A

, (7.16)
llamada descomposición en valores singulares de la matriz X.
7.2. Biplots
En el supuesto de que X sea aproximadamente igual a los q < p primeros
sumandos (7.16) obtenemos:
X ≈
q
¸
j=1

λ
j
b
j
a
j

= B
q
S
q
A
q

. (7.17)
Podemos asociar S a la matriz A, a la matriz B o a ambas a la vez. Por ejemplo,
podemos definir G
q
= B
q
S
1−c
y H
q

= S
c
A
q

. Para cada valor 0 ≤ c ≤ 1 que
escojamos tenemos
X = G
q
H
q

= B
q
S
1−c
S
c
A
q

(7.18)
El exponente c se puede escoger de diferentes maneras: elecciones habituales son
c = 0, c =
1
2
y c = 1.
Sea g
i

la i-ésima fila de G y h
j

la j-ésima fila de H (por tanto, j-ésima
columna de H

). Si q = 2, los N + p vectores g
i
y h
j
pueden representarse
en el plano dando lugar a la representación conocida como biplot. Los puntos g
i
representan observaciones, en tanto los puntos h
j
representan variables.
7.2.1. Interpretación
Para interpretar un biplot, notemos que si (7.17) se verifica de modo aproxima-
do, entonces
X
ij
≈ g
i

h
j
= [[g
i
[[[[h
j
[[ cos(α
ij
) (7.19)
siendo α
ij
el ángulo que forman g
i
y h
j
. Por consiguiente, si la variable j tiene
gran influencia en la observación i, los vectores representando a ambas tenderán a
formar un ángulo pequeño.
Adicionalmente, dependiendo del valor seleccionado para c en (7.18) podemos
interpretar las distancias euclídeas entre las representaciones de los puntos fila, de
los puntos columna, etc.
78 CAPÍTULO 7. BIPLOTS
Caso c = 0. Supongamos X = GH

exactamente (omitimos el subíndice q
por simplicidad notacional). Entonces, si tomamos c = 0, H = A y es por tanto
ortogonal, con lo que XX

= GH

HG

= GG

. Por consiguiente, para cualquier
fila x
i
de X se tiene
x
i

x
i
= g
i

g
i
(7.20)
[[x
i
[[ = [[g
i
[[ (7.21)
[[x
i
−x
j
[[ = [[g
i
−g
j
[[ (7.22)
cos(x
i
, x
j
) = cos(g
i
, g
j
); (7.23)
es decir, las distancias y ángulos entre los vectores g
i
reproducen los existentes
entre los vectores x
i
. Obviamente, esto sólo es posible si la configuración original
de puntos fila de X era bidimensional; de otro modo, X ≈ GH

y lo anterior sólo
tendrá validez como aproximación.
Caso c = 1. Razonando de forma exactamente análoga, llegamos a la conclusión
de que en este caso las distancias y ángulos entre los vectores fila de H

reproducen
los existentes entre los vectores columna de X, dado que con c = 1
X

X = HG

GH

= HH

(7.24)
al ser G = B una matriz ortogonal. (De nuevo la igualdad anterior es sólo aproxi-
mada, en la medida en que la matriz original X no sea de rango igual o inferior a
2).
Caso c =
1
2
. Esta elección de c supone un compromiso entre las dos anteriores,
tendente a preservar en alguna medida las distancias tanto entre puntos fila como
entre puntos columna.
7.2.2. Ejemplo
Consideremos la Tabla 7.1, cuya casilla ij-ésima recoge el total de hogares de
la Comunidad Autónoma i-ésima disponiendo del equipamiento a que se refiere la
columna j-ésima.
Un análisis de los datos brutos daría lugar a un biplot como el recogido en la
Figura 7.1. Es aparente un “efecto tamaño” muy pronunciado: al estar los datos en
valores absolutos, todas las columnas son aproximadamente proporcionales, lo que
hace los datos muy “uno-dimensionales”: las Comunidades más pobladas, tienen
más hogares en posesión de cada uno de los bienes considerados, simplemente por
efecto de su tamaño. Puede verse en la figura indicada como “España” aparece
en el margen derecho, y el resto de Comunidades ordenadas en el eje de abscisas
aproximadamente por su tamaño.
Podemos convertir los datos a porcentajes, evitando así que una dimensión de
la representación gráfica sea ocupada por el efecto tamaño, que carece de interés.
7
.
2
.
B
I
P
L
O
T
S
7
9
Cuadro 7.1: Dotación de los hogares por Comunidades Autónomas (miles de hogares que poseen cada uno de los equipamientos indica-
dos). Fuente: INE, Encuesta de Tecnologías de la información en los hogares, 2002.
Número Televisión Ordenador Fax Video DVD Cadena Radio, Busca Teléfono NSNC
Hogares Música cassete personas móvil NSNC
ESPAÑA 13712.90 13650.60 4944.10 371.60 9207.80 1562.30 7451.60 10570.70 75.10 8917.70 5.00
ANDALUCÍA 2306.90 2301.00 717.70 51.30 1553.60 246.60 1151.30 16 49.00 12.60 1482.90 1.20
ARAGÓN 426.30 423.30 158.30 8.40 285.10 45.30 241.30 361.60 2. 40 252.70 0.00
ASTURIAS 364.90 363.70 115.90 7.70 217.70 31.10 173.80 311.80 1.90 221.00 0.00
BALEARES 293.50 290.80 110.50 15.10 200.80 46.50 166.90 212.30 1.50 194.80 0.00
CANARIAS 570.90 569.60 207.20 17.40 403.40 82.70 346.90 410.80 2.90 391.10 0.00
CANTABRIA 170.90 170.50 50.60 5.90 108.20 18.10 87.00 131.60 2 .00 108.20 0.00
CASTILLA-LEÓN 871.10 865.40 263.70 16.90 530.10 72.90 436.70 708 .90 3.20 511.60 0.50
LA MANCHA 580.10 576.50 149.70 11.90 354.10 42.10 249.60 413.40 0.00 326.30 0.00
CATALUÑA 2217.40 2208.60 933.50 75.90 1561.50 277.10 1235.90 174 0.60 17.40 1442.40 1.40
VALENCIA 1461.50 1457.40 473.70 35.40 1021.60 169.20 782.60 1095 .60 5.30 962.30 0.00
EXTREMADURA 358.50 355.00 84.60 3.30 213.50 24.10 155.50 268.60 2.30 204.90 0.00
GALICIA 887.10 878.50 254.90 17.20 485.50 82.80 428.30 670.70 10.50 536.60 2.00
MADRID 1809.30 1802.20 902.80 65.60 1321.50 265.70 1190.40 1452. 20 8.70 1347.70 0.00
MURCIA 362.00 359.00 105.20 7.10 247.30 43.10 188.30 272.30 1. 20 243.80 0.00
NAVARRA 185.20 183.40 72.80 6.00 124.80 13.50 100.90 148.90 0. 50 123.80 0.00
PAÍS VASCO 713.70 712.40 295.50 24.40 485.60 85.70 440.80 615.60 2.00 486.70 0.00
RIOJA 94.80 94.60 31.80 0.60 62.90 9.80 51.10 76.60 0.00 51. 70 0.00
CEUTA 20.50 20.30 7.30 0.70 15.90 2.50 12.90 15.00 0.20 14.9 0 0.00
MELILLA 18.50 18.50 8.60 0.80 14.70 3.40 11.40 15.10 0.40 14 .20 0.00
80 CAPÍTULO 7. BIPLOTS
Figura 7.1: Biplot de número de hogares (en valor absoluto) en cada Comunidad
Autónoma que poseen diferentes tipos de equipamiento relacionado con la socie-
dad de la información. Se aprecia el fuerte efecto “tamaño” que oblitera cualquier
otro.
−0.5 0.0 0.5 1.0

0
.
5
0
.
0
0
.
5
1
.
0
Comp.1
C
o
m
p
.
2
ESPAÑA
ANDALUCÍA
ARAGÓN
ASTURIAS
BALEARES
CANARIAS
CANTABRIA
CASTILLA−LEÓN
LA MANCHA
CATALUÑA
VALENCIA
EXTREMADURA
GALICIA
MADRID
MURCIA
NAVARRA
PAÍS VASCO
RIOJA
CEUTA MELILLA
−10000 −5000 0 5000 10000

1
0
0
0
0

5
0
0
0
0
5
0
0
0
1
0
0
0
0
NumHogares Television
Ordenador
Fax Video DVD
CadMus
RadioCas BuscaPer TelMovil NSNC
7.3. LECTURA RECOMENDADA 81
Así se ha hecho para producir la Figura 7.2, mucho más ilustrativa que la primera.
Se aprecia ahora como los puntos que representan variables están todos orientados
de manera similar, como corresponde dada su apreciable correlación. Casi super-
puesta al punto que representa “Ordenadores” está la Comunidad de Madrid, y bas-
tante a la izquierda también Comunidades como País Vasco y Cataluña, en que los
equipamientos considerados han alcanzado una penetración relativamente elevada
en los hogares. En el lado derecho del biplot aparecen aquellas comunidades en
que dicha penetración es, en términos relativos, menor: Extremadura, Andalucía,
Galicia, Castilla-La Mancha.
Algunos otros detalles saltan a la vista en la Figura 7.2; por ejemplo, la orde-
nada relativamente alta de País Vasco, Aragón y Asturias, que se corresponde con
una tenencia también relativamente elevada de radiocassettes, como puede corro-
borarse observando la tabla.
7.3. Lectura recomendada
El biplot e instrumentos de visualización relacionados se describen en Krza-
nowski (1988), Cap. 4.
82 CAPÍTULO 7. BIPLOTS
Figura 7.2: Biplot del porcentaje de hogares en cada Comunidad Autónoma que
poseen diferentes tipos de equipamiento relacionado con la sociedad de la infor-
mación. Al desaparecer el efecto tamaño por ser todas las magnitudes relativas, se
aprecian las diferencias entre comunidades en la dotación relativa.
−0.4 −0.2 0.0 0.2 0.4

0
.
4

0
.
2
0
.
0
0
.
2
0
.
4
Comp.1
C
o
m
p
.
2
ESPAÑA
ANDALUCÍA
ARAGÓN ASTURIAS
BALEARES
CANARIAS
CANTABRIA
CASTILLA−LEÓN
LA MANCHA
CATALUÑA
VALENCIA
EXTREMADURA
GALICIA
MADRID
MURCIA
NAVARRA
PAÍS VASCO
RIOJA
CEUTA
MELILLA
−0.2 −0.1 0.0 0.1 0.2

0
.
2

0
.
1
0
.
0
0
.
1
0
.
2
Television
Ordenador
Fax
Video
DVD
CadMus
RadioCas
BuscaPer
TelMovil
Capítulo 8
Datos categóricos multivariantes
8.1. Introducción
En lo que precede, hemos considerado como punto de partida una matriz de
datos X de dimensiones N p cada una de cuyas filas x
i

era un vector aleatorio
en R
p
.
En ocasiones, sin embargo, para cada sujeto de la muestra examinamos k atri-
butos cualitativos o caracteres, cada uno de los cuales con d
i
niveles i = 1, . . . , k.
Por ejemplo, si registráramos el color de pelo y ojos de un colectivo de N = 5
sujetos, podríamos presentar la información resultante en una tabla como:
Cuadro 8.1: Color de pelo y ojos medidos para cinco sujetos
Sujeto Color pelo Color ojos
1 Negro Castaño
2 Rubio Azul
3 Negro Azul
4 Negro Castaño
5 Negro Castaño
Una forma alternativa de recoger la misma información es efectuando una ta-
bulación cruzada de los dos caracteres (color de pelo y color de ojos) para producir
una tabla de contingenciacomo la recogida en el Cuadro 8.2. De tener una tabla
de datos N p listando los respectivos niveles de los caracteres para cada uno
de los N sujetos, pasamos a tener una tabla de k dimensiones y
¸
k
i=1
d
i
celdas
relacionando los caracteres entre sí.
83
84 CAPÍTULO 8. DATOS CATEGÓRICOS MULTIVARIANTES
Cuadro 8.2: Tabla de contingencia relacionando color de pelo y ojos para cinco
sujetos
Color de pelo
Negro Rubio
Ojos azules 1 1
Ojos castaños 3 0
Es fácil ver que la tabla de datos original en el Cuadro 8.1 y la tabla de con-
tingencia en el Cuadro 8.2 proporcionan exactamente la misma información. De
la segunda podemos reconstruir la primera (excepto por el orden, normalmente
irrelevante).
El análisis de tablas de doble entrada es objeto común de los cursos introduc-
torios de Estadística. Problemas habituales que se resuelven son los de contrastar
la independencia de los caracteres, o la homogeneidad de subpoblaciones descritas
por las filas o columnas, habitualmente mediante el contraste χ
2
de Pearson (véase
por ej. Trocóniz (1987b), p. 244–249).
No estamos limitados a considerar tablas de doble entrada, sino que en ge-
neral trabajaremos con tablas de contingencia con k > 2 dimensiones. Cuando
lo hagamos, será en general inconveniente examinar los caracteres por parejas: si
lo hiciéramos, podriamos tropezar con la paradoja de Simpson que ilustramos a
continuación.
Notación. Consideremos, por concreción, una tabla de contingencia con k = 3
dimensiones (generalizar a cualquier k, no obstante, será inmediato). Denotare-
mos por A, B y C respectivamente a los tres caracteres, con d
A
, d
B
y d
C
niveles
respectivamente.
Sea X la tabla de contingencia, y x
ijk
el contenido de su celda ijk. Es decir,
x
ijk
sujetos poseen los niveles i, j y k de los tres caracteres considerados y N =
¸
i,j,k
x
ijk
el total de sujetos en todas las celdas de la tabla.
8.2. Tipos de muestreo
Una misma tabla de contingencia puede generarse de diferentes modos, y es
importante saber cuál ha sido el empleado en cada caso.
Podríamos muestrear durante un periodo de tiempo y clasificar a los sujetos de
acuerdo a, por ejemplo, tres caracteres, de modo que cada uno fuera contado en
una celda x
ijk
de una tabla tridimensional. Si hacemos esto, podemos modelizar
x
ijk
como una variable con distribución de Poisson de parámetro λ
ijk
. El número
total de sujetos tabulados, N, será a su vez una variable aleatoria con distribución
de Poisson. Diremos que la tabla se ha generado mediante muestreo de Poisson
8.3. LA PARADOJA DE SIMPSON 85
Alternativamente, podríamos fijar el tamaño muestral N deseado y tabular di-
chos N sujetos. Entonces, podríamos ver el vector x
ijk
como variable aleatoria
con distribución multinomial,
Prob(x
ijk
) =
N!
x
iii
! . . . x
ijk
! . . . x
IJK
!
p
x
111
111
. . . p
x
ijk
ijk
. . . p
x
IJK
IJK
(8.1)
en que I, J, K designan el número de niveles de (respectivamente) los caracteres
A, B y C. Decimos en este caso hallarnos ante muestreo multinomial
Frecuentemente se toman muestras estratificadas, fijando cuotas para diferen-
tes estratos de la población analizada. Por ejemplo, si examináramos la respuesta a
un tratamiento que sólo raramente se administra, porque se emplea para enferme-
dades infrecuentes, una muestra aleatoria simple proporcionaría muy pocos sujetos
tratados: acaso ninguno.
El modo habitual de operar en este caso es tomar una muestra de sujetos tra-
tados y otra de no tratados o controles, de modo que ambas categorías estén ade-
cuadamente representadas. Cada uno de los segmentos de la población, el de los
tratados y no tratados, se muestrea así por separado: la muestra obtenida puede ver-
se como la unión de dos muestras para dos subpoblaciones. En este caso, no sólo
hemos fijado N, sino también el desglose N = N
t
+ N
c
entre tratados y no trata-
dos o controles. Decimos entonces hallarnos ante muestreo producto-multinomial
Es importante darse cuenta de que en tales casos las proporciones marginales de la
tabla no estiman proporciones en la población: son un mero resultado del diseño
muestral. Por ejemplo, N
t
/N no estimaría la proporción de sujetos tratados en la
población, porque tanto numerador como denominador han sido arbitrariamente
fijados.
En situaciones más complejas que la muy simple descrita, podríamos tener, por
ejemplo, cuotas por sexo y grupo de edad, y en consecuencia estaríamos fijando el
número N
ij
de sujetos muestreados para cada combinación de sexo y edad.
8.3. La paradoja de Simpson
Consideremos la siguiente tabla de contingencia, relacionando recepción de un
tratamiento o un placebo con el hecho de contraer o no una cierta enfermedad. En
cursivas, bajo los valores absolutos, aparece entre paréntesis la proporción sobre el
total de la fila correspondiente.
Enferman No enferman Total
Tratamiento 5950 9005 14955
(0.398) (0.602)
Placebo 5050 1095 6145
(0.822) (0.178)
86 CAPÍTULO 8. DATOS CATEGÓRICOS MULTIVARIANTES
A la vista de los datos anteriores, estaríamos tentados de concluir que el tratamiento
ha tenido realmente un efecto preventivo: menos del 40 % de tratados desarrollan
la enfermedad, frente a más del 80 % de quienes tomaron el placebo.
Supongamos, sin embargo, que efectuamos un desglose por en varones y mu-
jeres de la tabla anterior para obtener las dos siguientes:
Varones
Enferman No enferman Total
Tratamiento 5000 5 5005
(0.999) (0.001)
Placebo 5000 95 5095
(0.981) (0.019)
Mujeres
Enferman No enferman Total
Tratamiento 950 9000 9950
(0.095) (0.905)
Placebo 50 1000 1050
(0.005) (0.995)
Se da ahora una aparente paradoja: mientras para el total de la población el
tratamiento aparentaba ser efectivo, tanto los varones como las mujeres tratados
parecen haber enfermado más que los que recibieron el placebo. Esto ocurre por
poco margen en el caso de los varones, pero de forma notoria en las mujeres. Re-
sulta así que la tabla para el total de la población proporciona una información que
es contradictoria con la que obtenemos al considerar las tablas desglosadas.
La contradicción entre los resultados que sugieren la tabla conjunta y las dos
que forman el desglose se explica cuando notamos que la asignación del trata-
miento ha sido muy asimétrica entre hombres y mujeres: las mujeres, que parecen
practicamente inmunes a la enfermedad analizada, han recibido mayoritariamente
el tratamiento, mientras que los hombres, mucho más vulnerables, no lo han reci-
bido en la misma proporción. Se tiene así una menor incidencia de la enfermedad
(en la tabla conjunta) para los receptores del tratamiento, simplemente porque en-
tre ellos hay mayoría de mujeres casi inmunes. Cuando se analizan separadamente
las tablas correspondientes a hombres y mujeres apreciamos, sin embargo, que el
tratamiento no parece tener ningún efecto positivo.
8.4. MODELOS LOGARÍTMICO-LINEALES 87
Si tabuláramos los tres caracteres a la vez, tendríamos una tabla de tres dimen-
siones (Tratamiento Enfermedad Sexo). Sumando sobre la tercera dimensión
llegaríamos a la tabla de dos dimensiones (Tratamiento Enfermedad). Decimos
que ésta última resulta de colapsar la primera o que es uno de sus márgenes. Lo
que la paradoja de Simpson presentada más arriba muestra es que colapsando una
tabla puede llegarse a conclusiones diferentes —incluso radicalmente opuestas—
a las que alcanzaríamos al considerar la tabla completa. Nos deberemos por ello
abstener de colapsar una tabla si la asociación entre los caracteres correspondien-
tes a las dimensiones que subsisten es diferente para diferentes niveles del carácter
o caracteres correspondientes a las dimensiones suprimidas.
Observación 8.1 Este efecto es similar al que se presenta al comparar
el coeficiente de correlación simple entre dos variables y el coeficiente de
correlación parcial controlando el efecto de una tercera. Ambos pueden tener
valores completamente diferentes, e incluso signo opuesto, como el Ejem-
plo 1.2 ponía de manifiesto.
8.4. Modelos logarítmico-lineales
Consideraremos una tabla de tres dimensones, pero de nuevo el planteamiento
es fácilmente generalizable.
Denotemos por p
ijk
la probabilidad de que un sujeto tomado al azar entre los
N que componen la tabla esté en la celda (ijk). Denotemos por
p
i++
=
d
B
¸
j=1
d
C
¸
k=1
p
ijk
p
+j+
=
d
A
¸
i=1
d
C
¸
k=1
p
ijk
p
++k
=
d
A
¸
i=1
d
B
¸
j=1
p
ijk
las probabilidades marginales e imaginemos que hubiera independencia entre los
tres caracteres A, B, C examinados. Entonces, tendríamos:
p
ijk
= p
i++
p
+j+
p
++k
(8.2)
o, en escala logarítmica,
log(p
ijk
) = log(p
i++
) + log(p
+j+
) + log(p
++k
); (8.3)
en el caso de independencia, log(p
ijk
) se puede expresar como suma de efectos
fila, columna y estrato. Cada nivel de cada caracter contribuye una cantidad fija a
log(p
ijk
), que no depende de cuál sea el nivel observado de ningún otro carácter.
Podríamos considerar modelos más generales para log(p
ijk
) como suma de
diferentes efectos aditivos así:
log(p
ijk
) = u +u
A
i
+u
B
j
+u
C
k
+u
AB
ij
+u
AC
ik
+u
BC
jk
+u
ABC
ijk
; (8.4)
88 CAPÍTULO 8. DATOS CATEGÓRICOS MULTIVARIANTES
al objeto de identificar todos los parámetros (y de hacerlos interpretables) necesi-
tamos restricciones del tipo:
¸
i
u
A
i
=
¸
j
u
B
j
=
¸
k
u
C
k
= 0 (8.5)
¸
j
u
AB
ij
=
¸
i
u
AB
ij
= 0 (8.6)
¸
i
u
AC
ik
=
¸
k
u
AC
ik
= 0 (8.7)
¸
j
u
BC
jk
=
¸
k
u
BC
jk
= 0 (8.8)
¸
i
u
ABC
ijk
=
¸
j
u
ABC
ijk
=
¸
k
u
ABC
ijk
= 0. (8.9)
El modelo (8.4) está saturado:utiliza tantos parámetros libres como celdas. Pode-
mos considerar variedades del mismo, como:
log(p
ijk
) = u +u
A
i
+u
B
j
+u
C
k
(8.10)
log(p
ijk
) = u +u
A
i
+u
B
j
+u
C
k
+u
AB
ij
(8.11)
log(p
ijk
) = u +u
A
i
+u
B
j
+u
C
k
+u
AC
ik
(8.12)
log(p
ijk
) = u +u
A
i
+u
B
j
+u
C
k
+u
AC
ik
+u
BC
jk
(8.13)
log(p
ijk
) = u +u
A
i
+u
B
j
+u
C
k
+u
AB
ij
+u
AC
ik
+u
BC
jk
. (8.14)
El modelo (8.10) corresponde a la independencia entre los tres caracteres, A, B y
C. El modelo (8.11) incorpora una interacción entre los caracteres A, B: el efecto
de cada nivel i de A no es idéntico para cualquier nivel j de B, sino que combina-
ciones ij particulares tienen efecto sobre log(p
ijk
) que difiere de la suma u
A
i
+u
B
j
;
analogamente con (8.12) y (8.13). El último de los modelos contiene todas las in-
teracciones de segundo orden y es el más parametrizado antes de llegar al saturado,
(8.4).
Los parámetros de un modelo logarítmico-lineal son funciones de log(p
ijk
);
por ejemplo, sumando (8.10) respecto de i, j, k y teniendo en cuenta las restriccio-
nes de suma cero, tenemos:
u =
1
d
A
d
B
d
C
d
A
¸
i=1
d
B
¸
j=1
d
C
¸
k=1
log(p
ijk
); (8.15)
Si ahora sumamos la misma igualdad sobre j, k llegamos a
u
A
i
=
1
d
B
d
C

¸
d
B
d
C
u +
d
B
¸
j=1
d
C
¸
k=1
log(p
ijk
)
¸

, (8.16)
8.5. LECTURA RECOMENDADA 89
y análogamente para los parámetros u
B
j
y u
C
k
. Nótese que los resultados son los
mismos cuando consideramos cualquiera de los modelos más parametrizados (8.11)–
(8.13). Sustituyendo (8.15) en (8.16) llegamos a: Si ahora sumamos la misma igual-
dad sobre j, k llegamos a
u
A
i
=
1
d
B
d
C
d
B
¸
j=1
d
C
¸
k=1
log(p
ijk
) −
1
d
a
d
B
d
C
d
A
¸
i=1
d
B
¸
j=1
d
C
¸
k=1
log(p
ijk
), (8.17)
y análogamente para los términos restantes. Los estimadores máximo verosímiles
de los parámetros se pueden obtener así de los de los términos p
ijk
, y éstos son
simplemente ˆ p
ijk
= x
ijk
/N.
En la práctica, el algoritmo de reescalado iterativo permite la estimación có-
moda de cualquier modelo logarítmico lineal.
8.5. Lectura recomendada
Son buenas introducciones Bishop et al. (1975), Fienberg (1980), Agresti (1990)
y Plackett (1974).
90 CAPÍTULO 8. DATOS CATEGÓRICOS MULTIVARIANTES
Capítulo 9
Análisis de Correspondencias
Es una técnica para producir representaciones planas relacionando las obser-
vaciones (filas) y variables (columnas) en una tabla de contingencia, es decir, una
tabla cada una de cuyas casillas recoge números naturales. Es el caso de la Ta-
bla 7.1, aunque por comodidad el número de hogares se haya expresado en miles.
9.1. Análisis de las filas de X
9.1.1. Notación
El punto de partida será una matriz de datos X de dimensiones N p que,
como se ha indicado, es una tabla de contingencia. Sea T =
¸
N
i=1
¸
p
j=1
x
ij
.
Emplearemos la siguiente notación:
9.1.2. Distancia entre las filas de la matriz de datos
Si quisiéramos obtener una representación en pocas dimensiones de las filas de
la matriz X, parecería lo indicado un análisis en componentes principales como el
descrito en el Capítulo 5. La condición de tabla de contingencia de los datos de
partida sugiere no obstante algunas alteraciones.
Consideremos la matriz F y, dentro de ella, dos filas i, j como las siguientes:
i 0.015 0.02 0.01 0.01 0.02 f
i.
= 0.0750
j 0.0015 0.002 0.001 0.001 0.002 f
j.
= 0.0075
Es aparente que la fila i está mucho más poblada que la fila j (un 7.5 % de
los casos totales frente a sólo un 0.75 %). Si prescindimos de este efecto debido
91
92 CAPÍTULO 9. ANÁLISIS DE CORRESPONDENCIAS
Cuadro 9.1: Notación empleada
Símbolo Elemento Descripción
genérico
X x
ij
Tabla de contingencia original N p.
F f
ij
= T
−1
x
ij
Matriz de frecuencias relativas N p.
f
i.
f
i.
=
¸
p
j=1
f
ij
Total marginal fila i-ésima de F.
f
.j
f
.j
=
¸
N
i=1
f
ij
Total marginal columna j-ésima de F.
c c

= (f
.1
. . . f
.p
), totales marginales columnas.
f f

= (f
1.
. . . f
N.
), totales marginales filas.
D
f
Matriz diagonal N N con f
1.
. . . f
N.
en la diagonal principal.
D
c
Matriz diagonal p p con f
.1
. . . f
.p
en la diagonal principal.
al tamaño, vemos no obstante que las frecuencias relativas intrafila de las cinco
categorias consideradas en las columnas son idénticas en ambas filas. Por ejemplo,
la primera categoría se presenta en i con una frecuencia intrafila de 0.015 / 0.075 =
20 % y de exactamente el mismo valor en la fila j; y así para todas las demás.
En consecuencia, si aspiramos a hacer una análisis que describa las diferencias
relativas entre las filas, parece que deberíamos corregir el efecto tamaño aludido,
lo que se logra sustituyendo cada f
ij
por f
ij
/f
i.
, que es lo mismo que reemplazar
en nuestro análisis la matriz F por D
f
−1
F.
Podríamos pensar que tras hacer esta corrección sólo resta realizar un análi-
sis en componentes principales convencional, pero hay otra peculiaridad a la que
debemos enfrentarnos. Imaginemos tres filas de D
f
−1
F tales como las siguientes:
k 0.15 0.02 0.10 0.43 0.30
l 0.15 0.02 0.10 0.44 0.29
m 0.15 0.01 0.10 0.44 0.30
Observemos que, si computamos la distancia euclídea ordinaria d(k, l) entre
las filas k,l por un lado y d(k, m) por otro, obtenemos:
d
2
e
(k, l) =
p
¸
j=1

f
kj
f
k.

f
lj
f
l.

2
(9.1)
= (0,43 −0,44)
2
+ (0,30 −0,29)
2
= 0,0002 (9.2)
d
2
e
(k, m) =
p
¸
j=1

f
kj
f
k.

f
mj
f
m.

2
(9.3)
= (0,43 −0,44)
2
+ (0,02 −0,01)
2
= 0,0002 (9.4)
Esto es claramente indeseable en general: no es lo mismo una discrepancia de
0.01 entre 0.29 y 0.30 que entre 0.01 y 0.02. En este último caso, un carácter raro en
9.1. ANÁLISIS DE LAS FILAS DE X 93
ambas filas lo es mucho más en una (la m) que en otra (la k), y tenderíamos a atri-
buir a este hecho mucha mayor significación. Por ejemplo, si las cifras anteriores
reflejaran la prevalencia de determinadas enfermedades en distintas comunidades,
0.43 y 0.44 podrían recoger el tanto por uno de personas que han padecido un
resfriado común en las comunidades k y m: difícilmente consideraríamos la dis-
crepancia como relevante. En cambio, la segunda columna podría reflejar el tanto
por uno de personas atacadas por una enfermedad muy infrecuente, y el hecho de
que en la comunidad l este tanto por uno es doble que en la k no dejaría de atraer
nuestra atención.
En consecuencia, hay razón para ponderar diferentemente las discrepancias
en los diferentes caracteres, y una forma intuitivamente atrayente de hacerlo es
sustituir la distancia euclidea ordinaria por:
d
2
(k, l) =
p
¸
j=1
1
f
.j

f
kj
f
k.

f
lj
f
l.

2
(9.5)
=
p
¸
j=1

f
kj
f
k.

f
.j

f
lj
f
l.

f
.j

2
(9.6)
Por su semejanza formal con el estadístico χ
2
se denomina a la distancia anterior
distancia χ
2
.
Observemos, que si sustituimos la matriz D
f
−1
F por Y = D
f
−1
FD
c

1
2
, cuya
i-ésima fila es de la forma

f
i1
f
i.

f
.1
,
f
i2
f
i.

f
.2
, . . . ,
f
ip
f
i.

f
.p

,
un análisis sobre D
f
−1
FD
c

1
2
haciendo uso de distancias euclídeas equivale al
análisis sobre D
f
−1
F haciendo uso de distancias χ
2
.
9.1.3. Matriz de covarianzas muestral
El último paso previo al análisis en componentes principales, una vez que he-
mos decidido hacerlo sobre D
f
−1
FD
c

1
2
, es la estimación de la matriz de cova-
rianzas. El estimador ordinario (y máximo verosímil, en el caso de muestras pro-
cedentes de observaciones normales) es:
ˆ
Σ = N
−1
N
¸
i=1
(y
i
−y)(y
i
−y)

(9.7)
= N
−1
N
¸
i=1
y
i
y
i

−yy

(9.8)
= N
−1
Y

Y −(N
−1
Y

1
N
)(N
−1
1
N

Y ); (9.9)
94 CAPÍTULO 9. ANÁLISIS DE CORRESPONDENCIAS
ello supone dar a cada observación un peso de 1/N, lo que es razonable en el caso
de muestrear de forma aletoria simple una población.
En el caso que nos ocupa, se presenta de nuevo la peculiariedad de que unas
observaciones —filas de la matriz X, que tras sucesivas transformaciones se ha
convertido en Y = D
f
−1
FD
c

1
2
— son en general más importantes que otras:
sus totales f
i.
marginales difieren. Por ello, es razonable reemplazar el estimador
anterior por:
ˆ
Σ = Y

D
f
Y −(Y

D
f
1
N
)(1
N

D
f
Y ). (9.10)
que supone dar peso f
i.
en lugar de 1/N a la fila i-ésima de Y .
Con las anteriores modificaciones estamos ya en situación de hacer un análisis
en componentes principales. Notemos, en primer lugar, que c
1
2
es vector propio de
ˆ
Σasociado a un valor propio nulo. En efecto, como Y

D
f
1
N
= D
c

1
2
F

D
f
−1
D
f
1
N
=
c
1
2
, tenemos que
ˆ
Σc
1
2
=

Y

D
f
Y −c
1
2
c
1
2

c
1
2
= Y

D
f
Y c
1
2
−c
1
2
= D
c

1
2
F

D
f
−1
D
f
D
f
−1
FD
c

1
2
c
1
2
−c
1
2
= D
c

1
2
F

D
f
−1
F1
p
−c
1
2
= D
c

1
2
F

D
f
−1
f −c
1
2
= D
c

1
2
c −c
1
2
= 0.
Por tanto, podemos prescindir de una componente principal que no explica ninguna
varianza, y utilizar sólo las restantes (ordinariamente, las dos primeras). Además,
como los restantes vectores propios a
i
(i = 1, . . . , p − 1) de
ˆ
Σ son ortogonales a
c
1
2
, tenemos que
ˆ
Σa
i
=

Y

D
f
Y −c
1
2
c
1
2

a
i
= Y

D
f
Y a
i
;
en consecuencia, los vectores propios correspondientes a valores propios no nulos
de
ˆ
Σ coinciden con los de Y

D
f
Y , y podemos diagonalizar esta última matriz.
Finalmente, observemos que Y

D
f
Y = D
c

1
2
F

D
f
−1
D
f
D
f
−1
FD
c

1
2
=
D
c

1
2
F

D
f

1
2
D
f

1
2
FD
c

1
2
y denotando
Z = D
f

1
2
FD
c

1
2
(9.11)
vemos que la matriz que diagonalizamos puede expresarse como Z

Z, hecho del
que haremos uso en breve.
9.2. ANÁLISIS DE LAS COLUMNAS DE X 95
9.2. Análisis de las columnas de X
Podríamos ahora realizar un análisis en componentes principales de las colum-
nas de la matriz X; es decir, buscamos una representación de baja dimensionalidad
de los p vectores en R
N
constituidos por las columnas de X.
Una discusión del todo paralela a la precedente, intercambiando los papeles
de filas y columnas, nos llevaría a diagonalizar la matriz
˜
Y D
c
˜
Y

, en que
˜
Y =
D
f

1
2
FD
c
−1
. En consecuencia,
˜
Y D
c
˜
Y

= D
f

1
2
FD
c
−1
D
c
D
c
−1
F

D
f

1
2
=
ZZ

con Z definida como anteriormente.
9.3. Reciprocidad y representación conjunta
Sean A y B las matrices que tienen por columnas los vectores propios de Z

Z
y ZZ

respectivamente. La representación de las filas de Y mediante todas las
componentes principales viene entonces dada por
R = Y A = D
f
−1
FD
c

1
2
A, (9.12)
en tanto la representación de las columnas de
˜
Y viene dada por
C =
˜
Y

B = D
c
−1
F

D
f

1
2
B. (9.13)
Notemos sin embargo que las columnas de A y las de B están relacionadas, por ser
vectores propios respectivamente de matrices que podemos escribir como Z

Z y
ZZ

respectivamente. Haciendo uso de (7.11) y (7.12) tenemos que:
R = Y A = D
f
−1
FD
c

1
2
Z



1
2
(9.14)
C =
˜
Y

B = D
c
−1
F

D
f

1
2
ZAΛ

1
2
. (9.15)
Tomemos la expresión (9.14). Haciendo uso de la definición de Z en (9.11) y de
(9.13) tenemos que:
R = D
f
−1
FD
c

1
2
D
c

1
2
F

D
f

1
2


1
2
(9.16)
= D
f
−1
F D
c
−1
F

D
f

1
2
B
. .. .
C
Λ

1
2
(9.17)
= D
f
−1
FCΛ

1
2
(9.18)
Análogamente,
C = D
c
−1
F

D
f

1
2
ZAΛ

1
2
(9.19)
= D
c
−1
F

D
f

1
2
D
f

1
2
FD
c

1
2


1
2
(9.20)
= D
c
−1
F



1
2
(9.21)
96 CAPÍTULO 9. ANÁLISIS DE CORRESPONDENCIAS
Las relaciones (9.18)-(9.21) se conocen como de reciprocidad baricéntrica y son
las que permiten interpretar las posiciones relativas de filas y columnas. Conside-
remos, por ejemplo, la i-ésima fila r
i
de R. De acuerdo con (9.18), su k-ésima
coordenada puede expresarse así:
r
ik
= λ

1
2
k

f
i1
f
i.
c
1k
+. . . +
f
ip
f
i.
c
pk

,
es decir, como un promedio ponderado de la coordenada homóloga de las colum-
nas, con pesos dados por
f
i1
f
i.
, . . . ,
f
ip
f
i.
;
si f
ij
/f
i.
es muy grande, la variable j tiene gran relevancia en el perfil fila i, y
el punto que representa a dicho perfil fila tendrá sus coordenadas “atraidas” ha-
cia las de c
j
, las del punto que representa a la variable j. Análogamente para la
representación de las columnas.
9.4. Lectura recomendada
Una introducción al Análisis de Correspondencias puede encontrarse tanto en
Cuadras (1981) como en Peña (2002); también será de utilidad, entre la bibliografía
en español, Escofier and Pages (1984).
Capítulo 10
Análisis Procrustes
10.1. Introducción.
El análisis Procrustes tiene por objeto examinar en qué medida dos configura-
ciones de puntos en el espacio euclídeo son similares. Existen generalizaciones a
más de dos configuraciones (ver por ej. Gower (1975)), pero aquí sólo trataremos
el caso más simple. Seguimos en la exposición a Sibson (1978).
Consideremos dos configuraciones de N puntos en el espacio euclídeo R
k
re-
presentadas por sendas matrices X e Y de dimensión N k. Las filas y
i
y x
i
de
las matrices Y y X respectivamente proporcionan las coordenadas del punto i en
las dos configuraciones.
Como medida de ajuste entre ambas tomaremos
G(X, Y ) = traza((X −Y )(X −Y )

) =
N
¸
i=1
[[x
i
−y
i
[[
2
(10.1)
Para examinar si las dos configuraciones son similares, nos fijaremos en si con-
servan la posición relativa de los puntos excepto por transformaciones “simples”
como traslaciones o cambios de escala. Específicamente buscaremos evaluar
G(X, Y ) = traza((X −g(Y ))(X −g(Y ))

). (10.2)
para una clase de transformaciones g(.) incluyendo la composición de traslaciones,
rotaciones y contracciones/expansiones. Por tanto,
g(Y ) = ρ(Y −1

a)P (10.3)
97
98 CAPÍTULO 10. ANÁLISIS PROCRUSTES
siendo P una matriz ortogonal, a un vector de constantes y ρ un coeficiente de
contracción o expansión de la escala. Llamaremos Γ al conjunto formado por todas
las transformaciones h(.) de la forma descrita en (10.3).
Estamos interesados en encontrar
G
m´ın
(X, g(Y )) = m´ın
ρ,P,a
G(X, ρ(Y −1

a)P) (10.4)
y los correspondientes valores ρ, P, a para los que el mínimo se alcanza.
10.2. Obtención de la transformación Procrustes
Lema 10.1 Sea Auna matriz cuadrada y P cualquier matriz ortogonal. Entonces,
traza(P

A) ≤ traza((A

A)
1
2
) (10.5)
y la igualdad se verifica sólamente si P

A = (A

A)
1
2
.
DEMOSTRACION:
Consideremos la descomposición en valores singulares (fue introducida en la
Sección 7.1, pág. 75) A = USV

, en que S es la matriz de valores singulares (no
negativos) y U, V son matrices ortogonales. Entonces,
traza(P

A) = traza(P

USV

) = traza(V

P

US). (10.6)
Pero V

P

U es una matriz ortogonal que nunca tendrá valores mayores que 1 en
la diagonal principal. Por tanto, la traza del término derecho de la ecuación anterior
será la suma de los elementos diagonales de S multiplicados por números menores
que la unidad. Tendremos:
traza(P

A) ≤ traza(S) (10.7)
y se verificará la igualdad sólo cuando V

P

US = S; esto último acontece, por
ejemplo, para P

= V U

. Pero
traza(S) = traza((S

S)
1
2
)
= traza((V

A

UU

AV )
1
2
)
= traza((A

A)
1
2
),
y esto junto con (10.7) establece (10.5). Veamos ahora la segunda aseveración. De
V

P

US = S (10.8)
se deducen las siguientes desigualdades:
P

USV

= V SV

⇒ P

A = V SV

⇒ P

A = (V S
2
V

)
1
2
⇒ P

A = (V SU

USV

)
1
2
⇒ P

A = (A

A)
1
2
,
10.2. OBTENCIÓN DE LA TRANSFORMACIÓN PROCRUSTES 99
lo que finaliza la demostración. Podemos ahora resolver el problema de minimi-
zación (10.4).
10.2.1. Traslación a
Sean x, y los vectores de medias aritméticas de las columnas de (respectiva-
mente) X e Y . Definamos las matrices
X = 1x

Y = 1y

.
y versiones centradas de X e Y así:
˜
X = X −X
˜
Y = Y −Y .
Observemos que
G(X, Y ) = traza((X −Y )(X −Y )

)
= traza((
˜
X −
˜
Y )(
˜
X −
˜
Y )

) +Ntraza((X −Y )(X −Y )

)
= G(
˜
X,
˜
Y ) +Ntraza((X −Y )(X −Y )

);
ello muestra que G(X, Y ) se hace mínimo cuando se calcula para configuraciones
de puntos cuyos centroides han sido llevados a un origen común.
10.2.2. Rotación P.
Sean
˜
X e
˜
Y configuraciones centradas. Sean todas las transformaciones
˜
Y P
en que P es una matriz ortogonal k k. Tenemos
G(
˜
X,
˜
Y P) = traza((
˜
X −
˜
Y P)(
˜
X −
˜
Y P)

)
= traza(
˜
X
˜
X

) + traza(
˜
Y
˜
Y

) −2 traza(P

˜
Y

˜
X)
≥ traza(
˜
X
˜
X

) + traza(
˜
Y
˜
Y

)
−2 traza(
˜
X

˜
Y
˜
Y

˜
X)
1
2
(10.9)
en que el último paso hace uso del Lema 10.1. De acuerdo con dicho lema, el valor
dado por (10.9) es alcanzable haciendo P =
˜
Y

˜
X(
˜
X

˜
Y
˜
Y

˜
X)

1
2
.
10.2.3. Parámetro de escala ρ
El parámetro de escala es ahora muy fácil de obtener. Notemos que dejamos
inalterada la escala de las
˜
X y cambiamos sólo la de las
˜
Y . De otro modo, siem-
pre podríamos obtener un valor de G(
˜
X,
˜
Y P) tan pequeño como deseáramos, sin
100 CAPÍTULO 10. ANÁLISIS PROCRUSTES
más que colapsar ambas configuraciones en una región arbitrariamente pequeña en
torno al origen. Tenemos entonces que minimizar
G(
˜
X, ρ
˜
Y P) = traza(
˜
X
˜
X

) +ρ
2
traza(
˜
Y
˜
Y

) −2ρ traza(
˜
X

˜
Y
˜
Y

˜
X)
1
2
, (10.10)
ecuación de segundo grado en ρ cuyo mínimo se alcanza para:
ρ =
traza(
˜
X

˜
Y
˜
Y

˜
X)
1
2
traza(
˜
Y
˜
Y

)
. (10.11)
10.3. Análisis y comentarios adicionales
Si reemplazamos el valor de ρ obtenido de (10.11) en la ecuación (10.10) ob-
tenemos:
G
m´ın
(
˜
X, ρ
˜
Y P) = traza(
˜
X
˜
X

) +
¸
traza(
˜
X

˜
Y
˜
Y

˜
X)
1
2
traza(
˜
Y
˜
Y

)
¸
2
traza(
˜
Y
˜
Y

)
−2
¸
traza(
˜
X

˜
Y
˜
Y

˜
X)
1
2
traza(
˜
Y
˜
Y

)
¸
traza(
˜
X

˜
Y
˜
Y

˜
X)
1
2
que tras simplificar proporciona:
G
m´ın
(
˜
X, ρ
˜
Y P) = traza(
˜
X
˜
X

) −
¸
traza(
˜
X

˜
Y
˜
Y

˜
X)
1
2
traza(
˜
Y
˜
Y

)
¸
traza(
˜
X

˜
Y
˜
Y

˜
X)
1
2
= traza(
˜
X
˜
X

) −ρ
2
traza(
˜
Y
˜
Y

)
Reordenando la última igualdad tenemos:
G
m´ın
(
˜
X, ρ
˜
Y P) +ρ
2
traza(
˜
Y
˜
Y

) = traza(
˜
X
˜
X

). (10.12)
Podemo interpretar la igualdad (10.12) así: la “suma de cuadrados” de las distan-
cias euclídeas de la configuración original
˜
X se descompone en ρ
2
traza(
˜
Y
˜
Y

)
más una “suma de cuadrados de los errores”, G
m´ın
, que es lo que hemos minimiza-
do. La igualdad (10.12) es así análoga a la que descompone la suma de cuadrados
en el análisis de regresión o ANOVA.
Es de destacar que ρ al ajustar la configuración Y a la X no es en general
el mismo (ni el inverso) del que se obtiene al ajustar la configuración X a la Y .
Sin embargo, si normalizamos las configuraciones de modo que traza(
˜
X
˜
X

) =
traza(
˜
Y
˜
Y

) = 1, ρ es el mismo en ambos casos, y la igualdad (10.12) se transfor-
ma en:
G
m´ın
(
˜
X, ρ
˜
Y P) +ρ
2
= 1. (10.13)
En tal caso, ρ
2
es directamente interpretable como la fracción de “suma de cuadra-
dos” de distancias que la configuración adaptada es capaz de reproducir: ρ
2
juega
aquí un papel similar al de R
2
en regresión.
Capítulo 11
Reescalado Multidimensional
11.1. Introducción.
Las técnicas conocidas colectivamente como de reescalado multidimensional
(RM) (Multidimensional Scaling, MDS) tienen por objeto producir representacio-
nes de reducida dimensionalidad de colecciones de objetos. Se diferencian del Aná-
lisis en Componentes Principales, Análisis Factorial y AC en el punto de partida.
Mientras que en las técnicas citadas cada objeto viene descrito por un vector x
r
que proporciona su posición en un espacio p-dimensional, en el caso de del Rees-
calado Multidimensional el punto de partida es una matriz de proximidades. Esta
matriz puede contener disimilaridades, δ
ij
en que un mayor valor δ
ij
corresponde
a una mayor desemejanza entre los objetos i y j o similaridades, verificando lo
contrario.
No se hacen en principio supuestos acerca de la naturaleza de las similarida-
des o disimilaridades, que pueden obtenerse de muy diversos modos. Típicamente
proceden de promediar las percepciones declaradas de un colectivo de sujetos in-
terrogados, pero pueden tener cualquier otro origen.
El objetivo del Reescalado Multidimensional es producir una configuración
de puntos, idealmente de muy baja dimensión, cuya distancia euclídea ordinaria
reproduzca con la máxima fidelidad las disimilaridades δ
ij
.
Ejemplo 11.1 (semejanza entre códigos del alfabeto Morse) En Borg
and Groenen (1997), p. 54 se presenta un experimento realizado por Roth-
kopf (1957). Un colectivo de individuos escucha parejas de símbolos codi-
ficados en el alfabeto Morse, respondiendo si a su juicio son iguales o no.
Para la pareja formada por los símbolos i y j se computa la disimilaridad δ
ij
como el porcentaje de respuestas equivocadas (es decir, en las que el sujeto
manifiesta que los dos símbolos no son iguales cuando lo son, o al contrario).
101
102 CAPÍTULO 11. REESCALADO MULTIDIMENSIONAL
Hay símbolos que son fácilmente reconocibles como diferentes, incluso
por un oído no entrenado (por ej., R, .-. y Q -.-). Otros, en cambio, son
fácilmente confundibles. Obsérvese que pueden ser, y de hecho son, diferen-
tes los porcentajes de confusión al escuchar la misma pareja de símbolos en
los dos órdenes posibles: por tanto podríamos desear considerar δ
ij
= δ
ji
.
Obsérvese además que dos símbolos idénticos no siempre son reconocidos
como tales, y por tanto δ
ii
= 0 en general.
El empleo de la técnica del Reescalado Multidimensional produce una
mapa en dos dimensiones en que la ubicación relativa de los símbolos es
la esperable a la vista de su duración y composición de puntos y rayas. Por
ejemplo, E (en Morse, .) y T (en Morse, -) aparecen en posiciones contiguas.
Puede verse la configuración bidimensional y una interpretación de la misma
en Borg and Groenen (1997), p. 59.
Ejemplo 11.2 (reconstrucción de mapas a partir de información sobre
distancias) En ocasiones se emplea una matriz de disimilaridades obtenida de
modo objetivo. Por ejemplo, podríamos construir una tabla de doble entrada
cuyas filas y columnas se correspondieran con las capitales de provincia en
España. En el lugar ij, podemos introducir como disimilaridad la distancia
por carretera en kilómetros de una a otra. La configuración de puntos en dos
dimensiones proporcionada por las técnicas de Reescalado Multidimensional
debería aproximar la ubicación de las respectivas capitales de provincia. La
configuración de puntos en dos dimensiones no reproduce con total fidelidad
las posiciones de las capitales, porque las distancias consideradas lo son por
carretera. La Figura 11.1, pág. 103 muestra el resultado de realizar un tipo de
análisis de Reescalado Multidimensional.
11.2. Reescalado multidimensional métrico
La presentación sigue a Cox and Cox (1994).
Imaginemos que tenemos las coordenadas de un conjunto de puntos. La distan-
cia euclídea al cuadrado entre los puntos x
r
y x
s
vendría dada por:
d
2
rs
= |x
r
−x
s
|
2
= (x
r
−x
s
)

(x
r
−x
s
). (11.1)
Sea X una matriz N p cuya r-ésima fila es x
r

. Definamos la matriz B cuyo
elemento genérico b
rs
viene dado por x
r

x
s
. Claramente,
B = XX

(11.2)
es cuadrada, simétrica y puede diagonalizarse:
B = V

ΛV. (11.3)
A partir de una tal B podríamos encontrar una configuración de puntos
˜
X que la
reproduce:
˜
X = V

Λ
1
2
(11.4)
˜
X

= Λ
1
2
V. (11.5)
11.2. REESCALADO MULTIDIMENSIONAL MÉTRICO 103
Figura 11.1: Mapa reconstruido mediante reescalado multidimensional métrico a
partir de las distancias por carretera entre capitales de provincia.
−600 −400 −200 0 200 400

6
0
0

4
0
0

2
0
0
0
2
0
0
4
0
0
6
0
0
Albacete
Alicante
Almeria
Avila
Badajoz
Barcelona
Bilbao
Burgos
Caceres Cadiz
Castellon
Ciudad.Real
Cordoba
Coru.a
Cuenca
Gerona
Granada
Guadalajara
Huelva
Huesca
Jaen
Leon
Lerida
Logro.o
Lugo
Madrid
Malaga
Murcia
Orense
Oviedo
Palencia
Pamplona
Pontevedra
Salamanca
Donostia
Santander
Segovia
Sevilla
Soria
Tarragona
Teruel
Toledo
Valencia
Valladolid
Vitoria
Zamora
Zaragoza
104 CAPÍTULO 11. REESCALADO MULTIDIMENSIONAL
El problema de encontrar una configuración de puntos que reproduce una cierta B,
por tanto, está resuelto, al menos en tanto en cuanto dicha matriz B sea semidefi-
nida positiva y admita una diagonalización como (11.3). La pregunta es si a partir
de las distancias d
2
rs
podemos obtener una B para diagonalizarla.
Claramente, no puede haber solución única, porque toda traslación, rotación o
reflexión de una configuración de puntos deja sus distancias invariadas. Por tanto, la
solución estará indeterminada. No perderemos generalidad si suponemos un origen
arbitrario, y por comodidad podemos suponer la nube de puntos centrada, es decir:
1
N
N
¸
r=1
x
r
=
1
N
N
¸
s=1
x
s
= 0. (11.6)
De (11.1) obtenemos:
d
2
rs
= x
r

x
r
+x
s

x
s
−2x
r

x
s
, (11.7)
que sumando respecto de r, s y respecto de ambos índices a la vez proporciona en
virtud de (11.6):
1
N
N
¸
r=1
d
2
rs
=
1
N
N
¸
r=1
x
r

x
r
+x
s

x
s
(11.8)
1
N
N
¸
s=1
d
2
rs
=
1
N
N
¸
s=1
x
s

x
s
+x
r

x
r
(11.9)
1
N
2
N
¸
r=1
N
¸
s=1
d
2
rs
=
2
N
N
¸
r=1
x
r

x
r
. (11.10)
Por consiguiente, de (11.7) y haciendo uso de (11.8) a (11.10) tenemos que:
b
rs
= x
r

x
s
(11.11)
= −
1
2
¸
d
2
rs

1
N
N
¸
r=1
d
2
rs

1
N
N
¸
s=1
d
2
rs
(11.12)
+
1
N
2
N
¸
r=1
N
¸
s=1
d
2
rs
¸
. (11.13)
Llamando
a
rs
= −
1
2
d
2
rs
, (11.14)
tenemos que
b
rs
= a
rs
−a
r.
−a
.s
+a
..
(11.15)
en que a
r.
denota el promedio de a
rs
al sumar sobre el índice s (y análogamente
para a
..
y a
.s
). y si A es una matriz cuyo elemento genérico es a
rs
, entonces
B =

I −
1
N
1 1

A

I −
1
N
1 1

. (11.16)
11.2. REESCALADO MULTIDIMENSIONAL MÉTRICO 105
Hemos pues construido a partir de la matriz de distancias una matriz B a la que
aplicar la factorización en (11.3). No siempre ocurrirá que B obtenida a partir
de una matriz de disimilaridades pueda ser factorizada en la forma (11.3). Ello
será imposible cuando B tenga valores propios negativos; en tal caso, es frecuente
prescindir de los valores propios negativos, si no son muy grandes, o alterar la
matriz de disimilaridades inicial añadiendo una constante c a cada disimilaridad d
rs
con r = s. Siempre hay un c que hace que B obtenida a partir de las disimilaridades
así transformadas sea semidefinida positiva.
Tenemos pues el siguiente algoritmo:
Algoritmo 1 – Reescalado multidimensional métrico.
1: Obtener una matriz de disimilaridades.
2: A ←


1
2
d
2
rs

.
3: B ←

I −
1
N
1 1

A

I −
1
N
1 1

.
4: Diagonalizar B:
B = V

ΛV.
Si no fuera semidefinida positiva, añadir una constante a las disimilaridades no
diagonales, y recalcular; alternativamente, prescindir de los valores propios no
positivos de B.
5: Obtener la configuración de puntos
˜
X:
˜
X ←V

Λ
1
2
,
y retener el número de columnas deseado (normalmente, 2).
Obsérvese que si realmente existe una configuración de puntos X con matriz
B dada por (11.3) y los datos están centrados como hemos supuesto en (11.6), B
tiene los mismos valores propios que X

X. Es fácil ver entonces que las columnas
de
˜
X no son otra cosa que las componentes principales. El reescalado multidimen-
sional métrico aplicado a una B procedente de una configuración de puntos en el
espacio euclídeo no difiere pues (salvo en traslaciones, rotaciones o reflexiones) de
la solución que obtendríamos mediante un análisis en componentes principales de
los datos originales.
CUESTIONES, COMPLEMENTOS Y COSAS PARA HACER
11.1 Este es el código empleado en R para construir el mapa en la
Figura 11.1. El objeto spain es una matriz triangular superior conteniendo
las distancias en kilómetros entre capitales de provincia.
> distan <- spain + t(spain)
> distan[1:5,1:5]
Albacete Alicante Almeria Avila Badajoz
Albacete 0 171 369 366 525
Alicante 171 0 294 537 696
Almeria 369 294 0 663 604
Avila 366 537 663 0 318
106 CAPÍTULO 11. REESCALADO MULTIDIMENSIONAL
Badajoz 525 696 604 318 0
> library(mva)
> loc <- cmdscale(distan,k=2)
> x <- loc[,1]
> y <- loc[,2]
> postscript(file="mapa.eps")
> plot(x, y, type="n", xlab="", ylab="")
> text(x, y, names(distan))
Capítulo 12
Análisis discriminante
12.1. Introducción.
El problema que nos planteamos es el siguiente: tenemos una muestra de casos
clasificados en dos o más grupos. Inicialmente consideraremos sólo dos grupos,
para generalizar el análisis a continuación. Además de la clase o grupo a que perte-
nece cada caso, observamos p variables o características, y estamos interesados en
saber si los valores de dichas p variables tienen alguna relación con la pertenencia
a un grupo u otro.
La información disponible puede por tanto describirse como en la Tabla 12.1,
en que las X son las características observadas y la variable C toma dos valores,
C
1
ó C
2
, indicativas de la pertenencia del caso correspondiente al primer o segundo
grupo.
Un análisis discriminante puede tener objetivo:
Descriptivo, si estamos sólo interesados en poner en evidencia la capacidad
discriminante de un cierto conjunto de variables,
Decisional, si buscamos un criterio que nos permita decidir sobre la adscrip-
ción a uno de los grupos de un caso nuevo, no perteneciente a la muestra de
entrenamiento.
Es quizá el segundo objetivo el más usualmente perseguido. Se trata, de emplear la
muestra de entrenamiento para buscar relaciones entre las variables X y la variable
C
k
, k = 1, 2, que permitan evaluar lo mejor posible ésta última como función de las
primeras. Ello permite clasificar casos no pertenecientes a la muestra de entrena-
miento. Los ejemplos siguientes muestran algunas de las muchísimas aplicaciones
que se han dado al método.
107
108 CAPÍTULO 12. ANÁLISIS DISCRIMINANTE
Cuadro 12.1: Muestra de entrenamiento en análisis discriminante con dos grupos
X
11
. . . X
1p
C
1
X
21
. . . X
2p
C
1
.
.
.
.
.
.
.
.
.
X
N
1
1
. . . X
N
1
p
C
1
X
N
1
+1,1
. . . X
N
1
+1,p
C
2
X
N
1
+2,1
. . . X
N
1
+2,p
C
2
.
.
.
.
.
.
.
.
.
X
N
1
+N
2
,1
. . . X
N
1
+N
2
,p
C
2
Ejemplo 12.1 (recuperación de información perdida) En ocasiones, la
variable C
k
se ha perdido irreversiblemente. Por ejemplo, un esqueleto ha-
llado en una necrópolis no contiene atributos que permitan su adscripción
directa a un hombre o mujer.
Sin embargo, si contamos con una muestra de entrenamiento formada
por esqueletos de los que sabemos si pertenecen a hombres y mujeres (por
ejemplo, por la naturaleza de los objetos encontrados en el enterramiento),
podemos tratar de ver si existe alguna asociación entre las medidas de los
diversos huesos (las X) y el sexo del fallecido (C
k
). Esto permite clasificar
un nuevo esqueleto del que sólo observamos las X.
Ejemplo 12.2 (información accesible al hombre, pero no a la máqui-
na) Hay problemas en los que la adscripción de un caso a un grupo es muy
fácil de decidir para un humano, pero no para una máquina. Por ejemplo, re-
conocemos fácilmente las letras del alfabeto, incluso manuscritas. Sin embar-
go, el reconocimiento de las mismas por una máquina (a partir, por ejemplo,
de una imagen explorada ópticamente), dista de ser trivial.
En un caso como éste, las variables X serían binarias (0=elemento de
imagen o pixel blanco, 1=negro) o rasgos (features) que facilitaran la discri-
minación (por ejemplo, ratio altura/anchura de la letra, existencia de descen-
dentes, . . .).
Ejemplo 12.3 (predicción) En ocasiones, la adscripción a grupo es to-
davía incierta o inexistente, y el tratar de anticiparla es del mayor interés. Por
ejemplo, sobre la base de análisis clínicos (cuyos resultados serían las X)
un médico puede tratar de clasificar sus pacientes en aquéllos que presentan
grave riesgo de padecer un infarto y aquéllos que no.
Análogamente, sobre la base de información sobre un cliente podemos
intentar decidir si comprará o no un producto, o si entrará o no en morosidad
si se le concede un crédito.
En ambos casos, la variable C
k
todavía no ha tomado un valor, pero con
ayuda de una muestra de casos en que si lo ha hecho, tratamos de anticipar
el valor probable a la vista de las variables X observables.
12.2. DISCRIMINACIÓN MÁXIMO-VEROSÍMIL 109
Es importante notar que estamos ante un problema genuinamente estadístico,
y no podemos habitualmente esperar un discriminación perfecta. Los grupos pue-
den tener cierto solapamiento (por ejemplo, de dos pacientes con exactamente los
mismos valores de X, uno puede padecer un infarto y otro no).
Es también de interés señalar que es específico al análisis discriminante el con-
tar con una muestra de entrenamiento: sabemos de partida a qué grupos pertenecen
los componentes de la misma. Otro grupo de técnicas relacionadas (análisis de
agrupamientos o análisis cluster) aborda el problema en que sólo conocemos las
X, y queremos decidir sobre la existencia o no de grupos, cuantos, y cuáles. En la
literatura sobre Inteligencia Artificial, técnicas como las del análisis discriminante
se engloban en la denominación aprendizaje supervisado, en tanto las del análisis
de agrupamientos se describen como aprendizaje no supervisado.
12.2. Discriminación máximo-verosímil
Una manera conceptualmente simple e intuitiva de resolver el problema es
abordarlo con criterio máximo verosímil. Asignaremos una observación con X =
x a la clase C
k
si ésta tiene óptima capacidad generadora de la misma, es decir, si
f(x[C
k
) = m´ax
j
f(x[C
j
). (12.1)
Al margen de su carácter intuitivamente atrayente, es fácil demostrar que asig-
nar a C
k
cuando se verifica (12.1) minimiza la probabilidad total de error de asig-
nación. En efecto, cualquier regla discriminante puede verse como una partición
¦R
1
, R
2
¦ del dominio de definición A de las X, de forma que x ∈ R
1
suponga
asignar a C
1
y x ∈ R
2
suponga asignar a C
2
. La probabilidad total de error, P(e),
es entonces
P(e) =

R
1
f(x[C
2
)dx +

R
2
f(x[C
1
)dx (12.2)
=

R
1
f(x[C
2
)dx +

X−R
1
f(x[C
1
)dx (12.3)
La primera integral en (12.2) es la probabilidad de que un caso perteneciente a la
clase C
2
(con densidad por tanto f(x[C
2
)) esté en R
1
. El valor de la integral es
por tanto la probabilidad de uno de los tipos posibles de error: el de clasificar en
C
1
(por ser x ∈ R
1
) un caso que en realidad pertenece a C
2
. Análogamente, la
segunda integral es la probabilidad de clasificar en C
2
un caso perteneciente a C
1
.
En (12.3), P(e) ha de minimizarse sobre R
1
. Es claro entonces que, siendo los
integrandos necesariamente no negativos, convendrá incluir en R
1
todos aquellos
puntos de A tales que f(x[C
2
) < f(x[C
1
) y en R
2
los que verifiquen lo contrario
1
.
Esta es precisamente la regla (12.1).
1
A efectos de probabilidad de error, los puntos verificando f(x|C2) = f(x|C1) pueden arbitra-
riamente asignarse a cualquiera de las dos clases.
110 CAPÍTULO 12. ANÁLISIS DISCRIMINANTE
Formalmente, de (12.3) obtenemos:
P(e) =

R
1
f(x[C
2
)dx +

X
f(x[C
1
)dx −

R
1
f(x[C
1
)dx (12.4)
=

R
1
(f(x[C
2
) −f(x[C
1
))dx + 1 (12.5)
expresión que claramente queda minimizada si tomamos como R
1
la región de A
definida así:
R
1
= ¦x : f(x[C
2
) −f(x[C
1
) ≤ 0¦ (12.6)
La regla de asignación indicada puede además con gran facilidad modificarse
de modo que tenga en cuenta información a priori y/o diferentes costos de error
en la clasificación. Esta cuestión se detalla en la Sección que sigue, que generaliza
y amplía la regla de asignación máximo verosímil dando entrada a información a
priori.
Ejemplo 12.4 Las situaciones de fuerte asimetría en los costes de de-
ficiente clasificación son la regla antes que la excepción. Por ejemplo, puede
pensarse en las muy diferentes consecuencias que tiene el clasificar a una
persona sana como enferma y a una persona enferma como sana. En el pri-
mer caso, el coste será quizá el de un tratamiento innecesario; el el segundo,
el (normalmente mucho mayor) de permitir que un paciente desarrolle una
enfermedad que quizá hubiera podido atajarse con un diagnóstico precoz.
Las situaciones con información a priori son también muy frecuentes.
Un caso frecuente es aquél en que la abundancia relativa de los grupos es
diferente, situación en la que tiene sentido adoptar probabilidades a priori
diferentes para cada grupo (Sección 12.3).
12.3. Discriminación con información a priori
Es lo habitual que contemos con información a priori, distinta de la proporcio-
nada por las X, acerca de la probabilidad de pertenencia a cada uno de los grupos
considerados. Por ejemplo, si sabemos que la clase C
1
es nueve veces más numero-
sa que la clase C
2
en la población que analizamos, tendría sentido fijar a priori las
probabilidades de pertenencia P(C
1
) = 0,9 y P(C
2
) = 0,1. La intuición sugiere,
y el análisis que sigue confirma, que en tal situación la evidencia proporcionada
por las X debería ser mucho más favorable a C
2
para lograr la asignación a dicha
clase que cuando ambas clases son igual de numerosas.
El teorema de Bayes es cuanto necesitamos para incorporar información a prio-
ri a nuestra regla de decisión. En efecto, si consideramos la densidad conjunta
f(x, C
k
) tenemos que:
P(C
k
[x) =
f(x[C
k
)P(C
k
)
f(x)
=
f(x[C
k
)P(C
k
)
¸
j
f(x[C
j
)P(C
j
)
(12.7)
12.3. DISCRIMINACIÓN CON INFORMACIÓN A PRIORI 111
La regla ahora será asignar xa aquella clase cuya probabilidad a posteriori P(C
k
[x)
sea máxima. Por lo tanto, podemos particionar A en dos regiones, ¦R
1
, R
2
¦ defi-
nidas así:
R
1
= ¦x : f(x[C
1
)P(C
1
) > f(x[C
2
)P(C
2
)¦ (12.8)
R
2
= A −R
1
(12.9)
Un argumento idéntico al empleado en la sección anterior muestra, en efecto, que
actuando así minimizamos la probabilidad total de error. Obsérvese que, siendo el
denominador de (12.7) el mismo en todos los casos, maximizar respecto a C
k
el
producto f(x[C
k
)P(C
k
) es equivalente a maximizar P(C
k
[x).
Por otra parte, al ser en (12.7) el denominador siempre el mismo,
P(C
k
[x) ∝ f(x[C
k
)P(C
k
). (12.10)
Si todas las probabilidades a priori P(C
k
) son iguales, P(C
k
[x) ∝ f(x[C
k
) y la
regla bayesiana coincide con la máximo verosímil, pues (12.1) y (12.10) alcanzan
el máximo para la misma clase C
k
. Cuando hay información a priori, los resultados
pueden en cambio variar sustancialmente. El ejemplo siguiente, una situación arti-
ficialmente simple de control de calidad presentada como un problema de análisis
discriminante, lo muestra.
Ejemplo 12.5 Una prensa moldea piezas en lotes de 100 a la vez. La
experiencia muestra que con probabilidad 0.99 se obtienen lotes casi perfec-
tos, con un 2 % de fallos. Con probabilidad 0.01, sin embargo, se obtienen
lotes de muy mala calidad, con un 30 % de piezas defectuosas.
Supongamos que para decidir si un lote es “bueno” (B) o “malo” (M)
tenemos la posibilidad de extraer una pieza al azar del lote, que examinada
puede ser “correcta” (c) ó “defectuosa” (d). Podemos ver este problema de
decisión como un problema de análisis discriminante, en que observamos una
única variable X —el estado de la pieza examinada— y hemos de decidir la
clase a la que pertenece el lote muestreado (B ó M).
Supongamos que examinamos una pieza extraída de un lote y resulta
ser defectuosa. Si nos limitamos a seguir el criterio máximo verosímil sin
considerar la información a priori, tendríamos,
P(X = d[B) = 0,02 (12.11)
P(X = d[M) = 0,30, (12.12)
a la vista de lo cual concluiríamos que el lote es M. La situación es comple-
tamente diferente si consideramos la información a priori que tenemos, pues
112 CAPÍTULO 12. ANÁLISIS DISCRIMINANTE
entonces hemos de comparar:
P(B[X = d) =
P(X = d[B)P(B)
P(X = d)
=
0,02 0,99
0,02 0,99 + 0,3 0,01
= 0,8684 (12.13)
P(M[X = d) =
P(X = d[M)P(M)
P(X = d)
=
0,30 0,01
0,02 0,99 + 0,3 0,01
= 0,1316 (12.14)
Pese a ser la pieza examinada defectuosa, la probabilidad a posteriori de que
el lote examinado sea bueno sigue siendo superior. En otras palabras, es tan
grande el “prejuicio” a favor de que el lote examinado sea bueno que no basta
encontrar una sola pieza defectuosa para derrotarlo.
Obsérvese que, como ya ha sido hecho notar, los denominadores en
(12.13) y (12.14) son idénticos, por lo que a efectos de decidir cuál es la cla-
se con mayor probabilidad a posteriori bastaba con calcular los numeradores.
Estos numeradores, o cualquier transformación monótona de los mismos, se
denominan funciones discriminantes. En la práctica, se estiman las funcio-
nes discriminantes con ayuda de la muestra de entrenamiento, y luego basta
evaluar cada una de ellas para los nuevos casos a clasificar.
El caso de diferentes costes de error, arriba mencionado, puede ser tratado de
forma simple. Si en lugar de la probabilidad de error minimizamos el coste medio
total de error, la expresión a minimizar se transforma en
C(e) = ℓ
2

R
1
f(x[C
2
)P(C
2
)dx +ℓ
1

X−R
1
f(x[C
1
)P(C
1
)dx(12.15)
en que ℓ
i
(i = 1, 2) es el coste asociado a clasificar mal un caso del grupo i-ésimo.
Las integrales en (12.15) son las probabilidades a posteriori de que un caso en
el grupo C
2
(o C
1
) quede clasificado en el grupo C
1
(respectivamente C
2
). Un
desarrollo idéntico al efectuado más arriba lleva a ver que la regla de clasificación
minimizadora consiste en tomar R
1
la región del espacio A definida así:
R
1
= ¦x : ℓ
2
f(x[C
2
)P(C
2
) −ℓ
1
f(x[C
1
)P(C
1
) ≤ 0¦ (12.16)
Hemos razonado para el caso de dos grupos, pero la generalización a K grupos
es inmediata. Para cada caso x a clasificar y grupo C
j
, (j = 1, . . . , K), evaluare-
mos las funciones discriminantes y
i
(x), i = 1, . . . , K. Asignaremos al grupo k si
y
k
(x) = m´ax
j
y
j
(x). Las funciones discriminantes serán
y
j
(x) = f(x[C
j
)P(C
j
). (12.17)
En el caso de que tengamos una matriz de costes asociados a deficiente clasifica-
ción, L = ¦ℓ
ij
¦, en que ℓ
ij
es el coste de clasificar en C
j
un caso que pertenece a
12.4. VARIABLES NORMALES 113
C
i
, asignaríamos a C
j
si
j = arg m´ın
j
¸
i

ij
f(x[C
i
)P(C
i
). (12.18)
Como funciones discriminantes y
j
(x) podríamos emplear cualesquiera que fueran
transformaciones monótonas de las que aparecen en el lado derecho de (12.18).
12.4. Variables normales
El desarrollo anterior presupone conocidas las funciones de densidad o proba-
bilidad f(x[C
k
), y, en su caso, las probabilidades a priori de pertenencia a cada
grupo. En ocasiones (como en el Ejemplo 12.5 anterior) puede admitirse que di-
chas funciones son conocidas. Pero en el caso más habitual, tenemos que estimar
f(x[C
k
) y el modelo más frecuentemente utilizado es el normal multivariante.
Al margen de su interés y aplicabilidad en sí mismo, por ser adecuado a mul-
titud de situaciones, sucede que los resultados a que da lugar son muy simples
(variables discriminantes lineales, en el caso más habitual) y pueden ser justifica-
dos de modos alternativos (empleando el enfoque de Fisher, como veremos más
abajo). Esto hace que las reglas discriminantes que describimos a continuación
sean las más empleadas en la práctica. Si las observaciones obedecen aproxima-
damente un modelo normal multivariante, los resultados son óptimos en el sentido
en que la discriminación bayesiana lo es. Si la aproximación normal no es buena,
la discriminación lineal todavía es justificable desde perspectivas alternativas. En
algunos casos, que mencionaremos, el problema simplemente no se presta a una
discriminación lineal y hay que emplear procedimientos diferentes.
12.4.1. Matriz de covarianzas Σ común y dos grupos
Cuando f(x[C
k
) ∼ N(µ
k
, Σ), k = 1, 2, la regla de decisión consiste en asig-
nar al grupo C
1
si:

2
f(x[C
2
)P(C
2
) −ℓ
1
f(x[C
1
)P(C
1
) ≤ 0 (12.19)
equivalente, tras sencillas manipulaciones, a:
(2π)
−p/2
[Σ[

1
2
exp
¸

1
2
(x −µ
1
)

Σ
−1
(x −µ
1
)
¸
(2π)
−p/2
[Σ[

1
2
exp
¸

1
2
(x −µ
2
)

Σ
−1
(x −µ
2
)
¸


2
P(C
2
)

1
P(C
1
)
. (12.20)
Simplificando y tomando logaritmos, la expresión anterior es equivalente a
−(x −µ
1
)

Σ
−1
(x −µ
1
) + (x −µ
2
)

Σ
−1
(x −µ
2
) ≥ 2 log
e


2
P(C
2
)

1
P(C
1
)

.
Tras realizar los productos en las formas cuadráticas del lado izquierdo y cancelar
términos iguales, obtenemos la regla:
114 CAPÍTULO 12. ANÁLISIS DISCRIMINANTE
“Asignar a C
1
si:
x

Σ
−1

1
−µ
2
) ≥
1
2
µ
1

Σ
−1
µ
1

1
2
µ
2

Σ
−1
µ
2
+ log
e


2
P(C
2
)

1
P(C
1
)

(12.21)
y a C
2
en caso contrario.”
Vemos que el lado derecho de (12.21) es constante, y su valor c puede ser
estimado una sola vez. El lado izquierdo es una forma lineal a

x en que los coefi-
cientes a también pueden ser estimados una sola vez. Hecho esto, la regla discri-
minante es tan simple como evaluar para cada nuevo caso una función lineal a

x
y comparar el valor obtenido con el umbral c:
“Asignar x a C
1
si a

x ≥ c, y a C
2
en caso contrario.”
Las estimaciones tanto de a como de c se obtienen sustituyendo µ
1
, µ
2
y Σ
por sus respectivos estimadores.
Aunque en la forma expresada la regla discriminante es de utilización muy
simple, podemos definir también funciones discriminantes
y
1
(x) = a

x −c (12.22)
y
2
(x) = c −a

x (12.23)
asignando x al grupo k si y
k
(x) es máximo.
Obsérvese que ℓ
1
, ℓ
2
, P(C
1
) y P(C
2
) sólo intervienen en la regla discriminante
modificando el umbral que a

x debe superar para dar lugar a asignación al grupo
C
1
. La influencia sobre dicho umbral es la esperable: mayores valores de ℓ
2
(coste
de clasificar en C
1
un caso que realmente pertenece a C
2
) y P(C
2
) incrementan el
umbral, en tanto mayores valores de ℓ
1
y P(C
1
) lo disminuyen.
12.4.2. Diferentes covarianzas: Σ
1
= Σ
2
, y dos grupos
El análisis es enteramente similar, pero el resultado menos simple. En efecto,
en lugar de la expresión (12.20) tenemos ahora
(2π)
−p/2

1
[

1
2
exp
¸

1
2
(x −µ
1
)

Σ
−1
1
(x −µ
1
)
¸
(2π)
−p/2

2
[

1
2
exp
¸

1
2
(x −µ
2
)

Σ
−1
2
(x −µ
2
)
¸


2
P(C
2
)

1
P(C
1
)
,
que tomando logaritmos, proporciona:
−(x −µ
1
)

Σ
−1
1
(x −µ
1
) + (x −µ
2
)

Σ
−1
2
(x −µ
2
) ≥ 2 log
e


2
P(C
2
)[Σ
2
[

1
2

1
P(C
1
)[Σ
1
[

1
2

.
Simplificando y llevando constantes al lado derecho, obtenemos:
−x


−1
1
−Σ
−1
2
)x + 2x


−1
1
µ
1
−Σ
−1
2
µ
2
) ≥ 2 log
e


2
P(C
2
)[Σ
2
[

1
2

1
P(C
1
)[Σ
1
[

1
2


1

Σ
−1
1
µ
1
−µ
2

Σ
−1
2
µ
2
. (12.24)
12.5. LA REGLA LINEAL DE FISHER 115
No ha habido en (12.24) cancelación del término cuadrático en x como ocurre
cuando Σ
1
= Σ
2
. La regla discriminante es ahora
“Asignar x a C
1
si x

Ax +a

x ≥ c, y a C
2
en caso contrario.”
en que:
A = −(Σ
−1
1
−Σ
−1
2
)
a = 2(Σ
−1
1
µ
1
−Σ
−1
2
µ
2
)
c = 2 log
e


2
P(C
2
)[Σ
2
[

1
2

1
P(C
1
)[Σ
1
[

1
2


1

Σ
−1
1
µ
1
−µ
2

Σ
−1
2
µ
2
.
La frontera entre las dos regiones en que queda dividido el espacio A es ahora
una hiper-superficie de ecuación cuadrática, mientras que cuando Σ
1
= Σ
2
dicha
hiper-superficie es un hiper-plano.
12.4.3. Caso de varios grupos
El desarrollo al final de la Sección 12.3 es ahora de aplicación, sustituyendo en
(12.18) las densidades por sus expresiones correspondientes. Algunos casos parti-
culares son de interés. Si ℓ
ij
= 1 para i = j y ℓ
ii
= 0 para todo i, entonces la regla
será asignar al grupo C
i
cuando
i = arg m´ax
j

1
(

2π)
p

j
[
1
2
e

1
2
(x−µ
j
)

Σ
−1
j
(x−µ
j
)
P(C
j
)
¸
,
o, tomando logaritmos y prescindiendo de constantes, cuando:
i = arg m´ax
j

−log
e

j
[
1
2

1
2
(x −µ
j
)

Σ
−1
j
(x −µ
j
) + log
e
P(C
j
)

.
En el caso aún más particular de matrices de covarianzas idénticas, la regla anterior
se reduce a asignar a C
i
cuando
i = arg m´ax
j

log
e
P(C
j
) + (x −
1
2
µ
j
)

Σ
−1
µ
j

.
12.5. La regla lineal de Fisher
Fisher propuso en 1936 un procedimiento de discriminación lineal que coincide
con la regla derivada para dos poblaciones normales con matriz de covarianzas
común. En la aproximación de Fisher, la normalidad no es un supuesto. En cambio,
la linealidad sí que lo es, en lugar de aparecer como un resultado.
116 CAPÍTULO 12. ANÁLISIS DISCRIMINANTE
12.5.1. Dos grupos con matriz de covarianzas Σ común
El razonamiento es el siguiente: buscamos una función lineal a

x que separe
óptimamente dos grupos, en un sentido que veremos. Ello requiere que a

x to-
me valores “altos” en promedio para valores en un grupo, y “bajos” en otro. Una
manera de requerir esto, es buscar un a que maximice

a

µ
1
−a

µ
2

2
=

a


1
−µ
2
)

2
, (12.25)
es decir, que separe bien los vectores de medias de ambos grupos. El cuadrado
tiene por objeto eliminar el signo, pues nos importa la diferencia de a

x evaluada
en µ
1
y µ
2
, y no su signo.
Maximizar (12.25) es un problema mal especificado: basta multiplicar a por
α > 1 para incrementar (12.25). Esto carece de interés: no estamos interesados en
maximizar el valor numérico de (12.25) per se, sino en lograr que tome valores lo
más claramente diferenciados posibles para casos en cada uno de los dos grupos.
Un modo de obtener una solución única es fijando la escala de a. Podríamos
fijar [[a[[
2
= 1, pero, como veremos en lo que sigue, tiene mayor atractivo hacer
a

Σa = 1; o, alternativamente, resolver
m´ax
a

[a


1
−µ
2
)]
2
a

Σa

, (12.26)
que es de nuevo un problema indeterminado hasta un factor de escala
2
, y normali-
zar una solución cualquiera de modo que a

Σa = 1.
Adoptemos esta última vía. Derivando (12.26) respecto de a e igualando el
numerador a cero, obtenemos (véase Apéndice A)
2(µ
1
−µ
2
)a


1
−µ
2
](a

Σa) −2

a


1
−µ
2
)

2
Σa = 0. (12.27)
Si prescindimos de las constantes, vemos que (12.27) proporciona
Σa ∝ (µ
1
−µ
2
) ⇒a ∝ Σ
−1

1
−µ
2
), (12.28)
que es la solución que ya teníamos para a en la Sección 12.4.1.
La expresión (12.26) cuya maximización proporciona a (hasta una constante de
proporcionalidad, como se ha visto) es de interés. Obsérvese que el denominador es
la varianza de a

X. El numerador es el cuadrado de la diferencia entre los valores
que toma a

X en µ
1
y µ
2
. Lo que se maximiza, pues, es la razón de esta diferencia
al cuadrado de valores de a

X en términos de su propia varianza, var(a

X).
Podemos ver (12.26) como una relación señal/ruido: el numerador es la “señal”
y el denominador el “ruido.” Buscamos pues una función a

X que maximice la
relación señal/ruido.
2
Pues (12.26) es invariante al multiplicar a por una constante cualquiera.
12.5. LA REGLA LINEAL DE FISHER 117
Figura 12.1: La mejor dirección discriminante puede no ser aquélla en que más
dispersión presentan las observaciones
Mejor direccon discriminante
Primera componente
principal
µ
1
µ
2
Es importante observar que la dirección en la que las observaciones presenta
máxima dispersión (que corresponde a la primera componente principal) no ne-
cesariamente es la mejor dirección discriminante, incluso aunque a lo largo de la
misma los vectores de medias de los grupos resultasen máximamente separados.
La Figura 12.1 es ilustrativa: se muestran contornos de igual densidad de dos gru-
pos, y una línea sólida en la dirección de la primera componente principal. En esta
dirección se presenta la máxima varianza de las observaciones. Sin embargo, es fá-
cil ver que en la dirección de la línea discontinua se obtiene una separación mucho
mejor de los dos grupos: es la dirección de a en (12.28).
12.5.2. Más de dos grupos con matriz de covarianzas Σ común
Conceptualmente el planteamiento es idéntico, pero los resultados son más
complejos. Si hay K grupos, hay en general no una sino hasta K − 1 variables
discriminantes, combinaciones lineales de las X originales.
Sean pues K grupos, y consideremos una muestra de entrenamiento con n
i
casos (i = 1, . . . , K) en cada grupo. El tamaño total de la muestra es así n =
¸
K
i=1
n
i
. Denotamos por X
i(j)
la observación i-ésima en el grupo j-ésimo. Defi-
118 CAPÍTULO 12. ANÁLISIS DISCRIMINANTE
namos:
X = n
−1
K
¸
i=1
n
i
¸
j=1
X
i(j)
(12.29)
X
i
= n
−1
i
n
i
¸
j=1
X
i(j)
(12.30)
T =
K
¸
i=1
n
i
¸
j=1
(X
i(j)
−X)(X
i(j)
−X)

(12.31)
W
i
=
n
i
¸
j=1
(X
i(j)
−X
i
)(X
i(j)
−X
i
)

(12.32)
W = W
1
+. . . +W
K
(12.33)
B = T −W. (12.34)
Es entonces fácil demostrar (véase Ejercicio 12.1) que B =
¸
K
i=1
n
i
(X
i
−X)(X
i
−X)

y X = n
−1
¸
K
i=1
n
i
X
i
. Un razonamiento similar al empleado al obtener el discri-
minante lineal en el caso de dos grupos, sugeriría ahora maximizar
¸
K
i=1

a


n
i
(X
i
−X)

2
¸
K
i=1

a

¸
n
i
j=1
(X
i(j)
−X
i
)

2
=
a

Ba
a

Wa
def
= λ. (12.35)
Derivando respecto a a obtenemos la igualdad matricial
(B −λW)a = 0. (12.36)
Bajo el supuesto de que W tiene inversa, la igualdad anterior es equivalente a
(W
−1
B −λI)a = 0. (12.37)
Esta tiene solución no trivial para valores λ y vectores a que son respectiva-
mente valores y vectores propios de la matriz cuadrada W
−1
B. Hay a lo sumo
q = m´ın(p, K−1) valores propios no nulos (por ser este el rango de B y por tanto
de W
−1
B; Ejercicio 12.2).
Es interesante observar lo que proporciona el método. Si hubiéramos de retener
una sola dirección discriminante —como hacíamos en el caso de dos grupos—,
tomaríamos la determinada por a
1
, siendo (λ
1
, a
1
) el par formado por el mayor
valor propio y su vector propio asociado. En efecto, tal elección de a maximiza el
cociente
λ =
a

Ba
a

Wa
(véase Ejercicio 12.3). Pero puede haber otras direcciones (como la asociada a a
2
en la Figura 12.2) “especializadas” en separar algún subconjunto de los grupos (C
1
12.6. EVALUACIÓN DE FUNCIONES DISCRIMINANTES 119
Figura 12.2: Con p = 3 grupos hay hasta p − 1 direcciones discriminantes. Puede
haber direcciones discriminantes asociadas a un λ bajo, y no obstante muy útiles
para discriminar en algún subconjunto. Por ejemplo, la dirección asociada a a
2
discrimina bien entre los grupos C
1
y C
2
por un lado y C
3
por otro.
µ
1
µ
2
µ
3
a
1
a
2
y C
2
por un lado y C
3
por otro, en la Figura 12.2). Obsérvese que los vectores
propios de W
−1
B, y por tanto las direcciones discriminantes, no son en general
ortogonales, pues W
−1
B no es simétrica.
Observación 12.1 Hay una interesante relación entre la solución ante-
rior y los resultados que derivarían de análisis de correlación canónica y MA-
NOVA equivalentes. Si completamos los datos de la muestra de entrenamien-
to con K columnas con valores 0 y 1 tal como en la ecuación (4.12), pág. 54,
obtendríamos pares de variables canónicas incorreladas y con correlación en-
tre ellas respectivamente máxima. Los vectores a
1
, . . . , a
K−1
coincidirían
con los obtenidos al hacer análisis discriminante lineal de los K grupos. Los
vectores de coeficientes b
1
, . . . , b
K−1
de las variables canónicas “parejas”,
aportarían una información interesante: son combinaciones de variables 0-1
que resultan máximamente correladas con las a
1

X, . . . , a
K−1

X, e indi-
can entre qué grupos discriminan dichas variables.
12.6. Evaluación de funciones discriminantes
Estimadas la o las funciones discriminantes con ayuda de la muestra de en-
trenamiento, hay interés en tener un modo de medir su eficacia en la separación
de grupos. Conceptualmente, no hay mucha diferencia entre evaluar una función
discriminante y un modelo de regresión. En el caso de una función discriminante
el problema es más arduo, por causa de la (habitualmente) elevada dimensionali-
120 CAPÍTULO 12. ANÁLISIS DISCRIMINANTE
dad. Nos limitaremos a algunas ideas básicas: un tratamiento más completo puede
encontrarse en Hand (1981).
La idea que primero acude a nuestra mente es la de examinar el comportamien-
to de la función discriminante sobre la muestra de entrenamiento. ¿Clasifica bien
los casos en dicha muestra? Esto es similar a examinar el ajuste —quizá median-
te el R
2
— de un modelo de regresión lineal. Alternativamente, podríamos llevar
a cabo un análisis MANOVA para contrastar la hipótesis de igualdad de grupos:
esto sería similar a contrastar la nulidad de todos los parámetros en un modelo de
regresión lineal.
Sin embargo, a poco grande que sea el número de variables empleadas en la
discriminación, la tasa de error aparente (la tasa de error al reclasificar la mues-
tra de entrenamiento) será una estimación muy optimista. Al emplear la función
discriminante sobre datos diferentes a los de la muestra de entrenamiento, obten-
dremos tasas de error, por lo general, sensiblemente mayores.
Observación 12.2 En esencia, la razón por la que la tasa de error apa-
rente es un estimador optimista de la tasa de error real esperable es la misma
que hace que ˆ σ
2
= n
−1
¸
n
i=1
(X
i
− X)
2
sea un estimador optimista de la
varianza poblacional: hemos reemplazado E(X) por X, el estimador de la
media que mejor se adapta a la muestra (en términos de suma de cuadrados
residual). No es extraño que ˆ σ
2
sea sesgado por defecto. Este sesgo es el que
se corrige sustrayendo del denominador n el número de grados de libertad
consumidos (en este caso, uno), lo que proporciona el estimador insesgado
habitual (n −1)
−1
¸
n
i=1
(X
i
−X)
2
.
En el análisis discriminante, la probabilidad de obtener una separación
espúrea cuando podemos fijar la posición del hiperplano separador en un
espacio elevadamente dimensional, es sorprendentemente alta, como el Teo-
rema 12.1 más abajo pone de manifiesto.
Una percepción intuitiva de lo extremadamente optimista que puede resultar
una función discriminante lineal en un espacio de elevada dimensionalidad puede
obtenerse así: consideremos N puntos procedentes todos de una misma distribu-
ción d-dimensional, etiquetados al azar como proviniendo la mitad de ellos del
grupo G1 y la otra mitad del G2. La probabilidad teórica de que un procedimiento
cualquiera asigne bien un punto sería de p = 0,5: los puntos provienen en realidad
de la misma distribución, y no podemos obtener mejor tasa de error que la que
resultaría de asignar puntos a uno u otro grupo lanzando una moneda al aire.
La probabilidad de encontrar un hiperplano que separa perfectamente los pun-
tos aleatoriamente asignados a un grupo de los asignados al otro, es sin embargo
bastante apreciable, como se deduce del siguiente teorema debido a Cover (ver
Bishop (1996), pág. 86-87).
Teorema 12.1 La probabilidad F(N, d) de perfecta separación de N puntos en
posición general en un espacio d dimensional viene dada por
F(N, d) =

1 si N ≤ d + 1
2
−N+1
¸
d
i=0

N−1
i

cuando N ≥ d + 1.
(12.38)
12.6. EVALUACIÓN DE FUNCIONES DISCRIMINANTES 121
Figura 12.3: Probabilidad F(N, d) de separar perfectamente N puntos en posición
general en un espacio de d = 10 dimensiones
0 10 20 30 40
0
.
0
0
.
4
0
.
8
N
F
(
N
,
d
)
Si representamos gráficamente F(N, d) frente a N (para d = 10), obtenemos
una gráfica como la de la Figura 12.3. Hasta que el número de puntos N duplica
el de dimensiones d, la probabilidad de perfecta separabilidad es superior a
1
2
.
Separaciones no perfectas se obtienen con probabilidad aún mayor, pese a que los
puntos son indistinguibles.
Hay varias opciones para combatir el sesgo en la tasa de error aparente. Pode-
mos evaluar la función discriminante sobre una muestra de validación, distinta de
la que ha servido para estimar la función: ello dará una estimación insesgada de la
tasa de error.
Si no disponemos de una muestra de validación, podemos recurrir a hacer vali-
dación cruzada, consistente en subdividir la muestra en K partes, estimar la función
discriminante con (K−1) de ellas y evaluar sobre la restante. Si hacemos que cada
una de las K partes sea por turno la muestra de validación, tenemos la técnica de
validación cruzada: obtenemos K diferentes estimadores de la tasa de error —cada
uno de ellos, dejando fuera a efectos de validación una de las K partes en que se
ha subdividido la muestra—, y podemos promediarlos para obtener un estimador
final. En el caso extremo (leave one out), podemos dividir la muestra en N par-
tes consistentes en una única observación, estimar N funciones discriminantes con
(N − 1) observaciones y asignar la restante tomando nota del acierto o error. El
total de errores dividido entre N estimaría la tasa de error.
122 CAPÍTULO 12. ANÁLISIS DISCRIMINANTE
12.7. Bibliografía comentada
Casi todos los manuales de Análisis Multivariante contienen una introduc-
ción al análisis discriminante. Ejemplos son Cuadras (1981), Dillon and Goldstein
(1984), y Rencher (1995).
Una monografía algo antigua pero todavía de valor es Lachenbruch (1975), que
contiene mucha bibliografía. Hand (1981) es otro libro que continua manteniendo
su interés. Más actual, con una buena bibliografía, es Hand (1997).
Una monografía moderna es McLachlan (1992); no tiene estructura de texto,
ni es quizá la fuente más adecuada para una primera aproximación al tema, pero
es útil para profundizar en el mismo. Bishop (1996) es un libro sobre redes neuro-
nales, especialmente aplicadas a reconocimiento de pautas y desde una perspectiva
estadística; el Capítulo 3 compara la versión más simple de perceptrón con el mé-
todo clásico de Fisher. El resto del libro es también de interés.
CUESTIONES, COMPLEMENTOS Y COSAS PARA HACER
12.1 En la Sección 12.5.2 se ha definido B = T − W. Demuéstrese
que
B =
K
¸
i=1
n
i
(X
i
−X)(X
i
−X)

. (12.39)
Ayuda: puede sumarse y restarse X
i
en cada uno de los paréntesis de la
definición (12.31) de T.
12.2 (↑ 12.1) Demuéstrese que B tiene rango no mayor que K −1.
12.3 Demostrar que si λ y a son respectivamente un valor propio de
W
−1
B y el correspondiente vector propio asociado, entonces
λ =
a

Ba
a

Wa
.
12.4 Compruébese que en el caso de diferentes costes de mala clasifi-
cación y distribución normal, las funciones discriminantes son en general no
lineales, incluso aunque las matrices de covarianzas intragrupos sean idénti-
cas.
12.5 Sea un problema de discriminación entre dos grupos con n
1
y n
2
observaciones en la muestra de entrenamiento. Muéstrese que si estimamos
el modelo de regresión lineal,
y
i
= x
i

β +ǫ
i
con
y
i
=

n2
n1+n2
si i = 1, . . . , n
1
,

n1
n1+n2
si i = n
1
+ 1, . . . , n
1
+n
2
.
12.7. BIBLIOGRAFÍA COMENTADA 123
y x
i
= vector de variables correspondiente al caso i-ésimo, entonces el
ˆ
β ob-
tenido por MCO coincide con el a obtenido por Fisher, y la T
2
de Hotelling
puede obtenerse como transformación monótona de la R
2
.
12.6 Demuéstrese que los valores propios de W
−1
B cuyos vectores
propios asociados definen las direcciones discriminantes, son: no negativos.
12.7 Llamamos distancia en un espacio R
p
a toda aplicación d : R
p

R
p
−→R verificando ∀x, y ∈ R
p
lo siguiente:
1. d(x, y) > 0 si x = y y d(x, y) = 0 si x = y.
2. d(x, y) = d(y, x).
3. d(x, z) ≤ d(x, y) +d(y, z) para todo x, y, z ∈ R
p
.
Muéstrese que si Σ es de rango completo la expresión
d(x, y) = (x −y)

Σ
−1
(x −y)
define una distancia (distancia de Mahalanobis
3
)
12.8 (↑ 12.7) Compruébese que la distancia de Mahalanobis es inva-
riante frente a transformaciones lineales de las variables.
12.9 Como primera aproximación al problema de discriminar entre
dos grupos podríamos concebir la siguiente regla: Asignar x al grupo de
cuyo vector de medias, µ
1
ó µ
2
, esté más próximo en términos de distancia
euclídea ordinaria: d(x, y) = (x −y)

I(x − y) =
¸
p
i=1
(x
i
− y
i
)
2
. Esta
regla podría dar lugar a clasificar un caso en un grupo cuando en realidad
es más plausible que proceda de otro, si las matrices de covarianzas en am-
bos grupos no fueran escalares (diagonales y con idénticos elementos a lo
largo de la diagonal) e iguales. Ilústrese con un ejemplo de dos grupos con
distribución normal bivariante y matrices de covarianzas no escalares.
12.10 (↑ 12.7) Consideremos la distancia de Mahalanobis definida en-
tre observaciones procedentes de una misma población con matriz de cova-
rianzas Σ. Muéstrese que siempre es posible hacer una transformación lineal
de las variables originales de modo que las transformadas verifican:
1. Su matriz de covarianzas es I.
2. La distancia euclídea ordinaria entre ellas coincide con la distancia de
Mahalanobis entre las originales.
12.11 (↑ 12.9) (↑ 12.7) Dado que el problema puesto de manifiesto en
el Ejercicio 12.9 se presenta con matrices de covarianzas no escalares, podría
pensarse en transformar el problema original en otro con matriz de covarian-
zas escalar y resolver éste último. Muéstrese que la regla que se obtiene es
idéntica a la obtenida por Fisher, y da lugar a un discriminador lineal entre
los dos grupos.
3
Hay alguna ambigüedad en la denominación, en cuanto que algunos autores llaman distancia de
Mahalanobis a la expresión anterior con Σ reemplazada por su análogo muestral.
124 CAPÍTULO 12. ANÁLISIS DISCRIMINANTE
Capítulo 13
Arboles de regresión y
clasificación
13.1. Arboles binarios
Llamamos árbol binario a un grafo formado por nodos y arcos verificando lo
siguiente:
1. Hay un sólo nodo (la raíz) que no tiene padre.
2. Cada nodo distinto de la raíz tiene un único padre.
3. Cada nodo tiene exactamente dos o ningún hijo. En el caso de nodos sin hijos
(o nodos terminales) hablamos también de “hojas”.
Gráficamente representaremos los árboles con la raíz arriba, como en la Figura
13.1.
Podemos ver un árbol binario como una representación esquemática de un pro-
ceso de partición recursiva, en que en cada nodo no terminal tomamos la decisión
de particionar una muestra de una cierta manera. Por ejemplo, el árbol de la Figura
13.1 designaría una sucesión de operaciones de partición recursiva de una muestra.
Primeramente separamos, en r, una clase, que denominamos C. El resto se lleva al
nodo n en el que tomamos una decisión ulterior, separándolo en las clases A y B.
En un árbol binario, cada nodo no terminal designa una decisión para parti-
cionar la fracción de muestra que llega a él en dos partes. Cada nodo terminal u
hoja designa una de las clases a las que finalmente van a parar los elementos que
dejamos caer desde la raíz.
125
126 CAPÍTULO 13. ARBOLES DE REGRESIÓN Y CLASIFICACIÓN
Figura 13.1: Árbol binario con tres hojas, A, B, C y raíz r.
r
n
A B
C
Figura 13.2: Árbol binario para clasificar pacientes en grupos de supervivencia
homogénea
¿X1 >65 años?
C
No
¿X5 = “Sí”?

A B

Ejemplo 13.1 Imaginemos una situación en que la muestra de entrena-
miento consiste en N sujetos de cada uno de los cuales tenemos p variables,
x
1
, . . . , x
p
, recogiendo diferentes características clínicas. Tenemos también
los valores que ha tomado una variable de interés —como por ejemplo, si han
sobrevivido o no a una cierta operación—. Un árbol binario de clasificación
describiría las operaciones de partición a realizar y el orden en que se efec-
túan las mismas, para acabar clasificando la muestra en clases relativamente
homogéneas en lo que se refiere a la variable respuesta. Supongamos, por
ejemplo, que X
1
es “edad” y X
5
es “Ha sufrido un infarto previo”. Entonces,
un árbol como el de la Figura 13.2 realizaría una clasificación de los sujetos
en la muestra de entrenamiento en tres hojas A, B y C. Si resultara que el
desglose de los casos que caen en las mismas es:
13.2. CONSTRUCCIÓN DE ÁRBOLES BINARIOS 127
Hoja Supervivientes Fallecidos
A 40 % 60 %
B 20 % 80 %
C 80 % 20 %
estaríamos justificados en rotular la clase B como de alto riesgo, la C como
de bajo riesgo y la A como de riesgo intermedio.
Un nuevo sujeto del que sólo conociéramos los valores de las X podría
ser “dejado caer” desde la raíz y clasificado en uno de los grupos de riesgo
de acuerdo con la hoja en que cayera.
Ejemplo 13.2 (un árbol de regresión) En el ejemplo anterior, la varia-
ble respuesta Y era cualitativa: podía tomar uno de dos estados, Podemos
imaginar una respuesta Y continua en una situación similar: por ejemplo, el
tiempo de supervivencia a partir del tiempo de una intervención quirúrgica.
En este caso, podríamos tener un árbol quizá exactamente igual al pre-
sentado en la Figura 13.2, pero su uso e interpretación sería diferente. Los
casos que acabaran en las hojas A, B y C sería, si el árbol está bien construi-
do, homogéneos en cuanto a sus valores de Y . El árbol serviría para, dados
los valores de las X de un nuevo sujeto, asignarlo a una de las hojas y efec-
tuar una predicción del valor de su Y : típicamente, la media aritmética de los
valores en la hoja en que ha caído.
Este uso del árbol es completamente análogo al que se hace de una
ecuación de regresión estimada. De hecho, si regresáramos las Y sobre tres
columnas cada una de las cuales tuviera unos para los sujetos en una de las
tres clases, A, B y C, las estimaciones de los parámetros β de la regresión
coincidirían con las medias aritméticas de las clases. Nótese, sin embargo,
que al construir el árbol especificamos los “regresores”, en cierto modo. Por
ejemplo, la variable X1 (Edad) en el Ejemplo 13.1 se recodifica a “Sí” y No”
(ó 0 y 1) a partir de un cierto umbral: podíamos haber tomado cualquier otro,
y si tomamos ése es porque la división que logra es la “mejor”, en un sentido
que habremos de especificar más abajo.
Nótese también que, a diferencia de lo que ocurre en un modelo de re-
gresión, las variables continuas se discretizan: la edad X1 queda reducida a
dos grupos: mayores de 65 años o no. Un árbol sustituye una superficie de
respuesta continua por una superficie de respuesta a escalones.
13.2. Construcción de árboles binarios
La metodología a seguir para construir un árbol binario resulta de conjugar
varios elementos:
1. Un criterio para evaluar la ventaja derivada de la división de un nodo. ¿Qué
nodo procede dividir en cada etapa?
2. Una especificación del espacio de búsqueda: ¿que tipos de particiones esta-
mos dispuestos a considerar?
3. ¿Cómo estimar la tasa de mala clasificación (o varianza de predicción en el
caso de árboles de regresión)?
128 CAPÍTULO 13. ARBOLES DE REGRESIÓN Y CLASIFICACIÓN
4. Un criterio para decidir cuándo detener el crecimiento del árbol, o, como
veremos, sobre la conveniencia de podar un árbol que ha crecido en exceso.
5. Un criterio para asignar un valor (o etiqueta de clase) a cada hoja.
Examinaremos cada cuestión por separado, describiendo a continuación el algorit-
mo de construcción de árboles.
13.2.1. Medidas de “impureza” de nodos y árboles.
Siguiendo la notación de Breiman et al. (1984) denotaremos la impureza del
nodo t por i(t).
En el caso de árboles de regresión, la i(t) se toma habitualmente igual a la
varianza muestral intranodo: nodos muy homogéneos son aquéllos con escasa va-
rianza interna.
En el caso de árboles de clasificación, en que la respuesta es cualitativa, la
impureza de un nodo debería estar en relación con las proporciones en que se pre-
sentan los elementos de las diferentes clases. Imaginemos que la variable respuesta
cualitativa Y puede tomar J valores. Sea p(j[t) la proporción de elementos de cla-
se j en la muestra de entrenamiento que han ido a parar al nodo t. Claramente
desearíamos que i(t) fuera mínima si
p(ℓ[t) = 1
p(j[t) = 0 ∀j = ℓ.
Ello, en efecto, correspondería a un nodo “puro”: todos los elementos que van a
parar a él son de la clase ℓ. Por el contrario, desearíamos que la función i(t) fuera
máxima cuando
p(j[t) = J
−1
∀j,
pues un nodo en que todas las clases aparecen equi-representadas es en cierto sen-
tido máximamente impuro.
Hay varias elecciones de i(t) de uso común que verifican las propiedades ante-
riores, más otras deseables —como simetría en sus argumentos—. Tenemos así la
función entropía
i(t) = −
J
¸
i=1
p(j[t) log
e
p(j[t),
y el índice de Gini,
i(t) =
¸
i=j
p(i[t)p(j[t).
En realidad, no nos interesa de ordinario la i(t) de un nodo per se, sino en rela-
ción a la de sus posibles descendientes. Queremos valorar la ganancia en términos
de impureza de una división del nodo t. Una posibilidad intuitivamente atractiva es
13.2. CONSTRUCCIÓN DE ÁRBOLES BINARIOS 129
∆(s, t) = i(t) −p
L
i(t
L
) −p
R
i(t
R
),
en que la mejora en términos de impureza resultante de elegir la división s del nodo
t se evalúa como la diferencia entre la impureza de dicho nodo y las de sus dos
hijos, t
L
y t
R
, ponderadas por las respectivas proporciones p
L
y p
R
de elementos
de la muestra que la división s hace ir a cada uno de ellos.
Una posibilidad adicional que evalúa la ganancia de la división s sin evaluar
explícitamente una función de impureza en el padre y cada uno de los hijos, es:
∆(s, t) =
p
L
p
R
4
¸
j
[p(j[t
L
) −p(j[t
R
)[
2
. (13.1)
Observemos que la expresión (13.1) crece, por un lado, con la simetría de la divi-
sión en cuanto al número de elementos de la muestra enviados a cada hijo, y por
otro con la separación lograda entre las proporciones de cada clase en los dos hijos;
lo que es intuitivamente atrayente.
La impureza total I(T) de un árbol T se define como la suma ponderada de
impurezas de sus hojas. Si
˜
T es el conjunto formado por las hojas de T, entonces
I(T) =
¸
t∈
˜
T
p(t)i(t) (13.2)
Podríamos también evaluar la calidad de un árbol atendiendo a su tasa de error,
R(T). En el caso de un árbol de clasificación, típicamente es la probabilidad de
obtener una mala clasificación al dejar caer un caso por él. Nótese que R(T) es re-
lativa al criterio de asignación de clase a los casos que caen en cada nodo terminal.
Normalmente, el criterio es el de mayoría —se asigna el caso a la clase más repre-
sentada en el nodo— o de máxima probabilidad a posteriori. Hablaremos también
de la tasa de error en un nodo, R(t), o en el subárbol T
t
que crece desde el nodo t,
R(T
t
). Un nodo terminal puede verse como un árbol degenerado con un sólo nodo
terminal, y por lo tanto tendremos como notaciones equivalentes R(¦t¦) y R(t).
En el caso de árboles de regresión, la tasa de error es alguna medida conve-
niente —normalmente, valor medio de suma de cuadrados intra-nodo de las des-
viaciones respecto a la media—.
13.2.2. Espacio de búsqueda
Hay una infinidad de formas posibles de efectuar divisiones en función de los
valores que tomen las variables predictoras, X, y no podemos en general considerar
todas ellas. Distinguiremos varias situaciones.
Variable X nominal. En este caso, X toma K valores distintos, como “rojo”,
“verde”, “azul” o “Nacionalidad A”, “Nacionalidad B”, y Nacionalidad C”, entre
los que no cabe establecer un orden natural. Si tenemos que discriminar con ayuda
130 CAPÍTULO 13. ARBOLES DE REGRESIÓN Y CLASIFICACIÓN
de una variable nominal los elementos que van a los hijos izquierdo y derecho en
la división del nodo t, podemos formar todos los subgrupos de los K valores que
puede tomar X y enviar a la izquierda los casos con X tomando valores en un
subgrupo y a la derecha los restantes.
Observación 13.1 Si i(t) es estrictamente cóncava y estamos ante un
árbol de clasificación en dos clases, etiquetadas Y = 1 e Y = 0, el cálculo
se simplifica. Ordenemos los K valores que toma el predictor X en el nodo
t de modo que
p(1[X = x
1
) ≤ p(1[X = x
2
) ≤ ≤ p(1[X = x
K
).
Se puede mostrar que no es preciso considerar todas las 2
K−1
− 1 posibili-
dades de agrupar las K categorías de X en dos grupos; basta considerar los
K −1 divisiones agrupando las categorías así
¦x
1
, . . . , x

¦ ¦x
ℓ+1
, . . . , x
K
¦ ,
(1 ≤ ℓ ≤ K − 1) y enviando un grupo al hijo derecho del nodo t y el otro
al hijo izquierdo. Véase Ripley (1996), pág. 218 ó Breiman et al. (1984),
pág. 101.
Variable X ordinal. En este caso, si la variable X toma n valores, se consideran
como posibles cortes los (n − 1) valores intermedios. En cada nodo nos formula-
mos una pregunta tal como: “¿Es X
i
< c?”, cuya respuesta afirmativa o negativa
decidirá si el elemento que examinamos es enviado al hijo izquierdo o al hijo dere-
cho del nodo en que estamos.
Variable X continua. Operaremos como con las variables ordinarias, si bien
aquí será frecuente que el número de valores de corte a ensayar sea mucho mayor
—si no hay repeticiones, como habitualmente acontecerá para una variable conti-
nua, el número de cortes a ensayar será de N−1, siendo N el tamaño de la muestra
de entrenamiento—.
Observación 13.2 En el caso de árboles de clasificación, el cálculo
puede reducirse algo respecto de lo que sugiere el párrafo anterior. Si orde-
namos los N elementos en un nodo t de acuerdo con el valor que que toma
para ellos una variable continua X, podemos obtener hasta N valores dife-
rentes: pero no necesitan ser considerados aquellos elementos flanqueados
por otros de su misma clase, Véase Ripley (1996), pág. 237 y Fayyad and
Irani (1992).
Adicionalmente, al coste de un esfuerzo de cálculo superior, podemos formular
en cada nodo una pregunta del tipo “¿Es a

X < c?”, en que tanto a como c han
de optimizarse para lograr divisiones con la máxima pureza en los nodos hijos.
Divisiones así dan lugar a hiper-planos de separación que ya no han de ser paralelos
a los ejes.
13.2. CONSTRUCCIÓN DE ÁRBOLES BINARIOS 131
13.2.3. Estimación de la tasa de error
La elección de un árbol con preferencia a otro dependerá en general de sus
respectivas R(T). Se presenta el problema de estimarlas: según como lo hagamos,
podríamos tener una imagen excesivamente optimista del ajuste del árbol a los
datos, que nos desviaría notablemente de la construcción de un árbol óptimo; es
útil por consiguiente prestar alguna atención al modo de estimar R(T).
Observación 13.3 El problema no es muy diferente del que se presen-
ta al evaluar la tasa de error en la clasificación de una función discriminante.
Si lo hacemos reclasificando la muestra de entrenamiento, encontraremos,
como vimos, una tasa de error sesgada por defecto.
El problema se reproduce aquí, incluso agravado; porque, a igualdad de
dimensionalidad de los datos, un árbol de clasificación tiene mucha más fle-
xibilidad que un discriminante lineal para adaptarse a las peculiaridades de
una muestra particular, y en consecuencia de dar una imagen excesivamente
optimista al emplearlos para reclasificar dicha muestra.
Estimador por resustitución. El estimador más simple, pero también el poten-
cialmente más sesgado a la baja, es el estimador por resustitución. Consiste simple-
mente en dejar caer por el árbol la misma muestra que ha servido para construirlo.
Como se deduce de la Observación 13.3, tal estimador puede estar severamente
sesgado a la baja, al permitir los árboles binarios una gran flexibilidad para adap-
tarse a una muestra dada.
No obstante,
ˆ
R(T) es de fácil y rápido cálculo, y puede ser útil para comparar
árboles con igual o muy similar número de nodos.
Estimador por muestra de validación. La idea es similar a la del apartado an-
terior, pero lo que se deja caer ahora por el árbol es una muestra distinta a la de
entrenamiento, formada por tanto por casos que no han sido vistos por el árbol y
a los cuáles no se ha podido adaptar. Tenemos así un estimador R
ts
(T) que cabe
suponer insesgado por lo menos aproximadamente, pero que tiene el inconveniente
de forzarnos a reservar para su uso en validación una parte de la muestra, que de
otro modo habríamos podido emplear en el entrenamiento.
Estimación por validación cruzada La idea de validación cruzada , tan presente
en multitud de contextos, es de aplicación también aquí. Para estimar R(T) parece-
ría que podemos proceder reiteradamente como en el apartado anterior, dejando ca-
da vez fuera de la muestra de entrenamiento (para validación) una fracción de k
−1
del tamaño muestral total. Obtendríamos así k estimaciones R
(1)
(T), . . . , R
(k)
(T)
y, promediándolas,
R
cv
(T) =
R
(1)
(T) + +R
(k)
(T)
k
. (13.3)
132 CAPÍTULO 13. ARBOLES DE REGRESIÓN Y CLASIFICACIÓN
Obsérvese, sin embargo, que el árbol que hiciéramos crecer con cada una de las
submuestras podría quizá ser distinto a los demás: la expresión anterior sólo ten-
dría sentido tal cual está escrita en el (improbable) caso de que obtuviéramos exac-
tamente el mismo árbol con las k submuestras empleadas.
No podemos, por ello, emplear validación cruzada para obtener una estima-
ción de la tasa de error asociada a un árbol concreto. Si podremos hacerlo para
seleccionar un árbol, del modo que se verá en 13.2.6.
Estimadores bootstrap. Se ha propuesto también hacer uso de estimadores ba-
sados en técnicas de bootstrap. Véase Ripley (1996), pág. 238.
13.2.4. Tasa de error penalizada
Para la selección de un árbol entre los muchos que podemos construir sobre una
muestra, podemos pensar en el empleo de criterios análogos a la C
p
de Mallows o
AIC de Akaike. En el contexto actual, podríamos penalizar la tasa de error así:
R
α
(T) =
ˆ
R(T) +α[
˜
T[, (13.4)
siendo [
˜
T[ el número de hojas del árbol T y α un parámetro de coste de cada hoja.
La complejidad del árbol queda medida así por el número de hojas; la expresión
(13.4) pondera tanto la bondad de ajuste del árbol (medida por
ˆ
R(T)) como su
complejidad.
No obstante, no tenemos idea de cuál haya de ser un valor adecuado de α. No
tenemos tampoco claro que [
˜
T[ sea una medida adecuada de la complejidad: no es
el número de parámetros, porque incluso en el caso más simple de un árbol de re-
gresión, no nos limitamos a ajustar un parámetro (la media) en cada hoja. Hacemos
más cosas: seleccionamos las variables con arreglo a las que particionamos, y los
umbrales. El Ejemplo 13.2, pág. 127, ilustra ésto con claridad: dividir un nodo no
es igual que reemplazar un regresor por otros dos.
13.2.5. Criterios de parada y/o poda
Una de las ideas más fecundas en la metodología propuesta por Breiman et al.
(1984) es la de “mirar hacia adelante”. Inicialmente se ensayaron estrategias con-
sistentes en subdividir nodos (escogiendo en cada momento la división que pro-
dujera la máxima disminución de impureza i(t)) mientras un estimador adecuado
de R(T) disminuyera. Dado que en cada paso se examinan árboles con un número
de nodos muy similar, basta a efectos de dictaminar la procedencia de una nueva
división con estimar R(T) por
ˆ
R(T).
Se observó, sin embargo, que esta estrategia daba resultados muy pobres y esto
es debido a que, en ocasiones, subdivisiones que por sí mismas no serían justifica-
bles, abren el camino a otras muy provechosas. La Figura 13.3 lo ilustra en un caso
artificialmente simple, con dos variables y dos clases. Puede verse, en efecto, que
13.2. CONSTRUCCIÓN DE ÁRBOLES BINARIOS 133
Figura 13.3: Una división en X
1
= S es inútil por si misma, pero abre la vía a otras
sumamente provechosas
X
X
X
X
X
X
X
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
X
X
X
X
X
X
X
X
S
X
1
X
2
134 CAPÍTULO 13. ARBOLES DE REGRESIÓN Y CLASIFICACIÓN
particionar el espacio a lo largo de X
1
= S no logra prácticamente ninguna reduc-
ción de la impureza: ambas mitades tienen aproximadamente un 50 % de elementos
‘O’ y ‘X’. No obstante, cada una de dichas mitades puede ahora ser subdividida en
dos regiones prácticamente puras.
Esto sugiere que conviene construir árboles muy frondosos, porque no sabe-
mos lo que hay “más allá” de la división de un nodo hasta que lo vemos. Si lo que
se encuentra no justifica la frondosidad añadida al árbol siempre estamos a tiem-
po de podarlo. La cuestión clave no es por tanto dónde parar el crecimiento del
árbol, sino cuánto podar un árbol que deliberadamente hemos dejado crecer hasta
tamaños mayores de lo concebiblemente necesario.
El procedimiento de poda propuesto en Breiman et al. (1984) es muy simple.
Consideremos la oportunidad de podar la rama T
t
que brota del nodo t en un cierto
árbol. La tasa de error penalizada de dicho nodo y de la rama que brota de él, serían
respectivamente:
R
α
(t) =
ˆ
R(t) +α (13.5)
R
α
(T
t
) =
ˆ
R(T
t
) +α[
˜
T
t
[ (13.6)
=
¸
s∈
˜
Tt
ˆ
R(s) +α[
˜
T
t
[. (13.7)
Es fácil ver que para α = 0,
R
α
(t) =
ˆ
R(t) >
ˆ
R(T
t
) = R
α
(T
t
), (13.8)
en tanto que para α lo suficientemente grande se verifica la desigualdad contraria,
R
α
(t) < R
α
(T
t
). Por tanto habrá un valor de α, llamémosle g(t, T), verifican-
do R
α
(t) = R
α
(T
t
). Podemos obtener fácilmente este valor despejando α de la
igualdad
ˆ
R(t) +α =
ˆ
R(T
t
) +α[
˜
T
t
[,
lo que nos proporciona
g(t, T) =
ˆ
R(t) −
ˆ
R(T
t
)
[
˜
T
t
[ −1
.
Un valor α igual a g(t, T) hace que nos sintamos indiferentes entre la poda o no de
la rama T
t
. Valores superiores de α (= mayor coste de la complejidad) nos impul-
sarían a podar la rama, en tanto que valores menores nos impulsarían a conservarla.
La estrategia de poda propuesta por Breiman et al. (1984) es muy simple: para
cada nodo no terminal (en que no ha lugar a podar nada) se evalúa g(t, T), Se
poda a continuación la rama T
t∗
brotando del nodo t

verificando α
1
def
=g(t

, T) =
m´ın
t
g(t, T).
Tras la poda de la rama T
t∗
obtenemos el árbol T(α
1
); sobre el repetiremos el
cálculo de los valores g(t, T(α
1
)) para todos los nodos no terminales, y podaremos
13.3. ANTECEDENTES Y REFINAMIENTOS 135
la rama que brote del nodo con menor g(t, T(α
1
)) (valor que denominaremos α
2
).
El árbol así podado lo denominamos T(α
2
). Proseguiremos del mismo modo hasta
haber reducido el árbol inicial T al árbol degenerado que consiste sólo en el nodo
raíz.
Se puede demostrar que con el modo de proceder anterior se obtiene una suce-
sión de árboles con la misma raíz, anidados. Es decir, una sucesión
T ≻ T(α
1
) ≻ T(α
2
) ≻ . . . ≻ ¦raíz¦.
13.2.6. El algoritmo de construcción de árboles
(por escribir)
13.3. Antecedentes y refinamientos
Se han propuesto metodologías alternativas a la descrita (CART). Por ejem-
plo, Hawkins (1997) propone un método llamado FIRM y Loh and Vanichseta-
kul (1988) una simbiosis de construcción de árboles y análisis discriminante (que
no da lugar a árboles binarios sino n-arios). Otra generalización se conoce como
MARS (Multivariate Adaptive Regression Splines). Toma la idea de particionar re-
cursivamente el espacio de las variables predictores, pero en lugar de ajustar una
constante en cada hoja —al igual que un árbol de regresión como los descritos—
ajusta splines. El resultado es una superficie sin discontinuidades, y con el grado
de suavidad que se desee (fijando el orden de los splines en el valor que se desee).
La referencia seminal es Friedman (1991). Una aproximación similar, orientada a
la clasificación, es la seguida por Kooperberg et al. (1997).
13.4. Bibliografía comentada
La monografía Breiman et al. (1984) continúa siendo una referencia básica.
Fue el libro que otorgó carta de ciudadanía a métodos que habían sido propuestos
previamente desde perspectivas menos generales. El Capítulo 4 de Hand (1997)
es un resumen útil, desde el punto de vista de los problemas de clasificación. El
libro Chambers and Hastie (1992) da una panorámica de lo que hay disponible en
S-Plusstandard; pueden utilizarse también las rutinas de Therneau and Atkinson
(1997), que añaden alguna funcionalidad como particiones suplentes (surrogate
splitting). Ripley (1996) dedica el Cap. 7 a árboles de clasificación, y proporcio-
na bibliografía actualizada. Otros manuales que tratan sobre árboles de regresión
y clasificación son Zhang and Singer (1999) y Hastie et al. (2001), que se refie-
ren también a cuestiones no tratadas aquí (boosting, MARS, etc.). Devroye et al.
(1996) en su Cap. 20 habla de árboles desde una perspectiva marcadamente más
matemática.
136 CAPÍTULO 13. ARBOLES DE REGRESIÓN Y CLASIFICACIÓN
Capítulo 14
Redes Neuronales Artificiales
14.1. Introducción
Los primeros intentos de construir una red neuronal artificial (RNA) buscaban
replicar la estructura del cerebro de los animales superiores, tal y como se percibía
en la época; el precedente más antiguo, McCulloch and Pitts (1943), se remonta a
los años cuarenta.
Aunque la neurobiología ha sido de modo continuado una fuente de inspiración
y una metáfora adecuada del trabajo en RNA, la investigación en este campo ha
seguido un camino propio. Una descripción del curso entrelazado de ambos campos
—neurobiología y RNA— y sus respectivas influencias puede verse en Kohonen
(1997), Cap. 2, y Haykin (1998), Cap. 1.
14.2. Neuronas biológicas y neuronas artificiales
14.2.1. Morfología y funcionamiento de una neurona humana
Ciñéndonos sólo a los aspectos esenciales, una neurona humana es una célula
que consta de las siguientes partes: el soma o cuerpo celular del que emanan den-
dritas y el axon; unas y otro poseen terminaciones sinápticas con las que se unen
a otras neuronas. El axon puede tener del orden de 10
3
terminaciones sinápticas.
Un esquema simplificado puede verse en la Figura 14.1, tomada de Haykin (1998),
pág. 6.
Una neurona recibe estímulos de otras neuronas a traves de las terminaciones
sinápticas. A su vez, produce señales que a través del axon estimulan a otras neu-
ronas. Hay del orden de 10
11
neuronas en un cerebro humano, cada una con un
137
138 CAPÍTULO 14. REDES NEURONALES ARTIFICIALES
Figura 14.1: Esquema describiendo las partes principales de una neurona humana.
Tomado de Haykin (1998), p. 8.
elevado número de entradas y salidas sinápticas conectadas con otras neuronas, lo
que da un sistema masivamente paralelo de complejidad casi inimaginable.
En el trabajo pionero McCulloch and Pitts (1943) se suponía que cada neurona
“computa” su salida o respuesta de modo muy simple: suma los inputs, quizá afec-
tados de ponderaciones, y si la suma sobrepasa un cierto nivel crítico de excitación,
“dispara”, es decir, produce una salida en su axon. Se trataría así de un dispositi-
vo de activación de tipo umbral: todo o nada, dependiendo de si se traspasa dicho
umbral.
Hoy se sabe (cf. por ejemplo Kohonen (1997), Sec. 2.2) que la naturaleza de
las interacciones entre neuronas es más compleja de lo que la simple descripción
anterior haría pensar. Dicha descripción, sin embargo, proporciona un punto de
arranque e inspiración para el desarrollo de neuronas artificiales, como se describe
a continuación.
14.2.2. Neuronas artificiales
La descripción anterior, transcrita a notación matemática, equivale a que una
neurona toma todos sus entradas, las pondera mediante coeficientes w
1
, . . . , w
p
, y
14.2. NEURONAS BIOLÓGICAS Y NEURONAS ARTIFICIALES 139
proporciona a la salida:
Y =
1
2
+
1
2
sgn

p
¸
i=1
w
i
x
i
+w
0

, (14.1)
en que “sgn” es la función definida por
sgn(u) =

+1 si u > 0
−1 en caso contrario.
(14.2)
Podemos considerar neuronas que realizan un cómputo más general, relacio-
nando las entradas con la salida de acuerdo con una expresión como
Y = f(ϕ(x, w)). (14.3)
En la expresión anterior, x es el vector de entradas o estímulos que recibe la neu-
rona, y ϕ() una función de excitación dependiente de los parámetros en w; habi-
tualmente, ϕ(x, w) =
¸
p
i=1
(w
i
x
i
+w
0
), pero podría tomar cualquier otra forma.
Por simplicidad notacional consideraremos la existencia de una componente x
0
de x con valor fijo igual a 1 (el “sesgo” u offset en la jerga del área, sin ningu-
na relación con la noción estadística de sesgo). Escribiremos entonces
¸
p
i=0
w
i
x
i
como función de excitación de la neurona, sin tener que recoger separadamente el
coeficiente w
0
.
La función f() activación es habitualmente no lineal. Las siguientes son posi-
bilidades utilizadas para f():
Nombre Descripción Valores
Escalón (o signo) sgn(u) ±1
Heaviside (o umbral)
1
2
+
1
2
sgn(u) 0 ó 1
Logística (1 +e
−u
)
−1
(0,1)
Identidad u (−∞, +∞)
Cuadro 14.1: Funciones de activación f(u) usuales
Tenemos así que una neurona artificial realiza el cómputo esquematizado en la
Figura 14.2.
Observación 14.1 Una neurona como la descrita en la Figura 14.2
con función de activación no lineal ϕ(u) = sgn(u) fue propuesta por Ro-
senblatt con el nombre de perceptrón con el propósito de aproximar una res-
puesta binaria.
Observación 14.2 Una neurona con la función de excitación lineal
f(x) =
¸
p
i=0
w
i
x
i
y con función de activación ϕ(u) = u (identidad), rea-
liza un cómputo análogo al de un modelo de regresión lineal. Seleccionando
140 CAPÍTULO 14. REDES NEURONALES ARTIFICIALES
N
w
01
w
61
f(ϕ(x))
x
0
= 1
x
1
x
2
x
3
x
4
x
5
x
6
Figura 14.2: Esquema de una neurona artificial N. Recibe la entrada x =
(x
0
, . . . , x
6
) computando la función de excitación ϕ(x) =
¸
6
i=0
w
i1
x
i
y entre-
gado f(ϕ(x)) a la salida.
la función de activación ϕ(u) de modo diferente, podríamos lograr que la
neurona realizara el mismo cómputo que un modelo lineal generalizado. Por
ejemplo, mediante ϕ(u) = (1 +e
−u
)
−1
tendríamos un modelo de regresión
logística. Si la salida deseada fuera un variable cualitativa, la neurona podría
realizar el cómputo análogo a una función discriminante (lineal o no lineal,
dependiendo de las funciones f() y ϕ() escogidas).
14.2.3. Redes neuronales artificiales (RNA)
A imagen de como acontece en el cerebro humano, podemos conectar varias
neuronas entre sí para formar una RNA. Por ejemplo, una RNA con una única capa
oculta de tres neuronas, una entrada x = (x
0
, x
1
, . . . , x
6
) y una salida y = (y
1
, y
2
)
tendría una disposición como la de la Figura 14.3.
Observación 14.3 Una RNA como la de la Figura 14.3, con excitacio-
nes y activaciones lineales, computaría un modelo MANOVA con respuesta
bivariante. De nuevo, alterando las funciones de activación y/o excitación,
o añadiendo capas de neuronas ocultas, podríamos reproducir mediante la
RNA el cómputo realizado por una variedad muy grande de modelos. Obsér-
vese que no tiene objeto añadira capas de neuronas ocultas si las funciones
de excitación y activación son ambas lineales: funciones lineales de funcio-
nes lineales son de nuevo lineales, y podrían computarse mediante una sóla
capa. Si consideramos activaciones ϕ() no lineales, el uso de varias capas
de neuronas permite apilar no linealidades sobre no linealidades, y computar
una clase muy rica de relaciones funcionales entre la entrada x y la salida y.
14.3. ENTRENAMIENTO DE UNA RNA 141
E
0
E
1
N
1
E
2
S
1
E
3
N
2
E
4
S
2
E
5
N
3
E
6
w
01
w
63
x
0
= 1
x
1
x
2
x
3
x
4
x
5
x
6
f
1

1
(x))
f
3

3
(x))
y
1
y
2
Figura 14.3: RNA con tres neuronas. Las unidades de entrada, E
0
a E
6
, repar-
ten el input x = (x
0
, . . . , x
6
) a las tres neuronas que forman la capa oculta, N
j
(j = 1, 3). Cada una de estas neuronas computa ϕ
j
(x) =
¸
6
i=0
w
ij
x
i
y en-
trega f
j

j
(x)) a cada unidad de salida. S
1
y S
2
suman sus inputs y producen
y = (y
1
, y
2
).
14.3. Entrenamiento de una RNA
El entrenamiento aprendizajee una red neuronal es el proceso por el cual, me-
diante la presentación de ejemplos de parejas de vectores (x, d) (entradas y salidas
observadas), se fijan los valores de los coeficientes (o pesos) w
ij
.
Los pesos juegan un papel similar al de los parámetros en un modelo estadís-
tico convencional, y el proceso de entrenamiento es equivalente al de estimación
en los términos estadísticos habituales. Con más frecuencia que en la estimación
estadística ordinaria, sin embargo, el entrenamiento se lleva a cabo de forma adap-
tativa, presentando a la red instancias o ejemplos (pares (x, d)) de uno en uno.
Examinaremos primero un ejemplo con interés histórico —el del perceptrón– y
el modo de entrenarlo, para luego considerar ejemplos más elaborados de redes y
diferentes medios de entrenarlas.
14.3.1. Entrenamiento de un perceptrón
El perceptrón ha sido ya introducido en la Observación 14.1. Se trata de una red
neuronal muy simple compuesta por una única neurona cuyo objetivo es distinguir
entre objetos de dos clases, convencionalmente rotuladas como +1 y −1.
Consideremos el problema de su entrenamiento en el caso simple de que los
objetos de las dos clases sean linealmente separables; es decir, supongamos que
142 CAPÍTULO 14. REDES NEURONALES ARTIFICIALES
existe un vector de pesos w tal que w

x > 0 para todos los objetos de una cla-
se y w

x < 0 para todos los de la otra. Cuando esto sucede, hay un algoritmo
muy simple (Algoritmo 2) con convergencia asegurada, que produce un vector w
separando correctamente los casos.
Algoritmo 2 – Entrenamiento de perceptrón por corrección de error.
1: N ←Número de ejemplos en la muestra de entrenamiento
2: w
(0)
←0; n ←0; η ←Parámetro aprendizaje
3: repeat
4: E ←0
5: for i = 1 to N do
6: if (w
(n)

x
n+1
> 0) ∧ (x
n+1
∈ (
2
) then
7: w
(n+1)
←w
(n)
−ηx
n
8: E ←E + 1
9: else if (w
(n)

x
n+1
≤ 0) ∧ (x
n+1
∈ (
1
) then
10: w
(n+1)
←w
(n)
+ηx
n
11: E ←E + 1
12: else
13: w
(n+1)
←w
(n)
14: end if
15: n ←n + 1
16: end for
17: until E = 0
18: w
final
←w
n
La idea es muy sencilla: se presentan los casos (x, g) al perceptrón y se compu-
ta w

x. Si el resultado es “correcto” (w

x > 0 para objetos en el grupo (
1
y
w

x ≤ 0 para objetos en el grupo (
2
; la asignación de las etiquetas −1 y +1 a los
grupos (
1
y (
2
es arbitraria), los pesos se dejan en los valores preexistentes en la
iteración anterior. No es preciso ningún cambio.
Si, por el contrario, se produce un error de clasificación, se modifican los pe-
sos tal como recogen las asignaciones 7 y 10 en el algoritmo. El parámetro η o
parámetro de aprendizajeuede tomar cualquier valor, con tal de que sea positivo.
Diferentes valores afectan sólo a la velocidad a la que converge el algoritmo.
Observación 14.4 El parámetro η no necesariamente ha de permane-
cer constante. Frecuentemente se reemplaza por una sucesión de parámetros
η(n) que disminuyen en valor absoluto conforme el aprendizaje avanza.
Cuando se comete un error que requiere la modificación del vector de pesos w,
se incrementa la variable contadora de errores, E. El algoritmo finaliza cuando en
una pasada sobre todos los N casos no se produce ningún error, circunstancia que
se comprueba en la línea 17; esto puede requerir varias pasadas sobre la muestra
de entrenamiento. Obsérvese que el algoritmo se presta al aprendizaje on line, en
que los ejemplos se muestran a medida que van apareciendo.
14.3. ENTRENAMIENTO DE UNA RNA 143
La demostración de la convergencia es simple y puede consultarse en Bishop
(1996), p. 100 ó Haykin (1998), p. 139, por ejemplo. Sin entrar a detallarla aquí, es
fácil ver que la actualización que se hace en las líneas 7, 10 ó 13 del Algoritmo 2 es
“lógica”. Si el nuevo caso es correctamente clasificado por el perceptrón, w
(n)
no
se toca (línea 13). Si w

(n)
x
n+1
> 0 y hubiéramos deseado que w

(n)
x
n+1
≤ 0
(línea 6), la actualización que se realiza es:
w
(n+1)
←w
(n)
−ηx
n
con lo que
w

(n+1)
x
n
= w

(n)
x
n
−η [[x
n
[[
2
≤ w

(n)
x
n
;
es decir, nos movemos en la dirección deseada (w

(n+1)
x
n
se hace “menos posi-
tivo”), a tanta mayor velocidad cuanto mayor sea η. (Obsérvese que una actuali-
zación de este género puede introducir errores en ejemplos previamente bien cla-
sificados, por lo que de ordinario serán necesarias varias pasadas sobre los datos.)
De modo análogo sucede con la corrección en la línea 10 del algoritmo, cuando
w

(n)
x
n+1
≤ 0 indebidamente en la línea 9.
En definitiva, el algoritmo consiste en ir perturbando secuencialmente un hiper-
plano de modo que consigamos separar todos los casos. Claramente, sólo podremos
tener éxito cuando los casos sean linealmente separables. Cuando esto ocurre, el
algoritmo suministra un método de discriminación alternativo a los estudiados en
el Capítulo 12 para el caso de dos grupos.
14.3.2. El método de corrección de error.
El procedimiento anterior puede ser generalizado al caso en que la respuesta no
es binaria. Dicha generalización puede por otra parte verse como un caso particular
del método de aproximación estocástica de Robbins-Monro (véase Robbins and
Monro (1951) y Bishop (1996), pág. 46–48) que describimos a continuación.
Teorema 14.1 Consideremos dos variables correladas, g y θ verificando que f(θ) =
E[g[θ] (es decir, f() es una función de regresión de g() sobre θ). Supongamos que
E[(g(θ) −f(θ))
2
] < ∞ (14.4)
y, sin pérdida de generalidad, que f(θ) es monónota decreciente. Sea una sucesión
de números reales a
n
verificando:
l´ım
n→∞
a
n
= 0 (14.5)

¸
n=1
a
n
= ∞ (14.6)

¸
n=1
a
2
n
< ∞; (14.7)
144 CAPÍTULO 14. REDES NEURONALES ARTIFICIALES
entonces, si podemos evaluar la función g(θ) en una sucesión de valores θ
1
, . . . , θ
n
, . . .
generados así:
θ
n+1
= θ
n
+a
n
g(θ
n
), (14.8)
se tiene que θ
n
converge con probabilidad 1 a θ
0
, una raíz de f(θ) = E[g[θ] = 0.
El teorema anterior sugiere un procedimiento para entrenar secuencialmente
una red neuronal. Estamos interesados en optimizar una función de error c(Y , X, w)
continua y suficientemente derivable, como por ejemplo
c(Y , X, w) =
1
2
N
¸
n=1
m
¸
i=1
(y
(n)
i
−F
i
(x
(n)
, w))
2
(14.9)
Las condiciones de primer orden estipulan

∂w
c(Y , X, w) =
N
¸
n=1
¸
m
¸
i=1
(y
(n)
i
−F
i
(x
(n)
, w))

∂w
F
i
(x
(n)
, w)
¸
= 0
(14.10)
Es equivalente resolver la ecuación anterior of
1
N
N
¸
n=1
¸
m
¸
i=1
(y
(n)
i
−F
i
(x
(n)
, w))

∂w
F
i
(x
(n)
, w)
¸
= 0, (14.11)
y para N grande, el lado izquierdo de la igualdad anterior es aproximadamente
igual al valor medio
E

m
¸
i=1
(y
i
−F
i
(x, w))

∂w
F
i
(x, w)

; (14.12)
si identificamos la función cuyo valor medio se computa en (14.12) con f(θ) y
θ con w, vemos que es de aplicación el Teorema 14.1. Podemos pensar pues en
aplicar el procedimiento de Robbins-Monro, que converge casi seguramente a una
raíz de (14.12) y por tanto, aproximadamente, a una raíz de (14.11):
w
(n+1)
= w
(n)
+a
n
m
¸
i=1

y
(n)
i
−F
i
(x
(n+1)
, w
(n)
)


∂w
F
i
(x
(n+1)
, w
(n)
)
(14.13)
Si consideramos el caso de una red neuronal similar al perceptrón considerado
en la Sección 14.1 pero con activación lineal y respuesta continua, vemos que la
expresión (14.13) se particulariza a:
w
(n+1)
= w
(n)
+a
n

y
(n)
i
−F(x
(n+1)
, w
(n)
)

w
(n)
(14.14)
= w
(n)
+a
n
e
(n+1)
x
(n)
(14.15)
14.3. ENTRENAMIENTO DE UNA RNA 145
en que e
(n+1)
designa el error de ajuste de la n + 1 observación con los pesos
existentes tras procesar la n-ésima observación y x
(n)
es el vector de derivadas
parcial de la activación respecto del vector de pesos w. La fórmula de corrección
de error (14.15) generaliza la que se presentó en la Sección 14.1; a
n
ocupa el lugar
de η.
Si la activación no fuera lineal, la expresión (14.15) se convertiría en
w
(n+1)
= w
(n)
+a
n
e
(n+1)
F

(a
(n+1)
)x
(n)
(14.16)
en que a
(n+1)
= (w
(n)
)

x
(n+1)
es la excitacióne la neurona. Denominaremos
gradiente locale la neurona a:
δ
(n+1)
def
=
∂c
(n+1)
∂a
(n+1)
(14.17)
= e
(n+1)
F

(a
(n+1)
). (14.18)
Con esta notación, (14.16) se reescribe así:
w
(n+1)
= w
(n)
+a
n
δ
(n+1)
x
(n)
; (14.19)
en redes con más de una neurona, utilizaremos δ
(n+1)
k
para designar el gradiente
local de la neurona k-ésima.
Observación 14.5 Si observamos la última expresión, veremos que se
trata de simplemente de aplicar un método gradiente observación a obser-
vación. En lugar de calcular las derivadas de la función objetivo haciendo
uso de toda la muestra y llevar a cabo una optimización por el método del
gradiente ordinario, tomamos las derivadas de la contribución a la función
objetivo de cada observación. Como es lógico, debemos entonces ir amorti-
guando las contribuciones sucesivas, de modo que el influjo de la observación
n +1 sobre el vector de pesos calculado con ayuda de las n precedentes, sea
convenientemente pequeño: esta es la función del coeficiente de aprendizaje
a
n
.
Observación 14.6 Observemos también que la regla de actualización
es muy sencilla porque sabemos lo que deseamos obtener, y
(n)
, y lo que
obtenemos, F(a
(n)
); podemos “responsabilizar” del error a los pesos de la
única neurona que interviene. La situación se complica cuando hay más de
una neurona, quizá en cascada, en que no es obvio qué pesos hay que modifi-
car para reducir la discrepancia entre lo computado y lo deseado. Sucede, sin
embargo, que hay un algoritmo que permite hacer esta tarea no trivial de mo-
do eficaz: es el algoritmo de back-propagation de que se ocupa la siguiente
Sección.
14.3.3. El algoritmo de propagación hacia atrás
El algoritmo de propagación hacia atrás o back-propagations, en esencia, una
generalización a redes con más de una neurona del algoritmo de corrección de error
146 CAPÍTULO 14. REDES NEURONALES ARTIFICIALES
presentado en la sección anterior. Fue popularizado por Rumelhart et al. (1986)
aunque la idea parece preexistente (ver Bishop (1996), p. 141).
La Sección anterior, en particular la ecuación (14.19), muestran el modo de
actualizar los pesos a la entrada de una neurona en la primera capa cuando se
presenta el caso x
(n)
: basta multiplicar el gradiente local de la neurona por x
(n)
y
un parámetro de aprendizaje a
n
.
Exactamente la misma regla es de aplicación a una neurona k en una capa
intermedia, con la salvedad de que lo que se presenta a la entrada de la misma ya no
es x
(n)
sino el vector z
(n)
de salidas de todas las neuronas en la capa precedente
conectadas directamente a la k. El único problema, pues, es calcular el gradiente
local para una tal neurona.
Puesto que podemos calcular δ
k
para una neurona en la última capa, porque
podemos hacer uso de (14.19) en que e
(n+1)
y a
(n+1)
son ambos calculables, ha-
ciendo uso de la regla de la cadena:
δ
j
=
∂c
(n+1)
∂a
(n+1)
j
=
¸
k
∂c
(n+1)
∂a
(n+1)
k
∂a
(n+1)
k
∂a
(n+1)
j
=
¸
k
δ
k
F

(a
j
)w
kj
, (14.20)
en que la suma se toma sobre todas las neuronas k que reciben como entrada la
salida de la neurona j. Efectivamente: la activación de la neurona k depende li-
nealmente (a traves del peso w
kj
) de la salida z
j
de la neurona j, y dicha salida
depende de a
j
a través de la función de activación F.
Tenemos pues un método simple que permite calcular las derivadas de la fun-
ción de error respecto de las activaciones (y respecto de los pesos en consecuencia),
para utilizarlas en algoritmo de tipo gradiente.
14.4. Mapas auto-organizados (SOM)
Los mapas auto-organizados (self-organizing maps, SOM son un tipo de redes
neuronales directamente inspiradas como los perceptrones en lo que parece ser un
modo de funcionar del cerebro. Se aprecia en el mismo una organización espacial:
las neuronas tienden a estimular a, y ser estimuladas por, aquéllas que les que-
dan más próximas, lo que produce que se especialicen en una función grupos de
neuronas próximas.
Kohonen (1997) propuso un tipo de red neuronal artificial que imita dicho com-
portamiento. Básicamente opera así:
1. Se adopta para las neuronas una disposición espacial predeterminada: típi-
camente se disponen en filas y columnas. A cada neurona se le asigna un
vector de pesos w
ij
(los dos índices hacen referencia a la fila y columna en
que esta ubicada la neurona).
2. Se inicializan los vectores w
ij
de cualquier modo conveniente.
14.4. MAPAS AUTO-ORGANIZADOS (SOM) 147
Algoritmo 3 – Entrenamiento de una RNA por back-propagation.
1: N ←Número de ejemplos en la muestra de entrenamiento
2: η ←Parámetro aprendizaje ; w ←0
3: c ←Número de capas ; S ←Número de épocas
4: for s = 1 to S do
5: w
(1)
←w
6: for n = 1 to N do
7: Presentar el caso x
(n)
y calcular todas las activaciones a
i
.
8: Evaluar δ
k
para todas las neuronas conectadas a la salida.
9: for ℓ ∈ ¦c −1, . . . , 1¦ do
10: for j ∈ ¦Capa ℓ¦ do
11: δ
j
←F

(a
j
)
¸
k
w
kj
δ
k
k ∈ Capa (ℓ + 1)
12: ∂c
(n)
/∂w
ji
←δ
j
z
i
13: end for
14: end for
15: ∇(E
(n)
) ←[∂E
(n)
/∂w
(n)
]
16: Actualizar los pesos mediante w
(n+1)
←w
(n)
−η∇(E
(n)
)
17: end for
18: w ←w
(n+1)
19: end for
20: Devolver solucion en w.
3. Se presenta a la red cada uno de las observaciones x
k
de la muestra de en-
trenamiento ¦x
k
¦, k = 1, . . . , n.
4. Para cada neurona y cada observación en la muestra de entrenamiento se
computa R
ij,k
= [[x
k
−w
ij
[[
2
. Si
(i
opt
, j
opt
) = arg m´ın
i,j
R
ij,k
se dice que la neurona en la posición (i
opt
, j
opt
) “gana” la competición. En-
tonces, su vector de pesos (y, aunque en menor medida, los de todas las
neuronas vecinas), se alteran en orden a realzar su ventaja competitiva al
responder a la observación x
k
.
La descripción anterior, para hacerse más precias, requiere especificar como es
alteran los vectores de las neuronas “triunfantes” y sus vecinas, y quienes conside-
ramos vecinas.
Respecto de la última cuestión, debemos definir en la red una distancia entre
neuronas. Si las tenemos dispuestas en filas y comunas podríamos recurrir a una
distancia entre las neuronas (i, j) y (k, l) como:
d
2
ij,kl
= [i −k[
2
+[j −l[
2
; (14.21)
las neuronas vecinas de la (i, j) serían aquéllas (k, l) verificando d
2
ij,kl
< d para un
cierto umbral d que debemos determinar. Este umbral no necesita ser fijo durante
148 CAPÍTULO 14. REDES NEURONALES ARTIFICIALES
toda la duración del entrenamiento de la red, sino que, como veremos, ira por lo
general disminuyendo.
Por lo que hace a la modificación de pesos de la neurona triunfante (i, j) y
sus vecinas, la haremos del modo que sigue. Definamos h
ij,kl
como una función
decreciente de d
2
ij,kl
. Entonces, cuando la neurona (i, j) triunfa al presentarle la
observación x
(n+1)
, modificamos los vectores de pesos de todas las demás así:
w
(n+1)
kl
= w
(n)
kl
+ηh
ij,kl
(x
(n+1)
−w
(n)
kl
). (14.22)
En la expresión anterior, η es un parámetro de aprendizaje, típicamente mucho
menos que 1. La actualización de w
(n)
kl
tiene lugar sumándole una fraccióon de su
discrepancia con la observación x
(n+1)
, con lo que el vector actualizado está más
cerca de ésta. Además de η, el parámetro h
ij,kl
hace que la actualización sea más
intensa cuanto más cerca está la neurona k, l) de la vencedora (i, j) (puesto que
h
ij,kl
decrece con d
2
ij,kl
).
La regla de entrenamiento /14.22) garantiza que neuronas próximas tendrán
vectores de pesos parecidos.
14.5. Maquinas de vectores soporte (SVM)
Por escribir
Capítulo 15
Análisis de agrupamientos
15.1. Introducción
Consideramos un colectivo de N objetos, el i-ésimo de los cuales viene des-
crito por un vector x
i
. La información de partida es pues, como de costumbre, una
tabla X de dimensiones N p. En principio, las componentes de dicho vector
pueden ser reales, cualitativas o cualitativas ordenadas, e incluso cualquier combi-
nación de dichos tipos.
El objetivo es, sobre la base de los vectores observados, agruparlos en k grupos,
de tal modo que los que se incluyen en cada grupo tengan más parecido entre sí
que con los de otros grupos.
Naturalmente, el problema así formulado es muy vago y requiere formalización
adicional para poder ser abordado de manera algorítmica. Hemos de precisar qué
significa “parecerse” dos objetos —lo que nos llevará a definir nociones de simila-
ridad (o alternativamente disimilaridad) entre objetos: esta cuestión se aborda en la
Sección 15.2. Adicionalmente, dado que en el proceso de examinar agrupamientos
habremos de considerar la posibilidad de unir o separar grupos ya formados, nece-
sitaremos extender las nociones de similaridad o disimilaridad anteriores a grupos,
lo que haremos en la Sección 15.3. Finalmente, en la Sección 15.4 examinaremos
las estrategias de construcción de grupos.
149
150 CAPÍTULO 15. ANÁLISIS DE AGRUPAMIENTOS
15.2. Medidas de similaridad y disimilaridad entre obje-
tos
En lo que sigue se consideran diferentes medidas de similaridad o disimilari-
dad, adecuadas a situaciones diversas. En ocasiones resulta más natural pensar en
términos de similaridad, en otras en términos de disimilaridad.
15.2.1. Variables reales
Consideremos en primer lugar el caso en que x
i
está integramente compuesto
por variables reales. La definición más inmediata de disimilaridad entre x
i
y x
j
vendría proporcionada por la distancia euclídea ordinaria entre ambos, vistos como
puntos en R
p
:
d
2
(i, j) = [[x
i
−x
j
[[
2
=
p
¸
k=1
(x
ik
−x
jk
)
2
. (15.1)
Obsérvese que esta noción de disimilaridad es dependiente de las escalas de medi-
da: un cambio de unidades de medida en alguna o algunas de las variables altera
las distancias entre objetos. Puede recurrirse a normalizar las variables antes de
calcular la distancia euclídea entre objetos, o, lo que es equivalente, a calcular una
distancia euclídea generalizada así:
d
2
D
(i, j) = [[x
i
−x
j
[[
2
D
= (x
i
−x
j
)

D(x
i
−x
j
) (15.2)
en que D es una matriz diagonal cuyo elemento k, k contiene el inverso de la norma
(euclídea) de la k-ésima columna de X.
Si las p variables consideradas tienen correlación entre ellos, un refinamiento
inmediato de la idea anterior consistiría en considera la distancia de Mahalanobis,
d
2
Σ
(i, j) = [[x
i
−x
j
[[
2
Σ
= (x
i
−x
j
)

Σ
−1
(x
i
−x
j
), (15.3)
con Σ igual a la matriz de covarianzas de las p variables (si fuera conocida) o una
estimación de ella en el caso habitual de que no lo sea.
Una vía diferente de generalización de la distancia euclídea ordinaria deriva de
observar que d(i, j) es realmente un caso particular, con m = 2, de la definición
más general:
d
m
(i, j) =

p
¸
k=1
[x
ik
−x
jk
[
m

1/m
. (15.4)
Además de identificarse con la distancia auclídea ordinaria cuando m = 2, la
expresión anterior da lugar a otras distancias de interés. Cuando m = 1 tenemos
la distancia “bloque de casas” o “Manhattan”. Cuando m → ∞, tenemos que
d
m
(i, j) → sup
1≤k≤p
[x
ik
− x
jk
[, y de entre todas las discrepancias entre los
objetos i, j, sólo la mayor se toma en consideración. Cualquier valor 0 < m ≤ ∞
puede utilizarse, dando lugar a la distancia de Minkowskye parámetro m.
15.2. MEDIDAS DE SIMILARIDAD Y DISIMILARIDAD 151
Cuadro 15.1: Tabulación cruzada de valores de p variables dicotómicas en x
i
, x
j
.
0 1
0 a b
1 c d
15.2.2. Variables cualitativas nominales
Consideremos el caso, más simple, de variables cualitativas dicotómicas, pu-
diendo tomar únicamente dos valores que convencionalmente designaremos por 0
y 1. Podríamos hacer uso con estas variables de cualquiera de las definiciones en
el apartado precedente, pero con frecuencia tiene sentido hacer uso de definiciones
alternativas.
Cuando los vectores x
i
y x
j
describiendo a los sujetos i, j, están compuestos
en su integridad por variables dicotómicas, podemos construir una tabla de con-
tingencia como la recogida en el Cuadro 15.1. Vemos que, por ejemplo, para a
variables hubo una concidencia en los valores que toman en x
i
y x
j
, siendo ambas
0. Para d variables se verificó una coincidencia en el valor 1, y para b +c variables
hubo una discrepancia. (Obviamente, a +b +c +d = p si todas las variables han
sido registradas, es decir, no hay valores faltantes.)
A partir de los números tabulados en las cuatro casillas del Cuadro 15.1 pode-
mos definir similaridad de muy diversas formas. Podemos por ejemplo considerar
s(i, j) =
a +d
a +b +c +d
(15.5)
s(i, j) =
2d
a +b +c +d
(15.6)
s(i, j) =
d
a +b +c +d
. (15.7)
15.3. Medidas de similaridad y disimilaridad entre gru-
pos
No basta definir similaridad o disimilaridad entre objetos. En algunos algorit-
mos para la obtención de agrupamientos se requiere en algunas fases decidir qué
dos grupos ya formados se amalgaman, por ser los más similares. Es preciso por
tanto extender la noción de similaridad (o dismilaridad) entre objetos de manera
que proporciona una noción homóloga para grupos. Son muchas las posibilidades,
entre las que citaremos tres.
152 CAPÍTULO 15. ANÁLISIS DE AGRUPAMIENTOS
Ligadura simple
Cuando utilizamos ligadura simple(single linkage) definimos como disimila-
ridad entre dos grupos la disimilaridad entre los dos objetos, uno en cada grupo,
menos disimilares entre sí. Todo lo que se requiere para que dos grupos estén pró-
ximos es una pareja de puntos, uno en cada grupo, próximos.
Ligadura completa
La ligadura completa ligadura completa(complete linkage) es el criterio dia-
metralmwente opuesto. Definimos como disimilaridad entre dos grupos la disimi-
laridad entre los dos objetos, uno en cada grupo, más disimilares entre sí. Para que
dos grupos estén próximos, es preciso que los representantes de ambos más disi-
milares estén próximos —lo que supone que todos los objetos de un grupo han de
estar en la vecindad de todos los del otro.
15.4. Estrategias de construcción de grupos
15.4.1. Procedimientos jerárquicos
Estrategias aglomerativas o divisivas
Examinaremos una estrategia aglomerativa; su homóloga divisiva es similar
con los cambios obvios.
Inicialmente, en la etapa t = 0 del proceso de agrupamiento, todos los N obje-
tos a agrupar se consideran separados. Los designaremos O
1
, . . . , O
N
. A lo largo
del proceso de aglomerado, los objetos se irán integrando en grupos. Emplearemos
la notación G
k
= ¦O
i
1
, . . . , O
i
k
¦ para indicar el grupo G
k
contiene los objetos
O
i
1
, . . . , O
i
k
.
Comenzamos computando la matriz de disimilaridad entre todos los objetos:
O
1
O
2
O
3
. . . O
N
O
1
− d
12
d
13
. . . d
1N
O
2
− d
23
. . . d
2N
O
3
− . . . d
3N
.
.
.
O
N

Recorreremos dicha matriz en busca de la disimilaridad d
ij
menor. Supongamos
que es la que corresponde a la pareja formada por O
2
y O
3
. Tomaremos nota
de dicha distancia y amalgamaremos ambos puntos para formar el grupo G
1
=
¦O
2
, O
3
¦. A continuación eliminaremos las distancias en la fila y columna corres-
pondientes a O
2
y O
3
y añadiremos una fila y columna correspondientes al grupo
recién formado:
15.4. ESTRATEGIAS DE CONSTRUCCIÓN DE GRUPOS 153
O
1
O
2
O
3
. . . O
N
G
1
O
1
− − − . . . d
1N
d
1,G
1
O
2
− − . . . − −
O
3
− . . . − −
.
.
.
O
N
− d
N,G
1
G
1

Obsérvese que han desaparecido de la matriz de disimilaridades todas aquéllas que
involucraban directamente a los objetos =
2
y O
3
, y ha aparecido en cambio una
nueva columna con las disimilaridades entre el grupo G
1
—que engloba a los dos
objetos citados— y todos los demás. Las distancias en la nueva columna lo son de
un grupo a objetos, y se calculan, por ejemplo, de acuerdo con uno de los criterios
relacionados en la Sección 15.3.
La nueva matriz de disimilaridades es de nuevo rastreada en busca de la menor.
Si ésta corresponde a dos objetos, se amalgamarán en un nuevo grupo. Si corres-
ponde a una distancia entre un objeto aislado y un grupo ya formado, se amalga-
mará el objeto a dicho grupo. En todos los casos, tomamos nota de la distancia de
amalgamado y actualizamos la matriz de disimilarirdades en aquéllos elementos
que lo requieren y se continúa el proceso. Nótes que cada vex el número de colum-
nas se reduce en uno. El proceso finaliza cuando se amalgaman los objetos o grupos
que asociados a las dos últimas columnas que subsistan, en cuyo momento hemos
creado un único agrupamiento que engloba a la totalidad de los objetos iniciales.
El procedimiento anterior se dice que es jerárquico. En efecto, en cada etapa
del proceso la relación entre dos grupos cualesquiera sólo puede ser de inclusión
(uno totalmente contenido en otro) o de exclusión (ambos completamente disjun-
tos).
Dendrograma
El proceso de amalgamado en una estrategia jerárquica puede representarse
convenientemente mediante un dengrograma.
R: Ejemplo 15.1
154 CAPÍTULO 15. ANÁLISIS DE AGRUPAMIENTOS
Figura 15.1: Agrupamiento jerárquico con distancia promedio de 10 puntos toma-
dos al azar en R
4
1
6
4
3 5
8
2 7
1
.
0
1
.
5
2
.
0
2
.
5
3
.
0
Cluster Dendrogram
hclust (*, "average")
d
H
e
i
g
h
t
Apéndice A
Cálculo diferencial. Notación
matricial.
Hay aquí sólo una breve recopilación de resultados útiles. Más detalles y de-
mostraciones en Searle (1982) y Magnus and Neudecker (1988).
A.0.2. Notación
Haremos uso de las siguientes definiciones y notación.
Definición A.1 Sea X un vector m 1 e Y una función escalar de X: Y =
f(X
1
, . . . , X
m
) = f(X). Entonces:

∂Y
∂X

def
=

¸
¸
¸
¸
¸
¸
∂Y
∂X
1
∂Y
∂X
2
.
.
.
∂Y
∂X
m
¸

Si Y = X

AX siendo Auna matriz cuadrada cualquiera, es inmediato comprobar
que:

∂Y
∂X

= (A +A

)X.
En el caso, frecuente, de que A sea simétrica, tenemos que:

∂Y
∂X

= 2A

X
155
156 APÉNDICE A. CÁLCULO DIFERENCIAL MATRICIAL
Definición A.2 Sea

Y una función vectorial n 1–valorada de X, vector m1.
Entonces:

Y
∂X

def
=

¸
¸
¸
¸
¸
¸
∂Y
1
∂X
1
∂Y
2
∂X
1
. . .
∂Y
n
∂X
1
.
.
.
.
.
.
.
.
.
∂Y
1
∂X
m
∂Y
2
∂X
m
. . .
∂Y
n
∂X
m
¸

Hay algunos casos particulares de interés. Si Y = a

X = a
1
X
1
+ . . . + a
m
X
m
,
siendo a un vector de constantes,
∂Y
∂X
=

¸
¸
a
1
.
.
.
a
m
¸

= a;
si

Y = AX, siendo A una matriz (n m) de constantes,

Y
∂X

= A

.
A.0.3. Algunos resultados útiles
∂X

AX
∂X
= 2AX (A.1)
∂ log
e
[A[
∂A
=

A

−1
(A.2)
∂tr(BA
−1
C)
∂A
= −(A
−1
CBA
−1
) (A.3)
Apéndice B
Datos
B.1. Records atléticos de diversos países.
País 100m 200m 400m 800m 1500m 5Km 10Km Maratón
Argentina 10.39 20.81 46.84 1.81 3.70 14.04 29.39 137.72
Australia 10.31 20.06 44.84 1.74 3.57 13.28 27.66 128.30
Austria 10.44 20.81 46.82 1.79 3.60 13.26 27.72 135.90
Bélgica 10.34 20.68 45.04 1.73 3.60 13.22 27.45 129.95
Bermuda 10.28 20.58 45.91 1.80 3.75 14.68 30.55 146.62
Brazil 10.22 20.43 45.21 1.73 3.66 13.62 28.62 133.13
Birmania 10.64 21.52 48.30 1.80 3.85 14.45 30.28 139.95
Canada 10.17 20.22 45.68 1.76 3.63 13.55 28.09 130.15
Chile 10.34 20.80 46.20 1.79 3.71 13.61 29.30 134.03
China 10.51 21.04 47.30 1.81 3.73 13.90 29.13 133.53
Colombia 10.43 21.05 46.10 1.82 3.74 13.49 27.88 131.35
Cook-Islas 12.18 23.20 52.94 2.02 4.24 16.70 35.38 164.70
Costa 10.94 21.90 48.66 1.87 3.84 14.03 28.81 136.58
Checoslov. 10.35 20.65 45.64 1.76 3.58 13.42 28.19 134.32
Dinamarca 10.56 20.52 45.89 1.78 3.61 13.50 28.11 130.78
Rep. Dom. 10.14 20.65 46.80 1.82 3.82 14.91 31.45 154.12
Finlandia 10.43 20.69 45.49 1.74 3.61 13.27 27.52 130.87
Francia 10.11 20.38 45.28 1.73 3.57 13.34 27.97 132.30
RDA 10.12 20.33 44.87 1.73 3.56 13.17 27.42 129.92
RFA 10.16 20.37 44.50 1.73 3.53 13.21 27.61 132.23
UK 10.11 20.21 44.93 1.70 3.51 13.01 27.51 129.13
Grecia 10.22 20.71 46.56 1.78 3.64 14.59 28.45 134.60
Guatemala 10.98 21.82 48.40 1.89 3.80 14.16 30.11 139.33
País 100m 200m 400m 800m 1500m 5Km 10Km Maratón
Hungria 10.26 20.62 46.02 1.77 3.62 13.49 28.44 132.58
India 10.60 21.42 45.73 1.76 3.73 13.77 28.81 131.98
157
158 APÉNDICE B. DATOS
País 100m 200m 400m 800m 1500m 5Km 10Km Maratón
Indonesia 10.59 21.49 47.80 1.84 3.92 14.73 30.79 148.83
Irlanda 10.61 20.96 46.30 1.79 3.56 13.32 27.81 132.35
Israel 10.71 21.00 47.80 1.77 3.72 13.66 28.93 137.55
Italia 10.01 19.72 45.26 1.73 3.60 13.23 27.52 131.08
Japon 10.34 20.81 45.86 1.79 3.64 13.41 27.72 128.63
Kenya 10.46 20.66 44.92 1.73 3.55 13.10 27.38 129.75
Korea 10.34 20.89 46.90 1.79 3.77 13.96 29.23 136.25
RD-Korea 10.91 21.94 47.30 1.85 3.77 14.13 29.67 130.87
Luxemb. 10.35 20.77 47.40 1.82 3.67 13.64 29.08 141.27
Malasia 10.40 20.92 46.30 1.82 3.80 14.64 31.01 154.10
Mauricio 11.19 22.45 47.70 1.88 3.83 15.06 31.77 152.23
Mexico 10.42 21.30 46.10 1.80 3.65 13.46 27.95 129.20
Holanda 10.52 20.95 45.10 1.74 3.62 13.36 27.61 129.02
N.Zelanda 10.51 20.88 46.10 1.74 3.54 13.21 27.70 128.98
Noruega 10.55 21.16 46.71 1.76 3.62 13.34 27.69 131.48
Papua-N.G. 10.96 21.78 47.90 1.90 4.01 14.72 31.36 148.22
Filipinas 10.78 21.64 46.24 1.81 3.83 14.74 30.64 145.27
Polonia 10.16 20.24 45.36 1.76 3.60 13.29 27.89 131.58
Portugal 10.53 21.17 46.70 1.79 3.62 13.13 27.38 128.65
Rumania 10.41 20.98 45.87 1.76 3.64 13.25 27.67 132.50
Singapur 10.38 21.28 47.40 1.88 3.89 15.11 31.32 157.77
España 10.42 20.77 45.98 1.76 3.55 13.31 27.73 131.57
Suecia 10.25 20.61 45.63 1.77 3.61 13.29 27.94 130.63
Suiza 10.37 20.46 45.78 1.78 3.55 13.22 27.91 131.20
Taiwan 10.59 21.29 46.80 1.79 3.77 14.07 30.07 139.27
Tailandia 10.39 21.09 47.91 1.83 3.84 15.23 32.56 149.90
Turquia 10.71 21.43 47.60 1.79 3.67 13.56 28.58 131.50
USA 9.93 19.75 43.86 1.73 3.53 13.20 27.43 128.22
USSR 10.07 20.00 44.60 1.75 3.59 13.20 27.53 130.55
Samoa 10.82 21.86 49.00 2.02 4.24 16.28 34.71 161.83
Fuente: Dawkins (1989)
Bibliografía
Agresti, A. (1990). Categorical Data Analysis. Wiley.
Anderson, T. (1978). An Introduction to Multivariate Statistical Analysis. New
York: Wiley, 1984th edition, Signatura: 519.237 AND.
Barnett, V. and Lewis, T. (1978). Outliers in Statistical Data. New York: Wiley.
Basilevsky, A. (1992). Statistical Factor Analysis and Related Methods. Wiley.
Bishop, C. (1996). Neural Networks for Pattern Recognition. Oxford: Clarendon
Press.
Bishop, Y., Fienberg, S., and Holland, P. (1975). Discrete Multivariate Analysis.
Theory and Practice. Cambridge, Mass.: MIT Press.
Borg, I. and Groenen, P. (1997). Modern Multidimensional Scaling. Theory and
Applications. New York: Springer-Verlag.
Breiman, L., Friedman, J., Olshen, R., and Stone, C. (1984). Classification and
Regression Trees. Belmont, California: Wadsworth.
Carroll, J. (1953). An analytic solution for approximating simple structure in factor
analysis. Psychometrika, 18, 23–38.
Chambers, J. and Hastie, T. (1992). Statistical Models in S. Pacific Grove, Ca.:
Wadsworth & Brooks/Cole.
Chatfield, C. and Collins, A. (1980). Introduction to Multivariate Analysis. Lon-
don: Chapman & Hall.
Cox, D. R. and Hinkley, D. V. (1974). Theoretical Statistics. London: Chapman
and Hall, 1979th edition.
Cox, T. and Cox, M. (1994). Multidimensional Scaling. Chapman and Hall.
Cuadras, C. (1981). Métodos de Análisis Multivariante. Barcelona: Eunibar.
159
160 BIBLIOGRAFÍA
D’Agostino, R. (1971). An Omnibus Test of Normality for Moderate and Large
Sample Sizes. Biometrika, 58, 341–348.
D’Agostino, R. (1972). Small Sample Probability Points for the D Test of Norma-
lity. Biometrika, 59, 219–221.
Dawkins, B. (1989). Multivariate Analysis of National Track REcords. The Ameri-
can Statistician, 43, 110–115.
Devroye, L., Györfi, L., and Lugosi, G. (1996). A Probabilistic Theory of Pattern
Recognition. Springer Verlag, Signatura: 519.237.8.
Dillon, W. and Goldstein, M. (1984). Multivariate Analysis: Methods and Appli-
cations. New York: Wiley.
Escofier, B. and Pages, J. (1984). Análisis Factoriales Simples y Multiples. Objeti-
vos, Métodos e Interpretación. Bilbao: Servicio Editorial de la UPV/EHU.
Fayyad, U. and Irani, K. (1992). On the handling of continuous-valued attributes
in decision tree generation. Machine Learning, 8, 87–102.
Fienberg, S. (1980). The Analysis of Cross-Classified Categorical Data. Cambrid-
ge, Mass.: MIT Press.
Fourgeaud, C. and Fuchs, A. (1967). Statistique. Paris: Dunod.
Friedman, J. (1991). Multivariate Adaptive Regression Splines. Annals of Statis-
tics, 19, 1–41.
Garthwaite, P., Jolliffe, I., and Jones, B. (1995). Statistical Inference. London:
Prentice Hall.
Giri, N. (1977). Multivariate Statistical Inference. Academic Press.
Gower, J. (1975). Generalized Procrustes Analysis. Psychometrika, 40, 33–51.
Hand, D. (1981). Discrimination and Classification. Wiley.
Hand, D. (1997). Construction and Assessment of Classification Rules. Wiley.
Harman, H. (1960). Modern Factor Analysis. The Univ. of Chicago Press, Hay
traducción española de la tercera edición.
Hastie, T., Tibshirani, R., and Friedman, J. (2001). The Elements of Statistical
Learning. Data Mining, Inference, and Prediction. Springer-Verlag, Signatura:
519.237.8 HAS.
Hawkins, D. (1997). FIRM: Formal Inference-based Recursive Modeling. Techni-
cal Report 546, University of Minnesota, School of Statistics.
BIBLIOGRAFÍA 161
Haykin, S. (1998). Neural Networks. A comprehensive Foundation. Prentice Hall,
second edition.
Kaiser, H. (1958). The varimax criterion for analytic rotation in factor analysis.
Psychometrika, 23, 187–200.
Kiefer, J. C. (1983). Introduction to Statistical Inference. New York: Springer-
Verlag, 1987th edition.
Kohonen, T. (1997). Self-Organizing Maps. Berlin: Springer-Verlag.
Kooperberg, C., Bose, S., and Stone, C. J. (1997). Polychotomous Regression.
Journal of the American Statistical Association, 92, 117–127.
Krzanowski, W. (1988). Principles of Multivariate Analysis: A User’s Perspective.
Oxford, Signatura: 519.23 KRZ.
Lachenbruch, P. (1975). Discriminant Analysis. New York: Hafner Press.
Lebart, L. (1997). Méthodes factorielles. In Thiria et al. (1997).
Loh, W.-Y. and Vanichsetakul, N. (1988). Tree-Structured Clasification Via Gene-
ralized Discriminant Analysis. Journal of the American Statistical Association,
83, 715–728.
Magnus, J. and Neudecker, H. (1988). Matrix differential calculus with applica-
tions in Statistics and Econometrics. Wiley.
Mardia, K. (1974). Applications of some measures of Multivariate Skewness and
Kurtosis for testing normality and Robustness Studies. Sankhya, B, 36, 115–128.
Mardia, K., Kent, J., and Bibby, J. (1979). Multivariate Analysis. Academic Press.
McCulloch, W. and Pitts, W. (1943). A logical calculus of the ideas immanent in
nervous activity. Bulletin of Mathematical Biophysics, 5, 115–133.
McLachlan, G. (1992). Discriminant Analysis and Statistical Pattern Recognition.
Wiley.
Peña, D. (2002). Análisis de Datos Multivariantes. McGraw-Hill.
Plackett, R. (1974). The Analysis of Categorical Data. London: Griffin.
Rencher, A. (1995). Methods of Multivariate Analysis. Wiley.
Rencher, A. (1998). Multivariate Statistical Inference and Applications. Wiley.
Ripley, B. (1996). Pattern Recognition and Neural Networks. Cambridge Univer-
sity Press, 519.237.8 RIP.
162 BIBLIOGRAFÍA
Robbins, H. and Monro, S. (1951). A stochastic approximation method. Annals of
Mathematical Statistics, pp. 400–407.
Rothkopf, E. (1957). A mesure of stimulus similarity and errors in some paired-
associate learning. Journal of Experimental Psychology, 53, 94–101.
Royston, P. (1995). A Remark on Algorithm AS 181: The W Test for Normality.
Journal of the Royal Statistical Soc., Ser. B, 44, 547–551.
Rumelhart, D., Hinton, G., and Williams, R. (1986). Learning internal representa-
tions by error propagation. In D. Rumelhart and J. McClelland, editors, Parallel
distributed processing: Explorations in the Microstructures of cognition, volu-
me 1, pp. 318–362, MIT Press.
Searle, S. (1982). Matrix Algebra useful for Statistics. Wiley.
Seber, G. (1977). Linear Regression Analysis. New York: Wiley.
Seber, G. (1984). Multivariate Observations. New York: Wiley.
Shapiro, S. and Wilk, M. (1965). An analysis of variance test for normality (com-
plete samples). Biometrika, 52, 591–611.
Sibson, R. (1978). Studies in the Robustness of Multidimensional Scaling: Pro-
crustes Statistics. Journal of the Royal Statistical Society, Ser. B, 40, 234–238.
Stapleton, J. (1995). Linear Statistical Models. New York: Wiley.
Therneau, T. and Atkinson, E. (1997). An Introduction to Recursive Partitioning
using the RPART Routines. Technical report, Mayo Foundation.
Thiria, S., Lechevallier, I., Gascuel, O., and Canu, S., editors (1997). Statistique et
méthodes neuronales, Dunod.
Trocóniz, A. F. (1987a). Modelos Lineales. Bilbao: Serv. Editorial UPV/EHU.
Trocóniz, A. F. (1987b). Probabilidades. Estadística. Muestreo. Madrid: Tebar-
Flores.
Zhang, H. and Singer, B. (1999). Recursive Partitioning in the Health Sciences.
Springer-Verlag, Signatura: 519.233.5 ZHA.
Índice alfabético
R(T)
estimador por resustitución,
ˆ
R(T),
131
estimador por validación, R
cv
(T),
131
estimador por validación, R
ts
(T),
131
tasa de error en árboles, 129
tasa de mala clasificación
en árboles, 129
R(t)
tasa de error en un nodo, 129
árbol
binario, 125
de clasificación, 125, 126
de regresión, 125
FACT, 135
FIRM, 135
nodo, 125
nodos terminales, 125
raíz, 125
índice
de Gini, 128
de impureza de un nodo, 128
outliers
en distribuciones normales, 32
activación
función de, 139
algoritmo de reescalado iterativo
, 89
aprendizaje
d, 141
atributos, 83
back-propagation
e, 145
binario
árbol, 125
caracteres, 83
clasificación
mediante árboles binarios, 126
componentes principales, 59
contraste
razón generalizada de verosimilitu-
des, 42
contraste de hipótesis
sobre el vector de medias de una
población normal, 37
D’Agostino
contraste de normalidad, 30
dengrograma
agrupamiento jerárquico, 153
descomposición en valores singulares, 77
discriminación
con costes variables, 112
con información a priori, 110
con más de dos grupos, 112, 115
con variables normales, 113
máximo verosímil, 109
regla lineal de Fisher, 115
discriminante, análisis
tasa de error aparente, 120
163
164 ÍNDICE ALFABÉTICO
disimilaridad, 101
distancia
de Mahalanobis, 123
euclídea, 102
distancia de Minkowsky
d, 150
distribución
Wilks, lambda de, 27
Eckart-Young
teorema, 61
entrenamiento
o, 141
entropía
como medida de impureza en árbo-
les, 128
impureza de un nodo, 128
excitación
d, 145
FACT, 135
factorial
modelo
estimación por el método del fac-
tor principal, 74
estimación por máxima verosimi-
litud, 74
rotación
quartimax, 73
varimax
rotación, 73
FIRM, 135
Fisher
discriminante lineal, 115
formas cuadráticas
generalizadas, 27, 45
Gini
índice de, 128
Gini, índice
como medida de impureza en árbo-
les, 128
Gnanadesikan y Kettenring
contraste de normalidad, 31
gradiente local
d, 145
impureza
de los nodos de un árbol, 128
jerárquico
método de agrupamiento, 153
Kohonen
mapas auto-organizados, 146
Lawley-Hotelling
contraste, 47
ligadura completa
, 152
ligadura simple
, 152
máquinas de vectores soporte, 148
Mahalanobis
distancia, 123
MANOVA
con un tratamiento, 45
más de un tratamiento, 47
mapas auto-organizados, 146
Mardia
contraste de normalidad, 32
matriz
de proximidades, 101
muestreo de Poisson
., 84
muestreo multinomial
., 85
muestreo producto-multinomial
., 85
niveles, 83
nodo
impureza, 128
raíz, 125
terminal, 125
normalidad
contraste de Shapiro-Wilk, 30
contraste de D’Agostino, 30
contraste de Gnanadesikan y Ket-
tenring, 31
ÍNDICE ALFABÉTICO 165
contraste de Mardia, 32
contrastes multivariantes, 30
parámetro de aprendizaje
p, 142
paradoja de Simpson
„ 84
perceptrón
„ 139
-, 141
Pillai
contraste, 47
Procrustes
análisis, 97
proximidades
matriz de, 101
quartimax
rotación, 73
red neuronal, 137
RNA, 137
rotación
ortogonal, 72
procrustes, 97
quartimax, 73
varimax, 73
Roy
contraste, 47
máxima raíz, 47
self-organizing maps, SOM
), 146
Shapiro-Wilk
contraste de normalidad, 30
similaridad, 101
SOM, 146
sumas de cuadrados
generalizadas, 45
sumas de cuadrados
generalizadas, 27, 46
SVD
descomposición en valores singula-
res, 77
SVM, 148
tabla de contingencia
, 83
tasa de error
en árboles, 129
tasa de error aparente
en discriminación, 120
teorema
de Eckart-Young, 61
validación cruzada, 121, 131
valores singulares
descomposición, 77
varimax
rotación, 73
vectores soporte, 148
verosimilitud
razón generalizada, 42
Wilks
distribución Λ, 27

2

Índice general

1. Normal multivariante y asociadas 1.1. Introducción. . . . . . . . . . . . . . . . . . . . 1.2. Distribución normal multivariante. . . . . . . . . 1.3. Regresión lineal. . . . . . . . . . . . . . . . . . 1.4. Correlación simple, parcial y múltiple. . . . . . . 1.5. Distribución de Wishart. . . . . . . . . . . . . . 1.6. Formas cuadráticas generalizadas. . . . . . . . . 1.7. Distribución T 2 de Hotelling. . . . . . . . . . . . 1.8. Distribución de Wilks y asociadas . . . . . . . . 1.9. Contrastes en la distribución normal . . . . . . . 1.9.1. Diagnósticos de normalidad univariante . 1.9.2. Diagnósticos de normalidad multivariante 1.9.3. Búsqueda de outliers . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

11 11 12 16 18 20 21 24 27 29 29 30 32 35 35 35 36 36 37 38 40 41 41 41

2. Inferencia en poblaciones normales multivariantes. 2.1. Inferencia sobre el vector de medias. . . . . . . . . . . . . . . . . 2.1.1. Contraste sobre el vector de medias conocida Σ. . . . . . 2.1.2. Contraste sobre el vector de medias con Σ desconocida. . 2.1.3. Contraste de igualdad de medias en dos poblaciones con matriz de covarianzas común. . . . . . . . . . . . . . . . 2.1.4. Contraste de hipótesis lineales generales sobre el vector de medias de una única población. . . . . . . . . . . . . . . 2.1.5. Contraste de hipótesis lineales sobre los vectores de medias de dos poblaciones. . . . . . . . . . . . . . . . . . . 2.2. Inferencia sobre el coeficiente de correlación entre dos v.a. normales X1 , X2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3. Inferencia sobre la matriz de covarianzas. . . . . . . . . . . . . . 2.3.1. Contraste de igualdad de matrices de covarianzas en dos poblaciones normales. . . . . . . . . . . . . . . . . . . . 2.3.2. Contraste de diagonalidad por bloques de la matriz de covarianzas de una única población normal. . . . . . . . . . . 3

. Análisis de varianza multivariante 3. . . . . . . . . . . . . . . . . . . . . . . 8. . . . . . . . . . . 5. . .3. . . . . . . . Descomposición en valores singulares. . . . . . . . .2. . . . . . Comentarios adicionales . . . . . . 7. .4 ÍNDICE GENERAL 2. .1. . . . . 5. . . . . . . Análisis Factorial y el objetivo de la parsimonia . . . . . . . . . . . . . .1. . . . . . . . . . . 8. . . Método de máxima verosimilitud . Tipos de muestreo . . . . . . . . . . La igualdad fundamental . . . . . . . . .1. . . . . . . . . . . . . . . . . . . . . . 3. . . . 5. . Modelo MANOVA con un tratamiento . . Modelos MANOVA con dos o más tratamientos 3. . .2. . . . . 8. . . .2. .3. . . . . . . . . .3.5. . . . . . Relación con otros contrastes . . .2. . . . . . . . . . . .3. .2. . . . . . . . . . . . .5. . . . . . . Introducción.2. . . . . . . . . 6. . . . . . . . . . . . . . . . . . . . . . . . Estimación del modelo . . . Interpretación geométrica. . . . . . . . . . . . . . Relación entre diversos contrastes . Introducción . . . . . . 6. 6. . . . . . . . . . . . . . . . . . Lectura recomendada . 6.1. .2. . . Rotaciones 6. . . Modelos logarítmico-lineales 8.5.4. . . . . . . . . . . . . . . . . . . . Método del factor principal . . Introducción . . . . . . . 7. . .4. . . .1. . . . . . Lectura recomendada . . . . . . . . . . . 7. . . . . . . . . . . . . . . . . . Introducción. . . . .4. . . . . Ejemplo . . . . . . 4. . . . . . . . . . .5. . . . . . . . . . . . . . . . . . . . Análisis Factorial. . . . 6. . . . . .3. . . . . . . . . . . .1. . . Indeterminación de las soluciones factoriales. . 7. . . .3. Biplots . Interpretación.1. . . . . . . Variables canónicas y coeficientes de correlación canónica. . . . . . 8. . . . . . . . 43 45 45 45 46 47 48 51 51 51 54 55 57 57 58 61 63 64 67 67 68 69 71 74 74 74 75 75 77 77 78 81 83 83 84 85 87 89 3.2. . . . Datos categóricos multivariantes 8. . . . .5. . . . . . . . . . . 6. . . .3. . . . . . . . . 3. . . . . 5. . . . . . . 3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5. . . . .4. Introducción. . 4. . . . . . . . . . . . . . . . . Análisis de correlación canónica 4. 6. . . . . . .4. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Interpretación . . . .5. . . Propiedades de las componentes principales. . . . . . . . . . . . . . . . 7. . . . . . . . . . .2. . . . . . 5. . . . . . . . . .2. . . . Contraste de esfericidad . . . . . . . . . . . . . . Componentes principales. . . .3. . . . . . . 4. . . 4. . . . Obtención de las componentes principales. . . Biplots 7. . . . La paradoja de Simpson . . . . . . . . . .1. . Extensiones y bibliografía . .

. . . . Reciprocidad y representación conjunta . . . . . . . . 99 . . . . . . . . . . . . . . . . .2. 13. .1. .5. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 12. . . . . . . . . .2. . 99 . Espacio de búsqueda . 13. . . . . . .ÍNDICE GENERAL 9. . . 101 11. .2.2.3. . . . . 9. 12. . . .2. . . . . . . . . . . . 10. . . . . . . Discriminación máximo-verosímil .2. . . . . . . . . . . 10. Arboles binarios . Obtención de la transformación Procrustes 10. . . . . . . . . . . Reescalado multidimensional métrico . Más de dos grupos con matriz de covarianzas Σ común 12. . 12. 10. .2. . . . . . .3. . Criterios de parada y/o poda . . .2. . . Variables normales . Lectura recomendada . Notación . Introducción. . . . . .4. . . . . . . . . . . . . . . . . . .5. 13. . .2. 12. . . . 12. 12. . Estimación de la tasa de error . . . .6.4. . . . . . . . . . Arboles de regresión y clasificación 13. . . . . . . . . . . . . . . . . . . . . . . Evaluación de funciones discriminantes . . .3. . . . . . . . . . . . . . . . Introducción. . . .1. . .6. .2. La regla lineal de Fisher . . . . . . . . . .2. 13. . . . Caso de varios grupos . .2. . 98 . . El algoritmo de construcción de árboles . Tasa de error penalizada . . . . . 12. . Traslación a . . . . . Análisis de las columnas de X . . . . . . . . .1. . . . . . . .4. .3. . . .2. . .2. . . . . . Análisis de las filas de X . Discriminación con información a priori . . Distancia entre las filas de la matriz de datos 9. . . . . . . . . . . . . . .4. . 12. . . . .3. . . . . . . . . . . 13. . . . . . .1.4. . . Medidas de “impureza” de nodos y árboles. .3. . . . . . . 13. . . . . .1. . . . . 12. .1. . Diferentes covarianzas: Σ1 = Σ2 . . . . . . . . . . . . . . . . . 99 . . . . . 97 . . . . . . . . . . . . . . . . 10. . .7. . 107 107 109 110 113 113 114 115 115 116 117 119 122 125 125 127 128 129 131 132 132 135 . . .1. Dos grupos con matriz de covarianzas Σ común . . Matriz de covarianzas Σ común y dos grupos . 97 . Análisis discriminante 12. . . 5 91 91 91 91 93 95 95 96 . .1. .1. . .3. . Matriz de covarianzas muestral . . . . . . . . . . . . . . .2. . 12. .4. . . . . . . . . . . . . . . . . . . . . 9. . . . . . . . . . . 9. . . . . . . . . .5. . . . . Análisis de Correspondencias 9. . . . . . . . . . . . . . . . . . . . . . . 12. . . . . . . . . .2. . . . Reescalado Multidimensional 101 11. Introducción. Construcción de árboles binarios . . . .2. 9. . . . . . . . . .1. . .1. . . . . . . . . . . . . . . . . . . .1. . . . . . . . . . Análisis y comentarios adicionales . . . Rotación P . . . . . . . . . . . . . Parámetro de escala ρ . . . . . . .1. . . . . Bibliografía comentada . . . . . . . . . 100 11. . . . . . . . . . . . 13. . . . . . .2. . . 10. . . . 9. . . .5. . . . . y dos grupos . . . . Análisis Procrustes 10. . . 13.2. . . .

. . . . El algoritmo de propagación hacia atrás . . . . . . . . Mapas auto-organizados (SOM) .2. 14. . . .3. . . . . . . . . . 15. . . . . . . . . . . 15. . . . . . . . . . . . . . . . . . Records atléticos de diversos países. . . . . Medidas de similaridad y disimilaridad entre grupos . . . .4. . . . . . . . . . . . . . . . . . . . . Entrenamiento de una RNA . . .2. . . Redes Neuronales Artificiales 14. .5. . . . 135 14. 14.1. . . . . . . . . . . . . . 14. . . .3. . . .3. . . . . . .1. . . . . .3. . . . Datos 157 B. . . . . 14. . . . Antecedentes y refinamientos . . Morfología y funcionamiento de una neurona humana 14. . .3. . . . . . . . . . Variables reales .1. . .0. . . 137 137 137 137 138 140 141 141 143 145 146 148 149 149 150 150 151 151 152 152 . . . . . . . . 155 A. . . . . . . . . . . Entrenamiento de un perceptrón . . . 14. . . . . .3. .2. . . 155 A. . 135 13. . . . . . . Estrategias de construcción de grupos . . .2. . . . . . . 156 B. . 14. . . . . . . . . . . Introducción . . . 14.1. . . . . . . . 14. .2. . .2. Medidas de similaridad y disimilaridad entre objetos 15. . . . Notación . . Redes neuronales artificiales (RNA) . . . .6 ÍNDICE GENERAL 13. . . . . . .2. . . . . . . . . . . . . . . . .3. . . . Procedimientos jerárquicos .3. . . . . . . . .1. . . . A. . . . 15.2.0. . . . Cálculo diferencial. . . . . . Neuronas biológicas y neuronas artificiales . 15. 15. Análisis de agrupamientos 15. . . . .2. . Variables cualitativas nominales . . . .3. . . . . . . . . . . . . . . . . . . . . . . . .1.2. Algunos resultados útiles .4. .2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . El método de corrección de error. .1. Neuronas artificiales . . . . . . . . Notación matricial. Maquinas de vectores soporte (SVM) . . . . . . . . Introducción . 14. . . . . . . . . . . 15. . .4. . . . . . . . 157 .4. Bibliografía comentada . . . . . . . .

. B. 126 7 . . . Ui es proyección de X sobre ai . . . . . . . . . . . . Records representados en el plano generado por U1 y U2 . . .1. 126 13. . .Índice de figuras 2. . . . 5. . . . . . . . . . . . . . Por ejemplo. 119 12. .2. . . . . 7. . . . 121 13. y no obstante muy útiles para discriminar en algún subconjunto. . Árbol binario con tres hojas. . . . Al desaparecer el efecto tamaño por ser todas las magnitudes relativas. . La mejor dirección discriminante puede no ser aquélla en que más dispersión presentan las observaciones . . .2. Probabilidad F (N. .1. Árbol binario para clasificar pacientes en grupos de supervivencia homogénea . . . . . . . . Biplot del porcentaje de hogares en cada Comunidad Autónoma que poseen diferentes tipos de equipamiento relacionado con la sociedad de la información. . . C y raíz r. . A. . 39 63 65 80 82 103 12. . Puede haber direcciones discriminantes asociadas a un λ bajo. . . . Mapa reconstruido mediante reescalado multidimensional métrico a partir de las distancias por carretera entre capitales de provincia. . . . 5. . . 7. Disposición de dos vectores de medias paralelos . . . . . . d) de separar perfectamente N puntos en posición general en un espacio de d = 10 dimensiones . . . . . .3. . . . . . Se aprecia el fuerte efecto “tamaño” que oblitera cualquier otro.1. . 11. .2. . . . . . . . Biplot de número de hogares (en valor absoluto) en cada Comunidad Autónoma que poseen diferentes tipos de equipamiento relacionado con la sociedad de la información. . . . . . . . . . .2. Con p = 3 grupos hay hasta p − 1 direcciones discriminantes. . . . . . . . . 117 12. . . . . . .1. . . . . .1. . . . . . . . . la dirección asociada a a2 discrimina bien entre los grupos C1 y C2 por un lado y C3 por otro. . . .1. se aprecian las diferencias entre comunidades en la dotación relativa.

. . . . 8.8 ÍNDICE DE FIGURAS 13. 154 . Una división en X1 = S es inútil por si misma. 141 15. . p. Agrupamiento jerárquico con distancia promedio de 10 puntos tomados al azar en R4 . . . RNA con tres neuronas. . . . .1.3. . . . . . . . . . . . Las unidades de entrada. Recibe la entrada x = (x0 . . . .2.3. . . . 138 14. . 140 14. . . . E0 a E6 . . Esquema describiendo las partes principales de una neurona humana. . . . . . . . . . Nj (j = 1. . x6 ) a las tres neuronas que forman la capa oculta. . . pero abre la vía a otras sumamente provechosas . y2 ). . . . . . . 133 14. Esquema de una neurona artificial N . . . . . . . . . Cada una de estas neuronas computa ϕj (x) = 6 wij xi y entrega fj (ϕj (x)) a cada unidad de salida. . . . . . . . x6 ) computando la función de excitación ϕ(x) = 6 wi1 xi y entrei=0 gado f (ϕ(x)) a la salida. . . . . . Tomado de Haykin (1998). . . . . . . . . . . . . . . . .1. . . . . . 3). . . . reparten el input x = (x0 . i=0 S1 y S2 suman sus inputs y producen y = (y1 . . .

. . . . . . . . . . . . .1. . . . 3. Color de pelo y ojos medidos para cinco sujetos . . . . Tabulación cruzada de valores de p variables dicotómicas en xi. . . . . Muestra de entrenamiento en análisis discriminante con dos grupos 108 14. . . . . . . . . 139 15. . . . . . . . . . 8. . . . . . . . . . . . . . . . . .1. . . . . . . . . . . . . . . . 7. . . . . . . . . Funciones de activación f (u) usuales . . . . . . . . . . . . . . . . . . . . . . Dotación de los hogares por Comunidades Autónomas (miles de hogares que poseen cada uno de los equipamientos indicados). Tabla de contingencia relacionando color de pelo y ojos para cinco sujetos . Encuesta de Tecnologías de la información en los hogares. Equivalencia entre estadísticos uni. . . Fuente: INE.Índice de cuadros 1. . 27 48 62 79 83 84 92 12. . . . . . . . . . . . . . 9. xj . . 5. 8. . . . . . .1. . . Tabla de Análisis de Varianza para un modelo con dos tratamientos e interacción . . .1. . . . . . . . .1. . . . . . . . . Valores propios de R . .2.1. . .1.1. . . . .y multivariantes. . . . . 151 9 . .1. . . . . . Notación empleada . . . . 2002.

10 ÍNDICE DE CUADROS .

Podríamos en efecto estudiar cada Xj por separado. . es decir. . Introducción. . una generalización de ella. perderíamos sin embargo la posibilidad de extraer partido de la (posible) correlación entre diferentes variables Xj y Xk en X.1) (1. Si lo hiciéramos. y ΣX a su matriz de covarianzas. Llamaremos Xj a la variable aleatoria j-ésima. constituye un modelo teórico de gran trascendencia en el Análisis Multivariante.1. 11 . y por FX (x) y fX (x) a las funciones de distribución y densidad respectivamente de X. A cada ω ∈ Ω corresponderá entonces un X = n . Emplearemos el convenio de utilizar mayúsculas para las variables aleatorias y minúsculas para sus valores concretos en un muestreo determinado. ¿Por qué no emplear las técnicas habituales (univariantes) sobre cada Xj ?. Designaremos por X = (X . X . la distribución normal multivariante. . Los métodos de Análisis Multivariante comparten la idea de explotar esta información. Consideraremos en lo que sigue variables aleatorias n-variantes. aplicaciones X : Ω −→ Rn .Capítulo 1 Normal multivariante y asociadas 1. µX = EX ΣX = E[(X − µX )(X − µX ) ] ′ (1. X ) ′ a la observación iX(ω) ∈ R i i1 i2 in ésima de la variable aleatoria n-variante X. Llamaremos µX al vector de medias de la variable aleatoria X.2) Al igual que la distribución normal desempeña un papel destacado en la Estadística univariante.

10) sigue una distribución Np (0.9) ψY (u) = eiuµ− 2 σ Si tenemos p variables aleatorias Xj con distribución N (0. 1) si: fX (x) = y por ende: x 1 2 1 √ e− 2 x dx 2π −∞ ψX (u) = EeiuX ∞ 1 1 2 2 1 √ e− 2 (x−iu) e− 2 u dx = 2π −∞ 1 2 √ e−x /2 2π −∞<x<∞ FX (x) = −∞<x<∞ (1.8) (1. . σ 2 ) cuyas funciones de densidad. Distribución normal multivariante.12 CAPÍTULO 1.. distribución y característica son: fY (y) = FY (y) = (y−µ)2 1 √ e− 2σ2 σ 2π y (y−µ)2 1 √ e− 2σ2 dy σ 2π −∞ 1 2 u2 −∞<y <∞ (1. NORMAL MULTIVARIANTE Y ASOCIADAS 1.. Xp ) ′ viene dada por el producto de las marginales fX (x) = = y la función característica por: ψX (u) = e− 2 u u. . Se dice que X ∼ N (0. (1. 1) : Y = σX + µ se obtiene una variable aleatoria normal general N (µ.11) e− 2 x 1 ′ Ix . designando el primer argumento el vector de medias y el segundo la matriz de covarianzas.+xp ) p 1 2 2 (1.6) = e− 2 u 1 2 Por transformación lineal de una variable aleatoria N (0.4) (1.7) − ∞ < y < ∞ (1. . en virtud de la independencia entre las distintas componentes de X. la función de densidad conjunta de la variable aleatoria p-variante X = (X1 . Esta última es diagonal. independientes unas de otras. .12) Decimos que la variable aleatoria p-variante X cuya función de densidad es (1. 1). 1 ′ 1 √ 2π 1 √ 2π p e− 2 (x1 +. I).3) (1.5) (1.2.10) (1. .

La expresión (1.22) requiere para estar definida que ΣY sea de rango total –sólo así puede encontrarse la inversa–.22) |A||A ′ | = |ΣY |. + a2p Xp + µ2 . 1/2 |ΣY | (1. . ΣY ). . Si ΣY es de rango deficiente. Si efectuamos una transformación lineal X −→ Y como Y1 = a11 X1 + a12 X2 + .22). que carece de densidad (1.19) (1.27) son funciones de densidad y característica de un vector aleatorio con distribución Np (µ. ′ tenemos que la función de densidad (1. . .13) (1.16) ′ 1 √ 2π 1 √ 2π p e− 2 (y−µ) p 1 (A−1 ) (A−1 )(y−µ) |A−1 | (1.22) y (1.17) (1. .23) (1. Y = AX + µ.27) por el contrario es una función característica incluso aunque ΣY sea de rango deficiente. se dice que estamos ante una distribución normal singular. + app Xp + µp 13 (1.1.27) iu ′ µ iu ′ (AX+µ) ′ = ψX (A u)e 1 iu ′ µ− 2 u ′ AA ′ u 1 iu ′ µ− 2 u ′ ΣY u La expresión (1. . Yp = ap1 X1 + ap2 X2 + . DISTRIBUCIÓN NORMAL MULTIVARIANTE. tenemos que X = A−1 (Y − µ) y la función de densidad de Y se obtiene fácilmente de la de X: fY (y) = fX (A−1 (y − µ)) = = Como ΣY = E(Y − µ)(Y − µ) ′ ′ ′ ∂X ∂Y ′ (1. Se dice que (1.18) puede escribirse así: fY (y) = ya que |A| = |A||A| = rística de Y es: 1 √ 2π p ′ −1 1 1 e− 2 (y−µ) ΣY (y−µ) . .20) (1.2. la función caracte′Y ψY (u) = Eeiu = Ee = e = e (1. .15) o. y A es de rango completo. en notación matricial.14) (1.24) (1.21) = EAXX A = AA .26) (1. Por otra parte.25) (1. + a1p Xp + µ1 Y2 = a21 X1 + a22 X2 + .18) 1 − 1 (y−µ) ′ (AA ′ )−1 (y−µ) e 2 |A| (1. .

CX ∼ Nd (CµX . como el siguiente ejemplo ilustra. . σ 2 I). incorrelación e independencia son nociones coextensivas. (d ≤ p). 5.1 La función de densidad normal multivariante es unimodal. 4. Es un hecho.3 Hay versiones multivariantes del Teorema Central del Límite. cualesquiera marginales son normales uni. un elipsoide (similar a un balón de rugby) en R3 . Xj (o grupos de componentes) de X. la expresión anterior proporciona la superficie de un hiper-elipsoide: una elipse ordinaria en R2 . se verifica: AX + BY ∼ Nd (AµX + BµY . ΣX ) y Np (µY . ΣY ). Si Y es normal multivariante. CΣX C ′ ). AΣX A′ + BΣY B ′ ) Como caso particular. el supuesto de normalidad multivariante es mucho más fuerte que el de normalidad de las marginales. 2. Transformaciones lineales ortogonales de vectores Nd (0. cuya expresión viene dada por: 1 ′ − (y − µ) Σ−1 (y − µ) = k. σ 2 I) tienen distribución Nd (0. 3. sin embargo. Las distribuciones de cualesquiera combinaciones lineales de componentes de Y son normales.14 CAPÍTULO 1. La incorrelación entre cualesquiera componentes Xi . y rango d. Si X e Y son vectores independientes conjuntamente definidos con distribuciones respectivas Np (µX .o multivariantes. En el caso de variables aleatorias con distribución normal multivariante. B son matrices cualesquiera de orden d × p. y figuras que ya no podemos visualizar en más de tres dimensiones. Observación 1. y Sin influencia abrumadora de ninguna sobre el conjunto.2 Una normal multivariante tiene contornos de igual densidad. y de rara plausibilidad en la práctica. y A. En particular. y tiene contornos de igual densidad elípticos (o hiper-elípticos). implica su independencia. que sugieren que variables multivariantes que son: Suma de muchas otras. NORMAL MULTIVARIANTE Y ASOCIADAS Observación 1. Aproximadamente independientes. que el supuesto de normalidad multivariante es sumamente restrictivo. siguen distribución aproximadamente normal multivariante. para el que existe la densidad) es definida positiva. alcanza su máximo para y coincidente con el vector de medias µ. Y 2 Como la matriz de covarianzas (en el caso de rango completo. Los siguientes hechos son de muy sencilla demostración: 1. cuando esta densidad existe. Observación 1.

32) . Ejemplo 1. la expresión anterior será una matriz de ceros.1 Supongamos un vector bivariante (X1 . X2 ). particionado del modo que se indica: X= X1 X2 ∼N µ1 Σ11 Σ12 . La matriz de covarianzas entre las Y y las X2 será: Cov(Y .31) Σ12 Σ−1 (X2 22 − µ2 )] ′ E[(X1 − µ1 ) − Σ12 Σ−1 (X2 − µ2 )][(X1 − µ1 ) − 22 Σ11 − Σ12 Σ−1 Σ22 Σ−1 Σ12 ′ = Σ11 − Σ12 Σ−1 Σ12 ′ 22 22 22 (1. X1 ≥ X2 . el supuesto de normalidad bivariante sería claramente inadecuado: por definición.1 Sea X un vector aleatorio con distribución normal (p + q)-variante. simplificando el cociente hasta encontrar una densidad normal con el vector de medias y matriz de covarianzas que indica el enunciado. y por tanto el vector (X1 . Podemos perfectamente imaginar un caso con normalidad marginal (las mínimas y máximas se distribuyen cada una de modo normal). Σ11 − Σ12 Σ−1 Σ21 ) 22 22 D EMOSTRACION : Una demostración conceptualmente simple se limitaría a efectuar el cociente de la densidad conjunta entre la densidad marginal f (X1 ).30) = Σ12 + M Σ22 = E (X1 − µ1 )(X2 − µ2 ) + M (X2 − µ2 )(X2 − µ2(1. Consideremos la variable aleatoria Y = X1 + M X2 . 99). Una normal bivariante debe estar definida en todo el plano real.1. siendo M una matriz de dimensiones p × q. en que X1 y X2 son respectivamente temperaturas máximas y mínimas de una ubicación. DISTRIBUCIÓN NORMAL MULTIVARIANTE. X2 ) se distribuye sólo en el semiplano por debajo de la recta X1 = X2 . µ2 Σ21 Σ22 Entonces la distribución de X1 condicionada por X2 = x2 es: Np (µ1 + Σ12 Σ−1 (x2 − µ2 ). Y = X1 − Σ12 Σ−1 X2 es un vector aleatorio normal multivariante indepen22 diente de X2 . por 22 tanto. Una aproximación más simple es la que sigue (véase Chatfield and Collins (1980). Sin embargo.29) )′ Si hacemos M = −Σ12 Σ−1 . obtenemos los siguientes momentos: a) Incondicionados: E[Y ] = E[X1 − Σ12 Σ−1 X2 ] = µ1 − Σ12 Σ−1 µ2 22 22 ΣY = = (1. su distribución incondicionada y condicionada por X2 = x2 es la misma.28) (1. Tomando valor medio y matrices de covarianzas en ambos casos.2. El siguiente teorema será de utilidad: 15 Teorema 1. Siendo independiente. X2 ) = E [(X1 − µ1 ) + M (X2 − µ2 )](X2 − µ2 )′ ′ (1. p.

x2 )dx2 (1.35) (1.33) y (1.43) x1 fX1 (x1 )dx1 = E (X1 ) [X1 ] .42) (1.X2 (x1 . “Óptima” se entiende en el sentido de minimizar E[X1 − g(X2 )]2 .1 Si denotamos mediante un superíndice la v. x2 )] fX1 . con la notación de la Sección anterior.38) (1. Regresión lineal.35) y (1. con respecto a la cual se ∞ toma valor medio (es decir.37) x1 fX1 |X2 (x1 |x2 )dx1 dx2 (1. Demostraremos que la función g(X2 ) buscada es precisamente E[X1 |X2 ].3.16 CAPÍTULO 1. y que nos planteamos el siguiente problema: encontrar g(X2 ) aproximando de manera “óptima” a X1 . E (X1 ) [Z] = −∞ ZfX1 (x1 )dx1 ).34) llegamos a: E[X1 |X2 = x2 ] = µ1 + Σ12 Σ−1 (x2 − µ2 ) 22 ΣY |X2 =x2 = Σ11 − Σ12 Σ−1 Σ21 22 (1.31) a (1. 1.36) junto con la normalidad de X1 demuestran el teorema.a. Para ello precisamos algunos resultados instrumentales.X2 (x1 .40) (1.41) (1.33) (1.36) Las expresiones (1. se tiene: E[X1 ] = E (X1 ) [X1 ] = E (X2 ) [E (X1 ) (X1 |X2 )] D EMOSTRACION : E (X2 ) [E (X1 ) (X1 |X2 )] = = = = = = fX2 (x2 )[E (X1 ) (X1 |X2 )]dx2 fX2 (x2 ) dx1 dx1 x1 dx1 (1.32) a (1.39) dx2 x1 fX1 |X2 (x1 |x2 )fX2 (x2 ) dx2 [x1 fX1 . Lema 1.34) ΣY |X2 =x2 = Σ(X1 |X2 =x2 ) e igualando (1. NORMAL MULTIVARIANTE Y ASOCIADAS b) Condicionados: −1 E[Y |X2 = x2 ] = E[X1 |X2 = x2 ] − Σ12 Σ22 x2 (1. que p = 1 (con lo que X1 es un escalar). Supongamos.

Llamamos varianza total a traza(Σ).3.45) (1. pero aquí la linealidad no es un supuesto. D EMOSTRACION : Consideremos cualquier otra función h(X2 ). D EMOSTRACION : Como. Lema 1. Definición 1. tenemos que: cov[Z. La ˆ expresión de E[X1 |X2 ] es reminiscente de la de X β en regresión lineal.2 Sea. g(X2 ) − h(X2 )] Z 2 ℓ(X2 ) = E[X1 − g(X2 )] + E[g(X2 ) − h(X2 )]2 ≥ E[X1 − g(X2 )]2 Es interesante observar que E[X1 |X2 ] es una función lineal de X2 en el caso que consideramos de distribución normal multivariante conjunta de X1 . X= X1 X2 ∼N 2 µ1 σ11 Σ12 . Σ21 Σ22 µ2 17 Entonces.a. incorrelada con cualquier función ℓ(X2 ). E[Z] = 0. REGRESIÓN LINEAL.47) haciendo uso del lema anterior para evaluar la expresión (1. ℓ(X2 )] = E [Z(ℓ(X2 ) − E[ℓ(X2 )])] = E[Zℓ(X2 )] = 0 = E[X1 ℓ(X2 ) − E[X1 |X2 ]ℓ(X2 )] (1.46). Z = X1 − E[X1 |X2 ] es una v. Teorema 1.46) (1. X2 . de acuerdo con el lema anterior. sino un resultado. X1 y las X2 correspondientes a las distribuciones de X1 |X2 = x2 y X2 están relacionadas por: Lema 1. Entonces: E[X1 − h(X2 )]2 = E[X1 − g(X2 ) + g(X2 ) − h(X2 )]2 = E[X1 − g(X2 )]2 + E[g(X2 ) − h(X2 )]2 +2cov[X1 − g(X2 ). |Σ|.2 La mejor aproximación en términos de error cuadrático medio de X1 en función de X2 es la proporcionada por g(X2 ) = E[X1 |X2 ].3 Las varianzas generalizadas de la distribución de X = |Σ| = |Σ11 − Σ12 Σ−1 Σ21 ||Σ22 | 22 .1 Llamamos varianza generalizada de una distribución multivariante al determinante de su matriz de covarianzas. Tenemos así el siguiente.1.44) (1.

4.48) Se demuestra fácilmente haciendo uso de la desigualdad de Schwartz que −1 ≤ ρij ≤ +1. Podemos interpretar ρij. Cap. 2 2 Sean Xi y Xj dos variables aleatorias conjuntamente definidas. Una tercera observación de interés es que las varianzas de las X1 en la distribución condicionada son no mayores que en la distribución no condicionada. Si las varianzas y covarianzas en (1. Xj son variables aleatorias de entre las que componen el vector X1 . 22 Algunas cosas merecen resaltarse. Un coeficiente de correlación simple igual a 1 en valor absoluto (+1 ó -1) indica una perfecta asociación lineal entre las variables aleatorias Xi y Xj (véase Trocóniz (1987b).X2 def = λij.2 . parcial y múltiple. proceden de los lugares homólogos en Σ11. La matriz de covarianzas de la distribución condicionada por X2 = x2 no depende de x2 . Por otra parte. NORMAL MULTIVARIANTE Y ASOCIADAS D EMOSTRACION : Basta tomar determinantes en la igualdad matricial. disminuye 22 la incertidumbre acerca de los valores que puede tomar X1 . I −Σ12 Σ−1 22 0 I Σ11 Σ12 Σ21 Σ22 I ′ −Σ−1 Σ12 22 0 I = −1 Σ11 − Σ12 Σ22 Σ21 0 0 Σ22 Emplearemos la notación Σ11. tenemos el llamado coeficiente de correlación parcial entre Xi y Xj controlado el efecto de X2 : ρij. en lugar de proceder de Σ11 .48). (1. y λij su covarianza. . Se denomina coeficiente de correlación simple entre ambas a: ρij def = λij 2 2 + σi σj .18 CAPÍTULO 1. El único caso en que las varianzas –condicionadas e incondicionadas– serían idénticas es aquél en que Σ12 = 0.X2 como el coeficiente de correlación entre Xi y Xj una vez que de ambas se ha eliminado la parte que cabe expresar como combinación lineal de las variables aleatorias en X2 . Sean σi y σj sus varianzas respectivas. Correlación simple.2 2 2 + σi. Imaginemos que Xi . por ej. Es una función lineal en x2 .2 σj. esto −1 es fácil de ver si reparamos en que los elementos diagonales de Σ12 Σ22 Σ21 (que se restan de sus homólogos de Σ11 ) resultan de evaluar una forma cuadrática de matriz Σ−1 definida no negativa.).2 .2 para designar la matriz de covarianzas Σ11 − Σ12 Σ−1 Σ21 . 14. 1. Esto es lógico: conocido X2 = x2 . la expresión que da el valor medio de X1 condicionado por X2 = x2 es formalmente similar a la que se obtendría regresando los valores centrados de X1 sobre los valores centrados de X2 .

90 0. resulta ser: Σ11·2 = ≈ 1.   1. Las dos variables X1 y X2 aparecen altamente correladas con la X3 (Edad).60 0. o en forma reminiscente del R2 = 1 − SSE/SST habitual en regresión. Ejemplo 1.30 1. El ejemplo es puramente ilustrativo. Si efectuamos el análisis controlando el efecto de la variable X3 . en aplicación del Teorema 1. 0.80 (1.X2 2 σj .4588. Al eliminar el efecto (lineal) de la variable X3 . PARCIAL Y MÚLTIPLE.49) (1.90 0. El coeficiente de correlación múltiple al cuadrado es aquella parte de la varianza de Xj “explicada” linealmente por las variables aleatorias X2 . No cuesta imaginar el origen de la aparente paradoja.00 0. En efecto.80 .80 0. la matriz de covarianzas de las variables X1 .19 −0. 1 El coeficiente de correlación parcial (eliminado el efecto de X3 entre X1 y X2 sería ahora: −0.19 × 0.2 Consideremos una matriz de covarianzas1 entre las tres variables X1 = “Tensión arterial”.12 −0.12 0.80 Por consiguiente.3 ≈ √ 0. ρ12. tendríamos: Σ11 Σ22 Σ12 = = = 1.00 0.00 0. se torna de relación inversa).90 − 0. 19 Definimos coeficiente de correlación múltiple al cuadrado entre la variable Xj (en X1 ) y X2 así: 2 Rj.12 ≈ −0.00 1. X2 controlado el efecto de X3 .60 1.00 0.60 1.90 0.60 0. y ello induce una correlación espúrea entre ellas. la aparente relación directa entre X1 y X2 desaparece por completo (de hecho. CORRELACIÓN SIMPLE.X2 = 2 2 σj − σj.90 Σ = 0.00 0. X2 = “Renta disponible” y X3 = “Edad”.60 entre la variable X2 (Renta) y la variable X1 (Tensión arterial).1.80 1. .50) es decir.60 0.X2 =1− 2 σj.00 0.4.00 Una apreciación superficial podría llevar a concluir que hay una abultada correlación de 0. el resultado cambia drásticamente.30 Valores ficticios.1.X2 2 σj . una correlación apreciable y de signo contrario al inicial.00 0.60 1. 2 Rj.

2 a ′ Sa = s2 ∼ σii χ2 . De la definición se deducen de modo inmediato las siguientes n propiedades: 1. . lo que es igual.53) Es decir. n) vectores aleatorios independientes. CΣC ′ ). Distribución de Wishart. Entonces. . 3. lo que muestra que CSC ′ ∼ Wq (n. T ∼ Wd (m. Σ). . a ′ Σa) ∼ (a ′ Σa)χ2 n a ′ Sa ∼ χ2 n a ′ Σa (1. Σ). con los n mismos grados de libertad que la Wishart. en efecto. Como caso particular de (1. con distribución común Nd (0.5. . Como caso particular de la propiedad anterior. si a es un vector de constantes y S ∼ Wd (n. Σ) y ambas son independientes. Σ) y C es una matriz q × d de rango q. Σ) ⇔ S = Por consiguiente.2 Sean Xi (i = 1. Si S ∼ Wd (n. σ 2 ) se verifica que: A = n Xi2 ∼ i=1 σ 2 χ2 = W1 (n. entonces: CSC ′ ∼ Wq (n. Σ) tenemos: a ′ Sa ∼ W1 (n. NORMAL MULTIVARIANTE Y ASOCIADAS 1. Σ). . La distribución de Wishart puede en cierto modo considerarse como una generalización de la χ2 . n n ′ ′ ′ n ′ i=1 Xi Xi con Xi ∼ Nd (0.52) 4. ∀a = 0 (1. ii n (1. σ 2 ). si Xi ∼ N1 (0. . 0) (un único “uno” en posición i-ésima) se verifica que cuando S ∼ Wd (n.52). Wd (n. Σ). 2. Σ).51) o. si a ′ = (0 . . . Σ). CΣC ′ ) D EMOSTRACION : S ∼ Wd (n. Si S ∼ Wd (n. S + T ∼ Wd (m + n. 0 1 0 . se distribuye como una χ2 .20 CAPÍTULO 1. CSC = C i=1 Xi Xi C = i=1 (CXi )(CXi ) ′ Pero CXi ∼ Nq (0. el cociente entre un elemento diagonal de una matriz de Wishart y la correspondiente varianza poblacional. . la matriz aleatoria n A= i=1 Xi Xi ′ con 1 d(d + 1) elementos distintos –dado que es simétrica– sigue la distribución 2 conocida como distribución de Wishart. CΣC ′ ). Definición 1. con n grados de libertad y matriz de parámetros Σ.

Sea U una matriz ortogonal N ×N . Σ). . 3. r ≤ N . r) son mutuamente independientes. . ui = X ′ ai (i = 1. como la “suma de cuadrados” anterior. Claramente. ′ aik Xk l ajl Xl = k l aik ajl E[Xk Xl ′ ] aik ajk Σ k = = 0d×d si i = j (de donde se sigue la independencia) Σ si i = j y ||ai ||2 = 1 Lema 1. una matriz d × d. que representaremos alternativamente de una de las siguientes formas:   X1 ′  X2 ′    X =  . Entonces. Σ). Σ). XN ′ N ′ Entonces. Si a1 . Consideremos ui . . E[ui ] = E[uj ] = 0. . . iid 2.   . . uj y: E[uiuj ] = E k ′ (i = j). Llamaremos forma cuadrática generalizada a una expresión como: X ′ AX = i j aij Xi Xj ′ . Σ). Sea X una matriz N × d. e Y = U X. Formas cuadráticas generalizadas. σjj IN ). D EMOSTRACION : Solo (3) requiere demostración. X (d) . FORMAS CUADRÁTICAS GENERALIZADAS. . 21 1. Es. . Lema 1. . Si ||ai ||2 = 1.  = X (1) X (2) . ar .6. la “suma de cuadrados” W = i=1 Xi Xi puede escribirse como: ′ W = X X.4 Si las filas de X siguen una distribución Xi ∼Nd (0. X (j) ∼ NN (0. Y ′ Y = X ′ X se distribuye como una Wd (N. Es una matriz d × d. son vectores en RN mutuamente ortogonales.1. se verifica lo siguiente: 2 1. ||a||2 Σ).5 Sea X una matriz aleatoria N × d cuyas filas Xi ′ son independientes con distribución común Nd (0. . . siendo inmediatos los restantes apartados. ui ∼ Nd (0. X ′ a ∼ Nd (0.6.

NORMAL MULTIVARIANTE Y ASOCIADAS D EMOSTRACION : n ′ i=1 Xi Xi Es inmediata: Y ′ Y = X ′ U ′ U X = X ′ X. N NS = i=1 N (Xi − X)(Xi − X) ′ ′ = i=1 N Xi Xi ′ − N X X − N X X + N X X Xi Xi ′ − N X X ′ ′ ′ = i=1 N = i=1 N Xi Xi ′ − YN YN ′ YiYi ′ − YN YN ′ YiYi ′ = = i=1 N −1 i=1 . 1 √ N 1 √ N . N S ∼ Wd (N − 1.54) X = verifican: 1. Su última fila es: YN = ′ N i=1 uN i Xi √ = X N.3 Sea X una matriz aleatoria N ×d cuyas filas Xi′ son independientes con distribución común Nd (0.22 CAPÍTULO 1. 2. Los estimadores habituales del vector de medias y matriz de covarianzas: S = 1 N 1 N N i=1 N i=1 (Xi − X)(Xi − X) Xi ′ (1. D EMOSTRACION : Consideremos una matriz U ortogonal N × N cuya última fila sea: 1 √ N . Σ). YN YN ′ = N X X . = 1 √ N N i=1 Xi Sea Y = U X. Teorema 1... Por otra parte. Σ). Por tanto.55) S es independiente de X. Es claro además que X ′ X = sigue la distribución indicada. (1.

. este supuesto es innecesario. aunque hemos supuesto E[X] = 0. Es de destacar que. 23 Como las filas Yi son independientes unas de otras.1. S no se altera. FORMAS CUADRÁTICAS GENERALIZADAS. son claramente independientes. Puede comprobarse fácilmente que si sumamos una constante cualquiera a cada columna X (j) . y X y N S dependen de filas diferentes.6.

donde se puede acudir para más detalles. Por otra 1 parte. En efecto. σ ) y: σ (X − µ)2 n(X − µ) ′ W −1 (X − µ) = = ∼ F1.57) X ∼ N (µ. d D EMOSTRACION : Siendo Σ definida positiva. W ∼ W1 (n. Para su establecimiento necesitaremos los lemas a continuación. Entonces puede encontrarse Σ− 2 tal que: Σ− 2 Σ− 2 = Σ−1 . Entonces. Var[X1 |X2 = x2 ] = 1 . de dimensión d y con n 2 grados de libertad. . pues una relación muy simple la liga con la distribución F de Snedecor. X = Σ− 2 Y se distribuye como Nd (0.n W/n W/nσ 2 X−µ 2 No es preciso contar con tablas de la distribución de Hotelling.24 CAPÍTULO 1. Σ) y Σ es de rango completo. σ 2 ) = σ 2 χ2 n 2 (1. Entonces. Σ) y X ∼ Nd (µ. µ2 ′ ) y . entonces: Y ′ Σ−1 Y ∼ χ2 . La presentación sigue de modo bastante ajustado a Seber (1984). Sea W ∼ Wd (n. Sea σ ij el elemento genérico en el lugar ij–ésimo de la matriz Σ21 Σ22 Σ−1 . Σ).n . cuando d = 1. 29 y siguientes. X2 ′ ) un vector Nd (µ. Σ−1 existe y es también definida positiva. Entonces: n(X − µ) ′ W −1 (X − µ) sigue la distribución conocida como T 2 de Hotelling. T como una generalización de la t de Student). NORMAL MULTIVARIANTE Y ASOCIADAS 1. p. por tanto.6 Si Y ∼ Nd (0.56) (1. La denotaremos por Td. con µ = (µ1 . Esta distribución puede verse como una generalización de la F1.7 Sea X ′ = (X1 . Distribución T 2 de Hotelling. ambas independientes. σ11 Σ12 Σ= . Lema 1. Id ).n (y. Σ). Lema 1. σ 11 . .7. Y ′ Σ−1 Y = Y ′ Σ− 2 Σ− 2 Y = X ′ X ∼ χ2 d 1 1 1 1 1 .

. Z ′Z D EMOSTRACION : Que Q ∼ σ 2 χ2 lo sabemos por teoría de regresión lineal. D EMOSTRACION : De acuerdo con el Teorema 1. σ 11 ∼ χ2 n−d+1 es independiente de wij . . p.58) y (1. de la definición de W se tiene (empleando el mismo procedimiento que en la demostración del Lema 1.59) Lema 1. p.3. ℓ ′ W −1 ℓ n ′ i=1 Xi Xi D EMOSTRACION : W ∼ Wd (n. σ 2 In ).64) Z )Y −1 ′ = Y Y − Y Z(Z Z) ′ Z Y ′ Por otra parte. 2. d. Lema 1. Sea ˆ Q = m´ β ||Y − Zβ||2 = ||Y − Z β||2 .65) = 1/w11 . 22 Por otra parte. 17) que: |W | = |Y ′ Y − Y ′ Z(Z ′ Z)−1 Z ′ Y ||Z ′ Z| De (1.65) se deduce entonces que Q = |W | |Z ′ Z| (1. 15. la suma de cuadrados de los residuos al ajustar Y sobre las Z. 22 De (1. sabemos que: |Σ| = |σ11 − Σ12 Σ−1 Σ21 ||Σ22 |.60) (1.1. DISTRIBUCIÓN T 2 DE HOTELLING. |Σ22 | 25 (1.7. n−p Q no es otra cosa que SSE.3.1.61) siendo W −1 = [wij ] y W = Y ′Y Z ′Y Y ′Z . j = 2. w11 ℓ ′ Σ−1 ℓ ∼ χ2 n−d+1 . Q = ||(I − Z(Z ′ Z)−1 Z ′ )Y ||2 = Y (I − Z(Z Z) ′ ′ ′ ′ −1 (1.63) (1. 17. por el Lema 1.9 Sea W ∼ Wd (n. Σ). n ≥ d. i. p. Entonces: ın Q ∼ σ 2 χ2 n−p Q = 1/w 11 (1. Entonces: 1. . . σX1 |X2 =x2 = σ11 − Σ12 Σ−1 Σ21 .64) y (1.62) (1. Σ) ⇐⇒ W = X ′ X = con Xi ∼ . para cualquier ℓ = 0.8 Sea Y = Zβ + ǫ con Z de orden n × p y ǫ ∼ Nn (0.59) se deduce entonces que σX1 |X2 =x2 = |Σ| = 1/σ 11 .58) (1. Por consiguiente.

Es de resaltar que la distribución no depende de ℓ.n−d+1 d n D EMOSTRACION : Y ′ Σ−1 Y Z2 = Y ′ W −1 Y = ′ −1 n Y Σ Y /Y ′ W −1 Y (1.71) (1. Como. .4 Si Z 2 = nY ′ W −1 Y con Y ∼ Nd (0.66) (1. . Q = 1/w11 . Entonces. y el denominador como una χ2 con n − d + 1 grados de libertad. 1/w11 ∼ (1/σ 11 )χ2 n−(d−1) (1. NORMAL MULTIVARIANTE Y ASOCIADAS Nd (0.53). . Por otra parte. 2 siendo Y y W independientes (y siguiendo por tanto Z 2 una distribución Td. Σ).72) (1.73) ′ −1 (1. Por consiguiente. Siempre puede encontrarse una matriz así.67) σ 11 /w11 ∼ χ2 n−(d−1) .70) (1. X (d) .74) El numerador de (1. Σ). como ponía de manifiesto el lema anterior. Q es independiente de las columnas de X empleadas como regresores: X (2) . . de donde se sigue la distribución F de Snedecor del cociente. Σ).7. LΣL ′ ).74) se distribuye como una χ2 con d grados de libertad. p.26 CAPÍTULO 1. d Q = ||X (1) − i=2 1 ˆ βi X (i) ||2 ∼ 11 χ2 n−(d−1) σ Además. Si regresáramos la primera variable sobre todas las restantes. Teorema 1. n ≥ d y W ∼ Wd (n. Además.69) = LΣ −1 L ′ aplicando (1.68) (1. Para demostrar la segunda parte. LW L ′ ∼ Wd (n. sea L una matriz ortogonal d×d cuya fila superior fuera: ℓ ′/||ℓ||. 24 anterior. ambos son independientes. entonces: n − d + 1 Z2 ∼ Fd.n ). . (LW L ′ )−1 = LW −1 L ′ (LΣL ) se tiene que: ℓ ′Σ−1 ℓ ℓ ′W −1 ℓ ℓ ′ Σ−1 ℓ/||ℓ||2 ℓ ′W −1 ℓ/||ℓ||2 (LΣ−1 L ′ )11 = (LW −1 L ′ )11 (LΣL ′ )11 = (LW L ′ )11 = χ2 n−d+1 = (1. de acuerdo con el Lema 1.

y el cociente entre determinantes de las mismas puede verse como generalización de los contrastes univariantes. Entonces. el cociente: Distribución multivariante Beta tipo II multivariante Beta tipo I multivariante Análogo univariante σH /ˆE ˆ 2 σ2 σH ˆ2 σH +ˆE ˆ 2 σ2 Distribución univariante νE νH FνE . En las aplicaciones surgen de modo muy natural matrices de Wishart E y H asociadas a “suma de cuadrados de los residuos” y “suma de cuadrados atribuible a la hipótesis H”. que debidamente normalizadas siguen. ν2 ) Los siguientes teoremas sobre los valores propios de las matrices en la Tabla 1.νH E H Beta( ν2 . Cuando las observaciones son multivariantes.8. H ∼ Wp (νH . La Tabla 1.8.1: Equivalencia entre estadísticos uni.76) independientes. Entonces los valores propios de HE −1 son no negativos y los de H(E + H)−1 no negativos y menores que 1.1 muestra el paralelismo existente entre algunos productos de matrices Wishart y cocientes de sumas de cuadrados habituales en regresión y ANOVA univariantes. las “sumas de cuadrados” son formas cuadráticas generalizadas. La distribución anterior se conoce también como distribución U. Teorema 1.1 y sus análogas no simétricas HE −1 y H(E + H)−1 son de utilidad. Matriz E − 2 HE − 2 (E + H)− 2 H(E + H)− 2 1 1 1 1 (1. Distribución de Wilks y asociadas Multitud de contrastes univariantes resultan de efectuar cocientes de sumas de cuadrados. DISTRIBUCIÓN DE WILKS Y ASOCIADAS 27 1. Definición 1. Cuadro 1. νE ). que denotaremos por Λ(p. con distribuciones de Wishart. . bajo el supuesto de normalidad de las observaciones.3 Supongamos dos matrices aleatorias E y H con distribuciones respectivas. Σ) |E| |E + H| sigue la distribución conocida como lambda de Wilks de dimensión p y con grados de libertad νH y νE .1. distribución F de Snedecor.5 Sean E y H matrices simétricas y definidas positivas. νH . Σ) E ∼ Wp (νE .75) (1.y multivariantes.

. 1 − θi (i = 1. . en que z = E − 2 x. . del producto. pues para cualquier x tenemos 1 1 1 que x ′ E − 2 HE − 2 x = z ′ Hz. Hay diversas tabulaciones de funciones de interés de dichos valores propios cuando las matrices E y H son Wishart independientes: del mayor de ellos. . d) y por tanto θi = φi . de la suma. . . . funciones todas ellas que se presentan de modo natural como posibles estadísticos de contraste en las aplicaciones. . . Un examen de las relaciones entre los diversos estadísticos se posterga a las Secciones 3. . φd los valores propios de HE −1 . . Tenemos de manera enteramente similar que los de H(E + H)−1 son soluciones de |H(E + H)−1 − θI| = 0 ⇔ |H − θ(E + H)| = 0 1 1 ⇔ |(1 − θ)H − θE| = 0 θ ⇔ HE −1 − I =0 1−θ lo que evidencia que φi = θi .3. etc. NORMAL MULTIVARIANTE Y ASOCIADAS D EMOSTRACION : |HE −1 − φI| = 0 ⇔ |HE − 2 − φE 2 | = 0 1 1 1 1 ⇔ |E − 2 HE − 2 − φI| = 0 Es claro que E − 2 HE − 2 es semidefinida positiva.28 CAPÍTULO 1.. . Sean entonces φ1 . .3 y 4. d) claramente comprendido entre 0 y 1. 1 + φi (i = 1.

como multivariante. ≤ qn verificando: 1 qi (i − 2 ) 1 x2 √ exp − . Tiene interés disponer de contrastes que permitan evaluar el ajuste a una normal tanto en el caso uni. es decir. (i− 1 ) (i− 1 ) 2 n (corrección de 2. . Entonces y(i) es el i i cuantil n muestral —deja a su izquierda o sobre él una fracción n de la muestra—. . . los valores q1 ≤ . incluso aunque el supuesto de normalidad parezca claramente inadecuado. n. ≤ y(n) . Se ordena la muestra. En la práctica. muchos de los procedimientos desarrollados bajo el mismo continúan dando resultados aceptables. Se hace de la siguiente manera: 1. Se obtienen (mediante tablas o por cualquier otro procedimiento) los cuantiles n 2 de una distribución N (0.9. y sin ninguna que tenga una importancia dominadora del total. como la prueba χ2 o el test de Kolmogorov-Smirnov. Contrastes en la distribución normal El supuesto de normalidad encuentra parcial justificación en el teorema central del límite: si las influencias sobre un sistema son múltiples. yn a una distribución normal consiste en construir su gráfico QQ. . . 249). . emplearse un contraste de ajuste “todo terreno”. .. dx = 2 n 2π −∞ 3. Si no presentara forma aproximadamente rectilínea. i = 1. cabe esperar que el resultado se distribuirá de modo aproximadamente normal.9.1. y(i) ). 1). Pero hay contrastes especializados que dan habitualmente mejor resultado cuando la hipótesis de ajuste a contrastar es la de normalidad. p. Habitualmente se considera como el cuantil continuidad). En lo sucesivo trataremos de indicar en cada caso como afecta el incumplimiento del supuesto de normalidad a los contrastes y estimaciones. Es fácil ver que en el supuesto de normalidad los puntos deberían alinearse aproximadamente sobre una recta.1. desde luego. . Gráficos QQ. tendríamos motivo para cuestionar la normalidad.9. Una de las pruebas más simples e ilustrativas para evaluar el ajuste de una muestra y1 . Trocóniz (1987a). . CONTRASTES EN LA DISTRIBUCIÓN NORMAL 29 1. 1. Se hace la gráfica de los puntos (qi . . . En lo que sigue se introducen algunos de esos contrastes. obteniendo y(1) ≤ . Debe tenerse presente que. descritos en cualquier texto básico de Estadística (por ej. aproximadamente incorreladas entre sí. ello resulta mucho más problemático con variables multivariantes que univariantes. . Diagnósticos de normalidad univariante Podría. .

era de aplicación sólo a muestras reducidas —con n ≤ 50 aproximadamente—. con coeficientes proporcionados en Shapiro and Wilk (1965).02998598 (1. no obstante. NORMAL MULTIVARIANTE Y ASOCIADAS Contraste de Shapiro-Wilk. En su formulación original.30 CAPÍTULO 1. No obstante. Hay otros varios contrastes. Está basado en el cociente del cuadrado de la mejor. y tropezamos rápidamente con la “maldición de .2. para la normalidad multivariante.77) n3 − y)2 o alternativamente su expresión aproximadamente centrada y tipificada √ √ n D − (2 π)−1 . Observación 1. Sec. pero hay que hacer frente a problemas adicionales: no hay una ordenación natural en el espacio p-dimensional. El numerador se construye tomando una combinación lineal de los valores ordenados de la muestra.4 para un resumen. 4. explotando una idea similar o comparando la simetría y kurtosis de la muestra con las esperables bajo la hipótesis de normalidad: véase Rencher (1995).78) Requiere n > 50. Puede pensarse en explotar las ideas en los contrastes univariantes descritos. que es más restrictiva que la mera normalidad de las marginales. sin una alternativa predefinida. en que la normalidad de las marginales si implica normalidad multivariante: el caso de independencia. Y tiende a tomar valores negativos.9. 1. Su distribución para diferentes n está tabulada. Es un contraste “ómnibus”. No obstante. Lógicamente. estimación lineal insesgada de la desviación standard dividida por la varianza muestral. cada tamaño de muestra requiere unos coeficientes diferentes. trabajo posterior (ver Royston (1995)) ha permitido extenderlo a tamaños muestrales tan grandes como n ≤ 5000. pero no suficiente.4 Contraste de D’Agostino. El contraste de D’Agostino (ver D’Agostino (1971). tablas en D’Agostino (1972) reproducidas en Rencher (1995) y en el Apéndice) emplea el estadístico D = n i=1 i − 1 (n + 1) y(i) 2 n i=1 (y(i) (1. como resulta fácil comprobar. Hay un caso. el valor de Y proporciona información acerca de la naturaleza de la desviación de la muestra analizada respecto al comportamiento normal: cuando la kurtosis es más de la esperada bajo una hipótesis normal. Lo contrario sucede cuando la muestra presenta menos kurtosis de la esperable en una normal. Una alternativa para n muy grande es el contraste de D’Agostino a continuación. Diagnósticos de normalidad multivariante Un paso previo consistirá en examinar la normalidad de las distribuciones marginales unidimensionales: esta es necesaria. Y = 0. o aproximadamente mejor.

los puntos quedan casi siempre “lejos”) Consideremos un espacio de dimensión dos. . . El volumen de una hiper-esfera de radio r en p dimensiones tiene por expresión Sp = π p/2 rp . 2p Γ( p + 1) 2 (1. . Basta recordar que Γ(r) = (r − 1)Γ(r − 1). CONTRASTES EN LA DISTRIBUCIÓN NORMAL 31 la dimensionalidad” (dimensionality curse). Lo que el ejemplo sugiere es que una muestra. el cubo circunscrito (de lado 2. Cuando p = 3. en general.81) que se demuestra siguen una distribución B(α. más de la mitad quedan a distancia menos de 1 del centro de la esfera. la razón de volúmenes de la hiper-esfera y el hiper-cubo circunscritos es π p/2 .1.83) √ π.82) (1.79) Esta fórmula da para p = 2 y p = 3 las familiares fórmulas de la superficie del círculo y volumen de la esfera2 . distan a lo √ √ sumo (en distancia euclídea) 2. por tanto) tiene un volumen de 8.9. Dada una muestra y1 . De los puntos en el cubo. salvo de tamaño descomunal. Γ( p + 1) 2 (1. los puntos cuyas coordenadas no difieran en más de una unidad.3 (en un espacio de elevada dimensionalidad. yn proponen construir los estadísticos. la esfera de radio unidad ocupa un volumen de 4π/3 = 4. la distancia sería 3 y. Contraste de Gnanadesikan y Kettenring. será siempre escasa si el número de dimensiones es alto. ui = n (yi − y) ′ S −1 (yi − y) (n − 1)2 (1. En R3 .80) rápidamente decreciente a cero. β) con α y β definidos así: α = β = 2 p−1 2p n−p−2 . para adquirir alguna intuición sobre la “maldición de la dimensionalidad” es bueno considerar el siguiente ejemplo. Lo primero es claro. Casi todo el volumen de un cubo en p ≫ 3 dimensiones está en las “esquinas”. Alternativamente podríamos pensar en los siguientes términos.1887. Ejemplo 1. Γ(1) = 1 y Γ( 1 ) = 2 . y ello no permite concebir muchas esperanzas en cuanto a la potencia que podamos obtener. . √ p en Rp . Cuando la dimensión p crece. 2(n − p − 1) (1. No hay apenas puntos a corta distancia del centro de la esfera.

donde es posible la visualización. Como estadístico puede utilizarse 2 2 D(n) = m´x Di . p. por tanto. dos o tres dimensiones. W tendrá su región crítica por la izquierda. Se han propuesto otros contrastes. β) vienen dados por vi = i−α . Búsqueda de outliers Es en general mucho más difícil en espacios de elevada dimensionalidad que en una. Un método atrayente es el siguiente: sea S la estimación habitual de la matriz de covarianzas basada en una muestra de tamaño n y sea S−i el mismo estimador prescindiendo de la observación i-ésima. Consideremos el estadístico: W = m´x a i |(n − 2)S−i | |(n − 1)S| (1. Un hecho de interés es que el contraste está basado en las cantidades Di . lo que permite emplear para el contraste basado en W las tablas en Barnett and Lewis (1978).84) lo que sugiere hacer la gráfica de los puntos (vi . La separación de la recta es indicativa de violación de la hipótesis de normalidad multivariante.9. “hincharía” mucho la estimación de la matriz de covarianzas. Al igual que en la sección anterior.85). Otros contrastes. Los valores críticos están tabulados en Barnett and Lewis (1978). u(i) ) y comprobar su alineación sobre una recta.86) con D(n) definido con en (1.32 CAPÍTULO 1. y esperaríamos que W tuviera un valor “pequeño”.85) 2 en que Di = (yi − y) ′ S −1 (yi −y). Si hubiera alguna observación que fuera un outlier. que son de interés en si mismas como medida de la “rareza” de puntos muestrales —miden la lejanía de cada punto al vector de medias estimado de la muestra en distancia de Mahalanobis—. como el de Mardia (1974). n−α−β+1 (1. a i (1. 1. 32. Se puede demostrar que 2 nD(n) W =1− (1. NORMAL MULTIVARIANTE Y ASOCIADAS Los cuantiles de una B(α.3. que investiga la asimetría y kurtosis en la muestra en relación con la esperable en una normal multivariante. cabe pensar en contrastes formales que ayuden a nuestro juicio subjetivo sobre la falta de linealidad o no de los puntos mencionados.87) (n − 1)2 . El contraste reseñado puede por tanto verse también como un contraste de presencia de puntos extraños o outliers.

Obsérvese que ambos contrastes están relacionados: F(n) def = m´x Fi = a i n−p−1 p 1 −1 . W (1.89) en que F es una variable con distribución F de Snedecor.1.9. n) (1. . . COMPLEMENTOS Y COSAS PARA HACER 1. . CONTRASTES EN LA DISTRIBUCIÓN NORMAL Alternativamente. Fi ∼Fp.90) CUESTIONES.1 Las funciones de R qqnorm y shapiro.test (ésta última en el paquete ctest) permiten realizar con comodidad gráficas QQ y el contraste de Shapiro-Wilk respectivamente.n−p−1 y P m´x Fi > f a i = 1 − [P (F < f )]n (1. definamos n−p−1 Fi = p iid 2 nDi 1− (n − 1)2 −1 33 (i = 1. . .88) Entonces.

NORMAL MULTIVARIANTE Y ASOCIADAS .34 CAPÍTULO 1.

2. rechazando la hipótesis al nivel de significación α si Q0 > χ2 . d.1. 2. 1 Como estimador de µ empleamos habitualmente X = N N Xi. tenemos que: ′ N (X − µ) Σ−1 (X − µ) ∼ χ2 d Para contrastar H0 : µ = µ0 calcularíamos el valor del estadístico Q0 = N (X − µ0 ) Σ−1 (X − µ0 ). en especial si N es moderadamente grande.α 35 ′ . Contraste sobre el vector de medias conocida Σ.Capítulo 2 Inferencia en poblaciones normales multivariantes. sesgado) o N (N −1)−1 S = (N −1)−1 N (Xi− i=1 ′ X)(Xi − X) (insesgado). En los desarrollos que siguen emplearemos S. que es i=1 el estimador máximo verosímil si la distribución es normal multivariante. Inferencia sobre el vector de medias.1. N Σ).1. Es habitualmente irrelevante cual de ellos se emplee. 1 Como X ∼ Nd (µ. Como estimador de la matriz de covarianzas puede emplearse S = (1/N ) N (Xi − i=1 ′ X)(Xi − X) (máximo verosímil.

. . 2. Contraste de igualdad de medias en dos poblaciones con matriz de covarianzas común. Σ) (2.N −d d α El rechazo se producirá al nivel de significación α si el estadístico supera Fd. ′ o sea. Σ) ′ ′ (2.2) N (X − µ) ∼ Nd (0. entonces: X = 1 N1 1 N2 N1 N1 Xi i=1 N2 (2. Muestra 1 : Muestra 2 : X1 .3) (2.1) (2.8) (2. .N −1 d N −1 2 ∼ Fd.5) (2. Σ) (Yj − Y )(Yj − Y ) ∼ Wd (N2 − 1. X2 . √ N S ∼ Wd (N − 1. N − 1 − d + 1 Td. Contraste sobre el vector de medias con Σ desconocida. INFERENCIA EN NORMAL MULTIVARIANTE 2. ′ Por consiguiente. . Si tenemos dos muestras.6) procedentes de sendas poblaciones normales multivariantes con matriz de covarianzas común Σ.1.1.11) . .9) N1 S 1 = i=1 N2 (Xi − X)(Xi − X) ∼ Wd (N1 − 1. Σ) y además son independientes. YN2 (2. XN1 Y1 .N −d . Como.N −1−d+1 (2.4) N −d ′ (X − µ0 ) S −1 (X − µ0 ) ∼ Fd.N −1 . Y2 . . podemos asegurar que bajo la hipótesis nula H0 : µ = µ0 se verifica 2 N (N − 1)(X − µ0 ) (N S)−1 (X − µ0 ) ∼ Td.3. . .36 CAPÍTULO 2.7) Y = Yj j=1 (2.2. 2 (N − 1)(X − µ0 ) S −1 (X − µ0 ) ∼ Td.N −1 .10) N2 S 2 = j=1 (2.

siendo δ un vector q × 1 y C una matriz q × d de rango q. E(X − Y ) = 0.2. y (N1 + N2 )S ∼ Wd (N1 + N2 − 2. en diferentes ruedas. Por consiguiente: 2 N (N − 1)(CX − δ) (N CSC ′ )−1 (CX − δ) ∼ Tq. bajo H0 .N −q q siendo de nuevo la región crítica la formada por la cola derecha de la distribución (valores grandes del estadístico producen el rechazo de la hipótesis de contraste). INFERENCIA SOBRE EL VECTOR DE MEDIAS. CΣC ′ ). y diseñaríamos el experimento de modo que hasta donde fuera posible ningún factor ajeno al tipo de neumático influyera en su duración. y el segundo en ruedas delanteras. Sin embargo. bajo H0 : N (CX − δ) ∼ Nq (0.N1 +N2 −2 (N1 + N2 )2 N1 + N2 − d − 1 N1 N2 ′ (X − Y ) S −1 (X − Y ) ∼ Fd. Por ejemplo.N −1 N −q ′ (CX − δ) (CSC ′ )−1 (CX − δ) ∼ Fq. 37 Por consiguiente.13) (2. Bajo la hipótesis H0 : E[X] = E[Y ] = µ0 . Supongamos que los dos tipos de neumáticos se montan por pares en .12) (2. Ejemplo 2.1 Supongamos que estamos interesados en contrastar si la resistencia al desgaste de dos diferentes marcas de neumáticos es la misma o no.1. S = (N1 S1 + N2 S2 )/(N1 + N2 ) es un estimador de Σ que hace uso de información en ambas muestras.N −1 ′ ′ (2. nos abstendríamos de probar el primer tipo de neumático siempre en ruedas traseras.1. Contraste de hipótesis lineales generales sobre el vector de medias de una única población. y N CSC ′ ∼ Wq (N − 1. Σ(X−Y ) = Por consiguiente. d (N1 + N2 )2 (N1 + N2 − 2) Como en el caso anterior.N1 +N2 −d−1 .4.N1 +N2 −d−1 .14) 2 (N − 1)(CX − δ) (CSC ′ )−1 (CX − δ) ∼ Tq. no siempre podemos controlar todos los factores en presencia. CΣC ′ ). Σ) N1 + N 2 N1 N2 ′ 2 (X − Y ) S −1 (X − Y ) ∼ Td. se producirá el rechazo de la hipótesis nula de igualdad de medias al nivel de significación α cuando el estadístico anterior supere α Fd. Σ). Por otra parte. Este es un problema típico de Análisis de Varianza: montaríamos los dos tipos de neumáticos en diferentes coches y. N1 N2 (X − Y ) ∼ Nd (0. dentro de cada coche. etc. 1 1 (N1 + N2 ) Σ+ Σ= Σ. Supongamos que la hipótesis que deseamos contrastar es expresable en la forma H0 : Cµ = δ. √ De acuerdo con la teoría en la Sección anterior. N1 N2 N1 N2 2.

.38 CAPÍTULO 2. 2. . . etc. con ℓ = N1 N2 (N1 + N2 − 2). X2 . . N1 + N2 que tras simplificar proporciona: (2. con matriz de covarianzas común Σ.14). 2 ℓ(CX − CY − δ) [(N1 + N2 )CSC ′ ]−1 (CX − CY − δ) ∼ Tq. conductor. Si µ = (µ1 . Y2 . no es prudente dar por supuesta la independencia entre las componentes de cada vector. Σ) y por tanto.N1 +N2 −q−1 ′ .16) Si la hipótesis H0 : Cµ1 − Cµ2 = δ es cierta y C es una matriz q × d de rango q. trayecto recorrido—. X3 . CΣC ′ ) N1 + N 2 (N1 + N2 )S = N1 S1 + N2 S2 ∼ Wd (N1 + N2 − 2. CΣC ′ ). Obtendríamos de cada coche un vector X = (X1 . En efecto. Contraste de hipótesis lineales sobre los vectores de medias de dos poblaciones. . X4 ) de valores. . la hipótesis de interés podría expresarse así: Cµ = 0 con C= 1 0 0 1 −1 0 . .15) (2.17) k(CX − CY − δ) (CSC ′ )−1 (CX − CY − δ) ∼ Fq. 0 −1 El contraste haría entonces uso de (2. los dos primeros correspondiendo al primer tipo de neumático y los dos siguientes al segundo. tiempo atmosférico. trayecto. INFERENCIA EN NORMAL MULTIVARIANTE cada coche. estilo de conducción. . todas ellas han sido influenciadas por factores comunes —como coche. de las que poseemos sendas muestras aleatorias simples: Muestra 1 : Muestra 2 : X1 . . Sean dos poblaciones normales multivariantes. N1 N2 (CX − CY − δ) ∼ Nq (0. como sería necesario para hacer un análisis de varianza univariante ordinario.5. . cada tipo en una rueda delantera y una trasera. XN1 Y1 .N1 +N2 −2 ′ (N1 + N2 )CSC ′ ∼ Wq (N1 + N2 − 2. . Salvo que hayamos diseñado el experimento con total control del tipo de conductor. YN2 (2. X2 .1. . . µ4 ) es el vector de medias. se verifica.

0    C = . . . . agudos. . . .  . . . la hipótesis de igualdad de medias no tendría mayor interés: podemos esperar menor sensibilidad en los mayores. sino a su forma. si la esperable pérdida de audición de los ancianos se produce de forma uniforme sobre todas las frecuencias consideradas. sean Xi e Yj vectores aleatorios dando para los sujetos i-ésimo (respectivamente. −1 y δ = 0. . Es decir. .1: Disposición de dos vectores de medias paralelos 39 µ2 µ1 con k = N1 + N2 − q − 1 N1 N2 .2. Si una de las poblaciones agrupa a jóvenes y otra a ancianos. Tal hipótesis se traduciría a una hipótesis de desplazamiento uniforme del vector de medias de una población respecto al de la otra. INFERENCIA SOBRE EL VECTOR DE MEDIAS.  . 1 0 0 . o si por el contrario se pierde más sensibilidad para sonidos graves. Podría interesarnos en cambio contrastar si los vectores de medias son paralelos (véase Figura 2. 0 1 0 −1 . Hay veces en que la hipótesis de interés no se refiere a la igualdad de los vectores de medias.17): bastaría tomar   1 −1 0 . j-ésimo) de dos poblaciones las sensibilidades auditivas a sonidos de diferentes frecuencias.1). Por ejemplo. . . q (N1 + N2 )2 Ejemplo 2. . Es fácil ver como llevar a cabo dicho contraste con ayuda de (2. Figura 2.2 Contrastes de esta naturaleza surgen de forma habitual. u otros. .1. . .

Σ). Omitimos los detalles1 .2. El coeficiente de correlación muestral al cuadrado. Z = n (Xi − X)(Xi − X) se distribuye i=1 X2 2 como W2 (n − 1.19) Bajo la hipótesis nula H0 : ρ = 0 la densidad se simplifica notablemente: fR (r) = 1 B 1 n−1 2. (2.n−1 . 1 Pueden consultarse en Fourgeaud and Fuchs (1967) p. 135. RX1 .X2 . Por otra parte. 2 /Z Z . y resulta fuertemente afectada por la kurtosis.a. X1 ′ ∼ N2 (µ. .18) 1 n3/2 . Σ). lo que permite contrastar fácilmente la hipótesis de nulidad. lo que permite construir intervalos de confianza para ρ. La aproximación anterior es válida en el caso normal. normales X1 . Inferencia sobre el coeficiente de correlación entre dos v. INFERENCIA EN NORMAL MULTIVARIANTE 2. y su función de densidad puede obtenerse por transfores entonces Z12 11 22 mación de la de la Z. Fisher mostró que Z= 1+R 1 loge = tanh−1 R 2 1−R se distribuye aproximadamente como: Z∼N 1 1+ρ 1 loge . 2 1−ρ n−3 para n “grande”. 2 (1 − r 2 )(n−3)/2 (|r| < 1) y T 2 = (n − 1)R2 /(1 − R2 ) sigue una distribución F1.X2 (prescindimos de los subíndices por comodidad notacional) es: Si X = fR (r) = (1 − ρ2 )n/2 (1 − r 2 )(n−3)/2 πΓ n Γ n−1 2  2 ∞ (2ρr)p n+p n 2 + Γ × Γ 2 p! 2 √ p=1 ′ 2   (|r| < 1) De ella se deduce que: E[R] = ρ + O Var[R] = 1 n 2 )2 (1 − ρ +O n (2.40 CAPÍTULO 2. X2. Puede comprobarse que la función de densidad de R = RX1 .

. S1 = S2 = S = N 1 N1 1 N2 N1 i=1 N2 j=1 X1 .24) (2. 2.2. Σ1 ) Y1 .22) (2. . se tiene: 0 Σ22 (2. . ℓ= |S|−N/2 |S1 |−N1 /2 |S2 |−N2 /2 2 (2.2. Contraste de diagonalidad por bloques de la matriz de covarianzas de una única población normal. Contraste de igualdad de matrices de covarianzas en dos poblaciones normales. Σ2 ) (2. Sea.21) (Xi − X)(Xi − X) (Yj − Y )(Yj − Y ) ′ ′ (2. YN2 ∼ Nd (µ2 .3. Y2 . Bajo la hipótesis H0 : Σ = def Σ11 0 .3. INFERENCIA SOBRE LA MATRIZ DE COVARIANZAS. Sólo a título de ejemplo. . .26) Bajo la hipótesis nula H0 : Σ1 = Σ2 . Existen contrastes para una gran variedad de hipótesis sobre la matriz de covarianzas de una población normal.20) (2.1.25) 1 (N1 S1 + N2 S2 ) N1 + N 2 = N1 + N2 los estimadores habituales de las matrices de covarianzas en cada población y de la matriz de covarianzas conjunta. X2 .27) Λ= −1 |S11.2 | |S11 − S12 S22 S21 ||S22 | |S| = = . Inferencia sobre la matriz de covarianzas. y con la notación habitual.3. 1 2.23) (2. −2 loge ℓ ∼ χ2 d(d+1) asintóticamente. . 41 2. señalaremos los estadísticos empleados en el contraste de dos hipótesis particulares.3. . |S11 ||S22 | |S11 ||S22 | |S11 | . Sean dos poblaciones normales multivariantes de las que poseemos sendas muestras: Muestra 1 : Muestra 2 : Sean. . XN1 ∼ Nd (µ1 . o sobre las matrices de covarianzas de más de una población: Seber (1984) y Anderson (1978) son referencias adecuadas.

(1995).N −q−1 |S11. .42 CAPÍTULO 2.26). n = pq. p. Existen diferentes aproximaciones para la distribución Λ. porque la hipótesis nula prescribe pq parámetros nulos (las covarianzas contenidas en el bloque Σ12 ). establece que −2 loge λ ∼ χ2 n siendo n la diferencia de parámetros adicionales que especifica la hipótesis nula respecto de la alternativa.2 )| lo que sugiere un modo de hacer el contraste.2 ) descompone S11 en la suma de dos Wishart independientes. Por tanto.q. pq 2 o alternativamente 1 − Λ1/t gl2 Λ1/t gl1 en que gl1 = pq 1 gl2 = wt − pq + 1 2 1 w = N − (p + q + 3) 2 t = p2 q 2 − 4 . Λ= |S11. INFERENCIA EN NORMAL MULTIVARIANTE Bajo la hipótesis nula. Σ11 ).1 λ = Λ 2 con Λ definida en (2. Un resultado asintótico utilizable en general cuando las hipótesis son (como en este caso) anidadas. Por otra parte. la matriz en el numerador es una Wishart Wp (N −q−1. El mismo resultado asintótico se ha empleado en el apartado anterior para aproximar la distribución de ℓ en (2. tenemos que: S11 = S11. Σ11 ) y la del denominador Wp (N − 1.2 | ∼ Λp.27) sería la razón generalizada de verosimilitudes bajo las hipótesis respectivas: H0 : Σ12 = 0 versus Ha : Σ general. Más detalles sobre contrastes razón generalizada de verosimilitudes pueden encontrarse en Garthwaite et al. Para valores ausentes en tablas.2 + (S11 − S11. puede emplearse la aproximación 1 −(N − (p + q + 3)) log e Λ ∼ χ2 . como X1 = E[X1 |X2 ] + (X1 − E[X1 |X2 ]) es una descomposición de X1 en sumandos independientes.gl2 Observación 2. 84 y Cox and Hinkley (1974). p2 + q 2 − 5 N ∼ Fgl1 . En nuestro caso.2 + (S11 − S11.

.1 Mostrar que el estadístico T 2 de Hotelling (N − 1)(X − µ0 ) S −1 (X − µ0 ) ′ (2. tomará un valor significativo al nivel α sólo si existe un vector de coeficientes a tal que H0 : a ′ µ = a ′ µ0 resulta rechazada al mismo nivel α por un contraste t de Student univariante ordinario. (2. CUESTIONES. habida cuenta de la simetría) y los de otra con 2 estructura escalar σ 2 I (sólamente uno). El estadístico en (2. p(p+1) −1 (traza(S)/p)p 2 |S| (traza(S)/p)p N 2 . .3. COMPLEMENTOS Y COSAS PARA HACER 2. INFERENCIA SOBRE LA MATRIZ DE COVARIANZAS 43 2. .3. lo que es acorde con la intuición. . −2 loge L = −N loge |S| ∼ χ2 . Una mejor aproximación a la distribución χ2 se logra sustituyendo −2 loge L por el estadístico L′ = − ν − 2p2 + p + 2 6p loge ( | p p i=1 λi /p) p i=1 λi | .28) Los grados de libertad de la χ2 son la diferencia de parámetros entre una matriz de covarianzas general ( p(p+1) . Σ). El cociente en la expresión anterior es (la potencia de orden p) de la media geométrica a la media aritmética de los autovalores. asintóticamente. y por tanto un índice de su disimilaridad. YN una muestra procedente de una población Np (µ. Estamos interesados en contrastar si la matriz de covarianzas es de la forma Σ = σ 2 I.28) puede escribirse en función de los valores propios de S así: L = ( | p p i=1 λi /p) i=1 λi | N 2 . Contraste de esfericidad Sea Y1 . El contraste se efectúa haciendo uso de la técnica de la razón de verosimilitudes (Observación 2. .1). que en este caso proporciona: L = Por tanto. y N − k si ha sido estimada a partir de k muestras en cada una de las cuales se ha ajustado una media.29) empleado para el contraste multivariante de H0 : µ = µ0 . lo que se traduciría en contornos de igual densidad que serían superficies o hipersuperficies esféricas. tanto más pequeño cuanto más desiguales sean éstos. en que ν es el número de grados de libertad de la Wishart que ha dado lugar a S: N − 1 si ha sido estimada a partir de una sóla muestra con media desconocida.3.2.

INFERENCIA EN NORMAL MULTIVARIANTE .44 CAPÍTULO 2.

Ello conlleva que las sumas de cuadrados cuyos cocientes proporcionan los contrastes de las diferentes hipótesis. Un descripción del modelo univariante puede encontrarse en casi cualquier texto de regresión: Seber (1977). Introducción Los modelos de Análisis de Varianza Multivariante (MANOVA) son una generalización directa de los univariantes. Lo único que varía es que la respuesta que se estudia es un vector para cada observación.1. en lugar de una variable aleatoria escalar. Stapleton (1995) o Trocóniz (1987a). 3. 20 y 21 contiene una presentación autocontenida de los modelos ANOVA y MANOVA. por su parte. serán cocientes de determinantes (con distribución Λ de Wilks) o diferentes funciones de valores propios de ciertas matrices.2. sean ahora formas cuadráticas generalizadas. La exposición que sigue presupone familiaridad con el modelo de análisis de varianza univariante. Modelo MANOVA con un tratamiento Estudiamos una característica multivariante Yij que suponemos generada así: Yij = µi + ǫij = µ + αi + ǫij ǫij ∼ N (0. por mencionar sólo algunos. Σ) 45 (3. Cap. Cuadras (1981).2) .1) (3. Los estadísticos de contraste.Capítulo 3 Análisis de varianza multivariante 3.

en virtud del Teorema 1. Relación entre diversos contrastes Observemos que si δ1 . el Teorema 1. + Yi.3.)(Yij − Yi. 3. multivariante estudiada para el caso j-ésimo sujeto al tratamiento i-ésimo. ANÁLISIS DE VARIANZA MULTIVARIANTE En (3. Además. bajo la hipótesis nula.. δp son los valores propios de E −1 H.3..3) (3. . . De existir un efecto atribuible al nivel i-ésimo del tratamiento.k(n−1).a. .. Son valores pequeños del estadístico Λ anterior los que cabe interpretar como evidencia contra la hipótesis nula.. la de H es correcta cuando la hipótesis nula es cierta. la teoría anterior (en particular. = µk µi = µj para algún i. (3.) ′ + n E i=1 (Yi.)(Yij − Y. − Y.k−1. . Supondremos el mismo número de casos estudiados con cada nivel del único tratamiento (es decir. En consecuencia. − Y. muestra que las matrices aleatorias E y H en la expresión anterior tienen distribuciones respectivas. H “engordará”: será una Wishart no central. Yij es el vector de valores que toma la v. − Y. j. (3. + Yi. la suma generalizada de cuadrados en torno a la media Y. (⇔ αi = 0 ∀i) De un modo enteramente similar a como sucede en el caso ANOVA univariante.3. − Y. 22).)(Yij − Yi.. La hipótesis de interés más inmediato sería: H0 : versus Ha : µ1 = µ2 = .) ′ k n = i=1 j=1 k n (Yij − Yi. p. . se descompone así: k n i=1 j=1 (Yij − Y..5) .1). Λ= |E| |E + H| p = i=1 1 1 + δi . E H H0 ∼ ∼ W (k(n − 1). Si H0 no se verifica.4) La distribución de E se sigue de los supuestos. Σ) W (k − 1. éste vendría recogido por el vector αi . . Λ= |E| |E + H| ∼ Λp. Σ).) ′ H Ahora bien.46 CAPÍTULO 3..)(Yi. consideraremos sólo el caso de diseño equilibrado): hay k niveles y la muestra incluye n casos tratados con cada nivel.) ′ k = i=1 j=1 (Yij − Yi. hay independencia entre ambas matrices Wishart.

p. . . 54. p δ1 . Por ejemplo. cuando los vectores de medias son diferentes y no están alineados. θ = Estadístico de Pillai. el estadístico de Roy está particularmente indicado cuando los vectores de medias µ1 . un modelo MANOVA con dos tratamientos supone que la respuesta (multivariante) Yijk (correspondiente al k-ésimo caso.4. respectivamente): Yijk = µ + αi + β j + ǫijk Yijk = µ + αi + β j + γ ij + ǫijk El análisis es entonces reminiscente del que se realiza en el caso univariante. Estadístico máxima raíz de Roy. MODELOS MANOVA CON DOS O MÁS TRATAMIENTOS 47 El estadístico de contraste es una particular función de los autovalores de E −1 H. . No es la única elección posible: hay otras que mencionamos brevemente. se distribuyen como Wishart.3. µk están aproximadamente alineados: esto hace crecer el primer valor propio de H y de E −1 H. los otros estadísticos proporcionarán en general más potencia. De todos ellos hay tabulaciones que permiten contrastar H0 con comodidad. p U = i=1 δi .1 la partición de la suma generalizada de cuadrados para un modelo con dos tratamientos e interacción.4. Su comportamiento es diferente dependiendo del tipo de incumplimiento de la hipótesis H0 . Las sumas de cuadrados del análisis univariante son ahora sumas de cuadrados generalizadas: matrices que. Volveremos sobre esta cuestión en la Sección 4. 1 + δ1 V = i=1 δi . bajo los supuestos de normalidad multivariante y de vigencia de las respectivas hipótesis de contraste. A título puramente ilustrativo transcribimos en la Tabla 3. . . En cambio. 1 + δi Estadístico de Lawley–Hotelling. Modelos MANOVA con dos o más tratamientos De modo análogo a como sucede en el caso univariante. tratado con los niveles i y j de los tratamientos A y B respectivamente) se genera alternativamente de una de las siguientes formas (sin y con interacción.3. 3.

.) Podemos ahora construir contrastes para las hipótesis de nulidad de cada uno de los efectos. 6.)(Y.) ′ E= T = I i=1 J j=1 K k=1 (Yijk I i=1 J j=1 K k=1 (Yijk − Yij. empleando el estadístico Λ de Wilks...I−1. . 36. − Y.j. Métodos introducidos en el Capítulo 2 tienen también generalización al caso de más de dos poblaciones.. en cambio. − Y..) J HAB = K I i=1 j=1 (Yij. . CUESTIONES. Cap.. Del mismo modo otros. I. Si empleamos el primero tendríamos.5.... a la no independencia de las observaciones.) (I − 1)(J − 1) IJ(K − 1) IJK − 1 J ′ j=1 (Y. que bajo la hipótesis HA : αi = 0 para i = 1.. Similares cocientes de sumas de cuadrados generalizadas permitirían contrastar cada una de las restantes hipótesis de interés. ...)(Yijk − Yij. Son bastante sensibles. Cap..j. 20 y 21 y Rencher (1995). los demás son bastante robustos a la no normalidad y a la heterogeneidad en las matrices de covarianzas de los vectores de observaciones. ΛA = |E| ∼ Λp. Salvo el contraste basado en el estadístico de Roy. o cualquiera de los presentados en la Sección 3.IJ(K−1) |E + HA | y valores suficientemente pequeños de ΛA conducirían al rechazo de la hipótesis.3..)(Yi.. La robustez al incumplimiento de las hipótesis es en general menor cuando aumenta la dimensión. el modelo MANOVA con un único tratamiento puede verse como una generalización del contraste en la Sección 2. por ejemplo.. Pueden consultarse sobre este tema Cuadras (1981).L. − Y.1. − Yi. en el contexto de modelos MANOVA.) ′ I −1 J −1 Y.1: Tabla de Análisis de Varianza para un modelo con dos tratamientos e interacción Fuente A B AB Error Total Suma cuadrados HA = KJ HB = KI I i=1 (Yi. + ×(Yij.)(Yijk − Y. COMPLEMENTOS Y COSAS PARA HACER . − Y.. G.48 CAPÍTULO 3.j.) ′ ′ − Y. 3. .j. − Y.. p. − Yi. Extensiones y bibliografía Cada modelo ANOVA univariante encuentra una generalización multivariante. + Y. ANÁLISIS DE VARIANZA MULTIVARIANTE Cuadro 3. − Y...3. Por ejemplo.

test="pillai") realizaría el contraste de Pillai. puede realizarse análisis de varianza multivariante mediante la función manova. Por ejemplo.5. pero la respuesta debe ser una matriz. summary(solucion. 49 . Por ejemplo. cuyas componentes pueden examinarse mediante summary(solucion).data=frame).1 En S-P LUS. “roy largest” y “hotelling-lawley”. La función devuelve (en solución) un objeto de tipo maov. La sintaxis es muy similar a la de la función lm.manova(resp ~ diseño. podría invocar manova así: solucion <. que admite como valores “wilks lambda”.3. “pillai”. cuya filas son las observaciones. EXTENSIONES Y BIBLIOGRAFÍA 3. Los contrastes relacionados en la Sección 3.2 pueden obtenerse mediante la opción test= de summary.

ANÁLISIS DE VARIANZA MULTIVARIANTE .50 CAPÍTULO 3.

Variables canónicas y coeficientes de correlación canónica. queremos saber si el primer grupo de p variables (X1 ) está o no correlado con el segundo grupo de q variables X2 . entre otras cosas. 4. Desconocemos la matriz Σ. Podríamos enfrentar este problema directamente. Introducción. Sean. hará emerger el concepto de variable canónica y el principio de unión-intersección de Roy. que particionamos así: X ′ = (X1 ′ |X2 ′ ). 51 . es decir. Σ= Σ11 Σ12 Σ21 Σ22 µ= µ1 µ2 la matriz de covarianzas y el vector de medias particionados consecuentemente.2. contrastando si Σ es o no diagonal por bloques (para lo que hay teoría disponible). pero con ayuda de una muestra hemos obtenido su estimador: S= S11 S12 S21 S22 Estamos interesados en contrastar la hipótesis H0 : Σ12 = 0 frente a la alternativa Ha : Σ12 = 0. Supongamos que tenemos un vector aleatorio X con (p + q) componentes. Consideremos variables auxiliares.1.Capítulo 4 Análisis de correlación canónica 4. Seguiremos una aproximación diferente que.

b) está insuficientemente especifica2 do. multiplicando a. ∂b Reordenando las anteriores ecuaciones: −λS11 a + (a ′ S12 b)S12 b = 0 (a S12 b)S21 a − µS22 b = 0 ′ b ′ S22 b = 1 (4. X2 fueran independientes.4) .y (a. b) ′ = 2(a ′ S12 b)S12 b − 2λS11 a = 0p×1 ∂a ∂Φ(a. ANÁLISIS DE CORRELACIÓN CANÓNICA x = a ′ X1 y = b ′ X2 . La idea es sustancialmente la misma que cuando se contrastan muchas hipótesis simultáneas. Φ(a.y (a. El método de 2 unión-intersección de Roy maximiza primero rx. b. b) = (a ′ S12 b)2 − λ(a ′ S11 a − 1) − µ(b ′ S22 b − 1). De un modo intuitivo.y (a. Utilizaremos por ello restricciones de normalización: a ′ S11 a = 1 Si formamos el lagrangiano.3) (4.y (a.52 CAPÍTULO 4. parece pues evidente 2 que debieran ser valores cercanos a cero de rx.1) (4. b) depende de a y de b. b) respecto de a. e igualamos las derivadas a cero. en tanto la región crítica estaría formada 2 por los valores rx. b tendríamos que ρx. rx. b) no altera su valor. 2 Obsérvese. sin embargo. b) = 0. derivamos.y (a.y (a. o ambos por una constante cualquiera. b) = 2(a ′ S12 b)S12 ′ a − 2µS22 b = 0q×1 . b) superando un cierto umbral (se emplea el cuadrado del coeficiente de correlación para que tenga signo positivo en todo caso). b y compara el valor resultante con la distribución del máximo bajo la hipótesis nula.2) (4.y (a. b) = a ′ Σ12 b a ′ Σ11 a b ′ Σ22 b una estimación del cual es proporcionada por: rx. obtenemos: ∂Φ(a. El coeficiente de correlación entre ambas es: ρx.y (a. 2 El problema de maximización de rx. b) = a ′ S12 b a ′ S11 ab ′ S22 b Si ambos vectores X1 . b) los que condujeran a la aceptación de la hipótesis de independencia. para cualesquiera vectores a. que rx.y (a.

−1 | − µ 2 S22 || − λ 2 S11 + S12 S22 S21 µ− 2 | = 0 1 1 1 (4.10) −1 −1 y por tanto las soluciones de λ son los valores propios de S12 S22 S21 S11 . b). −λ 2 S11 a + S12 b = 0 S21 a − µ S22 b = 0 1 1 2 (4. si Y1 = AX 1 e Y2 = BX 2 siendo A y B matrices cualesquiera. 41 y Kiefer (1983).8) se deduce: −1 −1 −1 | − λ 2 S11 + S12 S22 S21 µ− 2 | = |S11 ||S12 S22 S21 S11 − λI| = 0. 1 S21 −µ 2 S22 o sea.7) (4. b).4. 4. Esta distribución tiene interesantes propiedades: para nada depende de Σ11 ni Σ22 .9) De nuevo suponiendo que S11 es definida positiva. Puesto 2 (a.y propios para resolver nuestro problema de maximización.8) Como suponemos S22 definida positiva.6) Para que este sistema tenga solución distinta de la trivial ha de verificarse −λ 2 S11 S12 = 0. 301.5) (4. en función de las matrices de covarianzas muestrales de X 1 y X 2 . −1 −1 −1 −1 AS12 B ′ (B ′ )−1 S22 B −1 BS21 A ′ (A ′ )−1 S11 A−1 = AS12 S22 S21 S11 A−1 .9) que −1 −1 |S12 S22 S21 S11 − λI| = 0. valores que llevados a dichas ecuaciones proporcionan −λS11 a + λ 2 S12 b = 0 1 1 µ 2 S21 a − µS22 b = 0 1 o sea. p.3)–(4. es claro que debemos tomar el mayor de los valores que λ es también rx. VARIABLES Y COEFICIENTES CANÓNICOS 53 Premultiplicando (4. 7.3. por tanto. (4. Una particularidad del contraste propuesto es que si efectuáramos transformaciones lineales cualesquiera de las variables aleatorias en ambos subvectores.3.2. En efecto. La idea de invariancia es importante en Estadística. concluimos de (4. 1 1 (4. por lo que de (4. los resultados no se alterarían1 . el primer factor es no nulo.11) ( Se dice que el contraste es invariante frente a transformaciones lineales no degeneradas. haciendo uso del Lema 1. se reduce a comparar dicho λ máximo con su distribución bajo la hipótesis nula.y (a. tenemos que la matriz cuyos valores propios hemos de computar es. 1 .4) por a ′ y b ′ obtenemos: λ = µ = (a ′ S12 b)2 = 2 rx. Véase una discusión más completa en Cox and Hinkley (1974). Detalles teóricos pueden obtenerse de Giri (1977). es uno de los procedimientos más habituales para restringir la clase de contrastes merecedores de atención. p. Sec. El contraste deseado.

Hay s = m´ ın(p. . . . Es ahora intuitivo que. y en efecto este es el caso. . . Xn +1. .. . . .   . . . . . . .1 Xn +2. . . . XN p 0 0 . ..11) son idénticos a los de S12 S22 S21 S11 . . La muestra tendría la siguiente apariencia:   X11 X12 .  . . Los siguientes valores de λ solución de (6) proporcionan las segundas. . . . .12)  1 . 1 Es decir.2 . 0  X21 X22 . Xn +2. son las combinaciones lineales de variables en X1 y en X2 con máxima correlación muestral. Xn1 . 0 1 1 (4. .. . . . 4. . X2p 1 0 . . variables canónicas. no deberíamos esperar ninguna relación lineal entre las variables en X1 y las variables en X2 . . el mismo argumento puede repetirse en conexión con análisis discriminante (Capítulo 12). . los valores propios de la última matriz en −1 −1 (4. X1p 1 0 . XN 1 XN 2 .2 . . y que como vector X2 tomamos variables indicadoras. Calculado λ podemos regresar a (4. 0    . .. . .6) y obtener a y b.1 Xn +1.  . un 1 en posición j-ésima en X2 señala que el caso correspondiente ha recibido el tratamiento j-ésimo. . ANÁLISIS DE CORRELACIÓN CANÓNICA Como los valores propios no nulos de CD y de DC son idénticos (supuesto que ambos productos pueden realizarse). ..2 . 0 1   Xn +1. Relación con otros contrastes Diferentes modelos multivariantes pueden verse como casos particulares de análisis de correlación canónica. . Contrastar la hipótesis de efecto nulo en MANOVA y de mayor correlación canónica nula es algo equivalente.p 0 1 .. 0 1 1  1   . ... Supongamos que el vector X1 agrupa las variables regresandos. . ..3. en el caso de que los diferentes niveles de tratamiento no tengan ninguna influencia. En efecto. . . . . . Se demuestra fácilmente que las sucesivas variables canónicas son incorreladas entre sí. .p 0 1 . combinaciones lineales de las originales con a y b correspondientes al máximo λ. . .54 CAPÍTULO 4. terceras. y consecuentemente s coeficientes de correlación canónica. . .  . . podríamos identificar las matrices Wishart E y H empleadas en el modelo MANOVA de un tratamiento así: −1 H = S12 S22 S21 −1 E = S11 − S12 S22 S21 . . Las variables x = a ′ X1 e y = b ′ X2 .   Xn .p 1 0 .. etc. Xn +2. .1 Xn1 . . . salvo en una constante. en número igual al de niveles del único tratamiento.5)–(4. se denominan primeras variables canónicas. q) pares de variables canónicas. Mencionamos brevemente la relación con MANOVA de un tratamiento. . . . .

1 − λi Es equivalente contrastar la hipótesis de nulidad de ρ2 (mayor correlación canónica 1 al cuadrado) o la de δ1 (mayor autovalor de E −1 H “anormalmente grande” bajo H0 : µ1 = .4.15) (4. la relación anterior entre los autovalores de una y otra matriz y (3. |E −1 H − δI| = 0 ⇔ |H − δE| = 0 ⇔ ⇔ |(1 + −1 |S12 S22 S21 (4. INTERPRETACIÓN. Observemos que. . pero cuando resulta posible suele ser iluminante. el estadístico J−1 i 2 (1 − ri ) = J−1 i=1 1 1 + δi se distribuye como una Λ de Wilks.4. En este caso.16) (4. . 1+δ −1 δ)S12 S22 S21 − δ(S11 − = 0 (4. A menudo es difícil. podríamos estar interesados en la hipótesis de si existe relación entre ideología política de los individuos y su nivel cultural. 4.13) −1 S12 S22 S21 )| − δS11 | = 0 δ −1 S11 | = 0 ⇔ |S12 S22 S21 − 1+δ δ −1 −1 ⇔ |S11 S12 S22 S21 − I| = 0. Interpretación. Por ejemplo.4. = µK ). y hay sin embargo combinaciones lineales de variables en X1 muy correladas con combinaciones lineales de variables en X2 . Observación 4.17) Los autovalores de la matriz E −1 H están en relación biunívoca con las correlaciones canónicas al cuadrado: 2 ri = λi = δi 1 + δi δi = λi . Ninguna de estas dos cosas es medible de manera unívoca. el examen de dichas combinaciones lineales puede arrojar luz sobre aspectos del problema analizado que de otro modo pasarían desapercibidos. El empleo de contrastes sobre el primer coeficiente de correlación canónica es también el método adecuado cuando investigamos la existencia de correlación entre características no directamente medibles.5).1 Incidentalmente.14) (4. cualquier pareja formada por una variable en X1 y otra en X2 tiene débil correlación. En ocasiones. 55 En MANOVA buscábamos los autovalores definidos por la ecuación característica |E −1 H − δI| = 0. muestra que bajo la hipótesis “Todos los coeficientes de correlación canónica son nulos”. sino .

Análogamente sucedería con el nivel cultural.56 CAPÍTULO 4. CUESTIONES. ANÁLISIS DE CORRELACIÓN CANÓNICA que podemos imaginar múltiples indicadores de cada una de ellas: la ideología política podría venir descrita para cada individuo por un vector X1 de variables conteniendo valoraciones sobre diferentes cuestiones. COMPLEMENTOS Y COSAS PARA HACER 4. . El investigar pares de variables aisladas sería un procedimiento claramente inadecuado. la utilización de contrastes sobre el primer coeficiente de correlación canónica permite contrastar la hipótesis de interés de modo simple y directo.1 En R puede realizarse análisis de correlación canónica con comodidad utilizando la función cancor.

En tales casos. Naturalmente. Es frecuente el caso en que se tiene un colectivo cada uno de cuyos integrantes puede ser descrito por un vector X.Capítulo 5 Componentes principales. el problema así planteado es demasiado vago para admitir una solución precisa. de dimensión p.1 Consideremos un colectivo de niños sobre cada uno de los cuales se han medido las siguientes tres variables: Variable X1 X2 X3 Descripción Nota obtenida en Matemáticas Nota obtenida en idiomas Nota obtenida en Ciencias Naturales Podemos ver cada niño como descrito por un vector aleatorio X. estamos dispuestos a considerar? Los siguientes ejemplos tratan de ilustrar el problema a resolver y motivar la solución que se ofrece en la Sección 5.1. Introducción. En tales casos. ¿qué significa “sin gran pérdida de información”? Y. que. 5. Porque. haría que alguna de las variables Xi fuera combinación lineal exacta de otra u otras. ¿qué nuevas variables. surge de modo natural la pregunta de si no sería más útil tomar un subconjunto de las variables originales —o quizá un número reducido de variables compuestas. es también frecuente que entre las diferentes componentes del vector X exista cierta correlación.2. procedente de una distribución cuya matriz de covarianzas es R. en el caso más extremo. Imaginemos también 57 . distintas de las primitivas. transformadas de las originales— que describiera el colectivo sin gran pérdida de información. Ejemplo 5.

Podemos suponer X centrado1 . 0. . aunque descrito por tres variables. Si un niño tiene nota alta en Matemáticas.68 respectivamente).68 1. En resumen.58 CAPÍTULO 5. Por simplicidad. pero mucho mas baja (0. Parece que hay países que destacan en todas las especialidades. podríamos decir que. Obtención de las componentes principales.57 .00 0. COMPONENTES PRINCIPALES. ¿cómo decidir cuántas “notas”. precisa más de una nota? Si éste fuera el caso.68 0.2 La Tabla B. Si éstas formaban para cada elemento de la muestra el vector X de dimensión 1 Esto simplifica la notación. calculada la matriz de correlación entre dichas tres variables (en la práctica. limitaremos nuestra atención a variables que puedan obtenerse como combinación lineal de las variables originales. dicha matriz de covarianzas sería normalmente estimada a partir de una muestra de niños). En cambio. lo que sugiere que la información que aportan es muy redundante.57 y 0. con bastante seguridad podemos decir que su nota en Ciencias Naturales es también alta. sin pérdida de generalidad: si X no fuera centrado. conocido el valor que toma una podríamos conocer con bastante aproximación el valor que toma la otra.2. quizá. y ofrece una posible solución al mismo. 5.92 R = 0. la nota en Idioma Moderno muestra también correlación con las otras dos.1 en el Apéndice B recoge los records obtenidos por atletas de diferentes nacionalidades en varias especialidades. En efecto.57 1.00 0. Observemos el razonamiento implícito que hemos efectuado: dos variables (X1 y X3 ) presentan elevada correlación. sugiere que quizá no son precisas todas las variables para obtener una buena descripción del nivel del atletismo en los diferentes países.1) El examen de la anterior matriz de correlación sugiere lo siguiente: las notas en Matemáticas (X1 ) y en Ciencias Naturales (X3 ) están estrechamente correlacionadas. cada niño podría sin gran pérdida de información ser descrito por dos: una reflejando su aptitud/interés por las Matemáticas y Ciencias Naturales (quizá la nota media en ambas disciplinas) y otra reflejando su aptitud/interés por el Idioma Moderno. obtenemos el resultado siguiente:  1. y otros que muestran bajo nivel también en todas. bastaría restarle su vector de medias y resolver el problema resultante. y de qué manera obtenerlas? La Sección que sigue plantea el problema de modo formal. El simple examen de los mismos.92 0.00  (5. que. ¿Podemos asignar una única “nota media” a cada país sin gran pérdida de información respecto a la que aporta la totalidad de las variables? ¿Es. Ejemplo 5.

como hemos supuesto. . Las variables Ui verificando las condiciones anteriores se denominan componentes principales. la varianza de las diferentes variables es función de las unidades de medida. .3) Obsérvese que si. combinación lineal de las primitivas en X. . pues. . el problema carece de solución. . obtendremos a3 proporcionando U3 bajo las restricciones de incorrelación con U1 y U2 . . sin embargo. Con esta restricción.2. . combinación lineal de X. Up . Up = ap X ′ 59 (5. . que puede ser ||ai||2 = 1. . . para i = 1. Up que sean incorreladas. . . Observemos. . . consideraremos entonces (no más de p) variables de la forma: U1 = a1 ′ X U2 = a2 ′ X . Por otra parte. Up tengan varianza lo más grande posible: en efecto. obtendremos primero el vector de coeficientes a1 proporcionando la variable U1 . En efecto. . Resolveremos el problema de su obtención secuencialmente. que si no acotamos el módulo de ai. que tuviera reducida varianza) sería de escaso valor descriptivo2 . y así sucesivamente. debemos en primer lugar solucionar el siguiente problema: 2 m´x E[U1 ] a a1 condicionado a a1 ′ a1 = 1 (5. Debemos por consiguiente establecer una restricción sobre los coeficientes. p. p. . entonces E[U1 ] = E[a1 ′ X] = 2 0 y Var(U1 ) = E[U1 ] = a1 ′ Ra1 . volveremos sobre esta cuestión algo más adelante. OBTENCIÓN DE LAS COMPONENTES PRINCIPALES. . Obtendremos luego a2 proporcionando U2 de varianza máxima bajo la restricción de que U2 sea incorrelada con U1 . E[X] = 0. Up como combinaciones lineales de las variables originales en X. siempre podríamos incrementar la varianza de Ui multiplicando por una constante mayor que uno el correspondiente vector de coeficientes ai. . . U1 .5. . . . . . Ui−1 . . que sean mutuamente incorreladas. teniendo cada Ui varianza máxima entre todas las posibles combinaciones lineales de X incorreladas con U1 . una variable que tomara valores muy parecidos para todos los elementos de la población (es decir. .2) El problema. Podríamos entonces enunciar el problema que nos ocupa así: Encontrar variables. . . . . resulta sensato requerir de las nuevas variables U1 . A continuación. tenemos interés en que las nuevas variables U1 . Puesto que la correlación entre variables implica redundancia en la información que aportan. radica en la elección de los vectores de coeficientes a1 . ap que permitan obtener U1 . con máxima varianza. . Teniendo en cuenta esto y usando la técnica 2 Naturalmente.

4) Derivando respecto a a1 e igualando la derivada a 0 obtenemos 2Ra1 − 2λa1 = 0.6) debemos tomar como a1 el vector propio de R asociado a λ1 . Up se efectúa de manera similar. Debemos maximizar ahora Var(U2 ) sujeto a dos restricciones: la de normalización ||a2 ||2 = 1 y la de incorrelación con U1 .9) por a1 ′ y teniendo en cuenta (5.3) mediante multiplicadores de Lagrange. con el resultado de que cada una de ellas es una combinación lineal de variables en X con vector de coeficientes ai que es vector propio de R.9) (5.11) obtenemos que µ = 0 y por tanto (5. . Como Cov(U1 . cuyo valor propio asociado es λ. y que Var(U2 ) = λ2 .60 CAPÍTULO 5. a a1 (5. λ2 . (5.11) a2 Ra1 = 0. Un razonamiento similar al efectuado en el caso de a1 muestra que a2 es el vector propio asociado al segundo mayor valor propio de de R. Premultiplicando (5. U2 ) = E a1 ′ Xa2 ′ X = E[a1 ′ XX ′ a2 ] = a1 ′ Ra2 .9) es equivalente a 2Ra2 − 2λa2 = 0.8) que tomando derivadas respecto a a2 . . el mayor de los valores propios de R. (5.7) (5. . .10) (5. tenemos que el problema se reduce a: m´x a1 ′ Ra1 − λ[a1 ′ a1 − 1] . Como estamos buscando la variable U1 de máxima varianza. y Var(U1 ) = a1 ′ Ra1 = λa1 ′ a1 = λ. COMPONENTES PRINCIPALES. La obtención de a2 es similar. habitual para resolver (5.12) lo que de nuevo muestra que a2 es un vector propio de R. . (5. a a2 (5. La obtención de las restantes variables U3 . λ y µ proporciona: 2Ra2 − 2λa2 − µRa1 = 0 a2 a2 = 1 ′ ′ (5.5) lo que muestra que a1 es un vector propio de R. el problema a resolver ahora es m´x a2 ′ Ra2 − λ(a2 ′ a2 − 1) − µ(a2 ′ Ra1 ) .

5.3. PROPIEDADES DE LAS COMPONENTES PRINCIPALES.

61

5.3. Propiedades de las componentes principales.
Dado que los vectores de coeficientes ai son vectores propios de R, si defini. . . .a . .a mos A = (a . . . . . . ) y U ′ = (U , U , . . . , U ) tenemos:
1 2 p 1 2 p

U E UU

= A ′X = A RA = Λ

(5.13) (5.14)

siendo Λ una matriz diagonal con los valores propios de R en la diagonal principal. La ecuación (5.14) muestra la incorrelación entre las componentes principales, así como el hecho, ya apuntado, de ser sus respectivas varianzas iguales a los valores propios de R. Como A es ortogonal, pre- y postmultiplicando (5.14) por A y A ′ obtenemos:
p

R = AΛA =
i=1

λi aiai ′

(5.15)

La ecuación (5.15) muestra R como una suma de matrices de rango uno. Observación 5.1 De acuerdo con el teorema de Eckart-Young, la me′ jor aproximación R∗ de rango k de R, en el sentido de minimizar traza((R∗ − R)(R∗ − R) ) k es i=1 λi ai ai ′ . Las ecuaciones (5.14)–(5.15) muestran también que traza(R) = traza(Λ) = λi , dado que:
p

p = traza(R) = traza(AΛA ′ ) = traza(ΛA ′ A) = traza(Λ) =
i=1

λi .

En consecuencia, incluso sin calcular todos los valores propios, puede calcularse con facilidad la fracción que representan sobre el total de traza. Esto es de interés porque algunos de los métodos numéricos para cálculo de valores propios los obtienen por orden de magnitud; se puede entonces detener el proceso de obtención cuando λi representa una fracción “suficiente"sobre el total de la traza. Ejemplo 5.3 La matriz de correlación estimada R de los datos en el Apéndice B, Tabla B.1, es:

m100 m100 m200 m400 m800 m1500 Km 5 Km10 Maratón 1.000 0.922 0.841 0.756 0.700 0.619 0.632 0.519

m200 0.922 1.000 0.850 0.806 0.774 0.695 0.696 0.596

m400 0.841 0.850 1.000 0.870 0.835 0.778 0.787 0.704

m800 0.756 0.806 0.870 1.000 0.918 0.863 0.869 0.806

m1500 0.700 0.774 0.835 0.918 1.000 0.928 0.934 0.865

Km5 0.619 0.695 0.778 0.863 0.928 1.000 0.974 0.932

Km10 0.632 0.696 0.787 0.869 0.934 0.974 1.000 0.943

Maratón 0.519 0.596 0.704 0.806 0.865 0.932 0.943 1.000

62

CAPÍTULO 5. COMPONENTES PRINCIPALES.
Cuadro 5.1: Valores propios de R i (1) 1 2 3 4 5 6 7 8 λi (2) 6.622 0.877 0.159 0.124 0.080 0.068 0.046 0.023 % s/traza (3) 82.77 10.96 1.99 1.55 1.00 0.85 0.58 0.29
i λi (4)

% (4) s/traza (5) 82.77 93.73 95.72 97.27 98.27 99.12 99.70 99.99

6.622 7.499 7.658 7.782 7.862 7.930 7.976 7.999

Puede verse la acusada correlación existente entre casi todas las variables, siendo la más baja 0.519 (entre las marcas de 100 metros y la de Maratón). A la vista de dicha matriz de correlación, cabría imaginar que un número reducido de componentes principales bastaría para describir adecuadamente el colectivo. Al diagonalizar la matriz de correlación se obtienen los valores propios en la Tabla 5.1. La primera componente principal es la combinación lineal de variables originales tipificadas con coeficientes dados por el vector propio   0,317 0,337   0,355   0,368  a1 =  0,373   0,364   0,366 0,342 es decir: U1 = 0,317X1 + 0,337X2 + . . . + 0,342X8 Nótese que si los vectores propios lo son de la matriz de correlación, las variables cuya combinación lineal da las Ui son las de X tipificadas; si los vectores propios lo son de la matriz de covarianzas, las variables a emplear son las originales (centradas, si se quiere que E[Ui ] = 0). Los vectores propios ai de la matriz de covarianzas y la matriz de correlación no están relacionados de ninguna manera obvia. En la Tabla 5.1 puede verse que, salvo los dos primeros, los valores propios son muy reducidos; parece adecuado describir datos como los exhibidos mediante dos componentes principales. La elección del número de componentes principales a emplear es en principio subjetiva; una regla frecuentemente seguida (cuando las variables han sido tipificadas) es tomar tantas componentes principales como valores pro-

5.4. INTERPRETACIÓN GEOMÉTRICA.
Figura 5.1: Ui es proyección de X sobre ai

63

X

a1

U1

pios mayores que la unidad haya, pero esto no es nada absoluto ni que deba realizarse ciegamente.

5.4. Interpretación geométrica.
Si examinamos la ecuación (5.13) podemos interpretar fácilmente los valores que toman las componentes principales U1 , . . . , Up como las coordenadas en un cierto sistema de ejes. De (5.13) se deduce que: Ui = ai ′ X Ui = |ai||X| cos(α) = |X| cos(α), (5.16) (5.17)

en que α es el ángulo formado por el vector X y el vector ai; recuérdese que éste último tiene módulo unitario. En consecuencia, Ui es la coordenada del punto X cuando se representa en un sistema de ejes coordenados en las direcciones (ortogonales) dadas por los vectores a1 , . . . , ap. La Figura 5.1 ilustra esto. En general, tal como sugiere la Observación 5.1, las primeras k componentes principales proporcionan la mejor representación k-dimensional de los datos, en el sentido de: i) Dar cuenta del máximo de traza de la matriz de covarianza (o correlación), y ii) Permitir reconstruir aproximaciones de las variables originales que yacen en un subespacio k-dimensional del original con la matriz de covarianzas (o correlación) que mejor aproxima la original, en el sentido que dicha Observación 5.1 especifica. Por ello, una etapa rutinaria en el análisis de datos multivariantes consiste de ordinario en obtener una representación en pocas dimensiones de los datos. Si con dos o tres componentes principales se obtiene una representación fiel, puede hacerse una gráfica bi- o tridimensional cuya mera observación será instructiva. Cosas como agrupamientos suelen ser fáciles de detectar. A veces, una determinada componente principal puede ser interpretada. En el caso del Ejemplo 5.3, la primera componente principal podría interpretarse como

La variable U2 tomará valores grandes para aquellos países en que los tiempos en las pruebas de fondo estén por debajo de la media.461   −0. Ejemplo 5.139   +0.4 La Figura 5. separando los diversos países según sus respectivas especializaciones en fondo o velocidad. un índice de la calidad atlética de los respectivos países.64 CAPÍTULO 5. atendiendo a los valores que toman los coeficientes aij . .3.438 5. El método selecciona un subespacio de Rp . . (k < p).2 muestra un tal mapa. Es sólo una técnica. y con signo positivo las cuatro últimas. podemos ver que pondera con signo negativo las cuatro primeras variables. ak. El argumento es en tales casos que los coeficientes aij tienen gran varianza. Los ejes son ortogonales y en .   −0. COMPONENTES PRINCIPALES. p. .312   +0. 2. a2 . como en el caso anterior. y los tiempos en las pruebas de velocidad por encima. Si observamos el segundo vector propio. es una variable que complementa la información proporcionada por U1 . La interpretación de las componentes generales se facilita en ocasiones. Puede verse a algunos países muy separados de la principal concentración. La segunda componente principal (vertical) separa países con predominio relativo en distancias cortas (que se sitúan hacia la parte superior del gráfico) y con predominio relativo en distancias largas (que se sitúan hacia la parte inferior). 361.248   −0. La cuestión está sujeta a controversia: véase por ejemplo el criterio contrario de Rencher (1998).306 +0. . en la esquina inferior. fundamentalmente de naturaleza descriptiva. que obtiene una representación de menor dimensionalidad de un conjunto de puntos en Rp . Comentarios adicionales Es importante reparar en los siguientes aspectos: 1.566 −0. cuyos ejes vienen dados por las direcciones de a1 .5. El empleo de componentes principales no presupone ningún modelo subyacente. referido a los datos presentados en el Ejemplo 5. Algunos autores prefieren utilizar como ayuda en la interpretación las correlaciones o covarianzas entre las variables originales y las componentes principales. La primera componente principal puede interpretarse como midiendo la “calidad general” atlética de cada país (correspondiendo el lado izquierdo a países “mejores”).012   a2 =  +0.

2: Records representados en el plano generado por U1 y U2 Rep_Domini • 2 • Bermuda • • Malasia Singapur Tailandia • Samoa • 1 USA • Brazil Grecia • Indonesia • • Francia • • Canada RFA • •Polonia Argentina RDA Korea •• Gbni • • •Australia Luxemburgo • Filipinas • HungriaChile • Checoslova Suecia •• Taiwan • Png • • Birmania • Belgica •Suiza • Dinamarca China Finlandia • •Japon •• • Austria • KenyaRumania • • EspanaColombia Mauricio • • Israel Holanda India • • Mexico • Nueva_Zelan • Irlanda • Noruega • Guatemala • Portugal Turquia • • RD_Korea • Costa • -4 -2 0 2 u1 4 6 8 Italia • USSR • u2 -1 0 Cook_Islas • 10 .5. COMENTARIOS ADICIONALES 65 Figura 5.5.

a2 . La base que tomemos del mismo puede escogerse con cualquier criterio conveniente — no tiene por qué estar formada por a1 .66 CAPÍTULO 5. El método se puede emplear tanto con las variables en las escalas originales como con variables tipificadas. . . . −ai también lo es. Los resultados. Por una parte. Por otro. son completamente diferentes. se hace uso de un modelo explícito. si ai es vector propio. . en relación a la segunda cuestión mencionada en el apartado anterior. lo realmente relevante es la reducción de la dimensionalidad y la fijación de un subespacio adecuado. 4. . veremos que existen modos alternativos de escoger la base del subespacio de interés. y que ello permite mejorar la interpretabilidad del análisis. En efecto. Pero no hay nada que nos fuerce a considerar dichos ejes. ak—. 3. Los signos de los ai son irrelevantes. las direcciones de mayor dispersión de los datos. que realiza supuestos acerca del modo de generación de las observaciones. En el Capítulo que sigue se introduce el modelo factorial. en general. COMPONENTES PRINCIPALES.

1). F (vector de factores comunes) y L (vector de factores específicos) son vectores aleatorios. El Análisis Factorial es un conjunto de técnicas que persiguen identificar factores ocultos. Suponemos que una cierta variable aleatoria multivariante de la que poseemos una muestra se genera así: X = AF + L + m (6.Capítulo 6 Análisis Factorial. Los respectivos vectores y matrices verifican: X = vector p × 1 F A = matriz p × k = vector k × 1 67 L = vector p × 1 . 6.1. Introducción. y A es una matríz de constantes. con lo que prescindiremos del vector de medias m.1) En (6. Supondremos en lo que sigue que X ha sido centrado.

 = . los “regresores” F son inobservables. Observación 6.9) ′ ′ ′ = E(AF + L)(AF + L) ] = AA + D ′ = E[AF F A + AF L + LF A + LL ] (6.1).1) parece indicado cuando se investigan fenómenos en que un número grande de variables son concebiblemente causadas por unos pocos factores comunes. cada uno de los factores específicos en L sólo influye en la variable homóloga. 6. . Teorema 6. las restricciones permiten en general obtener una solución —si bien. Σ = E[(X − m)(X − m) ′ ] ′ ′ ′ ′ (6. . .  0 d2 . . 0 0 D = E LL ′ (6.4) (6.7) (6. .2. los factores comunes F influyen en X a traves de los coeficientes en la matriz A. pero con la salvedad de que la variable respuesta es multivariante (cada observación es un X). no única—. .11) . Se realizan además los siguientes supuestos: E [F ] = 0(k×1) E [L] = 0(p×1) E FL E FF ′ ′ (6. Un modelo como (6.8) (6. . Obsérvese cierta semejanza con el modelo de regresión lineal.1 Históricamente. . ANÁLISIS FACTORIAL.  = 0(k×p) = I(k×k)  d1 0 .1 Σ = E[(X − m)(X − m) ′ ] = AA ′ + D D EMOSTRACION : En efecto.1) con un número reducido de facetas (inobservables) que supuestamente describen la personalidad. un vector de items procedente de un test sicológico se intentaba poner en correspondencia mediante (6. . dp En (6.2) (6. La igualdad fundamental De las definiciones se deduce inmediatamente.5) 0 0  . la investigación psicométrica proporcionó la motivación inicial para el desarrollo de este tipo de modelos. e incluso su número nos es desconocido. como veremos. Pese a todo ello. .3) (6.10) (6.68 CAPÍTULO 6. El problema del Análisis Factorial consiste en estimar A y D. .6) . . .

p.3. tomaremos “más simple” por sinónimo de “con el mínimo número de parámetros”. . p) Se llama comunalidad y se denota por h2 a aquélla parte de la varianza de la i variable Xi de que dan cuenta los factores comunes. Los valores de p y k no son inusuales en problemas como los que se presentan en la práctica. véase Cuadras (1981). qué significa “captar sus rasgos” y qué significa “de la manera más simple posible”.2 Esto sería una definición si supiéramos qué es la “realidad”. si podemos especificar nuestro modelo con muchos menos factores comunes que variables). Análisis Factorial y el objetivo de la parsimonia Un modelo es una representación estilizada de la realidad. .2. Observación 6. Es de temer que no sabemos demasiado bien qué es ninguna de estas cosas. y probablemente no tenga más defensa que la constatación de su enorme eficacia. mientras que. y en este sentido nuestro modelo será más “simple”. i j=1 ij 6. A título ilustrativo. el lado derecho requiere pk + p − 1 k(k − 1 2 parámetros (pk en la matriz A y otros p adicionales en la diagonal de D. implica que k 69 σii = j=1 k a2 + di ij ail ajl l=1 (i = 1. deducien1 do 2 k(k − 1) porque. como veremos. ANÁLISIS FACTORIAL Y PARSIMONIA La igualdad (6. y por tanto la frase anterior sea una tautología o una idiotez. 72. que pretende captar sus rasgos de la manera más simple posible. p) σij = (i = j. . si selec2 cionamos k como número de factores. Por lo demás. admitiendo una realidad. acreditada desde Guillermo de Ockham hacia acá.3. . . j = 1. Observemos entonces que Σ en el lado izquierdo de (6. h2 = k a2 . es decir. 114. . habremos logrado una reducción considerable en el número de parámetros necesarios. .7) incluye 1 p(p + 1) parámetros diferentes. y la Observación 6. ¿por qué habría de ser simple y no complicada? En el contexto en que nos movemos. i.7). . la solución factorial que obtengamos deja A indeterminada en ese número de parámetros. pág. y la correspondiente ganancia en parsimonía medida en número de parámetros. . en particular. Llamamos parsimo1 nia a esta simplicidad. se recogen los valores de 2 p(p + 1) 1 y pk + p − 2 k(k − 1 para diferentes p y k. El buscar modelos simples es una regla de economía intelectual.) Si k puede hacerse considerablemente menor que p (es decir.6.

Es un caso sumamente simple.       L1 a11 X1 X2  = a21  F1 + L2  L3 a31 X3   a11 a21  a11 a31 d1 +0 0  0 d2 0 (6.” Evidentemente.7) se verificará a lo sumo de modo aproximado.83 0. Sustituyendo Σ en (6.00 a31 ˆ 0 0 d3  0 0 d3 (6.   1.70 Parámetros Σ 55 210 210 465 CAPÍTULO 6. estimadas en una muestra de niños. (1979).7) para una matriz Σ dada.1)).14) por su estimación S tenemos la igualdad matricial     ˆ  d1 0 0 1. La matriz resulta ser. ANÁLISIS FACTORIAL.78 1. los datos se generasen realmente tal como especifica (6.00 Spearman ajustó un modelo con un sólo factor.78 a11 ˆ  ˆ 1. Ejemplo 6.7). Nuestro objetivo en la práctica será pues obtener una buena reconstrucción de una matriz de covarianzas estimada a partir del producto AA ′ más una matriz diagonal D.83 0.12) 1. valen las observaciones hechas para componentes principales en el Capítulo 5.00 0.14) .00 0. aún cuando el modelo fuera “correcto” (es decir. Además.67 S =  (6. en la práctica no conocemos Σ y habremos de trabajar con una estimación de la misma.67 = a21  a11 a21 a31 +  0 d2 0  ˆ ˆ ˆ ˆ ˆ 1.1 Este ejemplo procede de Mardia et al. es decir. quienes a su vez lo toman de un trabajo de Spearman de 1904. (6.00 0. la igualdad (6. conteniendo las correlaciones entre calificaciones de tres asignaturas (Lenguas Clásicas. Se parte de una matriz de correlación1. de acuerdo con el teorema de Thurstone.00 0. Parámetros AA ′ + D 37 59 94 104 Ganancia en parsimonia 18 151 116 349 p 10 20 20 30 k 3 2 4 3 A la luz de todo lo anterior. con A teniendo el mínimo número de columnas. Francés e Inglés). pero que ilustra los conceptos anteriores. podríamos formular el problema a resolver en análisis factorial así: “Encontrar matrices A y D verificando (6.13) que implica: Σ = a21 a31 1 Sobre el uso de la matriz de covarianzas o correlaciones como punto de partida.

también será cierto que Σ = E[(X − m)(X − m) ′ ] = AGG ′ A ′ + D = BB ′ + D. Rotaciones Con el problema planteado como en la Sección anterior.23) (6. como es fácil comprobar. Tras resolver.22) Por tanto.1) se deduce X = AGG ′ F + L + m = BFG + L + m (6. Obsérvese además de (6. el modelo estimado es       X1 0.629. Indeterminación de las soluciones factoriales.7). y algo peor de las dos restantes. 6.83 = 0.6).15) (6. Por tanto. el modelo con un único factor da cuenta muy bien de la primera calificación (Lenguas Clásicas). B será una solución tan válida como A. (6.2)–(6.17) (6. es ahora evidente que la solución no es única. ˆ ˆ 21 a2 ˆ31 y las comunalidades son Tenemos pues seis ecuaciones con seis incógnitas que permiten encontrar una solución “exacta” a partir de la igualdad fundamental (6.6. INDETERMINACIÓN Y ROTACIONES de la que obtenemos las ecuaciones: 1 = 1 = 1 = 0.18) (6.67 = a2 + d1 ˆ11 ˆ ˆ a2 + d2 ˆ (6. .19) (6.966 0.3.793 L3 h2 1 h2 2 h2 3 = = = 0.20) 71 ˆ + d3 a11 a21 ˆ ˆ a11 a31 ˆ ˆ a21 a31 .983 L1 X2  = 0.21) X3 0. y G es una matriz ortogonal (k × k).844 F1 + L2  .712 0. (6.4. En efecto.16) (6. si Σ = E[(X − m)(X − m) ′ ] = AA ′ + D.78 = 0.24) con FG = G ′ F que continúa verificando todas las condiciones impuestas a los factores comunes (6.

2 Si tenemos cierta margen de maniobra al escoger una solución factorial. . . Si reparamos en que las columnas de A deben generar un cierto subespacio de dimensión k.3 . ANÁLISIS FACTORIAL.1 ap−1.   .72 CAPÍTULO 6. .3. ...25)  .. 0  a21 a22 0 . la tercera y sucesivas tienen cada una una restricción adicional. ap−1. La primera columna sólo está constreñida a tener módulo unitario (k − 1 elementos son por tanto libres). conservará tantos grados de libertad como existan para fijar una 1 matriz ortogonal k × k. . 0  ap1 ap2 ap3 . El número total de elementos libres es por tanto (k − 1) + (k − 2) + . Estando las soluciones factoriales indeterminadas hasta el producto por una matriz ortogonal (geométricamente. 0    (6.. acerca del número de grados de libertad consumidos (o parámetros estimados) al encontrar una solución factorial. Por ejemplo..3 Podemos ahora volver al asunto brevemente tocado en la Sección 6. Esto tiene enorme trascendencia. la segunda. Si A cuenta con pk parámetros pero está indeterminada. para poder rotular un factor desearíamos que su influencia alcanzara a algunas de las variables de modo notable. . 0     a31 a32 a33 . si tuviéramos una matriz A como. esto permite escoger soluciones con la estructura de A que nos parece más interpretable. está además constreñida a ser ortogonal a la primera (k−2 elementos libres por tanto). apk y especificar tal matriz requiere precisamente pk − 1 k(k − 1) parámetros. sino menos. somos libres de tomar la solución que más nos convenga. tendremos un modo fácil de persuadirnos de que 1 una solución factorial supone estimar pk − 2 k(k − 1) parámetros. formada por las columnas de una matriz como   a11 0 0 . 2 Alternativamente. desearemos hacerlo de modo que la interpretación resulte favorecida.. . si A está indeterminada hasta el producto por una matriz ortogonal. . En efecto. .26)   0 0 1 0   0 0 1 0   0 0 0 1 0 0 0 1 . De ordinario. . cualquier subespacio de dimensión k de Rp puede generarse mediante una base “escalonada”. . Idealmente. reflexión. Observación 6. .   . . y al resto en absoluto. Hay 2 k(k − 1) elementos libres en una tal matriz. . . + 1 = 1 k(k − 1).   1 0 0 0 1 0 0 0   1 0 0 0   0 1 0 0   0 1 0 0 (6. una rotación. es claro que no hemos consumido de modo efectivo pk grados de libertad. .2 ap−1. o combinación de ambas).

en la medida de lo posible. X2 y X3 . Naturalmente.4.29) ij ij 2 p j=1 i=1 i=1 es decir. por ejemplo. (6. Una forma de lograrlo es determinar G de manera que AG = AG tenga mucho “contraste”. La toma del cuadrado obedece a que estamos interesados en lograr términos “grandes” y “pequeños”: no nos importa el signo. INDETERMINACIÓN Y ROTACIONES recordando que X = AF + L 73 (6.28) (a2 )2 −  ij ij k2 i=1 j=1 j=1 Esta propuesta logra contraste entre unos términos y otros: pero nada en la forma de la expresion a maximizar impide que los aij “grandes” se agrupen en la primera columna de la matriz AG .27) razonaríamos así: “El factor F1 es algo que está relacionado con las variables X1 . Basilevsky (1992). Hay varias formas de formalizar esta idea intuitiva hasta convertirla en un problema con solución matemática. Si es el caso. en lugar de maximizar las expresiones (6. la rotación varimax puede ser más atractiva.6. Cuadras (1981). no será muchas veces factible: pero. desearíamos tender a ella. Habitualmente preferimos que cada factor de cuenta del comportamiento de un grupo de variables originales. . mencionaremos dos de las propuestas más utilizadas. que parece influir en todas las variables: puede o no ser deseable o fácil de interpretar.29) tal cual. Ello forzará a que en cada columna ij haya elementos muy grandes y muy pequeños. o cualquier texto sobre análisis factorial o multivariante. Carroll (1953) y Kaiser (1958) son dos de las referencias pioneras. Maximizamos por ello 2    p k k 1 k a2   . Y similarmente con los otros. con las que poder relacionarle. por ejemplo. frecuentemente se normalizan los elementos de cada fila dividiendo entre la comunalidad: se intenta con ello evitar que las filas de A con elevada comunalidad dominen las expresiones citadas. Ello da lugar a una solución con un factor “general”. El conocimiento de las variables ayudaría así a dotar de interpretación a los factores F1 a F4 : F1 . X6 y X7 y en X8 y X9 . F3 y F4 influyen cada uno en las variables X4 y X5 . Los factores F2 . En lo que sigue. Hay algunos detalles adicionales que pueden consultarse en Kaiser (1958). que ilustran bien el modo de abordar el problema. Buscamos en ella maximizar   2 p p k 1 . una estructura de ceros y unos. respectivamente”. la “varianza” de los a2 por columnas. como la del ejemplo anterior. La idea de la rotación quartimax es escoger la matriz AG = AG para la que es máxima la “varianza” por filas de los cuadrados de los elementos aij . p a2 (a2 )2 − (6. podríamos imaginarlo como lo que quiera que las variables X1 a X3 tuvieran en común.28) o (6. Más detalles pueden encontrarse en Harman (1960).

A continuación. de las comunalidades. las especificidades y comunalidades quedan también estimadas. (6. Si S ∗ tiene sus k mayores valores propios positivos. podemos factorizar esta S ∗ como producto de dos matrices de rango k.5. ello equivale a suponer normalidad multivariante).2. ˆ ˆ′ D(2) = diag(S − AA ). . ello no ofrecerá problema: podemos emplear la aproximación ˆ ˆ′ S ∗ ≈ AA .30) ˆ ello sugiere emplear alguna estimación de D para computar S ∗ = S − D. 6. √ ∗ ˆ en que A = k i=1 λi vi . ′ (6.1.74 CAPÍTULO 6.1) por máxima verosimilitud. 6.34) ˆ Con la nueva estimación A(2) de A podríamos reiniciar el proceso e iterar hasta convergencia.7) se deduciría que la matriz de covarianzas (o correlación) muestral ha de verificar aproximadamente ˆˆ S − D ≈ AA ′ . siendo los λi y vi los valores y vectores propios de S .5.32) ∗ S(2) = (S − D(2) ). (6. aunque habitualmente se obtiene convergencia cuando k es suficientemente grande).33) (6. D). si conocemos la distribución de X (en la práctica. ∗ y consiguientemente una nueva estimación de A por factorización de S(2) : ∗ ˆ ˆ S(2) ≈ A(2) A(2) . quizá.5. si se produce (nada garantiza que se produzca. equivalentemente. si conociéramos las comunalidades (o. y obtener una estimación (inicial. ANÁLISIS FACTORIAL. (6. la matriz de especificidades. Método del factor principal Obsérvese que. Estimación del modelo Hemos de hacer frente a dos problemas: determinar el número de factores deseado. de la igualdad fundamental (6. ˆ No es preciso que nos detengamos en la estimación de A recién obtenida. sino que podríamos ahora emplearla para obtener una estimación mejor.31) una estimación actualizada de S ∗ . Describiremos sólamente dos de los métodos más utilizados. Estimada A. indeterminada) de A. 6. Método de máxima verosimilitud Podemos también estimar los parámetros del modelo (6.

. X ′ Xaj X X bj ′ = λj a j = νj bj . Sea X una matriz N ×p cualquiera. A ambas técnicas subyace la descomposición en valores singulares de una matriz rectangular. La exposición sigue a Lebart (1997). La segunda técnica —el análisis de correspondencias— produce de modo similar una representación simultánea de observaciones y variables. . una matriz diagonal p × p con elementos no negativos en la diagonal principal y una matriz ortogonal p × p. 7. 75 (7. La primera —el biplot— es un gráfico en el que se representan las observaciones en posiciones dadas por sus dos primeras componentes principales. Tanto X ′ X como X X ′ son matrices cuadradas simétricas. . Mostraremos que puede siempre escribirse como producto de una matriz de columnas ortogonales N × p. .Capítulo 7 Biplots Estudiaremos en lo que sigue dos técnicas para la representación simultánea de observaciones y variables. Sobre el mismo plano se superponen p puntos representando las variables —las columnas de la matriz de datos X en posiciones que hacen interpretables las relaciones entre ellas y las observaciones. p hay vectores propios ai de X ′ X (y bj de X X ′ ) asociados a valores propios en general no nulos λi (para los ai ) y νj (para los bj ).1.1) (7. y es de aplicación a tablas de contingencia. Descomposición en valores singulares. Para j = 1.2) . que se presenta a continuación. y por tanto diagonalizables.

9) (7. Si proyectamos las filas y columnas de X sobre los subespacios engendrados por el vector propio aj y bj respectivamente. . .11) (7. Supongamos que λ1 es el mayor valor propio de X ′ X y ν1 el mayor valor propio de X X ′ .7) (7.5)–(7. p se resumen en las igualdades matriciales A = X ′ BΛ− 2 B = XAΛ −1 2 1 (7. Análogamente. .6) ∝ Xaj . Los vectores propios aj y bj están relacionados. .6) y convertirlas en igualdades: aj = λj 2 X ′ bj bj = λj Xaj . . si b1 es el vector propio de X X ′ asociado al a mayor valor propio ν1 .14) vj = X ′ bj = λj X ′ Xaj = λj aj . tenemos: uj 2 = Xaj = λj 2 X X ′ bj = λj bj 1 −2 1 2 −1 1 (7. y el argumento puede reiterarse para los valores propios sucesivos. . En efecto multiplicando las igualdades anteriores por X y X ′ respectivamente. Como Xa1 es vector propio de X X ′ con valor propio asociado λ1 .3) (7.8) lo que permite normalizar los lados derechos de las expresiones (7. ′ ′ (7. .76 CAPÍTULO 7. aj ∝ X ′ bj bj (7. Es además fácil ver que los valores propios no nulos son idénticos. En definitiva. Además.12) .5) (7. y por tanto ν1 ≤ λ1 .10) Estas expresiones para j = 1.13) (7. se sigue que ν1 = m´xj νj ≥ λ1 . ′ Ello muestra que Xaj es vector propio de X X ′ y X ′ bj es vector propio de X ′ X. BIPLOTS La matriz X X ′ posee además N − p valores propios nulos y correspondientes vectores propios asociados. . entonces X ′ b1 es vector propio de X ′ X con valor propio asociado ν1 .4) = νj X bj . obtenemos: X X ′ (Xaj ) = λj (Xaj ) X X X bj ′ ′ (7. p. De ambas desigualdades se deduce ν1 = λ1 . . par j = 1. −1 2 −1 (7. las relaciones de proporcionalidad anteriores pueden convertirse en igualdades si tenemos en cuenta que X ′ bj Xaj 2 2 = bj ′ X X ′ bj = νj = aj X Xaj = λj .

Adicionalmente. Interpretación Para interpretar un biplot. Los puntos gi representan observaciones. los vectores representando a ambas tenderán a formar un ángulo pequeño.9).1. notemos que si (7. podemos definir Gq = Bq S 1−c y Hq ′ = S c Aq ′ . Por ejemplo.17) se verifica de modo aproximado.2. de los puntos columna. 1 (7. 7. entonces Xij ≈ gi ′ hj = ||gi ||||hj || cos(αij ) (7.7. postmultiplicamos por aj ′ y sumamos respecto j. a la matriz B o a ambas a la vez. c = 2 y c = 1. 7. Si q = 2. BIPLOTS 77 Si tomamos la igualdad (7.2. 1 1 (7.16) llamada descomposición en valores singulares de la matriz X. Biplots En el supuesto de que X sea aproximadamente igual a los q < p primeros sumandos (7. ′ la i-ésima fila de G y h ′ la j-ésima fila de H (por tanto. dependiendo del valor seleccionado para c en (7. los N + p vectores gi y hj pueden representarse en el plano dando lugar a la representación conocida como biplot. j-ésima Sea gi j columna de H ′ ). j=1 (7.18) El exponente c se puede escoger de diferentes maneras: elecciones habituales son 1 c = 0. premultiplicamos por X. si la variable j tiene gran influencia en la observación i. en tanto los puntos hj representan variables.15) j=1 X= j=1 λj bj aj ′ = BΛ 2 A ′ . obtenemos:   p p Como p ′ j=1 aj aj X aj aj j=1 = AA ′ = I. la igualdad anterior se reduce a: p ′ = 2 λj bj aj ′ = BΛ 2 A ′ . etc. Para cada valor 0 ≤ c ≤ 1 que escojamos tenemos X = Gq Hq ′ = Bq S 1−c S c Aq ′ (7.2.16) obtenemos: q X≈ λj bj aj ′ = Bq Sq Aq ′ .18) podemos interpretar las distancias euclídeas entre las representaciones de los puntos fila.19) siendo αij el ángulo que forman gi y hj . Por consiguiente. .17) Podemos asociar S a la matriz A.

Supongamos X = GH ′ exactamente (omitimos el subíndice q por simplicidad notacional). esto sólo es posible si la configuración original de puntos fila de X era bidimensional. en la medida en que la matriz original X no sea de rango igual o inferior a 2).20) (7. lo que hace los datos muy “uno-dimensionales”: las Comunidades más pobladas. para cualquier fila xi de X se tiene xi ′ xi = g i ′ g i ||xi − xj || = ||gi − gj || ||xi|| = ||gi || (7. Obviamente. Puede verse en la figura indicada como “España” aparece en el margen derecho. gj ). Por consiguiente. . H = A y es por tanto ortogonal. Caso c = 1 .21) (7. xj ) = cos(g i.78 CAPÍTULO 7. es decir. 2 tendente a preservar en alguna medida las distancias tanto entre puntos fila como entre puntos columna.1. Razonando de forma exactamente análoga. simplemente por efecto de su tamaño. de otro modo. Caso c = 1. cuya casilla ij-ésima recoge el total de hogares de la Comunidad Autónoma i-ésima disponiendo del equipamiento a que se refiere la columna j-ésima.2. dado que con c = 1 X ′ X = HG ′ GH ′ = HH ′ (7. Es aparente un “efecto tamaño” muy pronunciado: al estar los datos en valores absolutos.24) al ser G = B una matriz ortogonal. X ≈ GH ′ y lo anterior sólo tendrá validez como aproximación. todas las columnas son aproximadamente proporcionales. Un análisis de los datos brutos daría lugar a un biplot como el recogido en la Figura 7. evitando así que una dimensión de la representación gráfica sea ocupada por el efecto tamaño. Esta elección de c supone un compromiso entre las dos anteriores. las distancias y ángulos entre los vectores gi reproducen los existentes entre los vectores xi.1. y el resto de Comunidades ordenadas en el eje de abscisas aproximadamente por su tamaño. que carece de interés. si tomamos c = 0. (De nuevo la igualdad anterior es sólo aproximada. tienen más hogares en posesión de cada uno de los bienes considerados.2. con lo que XX ′ = GH ′ HG ′ = GG ′ .22) (7. 7.23) cos(xi. Podemos convertir los datos a porcentajes. BIPLOTS Caso c = 0. Entonces. Ejemplo Consideremos la Tabla 7. llegamos a la conclusión de que en este caso las distancias y ángulos entre los vectores fila de H ′ reproducen los existentes entre los vectores columna de X.

10 717.80 403.30 115.30 18. 2002.80 123.60 254.00 0.40 576.50 2208.90 252.50 18.70 243.50 473.10 277.60 1235.70 9.70 18.70 249.30 1190.9 0 14 .30 148.80 51.10 13.40 Radio.80 Video 9207.20 NSNC NSNC 5.80 569.10 46. 40 1.90 2 .30 241.50 247.30 2.30 364.00 0.90 15.20 0.10 354.00 1.00 0.10 2217.00 423.10 580.20 713.40 0.00 0.2.90 110.60 155.20 511.60 Fax 371.00 24.30 173.80 2.20 530. BIPLOTS Cuadro 7.10 12.70 200.50 82.30 31.70 149.50 0.60 20.7.90 536.80 295.60 76.30 246.00 15.70 0.10 6.50 887.40 Cadena Música 7451.90 1.00 0.90 426.30 124.40 0.80 265.70 15.60 268.40 355. Encuesta de Tecnologías de la información en los hogares.00 0.10 72.80 486. 50 2.90 902.60 1151.00 183.70 84.60 311.90 615.40 188.80 391.90 11.50 1021.60 708 .90 87.70 94.30 100.60 2.60 62.60 1347.1: Dotación de los hogares por Comunidades Autónomas (miles de hogares que poseen cada uno de los equipamientos indicados).70 1482.30 8.90 75.70 221.00 194.00 3.60 213. 70 14.00 0.40 7. 20 272.30 10.90 16.70 290. Número Hogares 13712.20 359.40 Teléfono móvil 8917.80 166. cassete 10570.00 ESPAÑA ANDALUCÍA ARAGÓN ASTURIAS BALEARES CANARIAS CANTABRIA CASTILLA-LEÓN LA MANCHA CATALUÑA VALENCIA EXTREMADURA GALICIA MADRID MURCIA NAVARRA PAÍS VASCO RIOJA CEUTA MELILLA 79 .50 207.50 85.50 358.60 2301.10 17.60 326. Fuente: INE.40 3.70 16 49.90 440.20 72.50 1321.60 0.60 1095 .30 8.70 43.10 169.30 17.00 0.00 0.60 45.60 15.20 65.10 Busca personas 75.40 1461.20 0.50 2.50 1802.30 410.60 670.30 363.50 570.40 108.10 1561.50 Televisión 13650.90 35.00 878.20 0.70 DVD 1562.60 285.80 485.20 50.10 108.10 82.90 293.70 933.60 7.90 11.60 263.00 361.80 7.30 1442.80 20.00 1.40 712.70 51.50 8.30 362.80 212. 20 0.10 12.00 0.50 31.40 174 0.00 0.00 0.90 2306.40 94.40 5.90 782.60 170.90 413.00 0.50 865.20 24.00 2.80 1553.00 0.70 158.80 131.10 1809.40 962.90 14.90 871.00 436.80 105.00 17.00 0.70 1452.70 1.50 Ordenador 4944.50 428.90 170.10 217.60 1457.50 485.60 51.90 346.90 42.40 5.50 3.00 185.30 204.

5 1.1 0. BIPLOTS Figura 7.2 ESPAÑA NumHogares Television Video TelMovil OrdenadorCadMus RadioCas 0.80 CAPÍTULO 7. Se aprecia el fuerte efecto “tamaño” que oblitera cualquier otro.5 MADRID −0.5 0.0 −5000 0 5000 10000 0.0 −0.0 Comp.0 −10000 −5000 CATALUÑA 0 5000 10000 .1: Biplot de número de hogares (en valor absoluto) en cada Comunidad Autónoma que poseen diferentes tipos de equipamiento relacionado con la sociedad de la información. −10000 1.5 ANDALUCÍA LA GALICIA MANCHA CASTILLA−LEÓN EXTREMADURA VALENCIA ASTURIAS MURCIA CANTABRIA RIOJA BuscaPer NSNC CEUTA ARAGÓN MELILLA Fax NAVARRA DVD BALEARES CANARIAS PAÍS VASCO Comp.

la ordenada relativamente alta de País Vasco. LECTURA RECOMENDADA 81 Así se ha hecho para producir la Figura 7. 4. Algunos otros detalles saltan a la vista en la Figura 7. Cap. como puede corroborarse observando la tabla.2. Castilla-La Mancha. mucho más ilustrativa que la primera. Andalucía. que se corresponde con una tenencia también relativamente elevada de radiocassettes. por ejemplo.7. . menor: Extremadura.3.3. y bastante a la izquierda también Comunidades como País Vasco y Cataluña. En el lado derecho del biplot aparecen aquellas comunidades en que dicha penetración es. como corresponde dada su apreciable correlación.2. en términos relativos. 7. en que los equipamientos considerados han alcanzado una penetración relativamente elevada en los hogares. Lectura recomendada El biplot e instrumentos de visualización relacionados se describen en Krzanowski (1988). Galicia. Se aprecia ahora como los puntos que representan variables están todos orientados de manera similar. Aragón y Asturias. Casi superpuesta al punto que representa “Ordenadores” está la Comunidad de Madrid.

4 −0.1 0.1 0.2: Biplot del porcentaje de hogares en cada Comunidad Autónoma que poseen diferentes tipos de equipamiento relacionado con la sociedad de la información.0 −0.2 PAÍS VASCO ARAGÓN ASTURIAS .4 −0.0 Comp.1 0.82 CAPÍTULO 7.2 0.0 0.2 0.2 0.2 0. −0.2 VALENCIA BALEARES MURCIA CANARIAS ANDALUCÍA LA MANCHA CEUTA −0.2 RIOJA CASTILLA−LEÓN Ordenador MADRID NAVARRA CATALUÑA CadMus MELILLA DVD TelMovil Video Television BuscaPer ESPAÑA Fax CANTABRIA EXTREMADURA GALICIA Comp.0 0. BIPLOTS Figura 7. se aprecian las diferencias entre comunidades en la dotación relativa.2 RadioCas 0.4 −0.1 0.4 −0.2 −0.1 0. Al desaparecer el efecto tamaño por ser todas las magnitudes relativas.

Introducción En lo que precede. pasamos a tener una tabla de k dimensiones y k di celdas i=1 relacionando los caracteres entre sí.1. . si registráramos el color de pelo y ojos de un colectivo de N = 5 sujetos.1: Color de pelo y ojos medidos para cinco sujetos Sujeto 1 2 3 4 5 Color pelo Negro Rubio Negro Negro Negro Color ojos Castaño Azul Azul Castaño Castaño Una forma alternativa de recoger la misma información es efectuando una tabulación cruzada de los dos caracteres (color de pelo y color de ojos) para producir una tabla de contingenciacomo la recogida en el Cuadro 8.2. cada uno de los cuales con di niveles i = 1. . podríamos presentar la información resultante en una tabla como: Cuadro 8. para cada sujeto de la muestra examinamos k atributos cualitativos o caracteres. En ocasiones. Por ejemplo. hemos considerado como punto de partida una matriz de datos X de dimensiones N × p cada una de cuyas filas xi ′ era un vector aleatorio en Rp . . . sin embargo. k. De tener una tabla de datos N × p listando los respectivos niveles de los caracteres para cada uno de los N sujetos.Capítulo 8 Datos categóricos multivariantes 8. 83 .

B y C respectivamente a los tres caracteres. p. Notación.k xijk el total de sujetos en todas las celdas de la tabla. podemos modelizar xijk como una variable con distribución de Poisson de parámetro λijk . DATOS CATEGÓRICOS MULTIVARIANTES Cuadro 8. sino que en general trabajaremos con tablas de contingencia con k > 2 dimensiones. Podríamos muestrear durante un periodo de tiempo y clasificar a los sujetos de acuerdo a. Tipos de muestreo Una misma tabla de contingencia puede generarse de diferentes modos. Sea X la tabla de contingencia. Denotaremos por A. será en general inconveniente examinar los caracteres por parejas: si lo hiciéramos. El análisis de tablas de doble entrada es objeto común de los cursos introductorios de Estadística. por concreción.2. será a su vez una variable aleatoria con distribución de Poisson. Trocóniz (1987b). Si hacemos esto. 244–249). por ejemplo. Cuando lo hagamos. xijk sujetos poseen los niveles i. N . y es importante saber cuál ha sido el empleado en cada caso.2: Tabla de contingencia relacionando color de pelo y ojos para cinco sujetos Color de pelo Negro Rubio 1 1 3 0 Ojos azules Ojos castaños Es fácil ver que la tabla de datos original en el Cuadro 8. con dA . dB y dC niveles respectivamente.1 y la tabla de contingencia en el Cuadro 8. No estamos limitados a considerar tablas de doble entrada. Problemas habituales que se resuelven son los de contrastar la independencia de los caracteres. habitualmente mediante el contraste χ2 de Pearson (véase por ej.2 proporcionan exactamente la misma información.84 CAPÍTULO 8. y xijk el contenido de su celda ijk. podriamos tropezar con la paradoja de Simpson que ilustramos a continuación. Es decir. Diremos que la tabla se ha generado mediante muestreo de Poisson . Consideremos. j y k de los tres caracteres considerados y N = i. o la homogeneidad de subpoblaciones descritas por las filas o columnas. De la segunda podemos reconstruir la primera (excepto por el orden. normalmente irrelevante). será inmediato). El número total de sujetos tabulados.j. de modo que cada uno fuera contado en una celda xijk de una tabla tridimensional. una tabla de contingencia con k = 3 dimensiones (generalizar a cualquier k. no obstante. tres caracteres. 8.

. . xIJK ! (8. Entonces.8. podríamos tener. B y C. porque se emplea para enfermedades infrecuentes. . .822) No enferman 9005 (0. bajo los valores absolutos. se muestrea así por separado: la muestra obtenida puede verse como la unión de dos muestras para dos subpoblaciones. Enferman Tratamiento 5950 (0. aparece entre paréntesis la proporción sobre el total de la fila correspondiente. una muestra aleatoria simple proporcionaría muy pocos sujetos tratados: acaso ninguno. si examináramos la respuesta a un tratamiento que sólo raramente se administra. La paradoja de Simpson Consideremos la siguiente tabla de contingencia. LA PARADOJA DE SIMPSON 85 Alternativamente. xijk ! .178) Total 14955 Placebo 6145 . . Nt /N no estimaría la proporción de sujetos tratados en la población. Decimos en este caso hallarnos ante muestreo multinomial Frecuentemente se toman muestras estratificadas. porque tanto numerador como denominador han sido arbitrariamente fijados. el de los tratados y no tratados. podríamos ver el vector xijk como variable aleatoria con distribución multinomial. . El modo habitual de operar en este caso es tomar una muestra de sujetos tratados y otra de no tratados o controles. .1) en que I. cuotas por sexo y grupo de edad.3. En situaciones más complejas que la muy simple descrita. 8.3. En cursivas. pijk . En este caso. podríamos fijar el tamaño muestral N deseado y tabular dichos N sujetos. Decimos entonces hallarnos ante muestreo producto-multinomial Es importante darse cuenta de que en tales casos las proporciones marginales de la tabla no estiman proporciones en la población: son un mero resultado del diseño muestral. no sólo hemos fijado N . .602) 1095 (0. sino también el desglose N = Nt + Nc entre tratados y no tratados o controles. Cada uno de los segmentos de la población.398) 5050 (0. y en consecuencia estaríamos fijando el número Nij de sujetos muestreados para cada combinación de sexo y edad. de modo que ambas categorías estén adecuadamente representadas. Por ejemplo. por ejemplo. fijando cuotas para diferentes estratos de la población analizada. pxIJ K 111 IJK xiii ! . J. K designan el número de niveles de (respectivamente) los caracteres A. relacionando recepción de un tratamiento o un placebo con el hecho de contraer o no una cierta enfermedad. Por ejemplo. Prob(xijk) = N! xijk · px111 .

han recibido mayoritariamente el tratamiento.905) 1000 (0.019) Total 5005 Placebo 5095 Mujeres Enferman Tratamiento 950 (0. no lo han recibido en la misma proporción.981) No enferman 5 (0. frente a más del 80 % de quienes tomaron el placebo.86 CAPÍTULO 8. que el tratamiento no parece tener ningún efecto positivo. tanto los varones como las mujeres tratados parecen haber enfermado más que los que recibieron el placebo. sin embargo.095) 50 (0. Esto ocurre por poco margen en el caso de los varones.999) 5000 (0.995) Total 9950 Placebo 1050 Se da ahora una aparente paradoja: mientras para el total de la población el tratamiento aparentaba ser efectivo. DATOS CATEGÓRICOS MULTIVARIANTES A la vista de los datos anteriores. .005) No enferman 9000 (0. mientras que los hombres. pero de forma notoria en las mujeres. que efectuamos un desglose por en varones y mujeres de la tabla anterior para obtener las dos siguientes: Varones Enferman Tratamiento 5000 (0. simplemente porque entre ellos hay mayoría de mujeres casi inmunes. que parecen practicamente inmunes a la enfermedad analizada. sin embargo.001) 95 (0. Cuando se analizan separadamente las tablas correspondientes a hombres y mujeres apreciamos. estaríamos tentados de concluir que el tratamiento ha tenido realmente un efecto preventivo: menos del 40 % de tratados desarrollan la enfermedad. mucho más vulnerables. Supongamos. La contradicción entre los resultados que sugieren la tabla conjunta y las dos que forman el desglose se explica cuando notamos que la asignación del tratamiento ha sido muy asimétrica entre hombres y mujeres: las mujeres. Se tiene así una menor incidencia de la enfermedad (en la tabla conjunta) para los receptores del tratamiento. Resulta así que la tabla para el total de la población proporciona una información que es contradictoria con la que obtenemos al considerar las tablas desglosadas.

4. Denotemos por pijk la probabilidad de que un sujeto tomado al azar entre los N que componen la tabla esté en la celda (ijk). log(pijk ) = log(pi++ ) + log(p+j+ ) + log(p++k ). ij i j ijk jk ik k (8.3) (8.4. Podríamos considerar modelos más generales para log(pijk ) como suma de diferentes efectos aditivos así: log(pijk ) = u + uA + uB + uC + uAB + uAC + uBC + uABC . 8. e incluso signo opuesto. Ambos pueden tener valores completamente diferentes. pero de nuevo el planteamiento es fácilmente generalizable. Observación 8.8. (8. Lo que la paradoja de Simpson presentada más arriba muestra es que colapsando una tabla puede llegarse a conclusiones diferentes —incluso radicalmente opuestas— a las que alcanzaríamos al considerar la tabla completa. tendríamos: pijk = pi++ p+j+ p++k o. Sumando sobre la tercera dimensión llegaríamos a la tabla de dos dimensiones (Tratamiento × Enfermedad). B.2 ponía de manifiesto. columna y estrato. Nos deberemos por ello abstener de colapsar una tabla si la asociación entre los caracteres correspondientes a las dimensiones que subsisten es diferente para diferentes niveles del carácter o caracteres correspondientes a las dimensiones suprimidas. Modelos logarítmico-lineales Consideraremos una tabla de tres dimensones. Cada nivel de cada caracter contribuye una cantidad fija a log(pijk ). que no depende de cuál sea el nivel observado de ningún otro carácter. tendríamos una tabla de tres dimensiones (Tratamiento × Enfermedad × Sexo). Entonces. Decimos que ésta última resulta de colapsar la primera o que es uno de sus márgenes. C examinados.1 Este efecto es similar al que se presenta al comparar el coeficiente de correlación simple entre dos variables y el coeficiente de correlación parcial controlando el efecto de una tercera.2) en el caso de independencia. como el Ejemplo 1.4) . Denotemos por dB dC dA dC dA dB pi++ = j=1 k=1 pijk p+j+ = i=1 k=1 pijk p++k = i=1 j=1 pijk las probabilidades marginales e imaginemos que hubiera independencia entre los tres caracteres A. log(pijk ) se puede expresar como suma de efectos fila. MODELOS LOGARÍTMICO-LINEALES 87 Si tabuláramos los tres caracteres a la vez. en escala logarítmica.

Podemos considerar variedades del mismo. ijk (8. jk (8. El último de los modelos contiene todas las interacciones de segundo orden y es el más parametrizado antes de llegar al saturado. El modelo (8. uA = i dB dC j=1 k=1 (8. (8.14) El modelo (8. k y teniendo en cuenta las restricciones de suma cero.10) (8. como: log(pijk ) = u + uA + uB + uC i j k log(pijk ) = u log(pijk ) = u log(pijk ) = u log(pijk ) = u + uA i A + ui + uA i A + ui + + + + uB j B uj uB j B uj + uC k C + uk + uC k C + uk + + + + AB uij AC uik AC uik AB uij (8. sumando (8.6) (8.11) incorpora una interacción entre los caracteres A. B y C. i=1 j=1 k=1 (8. B: el efecto de cada nivel i de A no es idéntico para cualquier nivel j de B.5) (8. sino que combinaB ciones ij particulares tienen efecto sobre log(pijk ) que difiere de la suma uA + uj . k llegamos a   dB dC 1  dB dC u + log(pijk ) .13). Los parámetros de un modelo logarítmico-lineal son funciones de log(pijk ).13) + uBC . tenemos: 1 u= dA dB dC dA dB dC log(pijk ).11) (8.10) corresponde a la independencia entre los tres caracteres.10) respecto de i.8) uAB = ij j i uAB = 0 ij AC uik = 0 k uAC ik i BC ujk j = = k uBC = 0 jk uABC = ijk j k uABC ijk i = uABC = 0.88 CAPÍTULO 8.15) Si ahora sumamos la misma igualdad sobre j. A.4).9) El modelo (8.12) + uBC jk + uAC ik (8. i analogamente con (8.16) .7) (8. j. por ejemplo.12) y (8. DATOS CATEGÓRICOS MULTIVARIANTES al objeto de identificar todos los parámetros (y de hacerlos interpretables) necesitamos restricciones del tipo: uA = i i j B uj = k uC = 0 k (8.4) está saturado:utiliza tantos parámetros libres como celdas.

Agresti (1990) y Plackett (1974). Los estimadores máximo verosímiles de los parámetros se pueden obtener así de los de los términos pijk . Nótese que los resultados son los j k mismos cuando consideramos cualquiera de los modelos más parametrizados (8.11)– (8. k llegamos a uA i 1 = dB dC dB dC j=1 k=1 1 log(pijk ) − da dB dC dA dB dC log(pijk ). el algoritmo de reescalado iterativo permite la estimación cómoda de cualquier modelo logarítmico lineal.5.8. ˆ En la práctica.16) llegamos a: Si ahora sumamos la misma igualdad sobre j.5.17) y análogamente para los términos restantes. Sustituyendo (8.13). . y éstos son simplemente pijk = xijk /N . i=1 j=1 k=1 (8. LECTURA RECOMENDADA 89 y análogamente para los parámetros uB y uC .15) en (8. (1975). Lectura recomendada Son buenas introducciones Bishop et al. 8. Fienberg (1980).

DATOS CATEGÓRICOS MULTIVARIANTES .90 CAPÍTULO 8.

p N como se ha indicado.001 0.001 0.Capítulo 9 Análisis de Correspondencias Es una técnica para producir representaciones planas relacionando las observaciones (filas) y variables (columnas) en una tabla de contingencia. La condición de tabla de contingencia de los datos de partida sugiere no obstante algunas alteraciones.1. dos filas i. Análisis de las filas de X 9. parecería lo indicado un análisis en componentes principales como el descrito en el Capítulo 5.75 %).002 0.1. 9. Es el caso de la Tabla 7.015 0.02 0. Consideremos la matriz F y.0750 fj. es una tabla de contingencia. Emplearemos la siguiente notación: 9. j como las siguientes: i j 0.1. es decir.02 0.01 0. Sea T = i=1 j=1 xij .0015 0.1. = 0. aunque por comodidad el número de hogares se haya expresado en miles.5 % de los casos totales frente a sólo un 0.1.0075 Es aparente que la fila i está mucho más poblada que la fila j (un 7.002 fi. Distancia entre las filas de la matriz de datos Si quisiéramos obtener una representación en pocas dimensiones de las filas de la matriz X. Notación El punto de partida será una matriz de datos X de dimensiones N × p que. dentro de ella. Si prescindimos de este efecto debido 91 . = 0.01 0.2. una tabla cada una de cuyas casillas recoge números naturales.

fN.30 − 0.01)2 = 0. en la diagonal principal.l por un lado y d(k. 2 = (0. . .29)2 = 0. m) por otro. 2 (9.1) (9. si computamos la distancia euclídea ordinaria d(k. ). . = p fij j=1 f.15 0.j c f Df Dc Elemento genérico xij fij = T −1 xij fi.j = N fij i=1 Descripción Tabla de contingencia original N × p. f. Matriz de frecuencias relativas N × p. Matriz diagonal p × p con f.29 0.0002 Esto es claramente indeseable en general: no es lo mismo una discrepancia de 0. pero hay otra peculiaridad a la que debemos enfrentarnos. y así para todas las demás. Podríamos pensar que tras hacer esta corrección sólo resta realizar un análisis en componentes principales convencional. parece que deberíamos corregir el efecto tamaño aludido.015 / 0.30 0.30 Observemos que. En este último caso. al tamaño. f ′ = (f1. obtenemos: p d2 (k. . la primera categoría se presenta en i con una frecuencia intrafila de 0. . ANÁLISIS DE CORRESPONDENCIAS Cuadro 9.10 0. fN. lo que se logra sustituyendo cada fij por fij /fi.2) (9.10 0. .02 − 0. que es lo mismo que reemplazar en nuestro análisis la matriz F por Df −1 F .02.29 y 0. totales marginales columnas.02 0.02 0. vemos no obstante que las frecuencias relativas intrafila de las cinco categorias consideradas en las columnas son idénticas en ambas filas. l) e = j=1 p flj fkj − fk. Matriz diagonal N × N con f1.43 − 0. . totales marginales filas. Por ejemplo. c ′ = (f.p ).44)2 + (0.4) = (0.44 0.44 0. . Total marginal fila i-ésima de F . En consecuencia. fl.10 0. .30 que entre 0.075 = 20 % y de exactamente el mismo valor en la fila j. fm. Total marginal columna j-ésima de F .1 .15 0.01 entre 0.92 CAPÍTULO 9.1: Notación empleada Símbolo X F fi. . . si aspiramos a hacer una análisis que describa las diferencias relativas entre las filas.p en la diagonal principal. f.43 0. un carácter raro en .44)2 + (0. Imaginemos tres filas de Df −1 F tales como las siguientes: k l m 0.01 0. f. m) = e j=1 fkj fmj − fk.1 .3) (9.01 y 0.0002 d2 (k.43 − 0. l) entre las filas k.15 0.

.43 y 0.3. una vez que he1 mos decidido hacerlo sobre Df −1 F Dc − 2 . El estimador ordinario (y máximo verosímil. un análisis sobre Df −1 F Dc − 2 haciendo uso de distancias euclídeas equivale al análisis sobre Df −1 F haciendo uso de distancias χ2 . . es la estimación de la matriz de covarianzas. f. cuya i-ésima fila es de la forma fip fi2 fi1 √ .9) = N −1 Y ′ Y − (N −1 Y ′ 1N )(N −1 1N ′ Y ). que si sustituimos la matriz Df −1 F por Y = Df −1 F Dc − 2 .j fkj flj − fk. f.6) Por su semejanza formal con el estadístico χ2 se denomina a la distancia anterior distancia χ2 .1.j (9.. 9. y el hecho de que en la comunidad l este tanto por uno es doble que en la k no dejaría de atraer nuestra atención.7) = N −1 i=1 (9.. hay razón para ponderar diferentemente las discrepancias en los diferentes caracteres.j fl. f.44 podrían recoger el tanto por uno de personas que han padecido un resfriado común en las comunidades k y m: difícilmente consideraríamos la discrepancia como relevante. y una forma intuitivamente atrayente de hacerlo es sustituir la distancia euclidea ordinaria por: p d (k. y tenderíamos a atribuir a este hecho mucha mayor significación. 1 Observemos. f. ANÁLISIS DE LAS FILAS DE X 93 ambas filas lo es mucho más en una (la m) que en otra (la k).9. En cambio. l) = j=1 p 2 1 f.5) 2 = j=1 flj fkj − fk. Matriz de covarianzas muestral El último paso previo al análisis en componentes principales. √ . En consecuencia. fi. la segunda columna podría reflejar el tanto por uno de personas atacadas por una enfermedad muy infrecuente. 2 (9. fl. en el caso de muestras procedentes de observaciones normales) es: N ˆ Σ = N −1 i=1 N (yi − y)(yi − y) ′ yiyi ′ − yy ′ (9. Por ejemplo.1 fi.p 1 .2 fi.1..8) (9. 0. si las cifras anteriores reflejaran la prevalencia de determinadas enfermedades en distintas comunidades. f.

10) que supone dar peso fi. Notemos. y utilizar sólo las restantes (ordinariamente. tenemos que ˆ 1 Σc 2 = Y ′ Df Y − c 2 c 2 1 1 1 1 1 1 1 1 ′ c2 1 = Dc − 2 F ′ Df −1 Df Df −1 F Dc − 2 c 2 − c 2 = Dc − 2 F ′ Df −1 F 1p − c 2 = Dc − 2 F ′ Df −1 f − c 2 = 0. que c 2 es vector propio de 1 ˆ Σ asociado a un valor propio nulo. es razonable reemplazar el estimador anterior por: ˆ Σ = Y ′ Df Y − (Y ′ Df 1N )(1N ′ Df Y ). . marginales difieren. en consecuencia. . tenemos que 1 1 ˆ Σai = Y ′ Df Y − c 2 c 2 ′ ai = Y ′ Df Y ai. que tras sucesivas transformaciones se ha 1 convertido en Y = Df −1 F Dc − 2 — son en general más importantes que otras: sus totales fi. (9. hecho del que haremos uso en breve. Finalmente. Por ello. en lugar de 1/N a la fila i-ésima de Y . . ˆ como los restantes vectores propios ai (i = 1. se presenta de nuevo la peculiariedad de que unas observaciones —filas de la matriz X. . Además. = Dc − 2 c − c 2 1 1 1 1 1 1 = Y ′ Df Y c 2 − c 2 Por tanto. observemos que Y ′ Df Y = Dc − 2 F ′ Df −1 Df Df −1 F Dc − 2 = 1 1 1 1 Dc − 2 F ′ Df − 2 Df − 2 F Dc − 2 y denotando Z = Df − 2 F Dc − 2 1 1 1 1 (9. ANÁLISIS DE CORRESPONDENCIAS ello supone dar a cada observación un peso de 1/N . Con las anteriores modificaciones estamos ya en situación de hacer un análisis 1 en componentes principales.11) vemos que la matriz que diagonalizamos puede expresarse como Z ′ Z. lo que es razonable en el caso de muestrear de forma aletoria simple una población. En el caso que nos ocupa.94 CAPÍTULO 9. y podemos diagonalizar esta última matriz. podemos prescindir de una componente principal que no explica ninguna varianza. las dos primeras). los vectores propios correspondientes a valores propios no nulos ˆ de Σ coinciden con los de Y ′ Df Y . en primer lugar. p − 1) de Σ son ortogonales a 1 c 2 . como Y ′ Df 1N = Dc − 2 F ′ Df −1 Df 1N = 1 c 2 . En efecto. .

14) (9. buscamos una representación de baja dimensionalidad de los p vectores en RN constituidos por las columnas de X. Reciprocidad y representación conjunta Sean A y B las matrices que tienen por columnas los vectores propios de Z ′ Z y ZZ ′ respectivamente. Análisis de las columnas de X Podríamos ahora realizar un análisis en componentes principales de las columnas de la matriz X. Y Dc Y = Df − 2 F Dc −1 Dc Dc −1 F ′ Df − 2 = ZZ ′ con Z definida como anteriormente. 1 1 (9.13) tenemos que: R = Df −1 F Dc − 2 Dc − 2 F ′ Df − 2 BΛ− 2 = Df = Df Análogamente.12) (9.14). En consecuencia. Haciendo uso de la definición de Z en (9. es decir.21) F RΛ .11) y de (9.16) (9.9.2.18) −1 F Dc −1 F Df C ′ −1 2 BΛ −1 2 −1 F CΛ 1 −2 (9.2.20) (9. intercambiando los papeles ˜ ˜′ ˜ de filas y columnas.17) (9. ANÁLISIS DE LAS COLUMNAS DE X 95 9.11) y (7. Una discusión del todo paralela a la precedente. en que Y = 1 1 1 ′ ˜ ˜ Df − 2 F Dc −1 . ˜ en tanto la representación de las columnas de Y viene dada por 1 ˜′ C = Y B = Dc −1 F ′ Df − 2 B. nos llevaría a diagonalizar la matriz Y Dc Y . por ser vectores propios respectivamente de matrices que podemos escribir como Z ′ Z y ZZ ′ respectivamente. La representación de las filas de Y mediante todas las componentes principales viene entonces dada por R = Y A = Df −1 F Dc − 2 A. 1 (9.19) AΛ −1 2 F Df ′ ′ −1 2 −1 2 Df 1 −2 F Dc (9.3. C = Dc −1 F ′ Df − 2 ZAΛ− 2 = Dc = Dc −1 −1 1 1 1 −2 1 1 1 1 (9.15) Tomemos la expresión (9.12) tenemos que: R = Y A = Df −1 F Dc − 2 Z ′ BΛ− 2 1 1 ˜′ C = Y B = Dc −1 F ′ Df − 2 ZAΛ− 2 . Haciendo uso de (7.13) Notemos sin embargo que las columnas de A y las de B están relacionadas. 9.

. . es decir. Consideremos. entre la bibliografía en español. si fij /fi. + cpk .4. como un promedio ponderado de la coordenada homóloga de las columnas. Análogamente para la representación de las columnas..18). las del punto que representa a la variable j. Lectura recomendada Una introducción al Análisis de Correspondencias puede encontrarse tanto en Cuadras (1981) como en Peña (2002). fi. su k-ésima coordenada puede expresarse así: rik = λk 2 −1 fip fi1 c1k + . con pesos dados por fip fi1 . fi.96 CAPÍTULO 9. también será de utilidad. . fi.. y el punto que representa a dicho perfil fila tendrá sus coordenadas “atraidas” hacia las de cj . la variable j tiene gran relevancia en el perfil fila i.21) se conocen como de reciprocidad baricéntrica y son las que permiten interpretar las posiciones relativas de filas y columnas. es muy grande.18)-(9. ANÁLISIS DE CORRESPONDENCIAS Las relaciones (9. 9. De acuerdo con (9. por ejemplo. Escofier and Pages (1984). .. la i-ésima fila ri de R. . fi.

Y ) = traza((X − Y )(X − Y ) ′ ) = i=1 ||xi − yi||2 (10. El análisis Procrustes tiene por objeto examinar en qué medida dos configuraciones de puntos en el espacio euclídeo son similares. Las filas yi y xi de las matrices Y y X respectivamente proporcionan las coordenadas del punto i en las dos configuraciones. Como medida de ajuste entre ambas tomaremos N G(X. Seguimos en la exposición a Sibson (1978). Y ) = traza((X − g(Y ))(X − g(Y )) ′ ). (10.2) para una clase de transformaciones g(. g(Y ) = ρ(Y − 1 ′ a)P 97 (10. Específicamente buscaremos evaluar G(X. Existen generalizaciones a más de dos configuraciones (ver por ej. Introducción. Gower (1975)).1. Por tanto.1) Para examinar si las dos configuraciones son similares.3) . pero aquí sólo trataremos el caso más simple. rotaciones y contracciones/expansiones. Consideremos dos configuraciones de N puntos en el espacio euclídeo Rk representadas por sendas matrices X e Y de dimensión N × k.Capítulo 10 Análisis Procrustes 10.) incluyendo la composición de traslaciones. nos fijaremos en si conservan la posición relativa de los puntos excepto por transformaciones “simples” como traslaciones o cambios de escala.

Estamos interesados en encontrar Gm´ (X. g(Y )) = m´ G(X. traza(P ′ A) ≤ traza((A ′ A) 2 ) y la igualdad se verifica sólamente si P ′ A = (A ′ A) 2 .6) 1 1 (10. D EMOSTRACION : Consideremos la descomposición en valores singulares (fue introducida en la Sección 7.7) y se verificará la igualdad sólo cuando V ′ P ′ U S = S. a un vector de constantes y ρ un coeficiente de contracción o expansión de la escala. esto último acontece.) de la forma descrita en (10. Tendremos: traza(P ′ A) ≤ traza(S) (10.5). Por tanto.3). Llamaremos Γ al conjunto formado por todas las transformaciones h(. V son matrices ortogonales. en que S es la matriz de valores singulares (no negativos) y U . traza(P ′ A) = traza(P ′ U SV ′ ) = traza(V ′ P ′ U S). y esto junto con (10. Entonces.2. por ejemplo. 1 ⇒ P ′ A = (V S 2 V ′ ) 2 ⇒ P ′ A = V SV ′ 1 1 . para P ′ = V U ′ . ρ(Y − 1 ′ a)P ) ın ın ρ. (10. la traza del término derecho de la ecuación anterior será la suma de los elementos diagonales de S multiplicados por números menores que la unidad. pág. Entonces.P.5) Pero V ′ P ′ U es una matriz ortogonal que nunca tendrá valores mayores que 1 en la diagonal principal.8) ⇒ P ′ A = (V SU ′ U SV ′ ) 2 ⇒ P ′ A = (A ′ A) 2 . 75) A = U SV ′ .4) y los correspondientes valores ρ. Veamos ahora la segunda aseveración. a para los que el mínimo se alcanza.7) establece (10.98 CAPÍTULO 10. 10.1 Sea A una matriz cuadrada y P cualquier matriz ortogonal.a (10. ANÁLISIS PROCRUSTES siendo P una matriz ortogonal. Pero traza(S) = traza((S ′ S) 2 ) = traza((V ′ A ′ U U ′ AV ) 2 ) = traza((A ′ A) 2 ). De V ′P ′U S = S se deducen las siguientes desigualdades: P ′ U SV ′ = V SV ′ 1 1 1 (10. Obtención de la transformación Procrustes Lema 10.1. P.

10.2. OBTENCIÓN DE LA TRANSFORMACIÓN PROCRUSTES

99

lo que finaliza la demostración. Podemos ahora resolver el problema de minimización (10.4).

10.2.1. Traslación a
Sean x, y los vectores de medias aritméticas de las columnas de (respectivamente) X e Y . Definamos las matrices X = 1x ′ Y y versiones centradas de X e Y así: ˜ X = X −X ˜ Y = Y −Y. Observemos que G(X, Y ) = traza((X − Y )(X − Y ) ′ ) ′ ˜ ˜ ˜ ˜ ′ = traza((X − Y )(X − Y ) ) + N traza((X − Y )(X − Y ) ) ′ ˜ ˜ = G(X, Y ) + N traza((X − Y )(X − Y ) ); ello muestra que G(X, Y ) se hace mínimo cuando se calcula para configuraciones de puntos cuyos centroides han sido llevados a un origen común. = 1y ′ .

10.2.2. Rotación P .
˜ ˜ ˜ Sean X e Y configuraciones centradas. Sean todas las transformaciones Y P en que P es una matriz ortogonal k × k. Tenemos ˜ ˜ ˜ ˜ ˜ ˜ ′ G(X, Y P ) = traza((X − Y P )(X − Y P ) ) ˜ ˜′ ˜˜′ ˜′˜ = traza(X X ) + traza(Y Y ) − 2 traza(P ′ Y X) ˜ ˜′ ˜˜′ ≥ traza(X X ) + traza(Y Y ) ˜ ′˜ ˜ ′ ˜ 1 −2 traza(X Y Y X) 2 (10.9) en que el último paso hace uso del Lema 10.1. De acuerdo con dicho lema, el valor ˜ ′ ˜ ˜ ′˜ ˜ ′ ˜ 1 dado por (10.9) es alcanzable haciendo P = Y X(X Y Y X)− 2 .

10.2.3. Parámetro de escala ρ
El parámetro de escala es ahora muy fácil de obtener. Notemos que dejamos ˜ ˜ inalterada la escala de las X y cambiamos sólo la de las Y . De otro modo, siem˜ ˜ pre podríamos obtener un valor de G(X, Y P ) tan pequeño como deseáramos, sin

100

CAPÍTULO 10. ANÁLISIS PROCRUSTES

más que colapsar ambas configuraciones en una región arbitrariamente pequeña en torno al origen. Tenemos entonces que minimizar ˜ ˜ ˜ ˜′ ˜˜′ ˜ ′˜ ˜ ′ ˜ 1 (10.10) G(X, ρY P ) = traza(X X ) + ρ2 traza(Y Y ) − 2ρ traza(X Y Y X) 2 , ecuación de segundo grado en ρ cuyo mínimo se alcanza para: ρ= ˜ ′˜ ˜ ′ ˜ 1 traza(X Y Y X) 2 . ˜˜′ traza(Y Y ) (10.11)

10.3. Análisis y comentarios adicionales
Si reemplazamos el valor de ρ obtenido de (10.11) en la ecuación (10.10) obtenemos: ˜ ′˜ ˜ ′ ˜ 1 2 ˜ ρY P ) = traza(X X ′ ) + traza(X Y Y X) ˜ ˜ ˜ Gm´ (X, ın ′ ˜˜ traza(Y Y ) ˜ ′˜ ˜ ′ ˜ 1 traza(X Y Y X) 2 −2 ˜˜′ traza(Y Y ) que tras simplificar proporciona: ˜ ′˜ ˜ ′ ˜ 1 2 ˜ ρY P ) = traza(X X ′ ) − traza(X Y Y X) ˜ ˜ ˜ Gm´ (X, ın ′ ˜˜ traza(Y Y ) ′ ˜ ˜ ˜˜′ = traza(X X ) − ρ2 traza(Y Y ) Reordenando la última igualdad tenemos: ˜ ˜ ˜˜′ ˜ ˜′ Gm´ (X, ρY P ) + ρ2 traza(Y Y ) = traza(X X ). ın (10.12) ˜ ′˜ ˜ ′ ˜ 1 traza(X Y Y X) 2
2

˜˜′ traza(Y Y )

˜ ′˜ ˜ ′ ˜ 1 traza(X Y Y X) 2

Podemo interpretar la igualdad (10.12) así: la “suma de cuadrados” de las distan˜ ˜˜′ cias euclídeas de la configuración original X se descompone en ρ2 traza(Y Y ) más una “suma de cuadrados de los errores”, Gm´ , que es lo que hemos minimizaın do. La igualdad (10.12) es así análoga a la que descompone la suma de cuadrados en el análisis de regresión o ANOVA. Es de destacar que ρ al ajustar la configuración Y a la X no es en general el mismo (ni el inverso) del que se obtiene al ajustar la configuración X a la Y . ˜ ˜′ Sin embargo, si normalizamos las configuraciones de modo que traza(X X ) = ′ ˜˜ traza(Y Y ) = 1, ρ es el mismo en ambos casos, y la igualdad (10.12) se transforma en: ˜ ˜ Gm´ (X, ρY P ) + ρ2 = 1. ın (10.13)

En tal caso, ρ2 es directamente interpretable como la fracción de “suma de cuadrados” de distancias que la configuración adaptada es capaz de reproducir: ρ2 juega aquí un papel similar al de R2 en regresión.

Capítulo 11

Reescalado Multidimensional

11.1. Introducción.
Las técnicas conocidas colectivamente como de reescalado multidimensional (RM) (Multidimensional Scaling, MDS) tienen por objeto producir representaciones de reducida dimensionalidad de colecciones de objetos. Se diferencian del Análisis en Componentes Principales, Análisis Factorial y AC en el punto de partida. Mientras que en las técnicas citadas cada objeto viene descrito por un vector xr que proporciona su posición en un espacio p-dimensional, en el caso de del Reescalado Multidimensional el punto de partida es una matriz de proximidades. Esta matriz puede contener disimilaridades, δij en que un mayor valor δij corresponde a una mayor desemejanza entre los objetos i y j o similaridades, verificando lo contrario. No se hacen en principio supuestos acerca de la naturaleza de las similaridades o disimilaridades, que pueden obtenerse de muy diversos modos. Típicamente proceden de promediar las percepciones declaradas de un colectivo de sujetos interrogados, pero pueden tener cualquier otro origen. El objetivo del Reescalado Multidimensional es producir una configuración de puntos, idealmente de muy baja dimensión, cuya distancia euclídea ordinaria reproduzca con la máxima fidelidad las disimilaridades δij . Ejemplo 11.1 (semejanza entre códigos del alfabeto Morse) En Borg and Groenen (1997), p. 54 se presenta un experimento realizado por Rothkopf (1957). Un colectivo de individuos escucha parejas de símbolos codificados en el alfabeto Morse, respondiendo si a su juicio son iguales o no. Para la pareja formada por los símbolos i y j se computa la disimilaridad δij como el porcentaje de respuestas equivocadas (es decir, en las que el sujeto manifiesta que los dos símbolos no son iguales cuando lo son, o al contrario). 101

La configuración de puntos en dos dimensiones no reproduce con total fidelidad las posiciones de las capitales. B = XX ′ es cuadrada. Ejemplo 11. 103 muestra el resultado de realizar un tipo de análisis de Reescalado Multidimensional. REESCALADO MULTIDIMENSIONAL Hay símbolos que son fácilmente reconocibles como diferentes. Claramente. en cambio. En el lugar ij. Puede verse la configuración bidimensional y una interpretación de la misma en Borg and Groenen (1997). La configuración de puntos en dos dimensiones proporcionada por las técnicas de Reescalado Multidimensional debería aproximar la ubicación de las respectivas capitales de provincia. 11.5) . La distancia euclídea al cuadrado entre los puntos xr y xs vendría dada por: d2 = xr − xs rs 2 = (xr − xs ) ′ (xr − xs ).1) Sea X una matriz N × p cuya r-ésima fila es xr ′ . Por ejemplo. y de hecho son.3) (11.) y T (en Morse. podríamos construir una tabla de doble entrada cuyas filas y columnas se correspondieran con las capitales de provincia en España.2. (11.-. Obsérvese que pueden ser.. son fácilmente confundibles. porque las distancias consideradas lo son por carretera.4) (11.-). y Q -. simétrica y puede diagonalizarse: B = V ′ ΛV. Por ejemplo. E (en Morse. La Figura 11.2) ˜ A partir de una tal B podríamos encontrar una configuración de puntos X que la reproduce: 1 ˜ X = V ′Λ 2 1 ˜′ X = Λ 2 V. Obsérvese además que dos símbolos idénticos no siempre son reconocidos como tales. pág. Reescalado multidimensional métrico La presentación sigue a Cox and Cox (1994). -) aparecen en posiciones contiguas. y por tanto δii = 0 en general. podemos introducir como disimilaridad la distancia por carretera en kilómetros de una a otra. incluso por un oído no entrenado (por ej. . Imaginemos que tenemos las coordenadas de un conjunto de puntos. 59. diferentes los porcentajes de confusión al escuchar la misma pareja de símbolos en los dos órdenes posibles: por tanto podríamos desear considerar δij = δji .102 CAPÍTULO 11. Otros. Definamos la matriz B cuyo elemento genérico brs viene dado por xr ′ xs . El empleo de la técnica del Reescalado Multidimensional produce una mapa en dos dimensiones en que la ubicación relativa de los símbolos es la esperable a la vista de su duración y composición de puntos y rayas.2 (reconstrucción de mapas a partir de información sobre distancias) En ocasiones se emplea una matriz de disimilaridades obtenida de modo objetivo. (11.1. p. (11. R. .

600 Pontevedra Coru.2.11.o Soria Cuenca Donostia Pamplona 200 Sevilla Avila Ciudad. REESCALADO MULTIDIMENSIONAL MÉTRICO 103 Figura 11.a Orense Lugo 400 Oviedo Badajoz Cadiz Huelva Caceres Leon Zamora Salamanca Palencia Valladolid Santander Segovia Burgos Bilbao Vitoria Logro.Real Toledo Madrid 0 Cordoba Malaga Jaen Granada Guadalajara −200 Albacete Zaragoza Almeria Murcia Alicante Valencia Lerida Castellon Tarragona Barcelona Teruel Huesca −600 −400 Gerona −600 −400 −200 0 200 400 .1: Mapa reconstruido mediante reescalado multidimensional métrico a partir de las distancias por carretera entre capitales de provincia.

la solución estará indeterminada.9) 1 N2 s=1 N N r=1 s=1 xr ′ xr . y por comodidad podemos suponer la nube de puntos centrada.1) obtenemos: d2 = xr ′ xr + xs ′ xs − 2xr ′ xs .14) ..10) Por consiguiente.16) brs = ars − ar.10) tenemos que: brs = xr ′ xs = − 1 2 1 drs − 2 N + Llamando tenemos que en que ar. No perderemos generalidad si suponemos un origen arbitrario. La pregunta es si a partir de las distancias d2 podemos obtener una B para diagonalizarla.3). entonces B= I− 1 1 1 1′ A I − 1 1′ .6): 1 N 1 N N d2 = rs r=1 N 1 N 1 N 2 N N xr ′ xr + xs ′ xs r=1 N (11. (11. N N (11.13) 1 ars = − d2 .15) 1 N2 N (11. no puede haber solución única.11) d2 − rs 1 N N d2 rs s=1 (11. de (11. denota el promedio de ars al sumar sobre el índice s (y análogamente para a.6) que sumando respecto de r. REESCALADO MULTIDIMENSIONAL El problema de encontrar una configuración de puntos que reproduce una cierta B. 2 rs (11. y si A es una matriz cuyo elemento genérico es ars .s + a. al menos en tanto en cuanto dicha matriz B sea semidefinida positiva y admita una diagonalización como (11. por tanto.104 CAPÍTULO 11.7) y haciendo uso de (11. Por tanto. es decir: 1 N De (11. rs r=1 s=1 (11. porque toda traslación..s ). r=1 (11.8) d2 = rs d2 = rs xs ′ xs + xr ′ xr s=1 N (11.8) a (11. y a.7) N xr = r=1 1 N N xs = 0. rs Claramente.12) r=1 N N d2 . s y respecto de ambos índices a la vez proporciona en virtud de (11. s=1 (11. está resuelto. rs (11. rotación o reflexión de una configuración de puntos deja sus distancias invariadas. − a.

˜ 5: Obtener la configuración de puntos X: 1 ˜ ← V ′Λ 2 . 1 2: A ← − 2 d2 . REESCALADO MULTIDIMENSIONAL MÉTRICO 105 Hemos pues construido a partir de la matriz de distancias una matriz B a la que aplicar la factorización en (11.1. > distan <. en tal caso. X y retener el número de columnas deseado (normalmente. El reescalado multidimensional métrico aplicado a una B procedente de una configuración de puntos en el espacio euclídeo no difiere pues (salvo en traslaciones.3). Siempre hay un c que hace que B obtenida a partir de las disimilaridades así transformadas sea semidefinida positiva.3) y los datos están centrados como hemos supuesto en (11. o alterar la matriz de disimilaridades inicial añadiendo una constante c a cada disimilaridad drs con r = s. Obsérvese que si realmente existe una configuración de puntos X con matriz B dada por (11. es frecuente prescindir de los valores propios negativos. rotaciones o reflexiones) de la solución que obtendríamos mediante un análisis en componentes principales de los datos originales.11.1 Este es el código empleado en R para construir el mapa en la Figura 11. CUESTIONES. Tenemos pues el siguiente algoritmo: Algoritmo 1 – Reescalado multidimensional métrico.2.6). COMPLEMENTOS Y COSAS PARA HACER 11. 4: Diagonalizar B: B = V ′ ΛV. 2). B tiene los mismos valores propios que X ′ X. alternativamente.3). añadir una constante a las disimilaridades no diagonales. Ello será imposible cuando B tenga valores propios negativos. Es fácil ver entonces que las columnas ˜ de X no son otra cosa que las componentes principales. 1: Obtener una matriz de disimilaridades. prescindir de los valores propios no positivos de B. si no son muy grandes. Si no fuera semidefinida positiva.1:5] Albacete Alicante Almeria Avila Badajoz Albacete 0 171 369 366 525 Alicante 171 0 294 537 696 Almeria 369 294 0 663 604 Avila 366 537 663 0 318 . El objeto spain es una matriz triangular superior conteniendo las distancias en kilómetros entre capitales de provincia. y recalcular. No siempre ocurrirá que B obtenida a partir de una matriz de disimilaridades pueda ser factorizada en la forma (11. rs 1 1 3: B ← I − N 1 1 ′ A I − N 1 1 ′ .spain + t(spain) > distan[1:5.

2] > postscript(file="mapa.loc[.106 CAPÍTULO 11. y.cmdscale(distan. REESCALADO MULTIDIMENSIONAL Badajoz 525 696 604 318 > library(mva) > loc <.eps") > plot(x. names(distan)) 0 .1] > y <. xlab="". y.loc[. ylab="") > text(x. type="n".k=2) > x <.

El problema que nos planteamos es el siguiente: tenemos una muestra de casos clasificados en dos o más grupos. Además de la clase o grupo a que pertenece cada caso.1. 107 . Inicialmente consideraremos sólo dos grupos. Ello permite clasificar casos no pertenecientes a la muestra de entrenamiento. La información disponible puede por tanto describirse como en la Tabla 12. y estamos interesados en saber si los valores de dichas p variables tienen alguna relación con la pertenencia a un grupo u otro. k = 1. que permitan evaluar lo mejor posible ésta última como función de las primeras. para generalizar el análisis a continuación. 2. Se trata. Es quizá el segundo objetivo el más usualmente perseguido. no perteneciente a la muestra de entrenamiento. observamos p variables o características.Capítulo 12 Análisis discriminante 12. si estamos sólo interesados en poner en evidencia la capacidad discriminante de un cierto conjunto de variables. Decisional. Un análisis discriminante puede tener objetivo: Descriptivo. Los ejemplos siguientes muestran algunas de las muchísimas aplicaciones que se han dado al método. si buscamos un criterio que nos permita decidir sobre la adscripción a uno de los grupos de un caso nuevo. de emplear la muestra de entrenamiento para buscar relaciones entre las variables X y la variable Ck . Introducción. indicativas de la pertenencia del caso correspondiente al primer o segundo grupo. en que las X son las características observadas y la variable C toma dos valores. C1 ó C2 .1.

108

CAPÍTULO 12. ANÁLISIS DISCRIMINANTE

Cuadro 12.1: Muestra de entrenamiento en análisis discriminante con dos grupos X11 X21 . . . XN1 1 XN1 +1,1 XN1 +2,1 . . . XN1 +N2 ,1 ... ... ... ... ... ... X1p X2p . . . XN1 p XN1 +1,p XN1 +2,p . . . XN1 +N2 ,p C1 C1 . . . C1 C2 C2 . . . C2

Ejemplo 12.1 (recuperación de información perdida) En ocasiones, la variable Ck se ha perdido irreversiblemente. Por ejemplo, un esqueleto hallado en una necrópolis no contiene atributos que permitan su adscripción directa a un hombre o mujer. Sin embargo, si contamos con una muestra de entrenamiento formada por esqueletos de los que sabemos si pertenecen a hombres y mujeres (por ejemplo, por la naturaleza de los objetos encontrados en el enterramiento), podemos tratar de ver si existe alguna asociación entre las medidas de los diversos huesos (las X) y el sexo del fallecido (Ck ). Esto permite clasificar un nuevo esqueleto del que sólo observamos las X. Ejemplo 12.2 (información accesible al hombre, pero no a la máquina) Hay problemas en los que la adscripción de un caso a un grupo es muy fácil de decidir para un humano, pero no para una máquina. Por ejemplo, reconocemos fácilmente las letras del alfabeto, incluso manuscritas. Sin embargo, el reconocimiento de las mismas por una máquina (a partir, por ejemplo, de una imagen explorada ópticamente), dista de ser trivial. En un caso como éste, las variables X serían binarias (0=elemento de imagen o pixel blanco, 1=negro) o rasgos (features) que facilitaran la discriminación (por ejemplo, ratio altura/anchura de la letra, existencia de descendentes, . . .). Ejemplo 12.3 (predicción) En ocasiones, la adscripción a grupo es todavía incierta o inexistente, y el tratar de anticiparla es del mayor interés. Por ejemplo, sobre la base de análisis clínicos (cuyos resultados serían las X) un médico puede tratar de clasificar sus pacientes en aquéllos que presentan grave riesgo de padecer un infarto y aquéllos que no. Análogamente, sobre la base de información sobre un cliente podemos intentar decidir si comprará o no un producto, o si entrará o no en morosidad si se le concede un crédito. En ambos casos, la variable Ck todavía no ha tomado un valor, pero con ayuda de una muestra de casos en que si lo ha hecho, tratamos de anticipar el valor probable a la vista de las variables X observables.

12.2. DISCRIMINACIÓN MÁXIMO-VEROSÍMIL

109

Es importante notar que estamos ante un problema genuinamente estadístico, y no podemos habitualmente esperar un discriminación perfecta. Los grupos pueden tener cierto solapamiento (por ejemplo, de dos pacientes con exactamente los mismos valores de X, uno puede padecer un infarto y otro no). Es también de interés señalar que es específico al análisis discriminante el contar con una muestra de entrenamiento: sabemos de partida a qué grupos pertenecen los componentes de la misma. Otro grupo de técnicas relacionadas (análisis de agrupamientos o análisis cluster) aborda el problema en que sólo conocemos las X, y queremos decidir sobre la existencia o no de grupos, cuantos, y cuáles. En la literatura sobre Inteligencia Artificial, técnicas como las del análisis discriminante se engloban en la denominación aprendizaje supervisado, en tanto las del análisis de agrupamientos se describen como aprendizaje no supervisado.

12.2. Discriminación máximo-verosímil
Una manera conceptualmente simple e intuitiva de resolver el problema es abordarlo con criterio máximo verosímil. Asignaremos una observación con X = x a la clase Ck si ésta tiene óptima capacidad generadora de la misma, es decir, si f (x|Ck ) = m´x f (x|Cj ). a
j

(12.1)

Al margen de su carácter intuitivamente atrayente, es fácil demostrar que asignar a Ck cuando se verifica (12.1) minimiza la probabilidad total de error de asignación. En efecto, cualquier regla discriminante puede verse como una partición {R1 , R2 } del dominio de definición X de las X, de forma que x ∈ R1 suponga asignar a C1 y x ∈ R2 suponga asignar a C2 . La probabilidad total de error, P (e), es entonces P (e) =
R1

f (x|C2 )dx +
R2

f (x|C1 )dx f (x|C1 )dx
X −R1

(12.2) (12.3)

=
R1

f (x|C2 )dx +

La primera integral en (12.2) es la probabilidad de que un caso perteneciente a la clase C2 (con densidad por tanto f (x|C2 )) esté en R1 . El valor de la integral es por tanto la probabilidad de uno de los tipos posibles de error: el de clasificar en C1 (por ser x ∈ R1 ) un caso que en realidad pertenece a C2 . Análogamente, la segunda integral es la probabilidad de clasificar en C2 un caso perteneciente a C1 . En (12.3), P (e) ha de minimizarse sobre R1 . Es claro entonces que, siendo los integrandos necesariamente no negativos, convendrá incluir en R1 todos aquellos puntos de X tales que f (x|C2 ) < f (x|C1 ) y en R2 los que verifiquen lo contrario1 . Esta es precisamente la regla (12.1).
1 A efectos de probabilidad de error, los puntos verificando f (x|C2 ) = f (x|C1 ) pueden arbitrariamente asignarse a cualquiera de las dos clases.

110

CAPÍTULO 12. ANÁLISIS DISCRIMINANTE
Formalmente, de (12.3) obtenemos: P (e) =
R1

f (x|C2 )dx +
X

f (x|C1 )dx −

f (x|C1 )dx
R1

(12.4) (12.5)

=
R1

(f (x|C2 ) − f (x|C1 ))dx + 1

expresión que claramente queda minimizada si tomamos como R1 la región de X definida así: R1 = {x : f (x|C2 ) − f (x|C1 ) ≤ 0} (12.6)

La regla de asignación indicada puede además con gran facilidad modificarse de modo que tenga en cuenta información a priori y/o diferentes costos de error en la clasificación. Esta cuestión se detalla en la Sección que sigue, que generaliza y amplía la regla de asignación máximo verosímil dando entrada a información a priori. Ejemplo 12.4 Las situaciones de fuerte asimetría en los costes de deficiente clasificación son la regla antes que la excepción. Por ejemplo, puede pensarse en las muy diferentes consecuencias que tiene el clasificar a una persona sana como enferma y a una persona enferma como sana. En el primer caso, el coste será quizá el de un tratamiento innecesario; el el segundo, el (normalmente mucho mayor) de permitir que un paciente desarrolle una enfermedad que quizá hubiera podido atajarse con un diagnóstico precoz. Las situaciones con información a priori son también muy frecuentes. Un caso frecuente es aquél en que la abundancia relativa de los grupos es diferente, situación en la que tiene sentido adoptar probabilidades a priori diferentes para cada grupo (Sección 12.3).

12.3. Discriminación con información a priori
Es lo habitual que contemos con información a priori, distinta de la proporcionada por las X, acerca de la probabilidad de pertenencia a cada uno de los grupos considerados. Por ejemplo, si sabemos que la clase C1 es nueve veces más numerosa que la clase C2 en la población que analizamos, tendría sentido fijar a priori las probabilidades de pertenencia P (C1 ) = 0,9 y P (C2 ) = 0,1. La intuición sugiere, y el análisis que sigue confirma, que en tal situación la evidencia proporcionada por las X debería ser mucho más favorable a C2 para lograr la asignación a dicha clase que cuando ambas clases son igual de numerosas. El teorema de Bayes es cuanto necesitamos para incorporar información a priori a nuestra regla de decisión. En efecto, si consideramos la densidad conjunta f (x, Ck ) tenemos que: P (Ck |x) = f (x|Ck )P (Ck ) = f (x) f (x|Ck )P (Ck ) j f (x|Cj )P (Cj ) (12.7)

al ser en (12.01. tendríamos. que actuando así minimizamos la probabilidad total de error. con un 2 % de fallos. se obtienen lotes de muy mala calidad. (12.7) el mismo en todos los casos. {R1 . Podemos ver este problema de decisión como un problema de análisis discriminante.12) P (X = d|M ) = a la vista de lo cual concluiríamos que el lote es M . Por lo tanto. La situación es completamente diferente si consideramos la información a priori que tenemos. en efecto.12. Supongamos que examinamos una pieza extraída de un lote y resulta ser defectuosa. Supongamos que para decidir si un lote es “bueno” (B) o “malo” (M ) tenemos la posibilidad de extraer una pieza al azar del lote. pues .3. Con probabilidad 0.8) (12. Ejemplo 12.9) Un argumento idéntico al empleado en la sección anterior muestra.11) (12. DISCRIMINACIÓN CON INFORMACIÓN A PRIORI 111 La regla ahora será asignar x a aquella clase cuya probabilidad a posteriori P (Ck |x) sea máxima. en que observamos una única variable X —el estado de la pieza examinada— y hemos de decidir la clase a la que pertenece el lote muestreado (B ó M ). P (X = d|B) = 0. (12.02 0.99 se obtienen lotes casi perfectos. los resultados pueden en cambio variar sustancialmente. Cuando hay información a priori.1) y (12. que examinada puede ser “correcta” (c) ó “defectuosa” (d).10) Si todas las probabilidades a priori P (Ck ) son iguales. Obsérvese que. maximizar respecto a Ck el producto f (x|Ck )P (Ck ) es equivalente a maximizar P (Ck |x). R2 } definidas así: R1 = {x : f (x|C1 )P (C1 ) > f (x|C2 )P (C2 )} R2 = X − R 1 (12. Por otra parte. sin embargo. con un 30 % de piezas defectuosas. siendo el denominador de (12. una situación artificialmente simple de control de calidad presentada como un problema de análisis discriminante. lo muestra.7) el denominador siempre el mismo. Si nos limitamos a seguir el criterio máximo verosímil sin considerar la información a priori.30. El ejemplo siguiente. P (Ck |x) ∝ f (x|Ck )P (Ck ).10) alcanzan el máximo para la misma clase Ck . pues (12.5 Una prensa moldea piezas en lotes de 100 a la vez. La experiencia muestra que con probabilidad 0. podemos particionar X en dos regiones. P (Ck |x) ∝ f (x|Ck ) y la regla bayesiana coincide con la máximo verosímil.

8684 (12. o cualquier transformación monótona de los mismos.13) y (12.02 × 0. L = {ℓij }.3 × 0. como ya ha sido hecho notar. Obsérvese que. Un desarrollo idéntico al efectuado más arriba lleva a ver que la regla de clasificación minimizadora consiste en tomar R1 la región del espacio X definida así: R1 = {x : ℓ2 f (x|C2 )P (C2 ) − ℓ1 f (x|C1 )P (C1 ) ≤ 0} (12.02 × 0. En otras palabras.99 + 0. ANÁLISIS DISCRIMINANTE entonces hemos de comparar: P (B|X = d) = = P (M |X = d) = = P (X = d|B)P (B) P (X = d) 0. Las funciones discriminantes serán a yj (x) = f (x|Cj )P (Cj ). puede ser tratado de forma simple. 2) es el coste asociado a clasificar mal un caso del grupo i-ésimo. . es tan grande el “prejuicio” a favor de que el lote examinado sea bueno que no basta encontrar una sola pieza defectuosa para derrotarlo. se denominan funciones discriminantes. En la práctica. evaluaremos las funciones discriminantes yi (x). .02 × 0.13) 0. y luego basta evaluar cada una de ellas para los nuevos casos a clasificar.3 × 0.30 × 0. Estos numeradores.14) 0. pero la generalización a K grupos es inmediata.16) Hemos razonado para el caso de dos grupos. .1316 (12. i = 1.112 CAPÍTULO 12. . (j = 1. Para cada caso x a clasificar y grupo Cj .01 Pese a ser la pieza examinada defectuosa. (12.15) en que ℓi (i = 1. por lo que a efectos de decidir cuál es la clase con mayor probabilidad a posteriori bastaba con calcular los numeradores.01 P (X = d|M )P (M ) P (X = d) 0.15) son las probabilidades a posteriori de que un caso en el grupo C2 (o C1 ) quede clasificado en el grupo C1 (respectivamente C2 ). K. los denominadores en (12. .01 = 0. se estiman las funciones discriminantes con ayuda de la muestra de entrenamiento. la expresión a minimizar se transforma en C(e) = ℓ2 R1 f (x|C2 )P (C2 )dx + ℓ1 X −R1 f (x|C1 )P (C1 )dx(12.14) son idénticos.99 + 0. en que ℓij es el coste de clasificar en Cj un caso que pertenece a . la probabilidad a posteriori de que el lote examinado sea bueno sigue siendo superior.17) En el caso de que tengamos una matriz de costes asociados a deficiente clasificación.99 = 0. Si en lugar de la probabilidad de error minimizamos el coste medio total de error. Las integrales en (12. . K). Asignaremos al grupo k si yk (x) = m´xj yj (x). . arriba mencionado. . El caso de diferentes costes de error.

18). la expresión anterior es equivalente a −(x − µ1 ) ′ Σ−1 (x − µ1 ) + (x − µ2 ) ′ Σ−1 (x − µ2 ) ≥ 2 loge ℓ2 P (C2 ) ℓ1 P (C1 ) . (12. asignaríamos a Cj si j = arg m´ ın j i 113 ℓij f (x|Ci )P (Ci ). Σ).20) Simplificando y tomando logaritmos. 12. tenemos que estimar f (x|Ck ) y el modelo más frecuentemente utilizado es el normal multivariante. por ser adecuado a multitud de situaciones.12. sucede que los resultados a que da lugar son muy simples (variables discriminantes lineales.5 anterior) puede admitirse que dichas funciones son conocidas. en su caso. Si la aproximación normal no es buena. la discriminación lineal todavía es justificable desde perspectivas alternativas. k = 1. como veremos más abajo). que mencionaremos. a: 1 (2π)−p/2 |Σ|− 2 exp − 2 (x − µ1 ) ′ Σ−1 (x − µ1 ) −1 2 1 exp − 2 (x − µ2 ) ′ Σ−1 (x − µ2 ) 1 (12.18) Como funciones discriminantes yj (x) podríamos emplear cualesquiera que fueran transformaciones monótonas de las que aparecen en el lado derecho de (12. Pero en el caso más habitual. las probabilidades a priori de pertenencia a cada grupo.19) (2π)−p/2 |Σ| ≥ ℓ2 P (C2 ) . 12.4. Al margen de su interés y aplicabilidad en sí mismo. En ocasiones (como en el Ejemplo 12. Esto hace que las reglas discriminantes que describimos a continuación sean las más empleadas en la práctica. la regla de decisión consiste en asignar al grupo C1 si: ℓ2 f (x|C2 )P (C2 ) − ℓ1 f (x|C1 )P (C1 ) ≤ 0 equivalente. en el caso más habitual) y pueden ser justificados de modos alternativos (empleando el enfoque de Fisher. y. Matriz de covarianzas Σ común y dos grupos Cuando f (x|Ck ) ∼ N (µk . ℓ1 P (C1 ) (12. obtenemos la regla: . Si las observaciones obedecen aproximadamente un modelo normal multivariante. En algunos casos. el problema simplemente no se presta a una discriminación lineal y hay que emplear procedimientos diferentes.1. 2. tras sencillas manipulaciones. los resultados son óptimos en el sentido en que la discriminación bayesiana lo es. Variables normales El desarrollo anterior presupone conocidas las funciones de densidad o probabilidad f (x|Ck ).4. Tras realizar los productos en las formas cuadráticas del lado izquierdo y cancelar términos iguales. VARIABLES NORMALES Ci .4.

en tanto mayores valores de ℓ1 y P (C1 ) lo disminuyen. proporciona: −(x − µ1 ) ′ Σ−1 (x − µ1 ) + (x − µ2 ) ′ Σ−1 (x − µ2 ) ≥ 2 loge 1 2 Simplificando y llevando constantes al lado derecho. y dos grupos El análisis es enteramente similar.23) asignando x al grupo k si yk (x) es máximo.” Vemos que el lado derecho de (12. la regla discriminante es tan simple como evaluar para cada nuevo caso una función lineal a ′ x y comparar el valor obtenido con el umbral c: “Asignar x a C1 si a ′ x ≥ c. El lado izquierdo es una forma lineal a ′ x en que los coeficientes a también pueden ser estimados una sola vez.21) y a C2 en caso contrario. obtenemos: −1 −1 −x ′ (Σ1 − Σ2 )x + 2x ′ (Σ−1 µ1 − Σ−1 µ2 ) ≥ 2 loge 1 2 ℓ1 P (C1 )|Σ1 |− 2 1 ℓ2 P (C2 )|Σ2 |− 2 1 . 2 . en lugar de la expresión (12. Obsérvese que ℓ1 . La influencia sobre dicho umbral es la esperable: mayores valores de ℓ2 (coste de clasificar en C1 un caso que realmente pertenece a C2 ) y P (C2 ) incrementan el umbral. P (C1 ) y P (C2 ) sólo intervienen en la regla discriminante modificando el umbral que a ′ x debe superar para dar lugar a asignación al grupo C1 . ℓ2 P (C2 )|Σ2 |− 2 ℓ1 P (C1 )|Σ1 |− 2 (12.24) 1 +µ1 ′ Σ−1 µ1 1 −µ2 ′ Σ−1 µ2 . ℓ2 . ANÁLISIS DISCRIMINANTE 1 ′ −1 1 µ1 Σ µ1 − µ2 ′ Σ−1 µ2 + loge 2 2 ℓ2 P (C2 ) ℓ1 P (C1 ) (12. 12. Hecho esto. ℓ1 P (C1 ) 1 que tomando logaritmos. pero el resultado menos simple.2. µ2 y Σ por sus respectivos estimadores. podemos definir también funciones discriminantes y1 (x) = a ′ x − c y2 (x) = c − a x ′ (12. y a C2 en caso contrario. y su valor c puede ser estimado una sola vez.22) (12.114 “Asignar a C1 si: x ′ Σ−1 (µ1 − µ2 ) ≥ CAPÍTULO 12. Aunque en la forma expresada la regla discriminante es de utilización muy simple.21) es constante.4. Diferentes covarianzas: Σ1 = Σ2 . En efecto.20) tenemos ahora 1 (2π)−p/2 |Σ1 |− 2 exp − 2 (x − µ1 ) ′ Σ−1 (x − µ1 ) 1 1 −2 1 (2π)−p/2 |Σ2 | 1 exp − 2 (x − µ2 ) ′ Σ−1 (x 2 − µ2 ) ≥ ℓ2 P (C2 ) .” Las estimaciones tanto de a como de c se obtienen sustituyendo µ1 .

1 2 La frontera entre las dos regiones en que queda dividido el espacio X es ahora una hiper-superficie de ecuación cuadrática. en lugar de aparecer como un resultado.” en que: A = −(Σ−1 − Σ−1 ) 1 2 c = 2 loge a = 2(Σ−1 µ1 − Σ−1 µ2 ) 1 2 ℓ2 P (C2 )|Σ2 |− 2 ℓ1 P (C1 )|Σ1 | 1 1 −2 + µ1 ′ Σ−1 µ1 − µ2 ′ Σ−1 µ2 . LA REGLA LINEAL DE FISHER 115 No ha habido en (12.24) cancelación del término cuadrático en x como ocurre cuando Σ1 = Σ2 .4. tomando logaritmos y prescindiendo de constantes. 12. Si ℓij = 1 para i = j y ℓii = 0 para todo i. entonces la regla será asignar al grupo Ci cuando i = arg m´x a j 1 − 1 (x−µj ) ′ Σ−1 (x−µj ) j 2 P (Cj ) . . La regla discriminante es ahora “Asignar x a C1 si x ′ Ax + a ′ x ≥ c.3. y a C2 en caso contrario.18) las densidades por sus expresiones correspondientes. la regla anterior se reduce a asignar a Ci cuando ′ 1 i = arg m´x loge P (Cj ) + (x − µj ) Σ−1 µj a j 2 . 12. Algunos casos particulares son de interés. En cambio. La regla lineal de Fisher Fisher propuso en 1936 un procedimiento de discriminación lineal que coincide con la regla derivada para dos poblaciones normales con matriz de covarianzas común. Caso de varios grupos El desarrollo al final de la Sección 12.5.3 es ahora de aplicación.5.12. mientras que cuando Σ1 = Σ2 dicha hiper-superficie es un hiper-plano. la normalidad no es un supuesto. sustituyendo en (12. la linealidad sí que lo es. a j j 2 En el caso aún más particular de matrices de covarianzas idénticas. En la aproximación de Fisher. √ 1 e ( 2π)p |Σj | 2 o. cuando: 1 1 i = arg m´x − loge |Σj | 2 − (x − µj ) ′ Σ−1 (x − µj ) + loge P (Cj ) .

26) respecto de a e igualando el numerador a cero. Derivando (12. tiene mayor atractivo hacer a ′ Σa = 1. resolver m´x a a [a ′ (µ1 − µ2 )]2 a ′ Σa . Podemos ver (12.28) que es la solución que ya teníamos para a en la Sección 12.25) es decir.26) cuya maximización proporciona a (hasta una constante de proporcionalidad.” Buscamos pues una función a ′ X que maximice la relación señal/ruido.4. y “bajos” en otro. pues. Esto carece de interés: no estamos interesados en maximizar el valor numérico de (12.26) es invariante al multiplicar a por una constante cualquiera. (12. en un sentido que veremos. (12. (12. Dos grupos con matriz de covarianzas Σ común El razonamiento es el siguiente: buscamos una función lineal a ′ x que separe óptimamente dos grupos.116 CAPÍTULO 12. como veremos en lo que sigue.25) per se. (12. La expresión (12.1. var(a ′ X).25) es un problema mal especificado: basta multiplicar a por α > 1 para incrementar (12. sino en lograr que tome valores lo más claramente diferenciados posibles para casos en cada uno de los dos grupos.27) Si prescindimos de las constantes. y no su signo.26) que es de nuevo un problema indeterminado hasta un factor de escala2 .27) proporciona Σa ∝ (µ1 − µ2 ) ⇒ a ∝ Σ−1 (µ1 − µ2 ). El cuadrado tiene por objeto eliminar el signo. Obsérvese que el denominador es la varianza de a ′ X.26) como una relación señal/ruido: el numerador es la “señal” y el denominador el “ruido. Lo que se maximiza. Podríamos fijar ||a||2 = 1. Maximizar (12. alternativamente.1. Una manera de requerir esto. es buscar un a que maximice a ′ µ1 − a ′ µ2 2 = a ′ (µ1 − µ2 ) 2 . pero. Adoptemos esta última vía. es la razón de esta diferencia al cuadrado de valores de a ′ X en términos de su propia varianza. El numerador es el cuadrado de la diferencia entre los valores que toma a ′ X en µ1 y µ2 .5. y normalizar una solución cualquiera de modo que a ′ Σa = 1. Ello requiere que a ′ x tome valores “altos” en promedio para valores en un grupo. 2 Pues (12. ANÁLISIS DISCRIMINANTE 12. como se ha visto) es de interés. . Un modo de obtener una solución única es fijando la escala de a. vemos que (12.25). obtenemos (véase Apéndice A) 2(µ1 − µ2 )a ′ [µ1 − µ2 ](a ′ Σa) − 2 a ′ (µ1 − µ2 ) 2 Σa = 0. que separe bien los vectores de medias de ambos grupos. o. pues nos importa la diferencia de a ′ x evaluada en µ1 y µ2 .

y consideremos una muestra de entrenamiento con ni casos (i = 1. y una línea sólida en la dirección de la primera componente principal.28). . LA REGLA LINEAL DE FISHER 117 Figura 12. . Más de dos grupos con matriz de covarianzas Σ común Conceptualmente el planteamiento es idéntico. Si hay K grupos. pero los resultados son más complejos. K) en cada grupo. combinaciones lineales de las X originales. El tamaño total de la muestra es así n = K i=1 ni . Defi- . . hay en general no una sino hasta K − 1 variables discriminantes. incluso aunque a lo largo de la misma los vectores de medias de los grupos resultasen máximamente separados. Denotamos por Xi(j) la observación i-ésima en el grupo j-ésimo.12.2.5. . 12.1: La mejor dirección discriminante puede no ser aquélla en que más dispersión presentan las observaciones Primera componente principal µ1 µ2 Mejor direccon discriminante Es importante observar que la dirección en la que las observaciones presenta máxima dispersión (que corresponde a la primera componente principal) no necesariamente es la mejor dirección discriminante. es fácil ver que en la dirección de la línea discontinua se obtiene una separación mucho mejor de los dos grupos: es la dirección de a en (12.1 es ilustrativa: se muestran contornos de igual densidad de dos grupos. La Figura 12. Sin embargo.5. En esta dirección se presenta la máxima varianza de las observaciones. Sean pues K grupos.

2) “especializadas” en separar algún subconjunto de los grupos (C1 . Es entonces fácil demostrar (véase Ejercicio 12. K − 1) valores propios no nulos (por ser este el rango de B y por tanto −1 B. (12.35) Derivando respecto a a obtenemos la igualdad matricial (B − λW )a = 0.33) (12. ANÁLISIS DISCRIMINANTE K ni X = n−1 i=1 j=1 ni Xi(j) Xi(j) j=1 ni ′ (12. + WK B = T − W. tal elección de a maximiza el cociente λ= a ′ Ba a ′W a (véase Ejercicio 12.29) X i = n−1 i K (12. Pero puede haber otras direcciones (como la asociada a a2 en la Figura 12.30) T = i=1 j=1 ni (Xi(j) − X)(Xi(j) − X) ′ (12. siendo (λ1 . tomaríamos la determinada por a1 .37) Esta tiene solución no trivial para valores λ y vectores a que son respectivamente valores y vectores propios de la matriz cuadrada W −1 B. a1 ) el par formado por el mayor valor propio y su vector propio asociado.3). . la igualdad anterior es equivalente a (12.31) Wi = j=1 (Xi(j) − X i )(Xi(j) − X i ) (12. Un razonamiento similar al empleado al obtener el discrii=1 minante lineal en el caso de dos grupos.36) Bajo el supuesto de que W tiene inversa. . sugeriría ahora maximizar K i=1 K i=1 √ a ′ ni (X i − X) ni j=1 (Xi(j) 2 2 = a′ − X i) a ′ Ba a ′W a def = λ. de W Es interesante observar lo que proporciona el método.1) que B = K ni (X i −X)(X i − X) i=1 y X = n−1 K ni X i . Hay a lo sumo q = m´ ın(p.2). En efecto. (W −1 B − λI)a = 0.34) ′ W = W1 + . Si hubiéramos de retener una sola dirección discriminante —como hacíamos en el caso de dos grupos—. Ejercicio 12.32) (12.118 namos: CAPÍTULO 12. (12.

la dirección asociada a a2 discrimina bien entre los grupos C1 y C2 por un lado y C3 por otro. hay interés en tener un modo de medir su eficacia en la separación de grupos. en la Figura 12. aportarían una información interesante: son combinaciones de variables 0-1 que resultan máximamente correladas con las a1 ′ X. Evaluación de funciones discriminantes Estimadas la o las funciones discriminantes con ayuda de la muestra de entrenamiento. a2 a1 µ1 µ3 µ2 y C2 por un lado y C3 por otro. EVALUACIÓN DE FUNCIONES DISCRIMINANTES 119 Figura 12. aK−1 coincidirían con los obtenidos al hacer análisis discriminante lineal de los K grupos. por causa de la (habitualmente) elevada dimensionali- . . Obsérvese que los vectores propios de W −1 B. e indican entre qué grupos discriminan dichas variables. . obtendríamos pares de variables canónicas incorreladas y con correlación entre ellas respectivamente máxima.1 Hay una interesante relación entre la solución anterior y los resultados que derivarían de análisis de correlación canónica y MANOVA equivalentes. bK−1 de las variables canónicas “parejas”.2). Por ejemplo. En el caso de una función discriminante el problema es más arduo. .2: Con p = 3 grupos hay hasta p − 1 direcciones discriminantes. . . pues W −1 B no es simétrica. 54.12. . . . Los vectores a1 . .6. no son en general ortogonales. y por tanto las direcciones discriminantes. .6. no hay mucha diferencia entre evaluar una función discriminante y un modelo de regresión. Si completamos los datos de la muestra de entrenamiento con K columnas con valores 0 y 1 tal como en la ecuación (4.12). . Observación 12. Conceptualmente. pág. . 12. y no obstante muy útiles para discriminar en algún subconjunto. Los vectores de coeficientes b1 . aK−1 ′ X. Puede haber direcciones discriminantes asociadas a un λ bajo.

(12. La probabilidad teórica de que un procedimiento cualquiera asigne bien un punto sería de p = 0. es sin embargo bastante apreciable. etiquetados al azar como proviniendo la mitad de ellos del grupo G1 y la otra mitad del G2. como se deduce del siguiente teorema debido a Cover (ver Bishop (1996).1 más abajo pone de manifiesto. uno). como el Teorema 12. la probabilidad de obtener una separación espúrea cuando podemos fijar la posición del hiperplano separador en un espacio elevadamente dimensional. Sin embargo. el estimador de la media que mejor se adapta a la muestra (en términos de suma de cuadrados residual). obtendremos tasas de error. la tasa de error aparente (la tasa de error al reclasificar la muestra de entrenamiento) será una estimación muy optimista. Al emplear la función discriminante sobre datos diferentes a los de la muestra de entrenamiento.120 CAPÍTULO 12. 86-87). Observación 12. ANÁLISIS DISCRIMINANTE dad. la razón por la que la tasa de error aparente es un estimador optimista de la tasa de error real esperable es la misma que hace que σ 2 = n−1 n (Xi − X)2 sea un estimador optimista de la ˆ i=1 varianza poblacional: hemos reemplazado E(X) por X. d) = 1 2−N +1 d N −1 i=0 i si N ≤ d + 1 cuando N ≥ d + 1.2 En esencia. pág. sensiblemente mayores. Nos limitaremos a algunas ideas básicas: un tratamiento más completo puede encontrarse en Hand (1981). La probabilidad de encontrar un hiperplano que separa perfectamente los puntos aleatoriamente asignados a un grupo de los asignados al otro. No es extraño que σ 2 sea sesgado por defecto. La idea que primero acude a nuestra mente es la de examinar el comportamiento de la función discriminante sobre la muestra de entrenamiento.1 La probabilidad F (N. d) de perfecta separación de N puntos en posición general en un espacio d dimensional viene dada por F (N.38) . Este sesgo es el que ˆ se corrige sustrayendo del denominador n el número de grados de libertad consumidos (en este caso. Una percepción intuitiva de lo extremadamente optimista que puede resultar una función discriminante lineal en un espacio de elevada dimensionalidad puede obtenerse así: consideremos N puntos procedentes todos de una misma distribución d-dimensional.5: los puntos provienen en realidad de la misma distribución. Teorema 12. lo que proporciona el estimador insesgado n habitual (n − 1)−1 i=1 (Xi − X)2 . podríamos llevar a cabo un análisis MANOVA para contrastar la hipótesis de igualdad de grupos: esto sería similar a contrastar la nulidad de todos los parámetros en un modelo de regresión lineal. y no podemos obtener mejor tasa de error que la que resultaría de asignar puntos a uno u otro grupo lanzando una moneda al aire. ¿Clasifica bien los casos en dicha muestra? Esto es similar a examinar el ajuste —quizá mediante el R2 — de un modelo de regresión lineal. por lo general. En el análisis discriminante. Alternativamente. es sorprendentemente alta. a poco grande que sea el número de variables empleadas en la discriminación.

d) de separar perfectamente N puntos en posición general en un espacio de d = 10 dimensiones F(N.d) 0.12. podemos recurrir a hacer validación cruzada. pese a que los puntos son indistinguibles. Hay varias opciones para combatir el sesgo en la tasa de error aparente. la probabilidad de perfecta separabilidad es superior a 2 .8 10 20 N 30 40 Si representamos gráficamente F (N.4 0. estimar N funciones discriminantes con (N − 1) observaciones y asignar la restante tomando nota del acierto o error. Separaciones no perfectas se obtienen con probabilidad aún mayor. y podemos promediarlos para obtener un estimador final. dejando fuera a efectos de validación una de las K partes en que se ha subdividido la muestra—. El total de errores dividido entre N estimaría la tasa de error. En el caso extremo (leave one out). Si no disponemos de una muestra de validación. podemos dividir la muestra en N partes consistentes en una única observación.6. EVALUACIÓN DE FUNCIONES DISCRIMINANTES 121 Figura 12. Hasta que el número de puntos N duplica 1 el de dimensiones d. tenemos la técnica de validación cruzada: obtenemos K diferentes estimadores de la tasa de error —cada uno de ellos. distinta de la que ha servido para estimar la función: ello dará una estimación insesgada de la tasa de error. Podemos evaluar la función discriminante sobre una muestra de validación. .3: Probabilidad F (N.3. obtenemos una gráfica como la de la Figura 12. estimar la función discriminante con (K − 1) de ellas y evaluar sobre la restante. d) frente a N (para d = 10). consistente en subdividir la muestra en K partes. Si hacemos que cada una de las K partes sea por turno la muestra de validación.0 0 0.

entonces λ= a ′ Ba . es Hand (1997). con una buena bibliografía. pero es útil para profundizar en el mismo. Una monografía moderna es McLachlan (1992). si i = n1 + 1. incluso aunque las matrices de covarianzas intragrupos sean idénticas. ANÁLISIS DISCRIMINANTE 12. 12. Demuéstrese K que B = i=1 ni (X i − X)(X i − X) .4 Compruébese que en el caso de diferentes costes de mala clasificación y distribución normal. 12. .3 Demostrar que si λ y a son respectivamente un valor propio de W −1 B y el correspondiente vector propio asociado. . COMPLEMENTOS Y COSAS PARA HACER 12. Más actual. n1 . Hand (1981) es otro libro que continua manteniendo su interés.5 Sea un problema de discriminación entre dos grupos con n1 y n2 observaciones en la muestra de entrenamiento. . n1 + n2 . . CUESTIONES. el Capítulo 3 compara la versión más simple de perceptrón con el método clásico de Fisher. Bishop (1996) es un libro sobre redes neuronales. y Rencher (1995). .1 En la Sección 12.122 CAPÍTULO 12. . ′ (12.1) Demuéstrese que B tiene rango no mayor que K − 1.31) de T . yi = xi ′ β + ǫi con yi = n2 n1 +n2 − n1n1 2 +n si i = 1.39) Ayuda: puede sumarse y restarse X i en cada uno de los paréntesis de la definición (12.7.2 se ha definido B = T − W . Ejemplos son Cuadras (1981). El resto del libro es también de interés. Bibliografía comentada Casi todos los manuales de Análisis Multivariante contienen una introducción al análisis discriminante. . Una monografía algo antigua pero todavía de valor es Lachenbruch (1975). . que contiene mucha bibliografía. especialmente aplicadas a reconocimiento de pautas y desde una perspectiva estadística.5. . las funciones discriminantes son en general no lineales. Dillon and Goldstein (1984). Muéstrese que si estimamos el modelo de regresión lineal. no tiene estructura de texto. ni es quizá la fuente más adecuada para una primera aproximación al tema. 12.2 (↑ 12. a ′W a 12.

y) = d(y. µ1 ó µ2 . 12. . Muéstrese que la regla que se obtiene es idéntica a la obtenida por Fisher.9 Como primera aproximación al problema de discriminar entre dos grupos podríamos concebir la siguiente regla: Asignar x al grupo de cuyo vector de medias. Ilústrese con un ejemplo de dos grupos con distribución normal bivariante y matrices de covarianzas no escalares.7. z) ≤ d(x. z) para todo x. en cuanto que algunos autores llaman distancia de Mahalanobis a la expresión anterior con Σ reemplazada por su análogo muestral. y) = (x − y) ′ Σ−1 (x − y) define una distancia (distancia de Mahalanobis3) p 12.8 (↑ 12.10 (↑ 12. La distancia euclídea ordinaria entre ellas coincide con la distancia de Mahalanobis entre las originales. son: no negativos.7 Llamamos distancia en un espacio Rp a toda aplicación d : Rp × 1. d(x. x).9) (↑ 12. y da lugar a un discriminador lineal entre los dos grupos.7) Compruébese que la distancia de Mahalanobis es invariante frente a transformaciones lineales de las variables.12. y ∈ Rp lo siguiente: 2. y) = (x − y) I(x − y) = i=1 (xi − yi )2 . y) > 0 si x = y y d(x. 12. Muéstrese que siempre es posible hacer una transformación lineal de las variables originales de modo que las transformadas verifican: 1. y) = 0 si x = y. y la T de Hotelling puede obtenerse como transformación monótona de la R2 . 12.7) Dado que el problema puesto de manifiesto en el Ejercicio 12. 123 12. Muéstrese que si Σ es de rango completo la expresión 3.6 Demuéstrese que los valores propios de W −1 B cuyos vectores propios asociados definen las direcciones discriminantes.7) Consideremos la distancia de Mahalanobis definida entre observaciones procedentes de una misma población con matriz de covarianzas Σ. podría pensarse en transformar el problema original en otro con matriz de covarianzas escalar y resolver éste último. 3 Hay alguna ambigüedad en la denominación. y. z ∈ Rp . Su matriz de covarianzas es I. d(x. esté más próximo en términos de distancia p ′ euclídea ordinaria: d(x. 2. Esta regla podría dar lugar a clasificar un caso en un grupo cuando en realidad es más plausible que proceda de otro. d(x.11 (↑ 12. si las matrices de covarianzas en ambos grupos no fueran escalares (diagonales y con idénticos elementos a lo largo de la diagonal) e iguales. BIBLIOGRAFÍA COMENTADA ˆ y xi = vector de variables correspondiente al caso i-ésimo. d(x.9 se presenta con matrices de covarianzas no escalares. entonces el β ob2 tenido por MCO coincide con el a obtenido por Fisher. 12. y) + d(y. R −→ R verificando ∀x.

ANÁLISIS DISCRIMINANTE .124 CAPÍTULO 12.

Cada nodo tiene exactamente dos o ningún hijo. Cada nodo distinto de la raíz tiene un único padre. Podemos ver un árbol binario como una representación esquemática de un proceso de partición recursiva. En un árbol binario. 125 .1.Capítulo 13 Arboles de regresión y clasificación 13. cada nodo no terminal designa una decisión para particionar la fracción de muestra que llega a él en dos partes. en r. 3. En el caso de nodos sin hijos (o nodos terminales) hablamos también de “hojas”. el árbol de la Figura 13. Hay un sólo nodo (la raíz) que no tiene padre. que denominamos C. una clase. en que en cada nodo no terminal tomamos la decisión de particionar una muestra de una cierta manera. como en la Figura 13. Primeramente separamos. 2. Por ejemplo. Gráficamente representaremos los árboles con la raíz arriba.1 designaría una sucesión de operaciones de partición recursiva de una muestra. El resto se lleva al nodo n en el que tomamos una decisión ulterior. Cada nodo terminal u hoja designa una de las clases a las que finalmente van a parar los elementos que dejamos caer desde la raíz.1. separándolo en las clases A y B. Arboles binarios Llamamos árbol binario a un grafo formado por nodos y arcos verificando lo siguiente: 1.

B y C. Entonces. . xp .1 Imaginemos una situación en que la muestra de entrenamiento consiste en N sujetos de cada uno de los cuales tenemos p variables. si han sobrevivido o no a una cierta operación—. r n C A B Figura 13. .2: Árbol binario para clasificar pacientes en grupos de supervivencia homogénea ¿X1 >65 años? No C Sí ¿X5 = “Sí”? Sí A B Ejemplo 13. que X1 es “edad” y X5 es “Ha sufrido un infarto previo”.126 CAPÍTULO 13. por ejemplo. C y raíz r. Un árbol binario de clasificación describiría las operaciones de partición a realizar y el orden en que se efectúan las mismas. un árbol como el de la Figura 13. . recogiendo diferentes características clínicas.1: Árbol binario con tres hojas. Tenemos también los valores que ha tomado una variable de interés —como por ejemplo. A. Si resultara que el desglose de los casos que caen en las mismas es: .2 realizaría una clasificación de los sujetos en la muestra de entrenamiento en tres hojas A. B. x1 . ARBOLES DE REGRESIÓN Y CLASIFICACIÓN Figura 13. . Supongamos. para acabar clasificando la muestra en clases relativamente homogéneas en lo que se refiere a la variable respuesta.

Un árbol sustituye una superficie de respuesta continua por una superficie de respuesta a escalones. en cierto modo. la variable X1 (Edad) en el Ejemplo 13. En este caso. podríamos tener un árbol quizá exactamente igual al presentado en la Figura 13. A. si el árbol está bien construido.13. si regresáramos las Y sobre tres columnas cada una de las cuales tuviera unos para los sujetos en una de las tres clases. Los casos que acabaran en las hojas A. dados los valores de las X de un nuevo sujeto. la variable respuesta Y era cualitativa: podía tomar uno de dos estados.2. Nótese también que. B y C. asignarlo a una de las hojas y efectuar una predicción del valor de su Y : típicamente. CONSTRUCCIÓN DE ÁRBOLES BINARIOS Hoja A B C Supervivientes 40 % 20 % 80 % Fallecidos 60 % 80 % 20 % 127 estaríamos justificados en rotular la clase B como de alto riesgo. Un criterio para evaluar la ventaja derivada de la división de un nodo. 13. Un nuevo sujeto del que sólo conociéramos los valores de las X podría ser “dejado caer” desde la raíz y clasificado en uno de los grupos de riesgo de acuerdo con la hoja en que cayera. el tiempo de supervivencia a partir del tiempo de una intervención quirúrgica.2 (un árbol de regresión) En el ejemplo anterior. Podemos imaginar una respuesta Y continua en una situación similar: por ejemplo. homogéneos en cuanto a sus valores de Y . la media aritmética de los valores en la hoja en que ha caído. que al construir el árbol especificamos los “regresores”. Nótese. la C como de bajo riesgo y la A como de riesgo intermedio. ¿Qué nodo procede dividir en cada etapa? 2. pero su uso e interpretación sería diferente.1 se recodifica a “Sí” y No” (ó 0 y 1) a partir de un cierto umbral: podíamos haber tomado cualquier otro. y si tomamos ése es porque la división que logra es la “mejor”. Por ejemplo. a diferencia de lo que ocurre en un modelo de regresión. B y C sería. sin embargo. ¿Cómo estimar la tasa de mala clasificación (o varianza de predicción en el caso de árboles de regresión)? .2. las estimaciones de los parámetros β de la regresión coincidirían con las medias aritméticas de las clases. en un sentido que habremos de especificar más abajo.2. Ejemplo 13. De hecho. las variables continuas se discretizan: la edad X1 queda reducida a dos grupos: mayores de 65 años o no. Construcción de árboles binarios La metodología a seguir para construir un árbol binario resulta de conjugar varios elementos: 1. Una especificación del espacio de búsqueda: ¿que tipos de particiones estamos dispuestos a considerar? 3. Este uso del árbol es completamente análogo al que se hace de una ecuación de regresión estimada. El árbol serviría para.

1. En el caso de árboles de regresión. Sea p(j|t) la proporción de elementos de clase j en la muestra de entrenamiento que han ido a parar al nodo t. Ello. Una posibilidad intuitivamente atractiva es . en que la respuesta es cualitativa. Un criterio para decidir cuándo detener el crecimiento del árbol. Queremos valorar la ganancia en términos de impureza de una división del nodo t. Medidas de “impureza” de nodos y árboles. pues un nodo en que todas las clases aparecen equi-representadas es en cierto sentido máximamente impuro. la impureza de un nodo debería estar en relación con las proporciones en que se presentan los elementos de las diferentes clases. Hay varias elecciones de i(t) de uso común que verifican las propiedades anteriores. Por el contrario. i=1 p(i|t)p(j|t). en efecto. (1984) denotaremos la impureza del nodo t por i(t). como veremos. En el caso de árboles de clasificación. Siguiendo la notación de Breiman et al. i=j En realidad. no nos interesa de ordinario la i(t) de un nodo per se. i(t) = p(j|t) log e p(j|t). ARBOLES DE REGRESIÓN Y CLASIFICACIÓN 4. correspondería a un nodo “puro”: todos los elementos que van a parar a él son de la clase ℓ. Imaginemos que la variable respuesta cualitativa Y puede tomar J valores. la i(t) se toma habitualmente igual a la varianza muestral intranodo: nodos muy homogéneos son aquéllos con escasa varianza interna. Tenemos así la función entropía J i(t) = − y el índice de Gini. desearíamos que la función i(t) fuera máxima cuando p(j|t) = J −1 ∀j. 5. describiendo a continuación el algoritmo de construcción de árboles. sino en relación a la de sus posibles descendientes.128 CAPÍTULO 13. 13. sobre la conveniencia de podar un árbol que ha crecido en exceso. Examinaremos cada cuestión por separado. o.2. Claramente desearíamos que i(t) fuera mínima si p(ℓ|t) = 1 p(j|t) = 0 ∀j = ℓ. Un criterio para asignar un valor (o etiqueta de clase) a cada hoja. más otras deseables —como simetría en sus argumentos—.

la tasa de error es alguna medida conveniente —normalmente. CONSTRUCCIÓN DE ÁRBOLES BINARIOS 129 ∆(s. t) = pL pR 4 |p(j|tL ) − p(j|tR )|2 . Espacio de búsqueda Hay una infinidad de formas posibles de efectuar divisiones en función de los valores que tomen las variables predictoras. y Nacionalidad C”. En el caso de un árbol de clasificación.1) j Observemos que la expresión (13. La impureza total I(T ) de un árbol T se define como la suma ponderada de ˜ impurezas de sus hojas. y no podemos en general considerar todas ellas. En este caso. y por otro con la separación lograda entre las proporciones de cada clase en los dos hijos. Si T es el conjunto formado por las hojas de T . o en el subárbol Tt que crece desde el nodo t. R(t). t) = i(t) − pL i(tL ) − pR i(tR ). Hablaremos también de la tasa de error en un nodo. ponderadas por las respectivas proporciones pL y pR de elementos de la muestra que la división s hace ir a cada uno de ellos. por un lado. con la simetría de la división en cuanto al número de elementos de la muestra enviados a cada hijo. Distinguiremos varias situaciones. Normalmente.2) Podríamos también evaluar la calidad de un árbol atendiendo a su tasa de error. X. En el caso de árboles de regresión. “Nacionalidad B”. Un nodo terminal puede verse como un árbol degenerado con un sólo nodo terminal. Variable X nominal. como “rojo”. 13. X toma K valores distintos.2. Si tenemos que discriminar con ayuda .13. R(Tt ). típicamente es la probabilidad de obtener una mala clasificación al dejar caer un caso por él. lo que es intuitivamente atrayente. valor medio de suma de cuadrados intra-nodo de las desviaciones respecto a la media—. Nótese que R(T ) es relativa al criterio de asignación de clase a los casos que caen en cada nodo terminal. Una posibilidad adicional que evalúa la ganancia de la división s sin evaluar explícitamente una función de impureza en el padre y cada uno de los hijos. en que la mejora en términos de impureza resultante de elegir la división s del nodo t se evalúa como la diferencia entre la impureza de dicho nodo y las de sus dos hijos. entonces I(T ) = ˜ t∈T p(t)i(t) (13.1) crece. es: ∆(s. tL y tR . el criterio es el de mayoría —se asigna el caso a la clase más representada en el nodo— o de máxima probabilidad a posteriori. y por lo tanto tendremos como notaciones equivalentes R({t}) y R(t).2. “verde”. entre los que no cabe establecer un orden natural. R(T ).2. (13. “azul” o “Nacionalidad A”.

Si ordenamos los N elementos en un nodo t de acuerdo con el valor que que toma para ellos una variable continua X. si la variable X toma n valores. . En cada nodo nos formulamos una pregunta tal como: “¿Es Xi < c?”. . Véase Ripley (1996). podemos obtener hasta N valores diferentes: pero no necesitan ser considerados aquellos elementos flanqueados por otros de su misma clase. . (1984). basta considerar los K − 1 divisiones agrupando las categorías así {x1 . xℓ } {xℓ+1 . Divisiones así dan lugar a hiper-planos de separación que ya no han de ser paralelos a los ejes. 218 ó Breiman et al. si bien aquí será frecuente que el número de valores de corte a ensayar sea mucho mayor —si no hay repeticiones. . pág. el cálculo se simplifica. En este caso. el cálculo puede reducirse algo respecto de lo que sugiere el párrafo anterior. . podemos formular en cada nodo una pregunta del tipo “¿Es a ′ X < c?”. podemos formar todos los subgrupos de los K valores que puede tomar X y enviar a la izquierda los casos con X tomando valores en un subgrupo y a la derecha los restantes. como habitualmente acontecerá para una variable continua. en que tanto a como c han de optimizarse para lograr divisiones con la máxima pureza en los nodos hijos. Ordenemos los K valores que toma el predictor X en el nodo t de modo que p(1|X = x1 ) ≤ p(1|X = x2 ) ≤ · · · ≤ p(1|X = xK ). etiquetadas Y = 1 e Y = 0. 237 y Fayyad and Irani (1992). siendo N el tamaño de la muestra de entrenamiento—. . ARBOLES DE REGRESIÓN Y CLASIFICACIÓN de una variable nominal los elementos que van a los hijos izquierdo y derecho en la división del nodo t. . Adicionalmente. Variable X ordinal. pág. Operaremos como con las variables ordinarias. Observación 13. pág. el número de cortes a ensayar será de N −1. . Se puede mostrar que no es preciso considerar todas las 2K−1 − 1 posibilidades de agrupar las K categorías de X en dos grupos. cuya respuesta afirmativa o negativa decidirá si el elemento que examinamos es enviado al hijo izquierdo o al hijo derecho del nodo en que estamos.1 Si i(t) es estrictamente cóncava y estamos ante un árbol de clasificación en dos clases. . al coste de un esfuerzo de cálculo superior. 101. se consideran como posibles cortes los (n − 1) valores intermedios.2 En el caso de árboles de clasificación. Variable X continua. Véase Ripley (1996). Observación 13.130 CAPÍTULO 13. xK } . (1 ≤ ℓ ≤ K − 1) y enviando un grupo al hijo derecho del nodo t y el otro al hijo izquierdo.

Como se deduce de la Observación 13. pero lo que se deja caer ahora por el árbol es una muestra distinta a la de entrenamiento. es el estimador por resustitución. tal estimador puede estar severamente sesgado a la baja.3) . pero también el potencialmente más sesgado a la baja. y en consecuencia de dar una imagen excesivamente optimista al emplearlos para reclasificar dicha muestra. promediándolas. porque.2. Si lo hacemos reclasificando la muestra de entrenamiento. es de aplicación también aquí. . a igualdad de dimensionalidad de los datos. Tenemos así un estimador Rts (T ) que cabe suponer insesgado por lo menos aproximadamente. R(T ) es de fácil y rápido cálculo. . incluso agravado. podríamos tener una imagen excesivamente optimista del ajuste del árbol a los datos. tan presente en multitud de contextos. una tasa de error sesgada por defecto. es útil por consiguiente prestar alguna atención al modo de estimar R(T ).2. que de otro modo habríamos podido emplear en el entrenamiento. Para estimar R(T ) parecería que podemos proceder reiteradamente como en el apartado anterior.3. R(k) (T ) y. Se presenta el problema de estimarlas: según como lo hagamos.13. Observación 13.3 El problema no es muy diferente del que se presenta al evaluar la tasa de error en la clasificación de una función discriminante. El estimador más simple. formada por tanto por casos que no han sido vistos por el árbol y a los cuáles no se ha podido adaptar.3. al permitir los árboles binarios una gran flexibilidad para adaptarse a una muestra dada. como vimos. dejando cada vez fuera de la muestra de entrenamiento (para validación) una fracción de k−1 del tamaño muestral total. y puede ser útil para comparar árboles con igual o muy similar número de nodos. un árbol de clasificación tiene mucha más flexibilidad que un discriminante lineal para adaptarse a las peculiaridades de una muestra particular. k (13. pero que tiene el inconveniente de forzarnos a reservar para su uso en validación una parte de la muestra. Estimador por resustitución. El problema se reproduce aquí. Estimación por validación cruzada La idea de validación cruzada . Rcv (T ) = R(1) (T ) + · · · + R(k) (T ) . . Estimación de la tasa de error La elección de un árbol con preferencia a otro dependerá en general de sus respectivas R(T ). que nos desviaría notablemente de la construcción de un árbol óptimo. La idea es similar a la del apartado anterior. . Estimador por muestra de validación. CONSTRUCCIÓN DE ÁRBOLES BINARIOS 131 13. Consiste simplemente en dejar caer por el árbol la misma muestra que ha servido para construirlo. Obtendríamos así k estimaciones R(1) (T ). encontraremos. ˆ No obstante.

pág. Si podremos hacerlo para seleccionar un árbol. Criterios de parada y/o poda Una de las ideas más fecundas en la metodología propuesta por Breiman et al.4) pondera tanto la bondad de ajuste del árbol (medida por R(T )) como su complejidad.4. sin embargo. 127. (13. Puede verse. del modo que se verá en 13. porque incluso en el caso más simple de un árbol de regresión. emplear validación cruzada para obtener una estimación de la tasa de error asociada a un árbol concreto. 13.5.2. No ˜ tenemos tampoco claro que |T | sea una medida adecuada de la complejidad: no es el número de parámetros.3 lo ilustra en un caso artificialmente simple. Se ha propuesto también hacer uso de estimadores basados en técnicas de bootstrap.2. en efecto. La complejidad del árbol queda medida así por el número de hojas. 238.6. que el árbol que hiciéramos crecer con cada una de las submuestras podría quizá ser distinto a los demás: la expresión anterior sólo tendría sentido tal cual está escrita en el (improbable) caso de que obtuviéramos exactamente el mismo árbol con las k submuestras empleadas. No podemos. en ocasiones. La Figura 13. pág. que . Hacemos más cosas: seleccionamos las variables con arreglo a las que particionamos. ilustra ésto con claridad: dividir un nodo no es igual que reemplazar un regresor por otros dos.2. ARBOLES DE REGRESIÓN Y CLASIFICACIÓN Obsérvese. basta a efectos de dictaminar la procedencia de una nueva ˆ división con estimar R(T ) por R(T ). la expresión ˆ (13. Dado que en cada paso se examinan árboles con un número de nodos muy similar.4) ˜ siendo |T | el número de hojas del árbol T y α un parámetro de coste de cada hoja. por ello. que esta estrategia daba resultados muy pobres y esto es debido a que. subdivisiones que por sí mismas no serían justificables. sin embargo. podríamos penalizar la tasa de error así: ˆ ˜ Rα (T ) = R(T ) + α|T |. Tasa de error penalizada Para la selección de un árbol entre los muchos que podemos construir sobre una muestra. podemos pensar en el empleo de criterios análogos a la Cp de Mallows o AIC de Akaike. y los umbrales. Estimadores bootstrap. (1984) es la de “mirar hacia adelante”.2. Véase Ripley (1996). Inicialmente se ensayaron estrategias consistentes en subdividir nodos (escogiendo en cada momento la división que produjera la máxima disminución de impureza i(t)) mientras un estimador adecuado de R(T ) disminuyera. no tenemos idea de cuál haya de ser un valor adecuado de α. 13.132 CAPÍTULO 13. El Ejemplo 13. no nos limitamos a ajustar un parámetro (la media) en cada hoja. No obstante. En el contexto actual. con dos variables y dos clases. abren el camino a otras muy provechosas. Se observó.

pero abre la vía a otras sumamente provechosas X X X X O O O O O O X X O O X2 O O O X O O X X X X X O O O X O X X S X1 .2. CONSTRUCCIÓN DE ÁRBOLES BINARIOS 133 Figura 13.13.3: Una división en X1 = S es inútil por si misma.

(1984) es muy simple. T (α1 )) para todos los nodos no terminales. Valores superiores de α (= mayor coste de la complejidad) nos impulsarían a podar la rama. T ). ın Tras la poda de la rama Tt∗ obtenemos el árbol T (α1 ). lo que nos proporciona g(t. T ). T ) = ˆ ˆ R(t) − R(Tt ) . y podaremos def .8) en tanto que para α lo suficientemente grande se verifica la desigualdad contraria. serían respectivamente: ˆ Rα (t) = R(t) + α ˆ ˜ Rα (Tt ) = R(Tt ) + α|Tt | = ˜ s∈Tt (13. Podemos obtener fácilmente este valor despejando α de la igualdad ˆ ˆ ˜ R(t) + α = R(Tt ) + α|Tt |. T ). en tanto que valores menores nos impulsarían a conservarla.6) (13. Se poda a continuación la rama Tt∗ brotando del nodo t∗ verificando α1 =g(t∗ . La cuestión clave no es por tanto dónde parar el crecimiento del árbol. ARBOLES DE REGRESIÓN Y CLASIFICACIÓN particionar el espacio a lo largo de X1 = S no logra prácticamente ninguna reducción de la impureza: ambas mitades tienen aproximadamente un 50 % de elementos ‘O’ y ‘X’. Si lo que se encuentra no justifica la frondosidad añadida al árbol siempre estamos a tiempo de podarlo. (1984) es muy simple: para cada nodo no terminal (en que no ha lugar a podar nada) se evalúa g(t. La estrategia de poda propuesta por Breiman et al. El procedimiento de poda propuesto en Breiman et al. (13. Por tanto habrá un valor de α. T ) = m´ t g(t. Rα (t) < Rα (Tt ). ˜ |Tt | − 1 Un valor α igual a g(t. porque no sabemos lo que hay “más allá” de la división de un nodo hasta que lo vemos. verificando Rα (t) = Rα (Tt ). Esto sugiere que conviene construir árboles muy frondosos. La tasa de error penalizada de dicho nodo y de la rama que brota de él.5) (13. Es fácil ver que para α = 0.134 CAPÍTULO 13. Consideremos la oportunidad de podar la rama Tt que brota del nodo t en un cierto árbol. sino cuánto podar un árbol que deliberadamente hemos dejado crecer hasta tamaños mayores de lo concebiblemente necesario. llamémosle g(t. T ) hace que nos sintamos indiferentes entre la poda o no de la rama Tt . cada una de dichas mitades puede ahora ser subdividida en dos regiones prácticamente puras. ˆ ˆ Rα (t) = R(t) > R(Tt ) = Rα (Tt ). sobre el repetiremos el cálculo de los valores g(t.7) ˆ ˜ R(s) + α|Tt |. No obstante.

(1996) en su Cap. que añaden alguna funcionalidad como particiones suplentes (surrogate splitting). El libro Chambers and Hastie (1992) da una panorámica de lo que hay disponible en S-Plus standard. 13. La referencia seminal es Friedman (1991). y proporciona bibliografía actualizada. El algoritmo de construcción de árboles (por escribir) 13. Por ejemplo. Devroye et al.6. Otra generalización se conoce como MARS (Multivariate Adaptive Regression Splines). (1984) continúa siendo una referencia básica. ANTECEDENTES Y REFINAMIENTOS 135 la rama que brote del nodo con menor g(t. es la seguida por Kooperberg et al. Antecedentes y refinamientos Se han propuesto metodologías alternativas a la descrita (CART).). Se puede demostrar que con el modo de proceder anterior se obtiene una sucesión de árboles con la misma raíz. MARS. . Bibliografía comentada La monografía Breiman et al. Hawkins (1997) propone un método llamado FIRM y Loh and Vanichsetakul (1988) una simbiosis de construcción de árboles y análisis discriminante (que no da lugar a árboles binarios sino n-arios). Es decir. El Capítulo 4 de Hand (1997) es un resumen útil. anidados. El resultado es una superficie sin discontinuidades. Proseguiremos del mismo modo hasta haber reducido el árbol inicial T al árbol degenerado que consiste sólo en el nodo raíz.3. El árbol así podado lo denominamos T (α2 ). Una aproximación similar. 20 habla de árboles desde una perspectiva marcadamente más matemática. que se refieren también a cuestiones no tratadas aquí (boosting. 7 a árboles de clasificación. . y con el grado de suavidad que se desee (fijando el orden de los splines en el valor que se desee).2.4. (1997).13. Toma la idea de particionar recursivamente el espacio de las variables predictores. Ripley (1996) dedica el Cap. una sucesión T ≻ T (α1 ) ≻ T (α2 ) ≻ . Fue el libro que otorgó carta de ciudadanía a métodos que habían sido propuestos previamente desde perspectivas menos generales. orientada a la clasificación. pueden utilizarse también las rutinas de Therneau and Atkinson (1997). Otros manuales que tratan sobre árboles de regresión y clasificación son Zhang and Singer (1999) y Hastie et al. desde el punto de vista de los problemas de clasificación. T (α1 )) (valor que denominaremos α2 ).3. ≻ {raíz}. 13. etc. pero en lugar de ajustar una constante en cada hoja —al igual que un árbol de regresión como los descritos— ajusta splines. . (2001).

ARBOLES DE REGRESIÓN Y CLASIFICACIÓN .136 CAPÍTULO 13.

Neuronas biológicas y neuronas artificiales 14. una neurona humana es una célula que consta de las siguientes partes: el soma o cuerpo celular del que emanan dendritas y el axon. tal y como se percibía en la época. McCulloch and Pitts (1943).2. 2. Cap. Aunque la neurobiología ha sido de modo continuado una fuente de inspiración y una metáfora adecuada del trabajo en RNA. 6. produce señales que a través del axon estimulan a otras neuronas. Cap. tomada de Haykin (1998).1. El axon puede tener del orden de 103 terminaciones sinápticas.2. A su vez. Una neurona recibe estímulos de otras neuronas a traves de las terminaciones sinápticas. cada una con un 137 .Capítulo 14 Redes Neuronales Artificiales 14. pág. 14. 1. y Haykin (1998). unas y otro poseen terminaciones sinápticas con las que se unen a otras neuronas. Un esquema simplificado puede verse en la Figura 14. se remonta a los años cuarenta.1. el precedente más antiguo.1. Morfología y funcionamiento de una neurona humana Ciñéndonos sólo a los aspectos esenciales. Hay del orden de 1011 neuronas en un cerebro humano. Una descripción del curso entrelazado de ambos campos —neurobiología y RNA— y sus respectivas influencias puede verse en Kohonen (1997). Introducción Los primeros intentos de construir una red neuronal artificial (RNA) buscaban replicar la estructura del cerebro de los animales superiores. la investigación en este campo ha seguido un camino propio.

y si la suma sobrepasa un cierto nivel crítico de excitación. produce una salida en su axon. equivale a que una neurona toma todos sus entradas. REDES NEURONALES ARTIFICIALES Figura 14. . 2. quizá afectados de ponderaciones.1: Esquema describiendo las partes principales de una neurona humana.2. En el trabajo pionero McCulloch and Pitts (1943) se suponía que cada neurona “computa” su salida o respuesta de modo muy simple: suma los inputs. Neuronas artificiales La descripción anterior. sin embargo. . es decir.138 CAPÍTULO 14. elevado número de entradas y salidas sinápticas conectadas con otras neuronas. “dispara”. . 14. . Tomado de Haykin (1998). Hoy se sabe (cf. Sec. p. dependiendo de si se traspasa dicho umbral. Se trataría así de un dispositivo de activación de tipo umbral: todo o nada.2) que la naturaleza de las interacciones entre neuronas es más compleja de lo que la simple descripción anterior haría pensar. lo que da un sistema masivamente paralelo de complejidad casi inimaginable. por ejemplo Kohonen (1997). y . Dicha descripción. proporciona un punto de arranque e inspiración para el desarrollo de neuronas artificiales. 8. como se describe a continuación. wp . transcrita a notación matemática. las pondera mediante coeficientes w1 .2.

1) (14.2) Podemos considerar neuronas que realizan un cómputo más general. i=1 Por simplicidad notacional consideraremos la existencia de una componente x0 de x con valor fijo igual a 1 (el “sesgo” u offset en la jerga del área. Observación 14.2. w) = p (wi xi + w0 ). sin ninguna relación con la noción estadística de sesgo). w)). pero podría tomar cualquier otra forma. Observación 14. Seleccionando . La función f () activación es habitualmente no lineal.3) En la expresión anterior.1: Funciones de activación f (u) usuales Tenemos así que una neurona artificial realiza el cómputo esquematizado en la Figura 14. NEURONAS BIOLÓGICAS Y NEURONAS ARTIFICIALES proporciona a la salida: 1 1 Y = + sgn 2 2 en que “sgn” es la función definida por sgn(u) = +1 si u > 0 −1 en caso contrario. Escribiremos entonces p wi xi i=0 como función de excitación de la neurona.1 Una neurona como la descrita en la Figura 14.2 con función de activación no lineal ϕ(u) = sgn(u) fue propuesta por Rosenblatt con el nombre de perceptrón con el propósito de aproximar una respuesta binaria. Las siguientes son posibilidades utilizadas para f (): Nombre Escalón (o signo) Heaviside (o umbral) Logística Identidad Descripción sgn(u) 1 1 + 2 sgn(u) 2 (1 + e−u )−1 u Valores ±1 0ó1 (0. x es el vector de entradas o estímulos que recibe la neurona.1) (−∞. realiza un cómputo análogo al de un modelo de regresión lineal. y ϕ() una función de excitación dependiente de los parámetros en w. +∞) Cuadro 14. relacionando las entradas con la salida de acuerdo con una expresión como Y = f (ϕ(x.14. (14. ϕ(x. i=1 (14. p 139 wi xi + w0 . habitualmente.2.2 Una neurona con la función de excitación lineal p f (x) = i=0 wi xi y con función de activación ϕ(u) = u (identidad). sin tener que recoger separadamente el coeficiente w0 .

la función de activación ϕ(u) de modo diferente. . . REDES NEURONALES ARTIFICIALES x0 = 1 x1 x2 x3 x4 x5 x6 w61 w01 f (ϕ(x)) N Figura 14. y podrían computarse mediante una sóla capa. .3. una entrada x = (x0 . el uso de varias capas de neuronas permite apilar no linealidades sobre no linealidades. . x6 ) computando la función de excitación ϕ(x) = 6 wi1 xi y entrei=0 gado f (ϕ(x)) a la salida.140 CAPÍTULO 14.3 Una RNA como la de la Figura 14. y computar una clase muy rica de relaciones funcionales entre la entrada x y la salida y. . . . Si la salida deseada fuera un variable cualitativa. con excitaciones y activaciones lineales. Redes neuronales artificiales (RNA) A imagen de como acontece en el cerebro humano. . dependiendo de las funciones f () y ϕ() escogidas). 14. De nuevo.2.2: Esquema de una neurona artificial N . podríamos lograr que la neurona realizara el mismo cómputo que un modelo lineal generalizado. x6 ) y una salida y = (y1 . Si consideramos activaciones ϕ() no lineales. y2 ) tendría una disposición como la de la Figura 14. Por ejemplo. una RNA con una única capa oculta de tres neuronas.3. podríamos reproducir mediante la RNA el cómputo realizado por una variedad muy grande de modelos. podemos conectar varias neuronas entre sí para formar una RNA. Observación 14. Por ejemplo. x1 . mediante ϕ(u) = (1 + e−u )−1 tendríamos un modelo de regresión logística. alterando las funciones de activación y/o excitación. computaría un modelo MANOVA con respuesta bivariante. . Recibe la entrada x = (x0 . la neurona podría realizar el cómputo análogo a una función discriminante (lineal o no lineal. o añadiendo capas de neuronas ocultas.3. Obsérvese que no tiene objeto añadira capas de neuronas ocultas si las funciones de excitación y activación son ambas lineales: funciones lineales de funciones lineales son de nuevo lineales.

Examinaremos primero un ejemplo con interés histórico —el del perceptrón– y el modo de entrenarlo.3: RNA con tres neuronas. Entrenamiento de un perceptrón El perceptrón ha sido ya introducido en la Observación 14. mediante la presentación de ejemplos de parejas de vectores (x. d) (entradas y salidas observadas). .14. presentando a la red instancias o ejemplos (pares (x. d)) de uno en uno. y el proceso de entrenamiento es equivalente al de estimación en los términos estadísticos habituales. es decir. .1. Nj 6 (j = 1. Las unidades de entrada. para luego considerar ejemplos más elaborados de redes y diferentes medios de entrenarlas. reparten el input x = (x0 . ENTRENAMIENTO DE UNA RNA x0 = 1 x1 x2 x3 x4 x5 x6 E0 E1 E2 E3 E4 E5 E6 w63 N3 f3 (ϕ3 (x)) N2 S2 y2 w01 N1 f1 (ϕ1 (x)) S1 y1 141 Figura 14. Consideremos el problema de su entrenamiento en el caso simple de que los objetos de las dos clases sean linealmente separables. S1 y S2 suman sus inputs y producen y = (y1 . 14. Se trata de una red neuronal muy simple compuesta por una única neurona cuyo objetivo es distinguir entre objetos de dos clases. Entrenamiento de una RNA El entrenamiento aprendizajee una red neuronal es el proceso por el cual. se fijan los valores de los coeficientes (o pesos) wij .1. Cada una de estas neuronas computa ϕj (x) = i=0 wij xi y entrega fj (ϕj (x)) a cada unidad de salida. E0 a E6 . sin embargo. 3).3. x6 ) a las tres neuronas que forman la capa oculta. .3. 14. convencionalmente rotuladas como +1 y −1. Los pesos juegan un papel similar al de los parámetros en un modelo estadístico convencional. . supongamos que . y2 ). el entrenamiento se lleva a cabo de forma adaptativa.3. Con más frecuencia que en la estimación estadística ordinaria.

esto puede requerir varias pasadas sobre la muestra de entrenamiento. hay un algoritmo muy simple (Algoritmo 2) con convergencia asegurada. Diferentes valores afectan sólo a la velocidad a la que converge el algoritmo. Frecuentemente se reemplaza por una sucesión de parámetros η(n) que disminuyen en valor absoluto conforme el aprendizaje avanza. 1: N ← Número de ejemplos en la muestra de entrenamiento 2: w(0) ← 0. . Algoritmo 2 – Entrenamiento de perceptrón por corrección de error. por el contrario. n ← 0. la asignación de las etiquetas −1 y +1 a los grupos G1 y G2 es arbitraria). en que los ejemplos se muestran a medida que van apareciendo. los pesos se dejan en los valores preexistentes en la iteración anterior. No es preciso ningún cambio. El algoritmo finaliza cuando en una pasada sobre todos los N casos no se produce ningún error. Si. Cuando se comete un error que requiere la modificación del vector de pesos w. que produce un vector w separando correctamente los casos. g) al perceptrón y se computa w ′ x. η ← Parámetro aprendizaje 3: repeat 4: E←0 5: for i = 1 to N do 6: if (w(n) ′ xn+1 > 0) ∧ (xn+1 ∈ G2 ) then 7: w(n+1) ← w(n) − ηxn 8: E ←E+1 else if (w(n) ′ xn+1 ≤ 0) ∧ (xn+1 ∈ G1 ) then 9: 10: w(n+1) ← w(n) + ηxn 11: E ←E+1 12: else 13: w(n+1) ← w(n) 14: end if 15: n←n+1 16: end for 17: until E = 0 18: wfinal ← wn La idea es muy sencilla: se presentan los casos (x. con tal de que sea positivo. Obsérvese que el algoritmo se presta al aprendizaje on line.4 El parámetro η no necesariamente ha de permanecer constante. Cuando esto sucede. REDES NEURONALES ARTIFICIALES existe un vector de pesos w tal que w ′ x > 0 para todos los objetos de una clase y w ′ x < 0 para todos los de la otra. se produce un error de clasificación. El parámetro η o parámetro de aprendizajeuede tomar cualquier valor. se modifican los pesos tal como recogen las asignaciones 7 y 10 en el algoritmo. Si el resultado es “correcto” (w ′ x > 0 para objetos en el grupo G1 y w ′ x ≤ 0 para objetos en el grupo G2 .142 CAPÍTULO 14. Observación 14. circunstancia que se comprueba en la línea 17. se incrementa la variable contadora de errores. E.

sin pérdida de generalidad. 10 ó 13 del Algoritmo 2 es “lógica”. 46–48) que describimos a continuación.3. w(n) no se toca (línea 13).14. Si w ′ (n) xn+1 > 0 y hubiéramos deseado que w ′ (n) xn+1 ≤ 0 (línea 6). nos movemos en la dirección deseada (w ′ (n+1) xn se hace “menos positivo”). sólo podremos tener éxito cuando los casos sean linealmente separables. por lo que de ordinario serán necesarias varias pasadas sobre los datos. es decir. Cuando esto ocurre. 139. Sin entrar a detallarla aquí. la actualización que se realiza es: w(n+1) ← w(n) − ηxn con lo que w ′ (n+1) xn = w ′ (n) xn − η ||xn ||2 ≤ w ′ (n) xn . ENTRENAMIENTO DE UNA RNA 143 La demostración de la convergencia es simple y puede consultarse en Bishop (1996). pág. cuando w ′ (n) xn+1 ≤ 0 indebidamente en la línea 9. (Obsérvese que una actualización de este género puede introducir errores en ejemplos previamente bien clasificados. Dicha generalización puede por otra parte verse como un caso particular del método de aproximación estocástica de Robbins-Monro (véase Robbins and Monro (1951) y Bishop (1996). 14. El procedimiento anterior puede ser generalizado al caso en que la respuesta no es binaria. p.5) (14.2. Claramente. el algoritmo suministra un método de discriminación alternativo a los estudiados en el Capítulo 12 para el caso de dos grupos.4) y. Teorema 14. f () es una función de regresión de g() sobre θ). Supongamos que E[(g(θ) − f (θ))2 ] < ∞ (14.7) . Si el nuevo caso es correctamente clasificado por el perceptrón. es fácil ver que la actualización que se hace en las líneas 7.) De modo análogo sucede con la corrección en la línea 10 del algoritmo. Sea una sucesión de números reales an verificando: n→∞ ∞ n=1 ∞ n=1 l´ an = 0 ım an = ∞ a2 < ∞. 100 ó Haykin (1998). El método de corrección de error.1 Consideremos dos variables correladas. por ejemplo. el algoritmo consiste en ir perturbando secuencialmente un hiperplano de modo que consigamos separar todos los casos. p. a tanta mayor velocidad cuanto mayor sea η.3. g y θ verificando que f (θ) = E[g|θ] (es decir. n (14. que f (θ) es monónota decreciente.6) (14. En definitiva.

El teorema anterior sugiere un procedimiento para entrenar secuencialmente una red neuronal. Estamos interesados en optimizar una función de error E(Y .15) = w (n) + an e(n+1) x(n) . si podemos evaluar la función g(θ) en una sucesión de valores θ1 . REDES NEURONALES ARTIFICIALES entonces. w) = 1 2 N m (yi n=1 i=1 (n) − Fi (x(n) . w) . w) = 0. θn . w (n) ) ∂w i=1 (14. el lado izquierdo de la igualdad anterior es aproximadamente igual al valor medio m E i=1 (yi − Fi (x.12) si identificamos la función cuyo valor medio se computa en (14. . ∂w (14. . w (n) ) w (n+1) = w (n) + an yi (n) − F (x(n+1) . vemos que es de aplicación el Teorema 14. (14. X.13) Si consideramos el caso de una red neuronal similar al perceptrón considerado en la Sección 14. w)) ∂ Fi (x(n) . . w))2 (14. w) = 0 ∂w (14. w)) ∂ Fi (x. vemos que la expresión (14. . w)) ∂ Fi (x(n) .144 CAPÍTULO 14. .8) se tiene que θn converge con probabilidad 1 a θ0 . una raíz de f (θ) = E[g|θ] = 0. .12) y por tanto.1 pero con activación lineal y respuesta continua.10) Es equivalente resolver la ecuación anterior of 1 N N n=1 m i=1 (yi (n) − Fi (x(n) . w) continua y suficientemente derivable. Podemos pensar pues en aplicar el procedimiento de Robbins-Monro.12) con f (θ) y θ con w. que converge casi seguramente a una raíz de (14.14) (14.11): ∂ Fi (x(n+1) . aproximadamente. generados así: θn+1 = θn + an g(θn ). X.9) Las condiciones de primer orden estipulan ∂ E(Y .13) se particulariza a: w (n+1) = w (n) + an yi (n) m − Fi (x(n+1) . como por ejemplo E(Y . X.11) y para N grande. ∂w (14. w (n) ) w (n) (14. w) = ∂w N n=1 m i=1 (yi (n) − Fi (x(n) . . a una raíz de (14.1.

3.6 Observemos también que la regla de actualización es muy sencilla porque sabemos lo que deseamos obtener.1. ENTRENAMIENTO DE UNA RNA 145 en que e(n+1) designa el error de ajuste de la n + 1 observación con los pesos existentes tras procesar la n-ésima observación y x(n) es el vector de derivadas parcial de la activación respecto del vector de pesos w.3.19) para designar el gradiente Observación 14. veremos que se trata de simplemente de aplicar un método gradiente observación a observación.18) Con esta notación. que hay un algoritmo que permite hacer esta tarea no trivial de modo eficaz: es el algoritmo de back-propagation de que se ocupa la siguiente Sección. El algoritmo de propagación hacia atrás El algoritmo de propagación hacia atrás o back-propagations. en que no es obvio qué pesos hay que modificar para reducir la discrepancia entre lo computado y lo deseado. quizá en cascada. La fórmula de corrección de error (14. y lo que obtenemos. debemos entonces ir amortiguando las contribuciones sucesivas.15) generaliza la que se presentó en la Sección 14. Observación 14.15) se convertiría en w (n+1) = w (n) + an e(n+1) F ′ (a(n+1) )x(n) ′ (14. la expresión (14.16) se reescribe así: w (n+1) = w (n) + an δ(n+1) x(n) . podemos “responsabilizar” del error a los pesos de la única neurona que interviene. (n+1) (14. sin embargo. La situación se complica cuando hay más de una neurona. tomamos las derivadas de la contribución a la función objetivo de cada observación.3. utilizaremos δk local de la neurona k-ésima. Denominaremos gradiente locale la neurona a: δ(n+1) def = = ∂E (n+1) ∂a(n+1) e(n+1) F ′ (a(n+1) ). En lugar de calcular las derivadas de la función objetivo haciendo uso de toda la muestra y llevar a cabo una optimización por el método del gradiente ordinario. en esencia. an ocupa el lugar de η. (14. 14. Como es lógico.14. (14. una generalización a redes con más de una neurona del algoritmo de corrección de error . de modo que el influjo de la observación n + 1 sobre el vector de pesos calculado con ayuda de las n precedentes. sea convenientemente pequeño: esta es la función del coeficiente de aprendizaje an . en redes con más de una neurona. y (n) . F (a(n) ).5 Si observamos la última expresión. Sucede.17) (14.16) en que a(n+1) = (w (n) ) x(n+1) es la excitacióne la neurona. Si la activación no fuera lineal.

Efectivamente: la activación de la neurona k depende linealmente (a traves del peso wkj ) de la salida zj de la neurona j. Puesto que podemos calcular δk para una neurona en la última capa. Kohonen (1997) propuso un tipo de red neuronal artificial que imita dicho comportamiento. haciendo uso de la regla de la cadena: δj = ∂E (n+1) (n+1) ∂aj = k ∂E (n+1) ∂ak (n+1) ∂ak (n+1) (n+1) ∂aj = k δk F ′ (aj )wkj . y dicha salida depende de aj a través de la función de activación F . en particular la ecuación (14. SOM son un tipo de redes neuronales directamente inspiradas como los perceptrones en lo que parece ser un modo de funcionar del cerebro. 14. (1986) aunque la idea parece preexistente (ver Bishop (1996). Tenemos pues un método simple que permite calcular las derivadas de la función de error respecto de las activaciones (y respecto de los pesos en consecuencia). REDES NEURONALES ARTIFICIALES presentado en la sección anterior.4. El único problema. Exactamente la misma regla es de aplicación a una neurona k en una capa intermedia. Se aprecia en el mismo una organización espacial: las neuronas tienden a estimular a. para utilizarlas en algoritmo de tipo gradiente. (14. Mapas auto-organizados (SOM) Los mapas auto-organizados (self-organizing maps. pues.20) en que la suma se toma sobre todas las neuronas k que reciben como entrada la salida de la neurona j. con la salvedad de que lo que se presenta a la entrada de la misma ya no es x(n) sino el vector z (n) de salidas de todas las neuronas en la capa precedente conectadas directamente a la k. y ser estimuladas por. A cada neurona se le asigna un vector de pesos wij (los dos índices hacen referencia a la fila y columna en que esta ubicada la neurona). Se inicializan los vectores wij de cualquier modo conveniente. porque podemos hacer uso de (14. muestran el modo de actualizar los pesos a la entrada de una neurona en la primera capa cuando se presenta el caso x(n) : basta multiplicar el gradiente local de la neurona por x(n) y un parámetro de aprendizaje an .19).146 CAPÍTULO 14. 141). aquéllas que les quedan más próximas. lo que produce que se especialicen en una función grupos de neuronas próximas. . es calcular el gradiente local para una tal neurona.19) en que e(n+1) y a(n+1) son ambos calculables. La Sección anterior. Se adopta para las neuronas una disposición espacial predeterminada: típicamente se disponen en filas y columnas. p. Fue popularizado por Rumelhart et al. 2. Básicamente opera así: 1.

su vector de pesos (y. l) como: d2 = |i − k|2 + |j − l|2 . . requiere especificar como es alteran los vectores de las neuronas “triunfantes” y sus vecinas. w ← 0 3: c ← Número de capas . k = 1. debemos definir en la red una distancia entre neuronas. 147 3. se alteran en orden a realzar su ventaja competitiva al responder a la observación xk. y quienes consideramos vecinas. Entonces.4. j) y (k. Para cada neurona y cada observación en la muestra de entrenamiento se computa Rij. Se presenta a la red cada uno de las observaciones xk de la muestra de entrenamiento {xk}. j) serían aquéllas (k. Si las tenemos dispuestas en filas y comunas podríamos recurrir a una distancia entre las neuronas (i. . n. Si (iopt . . 4.21) las neuronas vecinas de la (i. aunque en menor medida. para hacerse más precias. los de todas las neuronas vecinas).j se dice que la neurona en la posición (iopt . 9: for ℓ ∈ {c − 1.k = ||xk − wij ||2 . MAPAS AUTO-ORGANIZADOS (SOM) Algoritmo 3 – Entrenamiento de una RNA por back-propagation. . S ← Número de épocas 4: for s = 1 to S do 5: w (1) ← w 6: for n = 1 to N do 7: Presentar el caso x(n) y calcular todas las activaciones ai . 8: Evaluar δk para todas las neuronas conectadas a la salida. 1} do 10: for j ∈ {Capa ℓ} do δj ← F ′ (aj ) k wkj δk 11: k ∈ Capa (ℓ + 1) 12: ∂E (n) /∂wji ← δj zi 13: end for 14: end for 15: ∇(E (n) ) ← [∂E (n) /∂w (n) ] 16: Actualizar los pesos mediante w (n+1) ← w (n) − η∇(E (n) ) 17: end for 18: w ← w (n+1) 19: end for 20: Devolver solucion en w. 1: N ← Número de ejemplos en la muestra de entrenamiento 2: η ← Parámetro aprendizaje .k ın i. .14. ij. l) verificando d2 < d para un ij.kl (14. jopt ) “gana” la competición. Respecto de la última cuestión. jopt ) = arg m´ Rij. .kl cierto umbral d que debemos determinar. Este umbral no necesita ser fijo durante . . . La descripción anterior.

kl observación x(n+1) .kl ).kl (x(n+1) − wkl ). el parámetro hij. REDES NEURONALES ARTIFICIALES toda la duración del entrenamiento de la red. j) (puesto que 2 hij.22) garantiza que neuronas próximas tendrán vectores de pesos parecidos.148 CAPÍTULO 14. con lo que el vector actualizado está más cerca de ésta. típicamente mucho (n) menos que 1. La regla de entrenamiento /14. Entonces. j) y sus vecinas. la haremos del modo que sigue. η es un parámetro de aprendizaje.kl hace que la actualización sea más intensa cuanto más cerca está la neurona k.kl como una función decreciente de d2 . l) de la vencedora (i. cuando la neurona (i. Además de η. Definamos hij. 14.kl decrece con dij. (n) (n) (14. ira por lo general disminuyendo. j) triunfa al presentarle la ij. sino que.5. La actualización de wkl tiene lugar sumándole una fraccióon de su discrepancia con la observación x(n+1) .22) En la expresión anterior. Por lo que hace a la modificación de pesos de la neurona triunfante (i. modificamos los vectores de pesos de todas las demás así: wkl (n+1) = wkl + ηhij. Maquinas de vectores soporte (SVM) Por escribir . como veremos.

El objetivo es. necesitaremos extender las nociones de similaridad o disimilaridad anteriores a grupos. el i-ésimo de los cuales viene descrito por un vector xi. cualitativas o cualitativas ordenadas. el problema así formulado es muy vago y requiere formalización adicional para poder ser abordado de manera algorítmica. una tabla X de dimensiones N × p. agruparlos en k grupos. Hemos de precisar qué significa “parecerse” dos objetos —lo que nos llevará a definir nociones de similaridad (o alternativamente disimilaridad) entre objetos: esta cuestión se aborda en la Sección 15. Adicionalmente. lo que haremos en la Sección 15.3.1.4 examinaremos las estrategias de construcción de grupos. En principio. de tal modo que los que se incluyen en cada grupo tengan más parecido entre sí que con los de otros grupos. las componentes de dicho vector pueden ser reales.Capítulo 15 Análisis de agrupamientos 15. dado que en el proceso de examinar agrupamientos habremos de considerar la posibilidad de unir o separar grupos ya formados. 149 . Naturalmente. como de costumbre.2. La información de partida es pues. e incluso cualquier combinación de dichos tipos. sobre la base de los vectores observados. en la Sección 15. Finalmente. Introducción Consideramos un colectivo de N objetos.

un refinamiento inmediato de la idea anterior consistiría en considera la distancia de Mahalanobis.3) con Σ igual a la matriz de covarianzas de las p variables (si fuera conocida) o una estimación de ella en el caso habitual de que no lo sea. o. a calcular una distancia euclídea generalizada así: d2 (i. Cuando m = 1 tenemos la distancia “bloque de casas” o “Manhattan”. tenemos que dm (i. (15. La definición más inmediata de disimilaridad entre xi y xj vendría proporcionada por la distancia euclídea ordinaria entre ambos. k contiene el inverso de la norma (euclídea) de la k-ésima columna de X. Una vía diferente de generalización de la distancia euclídea ordinaria deriva de observar que d(i. j) = k=1 |xik − xjk | m . j) = ||xi − xj || = 2 2 k=1 (xik − xjk )2 .2) en que D es una matriz diagonal cuyo elemento k. dando lugar a la distancia de Minkowskye parámetro m. la expresión anterior da lugar a otras distancias de interés. j. Cualquier valor 0 < m ≤ ∞ puede utilizarse. sólo la mayor se toma en consideración. 15. adecuadas a situaciones diversas.150 CAPÍTULO 15. Variables reales Consideremos en primer lugar el caso en que xi está integramente compuesto por variables reales. j) = ||xi − xj ||2 = (xi − xj ) ′ D (xi − xj ) D D (15. y de entre todas las discrepancias entre los objetos i. En ocasiones resulta más natural pensar en términos de similaridad. lo que es equivalente. de la definición más general: p 1/m dm (i. d2 (i. vistos como puntos en Rp : p d (i.1) Obsérvese que esta noción de disimilaridad es dependiente de las escalas de medida: un cambio de unidades de medida en alguna o algunas de las variables altera las distancias entre objetos.2.1.2. en otras en términos de disimilaridad. (15. ANÁLISIS DE AGRUPAMIENTOS 15. j) → sup1≤k≤p |xik − xjk |. Cuando m → ∞. j) = ||xi − xj ||2 = (xi − xj ) ′ Σ−1 (xi − xj ).4) Además de identificarse con la distancia auclídea ordinaria cuando m = 2. Puede recurrirse a normalizar las variables antes de calcular la distancia euclídea entre objetos. Σ Σ (15. Medidas de similaridad y disimilaridad entre objetos En lo que sigue se consideran diferentes medidas de similaridad o disimilaridad. . con m = 2. Si las p variables consideradas tienen correlación entre ellos. j) es realmente un caso particular.

Medidas de similaridad y disimilaridad entre grupos No basta definir similaridad o disimilaridad entre objetos. podemos construir una tabla de contingencia como la recogida en el Cuadro 15.7) 15. por ejemplo. . j) = s(i. j) = s(i. (Obviamente.2. Podemos por ejemplo considerar s(i.15. Son muchas las posibilidades.1.6) (15. para a variables hubo una concidencia en los valores que toman en xi y xj . Cuando los vectores xi y xj describiendo a los sujetos i. y para b + c variables hubo una discrepancia. siendo ambas 0. Variables cualitativas nominales Consideremos el caso. En algunos algoritmos para la obtención de agrupamientos se requiere en algunas fases decidir qué dos grupos ya formados se amalgaman. por ser los más similares. a+b+c+d (15. Es preciso por tanto extender la noción de similaridad (o dismilaridad) entre objetos de manera que proporciona una noción homóloga para grupos. es decir. pudiendo tomar únicamente dos valores que convencionalmente designaremos por 0 y 1. Para d variables se verificó una coincidencia en el valor 1. no hay valores faltantes. están compuestos en su integridad por variables dicotómicas. j) = a+d a+b+c+d 2d a+b+c+d d . más simple. pero con frecuencia tiene sentido hacer uso de definiciones alternativas.1: Tabulación cruzada de valores de p variables dicotómicas en xi. xj .1 podemos definir similaridad de muy diversas formas.3. de variables cualitativas dicotómicas. j. Podríamos hacer uso con estas variables de cualquiera de las definiciones en el apartado precedente. a + b + c + d = p si todas las variables han sido registradas. Vemos que.5) (15.2. entre las que citaremos tres.) A partir de los números tabulados en las cuatro casillas del Cuadro 15. 0 a c 1 b d 0 1 15. MEDIDAS DE SIMILARIDAD Y DISIMILARIDAD 151 Cuadro 15.2.

ON − O2 d12 − O3 d13 d23 − .152 Ligadura simple CAPÍTULO 15. Procedimientos jerárquicos Estrategias aglomerativas o divisivas Examinaremos una estrategia aglomerativa. . .. . . . en la etapa t = 0 del proceso de agrupamiento.. . todos los N objetos a agrupar se consideran separados. Oik } para indicar el grupo Gk contiene los objetos Oi1 . . uno en cada grupo. Inicialmente. ON . . su homóloga divisiva es similar con los cambios obvios. . . próximos. los objetos se irán integrando en grupos. O3 }. .. . . Todo lo que se requiere para que dos grupos estén próximos es una pareja de puntos. 15.. Supongamos que es la que corresponde a la pareja formada por O2 y O3 . más disimilares entre sí. . Ligadura completa La ligadura completa ligadura completa(complete linkage) es el criterio diametralmwente opuesto. .4.. es preciso que los representantes de ambos más disimilares estén próximos —lo que supone que todos los objetos de un grupo han de estar en la vecindad de todos los del otro. Oik . uno en cada grupo. . Definimos como disimilaridad entre dos grupos la disimilaridad entre los dos objetos.. menos disimilares entre sí. Tomaremos nota de dicha distancia y amalgamaremos ambos puntos para formar el grupo G1 = {O2 .. uno en cada grupo. Los designaremos O1 .1. Para que dos grupos estén próximos.. Comenzamos computando la matriz de disimilaridad entre todos los objetos: O1 O1 O2 O3 . A continuación eliminaremos las distancias en la fila y columna correspondientes a O2 y O3 y añadiremos una fila y columna correspondientes al grupo recién formado: . A lo largo del proceso de aglomerado. . ON d1N d2N d3N − Recorreremos dicha matriz en busca de la disimilaridad dij menor. Estrategias de construcción de grupos 15. Emplearemos la notación Gk = {Oi1 .4. ANÁLISIS DE AGRUPAMIENTOS Cuando utilizamos ligadura simple(single linkage) definimos como disimilaridad entre dos grupos la disimilaridad entre los dos objetos.

. tomamos nota de la distancia de amalgamado y actualizamos la matriz de disimilarirdades en aquéllos elementos que lo requieren y se continúa el proceso.. Las distancias en la nueva columna lo son de un grupo a objetos.3.. por ejemplo.G1 − − dN.1 . En todos los casos. Nótes que cada vex el número de columnas se reduce en uno.. de acuerdo con uno de los criterios relacionados en la Sección 15.G1 − 153 Obsérvese que han desaparecido de la matriz de disimilaridades todas aquéllas que involucraban directamente a los objetos =2 y O3 . .. se amalgamarán en un nuevo grupo. . Si ésta corresponde a dos objetos. en cada etapa del proceso la relación entre dos grupos cualesquiera sólo puede ser de inclusión (uno totalmente contenido en otro) o de exclusión (ambos completamente disjuntos).15. El proceso finaliza cuando se amalgaman los objetos o grupos que asociados a las dos últimas columnas que subsistan.. La nueva matriz de disimilaridades es de nuevo rastreada en busca de la menor. ON G1 − O2 − − O3 − − − .. en cuyo momento hemos creado un único agrupamiento que engloba a la totalidad de los objetos iniciales. En efecto. ON d1N − − − G1 d1. y se calculan. El procedimiento anterior se dice que es jerárquico.4. ESTRATEGIAS DE CONSTRUCCIÓN DE GRUPOS O1 O1 O2 O3 .. Si corresponde a una distancia entre un objeto aislado y un grupo ya formado. . y ha aparecido en cambio una nueva columna con las disimilaridades entre el grupo G1 —que engloba a los dos objetos citados— y todos los demás. Dendrograma El proceso de amalgamado en una estrategia jerárquica puede representarse convenientemente mediante un dengrograma. . R: Ejemplo 15.. se amalgamará el objeto a dicho grupo.

0 2.0 5 8 2 d hclust (*.0 6 1.5 1 Height 2.5 4 3 1. "average") 7 .1: Agrupamiento jerárquico con distancia promedio de 10 puntos tomados al azar en R4 Cluster Dendrogram 3.154 CAPÍTULO 15. ANÁLISIS DE AGRUPAMIENTOS Figura 15.

 ∂X  .0. tenemos que: ∂Y ∂X = 2A ′ X 155 . frecuente.1 Sea X un vector m × 1 e Y una función escalar de X: Y = f (X1 . Xm ) = f (X).  ∂Y ∂Xm Si Y = X ′ AX siendo A una matriz cuadrada cualquiera. . Entonces:  ∂Y   ∂X1   ∂Y  ∂Y def  ∂X2  =  . de que A sea simétrica. Notación Haremos uso de las siguientes definiciones y notación.   . Notación matricial. Más detalles y demostraciones en Searle (1982) y Magnus and Neudecker (1988). Definición A. Hay aquí sólo una breve recopilación de resultados útiles. . En el caso. . A.2.Apéndice A Cálculo diferencial. . es inmediato comprobar que: ∂Y ∂X = (A + A ′ )X.

1) (A. siendo A una matriz (n × m) de constantes. . Definición A. + am Xm . ∂X am si Y = AX.  .  . . ∂Yn ∂X1   ∂X1 ∂X1  . vector m × 1.2) (A. CÁLCULO DIFERENCIAL MATRICIAL Hay algunos casos particulares de interés. Si Y = a ′ X = a1 X1 + .3) = −(A−1 CBA−1 ) .  . . siendo a un vector de constantes. ∂Y ∂X = A ′. .   a1 ∂Y  .   ∂X   ∂Y1 ∂Y2 .2 Sea Y una función vectorial n × 1–valorada de X. .  = a. . .3. .  =  . Algunos resultados útiles ∂X ′ AX ∂X ∂ loge |A| ∂A ∂tr(BA−1 C) ∂A = 2AX = A′ −1 (A. . Entonces:   ∂Y1 ∂Y2 .156 APÉNDICE A. ∂Yn ∂Xm ∂Xm ∂Xm A.0. =  . . ∂Y def  .

59 14.73 1.73 1.11 10.98 157 .51 28.81 1.56 48.44 28.45 27.95 146.78 1.26 13.64 10.21 13.74 4.63 3.39 10.04 21.20 47.60 3.82 200m 20.62 133.92 132.90 20.35 164.49 16.33 20.56 10.78 154.45 30.85 3.66 45.50 44.49 13.70 14.94 10.77 10Km 29.04 45.05 23.73 1.22 20.62 14.73 1.34 13.49 45.82 1.76 1. Dom.57 3.27 13.60 200m 20.64 3.82 45.81 1.50 14.52 20.Apéndice B Datos B.14 10.10 52.06 20.30 29.43 10.35 10.56 3.28 28.20 21.60 3.70 3.68 13.76 1.09 29.11 10Km 28. Finlandia Francia RDA RFA UK Grecia Guatemala País Hungria India 100m 10.28 44.16 5Km 13.17 13.22 14.62 30.61 3.71 21.75 3.72 27.65 20.17 10.12 130.04 13.03 133.13 27.95 130.73 5Km 14.13 134.38 28.45 13.19 28.89 46.66 3.70 1.02 1.71 3.87 44.38 20.42 400m 46.84 3.31 10.55 13.32 130.90 129.84 46.80 1.34 10.81 20.39 27.74 1.23 129.11 31.01 14.30 45.51 10.26 10.73 1.80 1500m 3.97 27.81 28.77 1.87 132.61 27.81 20.78 1.21 48. Records atléticos de diversos países.21 20.58 3. País Argentina Australia Austria Bélgica Bermuda Brazil Birmania Canada Chile China Colombia Cook-Islas Costa Checoslov.58 131.62 21.43 21.37 20.22 10.34 10.89 800m 1.82 3.90 13.42 27.68 20.62 3.53 3.80 45.51 3.58 20.30 129.79 1.28 13.93 46.98 100m 10.57 3.60 139.03 13.91 13.52 27.24 3.61 13.15 134.82 2.73 3.76 1500m 3.16 10.81 Maratón 137.58 134.61 3.12 10.68 46.64 45.88 35.1.28 10.70 136.65 20.84 44.40 400m 46.79 1.66 27.69 20.87 1.02 45.80 21.94 48.33 Maratón 132. Dinamarca Rep.13 139.91 45.42 13.80 1.22 10.53 131.11 10.52 20.44 10.30 46.43 12.55 28.72 128.30 135.18 10.45 30.74 1.73 800m 1.

43 27.34 14.60 3.25 15.55 3.95 27.92 46.90 46.36 13.28 10Km 30.26 45.61 20.30 20.41 10.40 11.73 13.79 1.78 21.23 129.08 31.35 137.50 128.61 27.80 47.70 27.65 132.77 27.20 16.93 27.24 21.96 10.Zelanda Noruega Papua-N.87 141.56 28.02 1500m 3.32 27.20 13.98 45.72 20.32 13.80 46.27 154.73 1.35 10.07 15.10 13.85 1.10 45.79 1.64 3.54 3.52 10.77 131.48 148.90 1.06 13.27 131.00 800m 1.64 27.87 47.79 1.43 19.83 Fuente: Dawkins (1989) .74 1.39 10.34 10.17 20.01 3.89 27.89 3.89 21.91 30.55 10.93 10.55 131.78 1.36 46.13 13.42 10.63 45.78 10.45 21.22 145. DATOS 5Km 14.42 10.65 3.77 20.16 21.25 130.24 APÉNDICE B.92 22.28 20.07 10.67 31.75 2.64 3.81 1.62 4.66 13.74 13.46 21.38 10.09 21.83 3.07 32.82 1.90 47.58 128.92 3.23 29.84 3.53 10.34 10.74 1.31 13.86 400m 47.96 21.53 3. Malasia Mauricio Mexico Holanda N.86 44.30 47.20 129.69 31.98 21.29 13.91 10.77 1.11 13.72 27.55 3.73 1.10 46.77 20.16 10.73 27.86 44.76 1.67 3.79 27.24 45.90 131.49 20.62 3.61 3.22 130.79 1.67 3.64 14.81 20.77 3.84 1.50 157.83 3.88 1.22 14.76 1.38 29.23 13.52 27.79 1.00 19.46 13.72 14.55 161.94 27.25 10.56 3.80 45.30 47.73 1.80 3.02 128.63 131.62 3.77 1.80 1.72 3.63 129.59 10. Filipinas Polonia Portugal Rumania Singapur España Suecia Suiza Taiwan Tailandia Turquia USA USSR Samoa 100m 10.60 3.38 27.70 46.79 1.59 4.71 10.20 139.29 13.58 27.91 47.83 132.94 20.76 1.77 3.82 1.10 46.78 46.40 45.57 130.46 10.88 1.95 20.G.51 10.71 Maratón 148.75 20.19 10.41 13.55 3.88 21.64 15.59 10.30 47.82 200m 21.96 14.29 21.36 30.00 21.71 47.21 13.56 13.37 10.10 152.70 45.64 20.66 20.158 País Indonesia Irlanda Israel Italia Japon Kenya Korea RD-Korea Luxemb.98 131.67 29.76 1.75 136.77 3.08 128.23 13.61 10.53 34.01 31.60 43.60 49.40 46.71 9.81 28.27 149.13 13.83 1.01 10.

Friedman. Olshen. California: Wadsworth. (1981). Belmont. 23–38. T. Oxford: Clarendon Press. A. M. Discrete Multivariate Analysis. Borg. Chambers.237 AND. Wiley. New York: Wiley. An analytic solution for approximating simple structure in factor analysis. Signatura: 519. Métodos de Análisis Multivariante. Ca. Psychometrika. Fienberg.: Wadsworth & Brooks/Cole.: MIT Press. and Hastie. 1984th edition. and Holland. and Collins.. Outliers in Statistical Data. S. Anderson. P. V. (1994).Bibliografía Agresti.. Pacific Grove. Neural Networks for Pattern Recognition. Carroll. Modern Multidimensional Scaling. New York: Wiley. New York: Springer-Verlag. Barnett. and Lewis. C. V. (1974). (1975). (1984). T. Introduction to Multivariate Analysis. T. Theory and Practice. and Hinkley. Theoretical Statistics. Cox. A. and Cox. (1978). 18. London: Chapman & Hall. Multidimensional Scaling. London: Chapman and Hall. J. R. Chatfield. (1980). Bishop. Categorical Data Analysis. 159 . R.. Classification and Regression Trees. (1992). A. C. T. 1979th edition. (1997).. (1996). Cuadras. Chapman and Hall. J. Wiley. Breiman. P. (1992). Statistical Models in S. I. Cambridge. Statistical Factor Analysis and Related Methods. J. Y. (1990). Cox. and Stone. (1978). and Groenen. C. Theory and Applications. An Introduction to Multivariate Statistical Analysis. D. L. C. Barcelona: Eunibar. Mass. (1953). Bishop.. D. Basilevsky.

87–102. (1997). Signatura: 519. 1–41. Multivariate Adaptive Regression Splines. Machine Learning. The Univ. Mass. Wiley. An Omnibus Test of Normality for Moderate and Large Sample Sizes. Biometrika. P. Small Sample Probability Points for the D Test of Normality. London: Prentice Hall. 58. A. D. Devroye. D’Agostino. 8. Inference. Statistique. Friedman. Hay traducción española de la tercera edición.237. Objetivos. Dillon. T. B. Springer-Verlag. (2001). J. Escofier. The Analysis of Cross-Classified Categorical Data. Wiley. . J.. H. and Irani.. (1960). (1989). (1996). 40. (1971). Hand. Fayyad. Hawkins.: MIT Press. S. D. Signatura: 519. (1981). W. and Friedman.8.8 HAS. N. U.. The Elements of Statistical Learning. Technical Report 546. (1984). Cambridge. D. Multivariate Analysis of National Track REcords. and Fuchs. School of Statistics. of Chicago Press. G. L. (1997). Springer Verlag. Discrimination and Classification. Psychometrika. 33–51. Harman.160 BIBLIOGRAFÍA D’Agostino. Multivariate Analysis: Methods and Applications. Multivariate Statistical Inference. J. 219–221. M. (1995). 110–115. Hastie. Dawkins.. Paris: Dunod. New York: Wiley.. Bilbao: Servicio Editorial de la UPV/EHU. Biometrika. Tibshirani. (1992). (1980). (1977). The American Statistician. Generalized Procrustes Analysis. Giri. Fourgeaud. B. L. K. Garthwaite. (1975). and Pages. I. (1967). University of Minnesota. 59.237. B.. Jolliffe. 341–348. (1984). and Lugosi. and Prediction. FIRM: Formal Inference-based Recursive Modeling. Gower. R. Métodos e Interpretación. (1972). A Probabilistic Theory of Pattern Recognition. R. Györfi. Annals of Statistics. On the handling of continuous-valued attributes in decision tree generation. 19. and Jones. Modern Factor Analysis. 43. Hand. J. Academic Press. Construction and Assessment of Classification Rules. C. Análisis Factoriales Simples y Multiples. Fienberg. and Goldstein. (1991). Data Mining. Statistical Inference. R.

BIBLIOGRAFÍA

161

Haykin, S. (1998). Neural Networks. A comprehensive Foundation. Prentice Hall, second edition. Kaiser, H. (1958). The varimax criterion for analytic rotation in factor analysis. Psychometrika, 23, 187–200. Kiefer, J. C. (1983). Introduction to Statistical Inference. New York: SpringerVerlag, 1987th edition. Kohonen, T. (1997). Self-Organizing Maps. Berlin: Springer-Verlag. Kooperberg, C., Bose, S., and Stone, C. J. (1997). Polychotomous Regression. Journal of the American Statistical Association, 92, 117–127. Krzanowski, W. (1988). Principles of Multivariate Analysis: A User’s Perspective. Oxford, Signatura: 519.23 KRZ. Lachenbruch, P. (1975). Discriminant Analysis. New York: Hafner Press. Lebart, L. (1997). Méthodes factorielles. In Thiria et al. (1997). Loh, W.-Y. and Vanichsetakul, N. (1988). Tree-Structured Clasification Via Generalized Discriminant Analysis. Journal of the American Statistical Association, 83, 715–728. Magnus, J. and Neudecker, H. (1988). Matrix differential calculus with applications in Statistics and Econometrics. Wiley. Mardia, K. (1974). Applications of some measures of Multivariate Skewness and Kurtosis for testing normality and Robustness Studies. Sankhya, B, 36, 115–128. Mardia, K., Kent, J., and Bibby, J. (1979). Multivariate Analysis. Academic Press. McCulloch, W. and Pitts, W. (1943). A logical calculus of the ideas immanent in nervous activity. Bulletin of Mathematical Biophysics, 5, 115–133. McLachlan, G. (1992). Discriminant Analysis and Statistical Pattern Recognition. Wiley. Peña, D. (2002). Análisis de Datos Multivariantes. McGraw-Hill. Plackett, R. (1974). The Analysis of Categorical Data. London: Griffin. Rencher, A. (1995). Methods of Multivariate Analysis. Wiley. Rencher, A. (1998). Multivariate Statistical Inference and Applications. Wiley. Ripley, B. (1996). Pattern Recognition and Neural Networks. Cambridge University Press, 519.237.8 RIP.

162

BIBLIOGRAFÍA

Robbins, H. and Monro, S. (1951). A stochastic approximation method. Annals of Mathematical Statistics, pp. 400–407. Rothkopf, E. (1957). A mesure of stimulus similarity and errors in some pairedassociate learning. Journal of Experimental Psychology, 53, 94–101. Royston, P. (1995). A Remark on Algorithm AS 181: The W Test for Normality. Journal of the Royal Statistical Soc., Ser. B, 44, 547–551. Rumelhart, D., Hinton, G., and Williams, R. (1986). Learning internal representations by error propagation. In D. Rumelhart and J. McClelland, editors, Parallel distributed processing: Explorations in the Microstructures of cognition, volume 1, pp. 318–362, MIT Press. Searle, S. (1982). Matrix Algebra useful for Statistics. Wiley. Seber, G. (1977). Linear Regression Analysis. New York: Wiley. Seber, G. (1984). Multivariate Observations. New York: Wiley. Shapiro, S. and Wilk, M. (1965). An analysis of variance test for normality (complete samples). Biometrika, 52, 591–611. Sibson, R. (1978). Studies in the Robustness of Multidimensional Scaling: Procrustes Statistics. Journal of the Royal Statistical Society, Ser. B, 40, 234–238. Stapleton, J. (1995). Linear Statistical Models. New York: Wiley. Therneau, T. and Atkinson, E. (1997). An Introduction to Recursive Partitioning using the RPART Routines. Technical report, Mayo Foundation. Thiria, S., Lechevallier, I., Gascuel, O., and Canu, S., editors (1997). Statistique et méthodes neuronales, Dunod. Trocóniz, A. F. (1987a). Modelos Lineales. Bilbao: Serv. Editorial UPV/EHU. Trocóniz, A. F. (1987b). Probabilidades. Estadística. Muestreo. Madrid: TebarFlores. Zhang, H. and Singer, B. (1999). Recursive Partitioning in the Health Sciences. Springer-Verlag, Signatura: 519.233.5 ZHA.

Índice alfabético

R(T ) ˆ estimador por resustitución, R(T ), 131 estimador por validación, Rcv (T ), 131 estimador por validación, Rts (T ), 131 tasa de error en árboles, 129 tasa de mala clasificación en árboles, 129 R(t) tasa de error en un nodo, 129 árbol binario, 125 de clasificación, 125, 126 de regresión, 125 FACT, 135 FIRM, 135 nodo, 125 nodos terminales, 125 raíz, 125 índice de Gini, 128 de impureza de un nodo, 128 outliers en distribuciones normales, 32 activación función de, 139 algoritmo de reescalado iterativo , 89 aprendizaje

d, 141 atributos, 83 back-propagation e, 145 binario árbol, 125 caracteres, 83 clasificación mediante árboles binarios, 126 componentes principales, 59 contraste razón generalizada de verosimilitudes, 42 contraste de hipótesis sobre el vector de medias de una población normal, 37 D’Agostino contraste de normalidad, 30 dengrograma agrupamiento jerárquico, 153 descomposición en valores singulares, 77 discriminación con costes variables, 112 con información a priori, 110 con más de dos grupos, 112, 115 con variables normales, 113 máximo verosímil, 109 regla lineal de Fisher, 115 discriminante, análisis tasa de error aparente, 120

163

32 litud. 123 euclídea. 150 distribución Wilks. 145 d. 146 tor principal. 84 rotación. 74 Mardia estimación por máxima verosimicontraste de normalidad. 61 entrenamiento o. 135 MANOVA factorial con un tratamiento. 128 excitación d. 45 nodo Gini impureza. 74 matriz rotación de proximidades. 115 . 125 como medida de impureza en árbo. 31 contraste de Gnanadesikan y Ketgradiente local tenring. lambda de.. 128 índice de. 102 distancia de Minkowsky d. 45 modelo más de un tratamiento. 128 raíz. 85 Fisher muestreo producto-multinomial discriminante lineal. 152 ligadura simple .164 disimilaridad. 146 Lawley-Hotelling contraste. 47 ligadura completa . 30 Gnanadesikan y Kettenring contraste de D’Agostino. 141 entropía como medida de impureza en árboles. 135 .. 27 Eckart-Young teorema. 148 Mahalanobis distancia. 27. 31 . 128 contraste de Shapiro-Wilk.mapas auto-organizados. 101 quartimax. 83 generalizadas.. 152 máquinas de vectores soporte. índice terminal. 30 contraste de normalidad. 73 muestreo multinomial FIRM.normalidad les. 125 Gini. 85 formas cuadráticas niveles. 73 muestreo de Poisson varimax . 153 Kohonen mapas auto-organizados. 47 estimación por el método del fac. 145 ÍNDICE ALFABÉTICO impureza de los nodos de un árbol. 128 impureza de un nodo. 101 distancia de Mahalanobis. 123 FACT. 128 jerárquico método de agrupamiento.

146 sumas de cuadrados generalizadas. 120 teorema de Eckart-Young. 47 Procrustes análisis. 137 rotación ortogonal. 73 varimax. 61 validación cruzada. 27 165 . 46 SVD descomposición en valores singulares. 101 SOM. SOM ). 141 Pillai contraste. 45 sumas de cuadrados generalizadas. 47 self-organizing maps. 121. 97 proximidades matriz de. 72 procrustes. 129 tasa de error aparente en discriminación. 131 valores singulares descomposición. 73 Roy contraste. 148 tabla de contingencia . 73 red neuronal. 137 RNA.ÍNDICE ALFABÉTICO contraste de Mardia. 27. 73 vectores soporte. 47 máxima raíz. 146 Shapiro-Wilk contraste de normalidad. 30 similaridad. 77 varimax rotación. 97 quartimax. 148 verosimilitud razón generalizada. 101 quartimax rotación. 142 paradoja de Simpson „ 84 perceptrón „ 139 -. 83 tasa de error en árboles. 77 SVM. 32 contrastes multivariantes. 42 Wilks distribución Λ. 30 parámetro de aprendizaje p.

Sign up to vote on this title
UsefulNot useful