NotasAMD Pag 31

ANÁLISIS MULTIVARIADO DE DATOS
Javier Trejos Zelaya
Escuela de Matemática
Universidad de Costa Rica
ii
Índice general
1. Estadı́stica Descriptiva 1
1.1. Elementos de Estadı́stica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1.1. Individuos o unidades estadı́sticas . . . . . . . . . . . . . . . . . . . 2
1.1.2. Las variables de la estadı́stica . . . . . . . . . . . . . . . . . . . . . 3
1.2. Tablas de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2.1. Tablas de individuos × variables . . . . . . . . . . . . . . . . . . . . 7
1.2.2. Tablas de variables × variables . . . . . . . . . . . . . . . . . . . . 8
1.2.3. Tablas de individuos × individuos . . . . . . . . . . . . . . . . . . . 9
1.3. Análisis estadı́sticos univariados y bivariados . . . . . . . . . . . . . . . . . 10
1.4. Análisis univariado y bivariado con el sistema PIMAD . . . . . . . . . . . 15
1.4.1. Análisis univariado en PIMAD . . . . . . . . . . . . . . . . . . . . . 16
1.4.2. Análisis bivariado en PIMAD . . . . . . . . . . . . . . . . . . . . . 17
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2. Introducción a la Estadı́stica Multidimensional 19

2.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.2. Los espacios vectoriales asociados a las tablas de datos . . . . . . . . . . . 19
2.3. Nubes de puntos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.4. Inercia en un punto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
Anexo: esquema de dualidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3. Análisis en Componentes Principales 29

3.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
iii
iv
3.2. Objetivo del A.C.P. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

3.3. Solución del A.C.P. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.3.1. Diagonalización de V . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.3.2. Vectores principales . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.3.3. Componentes principales . . . . . . . . . . . . . . . . . . . . . . . . 32
3.3.4. Propiedades de las componentes principales . . . . . . . . . . . . . 32
3.4. Representaciones gráficas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.4.1. Planos principales . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.4.2. Cı́rculos de correlaciones . . . . . . . . . . . . . . . . . . . . . . . . 34
3.5. Indices de calidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.5.1. Calidad global . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.5.2. Calidad particular . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.5.3. Número de componentes principales . . . . . . . . . . . . . . . . . . 40
3.6. Interpretación de los resultados . . . . . . . . . . . . . . . . . . . . . . . . 41
3.7. Elementos suplementarios . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.7.1. Individuos suplementarios . . . . . . . . . . . . . . . . . . . . . . . 42
3.7.2. Variables suplementarias . . . . . . . . . . . . . . . . . . . . . . . . 43
3.8. Otras aplicaciones del A.C.P. . . . . . . . . . . . . . . . . . . . . . . . . . 43
Anexo: cálculo de los ejes principales de inercia . . . . . . . . . . . . . . . . . . 43
4. Análisis Factorial de Correspondencias 49

4.1. Perfiles-fila y perfiles-columna . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.1.1. Nube de perfiles-fila . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.1.2. Nube de perfiles-columna . . . . . . . . . . . . . . . . . . . . . . . . 54
4.2. Propiedad de equivalencia distribucional . . . . . . . . . . . . . . . . . . . 55
4.3. Análisis en Componentes Principales de una nube de perfiles . . . . . . . . 56
4.4. Representaciones gráficas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
4.5. Interpretación de un AFC . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4.5.1. La contribución absoluta . . . . . . . . . . . . . . . . . . . . . . . . 61
4.5.2. Contribución relativa . . . . . . . . . . . . . . . . . . . . . . . . . . 62
4.5.3. Selección de ejes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
v
4.5.4. Selección de puntos . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

4.6. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
4.6.1. Análisis de Correspondencias de una tabla de contingencia . . . . . 63
4.6.2. Análisis de Correspondencias de una tabla de notas . . . . . . . . . 65
4.7. Aplicación en Biologı́a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
4.7.1. Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
4.7.2. Methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
4.7.3. Results . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
4.7.4. Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
5. Análisis de Correspondencias Múltiples 79

5.1. Los principios básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
5.2. Equivalencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
5.3. El AFC de Z . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
5.4. Interpretación de resultados . . . . . . . . . . . . . . . . . . . . . . . . . . 85
5.5. Ejemplo: Análisis de Conceptos Sociológicos en la
Educación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
5.5.1. El cuestionario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
5.5.2. Tratamiento previo de los datos . . . . . . . . . . . . . . . . . . . . 87
5.5.3. Análisis de las relaciones entre las variables de opinión . . . . . . . 88
5.5.4. Confirmación de resultados comparando
con otros métodos . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
5.5.5. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
6. Escalamiento Multidimensional 97
6.1. Escalamiento clásico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
6.1.1. La forma de Torgerson . . . . . . . . . . . . . . . . . . . . . . . . . 98
6.1.2. Determinación de las coordenadas . . . . . . . . . . . . . . . . . . . 100
6.1.3. Relación con el Análisis en Componentes Principales . . . . . . . . 100
6.1.4. Uso del MDS clásico . . . . . . . . . . . . . . . . . . . . . . . . . . 101
6.1.5. Algoritmo de MDS clásico . . . . . . . . . . . . . . . . . . . . . . . 102
6.2. Escalamiento métrico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
vi
6.2.1. El criterio de Stress . . . . . . . . . . . . . . . . . . . . . . . . . . . 102

6.2.2. Método de Kruskal . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
6.2.3. ALSCAL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
6.2.4. MDS y optimización . . . . . . . . . . . . . . . . . . . . . . . . . . 105
6.2.5. Restricciones en la configuración . . . . . . . . . . . . . . . . . . . . 106
6.3. Escalamiento no métrico . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
6.4. El caso de tablas múltiples . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
6.5. Análisis de preferencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
6.5.1. Ejemplo sobre desayunos . . . . . . . . . . . . . . . . . . . . . . . . 118
6.5.2. Ejemplo sobre pintura . . . . . . . . . . . . . . . . . . . . . . . . . 120
6.5.3. La Interestructura . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
6.5.4. El Compromiso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
6.5.5. La Intraestructura . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
6.5.6. Aplicación: Análisis de la Evolución de la Opinión Pública . . . . . 122
7. Clasificación jerárquica 135

7.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
7.2. Similitudes y disimilitudes . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
7.2.1. Similitudes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
7.2.2. Disimilitudes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
7.2.3. Caso binario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
7.2.4. Caso cualitativo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
7.2.5. Agregaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
7.3. Jerarquı́as . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
7.4. Algoritmo de clasificación jerárquica ascendente . . . . . . . . . . . . . . . 145
7.4.1. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
7.4.2. Fórmula de recurrencia . . . . . . . . . . . . . . . . . . . . . . . . . 148
7.4.3. Inversiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
7.4.4. Algoritmos ascendentes acelerados . . . . . . . . . . . . . . . . . . . 149
7.5. Ejemplo de notas escolares . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
7.6. Jerarquı́as y ultramétricas . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
vii
7.7. Observaciones acerca de la clasificación jerárquica . . . . . . . . . . . . . . 151

7.7.1. Algoritmos descendentes . . . . . . . . . . . . . . . . . . . . . . . . 152
8. Clasificación por particiones 153

8.1. Problema combinatorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154
8.2. Criterio de la inercia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154
8.3. Método de nubes dinámicas . . . . . . . . . . . . . . . . . . . . . . . . . . 155
8.3.1. Escogencia de los núcleos iniciales . . . . . . . . . . . . . . . . . . . 156
8.3.2. Caso de los centros de gravedad . . . . . . . . . . . . . . . . . . . . 156
8.3.3. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156
8.3.4. Ejemplo de las notas escolares . . . . . . . . . . . . . . . . . . . . . 170
8.4. Análisis de las formas fuertes . . . . . . . . . . . . . . . . . . . . . . . . . 170
9. Análisis Discriminante 177

9.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177
9.2. Análisis Factorial Discriminante . . . . . . . . . . . . . . . . . . . . . . . . 178
9.2.1. Plantemiento del problema . . . . . . . . . . . . . . . . . . . . . . . 178
9.2.2. Solución del análisis factorial discriminante . . . . . . . . . . . . . . 179
9.2.3. Un A.C.P. particular . . . . . . . . . . . . . . . . . . . . . . . . . . 180
9.2.4. El caso de dos grupos . . . . . . . . . . . . . . . . . . . . . . . . . . 181
9.3. Análisis decisional: reglas geométricas de asignación . . . . . . . . . . . . . 181
9.4. Discriminación paso a paso: selección de las variables más discriminantes . 181
9.5. Evaluación de las funciones discriminantes . . . . . . . . . . . . . . . . . . 183
9.6. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184
9.7. Otros métodos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
9.7.1. Métodos probabilı́sticos . . . . . . . . . . . . . . . . . . . . . . . . 185
9.7.2. Discriminación cualitativa . . . . . . . . . . . . . . . . . . . . . . . 186
9.7.3. Segmentación y árboles de decisión . . . . . . . . . . . . . . . . . . 186
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187
Anexo: descomposición de la inercia . . . . . . . . . . . . . . . . . . . . . . . . . 189
10.Regresión Lineal Múltiple 191

viii
10.1. Planteamiento del problema . . . . . . . . . . . . . . . . . . . . . . . . . . 191

10.1.1. Interpretación geométrica . . . . . . . . . . . . . . . . . . . . . . . 192
10.1.2. Solución . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192
10.2. Calidad de la regresión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193
A. Guı́a breve de técnicas multivariadas de análisis de datos 197

Bibliografı́a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205
Índice de figuras
1.1. El coeficiente de correlación muestra el tipo de relación entre dos variables

cuantitativas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.1. El esquema de dualidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.1. Primer plano principal para la tabla de notas escolares, generado por las
dos primeras componentes principales . . . . . . . . . . . . . . . . . . . . . 35
3.2. Cı́rculo de correlaciones para la tabla de notas escolares generado por las
dos primeras componentes principales . . . . . . . . . . . . . . . . . . . . . 36
3.3. Proyección de dos puntos individuos en el plano principal . . . . . . . . . . 38
3.4. Descomposición del coseno cuadrado según el teorema de Pitágoras . . . . 39
4.1. Notaciones relacionadas con una tabla de contingencia . . . . . . . . . . . 51

4.2. Componentes de una tabla de frecuencias . . . . . . . . . . . . . . . . . . . 51
4.3. Tabla de perfiles-fila . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
4.4. Plano principal: nivel de salario vs. tipo de empleo . . . . . . . . . . . . . . 59
4.5. Plano principal: estudiantes vs. notas escolares . . . . . . . . . . . . . . . . 67
4.6. Principal plane of the correspondence analysis crossing the epiphytes and
the tree ferns. Tree ferns are indicated with a star ?, only the labels of the
epiphytes of interest are indicated with a circle ◦ and those around Cyathea
delgadii are indicated with a diamond . . . . . . . . . . . . . . . . . . . . 70
the 5 levels. The levels are indicated with a star ?, only the labels of the
epiphytes of interest are indicated with a circle ◦. . . . . . . . . . . . . . . 71
the 5 levels, for Cyathea nigripes. The levels are indicated with a star ?,
only the labels of the epiphytes of interest are indicated with a circle ◦. . . 72
ix
x
the 5 levels, for Cyathea delgadii. The levels are indicated with a star ?,
the 5 levels, for Alsophila polystichoides. The levels are indicated with a star
?, only the labels of the epiphytes of interest are indicated with a circle ◦. . 74
the 5 levels, for Alsophila erinacea. The levels are indicated with a star ?,
5.1. ACM de las diez variables de opinión: plano principal (25 % de inercia). . . 91
5.2. ACM de los temas “empresa privada–libertad”: plano principal (49 % de
inercia explicada). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
5.3. Trayectoria seguida por las modalidades de var8 y var9 en el plano gene-
rado por los ejes 1 y 3 (43 % de inercia). . . . . . . . . . . . . . . . . . . . 93
5.4. Arbol de clasificación para las variables de opinión. . . . . . . . . . . . . . 93
6.1. Representación de la percepción de similitudes entre 12 paı́ses por parte de

un grupo de 18 estudiantes, usando el método de Kruskal para MDS métrico.105
6.2. Configuraciones de las trece expresiones faciales obtenidas con los métodos
MDSR, ssMDSR y la reportada por Borg & Groenen (1997). . . . . . . . . 111
6.3. Plano principal y cı́rculo de correlaciones del Análisis en Componentes
Principales de la matriz Y . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
6.4. Resultado del análisis de preferencias de desayunos. . . . . . . . . . . . . . 119
6.5. Resultado del análisis de preferencias de 6 pinturas. . . . . . . . . . . . . . 120
6.6. Cı́rculo de correlaciones que contiene los años y su evolución. . . . . . . . . 128
6.7. Cı́rculo de correlaciones que contiene las variables y su evolución en los 4
anños del estudio. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
6.8. Plano principal con los grupos sociales en los ejes del compromiso. . . . . . 130
6.9. Plano principal con los puntos asociados a los partidos polı́ticos en los ejes
del compromiso. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
6.10. Trayectorias de los grupos sociales (1). . . . . . . . . . . . . . . . . . . . . 132
6.11. Trayectorias de los grupos sociales (2). . . . . . . . . . . . . . . . . . . . . 133
7.1. Ejemplo de árbol jerárquico . . . . . . . . . . . . . . . . . . . . . . . . . . 144

7.2. Arbol de clasificación obtenido al usar la agregación del salto mı́nimo . . . 146
xi
7.3. Arbol de clasificación opbtenido al usar la agregación del salto máximo . . 147
7.4. Arbol de clasificación obtenido al usar la agregación del salto promedio . . 148
7.5. Arbol de clasificación obtenido al usar la agregación del salto promedio . . 149
8.1. Configuración de 14 puntos descritos por dos variables x, y. . . . . . . . . . 159

8.2. Evolución de los núcleos para el método de nubes dinámicas (1a iteración:
, 2a iteración: , 3a iteración: ◦, 4a iteración: ?). . . . . . . . . . . . . . . 162
8.3. Configuración de 20 objetos en el plano. . . . . . . . . . . . . . . . . . . . 164
10.1. Proyeccion de la variable a explicar en el espacio generado por las variables

explicativas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192
xii
Índice de cuadros
1.1. Tabla de datos de las notas escolares con peso y estatura. . . . . . . . . . . 7

1.2. Tabla de datos de una encuesta. . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3. Tabla de contingencia que cruza el nivel de salario con el nivel de estudios 9
1.4. Tabla de datos con la distancia entre algunas ciudades . . . . . . . . . . . 10
1.5. Tabla de datos: sociomatriz en que 12 estudiantes de sexto grado califican
la afinidad hacia cada uno de sus compañeros. . . . . . . . . . . . . . . . . 10
3.1. Tabla de datos de las notas escolares . . . . . . . . . . . . . . . . . . . . . 30

3.2. Correlaciones entre las materias de la tabla de notas escolares . . . . . . . 32
3.3. Dos primeras componentes principales para la tabla de notas escolares . . . 33
3.4. Cosenos cuadrados y calidad de la representación para la tabla de notas
escolares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.1. Tabla de contingencia que cruza nivel de salario con tipo de empleo . . . . 50
4.2. Coordenadas de los puntos sobre las componentes principales - Tabla de
notas escolares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
4.3. Número de epı́fitas de cada especie sobre 4 especies de helechos arbores-
centes (primera parte de la tabla) y en cinco niveles (segunda parte de
la tabla): nivel 1 (0–20 %), nivel 2 (20–40 %), nivel 3 (40–60 %), nivel 4
(60–80 %) y nivel 5 (80–100 %) . . . . . . . . . . . . . . . . . . . . . . . . . 77
5.1. Frecuencias para las variables socioeconómicas. . . . . . . . . . . . . . . . . 89

5.2. Frecuencias de las variables de opinión. . . . . . . . . . . . . . . . . . . . . 90
6.1. Proximidades entre 12 paı́ses. . . . . . . . . . . . . . . . . . . . . . . . . . 104

6.2. Matriz de restricciones entre trece expresiones faciales. . . . . . . . . . . . 109
6.3. Matriz de disimilitudes entre trece expresiones faciales. . . . . . . . . . . . 110
xiii
1
6.4. Matrices C obtenidas por los métodos MDSR y ssMDSR y la reportada

por Borg & Groenen (1997). . . . . . . . . . . . . . . . . . . . . . . . . . . 111
6.5. Matriz de restricciones transpuesta (Y t ) para los datos de esfuerzos bacte-
riales. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
6.6. Matriz de disimilitudes para los datos de esfuerzos bacteriales. . . . . . . . 113
6.7. Lista de cereales analizados con MDS no métrico. . . . . . . . . . . . . . . 114
6.8. Resultados del MDS no métrico sobre la tabla de cereales: configuración de
puntos en el plano. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
6.9. Resultados del MDS no métrico sobre la tabla de cereales: contenido de
fibra de cada cereal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
6.10. Resultados comparativos para ssINDS, SYMPRES y CANDECOMP. . . . 117
8.1. Tabla de 14 objetos descritos por dos variables x, y. . . . . . . . . . . . . . 159

8.2. Distancias cuadráticas de los 14 objetos a los núcleos iniciales. . . . . . . . 160
8.3. Distancias de los 14 objetos a los núcleos de la segunda iteración. . . . . . 160
8.4. Distancias de los 14 objetos a los núcleos de la tercera iteración. . . . . . . 161
8.5. Distancias de los objetos a los núcleos finales obtenidos. . . . . . . . . . . . 162
8.6. Evolución de las clases escogiendo los objetos 5 y 7 como núcleos iniciales. 163
8.7. Tabla de 20 objetos caracterizados por dos variables x, y. . . . . . . . . . . 163
8.8. Distancias de los 20 objetos a los núcleos de la primera iteración. . . . . . 164
8.9. Distancias de los 20 objetos a los núcleos de la segunda iteración. . . . . . 165
8.10. Distancias de los objetos a los núcleos en las iteraciones 3, 4 y 5. . . . . . . 166
8.11. Distancias de los 20 objetos a los núcleos de la sexta iteración. . . . . . . . 167
8.12. Distancias de los 20 objetos a los nuevos núcleos (ejemplo 5). . . . . . . . . 168
8.13. Distancias de los objetos a los núcleos durante las iteraciones 2, 3 y 4. . . . 169
8.14. Evolución de las clases para las 4 iteraciones. . . . . . . . . . . . . . . . . . 170
8.15. Distancias de los 20 objetos a los núcleos en cada iteración cuando se es-
cogen dos clases. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
2
Capı́tulo 1
Estadı́stica Descriptiva
1.1. Elementos de Estadı́stica
La Estadı́stica trata de estudiar datos producidos en diversas situaciones. El estudio

de tales datos puede ser con diversos fines, dependiendo del campo de procedencia de los
datos. Debido a la dificultad de extraer a simple vista toda la información que los datos
poseen, o bien las tendencias que tienen, la Estadı́stica trata de “entender” cuáles son las
estructuras que los datos encierran intrı́nsecamente. La Estadı́stica consiste entonces en
una serie de técnicas útiles para el análisis de los datos producidos u observados.
En la actualidad, datos son producidos en casi todas las disciplinas y actividades
del ser humano: en Ciencias Sociales, Ciencias del Comportamiento, Ciencias Médicas,
Ciencias Agrı́colas, Fı́sica, Meteorologı́a, Educación, Biologı́a, Quı́mica, etc. En general,
casi cualquier actividad humana dondehaya medidas numéricas repetidas provenientes de
la observación o de experimentos, son susceptibles de ser ayudadas por las técnicas es-
tadı́sticas. También es cada vez más común que estas disciplinas acudan a las técnicas
multivariadas, ya que la complejidad de la información que manejan obliga a un análisis
más profundo que los simples promedios y porcentajes, que no muestran las interrelaciones
existentes entre las distintas variables observadas. El desarrollo actual de la computación
y los desarrollos metodologógicos han permitido abordar los grandes problemas de trata-
miento de datos multivariados.
En el presente capı́tulo introducimos la notación y terminologı́a sobre la que reposan
las técnicas multivariadas, que se verán más adelante. Ası́, empezamos definiendo lo que se
entiende por individuos y variables, ası́ como la clasificación de éstas. También recordamos
las principales medidas de estadı́stica descriptiva simple, aunque suponemos que la mayor
parte de los lectores las maneja cómodamente.
1
2 Estadı́stica Descriptiva
1.1.1. Individuos o unidades estadı́sticas

Todo estudio estadı́stico se hace sobre un individuo, que es el objeto de observación. Los
individuos u objetos de un análisis es lo que comúnmente se llaman unidades estadı́sticas.
Una unidad estadı́stica es la entidad sobre la que se quieren obtener las informaciones
para ser analizadas.
Al conjunto de todas las unidades estadı́sticas se le llama población. A una parte de
la población, se le llama muestra. En esta obra no trataremos asuntos relacionados con
las muestras. El lector interesado puede consultar [179] para una descripción de los tipos
de métodos de muestreo, o una obra especializada para profundizar en el tema.
Ejemplo 1.1.1 Supóngase que se quiere conocer las caracterı́sticas de los asegurados al
régimen de Seguridad Social, como por ejemplo su ocupación, su sexo, su estado civil,
el número de hijos que tienen, etc. Entonces los individuos u objetos de estudio son los
asegurados. La población es el conjunto de todos los asegurados, pero para un estudio
particular se puede extraer una muestra.
Ejemplo 1.1.2 Supóngase que se quiere estudiar la eficiencia de las clı́nicas del paı́s.
Para ello se contará el número de médicos y demás personal que tiene cada clı́nica, el
número de personas que ha atendido en un lapso de tiempo (digamos, en el último año), el
número de habitantes que tiene la comunidad a la que atiende, etc. Entonces los individuos
u objetos del análisis son las clı́nicas.
En el enfoque del Análisis de Datos, se suele trabajar directamente con los datos, por
lo que la diferencia entre si los datos provienen de una muestra o de una población es
irrelevante. De hecho, las técnicas que se verán en el curso son todas descriptivas, no
inferenciales. Es únicamente dentro de la Estadı́stica llamada Inferencial en que esta di-
ferencia tiene alguna importancia. En el caso de trabajar con una muestra, la validez de
extrapolar los resultados obtenidos a toda la población, dependerá de la representativi-
dad de la muestra. Es decir, dependerá de si la muestra fue obtenida por algún método
confiable.
Pesos de los individuos
En algunos métodos de Análisis de Datos, es importante tomar en cuenta que las

unidades estadı́sticas pueden tener distinta importancia en un estudio. A la importancia
que puede tomar un individuo, se le llama peso o ponderación.
Supondremos que los n individuos están ponderados por pesos positivos w1 , w2 , . . .,
wn tales que w1 + · · · + wn = 1. En muchas ocasiones, estos pesos serán iguales para todos
los individuos, en cuyo caso wi = 1/n para todo individuo i. Salvo que se especifique lo
contrario, supondremos que los pesos son iguales.
1.1 Elementos de Estadı́stica 3
Ejemplo 1.1.3 En caso de que se tengan 100 individuos y todos con la misma importan-
cia, entonces el peso de cada uno es 1/100.
Si se quiere estudiar la evolución de los porcentajes de votación obtenidos por los distin-
tos partidos polı́ticos, según cada provincia, y se dispone únicamente de los porcentajes
de votos obtenidos por cada partido, entonces las unidades estadı́sticas son las provincias
y la ponderación de cada provincia será el número de votantes de la misma. Por ejem-
plo, digamos que se sabe que el partido PXY obtuvo en la pasada elección 42 % de los
votos en Limón, 47 % en Puntarenas, 52 % en Cartago, etc., entonces para calcular el
porcentaje obtenido en el paı́s se sumarán los porcentajes anteriores, pero ponderados por
la población respectiva. Ası́, si el número de votantes de Limón es 234,789, entonces se
multiplicará 42 % por 234,789, y ası́ sucesivamente. Más adelante veremos como calcular
promedios ponderados y otros ı́ndices cuando los pesos no son iguales.
1.1.2. Las variables de la estadı́stica

Una variable en estadı́stica, es lo que se observa o mide sobre las unidades estadı́sti-
cas. Para cada individuo puede tomar un valor distinto, de ahı́ su nombre. En términos
matemáticos, se puede definir como una función x del conjunto de individuos Ω a un con-
junto de valores. En vista de que los valores que puede tomar x varı́an en ese conjunto,
entonces se le da el nombre de variable a x. Debe observarse que este término estadı́stico,
que proviene del lenguaje de la probabilidad variable aleatoria, no debe confundirse con
el término usual en matemática de variable, en cuyo contexto se usa ese término para de-
signar a los elementos del dominio de la función (en este caso, a los individuos), mientras
que en la definición anterior se usa el término para designar a la función misma.
Ejemplo 1.1.4 Digamos que se quiere estudiar las caracterı́sticas fı́sicas de un grupo
de personas. Entonces resultará de interés medir su estatura, su peso, el perı́metro del
cráneo, su sexo, etc. Todas éstas son variables: por ejemplo, el peso puede tomar valores
diferentes para todas las personas, o bien, puede ocurrir que algunas de ellas tengan el
mismo peso, pero otras lo tengan diferente. Lo importante es que no todas tienen el mismo
valor.
Dependiendo de la naturaleza del conjunto de posibles valores de la variable distin-

guiremos dos tipos principales de variables: las cuantitativas y las cualitativas.
Variables cuantitativas
Una variable se llama cuantitativa o numérica cuando sus valores son números,
reales o enteros.
Ejemplo 1.1.5 Son variables cuantitativas el peso, la edad y la estatura de una persona,
la temperatura de una habitación, la edad, el número de camas de un hospital.
Puede observarse que las variables cuantitativas tienen una unidad de medida. Es decir,
se miden en alguna unidad que permita tener una idea de qué tanto posee un individuo
la caracterı́stica representada por la variable.
Ejemplo 1.1.6 El peso puede medirse en kilogramos, libras, miligramos, toneladas, etc.
El uso de una unidad dependerá de la naturaleza de las unidades estadı́sticas. Por ejemplo,
si se trata de personas, entonces el peso se medirı́a en kilogramos o libras; si se trata de
pastillas contra el dolor de cabeza y se quiere medir el peso del acetaminofén contenido,
entonces éste se puede medir en miligramos; si se trata de exportaciones de café, entonces
éstas se pueden medir en toneladas. Se debe notar que en algunos análisis que se estudiarán
más adelante, las unidades de medida pueden tener influencia en los resultados, por lo
que se recomienda tener cuidado en la escogencia de las mismas.
Entre las variables cuantitativas distinguimos dos tipos:
Las variables continuas, que son aquéllas que pueden tomar como valores cualquier
número real, es decir, un valor con decimales. Siempre es importante plantearse el
asunto de las unidades de medida de una variable continua, ya que en algunos casos
pueden influir en los resultados de un análisis. Por ejemplo, son variables continuas
el peso, la estatura, la temperatura, un porcentaje.
Las variables discretas, también llamadas de conteo, que son aquéllas que sólo
pueden tomar valores discretos, es decir, números enteros positivos. Son variables
discretas, por ejemplo, el número de camas en un hospital, el número de hijos de
un familia, la edad (dada en años). Las variables discretas tienen por lo general
los números enteros positivos como unidad de medida (aunque por ejemplo la edad
tiene unidad de medida el número de años).
Variables cualitativas
Si la variable puede tomar su valor solamente en un conjunto finito de posibilidades,

tales que todas ellas significan una cualidad o atributo, entonces se llama una variable
cualitativa o categórica.
Ejemplo 1.1.7 El sexo de una persona es una variable cualitativa, pues un individuo
solo puede tener dos cualidades para esta variable: la cualidad masculino o la cualidad
femenino.
Ejemplo 1.1.8 El estado civil de una persona es una variable cualitativa, pues un in-
dividuo solo puede tener una de cuatro cualidades: soltero, casado, viudo, divorciado. Es
decir, hay un conjunto finito de posibilidades, todas ellas excluyentes entre sı́.
1.1 Elementos de Estadı́stica 5
Las posibles cualidades que tiene una variable cualitativa, se llaman las modalidades
de la variable. Algunos autores las llaman también categorı́as o atributos.
Distinguiremos tres tipos de variables cualitativas:
Si las modalidades están ordenadas, entonces la variable se llama ordinal. Por ejem-
plo, la variable nivel de estudios es ordinal, ya que sus modalidades están ordenadas
según la duración de los estudios: las modalidades podrı́an ser por ejemplo educación
primaria, secundaria, técnica, universitaria.
Si las modalidades no están ordenadas, entonces la variable se llama nominal. Por

ejemplo, el sexo o el estado civil son variables nominales ya que las modalidades de
estas variables no tienen un orden lógico.
Un caso especial de variable cualitativa nominal es cuando se tienen solo dos moda-
lidades que reflejan la presencia o la ausencia de una cualidad; este tipo de variables
se llaman binarias, dicotómicas o de presencia–ausencia. Por ejemplo, si un
paciente tiene o no tiene una determinada enfermedad.
Codificación de variables cualitativas. Para las variables cualitativas, un aspecto

de suma importancia es el de la codificación. Por ejemplo, para la variable sexo, se puede
pensar en codificar la modalidad “femeninoçomo 1 y la modalidad “masculinoçomo 0. Sin
embargo, es claro que tal escogencia es totalmente arbitraria, ya que perfectamente se
pudo haber escogido 1 para femenino y 2 para masculino, o cualquier otra cosa, siempre
que el código asignado a cada modalidad sea diferente con el fin de no crear ninguna
ambigüedad. La codificación es en general necesaria en vista de que la mayorı́a de los
programas de computación manipulan información numérica. Por lo tanto, este es un
asunto al que hay que prestarle la mayor importancia en el momento de elaborar un
cuestionario y de tabularlo.
Ejemplo 1.1.9 En la práctica, la variable sexo puede aparecer codificada de la siguiente

manera:
Estudiante Sexo o bien Estudiante Sexo

Ana 1 Ana 1
Juan 0 Juan 2
Pedro 0 Pedro 2
Carmen 1 Carmen 1
Luis 0 Luis 2
Hay muchos programas estadı́sticos que necesitan hacer una codificación disyuntiva
completa, esto es, poner una columna completa para cada modalidad.
Ejemplo 1.1.10 El ejemplo anterior (1.1.9) quedarı́a codificado en forma disyuntiva

completa como sigue:
Sexo
Estudiante Feme. Masc.
Ana 1 0
Juan 0 1
Pedro 0 1
Carmen 1 0
Luis 0 1
Las columnas de la tabla del ejemplo 1.1.10, se llaman las indicatrices o indicadoras
de cada modalidad: un 1 indica que el individuo correspondiente posee la modalidad y
un 0 que no la posee. Es claro que las modalidades de la variable cualitativa definen
una partición sobre el conjunto de individuos. La partición en el ejemplo 1.1.10 serı́a
{Ana,Carmen}, {Juan,Pedro,Luis}.
Como para toda partición, las clases tienen asociada una función caracterı́stica: esta
función es precisamente la indicatriz de la modalidad. Véase además que esta partición
es la asociada a la relación de equivalencia mencionada anteriormente.
Recodificación de una variable cuantitativa. Por otro lado, es claro que cualquier
variable cuantitativa puede “codificarseçomo variable cualitativa, estableciendo niveles en
el rango de la variable cuantitativa.
Ejemplo 1.1.11 Para ciertos análisis, puede ser más útil manipular el salario como va-
riable cualitativa que como cuantitativa: se puede entonces pensar en establecer categorı́as
de salario, como muy bajo (menos de 500 dólares), bajo (entre 500 y menos de 1000
dólares), medio (entre 1000 y menos de 2000 dólares), alto (entre 2000 y menos de 4000
dólares) y muy alto ( más de 4000 dólares).
Al hacer una codificación como la anterior, se pierde la estructura algebraica de R

pero se mantiene la de orden y quizás se gana en sı́ntesis. La utilidad de una codificación
como ésta sólo se verá a la luz de los objetivos del estudio y las herramientas de que se
disponga.
1.2. Tablas de datos

Para hacer un análisis de datos, generalmente se disponen los datos arreglos rectangu-
lares en forma de matriz, llamados tablas de datos. En ellas, las filas y columnas describen
a individuos o variables, según sea el caso. A continuación presentamos los principales ti-
pos de tablas de dats.
1.2 Tablas de datos 7
1.2.1. Tablas de individuos × variables

En las tablas de individuos por variables, los individuos se asocian con las filas y las
variables con las columnas. Esto es, cada fila representa a un individuo y cada columna
representa a una variable.
Ejemplo 1.2.1 Considérese que se han observado 7 variables cuantitativas sobre un gru-
po de 10 estudiantes. Las primeras cinco variables son las notas obtenidas por los estudian-
tes en cinco materias: Matemáticas (Mate), Ciencias (Cien), Español (Espa), Historia
(Hist) y Educación Fı́sica (EdFi), todas ellas en escala de 0 a 10, y las otras dos variables
son el peso del estudiante (medido en libras) y la estatura (medida en centı́metros). Los
datos se presentan en la tabla 1.1.
Estudiante Mate Cien Espa Hist EdFi Peso Estatura

(lbs.) (cms.)
Lucı́a 7.0 6.5 9.2 8.6 8.0 126 162
Pedro 7.5 9.4 7.3 7.0 7.0 140 168
Inés 7.6 9.2 8.0 8.0 7.5 130 169
Luis 5.0 6.5 6.5 7.0 9.0 150 172
Andrés 6.0 6.0 7.8 8.9 7.3 142 165
Ana 7.8 9.6 7.7 8.0 6.5 128 165
Carlos 6.3 6.4 8.2 9.0 7.2 144 170
José 7.9 9.7 7.5 8.0 6.0 134 165
Sonia 6.0 6.0 6.5 5.5 8.7 135 170
Marı́a 6.8 7.2 8.7 9.0 7.0 128 166
Cuadro 1.1: Tabla de datos de las notas escolares con peso y estatura.
Ejemplo 1.2.2 Al realizar una encuesta, normalmente se disponen los datos en una tabla
de individuos × variables. Considérese que en una encuesta se ha recogido información
como el nombre, el sexo, la edad, el estado civil, el número de hijos, el ingreso mensual
bruto, etc. Entonces la tabla de datos tendrı́a una forma como la mostrada en la tabla 1.2.
Estado Número Ingreso

Nombre Sexo Edad civil de hijos mensual ...
(años) (colones)
J. Pérez M 34 Casado 1 356.000 ...
S. Acuña F 24 Soltera 0 188.000 ...
L. Coto F 52 Viuda 3 141.000 ...
F. Solı́s M 46 Soltero 0 170.000 ...
A. M. Porras F 38 Casada 2 92.000 ...
.. .. .. .. .. .. ..
. . . . . . .
Cuadro 1.2: Tabla de datos de una encuesta.

Normalmente, en una tabla de datos como la de la tabla 1.2 se codifican las variables
cualitativas, de modo que la tabla puede ser almacenada en una base de datos o archivo
numérico, para lo cual el usuario debe señalar los códigos asociados a cada modalidad.
Dependiendo del software estadı́stico que se use, el mismo permitirá cierta forma de hacer
esta codificación.
Supóngase que se tienen n individuos descritos por p variables. Llamemos X a una

tabla de datos de filas × columnas, entonces X es un matriz que tiene n filas y p columnas.
La tabla de datos se puede ver como sigue:
x1 x2 · · · xj · · · xp
x1 x11 x12 · · · x1j · · · x1p
x2 x21 x22 · · · x2j · · · x2p
. .. ..
X = .. . .
xi xi1 xi2 · · · xij · · · xip
.. .. ..
. . .
xn xn1 xn2 · · · xnj · · · xnp
En general, en la notación xij el primer subı́ndice denota a los individuos y el segundo

subı́ndice a las variables. Por otro lado, distinguiremos a los individuos de las variables
poniendo subı́ndice a los individuos y superı́ndice a las variables: xi denota al individuo
i y xj denota a la variable j.
Este tipo de tablas serán usadas más adelante, en técnicas como el Análisis en Com-
ponentes Principales y la Clasificación Automática. En algunos casos especiales, también
se podrı́a usar el Análisis Factorial de Correspondencias.
1.2.2. Tablas de variables × variables

Se trata de tablas en que tanto las filas como las columnas describen a variables, o a
modalidades de éstas en el caso cualitativo. Es el caso de las tablas de contingencia que
se analizan en Análisis Factorial de Correspondencias o las tablas de Burt para Análisis
de Correspondencias Múltiples.
Sean x y y dos variables cualitativas que poseen respectivamente las modalidades x1 ,
x2 , . . ., xp y y1 , y2 , . . ., yq . Se puede entonces construir la tabla estadı́stica siguiente, que
resulta de cruzar las variables x y y:
la entrada (j, k) de la tabla representa el número de individuos que poseen simultáneamen-
te las modalidades xj y yk . Ese número se denotará njk Una tabla de datos construida de
esta forma se llama tabla de contingencia o tabla cruzada. El análisis de este tipo de tablas
se introduce en la sección 1.3, y se desarrolla en el capı́tulo 4 sobre Análisis Factorial de
Correspondencias.
1.2 Tablas de datos 9
Ejemplo 1.2.3 En una encuesta se ha preguntado por el nivel de estudios de un conjunto

de 1200 presonas, ası́ como por su nivel de ingresos. Los ingresos han sido codificados de
la siguiente forma:
salario bajo: menos de 100.000 colones mesuales

salario medio: entre 100.000 y menos de 250.000 mesuales
salario alto: entre 250.000 y menos de 700.000 mensuales
salario muy alto: 700.000 mensuales o más.
Entonces los datos se han dispuesto en una tabla tal que cada casilla contiene el núme-
ro de personas entrevistadas con determinado nivel de estudios y determinado nivel de
salario. La tabla de contingencia obtenida se muestra en la tabla 1.3.
Nivel de Nivel de salario

estudios Bajo Medio Alto Muy alto Total
Ninguno 200 21 2 0 223
Primario 217 45 5 6 273
Técnico 156 105 46 32 339
Secundario 73 93 24 2 192
Universitario 6 86 52 29 173
Total 652 350 129 69 1200
Cuadro 1.3: Tabla de contingencia que cruza el nivel de salario con el nivel de estudios
1.2.3. Tablas de individuos × individuos

Se trata de tablas que tienen tanto por filas como por columnas a individuos. Un caso
tı́pico es una tabla de distancias: en la entrada (i, h) de la matriz se tiene la distancia
calculada entre el individuo i y el individuo h, denotada d(xi , xh ). Estas tablas son muy
usadas en Clasificación Automática y en Escalamiento Multidimensional.
Ejemplo 1.2.4 Considérese la tabla 1.4 de datos que muestra la distancia en lı́nea recta
(en kilómetros) entre algunas ciudades de Costa Rica: San José (S.J.), Alajuela (Ala.),
Cartago (Car.), Heredia (Her.), Puntarenas (Pun.), Limón (Lim.), Liberia (Lib.) y Gol-
fito (Gol.). Es un ejemplo tı́pico de tabla de individuos × individuos, donde los individuos
son las ciudades.
Ejemplo 1.2.5 Se dispone de una matriz de datos donde 12 estudiantes de sexto grado
han calificado la afinidad que tienen por cada uno de sus compañeros. Por filas se tienen
las notas que asignan los estudiantes, entre 1 y 5, y por columnas las notas que les son
asignadas por sus compañeros. Una matriz de este tipo es llamada una sociomatriz. El
grupo tiene a 5 mujeres y 5 varones. En la diagonal, se han colocado las notas máximas,
para la calificación de un estudiante a sı́ mismo. Los datos se presentan en la tabla 1.5.
S.J. Ala. Car. Her. Pun. Lim. Lib. Gol.

S.J. 0 18.0 18.0 9.0 82.5 114.0 168.0 172.5
Ala. 18.0 0 36.0 10.5 67.5 127.5 150.0 184.5
Car. 18.0 36.0 0 25.5 99.0 97.5 186.0 157.5
Her. 9.0 10.5 25.5 0 78.0 118.5 160.5 181.5
Pun. 82.5 67.5 99.0 78.0 0 195.0 97.5 232.5
Lim. 114.0 127.5 97.5 118.5 195.0 0 271.5 150.0
Lib. 168.0 150.0 186.0 160.5 97.5 271.5 0 330.0
Gol. 172.5 184.5 157.5 181.5 232.5 150.0 330.0 0
Cuadro 1.4: Tabla de datos con la distancia entre algunas ciudades
Iren Flor Beat Silv Hele Anto Migu Fede Este Dieg
Irene 5 4 5 2 3 2 2 2 3 2
Flor 5 5 4 3 4 3 3 3 4 3
Beatriz 4 5 5 2 3 3 3 4 3 3
Silvia 2 4 5 5 5 2 3 3 4 3
Helena 3 4 4 5 5 1 2 2 2 1
Antonio 1 3 1 2 1 5 5 2 3 2
Miguel 2 4 3 2 2 5 5 2 3 3
Federico 3 4 4 3 3 3 3 5 4 4
Esteban 2 5 3 3 3 4 4 4 5 3
Diego 2 4 3 3 2 4 3 3 5 5
Cuadro 1.5: Tabla de datos: sociomatriz en que 12 estudiantes de sexto grado califican la
afinidad hacia cada uno de sus compañeros.
1.3. Análisis estadı́sticos univariados y bivariados
Siempre que se haga un análisis de datos, es imprescindible tener un conocimiento

profundo del comportamiento individual de cada variable. Incluso si el objetivo es hacer
un análisis multivariado, esta etapa previa de profundización es indispensable.
Para ello, se han definido varios ı́ndices que miden este comportamiento y se han
diseñado varias técnicas, en su mayorı́a con apoyo gráfico, para tener una mejor visión de
lo que mide o explica cada variable. Se puede decir que lo que se quiere es un resumen
numérico y un resumen gráfico de la variable. A este tipo de análisis se le llama análisis
de una variable o análisis univariado.
Según sea la naturaleza de las variables hay diferentes tipos de análisis univariados
que se pueden hacer. A continuación recordaremos rápidamente los principales ı́ndices y
gráficos univariados y bivariados, el lector interesado puede consultar más ampliamente
sobre este punto en [179]
1.3 Análisis estadı́sticos univariados y bivariados 11
Análisis estadı́stico univariado. Si la variable a analizar es cuantitativa, se medirán

su tendencia central y su dispersión. Entre las primeras se cuentan la media, la mediana
y la media de los valores extremos. Como es usual, la media de una variable cuantitativa
x se denota x̄, su desviación estándar σx y su varianza var(x). Los cuartilos y percentiles
permiten tener una idea del comportamiento de una variable según su orden. Entre las
principales medidas de dispersión están la desviación estándar (y su cuadrado, la varian-
za), la desviación media, la desviación mediana, la desviación cuartil y la extensión. El
coeficiente de variación es el cociente de la desviación estándar entre la media.
Si la variable a analizar es cualitativa o binaria, se calculan las frecuencias (absolutas y
relativas) de cada modalidad, y en caso de ser ordinal la variable, también las frecuencias
acumuladas.
Los principales gráficos asociados a una variable cuantitativa son generalmente los
histogramas (que pasan por la escogencia de un número de clases en los que se divide a
las observaciones, construyéndose una distribución de frecuencias), las cajas de dispersión
(o boxplot) y los diagramas tallo–hoja. Estos gráficos permiten tener una idea de la
dispersión de los datos.
En el caso de una variable cualitativa, hay una serie de gráficos que se usan, dependien-
do de los intereses en la descripción, como los gráficos de barras, de bastones o circulares,
que representan proporcionalmente a las frecuencias.
Análisis estadı́stico bivariado. El análisis bivariado consiste el estudio de las rela-

ciones entre las parejas de variables, y también forma parte de la descripción simple de
una tabla de datos.
En el caso de tener dos variables cuantitativas, se suele hacer el diagrama de dispersión,
el cual grafica en ejes de abscisas y de ordenadas a las dos variables, y permite ver la
asociación entre ellas. El coeficiente de correlación es una cuantificación de la relación
entre dos variables cuantitativas x y y:
cov(x, y)
r(x, y) = ,
σx σy
donde la covarianza es:
1X 1X
cov(x, y) = (xi − x̄)(yi − ȳ) = xi yi − x̄ȳ.
n n
El coeficiente de correlación se interpreta ası́:
Si r(x, y) ≈ 1: hay una fuerte correlación directa, esto significa que a valores grandes
de x corresponden valores grandes de y y que a pequeños valores de x corresponden
pequeños valores de y. Es decir, las variables tienen un comportamiento similar sobre
todos los individuos. Lo anterior se puede ilustrar en el diagrama de dispersión que
se muestra en la figura 1.1(a).
Si r(x, y) ≈ 0: no hay correlación, esto significa que a valores grandes de x corres-

ponden tanto valores grandes como pequeños de y, y que a valores pequeños de x
también corresponden valores grandes como pequeños de y. Es decir, el comporta-
miento de las variables no tiene ninguna relación entre sı́. Ver la figura 1.1(b).
Si r(x, y) ≈ −1: hay una fuerte correlación inversa, lo que significa que a valo-
res grandes de x corresponden valores pequeños de y, y a valores pequeños de x
correponden valores grandes de y. Es decir, las variables tienen un comportamiento
opuesto una de la otra. Ver la figura 1.1(c).
y y y
• •
• • • • ••
• • • •• • •
•• • • •
• • • • • • ••
• • •
• • •
x x x
(a) r(x, y) ≈ 1 (b) r(x, y) ≈ 0 (c) r(x, y) ≈ −1
Figura 1.1: El coeficiente de correlación muestra el tipo de relación entre dos variables
cuantitativas
Más adelante haremos una interpretación geométrica del coeficiente de correlación,

como un coseno, muy importante para el desarrollo posterior del análisis multivariado.
Si las dos variables son cualitativas, entonces se suele estudiar la independencia entre
las modalidades de las dos variables mediante un ı́ndice de asociación, que usualmente es
el ı́ndice de chi–cuadrado (denotado χ2 ); existe toda una técnica factorial para el análisis
del tipo de dependencia entre las modalidades, que es el Análisis Factorial de Correspon-
dencias, que además provee gráficos de fácil lectura. Esta técnica será presentada en el
capı́tulo 4.
Sean x y y dos variables cualitativas que poseen respectivamente las modalidades x1 ,
x , . . ., xp y y1 , y2 , . . ., yq . Denotando njk la entrada j, k de la tabla de contingencia,
2
entonces q
escribimos: p
X X
j
nj· = njk el efectivo de x , n·k = njk el efectivo de yk
k=1 j=1
p q p q
X X X X
yn= nj· = n·k = njk es la población total.
j=1 k=1 j=1 k=1
nj· n·k
Denotemos n0jk la cantidad . Diremos que la variable x es independiente de la
0
n
variable y si njk = njk , para todo j y todo k. Véase que la igualdad anterior es equivalente
a:
njk nj·
= (1.1)
n·k n
1.3 Análisis estadı́sticos univariados y bivariados 13
para todo j = 1, 2, . . . , p y todo k = 1, 2, . . . , q. Esto quiere decir que las variables son
independientes si la proporción de individuos que poseen simultáneamente xj y yk , entre
los que poseen yk , es la misma proporción de aquéllos que poseen xj en la población total.
Una manera de caracterizar las diferencias entre los njk y los n0jk es mediante la
cantidad χ2 (léase chi-cuadrado):
p q
2
X X (njk − n0jk )2
χ (x, y) = (1.2)
j=1 k=1
n0jk
es decir p q
2
X X 1 (nnjk − nj· n·k )2
χ (x, y) = (1.3)
j=1 k=1
n nj· n·k
Esta cantidad representa la diferencia entre el producto de las frecuencias relativas teóricas
n0jk nj· n·k njk
= · y las frecuencias relativas observadas . La asociación entre x y y
n n n n
será mayor conforme χ2 (x, y) sea grande, y χ2 (x, y) será cercano a cero en el caso de
independencia entre x y y. Se puede probar que (ver ejercicio 1 de la sección 1.4.2):
p q
2
X X n2jk
χ (x, y) = n −n
n n
j=1 k=1 j· ·k
También es muy usado el coeficiente de contingencia de Pearson, denotado Φ2 :

2 χ2 (x, y)
Φ (x, y) =
n
y el T 2 de Chuprov:
Φ2 (x, y) χ2 (x, y)
T 2 (x, y) = = .
(p − 1)(q − 1) n(p − 1)(q − 1)
El Φ2 elimina el efecto del efectivo de una muestra y sirve para comparar dos tablas de
contingencia de las mismas dimensiones, mientras que el T 2 elimina además el efecto del
número de modalidades, por lo que puede servir para comparar cualquier par de tablas
de contingencia. Además, el T 2 está comprendido entre 0 y 1.
Ejemplo 1.3.1 Considérense los datos de la tabla de contingencia 1.3, que cruza el nivel
de salario con el nivel de estudios en un conjunto de 1200 entrevistados. Para calcular el
n2
ı́ndice de chi-cuadrado, se calculan los términos nj·jk
n·k
, que son:
Nivel de Nivel de salario

estudios Bajo Medio Alto Muy alto
Ninguno 0.27511073 0.00565022 0.00013904 0
Primario 0.26455088 0.02119309 0.00070988 0.00191113
Técnico 0.11010369 0.09292035 0.04838672 0.04377752
Secundario 0.04256933 0.12870535 0.02325581 0.00030193
Universitario 0.00031916 0.12214698 0.12116323 0.07045321
Al calcular la suma de todos esos términos, multiplicarla por

n = 1200 y restarle n, se obtiene que χ2 = 448,04. Además,
2 2
Φ = 448,04/1200 = 0,3734 y T = 0,0311.
Supóngase que se tiene una variable cuantitativa x y una variable cualitativa y con
modalidades y1 , y2 , . . . , yq . Si bien es cierto que se podrı́a analizar la asociación entre x
y y discretizando x, por ejemplo construyendo un histograma de x y calculando luego el
ı́ndice de χ2 , es preferible no perder la información de continuidad que posee la variable
cuantitativa.
El cociente de correlación mide la intensidad de la asociación entre x y y, calculando
la dispersión que tiene x restringido en cada una de las modalidades de y.
Ejemplo 1.3.2 Supóngase que se tienen las siguientes variables, observadas sobre 20
individuos, x: salario en dólares y y: nivel de estudios, esta última con las modalidades
primario, secundario, técnico y universitario. Agrupadas según las modalidades de y, las
observaciones son
y (nivel de estudios) x (salario en dólares)

primario $267 $503 $208 $198 $250 $263
secundario $845 $471 $310 $830
técnico $759 $1200 $810 $650
universitario $1500 $1113 $2300 $900 $2100 $1621
Separando los datos según las modalidades de y y calculando la media para cada uno
de los grupos, se tiene que el salario medio para las personas con nivel educativo primario
es 281.50, para los de nivel secundario es 614.00, para los de nivel técnico es 854.75 y
para los de nivel universitario es 1589.00. La media total es 854.90. Se puede ver que hay
diferencias grandes entre los salarios medios para cada modalidad de y y que los técnicos
tienen un salario promedio muy parecido al de la media total, aún si ninguno de ellos
tiene realmente un salario medio.
El cálculo del cociente de correlación se basa en una comparación de las medias de x

para cada una de las modalidades de y. Sean x̄1 , x̄2 , . . . , x̄q las medias de x para cada una
de las q modalidades de y. Entonces el cociente de correlación entre x y y es:
var{x̄1 , x̄2 , . . . , x̄q }
η(x, y) =
var(x)
donde var(x) es la varianza de x y donde var{x̄1 , x̄2 , . . . , x̄q } es la varianza de las medias,
la cual debe ser calculada de manera ponderada de acuerdo con el total de cada modalidad
de y.
Se puede ver que el cociente de correlación está entre 0 y 1. Cuando η(x, y) está cercano
a 1 hay una fuerte asociación entre x y y, y cuando está cercano a 0 hay muy poca
asociación.
1.4 Análisis univariado y bivariado con el sistema PIMAD 15
Ejemplo 1.3.3 Considerando los datos del ejemplo anterior (1.3.2), la varianza de las
medias es 271,913.68, la cual se calcula ası́:
271, 913,68 = 0,3 × (281,50 − 854,90)2 + 0,2 × (614,00 − 854,90)2 +
+0,2 × (854,75 − 854,90)2 + 0,3 × (1589,00 − 854,90)2 .
La varianza total es 368,165.59 por lo que el cociente de correlación es

271, 913,68
η(x, y) = = 0,73856,
368, 165,59
lo cual se puede interpretar como que la asociación entre el salario y el nivel educativo es
del 73.85 % para ese grupo de individuos.
1.4. Análisis univariado y bivariado con el sistema

PIMAD
El módulo de Análisis Univariado del sistema PIMAD realiza la mayorı́a de los cálculos
y gráficos presentados en este capı́tulo, correspondientes al análisis univariado o bivariado.
Puede consultarse en el manual de PIMAD los conceptos básicos para el uso del sistema
PIMAD.
Para que el usuario seleccione las variables, puede usar el menú
Análisis-Univariado|Seleccionar las Variables, o bien puede presionar el botón
La selección se hace haciendo doble click sobre cada una de las variables para las
que se quiere obtener los valores de los ı́ndices. Nótese que en caso de hacer un gráfico
posteriormente, se desplegará únicamente el gráfico de la primera variable seleccionada.
Además, para hacer un análisis bivariado (por ejemplo, el cálculo de una correlación o el
despliegue de un gráfico de dispersión), se deben seleccionar únicamente dos variables.
1.4.1. Análisis univariado en PIMAD

Los siguientes botones realizan el análisis univariado de las variables seleccionadas:
En su orden de izquierda a derecha, los botones realizan lo siguiente:

cálculo de la media aritmética (promedio simple)
cálculo de la mediana
cálculo de la media de los valores extremos
cálculo de la varianza
cálculo de la desviación estándar
cálculo del coeficiente de variación
cálculo de la desviación media
cálculo de la desviación cuartil
cálculo de la extensión
grafica el histograma
grafica el polı́gono de frecuencias
grafica el diagrama tallo-hoja
grafica la caja de dispersión (boxplot).
Observación: : Los últimos cuatro botones, asociados al despliegue de gráficos, sólo se

aplican para la primera variable seleccionada por el usuario.
Para el histograma y el polı́gono de frecuencias, el usuario debe indicar el número de

intervalos, el lı́mite inferior y el lı́mite superior; estos parámetros ası́ como el tı́tulo del
gráfico pueden ser cambiados por el usuario, a pesar de que el sistema propone valores
por defecto (10 intervalos, lı́mite superior igual al valor máximo y lı́mite inferior igual
al valor mı́nimo). En ambos, las clases se toman con el mismo ancho. En el polı́gono de
frecuencias, la marca de clase es la media entre los extremos de la clase.
La caja de dispersión grafica los cuartilos como los lı́mites de la caja, la mediana dentro
de ella y lı́neas que van a los valores extremos que se encuentran a una diferencia menor
al doble de la desviación cuartil. Las operaciones anteriores se pueden efectuar utilizando
el menú Análisis-Univariado.
1.4.2. Análisis bivariado en PIMAD

El usuario debe seleccionar únicamente dos variables (de lo contrario el sistema en-
viará un mensaje de error). Los botones asociados al análisis bivariado son:
Estos botones realizan las siguientes operaciones:
1.4 Análisis univariado y bivariado con el sistema PIMAD 17
diagrama de dispersión
cálculo de la covarianza
cálculo del coeficiente de correlación lineal.
Para el diagrama de dispersión, el sistema pregunta el nombre del gráfico y el número de

clases en que se subdivide cada eje (por defecto este valor es 10).
Ejercicios
1. Demuestre que, dadas dos variables cualitativas x y y con p y q modalidades, res-
pectivamente, el ı́ndice de chi–cuadrado tiene la siguiente propiedad:
p q
2
X X n2jk
χ (x, y) = n − n.
j=1 k=1
n j· n ·k
2. Sean x, y dos variables cuantitativas y considere que los individuos tienen todos
pesos iguales 1/n. Si a, b son constantes determine el valor de cov(ax, by) en función
de cov(x, y). Ası́ mismo, determine r(ax, by) en función de r(x, y).
Capı́tulo 2
Introducción a la Estadı́stica
Multidimensional
2.1. Introducción
Cuando se dispone de muchas observaciones para cada individuo, los análisis univa-
riados y bivariados vistos al final del capı́tulo 1 tienen la limitación de no contemplar las
interrelaciones entre todas las variables, ni cómo esas interrelaciones afectan al conjun-
to de individuos. El objetivo de las técnicas multivariadas o multidimensionales es el de
proveer descripciones de esas interrelaciones, tomando las variables en su conjunto. Tales
descripciones son hechas, en la visión del Análisis de Datos, a partir de representaciones
geométricas, para las que se usa como herramienta el Algebra Lineal.
En este capı́tulo presentamos las nociones básicas del lenguaje algebraico que se usarán
en lo sucesivo, ası́ como la mayorı́a de las definiciones de nuestra representación geométri-
ca. Presentamos por lo tanto los tipos de tablas de datos, los espacios vectoriales utilizados,
las nociones de proximidad que se usarán a partir de la definición de un producto interno,
y finalmente la noción de inercia, que mide la dispersión de nuestras observaciones.
2.2. Los espacios vectoriales asociados a las tablas de

datos
Supóngase que se está en presencia de n individuos sobre los que se han observado
p variables cuantitativas. Tal y como definimos las tablas individuos × variables, a cada
individuo le corresponde una fila de la matriz de datos X.
La i-ésima fila de la denotamos xi y se ve que está representada por el vector de p
19
20 Introducción a la Estadı́stica Multidimensional
dimensiones:  
xi1
 xi2 
xi = 
 
.. 
 . 
xip
Entonces xi pertenece al espacio vectorial Rp . Por ello, Rp se llama el espacio de los
individuos.
Por otro lado, a cada variable observada le corresponde una columna de X. La j-ésima
columna la denotamos xj y está representada por el vector de n dimensiones:
 
x1j
 x2j 
j
x =  .. 
 
 . 
xnj
Entonces xj está en el espacio vectorial Rn . Por esta razón, a Rn se le llama el espacio de

variables.
En los espacios de individuos o de variables, podremos estudiar las relaciones entre
sus elementos a través de una serie de caracterı́sticas, entre ellas las proximidades entre
puntos. Estas proximidades serán definidas a través de distancias.
Para fijar las ideas que vamos a desarrollar, veamos los conceptos geométricos siguien-
tes en el espacio de individuos Rp .
Una distancia sobre el espacio Rp es una aplicación d : Rp × Rp −→ R+ tal que:
1. d(x, x) = 0 para todo x en Rp
2. d(x, y) = d(y, x), para todo x, y en Rp
3. d(x, z) ≤ d(x, y) + d(y, z), para todo x, y, z en Rp
Un caso tı́pico de distancia es la distancia euclı́dea clásica:

v
u p
uX
d(x, y) = t (xi − yi )2 (2.1)
i=1
donde x y y son dos elementos de Rp con p componentes.

Véase que la distancia euclı́dea clásica puede formularse según el siguiente producto
matricial:
2.2 Los espacios vectoriales asociados a las tablas de datos 21
   
x1 y1
 x2   y2 
si x =  yy=
   
.. .. 
 .   . 
xp yp
p
entonces d(x, y) = (x − y)t (x − y). Esto es, d(x, y) = kx − yk,pdonde k · k denota la
norma matricial clásica1 , y también podemos escribir d(x, y) = (x − y)t Id(x − y) =
kx − ykIp , donde Ip es la matriz identidad en Rp .
Los conceptos de norma y distancia euclı́dea se pueden generalizar para otro tipo de
matrices. En efecto, sea M una matriz simétrica, definida y positiva2 de dimensiones
p × p. Entonces el producto matricial xt Mx permite definir una norma sobre Rp , que
denotaremos k · kM , ası́: √
kxkM = xt Mx (2.2)
En efecto
sea x ∈ Rp tal que kxkM = 0, esto es xt Mx = 0, por ser M definida entonces x = 0;

inversamente, si x = 0 es claro que xt Mx = 0 y kxkM = 0
p p
si λ ∈ R y x ∈ Rp , entonces kλxkM = (λx)t M(λx) = (λ)2 xt Mx = |λ|kxkM
veamos que se cumple la desigualdad triangular: ∀x, y ∈ Rp : kx + ykM ≤ kxkM +
kykM .
Para probarla, establezcamos primero la desigualdad de Cauchy-Schwartz:
en efecto, ∀x, y ∈ Rp y ∀λ ∈ R, por ser M definida positiva tenemos (x + λy)t M(x + λy) ≥ 0, lo
que es equivalente a λ2 kyk2M + 2λxt My + kxk2M ≥ 0.
Esta última expresión puede ser vista como un polinomio de segundo grado en λ: para que su gráfico
esté sobre el eje de las abscisas entonces debe tener a lo sumo una raı́z real y su discriminante debe
ser menor o igual a 0. El discriminante de ese polinomio es 4(xt My)2 − 4kyk2M kxk2M ,
por lo tanto debemos tener: xt My ≤ kxkM kykM .
Regresando a la prueba de la desigualdad triangular, ∀x, y ∈ Rp tendremos kx +
yk2M = (x+y)t M(x+y) = xt Mx+2xt My+yt My ≤ kxk2M +2kxkM kykM +kyk2M =
(kxkM + kykM )2 ,
de donde se deduce el resultado buscado.
Llamaremos métrica sobre Rp a una matriz p×p que sea simétrica, definida y positiva,
ya que como acabamos de ver una matriz de este tipo permite definir una norma y una
distancia sobre Rp . El caso clásico es cuando se toma la matriz identidad Ip de orden
p, que es la métrica que define la distancia euclı́dea clásica, tal como se presentó en la
ecuación (2.1).
1
Una norma en un espacio vectorial E es una aplicación k · k : E → R+ tal que (a) kxk = 0 ⇔ x = 0,
(b) ∀x ∈ y ∀λ ∈ R : kλxk = |λ|kxk, y (c) ∀x, y ∈ E : kx + yk ≤ kxk + kyk.
2
Esto es, (simétrica) xt My = yt Mx para cualquier par de vectores p-dimensionales x, y; (definida)
x Mx = 0 ⇔ x = 0; y (positiva) ∀x : xt Mx ≥ 0.
t
Una métrica define un producto interno sobre Rp : sea f : Rp × Rp −→ R la aplica-

ción definida por f (x, y) = xt My, entonces f es bilineal, simétrica, definida y positiva.
Normalmente, se denota hx, yiM = f (x, y).
En un espacio con producto interno tiene entonces sentido hablar, no sólo de proximi-
dad (a través de los conceptos de norma y distancia) sino también de ángulo: si x y y son
dos vectores del espacio entonces el coseno del ángulo θ que forman se puede determinar
a partir de:
hx, yiM = kxkM kykM cosθ
Ası́, diremos que dos vectores x, y son ortogonales si hx, yi = 0. Esto completa el propósito
que tenı́amos de proveer a nuestros espacios de una estructura geométrica.
Métrica de pesos en Rn
Sobre Rn también podemos definir una métrica que mida la proximidad entre las
variables, se tratará entonces de una matriz de orden n × n simétrica, definida y positiva.
Salvo que indiquemos lo contrario, usaremos la métrica de pesos Dω cuya matriz tiene
en la diagonal los pesos de los individuos y ceros en las otras entradas:
 
w1 0 . . . 0
 0 w2 . . . 0 
Dω =  .. (2.3)
 
 . . . . .. 
. 
0 0 . . . wn
donde suponemos que para todo wi > 0 y ni=1 wi = 1.

P
En el caso de variables cualitativas, las métricas de pesos se definirán a partir de la

tabla de contingencia por medio de los perfiles marginales.
Matriz de varianzas-covarianzas
Supongamos que estamos en presencia de p variables cuantitativas centradas x1 , . . . , xp ,

que definen una matriz X. Definimos la matriz de varianzas-covarianzas como la matriz
V de dimensiones p × p tal que en la entrada (j, j) de la diagonal contiene la varianza
de la variable xj : var(x), y en la entrada (j, k) (con j 6= k) la covarianza entre xj y xk :
cov(xj , xk ).
Entonces, V puede calcularse matricialmente ası́:
V = Xt Dω X (2.4)
Si xj , xk son dos de las variables, entonces su covarianza es:

cov(xj , xk ) = (xj )t Dω xk
2.2 Los espacios vectoriales asociados a las tablas de datos 23
Asimismo, la varianza de xj es:
var(xj ) = (xj )t Dω xj
Interpretaciones geométricas de media y varianza
La última igualdad nos permite establecer que la varianza puede ser vista como la
norma al cuadrado de un vector de Rn : var(xj ) = kxj k2Dω .
Por lo tanto, la correlación por su lado puede ser vista como el ángulo entre dos
vectores de Rn :
cov(xj , xk ) (xj )t Dω xk
r(xj , xk ) = p = = cos θ
var(xj )var(xk ) kxj kDω kxk kDω
donde θ es el ángulo formado en Rn por los vectores xj y xk .
Por su parte, la media de xj se puede interpretar como la proyección Dω ortogonal en

R de xj sobre el eje generado por el vector de unos: 1In = (1, 1, . . . , 1)t . En efecto, esta
n
proyección ortogonal serı́a:

Pn
(xj )t Dω 1In wi xi x̄j
1In = Pi=1
n 1
I n = 1In = x̄j 1In
k1In kDω w
i=1 i 1
Por otro lado, la diferencia en norma entre el vector-variable xj y su proyección o promedio

x̄j 1In , serı́a: v
u n
j j
uX
kx − x̄ 1In kDω = t wi (xi − x̄j )2 = σxj
i=1
es decir, es la medida de dispersión (la desviación estándar) alrededor de la media.
Métricas en Rp
Como ya mencionamos, la matriz identidad de orden p define una métrica en Rp .

Cuando estudiemos el Análisis en Componentes Principales (A.C.P.), veremos que esta
métrica puede usarse cuando todas las variables han sido medidas con la misma unidad
de medida (por ejemplo, todas en metros).
Otra métrica usual en Rp , es la definida por la diagonal de las inversas de las varianzas:
 
1/var(x1 ) 0 ... 0
 0 1/var(x2 ) . . . 0 
D1/σ2 = 
 
.. . . .
. 
 . . . 
p
0 0 . . . 1/var(x )
Esta métrica se recomienda en un A.C.P. cuando las unidades de medida para las variables
son diferentes (por ejemplo, algunas variables son medidas en metros, otras en kilogramos,
otras son notas, etc.).
Véase que usar la métrica D1/σ2 para medir proximidades, corresponde en la práctica
a estandarizar las variables y usar luego la distancia euclı́dea clásica.
Finalmente, citamos la métrica de Mahalanobis, cuya matriz es la inversa de la matriz
de varianzas-covarianzas V−1 . Esta métrica se usa normalmente en Análisis Factorial
Discriminante, como veremos en el capı́tulo 9.
Las métricas anteriores son utilizadas cuando se dispone de variables cuantitativas.

Como veremos, en el caso de tablas de contingencia que crucen modalidades de dos varia-
bles cualitativas, se usa la métrica llamada del χ2 , que tiene una serie de propiedades que
la hacen particularmente bien adaptada a estos casos, lo cual será utilizado en el Análisis
de Correspondencias.
2.3. Nubes de puntos

Sea X una tabla de datos definida con variables cuantitativas, y sean Rp el espacio
de individuos y Rn el de variables. Si M es la métrica sobre Rp y Dω la métrica de pesos
sobre Rn , entonces denotamos con N = (X, M, Dω ) la nube de puntos, esto es, los n
puntos ponderados del espacio vectorial Rp , junto con la medida de proximidad y angular
definidas por M, y las medidas de tendencia central y de dispersión asociadas a Dω . El
concepto de nube de puntos es entonces un concepto geométrico, cuya forma trataremos
de describir y sintetizar mediante métodos estadı́sticos.
Cuando estemos en presencia de tablas de contingencia, hablaremos más bien de nubes
de perfiles: en efecto, serán los perfiles fila y los perfiles columna los que caracterizarán
nuestros datos. Veremos esto con detalle en el capı́tulo 4 sobre el Análisis de Correspon-
dencias.
2.4. Inercia en un punto

Sea Rp provisto de una métrica M, se llama inercia en un punto a de Rp a la cantidad:
n
X
Ia = wi kxi − ak2M (2.5)
i=1
Véase que este valor mide la dispersión de la nube de puntos N alrededor del punto
a.
2.4 Inercia en un punto 25
Se atribuye al gran estadı́stico R.A. Fisher la frase “la información está en la disper-
sión”. Por ello, en el análisis univariado es de vital importancia un estudio minucioso de
las medidas de dispersión (desviación estándar, intervalo inter-cuartil, etc.). En el análisis
multivariado, la medida de dispersión es la inercia, cuya definición dada más arriba viene
de una analogı́a con la mecánica.
Como nuestros datos están descritos por varias variables, trataremos también de definir
un “término medio”: éste será el centro de gravedad g de la nube de puntos, definido por:
n
X
g= wi xi (2.6)
i=1
Como es de esperarse, la inercia o dispersión es mı́nima cuando es medida respecto el

centro de gravedad o término medio, tal como lo establece el teorema de Huyghens:
Teorema 2.1 Para todo a ∈ Rp se tiene Ia = Ig + ka − gk2M
Demostración:
Sea a ∈ Rp , entonces:
n
X
Ia = wi (xi − a)t M(xi − a)
i=1
n
X
= wi (xi − g + g − a)t M(xi − g + g − a)
i=1
n
X n
X n
X
t t
= wi (xi − g) M(xi − g) + 2 wi (g − a) M(xi − g) + wi (g − a)t M(g − a)
i=1 i=1 i=1
Xn
= Ig + kg − ak2M + 2(g − a)t M wi (xi − g)
i=1
donde hemosPusado el hecho que M es simétrica y que la suma de los pesos es 1.

Ahora bien, ni=1 wi (xi −g) = 0 por definición de g, por lo que se obtiene el resultado.
Ig es llamada la inercia total de la nube N y a menudo es denotada I.

Obsérvese que la noción de inercia generaliza la de varianza. En efecto, si se dispone
de solamente una variable x, entonces el centro de gravedad es x̄, y por lo tanto la inercia
I es exactamente var(x).
Ejercicios
1. Considere la siguiente tabla de datos con dos variables cualitativas:
sexo profesión
masculino oficinista
masculino obrero
femenino obrera
femenino artista
femenino artista
femenino oficinista
masculino artista
masculino oficinista
femenino artista
Haga una codificación disyuntiva completa de la tabla de datos.

Con las matrices asociadas a la codificación anterior, construya la tabla de contin-
gencia que cruza a las dos variables cualitativas mediante el procedimiento matricial
explicado en el texto.
2.4 Inercia en un punto 27
Anexo: Esquema de Dualidad

Recuérdese que Rp es el espacio de individuos al que dotamos de la base canónica
{e1 , e2 , . . . , ep } y que su espacio dual lo denotamos (Rp )∗ y está provisto de la base dual
{e∗1 , e∗2 , . . . , e∗p }. Este espacio tiene definido un producto interno hx, yiM = M (x, y) a
partir de la métrica M, existe por lo tanto un isomorfismo M : Rp −→ (Rp )∗ tal que
∀x ∈ Rp : M(x) ∈ (Rp )∗ es tal que ∀y ∈ Rp : M(x)(y) = M(x, y).
Por su parte, Rn es el espacio de variables al que dotamos de la base canónica
{f1 , f2 , . . . , fn } y su espacio dual es (Rn )∗ y está provisto de la base dual {f1∗ , f2∗ , . . . , fn∗ }.
Este espacio tiene definido un producto interno hx, yiDω = Dω (x, y) a partir de la
métrica de pesos Dω , existe por lo tanto un isomorfismo Dω : Rn −→ (Rn )∗ tal que
∀x ∈ Rn : Dω (x) ∈ (Rn )∗ es tal que ∀y ∈ Rn : Dω (x)(y) = Dω (x, y).
Finalmente, la tabla de datos centrados X tiene asociada una matriz, también denota-
da X de dimensiones n × p y llamada matriz de datos, tal que la fila i-ésima representa al
individuo i-ésimo y es denotada xi , y la columna j-ésima Pprepresenta a la j-ésima variable
j
centrada y es denotada x . Obsérvese que se tiene xi = k=1 xik ek , por lo tanto aplicando
las propiedades de la base dual se tiene e∗j (xi ) = xij y recorriendo todos los n individuos
se obtiene x1j , x2j , . . . , xnj . Esto es, se obtienen las n componentes del vector-columna que
representa a la variable j. Por lo tanto, existe una aplicación de (Rp )∗ en Rn que asocia
e∗j con xj , esta aplicación también es denotada por X y tiene por matriz en las bases
consideradas la matriz X. Su transpuesta Xt es la matriz p × n asociada a la aplicación
lineal transpuesta de X, esto es la aplicación de (Rn )∗ sobre Rp tal que Xt (fi∗ ) = xi .
Con las notaciones anteriores se obtiene el esquema de dualidad de la figura 2.1, donde
V = Xt Dω X es la matriz de covarianzas.
Rp Xt (Rn )∗
M 6V 6D
ω
?
(Rp )∗ - Rp
X
Figura 2.1: El esquema de dualidad

Capı́tulo 3
Análisis en Componentes Principales
3.1. Introducción
El Análisis en componentes Principales constituye la técnica de base en Análisis de
Datos. Su principal objetivo es el de encontrar, a partir de una tabla de datos con variables
cuantitativas, un conjunto de variables sintéticas cuya información sea lo más parecida a
la da las variables originales. Es por lo tanto, una técnica de reducción de las dimensiones
de un problema puesto que de un conjunto inicial de variables, que pueden muchas, se
trata de encontrar un conjunto reducido de variables que contengan practicamente la
misma información que las variables originales.
En general, las tablas de datos definen nubes de puntos en espacios vectoriales con
dimensiones muy grandes, por lo que la visualización de las relaciones entre los puntos es
imposible cuando la dimensión del espacio es mayor que 3. El ojo humano sólo es capaz
de “ver” en dimensión menor o igual a 3. Ası́, en los casos multivariados el Análisis en
Componentes Principales (en adelante abreviado A.C.P.) es una herramienta muy útil
para la descripción de las relaciones entre las variables, pero también para la descripción
del comportamiento multidimensional de los individuos respecto a todas las variables en
su conjunto.
3.2. Objetivo del A.C.P.

Supóngase que se está en presencia de n individuos x1 , x2 , . . . , xn sobre los que se han
medido p variables cuantitativas x1 , x2 , . . . , xp . Por lo tanto se define una tabla de datos
X, con n filas y p columnas. Como vimos anteriormente, cada fila de la matriz se puede
ver como un punto de Rp , ası́ el conjunto de n individuos define una nube de puntos en
Rp .
Supondremos en este capı́tulo que las variables xj están centradas. Esto significa que
29
30 Análisis en Componentes Principales
el centro de gravedad de la nube de los n puntos en Rp está en el origen de coordenadas.
Buscamos un conjunto de q variables sintéticas c1 , c2 , . . . , cq , donde q < p, que en

adelante se llamarán componentes principales, tal que:
Cada componente principal ck debe ser combinación lineal de las variables originales
xj ; esto significa que la información contenida en las xj también está reflejada en
las ck .
Las componentes principales deben ser no correlacionadas dos a dos; esto significa
que las ck no tienen información redundante.
Las componentes principales deben tener varianza máxima; esto significa que con-
dendrán el máximo de información posible.
La tercera condición es equivalente a pedir que la inercia de la nube de puntos, pro-

yectada sobre las componentes principales, sea máxima. De esta forma las posiciones de
los puntos en Rp se verán aproximadamente reproducidas en el espacio reducido Rq .
Pedir que la inercia de la nube proyectada sea máxima es equivalente a pedir que haya
un mı́nimo de información perdida en la proyección.
Ejemplo 3.2.1 Considérese la tabla de datos de notas escolares mostrada en la tabla 3.1,
en que se muestran las notas obtenidas en cinco materias por 10 estudiantes. Todas las
materias están en la escala de 0 a 10. Puede observarse que los estudiantes son vectores
Estudiante Matemáticas Ciencias Español Historia Ed. Fı́sica

Lucı́a 7.0 6.5 9.2 8.6 8.0
Pedro 7.5 9.4 7.3 7.0 7.0
Inés 7.6 9.2 8.0 8.0 7.5
Luis 5.0 6.5 6.5 7.0 9.0
Andrés 6.0 6.0 7.8 8.9 7.3
Ana 7.8 9.6 7.7 8.0 6.5
Carlos 6.3 6.4 8.2 9.0 7.2
José 7.9 9.7 7.5 8.0 6.0
Sonia 6.0 6.0 6.5 5.5 8.7
Marı́a 6.8 7.2 8.7 9.0 7.0
Cuadro 3.1: Tabla de datos de las notas escolares
en R5 , por lo que para el ojo humano no es posible observar la configuración de los 10

puntos en R5 . Se quiere obtener una sı́ntesis de la tabla anterior que muestre:
La principales relaciones entre los individuos, es decir, cuales se parecen más que
otros, y cuales se diferencian de los demás.
3.3 Solución del A.C.P. 31
Las principales relaciones entre las variables, es decir, cuales tiene un comporta-
miento similar sobre los individuos, cuales tienen un comportamiento opuesto y
cuales no tienen ninguna relación entre sı́.
Explicar las relaciones entre individuos y variables.
El análisis anterior lo queremos hacer de forma global, es decir, tomando en cuenta a

todas las variables al mismo tiempo. Esta es una caracterı́stica esencial del Análisis Mul-
tivariado.
3.3. Solución del A.C.P.

No desarrollaremos como se obtiene la solución del problema planteado, pues ello
implicarı́a entrar en una serie de detalles matemáticos, lo cual no entra en los objetivos
de este curso. Para el lector interesado en consultar esos detalles, lo remitimos a las
referencias siguientes: [31, 35, 56, 114, 115, 164, 176].
3.3.1. Diagonalización de V
La solución al problema se obtiene al diagonalizar1 la matriz V. Obsérvese que la
matriz V es simétrica y positiva, por lo que tiene p valores propios reales y positivos.
Recuérdese que en caso de que las variables estén centradas y estandarizadas entonces
V es igual a la matriz de correlaciones R. Es decir, en el caso de variables estandarizadas,
la matriz que se diagonaliza en la matriz de correlaciones.
Ejemplo 3.3.1 Para el análisis de las notas escolares, estandarizaremos las variables
(es decir, las materias), ya que a pesar de que todas están en la misma escala de 0 a 10,
el nivel de dificultad de cada materia es diferente y es posible que cada profesor tenga
distintos criterios de evaluación. La matriz de correlaciones de esta tabla es dada en la
tabla 3.2.
Esta matriz de correlaciones tiene 5 valores propios positivos, que son:
λ1 = 2,89
λ2 = 1,63
λ3 = 0,35
λ4 = 0,12
λ5 = 0,01
1
Recuérdese que un escalar λ se llama valor propio de una matriz A si existe un vector v tal que
Av = λv; al vector v se le llama vector propio de A. Al proceso de obtener los valores y vectores propios
de una matriz se le llama diagonalización de la matriz.
Matemáticas Ciencias Español Historia Educación Fı́sica

Matemáticas 1.00 0.85 0.38 0.21 -0.79
Ciencias 0.85 1.00 -0.02 -0.02 -0.69
Español 0.38 -0.02 1.00 0.82 -0.37
Historia 0.21 -0.02 0.82 1.00 -0.51
Educación Fı́sica -0.79 -0.69 -0.37 -0.51 1.00
Cuadro 3.2: Correlaciones entre las materias de la tabla de notas escolares
3.3.2. Vectores principales

Al calcular los q valores propios mayores de la matriz V, denotados λ1 , λ2 , . . . , λq (or-
denados en orden decreciente), se obtienen los llamados vectores principales u1 , u2 , . . . , uq ,
donde
u1 es un vector propio normado asociado al valor propio λ1 ,
u2 es un vector propio normado asociado al valor propio λ2 ,
etc.
3.3.3. Componentes principales

Las componentes principales serán las variables asociadas a estos ejes principales.
Ası́,
1
c = Xu1 será llamada la primera componente principal,
c2 = Xu2 la segunda componente principal,
.. k
., c = Xuk la k-ésima componente principal,
etc.
Ejemplo 3.3.2 El cálculo de las componentes principales de la tabla de notas escolares da

como resultado las componentes mostradas en la tabla 3.3. Puede observarse que se trata
efectivamente de nuevas variables, puesto que tienen valores para todos los estudiantes.
3.3.4. Propiedades de las componentes principales

Las componentes principales tienen las siguientes propiedades:
1. son centradas:
c¯k = 0;
2. ck tiene varianza λk :
var(ck ) = λk ;
3.4 Representaciones gráficas 33
Primera componente Segunda componente

c1 c2
Lucı́a −0,32 −1,77
Pedro −0,67 1.64
Inés −1,00 0.52
Luis 3.17 0.26
Andrés 0.49 −1,37
Ana −1,71 1.02
Carlos −0,07 −1,46
José −2,01 1.28
Sonia 3.04 1.25
Marı́a −0,92 −1,37
Cuadro 3.3: Dos primeras componentes principales para la tabla de notas escolares
3. cada par de ellas tiene correlación cero:
∀k, l : r(ck , cl ) = 0.
La demostración de estas propiedades se deja como ejercicio.
Ejemplo 3.3.3 El lector puede comprobar que efectivamente, para las componentes c1 y
c2 de la tabla 3.3, éstas tienen media cero y que tienen correlación nula. Además, que la
varianza de c1 es 2.89 y la de c2 es 1.63.
3.4. Representaciones gráficas

Uno de los mayores usos que tiene el A.C.P. es a través de sus representaciones gráficas,
pues las componentes principales permiten hacer une representación en pocas dimensiones
de los hechos más sobresalientes de una tabla de datos.
Se obtendrán dos representaciones gráficas:
los planos principales, formados por las coordenadas de los individuos en las
componentes principales; aquı́ se pueden apreciar las principales agrupaciones y
dispersiones de los individuos;
los cı́rculos de correlaciones, obtenidos a partir de las correlaciones entre las va-
riables originales y las componentes principales normalizadas; aquı́ se pueden apre-
ciar las agrupaciones de variables y su comportamiento respecto de las componentes
principales.
Los dos gráficos anteriores son complemetarios. En efecto, el cı́rculo de correlaciones

permite interpretar las posiciones relativas de los individuos. Ası́ mismo, se puede apreciar
para qué individuos las variables tienen grandes valores (por encima del promedio).
En cualquier interpretación de los gráficos, siempre debe tenerse presente que éstos
no son más que simplificaciones de los hechos observados, por lo tanto cualquier hipótesis
que quiera formularse debe ser examinada a la vista de los datos originales para verificarla
o descartarla.
3.4.1. Planos principales

El plano definido por c1 , c2 es llamado el primer plano principal. En general, cualquier
plano definido por dos componentes principales es llamado un plano principal.
También llamaremos espacio principal a un espacio generado por un cierto número de
componentes principales.
Ejemplo 3.4.1 En el ejemplo de las notas escolares, el primer plano principal está ge-
nerado por c1 y c2 dados en la tabla 3.3.
Las coordenadas de un individuo sobre un plano principal se obtiene por la proyección

del individuo sobre ese plano. El valor de esta proyección es dado precisamente por los
valores corrrespondientes al individuo en las componentes principales.
Ejemplo 3.4.2 El plano principal obtenido para la tabla de notas escolares es dado en la
figura 3.1.
3.4.2. Cı́rculos de correlaciones

Por su parte, la construcción del cı́rculo de correlaciones se obtiene calculando el coe-
ficiente de correlación lineal entre cada xj y la componente principal ck correspondiente:
Coordenada variable xj en ck : = r(xj , ck )
Ejemplo 3.4.3 En la tabla de notas escolares, las correlaciones entre las variables ori-
ginales y las dos primeras componentes principales con:
Componente 1 Componente 2
c1 c2
Matemáticas −0,90 0.35
Ciencias −0,72 0.65
Español −0,61 −0,72
Historia −0,60 −0,75
Educación Fı́sica 0.91 −0,12
3.5 Indices de calidad 35
% Inercia 90.44 Eje 2 (32.57 %)

6
•
Pedro
•
José •
Sonia
•
Ana
•
Inés
•
Luis
-
Eje 1 (57.86 %)
•
Marı́a •
Andrés
•
Carlos
•
Lucı́a
?
Figura 3.1: Primer plano principal para la tabla de notas escolares, generado por las dos
primeras componentes principales
En un plano, se puede entonces graficar como puntos las parejas de coordenadas cal-
culadas de la forma anterior. Puede verse que ninguno de estos valores puede sobrepasar
1, ya que se trata de correlaciones. Por ello, en este plano se traza un cı́rculo de radio 1.
Además, entre más cercano al cı́rculo esté uno de los puntos mejor representada estará la
variable correspondiente, ya que eso significará que tiene una correlación muy elevada con
las dos componentes principales que generan el plano.
Ejemplo 3.4.4 Siguiendo el procedimiento descrito anteriormente, para la tabla de notas

escolares, se obtiene el cı́rculo de correlaciones en la figura 3.2.
3.5. Indices de calidad
3.5.1. Calidad global

La proyección de los individuos sobre el plano principal da una imagen aproximada de
las posiciones relativas de los puntos-individuos.
% Inercia 90.44 Eje 2 (32.57 %)

6
•
Ciencias
•
Matemáticas
-
Eje 1 (57.86 %)
• Fı́sica
Ed.
Español
••
Historia
Figura 3.2: Cı́rculo de correlaciones para la tabla de notas escolares generado por las dos
primeras componentes principales
En vista de las componentes principales son no correlacionadas, entonces son (geomé-

tricamente) perpendiculares, u ortogonales. Esto quiere decir que al calcular la inercia de
la nube de puntos basta con sumar las varianzas de las componentes principales.
Ejemplo 3.5.1 En la tabla de notas escolares, ya una vez centrada y estandarizada, la

inercia de la nube de puntos es 5 puesto que:
λ1 + λ2 + · · · λ5 = 5
En general, cuando se tenga una tabla centrada y estandarizada con p variables, en-
tonces la inercia total de la nube de puntos es p, lo cual también coincide con la suma de
los valores propios de la matriz de correlaciones.
Ahora bien, la inercia de la nube proyectada sobre el primer plano principal se cal-
culará usando las coordenadas de los puntos en ese plano. Si se hace el cálculo de esta
inercia se puede comprobar que es igual a la suma de los valores propios correspondientes
a las componentes principales.
Ejemplo 3.5.2 La inercia de la nube de puntos-estudiantes proyectada en el primer plano

principal es:
λ1 + λ2 = 2,89 + 1,63 = 4,52
Ası́, la calidad de la representación de la nube de puntos sobre el primer plano principal

se puede medir, en forma de porcentaje, por el cociente de la inercia de la nube proyectada
entre la inercia total:
λ 1 + λ2
Calidad global: × 100
I(N )
donde I(N ) es la inercia total de la nube, que es igual a la suma de todos los valores
propios de V . En el caso estandarizado, vimos que esta inercia total vale p, el número de
variables observadas.
En particular, el porcentaje de inercia explicado por una sola componente principal
k
c es:
λk
I(N )
Más generalmente, si se retienen q componentes principales, ellas resumen un porcen-

taje de inercia dado por:
λ1 + λ2 + . . . + λ q
× 100
I(N )
de la inercia total de la nube de puntos.
Ejemplo 3.5.3 En la tabla de notas escolares, el porcentaje de inercia explicado por cada
eje principal es (indicamos entre paréntesis el porcentaje acumulado):
Valor propio Porcentaje de Inercia

inercia acumulada
1 2,89 57,86 % (57,86 %)
2 1,63 32,57 % (90,44 %)
3 0,35 6,93 % (97,37 %)
4 0,12 2,45 % (99,82 %)
5 0,01 0,18 % (100,00 %)
Ası́, el porcentaje de inercia explicado por el primer plano principal es de 90.44 %.
3.5.2. Calidad particular

Calidad de representación de cada individuo
Las coordenadas de los individuos representados en el plano principal se obtienen por

proyección. Por lo tanto, es de esperar que esa proyección sea una fiel representación del
individuo si “no se pierde mucho” al proyectar, es decir, si la distancia entre el punto

original y el punto proyectado es pequeña.
En la figura 3.3 ilustramos esta situación. Se tienen dos puntos en la nube original, los
puntos a y b. Estos se proyectan sobre el plano principal en los puntos â y b̂, respectiva-
mente.
En la figura se puede apreciar que â y a están relativamente cercanos, por lo que â
puede considerarse como una buena representación de a. Sin embargo, b̂ y b son muy
diferentes, por lo que la representación b̂ de b es mala.
b•
D
D
D
D
D
D
D
D
D
D
D
!•a D
!!! D
!!

β D
D
•
!α ((((( â
b̂ •PP
! (
P
!(
!( (
PD!((
0

Figura 3.3: Proyección de dos puntos individuos en el plano principal
Esta buena o mala representación se puede cuantificar facilmente con la ayuda de los
cosenos de los ángulos formados por ciertos vectores. En efecto, el ángulo α entre el vector
a y el vector â es pequeño, por lo que su coseno es cercano a 1. Por su parte, el ángulo β
entre el vector b y el vector b̂ es muy abierto, casi de 90 grados, por lo que su coseno es
cercano a 0.
Estos cosenos servirán entonces para medir la calidad de la representación de un
individuo sobre el plano principal. Ası́, siguiendo la notación de la figura 3.3 entonces:
kâk
cos α =
kak
Elevando al cuadrado, se tendrá:
kâk2
cos2 α = (3.1)
kak2
Pero aún hay más: el cálculo del coseno del ángulo formado entre un vector individuo
y su representación en un espacio principal se puede calcular sumando los cosenos al
cuadrado que forma ese vector individuo con cada una de las componentes principales
que forman el espacio principal. En efecto, debido al teorema de Pitágoras, si â1 es la
proyección de a sobre la componente c1 y â2 es la proyección de a sobre la componente
c2 , entonces ||â||2 = ||â1 ||2 + ||â2 ||2 , por lo que:
kâ1 k2 + kâ2 k2
cos2 α =
kak2
Si α1 es ángulo que forma a con c1 y α2 el que forma con c2 , entonces:
kâ1 k2
cos2 α1 =
kak2
kâ2 k2
cos2 α2 =
kak2
De esta forma, se obtiene la siguiente descomposición para el coseno cuadrado de α (ver

figura 3.4):
cos2 α= cos2 α1 + cos2 α2 (3.2)
C2
a

â2 1 â
-C 1
0 â1
Figura 3.4: Descomposición del coseno cuadrado según el teorema de Pitágoras
Según la igualdad 3.2, se puede medir la calidad de la representación en cada com-

ponente principal y sumarlas para obtener la calidad total en un plano principal. Este
mismo tipo de suma se puede obtener para obtener la calidad de la representación de los
individuos en un espacio principal de dimensión mayor que 2.
Ejemplo 3.5.4 Para la tabla de notas escolares, en la tabla 3.4 se muestran los cosenos
cuadrados de los ángulos entre los puntos-individuos en el espacio R5 con su representación
en el primer plano principal.
Calidad de representación de cada variable
La calidad de la representación de una variable sobre el cı́rculo de correlaciones,

será también medida con el cuadrado del coseno del ángulo entre los vectores respec-
tivos. Ahora bien, recuérdese que entre variables, el coseno es igual a una correlación,
cos2 1 cos2 2 Calidad

plano (1,2)
Lucı́a 2.23 67.04 69.27
Pedro 13.99 84.84 98.83
Inés 51.45 13.61 65.06
Luis 93.69 0.64 94.33
Andrés 8.41 65.64 74.05
Ana 73.27 26.20 99.47
Carlos 0.19 88.61 88.80
José 67.36 27.09 94.45
Sonia 80.88 13.76 94.64
Marı́a 30.86 67.79 98.65
Cuadro 3.4: Cosenos cuadrados y calidad de la representación para la tabla de notas

escolares
por lo que serán las correlaciones las que midan la calidad de la representación de las
variables.
Sin embargo, en este caso no se puede aplicar el teorema de Pitágoras para descom-
poner la calidad de representación en el plano como suma de las correlaciones con cada
componente principal.
3.5.3. Número de componentes principales

Un asunto delicado es el de la decisión del número de componentes principales, o ejes,
que se deben escoger en un A.C.P. Para ello hay algunos criterios que el usuario puede
seguir para tomar la decisión. Estos criterios son:
El usuario fija un porcentaje de inercia P que considera como mı́nimo para que el
A.C.P. sea satisfactorio, entonces tomará el número de ejes que sea necesario hasta
que la inercia explicada por ellos sobrepase P . Por ejemplo, este porcentaje puede
ser fijado en P = 70 %, o en P = 80 %; solamente debe tomarse en cuenta que entre.
Si los datos están estandarizados, entonces se sugiere guardar todas las componentes
principales asociadas a valores propios mayores o iguales a 1. En efecto, una com-
ponente principal tiene por varianza el valor propio correspondiente, y las variables
originales -en el caso estandarizado- tienen varianza 1. Este criterio entonces dice
que se deben guardar aquellos ejes cuya varianza sea más importante que la varianza
de las variables originales.
Ejemplo 3.5.5 Para la tabla de notas escolares se escogerán 2 ejes, en vista de que se
han estandarizado los datos y solamente los dos primeros valores propios son mayores que
1.
3.6 Interpretación de los resultados 41
3.6. Interpretación de los resultados

El asunto más importante de un Análisis en Componentes Principales es la interpre-
tación de los resultados. A pesar de que, como en toda técnica estadı́stica, en la interpre-
tación hay mucho de arte y la experiencia juega un papel importante, se pueden sugerir
algunas directrices que pueden ayudar a encontrar los hechos más sobresalientes en los
resultados.
En primer lugar, se debe tratar de etiquetar a las componentes principales. Para ello,
se usarán las medidas de calidad de representación de los individuos y de las variables. Se
usan generalmente dos criterios:
Un eje tendrá mucha relación con aquellos individuos cuyo coseno cuadrado sea
superior o igual al 50 %. Estos individuos están particularmente bien representados
sobre ese eje.
Una componente principal puede ser interpretada a partir de las variables originales
que tengan con ella una correlación mayor o igual a 0.7.
Interpretación de los resultados para la tabla de notas escolares
Consulta de las correlaciones Puede apreciarse que todas las variables excepto Edu-
cación Fı́sica tienen correlación negativa con la primera componente principal; además
todas las correlaciones con esta componente son relativamente altas en valor absoluto,
especialmente para Matemática y Educación Fı́sica. Por lo tanto, parece ser que esta pri-
mera componente opone a las variables “de estudio” a la variable de “esfuerzo fı́sico”.
Esta oposición se aprecia claramente sobre el cı́rculo de correlaciones (figura 3.2).
Por su parte, la segunda componente principal tiene altas correlaciones (en valor ab-
soluto) únicamente con las variables “de estudio”, y esta correlación es positiva con las
“cientı́ficas” (Matemática y Ciencias) y negativa con las “humanidades” (Historia y Es-
pañol). Por lo tanto, esta segunda componente parece oponer a las variables cientı́ficas de
las humanı́sticas, como puede apreciarse sobre el cı́rculo de correlaciones.
Podemos por lo tanto etiquetar a la primera componente principal como “naturaleza
de la materia” y la segunda “tipo de materias”.
Examen de las agrupaciones en el plano Sobre el primer plano principal podemos

observar al lado izquierdo a los estudiantes (Sonia y Luis) que tienen buenas notas en
Educación Fı́sica pero muy malas notas en las otras materias (cf. tabla de datos, tabla
3.1). Estos estudiantes están del lado que corresponde, en el cı́rculo de correlaciones,
precisamente a Educación Fı́sica, lado que es opuesto a las materias académicas. Esto
significa que estos estudiantes tienen notas encima del promedio en Educación Fı́sica, y
por debajo del promedio en las demás materias.
En el segundo cuadrante están Pedro, Inés, Ana y José, que son los estudiantes con
mejores notas en Ciencias y Matemáticas. Este cuadrante corresponde al sector del cı́rculo
de correlaciones en que se encuentran precisamente las variables Ciencias y Matemáticas.
Por ello, se puede decir que son los estudiantes con notas superiores al promedio en esas
materias. Además, están en una posición “perpendicular” a las materias humanı́sticas,
por lo que se puede decir que en las materias de Historia y Español tienen notas como el
promedio.
En la parte inferior del plano están Marı́a, Lucı́a, Carlos y Andrés, que tienen las
mejores notas Español e Historia, con notas cerca o por debajo del promedio en las
cientı́ficas; los tres últimos están además cerca del eje vertical lo que explica que sus notas
en Educación Fı́sica están cerca del promedio general en esa materia (7.42).
Los comentarios anteriores confirman lo observado sobre el cı́rculo de correlaciones.
Examen de los cosenos cuadrados Los cosenos cuadrados de los individuos sobre los
dos ejes muestran que todos tienen una muy buena representación sobre el plano principal
(representaciones superiores al 69 %).
Los estudiantes más importantes para la explicación de la primera componente prin-
cipal son: Luis y Sonia (debido a su fuerte nota en Educación Fı́sica), y en menor grado
Inés, Ana y José (los “cientı́ficos”, bajos en Ed. Fı́sica). Y los estudiantes que mejor ex-
plican a la segunda componete principal son: Lucı́a, Pedro, Andrés, Carlos y Marı́a, que
tienen buenas notas en las materias académicas (Pedro en las cientı́ficas, y los demás en
las Humanidades), y que además tienen una nota promedio en Educación Fı́sica.
Al lector interesado en una guı́a completa para la interpretación de los resultados de

un A.C.P., se le sugiere consultar el capı́tulo 9 del libro de B. Escofier & J. Pagès [61].
La interpretación de los ejes también puede ser completada con la ayuda de los ele-
mentos suplementarios, como se explica en la siguiente sección.
3.7. Elementos suplementarios
3.7.1. Individuos suplementarios
El A.C.P. permite graficar también individuos que no se hacen intervenir en el análi-

sis, llamados individuos suplementarios. Por alguna razón, uno puede desear tener la
representación en el plano principal de algún individuo que no participa de los cálcu-
los (técnicamente, puede ponérsele peso cero). Puede por ejemplo tratarse de un punto
atı́pico, o de naturaleza ligeramente diferente a los demás.
Su proyección sobre el plano principal puede hacerse ya que está en la tabla X. En
3.8 Otras aplicaciones del A.C.P. 43
caso de que sea un individuo calculado (por ejemplo, un punto promedio para alguna
modalidad), entonces la proyección puede ser determinada usando los ejes principales.
Ejemplo 3.7.1 El uso de individuos suplementarios en A.C.P. es muy común en las

encuestas donde se entrevista a la gente, y se quiere tener por ejemplo la representación
del “hombre” promedio y de la “mujer” promedio.
3.7.2. Variables suplementarias

De manera análoga, uno puede desear la representación sobre el cı́rculo de correlaciones
de variables suplementarias, que no participen del análisis (no forman parte de la matriz
V ). Como pertenecen al espacio F , basta con calcular su correlación con las componentes
principales normalizadas para obtener su representación sobre el cı́rculo de correlaciones.
3.8. Otras aplicaciones del A.C.P.

El A.C.P. también puede aplicarse al caso en que se tengan solamente variables cua-
litativas ordinales. El caso tı́pico es el de las encuestas, en que se tienen las siguientes
modalidades a las preguntas formuladas: totalmente de acuerdo, de acuerdo, indeciso, en
desacuerdo, totalmente en desacuerdo.
En efecto, en este caso las modalidades se pueden condificar del 1 al 5 y entonces se
pueden calcular las correlaciones entre las distintas variables.
Puede consultarse un tratamiento exhaustivo de este tipo de tablas de datos, en [147],
ası́ como en los artı́culos de J.P. Pagès [140], C. Arce, N. Garita y M. López en las
Memorias del V y VI Simposios de Métodos Matemáticos Aplicados a las Ciencias, Revista
de Ciencia y Tecnologı́a, U.C.R., Vol. XIII, Nos. 1 y 2, 1989, y en los artı́culos de O.
Prieto y M. López en las Memorias del VII y VIII Simposios de Métodos Matemáticos
Aplicados a las Ciencias, Editorial de la Universidad de Costa Rica, San Pedro, 1995. Más
recientemente, se estudia la estabilidad de la opinión pública en Costa Rica en [71].
Anexo: cálculo de los ejes principales de inercia

En el desarrollo del presente capı́tulo asumimos dos resultados importantes: primero,
que el cálculo de los ejes principales de inercia se pueden hacer uno a uno, y segundo
que ellos provienen de la diagonalización de la matriz V M . Ambos resultados tienen su
justificación matemática que damos a continuación.
Recordemos que tenemos una nube de n puntos en Rp denotada N = (X, M, Dω ),

con X una matriz n × p asociada a p variables cuantitativas centradas, M una métrica
sobre el espacio de individuos E = Rp (con una matriz asociada p × p), y Dω la métrica

de pesos sobre el espacio de variables F = Rn (con una matriz diagonal asociada n × n
con los pesos ωi ).
Ya hemos definido la inercia de una nube de puntos respecto a un punto a y respecto
al centro de gravedad. Veamos ahora la expresión de la inercia respecto a un subespacio
vectorial. Si H es un subespacio vectorial de E, entonces existe un subespacio de E
denotado H ⊥ y llamado el complemento ortogonal de H, tal que E = H ⊕ H ⊥ ; se cumple
que ∀h ∈ H, ∀h̄ ∈ H ⊥ M(h, h̄) = hh, h̄iM = 0. Por lo tanto, para todo xi ∈ E, existen
ai ∈ H, bi ∈ H ⊥ tales que xi = ai + bi , y esta descomposición es única.
Se define la inercia de la nube N respecto a H como:
n
X
IH (N ) = ωi kbi k2
i=1
Ası́ mismo, la inercia de N respecto a H ⊥ es:

n
X
IH ⊥ (N ) = ωi kai k2
i=1
Esto es, es la inercia de la nube proyectada sobre el espacio H. Cuando H está generado
por un vector unitario v, es decir H = ∆v con kvk = 1, entonces se tiene ai = hv, xi iM v =
(v t Mxi )v, por lo tanto
n
X n
X n
X
2 t 2 2
I∆⊥v (N ) = ωi kai k = ωi (v Mxi ) kvk = ωi v t Mxi xti Mv
i=1 i=1 i=1
y se tiene que
n
X
t
I∆⊥v (N ) = v M ωi xi xti Mv = v t MVMv
i=1
Debido a que E = H ⊕ H ⊥ y al teorema de Pitágoras, se tiene la importante relación:
I(N ) = IH (N ) + IH ⊥ (N )
Recuérdese que el objetivo en A.C.P. es obtener un subespacio de E de dimensión q,

con q < p y que denotaremos Eq , tal que la inercia IEq⊥ (N ) de la nube proyectada sobre
ese espacio sea máxima (lo que es equivalente a pedir que la inercia IEq (N ) sea mı́nima).
El siguiente resultado es llamado el Teorema de inclusión.
Teorema 3.1 Si Ek−1 es un subespacio vectorial óptimo de E de dimensión k − 1, en-

tonces el subespacio vectorial óptimo de E dimensión k contiene a Ek−1 .
Demostración:
⊥
Sea Fk un subespacio vectorial de E de dimensión k y denotemos H = Fk + Ek−1 .
⊥ ⊥
Si Fk ∩ Ek−1 = 0 entonces se tendrı́a H = Fk ⊕ Ek−1 y dim(H) = k + (p − (k − 1)) = p + 1,
lo cual es absurdo pues H ⊆ E = Rp .
⊥
Por lo tanto existe un vector no nulo v ∈ Fk ∩ Ek−1 y denotemos ∆v el eje (espacio vec-
torial de dimensión uno) generado por v.
Sea G el espacio suplementario M -ortogonal a ∆v en Fk : es decir, tal que Fk = G ⊕ ∆v ;
y sea Ek la suma directa Ek = Ek−1 ⊕ ∆v .
Debido a la ortogonalidad entre G y ∆v se tiene IFk (N ) = IG (N ) + I∆v (N ) y a la orto-
gonalidad entre Ek−1 y ∆v se tiene IEk (N ) = IEk−1 (N ) + I∆v (N ).
Sin embargo, por hipótesis Ek−1 es óptimo entre los subespacios vectoriales de dimensión
k − 1, esto es IEk−1 (N ) ≤ IG (N ),
por lo tanto IEk (N ) ≤ IFk (N ) y entonces Ek es óptimo entre los subespacios vectoriales
de E de dimensión k.
Proposición 3.2 Sea Ek−1 el subespacio vectorial de E óptimo de dimensión k − 1.

La búsqueda de un subespacio vectorial Ek de dimensión k que minimice IEk (N ) y que
contenga a Ek−1 , se reduce a buscar un eje ∆v , M ortogonal a Ek−1 y que minimice
I∆v (N ).
Demostración:
Para cualquier espacio Ek de dimensión k que contenga a Ek−1 , existe un eje ∆v tal que
se tiene una descomposión en suma directa Ek = Ek−1 ⊕ ∆v con ∆v ⊥ Ek , por lo tanto
IEk (N ) = IEk−1 (N ) + I∆v (N ).
Como IEk−1 (N ) es constante, minimizar IEk (N ) se reduce a minimizar I∆v (N ).
Los dos resultados anteriores permiten la siguiente estrategia para obtener la solución
del A.C.P.:
1. buscar el eje E1 = ∆v1 con inercia mı́nima, v1 es un vector unitario que genera a
∆v1 ;
2. buscar el eje ∆v2 , M-ortogonal a ∆v1 y con inercia mı́nima; sea E2 = ∆u1 ⊕ ∆v2 ,
E2 es un subespacio óptimo de dimensión 2;
k. buscar un eje ∆vk , M-ortogonal a Ek−1 y con inercia mı́nima; sea Ek = Ek−1 ⊕ ∆vk ,
Ek es un subespacio óptimo de dimensión k.
Se tiene Ek = ∆v1 ⊕ ∆v2 ⊕ . . . ⊕ ∆vk . Los ejes ∆v1 , ∆v2 , . . . son llamados los ejes
factoriales.
Recuérdese que M es una matriz simétrica definida positiva y que V es simétrica

positiva. Además, VM es M-simétrica: (VM)t M = M(VM). Por lo tanto deducimos
que los valores propios de VM son reales, positivos o nulos, y que existe una base M-
ortonormada de E = Rp formada por vectores propios de VM. Denotemos λ1 , λ2 , . . . , λp
los valores propios de VM ordenados de mayor a menor, y denotemos {u1 , u2 , . . . , up }
una base de vectores propios asociados respectivamente a los λj .
Según la estrategia deducida del teorema de inclusión y de la proposición 3.2, para

obtener la solución del A.C.P. se comienza por buscar el eje ∆v1 que minimice la inercia
I∆v1 (N ) con kv1 k = 1, luego el eje ∆∆v2 que minimice la inercia Iv2 (N ) con kv2 k = 1 y
ortogonal a v1 , y ası́ sucesivamente:
1. se quiere encontrar v1 tal que maximice I∆⊥v (N ) = v1t MVMv1 con la restricción
1
kv1 k2 = v1t Mv1 = 1.
En la base de vectores propios de VM, el vector v1 tiene una expresión
p p
X X
v1 = αj uj con αj2 = 1,
j=1 j=1
por lo tanto se tiene:

p p
X p p
X X X
v1t MVMv1 =h αj uj , VM αk uk iM = h αj uj , λk αk uk iM
j=1 k=1 j=1 k=1
de donde v1t MVMv1 = pj=1 λj αj2 .

P
Se debe por lo tanto maximizar pj=1 λj αj2 bajo la restricción pj=1 αj2 = 1.
P P
Debido a que losP λj están ordenados de manera decreciente, se tiene
P p 2 p 2
j=1 λj αj ≤ λ1 j=1 αj = λ1 . Basta por lo tanto tomar α1 = 1 y ∀j > 1 αj = 0.
Ası́, v1 = u1 , un vector propio unitario de VM asociado al mayor valor propio λ1 .
2. se quiere encontrar v2 tal que maximice I∆⊥v (N ) = v2t MVMv2 con las restricciones
2
kv2 k2 = v2t Mv2 = 1 y v2t Mu1P= 0.
A partir de la escritura v2 = pj=1 αj uj con
Pp 2
j=1 αj = 1 de v2 en la base de vec-
tores propios de VM, se muestra de manera análoga que para la etapa anterior que
v2 = u2 , vector propio de VM asociado al segundo valor propio más grande de VM.
k. La búsqueda del k-ésimo eje factorial ∆vk se hace análogamente y se encuentra que
vk = uk .
Obsérvese que los vectores axiales principales uk pertenecen a E, mientras que las
componentes principales ck = XMuk pertenecen a F , y que son las proyecciones por
dualidad de los primeros (ver esquema de dualidad en el anexo del capı́tulo 2).
En los ejercicios se pide probar que λ1 = I∆⊥u (N ), es decir es la inercia de la nube

1
proyectada sobre el primer eje principal.
Se tiene que:
λ1
tr(VM)
es la parte de inercia explicada por el primer eje principal.
λ1 +λ2
tr(VM)
es la parte de inercia explicada por el primer plano principal generado por
u1 y u2 .
λ1 +λ2 +...+λk
tr(VM)
es la parte de inercia explicada por el subespacio principal Ek de dimen-
sión k generado por u1 , u2 , . . . , uk , donde Ek = ∆u1 ⊕ ∆u2 ⊕ . . . ⊕ ∆uk .
Capı́tulo 4
Análisis Factorial de
Correspondencias
El Análisis Factorial de Correspondencias, llamado simplemente Análisis de Corres-

pondencias, fue propuesto en 1962 por el fı́sico-matemático francés Jean-Paul Benzécri,
con el fin de estudiar la relación entre dos variables cualitativas; esto es, analizando la
tabla de contingencia asociada a ellas. Esta técnica lleva a cabo el análisis tal como lo
idearon algunos precursores en la Estadı́stica, entre los que podemos citar a Pearson,
Guttman, Fisher, Burt y Hayashi; sin embargo ellos no pudieron llevar a cabo los cálculos
por la falta de la herramienta computacional.
Como el Análisis en Componentes Principales, se trata de una técnica descriptiva, y
según el espı́ritu del Análisis de Datos al puro estilo francés, no se usan leyes de probabi-
lidad ni modelos a priori.
El Análisis de Correspondencias no sólo es aplicable a las tablas de contingencia. De

hecho, se aplica a una enorme cantidad de tipos de tablas de datos, entre los que podemos
citar: tablas de notas, tablas de rangos, tablas de porcentajes, tablas de flujos, tablas de
medidas llevadas a cabo con la misma unidad de medida.
Los requisitos que deben cumplir tales tablas de datos son:
1. los datos que contiene la tabla deben ser todos positivos,
2. debe haber homogeneidad: las magnitudes en la tabla deben ser del mismo orden,
3. las filas y las columnas de la tabla deben ser susceptibles de ser sumadas.
Sobre algunas de estas tablas de datos, también se puede hacer un Análisis en Com-
poenentes Principales, sin embargo el uso del Análisis de Correspondencias a menudo es
más rico por las razones siguientes:
49
50 Análisis Factorial de Correspondencias
la simetrı́a que juegan las filas y las columnas de la tabla permite su representación
simultánea,
al trabajar sobre los perfiles y no sobre los datos brutos, el Análisis de Correspon-
dencias evita el efecto de talla que a veces se encuentra en el A.C.P.,
la propiedad de equivalencia distribucional (ver anexo) hace que los resultados sean
poco sensibles a cambios de codificación.
Para la presentación del método, nos restringiremos al caso de una tabla de contin-
gencia para evitar una presentación muy pesada.
Recordemos algunos conceptos y notaciones importantes asociados a las tablas de

contingencia. Supóngase que estamos en presencia de dos variables cualitativas x, y con
p y q modalidades respectivamente. Entonces la tabla de contingencia que cruza a x con
y es una tabla p × q tal que en la entrada (j, k) se tiene el número, denotado njk , de
individuos que poseen tanto la modalidad j de x como la modalidad k de y.
Por ejemplo, en la tabla 4.1 se cruzan las modalidades de las variables “nivel de
salario” por fila y “tipo de empleo” por columna. En esta tabla, n12 = 14 y n34 = 40. La
fila y la columna de totales son la fila marginal y la columna marginal, y en la esquina
inferior derecha aparece el número total de individuos, 390, a los que se le midieron las
dos variables. Obsérvese que en la tabla no aparecen explı́citamente estos individuos, sino
solamente a través de la cantidad de ellos que poseen simultánemente dos modalidades.
funcionario agricultor obrero otros Total

empleado
bajo 11 14 107 75 207
medio 1 10 60 31 102
alto 23 2 16 40 81
Total 35 26 183 146 390
Cuadro 4.1: Tabla de contingencia que cruza nivel de salario con tipo de empleo
Otras notaciones asociadas a la tabla de contingencia son:

q
X
nj· = njk el efectivo de la j-ésima modalidad de x,
k=1
p
X
n·k = njk el efectivo de la k-ésima modalidad de y
j=1
p q p q
X X X X
yn= nj· = n·k = njk la población total.
j=1 k=1 j=1 k=1
Resumiendo las notaciones anteriores, podemos escribir en general una tabla de con-
tingencia como la mostrada en la figura 4.1.
4.1 Perfiles-fila y perfiles-columna 51
modalidades de y
1 k q
..
1 .
..
.
modalidades de x
j · · · · · · njk · · · · · · nj·
..
.
..
p .
n·k n
Figura 4.1: Notaciones relacionadas con una tabla de contingencia
Dividiendo todos los elementos de la tabla de contingencia por n, entonces se obtienen

las llamadas frecuencias: fjk = njk /n,
q p
X X
fj· = nj· /n = fjk , f·k = n·k /n = fjk ,
k=1 j=1
p q p q
X X X X
y1= fj· = f·k = fjk .
j=1 k=1 j=1 k=1
Las componentes de una tabla de frecuencias están ilustradas en la figura 4.2.
4.1. Perfiles-fila y perfiles-columna

El estudio que llevaremos a cabo de una tabla de contingencia, se basará en encon-
trar tipologı́as o agrupaciones de las filas y/o de las columnas. Para ello es necesaria una
medida de la similitud entre modalidades. Para el Análisis de Correspondencias conside-
raremos que dos filas (modalidades de una misma variable cualitativa) son parecidas si se
asocian de forma similar sobre el conjunto de columnas. Esta comparación sólo será posi-
ble si eliminamos el efecto de la popularidad que pueda tener una modalidad, por lo que
modalidades de y
1
k q
..
1 .
..
.
modalidades de x
j · · · · · · fjk · · · · · · fj·
..
.
..
p .
f·k 1
Figura 4.2: Componentes de una tabla de frecuencias
usaremos una medida que relativice la importancia de cada fila. Para ello se introducen
entonces los llamados perfiles-fila de la tabla de contingencia.
El j-ésimo perfil-fila de la tabla de contingencia se construye al dividir cada entrada
njk de la fila j entre nj· . Por lo tanto, cada perfil-fila es algo ası́ como la distribución de
los porcentajes de la fila entre todos las columnas.
Por ejemplo, en la tabla 4.1, el perfil-fila asociado a la primera fila de la tabla es:
11/207 14/207 107/207 75/207 = 0.053 0.068 0.517 0.362
Obsérvese que njk /nj· = fjk /fj· y que por lo tanto esta componente del j-ésimo perfil-
fila es una probabilidad condicional: es la probabilidad de que un inviduo ocupe un empleo
de la categorı́a k sabiendo que tiene un nivel de salario de la categorı́a j.
Ası́ mismo, el perfil marginal fila está constituido de los f·k . En el ejemplo de la tabla
citada, el perfil marginal fila serı́a:
35/390 26/390 183/390 146/390 = 0.090 0.067 0.469 0.374
De manera similar, se definen los perfiles-columna. Ası́, el k-ésimo perfil columna de

la tabla serı́a definido al dividir cada entrada njk de la columna k entre n·k .
Por ejemplo, el perfil columna asociado a la primera modalidad de “tipo de empleo”
es:
11/35 0.314
1/35 = 0.029
23/35 0.657
y el perfil marginal columna (formado por los fj· ) es:
207/390 0.530
102/390 = 0.262
81/390 0.208
Geométricamente, una modalidad j de x será representada por un vector de Rq , cuyas

componentes serán las componentes del perfil-fila que tiene asociado. A este espacio vec-
torial le daremos entonces una estructura euclı́dea mediante la definición de una métrica
y de pesos para los perfiles-fila, para formar una nube de perfiles-fila.
Por otro lado, una modalidad k de y será representada por un vector de Rp mediante
el perfil-columna asociado, y a este espacio vectorial también le daremos una estructura
euclı́dea llamada nube de perfiles-columna.
4.1 Perfiles-fila y perfiles-columna 53
4.1.1. Nube de perfiles-fila

La nube de perfiles-fila, denotada Nx , está constituida por:
p puntos que son los perfiles-fila deducidos de la tabla de contingencia, es decir los
p puntos de Rq : (nj1 /nj· , nj2 /nj· , . . . , njq /nj· )
el peso del j-ésimo perfil-fila es: nj· /n = fj·
la métrica es la diagonal de los n/n·k = 1/f·k , es decir

 
n/n·1 0 0
 . .. 
 
Mx =  n/n·k
 

 .. 
 . 
0 0 n/n·q
 
f·1
El centro de gravedad de la nube es gx =  ...  pues su k-ésima componente es:
 
f·q
p p
X nj· njk X
gx (k) = = njk /n = n·k /n
j=1
n nj· j=1
Este centro de gravedad debe ser considerado como el perfil-fila promedio. Por lo tanto,
servirá como referencia para el estudio de los perfiles-fila. Por ejemplo, para la tabla que
cruza los niveles de salario y los tipo de empleo, calculamos el perfil marginal fila que
es el centro de gravedad de la nube asociada. Si se quiere estudiar en qué medida y de
qué manera un nivel de salario difiere del conjunto de niveles de salario, se reduce a
estudiar la diferencia entre el perfil de este nivel de salario y el perfil promedio.
En la figura 4.3 ilustramos la tabla de perfiles-fila.

La distancia al cuadrado entre dos perfiles fila j y h es la llamada distancia del χ2 :
q q
X n njk nhk 2 X 1 fjk fhk 2
dχ2 (perfil-fila j, perfil-fila h) = − = −
k=1
n ·k nj· n h·
k=1
f·k fj· fh·
Por lo tanto, la inercia de la nube de perfiles-fila respecto al centro de gravedad es:

p
X nj·
I(Nx ) = dχ2 (perfil–filej, gx )
j=1
n
1 k q
..
1 .
..
.
j · · · · · · fjk /fj· · · · · · · 1
..
.
..
p .
gx f·k 1
Figura 4.3: Tabla de perfiles-fila
4.1.2. Nube de perfiles-columna

La nube de perfiles-columna, denotada Ny , está constituida por:
q puntos que son los perfiles-columna deducidos de la tabla de contingencia, es decir

los q puntos de Rp : (n1k /n·k , n2k /n·k , . . . , npk /n·k )
el peso del k-ésimo perfil-columna es: n·k /n = f·k
la métrica es la diagonal de los n/nj· = 1/fj· , es decir

 
n/n1· 0 0
 ... 
 
My =  n/nj·
 

 .. 
 . 
0 0 n/np·
De forma similar
 a lanube de perfiles-fila, el centro de gravedad de la nube de perfiles-
f1·
 .. 
columna es gy =  .  pues su j-ésima componente es:
fp·
q q
X nj· njk X
gy (j) = = njk /n = nj· /n
k=1
n nj· k=1
Este perfil promedio es el que servirá de referencia para el estudio de la nube Ny .

La distancia al cuadrado entre dos perfiles columna k y ` es la distancia del χ2 :
p p
X n njk nj` 2 X 1 fjk fj` 2
dχ2 (perfil-columna k, perfil-columna `) = − = −
j=1
n j· n ·k n ·` j=1
fj· f·k f·`
4.2 Propiedad de equivalencia distribucional 55
La inercia de la nube de perfiles-columna respecto al centro de gravedad es:

q
X n·k
I(Ny ) = dχ2 (perfil–columnak, gy )
k=1
n
4.2. Propiedad de equivalencia distribucional

Durante la presentación del Análisis de Correspondencias mencionamos que entre las
propiedades de la distancia del χ2 está la de equivalencia distribucional. Esta consiste en
que si, para una tabla de contingencia, hay dos perfiles-columna que son iguales, entonces
al sumar las columnas en una sola, las distancias entre perfiles-fila o entre perfiles-columna
quedan inalteradas. La misma propiedad es cierta cuando son dos perfiles-fila los que son
iguales.
Precisemos lo dicho más arriba para el caso en que hay dos perfiles-columna iguales.
Sean k1 , k2 los ı́ndices de las columnas que son iguales y sea k la nueva columna creada
por suma de ellas, es decir: ∀j njk = njk1 + njk2 . Por lo tanto al dividir entre n se tiene
∀j fjk = fjk1 + fjk2 y por lo tanto f·k = f·k1 + f·k2 .
Como los perfiles-columna k1 y k2 son iguales entonces se tiene njk1 /n·k1 = njk2 /n·k2
lo cual implica fjk1 /f·k1 = fjk2 /f·k2 . Por lo tanto ∀j fjk = fjk1 + f·k2 fjk2 /f·k2 = fjk1 +
f·k2 fjk1 /f·k1 = fjk1 (f·k1 + f·k2 )/f·k1 . Como además f·k = f·k1 + f·k2 entonces tenemos que
fjk fjk1 fjk2

= = (4.1)
f·k f·k1 f·k2
Al hacer la suma de las columnas, las distancias entre los perfiles-columna de la nube
Ny no cambian pues la métrica sigue siendo My = diag(n/nj· ).
Ahora, para la nube Nx de perfiles-fila, al calcular la distancia del χ2 entre los perfiles
j y h con la tabla original y con la tabla con las columnas sumadas, los términos que
difieren en la expresión de la distancia son:
1 fjk1 fhk1 2 1 fjk2 fhk2 2

− + − (4.2)
f·k1 fj· fh· f·k2 fj· fh·
y
1 fjk fhk 2
− (4.3)
f·k fj· fh·
Por lo tanto, hay que probar que ambas cantidades son iguales.
Véase que, usando la primera igualdad de 4.1:
1 fjk1 fhk1 2 1 fjk1 f·k1 fhk1 f·k1 2

− = −
f·k1 fj· fh· f·k1 f·k1 fj· f·k1 fh·
f fhk1 2
jk1
= f·k1 −
f·k1 fj· f·k1 fh·
f fhk 2
jk
= f·k1 −
f·k fj· f·k fh·
1 fjk2 fhk2 2 f
jk fhk 2
Análogamente − = f·k2 − .
f·k2 fj· fh· f·k fj· f·k fh·
Por lo anterior, la cantidad 4.2 es igual a

f fhk 2 f fhk 2 1 fjk fhk 2
jk jk
(f·k1 + f·k2 ) − = f·k − = −
f·k fj· f·k fh· f·k fj· f·k fh· f·k fj· fh·
de donde se obtiene el resultado buscado.
La propiedad de equivalencia distribucional establece que si hay dos filas o dos co-
lumnas que tienen una misma distribución, entonces las posiciones relativas de todos los
puntos son las mismas si esas dos filas o columnas son fusionadas y se suman sus pesos.
Véase que desde el punto de vista de los objetivos del Análisis de Correspondencias, esta
es una propiedad deseable para la configuración de puntos; ello constituye una de las
razones por las que se usa la distancia del χ2 .
4.3. Análisis en Componentes Principales de una nu-

be de perfiles
Considérese la nube de perfiles-fila definida en la sección anterior. Se tienen entonces p
objetos (las modalidades de x representadas por sus perfiles) descritos por q caracterı́sticas
(la proporción de la fila para cada modalidad de y).
Queremos encontrar un espacio de dimensiones reducidas tal que represente lo mejor
posible las dispersiones de la nube Nx , que está en Rq . Este objetivo es análogo al del
Análisis en Componentes Principales de la nube para los perfiles centrados. Véase que
la k-ésima entrada del j-ésimo perfil-fila centrado es: fjk /fj· − f·k . Por lo tanto este
perfil centrado representa la diferencia entre la distribución de la modalidad j de x y la
distribución de la población total sobre las modalidades de y. Ası́, buscar las direcciones
de inercia máxima de la nube centrada consiste en poner en evidencia las modalidades de
x que se diferencian más del perfil promedio.
Observación: en el primer capı́tulo vimos que el χ2 mide la asociación entre dos variables
cualitativas. En los ejercicios que se plantean al final del capı́tulo, se pide probar que el χ2
es precisamente, salvo por un factor de n, igual a la inercia de la nube de perfiles-fila. Esto
quiere decir que la inercia de la nube traduce en cierta forma la estructura de la tabla
4.3 Análisis en Componentes Principales de una nube de perfiles 57
de contingencia. Por lo tanto, buscar un subespacio que maximice la inercia equivale a

buscar un subespacio que maximice el χ2 de contingencia.
Para hacer el A.C.P. de la nube Nx se debe diagonalizar la matriz Vx Mx , donde Mx

es la matriz de la métrica del χ2 y Vx es la matriz de covarianzas entre las columnas de
la tabla de perfiles-fila.
De manera análoga, se puede plantear la realización de un A.C.P. de la nube Ny de
perfiles-columna, diagonalizando la matriz Vy My , con Vy la matriz de covarianzas para
esta nube. Se puede probar que los valores propios de Vx Mx y Vy My son los mismos, y
que los vectores propios correspondientes están relacionados por las llamadas fórmulas de
transición, que veremos enseguida.
Si denotamos λ1 , λ2 , . . . los valores propios de Vx Mx ordenados en orden decreciente,
y u1 , u2 , . . . los vectores propios correspondientes (llamados ejes principales), entonces las
componentes principales serán C 1 = XMx u1 , C 2 = XMx u2 , . . ., donde X es la tabla de
los perfiles-fila centrados. Como en el A.C.P., las componentes principales resultan de la
proyección de los perfiles-fila sobre los ejes principales:
 
c11
 c1 
 2 
C 1 =  .. 
 . 
c1p
Una pregunta natural es cuántos valores propios hay diferentes de cero. La respuesta
es el rango de la matriz Vx Mx , el cual no puede sobrepasar el mı́nimo entre p y q, y que
denotaremos r.
Denotemos D1 , D2 , . . . las componentes principales del A.C.P. de la nube Ny de los
perfiles-columna, con D1 el vector de los d1j , etc. Entonces se pueden probar las siguientes
fórmulas de transición:
q
1 1 X njk 1
cj = d
λ1 k=1 nj· k
p
1 X njk 1
d1k = c
λ1 j=1 n·k j
Las fórmulas están enunciadas para la primera componente principal de cada análisis,
pero se pueden escribir para todas las componentes principales cambiando el superı́ndice
correspondiente por el número de componente principal.
Estas fórmulas muestran que basta hacer uno de los dos análisis, pues los resultados
del otro se deducirán a partir del primero. Además, permiten hacer una representación
gráfica simultánea de las modalidades de x y de las modalidades de y, como veremos en
la sección siguiente.
Al igual que en A.C.P., las componentes principales son ortogonales (no correlaciona-
das) y tienen varianza el valor propio correspondiente (ası́, la varianza de C ` y de D` es
λ` ).
Ası́ mismo, la calidad de los resultados se mide de manera análoga al A.C.P. La calidad
global del espacio retenido será dada por el porcentaje de inercia explicada:
λ1 + λ2 + · · · + λ k
I(N )
y la calidad de representación de cada punto es dada por el coseno cuadrado de su pro-
yección sobre el espacio.
Todos los resultados anteriores siguen siendo válidos cuando en lugar de una tabla
de contingencia se dispone de una tabla de datos que reúne los requisitos enunciados
al principio de este capı́tulo. Sólo se deberá tener la precaución de reemplazar algunos
términos de vocabulario como “perfil” por “distribución condicional”
Mencionaremos de paso la aplicación del Análisis de Correspondencias sobre las llama-
das tablas desdobladas. Se tiene una tabla de datos con entradas positivas y p columnas,
entonces se crean otras p columnas que midan lo contrario de las p originales en el siguien-
te sentido: si para la columna j los datos van de 0 a m, que es el valor máximo, entonces
los valores de la columna se cambian transforman en m − xj + 1.
Por ejemplo, supóngase que se tiene una tabla de preferencias entre 6 materias donde
cada columna indica el rango de preferencia por cada materia, por lo tanto la escala de
preferencias va de 1 a 6. Si la columna de “Matemáticas” es:
1 6
6 1
1 6
4 3
entonces se transforma en:
5 2
2 5
2 5
3 4
Este procedimiento es particularmente útil en Análisis de Correspondencias cuando se

quiere examinar las filas que se agrupan alrededor del concepto “positivo” de la columna
y las que se agrupan alrededor del concepto “negativo” de la columna.
4.4. Representaciones gráficas

Las fórmulas de transición permiten representar en un mismo gráfico tanto las filas
como las columnas de la tabla original. Esta representación simultánea se obtiene al
4.4 Representaciones gráficas 59
sobreponer las proyecciones de cada una de las nubes Nx y Ny sobre los planos generados
por los ejes principales de mismo ı́ndice, lo cual no podı́a hacerse con los gráficos de un
A.C.P.
Por ejemplo, si se aplica el Análisis de Correspondencias a la tabla de contingencia
presentada en la tabla 4.1 que cruza el nivel de salario con el tipo de empleo, se obtiene el
plano principal representado en la figura 4.4 con las proyecciones de las modalidades. En
este caso, los puntos tienen una calidad de representación del 100 %, por lo que prácti-
camente se puede decir que las nubes de perfiles estaban contenidas en un hiperplano (el
plano principal) de dimensión 2.
Eje 2 (0.77 %)
6
obr/empl bajo otro Eje 1 (99.23 %)

-
alto func
medio
agri
Figura 4.4: Plano principal: nivel de salario vs. tipo de empleo
Las agrupaciones en el plano principal son notorias: salario alto con funcionario a la
derecha del primer eje, todas las demás modalidades hacia el lado opuesto. El comporta-
miento de otros empleos es un poco particular pues a pesar de que las personas con salario
bajo son preponderantes, las de salario alto son más numerosas que las de salario medio,
lo que explica el hecho que su proyección esté más atraı́da por el punto alto que medio.
Puede también apreciarse que para el resto de tipos de empleo, los niveles de salario medio
y bajo tienen comportamientos similares.
En los planos ası́ obtenidos se pueden entonces interpretar dos tipos de posiciones (a
condición de que los puntos correspondientes estén bien representados):
la proximidad entre dos perfiles-fila: si los puntos que representan a dos perfiles-fila
están cercanos significa que su distancia del χ2 es baja; por lo tanto, sus distribu-
ciones condicionales entre las columnas deben ser muy parecidas; análogamente se
analizarı́a la cercanı́a entre perfiles-columna;
la posición relativa entre un perfil-fila

√ y los perfiles-columna: la proyección de la fila
j sobre el eje `, por un factor de 1/ λ` , es el baricentro (centro de gravedad) de las
proyecciones de las columnas k si se pondera cada una de ellas por un peso igual a
fjk ; las columnas “pesadas” (con fjk “grande”) atraerán al baricentro. Por lo tanto,
para una fila j se encontrarán del mismo lado del factor ` las columnas con las que
se asocia más, y del lado opuesto con las que se asocia menos; análogamente se
analizarı́a la posición relativa de un perfil-columna respecto al conjunto de perfiles-
fila.
Ya hemos mencionado el hecho que la inercia de las nubes Nx o Ny son proporcionales

al χ2 . Debido a que los ejes principales son ortogonales, la inercia se puede escribir como
una suma de inercias proyectadas sobre cada eje: la inercia proyectada sobre el factor
` es la varianza λ` de la componente principal asociada. Por lo tanto, el Análisis de
Correspondencias brinda una descomposición del χ2 : en efecto, cada eje o factor representa
una parte de la relación entre las variables x y y.
En el ejemplo anterior, se obtienen los siguientes valores propios: λ1 = 0,18, λ2 =
0,0014, λ3 = λ4 = 0. Con estos resultados, es claro que prácticamente toda la información
está contenida en el primer eje ya que él explica 99,23 % de la inercia total, mientras que
el segundo eje aporta solamente 0,77 %. Obsérvese que de lo anterior se puede deducir que
el χ2 de contingencia entre las variables cualitativas “nivel de salario” y “tipo de empleo”
es 390 · 0,1814 = 70,746.
Un aspecto muy importante en el análisis de la asociación entre dos variables cualitati-

vas, es el de la independencia, que ya hemos evocado en el capı́tulo 1; según los resultados
del Análisis de Correspondencias, se puede analizar ası́:
si hay independencia entre las dos modalidades, las nubes de puntos estarán con-
centradas en un sólo punto (el centro de gravedad) pues todos los perfiles siguen un
comportamiento como el del promedio (perfil marginal); en este caso la inercia de
las nubes Nx y Ny es nula;
si hay dependencia, la representación de los puntos está alejada del origen. El caso
extremo es cuando un eje tiene inercia 1, lo cual significa que refleja una gran
dependencia entre las filas y las columnas: prácticamente, se podrı́a dividir las filas
y las columnas de la tabla de datos en dos grupos, generando ası́ 4 bloques tales
que haya valores altos en dos de ellos y muy cercanos a cero en los otros dos; esto
mostrarı́a una gran asociación entre cada par de bloques. Si hay dos ejes que tienen
inercia cercana a 1, entonces cada fila y cada columna se dividirá en tres grupos, lo
que generará tres bloques muy asociados, y ası́ sucesivamente.
Al igual que en A.C.P., se proponen ı́ndices de calidad de la representación mediante

el porcentaje de inercia explicada por el subespacio principal retenido (el cual también
representa el porcentaje de asociación entre las variables cualitativas). Ası́, la calidad de
4.5 Interpretación de un AFC 61
la representación sobre el primer plano principal se medirá con:

λ1 + λ2
λ 1 + λ2 + · · · λr
Para cada perfil-fila y cada perfil-columna, también se puede calcular la calidad de su re-
presentación mediante el coseno cuadrado del ángulo que forma el vector que lo representa
con el subespacio principal.
Finalmente, también se pueden representar tanto filas como columnas suplementarias

que no participen en la determinación de los ejes pero que pueden servir para interpre-
tarlos.
4.5. Interpretación de un AFC

La interpretación de un Análisis Factorial de Correspondencias tiene que ver con la
selección de ejes factoriales significativos, de puntos significativos y su representación
plana; todo lo cual permite visualizar las proximidades y oposiciones entre perfiles. A
continuación se presentan los ı́ndices y criterios utilizados como ayudas usuales en la etapa
de análisis e interpretación de las “salidas” en un programa de AFC. La implementación
en PIMAD permite hacer uso de estos ı́ndices y criterios.
4.5.1. La contribución absoluta

La contribución absoluta es un indicador del aporte inercial de una modalidad a un
eje. Como se sabe, cada eje explica una parte de la inercia de la nube de perfiles, que es
justamente la inercia de la nube proyectada sobre este eje. Ası́ por ejemplo, para el eje
α−ésimo se tiene:
n p
X 2
X
Inercia proyectada = λα = pi (coorduα (pfi )) = qj (coordvα (pcj ))2 .
i=1 j=1
En virtud de esta relación es natural definir la contribución absoluta del perfil pfi
al eje α−ésimo, como
pi (coorduα (pfi ))2 fi (coorduα (pfi ))2

ctrα (i) = = .
λα T λα
Cuanto mayor es ctrα (i), más contribuye el perfil a la construcción del eje α−ésimo.
De la misma manera la contribución de un perfil columna pcj al eje α−ésimo es
qj (coordvα (pcj ))2 cj (coordvα (pcj ))2

ctrα (j) = =
λα T λα
4.5.2. Contribución relativa
La contribución relativa se puede usar como un ı́ndice para evaluar la calidad de

la representación de las modalidades en los ejes y planos principales. También puede ser
usado para dar P significado a un eje con el cual se relacionan ciertas modalidades. Como
||pfi − Gf || = aα=2 || Pruα (pfi )||2D−1 entonces es natural definir la contribución relativa
2
q
del eje α−ésimo al perfil pfi , como:
2
kP ruα (pfi )k2Dq−1 [coorduα (pfi )]2
corr (θiα ) = =P
k(pfi − Gf )k2Dq−1
2
p T kij cj
j=1 cj fi
−T
el cual se interpreta geométricamente como el cuadrado del coseno del ángulo formado
por el eje α−ésimo y el vector pfi − Gf . De la misma manera para el caso de los perfiles
columna, la contribución relativa del eje α−ésimo al perfil pcj es:
kP rvα (pcj )k2Dp−1 [coordvα (pcj )]2

2
corr (θjα ) = =P 2 .
k(pcj − Gc )k2Dp−1

n T kij fi
i=1 fi cj
− T
Cuanto más grande sea corr2 (θiα ) , más especı́fico es el perfil pfi del eje α−ésimo.
La misma relación vale para los perfiles columna. Por otra parte, cuanto mayor sea
corr2 (θiα ) + corr2 (θiβ ) , de mejor calidad es la representación del perfil pfi en el plano
determinado por uα y uβ . Los mismo vale para los perfiles columna.
4.5.3. Selección de ejes
Los criterios usuales para seleccionar

Pr el número de ejes son de carácter empı́rico. Sean
s=2 λs
a = min{n, p}, IE (r) = 100 a λs la inercia explicada por los primeros r − 1 ejes, y
P
s=2
sea ie (r) = 100 Paλr λs la inercia explicada por el r−eje. Una primera forma (sencilla) es
s=2
fijar a priori un porcentaje de inercia explicada por los ejes, digamos por ejemplo 75 %,
y escoger los primeros r − 1 ejes tales que IE (r) ≥ 75. Al ser este un criterio global, se
aconseja controlarlo con un criterio local que involucre el porcentaje de inercia explicada
100
por un eje: ie (r) ≥ a−1 . El criterio local consiste en retener los primeros r ejes tales que
1
P a 100 100
ie (r) ≥ a−1 s=2 ie (s) = a−1 , y ie(r + 1) < a−1 .
Otro criterio empı́rico, también usado en ACP, es la “regla del codo” que consiste en
construir un diagrama lineal de los valores propios y determinar el punto donde la curva
tiene una forma similar a un codo. Esto es, escoger los primeros r ejes tales que a partir
del valor propio λr , el diagrama es aproximadamente una función constante.
4.6 Ejemplos 63
4.5.4. Selección de puntos
La media aritmética de las contribuciones absolutas de los perfiles fila ( resp. perfiles
columna) es n1 ( resp. p1 ), entonces los perfiles tales que ctrα (i) ≥ n1 y ctrα (j) ≥ p1 se llaman
perfiles explicativos del eje α−ésimo. En la etapa de depuración e interpretación de
resultados se tomarán en cuenta prioritariamente los perfiles explicativos.
Selección de puntos explicativos: para el eje α−ésimo supongamos que las contribu-
ciones ctrα (i) están ordenadas en forma decreciente. Se escogen los h primeros puntos
explicativos tales que hi=1 ctrα (i) ≥ d, donde d es un P
P
número entre cero y uno, escogido
a priori. El criterio para los perfiles columna es igual: gj=1 ctrα (j) ≥ d.
Por otra parte, los perfiles fuertemente asociados con un eje se llaman puntos expli-
cados por este eje. Normalmente se toma 0.5 como valor lı́mite. Esto significa que un
perfil pfi es explicado por el eje α−ésimo, si corr2 (θiα ) ≥ 0,5. En modo análogo, un perfil
pcj es explicado por el eje α−ésimo, si corr2 (θjα ) ≥ 0,5.
Eventualmente un eje que explica muy poca inercia (no pasa el criterio de selección de
ejes) puede ser considerado dentro del análisis si existe algún perfil explicado por este
eje, de modo tal que se pueda afirmar que se trata de una dirección caracterı́stica de ese
4.6. Ejemplos
4.6.1. Análisis de Correspondencias de una tabla de contingen-

cia
Se han aplicado 4 tipos de drogas (A,B,C y D) a 121 pacientes y cada paciente ha

calificado el medicamento como malo, regular, bueno, muy bueno y excelente. La tabla de
contingencia que se muestra a continuación muestra al número de pacientes que recibieron
cada droga y según como la catalogaron:
malo regular bueno muy bueno excelente

A 5 1 10 8 6
B 5 3 3 8 12
C 10 6 12 3 0
D 7 12 8 1 1
Al hacer un Análisis de Correspondencias de la tabla anterior para estudiar la relación

entre el tipo de droga y la calificación que dieron los pacientes, se obtuvieron los siguientes
resultados:
Valores propios y porcentaje de inercia explicada:
valores propios % inercia % acumulado

λ1 0.30 78.32 78.32
λ2 0.08 19.88 98.20
λ3 0.01 1.80 100.00
Según esto, la representación en el primer plano principal explicarı́a 98.20 % de la

inercia de la nube de puntos, o lo que es lo mismo, del χ2 de asociación entre las variables
cruzadas. Véase de paso que el χ2 de contingencia es 0,39 × 121 = 47,19.
La tabla de componentes principales y cosenos cuadrados (por 100) que se obtuvo fue:
Eje 1 Eje 2 Cos2 1 Cos2 2 Calidad en el plano

malo -0.25 -0.07 69.10 6.32 75.42
regular -0.64 0.44 67.35 32.10 99.45
bueno -0.27 -0.30 43.68 54.37 98.06
muy bueno 0.58 -0.16 92.29 6.67 98.96
excelente 0.95 0.28 92.10 7.85 99.95
A 0.35 -0.30 54.73 40.68 95.41
B 0.70 0.25 88.57 10.81 99.38
C -0.45 -0.25 74.31 22.09 96.40
D -0.63 0.31 79.33 19.82 99.14
Puede verse que casi todos los puntos están muy bien representados en el primer plano
principal, salvo quizás el punto malo que tiene un porcentaje de representación inferior a
los demás, pero de calidad siempre satisfactoria.
El primer plano principal es:
4.6 Ejemplos 65
Eje 2 (19.9 %)
6
?
regular
•
D ?
• excelente
B
-Eje 1 (78.3 %)
?
malo
?
muy bueno
•
C
? •
bueno A
Obsérvese que la percepción de los pacientes respecto a los medicamentos es diferente

según el tipo de medicamento que se haya administrado: en efecto, los pacientes a los que
se administró el medicamento tipo B tienen una percepción mayoritariamente excelente,
lo cual se puede verificar en la tabla de contingencia. Se aprecian además los siguientes
agrupamientas: muy bueno con A, bueno con C y regular con D. Malo tiene una posición
intermedia entre C y D, que son los grupos para los que significativamente tiene alguna
importancia.
Se puede entonces concluir que hay una fuerte relación entre el tipo de medicamento
y la percepción de los pacientes.
4.6.2. Análisis de Correspondencias de una tabla de notas

Consideramos de nuevo la tabla de notas de materias que ya hemos considerado para
el Análisis en Componentes Principales. Es una tabla con 10 individuos y 5 materias
evaluadas de 0 a 10. Esta tabla cumple con los requisitos que ya hemos enunciado para
poder aplicar el Análisis de Correspondencias: sus componentes son positivas (notas de
materias), son homogéneas (todas sus columnas son materias calificadas de 0 a 10, y todas
sus filas son estudiantes), y hay simetrı́a entre filas y columnas.
Al aplicar el Análisis de Correspondencias obtenemos los siguientes valores propios
(indicamos entre paréntesis el porcentaje de inercia explicada): λ1 = 0,01 (61,90 %), λ2 =
0,0053 (32,62 %), λ3 = 0,0008 (4,96 %), λ4 = 0,00008 (0,52 %) y λ5 = 0 (0,00 %).
Eje 1 Eje 2 Cos2 1 Cos2 2 Calidad

Matemática -0.08 0.01 76.62 0.34 76.96
Ciencias -0.15 0.05 86.98 10.59 97.57
Español 0.04 -0.05 28.12 53.23 81.36
Historia 0.04 -0.10 11.70 79.10 90.80
Ed.Fı́sica 0.14 0.10 64.88 34.98 99.85
Lucı́a 0.08 -0.05 57.41 22.83 80.24
Pedro -0.11 0.06 77.73 21.90 99.64
Carmen -0.07 0.02 88.26 11.21 99.47
Luis 0.13 0.10 54.73 32.94 87.66
Andrés 0.09 -0.08 55.16 40.28 95.43
Ana -0.12 0.00 99.78 0.01 99.79
Carlos 0.07 -0.08 39.69 59.25 98.94
José -0.15 -0.01 98.97 0.52 99.49
Sonia 0.11 0.15 32.10 61.15 93.25
Marı́a 0.02 -0.08 7.01 91.12 98.13
Cuadro 4.2: Coordenadas de los puntos sobre las componentes principales - Tabla de notas
escolares
Ası́, el porcentaje de inercia explicada por el plano principal es de 94,52 %. Consideran-

do que este porcentaje de inercia es suficiente, retenemos lo dos primeros ejes principales.
En la tabla 4.2 presentamos las proyecciones de las materias y los estudiantes sobre
las componentes principales, ası́ como el coseno cuadrado del ángulo y el ı́ndice de calidad
de la representación sobre el plano principal.
En la figura 4.5 están representados los estudiantes y las materias sobre el primer
plano principal. Obsérvese que los puntos tienen una calidad de representación superior al
80 %. Puede verse sobre este plano principal las principales agrupaciones que ya habı́amos
observado en el A.C.P. Alrededor de Educación Fı́sica, en el primer cuadrante, están los
estudiantes que sólo tienen buenas notas para esta materia, esto es Sonia y Luis, y malas
notas para el resto de las materias, aunque sus notas son ligeramente mejores para las
materias literarias que para las cientı́ficas. En el segundo cuadrante están ubicadas las
materias cientı́ficas (MATE y CIEN) y los estudiantes que tienen las mejores notas en
estas materias: Pedro, Carmen, Ana y José. Estos dos últimos están un poco atraı́dos
también por la posición de las materias literarias y opuestos a la EDFI (donde tienen
6.0 y 6.5 respectivamente), y Carmen tiende a tener una nota promedio en esas mismas
materias y en Educación Fı́sica. Finalmente, en el cuarto cuadrante están ubicadas las
materias literarias (ESPA e HIST), y alrededor de ellas los estudiantes que tienen muy
buenas notas en estas materias: Lucı́a, Marı́a, Carlos y Andrés. Estos estudiantes tienen
notas relativamente bajas en las materias cientı́ficas, pero están cerca o sobre el promedio
para Educación Fı́sica.
4.7 Aplicación en Biologı́a 67
Eje 2 (32.62 %)Sonia

6
ED.FISICA
Luis
Pedro
CIENCIAS
Carmen
MATEMATICA
Ana Eje 1 -
(61.90 %)
José
Lucı́a
ESPAÑOL
Marı́a Carlos
Andrés
HISTORIA
Figura 4.5: Plano principal: estudiantes vs. notas escolares
4.7. Aplicación en Biologı́a

En [24] se aplica el Análisis Factorial de Correspondencias al estudio de le presencia
de plantas epı́fitas en helechos arborescentes. Las referencias particulares de este trabajo
se muestran al final de la sección.
La relación entre plantas epı́fitas y las plantas que las alojan es conocida. En [24]
se investiga la relación entre algunas plantas epı́fitas especı́icas y troncos de helechos.
Solamente algunas epı́fitas son frecuentes o muy frecuentes en helechos. La mayorı́a de
las especies de epı́fitas no son especı́ficas de estos troncos. Blechnum grafile son las únicas
encontradas exclusivamente en helechos. También se ha observado diferentes comunidades
de epı́fitas que dependen de la especie de helecho y la morfologı́a del tronco del helecho.
4.7.1. Introduction
In Costa Rican montane rainforest, many species of epiphytes grow on all substrates.
Research results about the ecology, diversity, and significance of epiphytes in the rain
forests have been published recently (Ingram et al. (1993), Johansson (1974), Nardkarni
(1985, 1986), Wolf (1993 a,b)). But there are few reports on studies of the host specifi-
city of epiphytes (Johanson et al. (1972)). Beaver (1984) showed the differences of most
epiphytes on diferent tree fern species in New Zealand. Medeiros et al. (1993) compared
the colonization of native and invaded tree fern species in Hawaii. In the present study an
analysis has been made of the frequency of vascular epiphytes on four tree fern species.
Correspondence analysis is well suited for this kind of data, since it can give a synthetic
representation of the multidimensional behavoir of the frequency data.
4.7.2. Methods
Study site
The study of tree ferns was undertaken on a one hectare plot in the “Reserva Biológica
de Alberto Brenes”. The site is located on the Atlantic slope of the Cordillera de Tilarán
in Costa Rica. The geographical coordinates are 10o 12’ N, 84o 36’ W. The study site is
at 1000 m over sea level in the vicinity of the field station of this area.
Inventory
We inventoried all tree ferns with trunk height from 1.0 to 5.0 m in the one hectare
plot. For each tree fern, all vascular plant epiphytes species were listed as well as the
location where this epiphyte is growing on the trunk. After this, we analysed the epiphyte
communities on every tree fern species using a correspondence analysis.
In our case, we want to measure the associations between the presence and frequency
of epiphytes on tree ferns, and moreover, how is this association. That is to say, which
epiphytes are present (or absent) in which kinds of tree ferns, and what are the relations
latent to these associations.
Our basic information is contained on a contingency table that describes the presence
of 53 epiphytes on 4 tree ferns (first part of Table 4.3). This presence is divided in 5 levels:
from 0 % to 20 % of the tree fern height, from 20 % to 40 %, from 40 % to 60 %, from 60 %
to 80 % and from 80 % to 100 % (second part of Table 4.3).
4.7.3. Results
We have found in the study site four species of tree fern with a different number of
individuals for each species. The tree fern species Alsophila erinacea (n = 5), Alsophila
polystichoides (n = 17), Cyathea delgadii (n = 17) and Cyathea nigripes (n = 21) are
unspecifically distributed in the plot. All plants are covered by epiphytes. A total of 52
vascular epiphyte or hemiepiphyte species was found on the trunks of tree ferns. 24 spe-
cies are pteridophtes in 9 families and 28 spermatophytes from 12 families. The cover by
epiphytes and the frequency is very different for each tree fern species. Alsophila erinacea
showed twenty-eight different epiphyte species. Half of these species are observed on 25 %
of the trunks. Eight species were found on more than 50 % of the trunks. Alsophila polys-
tichoides were covered by thirty-eight vascular epiphyte species. 27 species were found on
less than 25 % of the trunks. Four species were observed on more than 50 % of the trunks
and Asplenum pteropus on more than 75 % of the trunks from Alsophila polystichoides.
Cyathea delgadii showed very unspecific epiphytes. Most of the twenty-five species that
were found are on less than 25 % of all trunks of Cyathea delgadii. Only three species
covered up to 50 % of all trunks. Thirty-seven species covered Cyathea nigripes, the most
epiphytes in this study. 65 % of the species are only on 25 % or less of the trunks of
this species. Five species are frequent on 50 % or more of the trunks of Cyathea nigripes.
The comparison of the epiphyte species for all four tree ferns, showed that the following
epiphyte species are very frequent on tree fern trunks: Marcgravia spec., Schradea costa-
ricensis, Asplenium pteropus, Blechnum fragile and Trichomanes capillaceum. It should
be added that no orchids were observated on the trunks of tree ferns.
We have performed different kinds of correspondence analysis. Firstly, an analysis over
the table crossing the frequency of the 53 species of epiphytes on the 4 species of tree ferns
gives us a raw idea of the relation between epiphytes and tree ferns. The data are in the
first part of Table 1. In the principal plane (Fig. 1) we have plotted with a star the tree
ferns and with a bullet the epiphytes, but only the most important are highlighted with
a circle and their name is indicated. These important epiphytes are: Marcgravia spec.,
Peperomia emerginella, Asplenium holophlebium, Asplenium pteropus, Blechnum fragile,
Polybotrya alfredii, Grammitis lehmanniana and Trichomanes capillaceum.
The configuration of the points in Fig. 1 shows that the epiphytes of our interest are
not the responsible of the major statistical deviations. However, it can be observed that
there are two clear clusters: one cluster around Cyathea delgadii, composed by Polypodium
loriaceum, Trichomanes reptans, Solanum evolulifolium and Oleandra articulata. The rest
of the epiphytes form a second cluster around Cyathea nigripes, Alsophila polystichoides
and Alsophila erinacea; in this cluster are the eight epiphytes of our interest. The dots
without label are the other epiphytes of the analysis.
In order to determine whether the five levels show significant differences in the fre-
quency of epiphytes, we have performed a second correspondence analysis in the table
crossing the epiphytes and their frequency on the levels (second part of Table 1). Results
in Fig. 2 show some important features: the height plays an important role, since the five
levels follow the direction of the first axis. There is an specialization of epiphytes among
the levels and it can be seen that lower levels are associated with some kind of epiphytes
and higher levels with other epiphytes.
This analysis can be refined in order to investigate the relations between the levels and
the tree ferns. Indeed, we have applied correspondence analysis to a table crossing epiphy-
tes and tree ferns, level per level. Unfortunately, apart from the factor of “height.already
observed, the results are very difficult to elucidate since we have now 73 points in a
plane that only explains 32.7 % of the total inertia. Thus, we decided to perform analy-
ses tree-fern per tree-fern and level per level. The analyses over the tree ferns showed
the following results: for Cyathea delgadii (Fig. 4) Blechnum fragile and less importantly
Grammitis lehmanniana, Polybotrya alfredii and Marcgravia spec. are associated with lo-
Axis 2 (37.8 %)
6
Vittaria minima
Rhodospatha spec.
• •

Oleandra •
articulata Cyathea
delgadii
? Polypodium • •
•
Solanum
evolulifolium
loriaceum
Cyathea ••
Polybotrya nigripes
? ••
Trychomanes alfredii ◦
reptans Peperomia • •
emerginella
◦ ◦Marcgravia spec.
Asplenium Blechnum fragile -Axis 1
holophlebium◦ • ◦•

(44.8 %)
Grammitis
lehmanniana ◦ ••
•
•
•Alsophila
polystichoides •
? ? •◦Trichomanes
•
Alsophila capillaceum
erinacea
Asplenium◦pteropus
• •
•
• •
•
Figura 4.6: Principal plane of the correspondence analysis crossing the epiphytes and
the tree ferns. Tree ferns are indicated with a star ?, only the labels of the epiphytes of
interest are indicated with a circle ◦ and those around Cyathea delgadii are indicated with
a diamond .
wer levels, Peperomia emerginella with middle levels, and Asplenium holophlebium with
higher levels. On the other three tree ferns (Figs. 3, 5 and 6) Trichomanes capillaceum
and Polybotrya alfredii are highly correlated with the lower levels, Asplenium pteropus
and Grammitis lehmanniana are on intermediate levels, and Peperomia emerginella and
Asplenium holophlebium (this one except for Alsophila erinacea) are clearly in the higher
levels. Asplenium holophlebium is rather on intermediate levels for Alsophila erinacea.
Analyses of the data crossing the epiphytes and each level confirm the preceding results.
Axis 2 (21.22 %)
6
•
•
•• •
•
? •
Level 5 • • • Level 1 •
?
Asplenium Blechnum
holophlebium
◦ •••
Peperomia emerginella fragile
•◦ • •• ◦• • • • • -Axis 1
• ◦Marcgravia ◦ ◦ ◦Trichomanes

Asplenium pteropus 2? Polybotrya alfrediicapillaceum (53.6 %)
• • Level ?• •spec. ◦Gramittis •
4 • •lehmanniana
• •?
Level 3
•
• •
•
•
Figura 4.7: Principal plane of the correspondence analysis crossing the epiphytes and the
5 levels. The levels are indicated with a star ?, only the labels of the epiphytes of interest
are indicated with a circle ◦.
4.7.4. Discussion
The represented results of the correspondence analysis showed that we found some
correlation between epiphyte species and tree fern species. Also we can establish that the-
re is a relation between epiphyte communities and the level of these comunities on the tree
fern trunk. The occurrence of different epiphyte species on different tree fern is related
with the tree fern morphology and the age of the tree fern trunk. Older parts of the trunks
have more possibilities for colonization from epiphytes. This is a very important aspect for
the differences that we observed between Cyathea delgadii and the other tree fern species.
Cyathea delgadii shows a very fast growing (Bittner et al. 1995) and the colonization of
the youngest part needs time. In contrast, Alsophila erinacea or Cyathea nigripes shown
in the top part of the trunk the pioneers of epiphytes. This parts of the trunk are up
to four times older than the same part of C. delgadii. Another aspect is that the morp-
Axis 2 (27.5 %)
6
•
•
•• ◦Asplenium pteropus
? 3
Level ? 4
Level •
•
•• ◦Asplenium holophlebium
◦Peperomia
•◦Marcgraviafragile
spec. emerginella
• ◦Blechnum
•• -Axis 1
(50.8 %) %
Trichomanes capillaceum◦◦Polybotrya alfredii
• ◦Grammitis lehmanniana
??
Level 1 Level• 2• •
• ?
Level 5
•
••••
5 levels, for Cyathea nigripes. The levels are indicated with a star ?, only the labels of the
epiphytes of interest are indicated with a circle ◦.
holgy of the trunks is very different. Cyathea delgadii shows a lot of long smooth scales.
The colonization of these parts is difficult. After the losing of the scales, we can find more
epiphytes on the trunks. Specially, the development of adventive roots can be observed. In
the parts with adventive roots it is possible to find large numbers of epiphytes. Alsophila
erinacea, Alsophila polystichoides and Cyathea nigripes do not have these extreme scales.
The morphology of the trunks is another reason for the differences in epiphyte quantities
and one more example of the relation between substrate morphology and epiphyte coloni-
zation, that was discussed by Benzing (1990) or Johansson (1974). Both the morphology
of trunk and the micro climate explain the kinds of epiphyte communities observed in this
study. An example is the observation of small ferns of the Hymnophylaceen in the base
of the trunks. Normally, adventive roots are found in this part. Also this part is normally
shady and wet, which is very important for this group of plants. The other extreme is
found on the top of the trunks, where small fast climbing species (Peperomia emergine-
lla or Polypodium) grow. These plants are normally more succulent and adapted to dry
6
Axis 2 (31.4 %)
•
◦Blechnum fragile •
•
?
Level 1 •
◦Grammitis lehmanniana
• • ?
Marcgravia spec.◦ Level 5
? •
Level 2 •
Trichomanes capillaceum -Axis 1
Polybotrya alfredii ◦ •◦

◦Asplenium holophlebium (42.4 %)
• •
Asplenium ◦ pteropus
• •
Peperomia emerginella ◦ ? Level 3
Level •4?
•
•
?
5 levels, for Cyathea delgadii. The levels are indicated with a star ?, only the labels of the
epiphytes of interest are indicated with a circle ◦.
biotopes.
A preliminary list of the epiphytes was listed in Bittner’s (1994) study in the same
investigation area. A comparison with the present study shows that only Blechnum fragile
is found exclusively on tree ferns. This observation and also the result that no orchids are
growing on tree ferns is possibly due to chemical substances that we found in the trunk
of tree ferns (Soeder, per.com. ). Johansson (1974) and Medeiros et al. (1993) mention
similar observations. Summarizing, we can establish that tree fern trunks are specific hosts,
only for some species. The trunk is unspecific for most of the epiphytes and settlement
depends on the morphology and microclimate factors found. The importance of chemical
substances will be an interesting aspect of future studies.
Axis 2 (29.3 %)
6
• •
•
?
• Level 5
• •
• Level 1 ◦Asplenium holophlebium
•? Blechnum
• fragile
•Level
•2 •◦◦Marcgravia spec.
•? ◦ • -Axis 1
◦
Trichomanes capillaceum Polybotrya
••alfredii?
• ◦Asplenium ◦Peperomia
pteropus (42.9 %)
emerginella
Level 3 •
•◦
Grammitis lehmanniana •• •
•
?
•Level 4
•
?
Figura 4.10: Principal plane of the correspondence analysis crossing the epiphytes and
the 5 levels, for Alsophila polystichoides. The levels are indicated with a star ?, only the
labels of the epiphytes of interest are indicated with a circle ◦.
Referencias
1. Benzécri, J.-P. (1982) L’Analyse des Données. Vol. II: Correspondances. Dunod, Paris.
2. Bittner, J. (1994) Untersuchungen zur Ökologie und Phänologie verschiedener Vertreter

der Baumfarngattungen und Alsophila (Cyatheaceen) sowie der auf ihren Stämmen zu
findenen vasculären Epiphytengesellschaften. Ph.D. - Thesis, Bielefeld, Germany 163 p.
3. Bittner, J., Breckle, S.-W. (1995) “The growth rate and age of tree fern trunks in relation
to habitats”, American Fern Journal 85:36–41.
4. Ingram, S.W. & Nadkarni N.M. (1993) “Composition and distribution of epiphytic organic
matter in neotropical cloud forest, Costa Rica”, Biotropica 25: 370–383.
5. Johansson, D.R. (1974) “Ecology of vascular epiphytes in West African rain forest”, Acta
Phytogeographica Suecica 59: 1–139.
6
Axis 2 (27.5 %)
◦•
Asplenium holophlebium
•
?
Level 3
•
◦ •
Grammitis lehmanniana •
Marcgravia spec.◦ Level •

• ? 2 ◦Blechnum
• • -Axis 1
• • ? 4 fragile
Asplenium pteropus (46.6 %)
◦
Polybotrya alfredii ◦ TrichomanesLevel • ◦ ?Level 5
capillaceum Peperomia ◦emerginella•
• ? 1
Level
•
5 levels, for Alsophila erinacea. The levels are indicated with a star ?, only the labels of
the epiphytes of interest are indicated with a circle ◦.
6. Johnson, A. & Awan B. (1972) “The distribution of epiphytes on Fragraea fragrans and
Swietenia macrophylla”, Malayan forester 35: 5–12.
7. Greenacre, M. (1984) Theory and Applications of the Correspondence Analysis. Academic

Press, London.
8. Lebart, L., Morineau, A. & Warwick, K. M. (1985) Multivariate Descriptive Statistical

Analysis. John Wiley & Sons, New York.
9. Medeiros, A., Loope, L.L. & Anderson S.J. (1993) “Differential colonization by epiphytes
on native (Cibotium spec.) and alien (Cyathea cooperi) tree ferns in a Hawaiian rain forest”,
Selbyana 14: 71–74.
10. Nardkarni, N.M. (1985) “Epiphyte biomass and nutrient capital of a neotropical elfin
forest”, Biotropica 16: 249–256.
11. Nardkarni, N.M. (1986) “The nutritional effects of epiphytes on host trees with special
reference to alteration of precipitation chemistry”, Selbyana 9:44–51.
12. Wolf, J.H.D. (1993a) “Epiphyte communities of tropical montane rain forests in the nort-
hern Andes, I. Lower montane communities”, Phytocoenologia 22: 1–52.
13. Wolf, J.H.D. (1993b) “Epiphyte communities of tropical montane rain forests in the nort-
hern Andes, II. Upper montane communities”, Phytocoenologia 22: 53–103.
Cuadro 4.3: Número de epı́fitas de cada especie sobre 4 especies de helechos arborescentes
(primera parte de la tabla) y en cinco niveles (segunda parte de la tabla): nivel 1 (0–20 %),
nivel 2 (20–40 %), nivel 3 (40–60 %), nivel 4 (60–80 %) y nivel 5 (80–100 %)
Helechos arborescentes Niveles
Cyathea Cyathea Alsophila Alsophila Nivel 1 Nivel 2 Nivel 3 Nivel 4 Nivel 5
nigripes delgadii polystichoides erinacea (0–20 %) (20–40 %) (40–60 %) (60–80 %) (80–100 %)
Anthurium
austinsmithii 0 0 0 1 0 0 0 0 1
Philodendron
scandens 1 0 1 0 1 0 0 0 1
Philodendron
sulcatum 23 10 4 4 15 11 5 5 5
Araceae
spec. 3 0 1 0 3 1 0 0 0
Pitcarnia
atrorubens 2 1 3 1 0 4 2 0 1
Bromeliaceae
spec. 4 1 3 1 2 2 5 0 0
Cyclanthaceae
spec. 11 4 9 5 9 10 5 3 2
Vaccinium
spec. 5 0 1 0 0 3 0 2 1
Campanea
grandiflora 15 3 6 3 8 8 1 6 4
Columnea
consanguinea 5 0 0 1 1 2 1 1 1
Paradrymonia
lineata 6 0 2 4 3 1 6 0 2
Gesneriaceae
spec. 6 1 0 1 0 1 4 3 0
?Marcgravia
spec. 52 11 33 9 30 30 23 14 8
Adelobotrys
adscendens 3 4 9 4 2 5 6 3 4
Cnedemia
epifitica 28 2 1 0 10 6 6 7 2
Conostegia
micrantha 0 1 6 1 3 2 1 1 1
Melastomataceae
spec. 5 0 3 5 5 3 2 2 1
?Peperomia
emerginella 12 6 12 2 2 2 8 10 10
Peperomia
rotundifolia 0 0 3 0 0 0 1 0 2
Peperomia
spec. 5 0 0 1 0 0 3 1 2
Schradea
costaricensis 34 4 20 15 18 19 14 13 9
Solanum
evolulifolium 0 5 3 0 2 3 2 0 1
Pilea
diversissima 4 0 2 0 1 2 0 1 2
Pilea
ptericlada 5 0 2 0 3 3 1 0 0
Pilea
impartifolia 1 0 1 0 2 0 0 0 0
Begonia
spec. 2 1 4 2 0 0 1 3 5
Syngonium
spec. 8 0 2 0 2 2 2 1 3
S28 1 0 1 0 1 0 0 0 1
S29 3 0 0 0 0 3 0 0 0
Rhodospatha
spec. 0 2 0 0 1 1 0 0 0
S31 6 0 5 0 3 3 3 2 0
Tabla 4.3 (cont.). Número de epı́fitas de cada especie sobre 4 especies de helechos
arborescentes (primera parte de la tabla) y en cinco niveles (segunda parte de la tabla):
nivel 1 (0–20 %), nivel 2 (20–40 %), nivel 3 (40–60 %), nivel 4 (60–80 %) y nivel 5
(80–100 %)
Helechos Arborescentes Niveles
Cyathea Cyathea Alsoph. Alsoph. Nivel 1 Nivel 2 Nivel 3 Nivel 4 Nivel 5
nigrip. delg. polystic. erin. (0-20 %) (20-40 %) (40-60 %) (60-80 %) (80-100 %)
Syngonium
spec. 8 0 2 0 2 2 2 1 3
S28 1 0 1 0 1 0 0 0 1
S29 3 0 0 0 0 3 0 0 0
Rhodospatha
spec. 0 2 0 0 1 1 0 0 0
S31 6 0 5 0 3 3 3 2 0
Asplenium
dissectum 1 0 1 0 2 0 0 0 0
?Asplenium
holophlebium 19 3 17 1 7 9 9 7 8
?Asplenium
pteropus 16 4 47 10 10 12 18 22 15
Blechnum
divergens 0 0 0 0 0 0 0 0 0
?Blechnum
fragile 43 3 23 12 23 22 15 13 8
Oleandra
articulata 0 3 1 0 0 1 1 1 1
?Polybotrya
alfredii 28 19 16 7 24 20 15 8 3
?Grammitis
lehmanniana 15 6 17 7 10 16 11 6 2
Grammitis
semihirsutum 3 0 4 0 1 1 3 2 0
F10 0 1 5 4 1 2 3 3 1
Elaphoglossum
amygdalifolium 0 0 0 0 0 0 0 0 0
Elaphoglossum
erinaceum 0 0 2 2 0 2 1 1 0
Elaphoglossum
spec. 1 2 6 2 5 3 2 1 0
?Trichomanes
capillaceum 21 0 24 13 23 16 13 5 1
Trichomanes
polypoides 16 1 3 0 13 6 1 0 0
Trichomanes
reptans 0 7 4 1 5 3 2 1 1
Campyloneurum
repens 1 0 1 3 0 1 1 2 1
Campyloneurum
spec. 3 0 5 1 2 1 4 2 0
Polypodium
loriaceum 2 3 2 0 1 2 1 3 0
F20 0 0 3 0 1 1 0 1 0
Vittaria
minima 0 2 0 0 0 1 1 0 0
Elaphoglossum
ambigunia 0 0 1 0 0 0 1 0 0
Capı́tulo 5
Análisis de Correspondencias
Múltiples
El Análisis de Corespondencias Múltiples (ACM) se trata de una generalización del

Análisis Factorial de Correspondencias. En efecto, se dispone de una tabla de datos con
varias variablas cualitativas observadas sobre un conjunto de individuos. Es el caso por
ejemplo de las encuestas por cuestionario, en que cada pregunta define una variable cuyas
modalidades son las posibles respuestas.
El lector interesado en profundizar en este tema, puede consultar las excelentes obras
que hablan del tema con más profundidad, en particular, los libros de L. Lebart [114]
(en inglés) y [115] (en español), de B. Escofier & J. Pagès [61] y de M. Jambu [95] (en
francés).
Se quiere tener una representación en pocas dimensiones de las relaciones entre las mo-
dalidades de las distintas variables, de tal manera que se pierda el mı́nimo de información.
La solución se obtiene de diferentes maneras, una de ellas es tomando la tabla de datos
luego de hacer una codificación disyuntiva completa de todas las variables cualitativas y
aplicar un Análisis de Correspondencias, como si la tabla fuera una tabla de contingencia.
Los resultados son los mismos que se obtienen al aplicar al Análisis de Correspondencias
sobre la tabla de Burt asociada a los datos, cuyas filas son de hecho los baricentros de las
columnas de la tabla disyuntiva completa.
Las modalidades se representan por el centro de gravedad de los individuos que las
poseen. Los resultados del análisis se interpretan como los del Análisis de Corrresponden-
cias, salvo que hay que tomar en cuenta que en un Análisis de Corespondencias Múltiples
los valores propios presentan siempre un porcentaje bajo de la inercia total (por ejemplo,
si las variables cualitativas tienen en promedio 5 modalidades, el primer eje no podrá so-
brepasar 25 % de la inercia).
79
80 Análisis de Correspondencias Múltiples
5.1. Los principios básicos

Al tener una tabla de individuos × variables cualitativas, con n individuos y q variables,
la tabla se puede escribir de la siguiente forma:
Individuo Sexo ProfesiónCategorı́a ...

de salario
1 M Liberal Alto ...
2 F Empleado Medio ...
3 F Liberal Muy alto ...
4 M Obrero Bajo ...
.. .. .. .. ..
. . . . .
Esta tabla se puede desde luego codificar, de la manera usual, por ejemplo en:
Individuo Sexo Profesión Categorı́a ...

de salario
1 1 3 4 ...
2 2 2 3 ...
3 2 3 5 ...
4 1 1 2 ...
.. .. .. .. ..
. . . . .
Ahora bien, para el ACM es muy útil la codificación disyuntiva completa, en la

que cada categorı́a o modalidad tiene una columna y en la tabla se coloca un 0 o un
1 según que el individuo posea la categorı́a o no. Entonces, la tabla anterior tendrı́a el
siguiente aspecto:
Individuo Sexo Profesión Categorı́a de salario ...

M F Obr Emp Lib MB B M A MA ...
1 1 0 0 0 1 0 0 0 1 0 ...
2 0 1 0 1 0 0 0 1 0 0 ...
3 0 1 0 0 1 0 0 0 0 1 ...
4 1 0 1 0 0 0 1 0 0 0 ...
.. .. .. .. .. .. .. .. .. .. .. ...
. . . . . . . . . . .
A la matriz de datos codificados de la manera usual se la denota X y a la matriz

con el código disyuntivo completo se la denota Z. Finalmente, se puede también definir
5.1 Los principios básicos 81
una tabla de “contingencia generalizada” o tabla de Burt, denotada B, que contiene por
bloques las tablas de contingencia de cada pareja de variables cualitativas. Por ejemplo,
para el caso de las tablas anteriores, suponiendo que la tabla completa es el resultado
de una encuesta sobre 499 individuos, entonces la tabla de Burt puede tener el aspecto
siguiente:
Sexo Profesión Categorı́a de salario ...

M F Obr Emp Lib MB B M A MA . . .
M 240 0 160 44 36 ... ... ... ... ... ...
F 0 259 169 39 51
Obr 160 169 329 0 0
Emp 44 39 0 83 0
Lib 36 51 0 0 87
.. .. .. .. .. .. .. .. .. .. ..
MB . . . . . . . . . . .
.. .. .. .. .. .. .. .. .. .. ..
B . . . . . . . . . . .
.. .. .. .. .. .. .. .. .. .. ...
M . . . . . . . . . .
.. .. .. .. .. .. .. .. .. .. ..
A . . . . . . . . . . .
.. .. .. .. .. .. .. .. .. .. ..
MA . . . . . . . . . . .
.. ... ... .. .. .. .. .. .. .. .. ..
. . . . . . . . . .
Tanto la tabla con el código dusyuntivo completo Z como la tabla de Burt B tienen
una estructura particular. El Análisis de Correspondencias Múltiples consiste en hacer un
AFC de la tabla Z, considerando esa estructura particular.
A continuación presentaremos las principales caracterı́sticas que tiene el ACM.
Siendo la matriz Z una matriz de ceros y unos, se debe tomar en cuenta este hecho
para deducir la forma particular que tienen las nubes de puntos sobre las que se hará el
análisis. Recuérdese que un AFC es un ACP de una nube de perfiles-fila o de una nube
de perfiles-columna.
Se está entonces en presencia de n individuos y q variables cualitativas. Sea pk el
número de modalidades de la variable k-ésima y sea p el número total de modalidades:
q
X
p= pk
k=1
es el total de columnas de Z. La matriz Z tiene entradas zij que son 0 ó 1. Los márgenes
de Z son:
zi· = q: pues hay q unos en la fila i (sin datos faltantes)
z·j = número de individuos que tienen la modalidad j
Ası́, la suma total de la tabla es:

XX
zij = nq
i j
Llamando D = diag(z·j ) la diagonal de los márgenes-columna, entonces al hacer el AFC

de Z la matriz a diagonalizar es:
1 1
S = Zt ZD−1 = BD−1
q q
5.2. Equivalencias
Supóngase por un momento que la tabla de datos X tiene solamente dos variables
cualitativas y que se hace la deducción anterior, calculando la matriz Z del código dis-
yuntivo completo y la matriz de Burt B. Es de esperarse que en este caso el ACM y el
AFC coincidan en sus resultados, para que el procedimiento indicado esté justificado.
La matriz Z puede verse como la concatenación de dos submatrices Z1 y Z2 , una por
cada variable. Entonces, la tabla de contingencia es el producto matricial K = Zt1 Z2 y
la tabla de Burt es B = Zt Z. Al hacer el ACP de cada una de las nubes definidas por
cada una de esas matrices, se obtiene que los valores propios de Z, denotados λZ , los
valores propios de B, denotados λB , y los valores propios del AFC directo, denotados λK ,
cumplen las siguientes igualdades:
λB = λ2Z λK = (2λz − 1).
Esto quiere decir que el AFC de cualquiera de las tres tablas se puede deducir del AFC
de cada una de las otras, mediante esta relación entre los valores propios. Por lo tanto,
los gráficos que se obtengan ser”an equivalentes.
5.3. El AFC de Z
Para formalizar el AFC de la tabla Z debemos definir todas las caracterı́sticas de las
nubes de puntos correspondientes.
La nube de perfiles-fila (relacionada con los individuos) está dada por:
Puntos (coordenadas):
zij zij
=
zi· q
por lo que la tabla de puntos es 1q Z.
5.3 El AFC de Z 83
Pesos:
zi· q 1
= =
nq nq n
Matriz de distancias o producto escalar:

nq
diag( )
z·j
Por lo tanto, la distancia de χ2 entre dos individuos es:

p
2 0 nX 1
d (i, i ) = (zij − zi0 j )2
q j=1 z·j
La nube de perfiles-columna (relacionada con las modalidades o categorı́as) está dada

por:
Puntos (coordenadas):
zij
z·j
Pesos:
z·j
nq
Matriz de distancias o producto escalar:

nq nq
diag( ) = diag( ) = diag(n)
zi· q
Por lo tanto, la distancia de χ2 entre dos modalidades es:

n 2
2 0
X zij zi0 j
d (j, j ) = n −
i=1
z·j z·j 0
Con base en lo anterior, podemos decir que:
Dos modalidades escigigas por los mismos individuos coinciden (tienen distancia 0).
Modalidades con poco efectivo o popularidad están alejadas del resto de modalida-
des.
Dos individuos son cercanos si escogen las mismas modalidades.

Vayamos más en profundidad de las fórmulas anteriores de distancia. La distancia de

χ2 entre perfiles-fila se puede escribir como:
p
2 0 nX 1
d (i, i ) = (zij − zi0 j )2
q j=1 z·j
n X 1
=
q j∈M z·j
ii0
siendo Mii0 el conjunto de modalidades que tiene sólo un individuo de i ó i0 . Esto quiere
decir que dos individuos son más parecidos entre más modalidades tienen en común.
Por su parte, la distancia de χ2 entre perfiles-columna se puede escribir como:

n 2
2 0
X zij zi0 j
d (j, j ) = n −
i=1
z·j z·j 0
(#ind[j, no j 0 ]) + (#ind[j 0 , no j])
= n
z·j z·j 0
donde #ind[j, no j 0 ] es el número de individuos que poseen la modalidad j y no poseen
la modalidad j 0 . Esto significa que entre más objetos tengan solo una de j ó j 0 mayor es
la distancia entre esas modalidades.
Revisemos ahora los conceptos relacionados a la inercia. El centro de gravedad de la

nube de modalidades es G = ( n1 , . . . , n1 ). Entonces la distancia entre una modalidad j y el
centro de gravedad G es:
n 2
2
X zij 1
d (j, G) = n −
i=1
z·j n
n
X zij 2zij 1
= n 2
− − 2
i=1
z·j nz ·j n
n
= −1
z·j
Lo anterior se interpreta como que la distancia es mayor (al centro de gravedad o punto
promedio) si el efectivo es pequeño.
La inercia de la modalidad j es:
z·j 2 z·j n 1 z·j
I(j) = d (j, G) = ( − 1) = (1 − )
nq nq z·j q n
lo cual significa que la inercia es mayor si el efectivo de j es pequeño.
La inercia de la variable k, considerando todas sus modalidades, es:
pk pk
X X 1 z·j 1
I(k) = I(j) = (1 − ) = (pk − 1)
j=1 j=1
q n q
5.4 Interpretación de resultados 85
Lo anterior se interpreta como que la inercia I(k) crece con el número de modalidades.
Véase que si pk = 2 entonces I(k) es mı́nimo y vale 1/q.
Finalmente, la inercia total está dada por:
q q
X X 1 1 p
I(N ) = I(k) = (pk − 1) = (p − q) = − 1,
k=1 k=1
q q q
la cual no tiene un significado estadı́stico particular.
La solución del ACM pasa entonces por la disgonalización (en Rp ) de la matriz

Z ZD−1 , obteniéndose valores y vectores propios.
1 t
q
5.4. Interpretación de resultados

Mencionamos a continuación algunos puntos importantes para la interpretación de los
resultados en el plano principal de un ACM:
Proximidad entre individuos en términos de parecido: dos individuos se parecen si

tienen casi las mismas modalidades.
Proximidad entre modalidades de variables diferentes en términos de asociación: son

cercanas puesto que globalmente están presentes en casi los mismos individuos.
Proximidad entre modalidades de una misma variable en términos de parecido: como

son excluyentes por construcción, si son cercanas es porque los individuos que las
poseen presentan caso el mismo comportamiento de las otras variables.
5.5. Ejemplo: Análisis de Conceptos Sociológicos en

la
Educación
El siguiente estudio de caso, analiza las actitudes de los estudiantes costarricenses de
secundaria de dos colegios –uno público y el otro privado– respecto a ciertos conceptos
sociológicos escogidos, tales como empresa privada–libertad , y democracia–ejército. Se
analizan las relaciones entre estas variables. La metodologı́a empleada es principalmente
Análisis de Correspondencias Múltiples y el Análisis Factorial de Correspondencias, con
apoyo de la Clasificación Jerárquica.
5.5.1. El cuestionario
Se redactó un cuestionario con dos tipos de preguntas. Por un lado, lo que llamaremos
variables socioeconómicas, y por otro, la opinión de los estudiantes acerca de una serie de
aspectos relacionados con la libertad, la democracia, la paz, etc.
Pese a que el presente estudio tiene por objetivo el análisis de las relaciones entre
algunas variables de opinión, como se señala más abajo, para efectos del tratamiento
previo al análisis multivariado (sección 2) se tomaron en cuenta también algunas variables
socioeconómicas. Ellas son:
sexo: sexo del estudiante.
cole: tipo de colegio.
ingr : ingreso familiar.
reli: religión del estudiante.
poli : partido polı́tico por el que simpatiza.
edpa: grado de educación del padre.
edma: grado de educación de la madre.
En cuanto al fenómeno de la opinión, cada tema tiene asociadas cinco preguntas:

una principal, dos caracterı́sticas y dos de control. De los doce temas del cuestionario
escogimos dos: libertad y democracia. En primer lugar se estudian las relaciones entre
libertad y empresa privada. Para ello se analizaron las siguientes preguntas:
var1 : la empresa privada es necesaria para que exista libertad.
var2 : se puede entrar en un sindicato sin ser perseguido o despedido.
var3: si se trabaja en la empresa privada no hay tiempo para ocuparse de sus propias
cosas.
var4 : los trabajadores deben respetar las órdenes de su patrono sin criticarlas.
var5 : mi padre debe dedicarle más tiempo a la empresa o institución donde trabaja.
Y para analizar las relaciones entre democracia y ejército:
var6 : un paı́s democrático no necesita ejército.
var7 : un paı́s con ejército es un paı́s totalitario.

5.5 Ejemplo: Análisis de Conceptos Sociológicos en la Educación 87
var8 : es necesario que Costa Rica tenga ejército para defenderse de amenazas ex-
ternas.
var9 : la existencia de un ejército en Costa Rica podrı́a llevar a una dictadura militar
en corto plazo.
var10 : Estados Unidos no es un paı́s democrático porque tiene ejército.
Cada una de estas preguntas tiene cinco modalidades de respuesta:
fde: fuertemente en desacuerdo.

des: en desacuerdo.
ind : indeciso.
dac: de acuerdo.
fac: fuertemente de acuerdo.
El cuestionario fue pasado en dos colegios del área metropolitana, uno público y otro
privado. Se entrevistaron un total de 232 estudiantes de cuarto y quinto año, durante el
primer semestre de 1987.
5.5.2. Tratamiento previo de los datos

Entre las variables socioeconómicas, las preguntas relativas al ingreso familiar (ingr )
y al partido polı́tico de sus simpatı́as (poli ) fueron las que presentaron el mayor número
de respuestas faltantes.
Partiendo de la hipótesis que la no respuesta refleja principalmente la actitud estudian-
til, más o menos consciente, de no dar la información, hemos conservado la no respuesta
como una modalidad de las variables ingr y poli . Sin embargo cabe observar que en el caso
del ingreso familiar (ingr ), la no respuesta podrı́a obedecer además a que los estudiantes
estiman que no tienen una información precisa acerca del ingreso familiar.
Para los otros casos se recurre a una asignación al azar de las no respuestas, entre
el resto de las modalidades (Morineau, [2]). Las variables involucradas y las asignacio-
nes realizadas son: edpa, 12 asignaciones; edma, 3 asignaciones; var3 , var5 y var7 , una
asignación cada una.
Finalmente las modalidades con muy poco efectivo fueron reunidas con otras. En
todo caso se fusionaron modalidades similares o cercanas, obteniéndose los resultados
siguientes:
edpa: ninguna educación y educación primaria (1+33).

poli : partido Vanguardia Popular, partido del Pueblo Costarricense y otros (3+1+5).
var6 : des6 y fde6 (31+9).
var2 : dac2 y fac2 (19+5).
var3 : fde3 y des3 (1+9).
var4 : fde4 y des4 (7+51).
var5 : fde5 y des5 (12+29).
var9 : des9 y fde9 (9+25).
De esta manera, las tablas de frecuencias para las variables socioeconómicas y las
variables de opinión se presentan en las Tablas 1 y 2 respectivamente.
5.5.3. Análisis de las relaciones entre las variables de opinión

Primero se hizo un análisis global sobre las diez variables de opinión que abarcan
los temas empresa privada-libertad y democracia-ejército. La metodologı́a utilizada es el
Análisis de Correspondencias Múltiples (ACM), que nos permite obtener representacio-
nes planas de las distintas modalidades de las variables (ver Figura 1). Las relaciones
encontradas como resultado de este primer análisis son corroboradas mediante el Análi-
sis de Correspondencias Simples (sólo se analizan simultáneamente dos variables) y la
Clasificación Ascendente Jerárquica.
ACM de las 10 variables de opinión
En la Figura 1 se muestra el plano principal del ACM de las variables var1 a var10 ,
con un 25 % de inercia explicada. En él sobresalen los hechos siguientes:
Se muestra una relación directa entre las variables 4 y 5, excepto por la modalidad
“indecisos”. Es decir, la opinión de los entrevistados respecto de la proposición “los
trabajadores deben respetar las órdenes de los patronos” (var4 ), es básicamente la
misma que tienen respecto de “mi padre debe dedicarle más tiempo a la empresa”
(var5 ), excepto por los indecisos. Dicha relación se indica en la Figura 1 por medio
de trayectorias siguiendo el orden de las modalidades de una misma variable.
Sobre este plano también se observa que la opinión favorable (fac1 ) respecto de la
proposición “la empresa privada es necesaria para que exista libertad”, está asociada
con una opinión desfavorable (des6 ) respecto de la proposición “un paı́s democrático
no necesita ejército”.
Variable Modalidades código frec. %

Tipo de público publ 124 53
colegio privado priv 108 47
Sexo masculino masc 101 44
femenino feme 131 56
Nivel de I<7 I1 24 10
ingreso 7 ≤ I < 14 I2 44 19
de la 14 ≤ I < 21 I3 35 15
familia 21 ≤ I < 28 I4 30 13
(en miles 28 ≤ I < 35 I5 34 15
de 35 ≤ I I6 47 20
colones) no responde I7 18 8
Grado de primaria incompleta P1 35 15
educación primaria completa P2 30 13
del padre secundaria incompleta P3 34 15
secundaria completa P4 35 16
universit. incompleta P5 29 12
universit. completa P6 68 29
Grado de primaria incompleta M1 37 16
educación primaria completa M2 41 18
de la madre secundaria incompleta M3 43 18
secundaria completa M4 41 17
universit. incompleta M5 18 8
universit. completa M6 52 23
Religión católica cato 127 55
evangélica evan 75 32
no creyente nocr 8 3
otra otra 22 10
Partido PUSC pusc 82 35
polı́tico PLN pln 129 56
otro otro 8 4
no responde nore 12 5
Cuadro 5.1: Frecuencias para las variables socioeconómicas.

Cód. Variable Mod. frec. %

var1 La empresa privada es fde1 60 26
necesaria para que des1 74 32
exista libertad ind1 39 17
dac1 32 14
fac1 27 11
var2 Se puede entrar en un fde2 60 26
sindicato sin ser des2 119 51
perseguido o ind2 29 13
despedido dac2 24 10
var3 Si se trabaja en la des3 10 4
empresa privada no hay ind3 36 16
tiempo para ocuparse dac3 145 62
de sus propias cosas fac3 41 18
var4 Los trabajadores deben des4 58 25
respetar las órdenes ind4 22 9
de su patrono sin dac4 123 53
criticarlas fac4 29 13
var5 Mi padre debe dedicarle des5 32 18
más tiempo a la ind5 93 40
empresa o institución dac5 60 26
donde trabaja fac5 37 16
var6 Un paı́s des6 40 17
democrático no ind6 24 11
necesita ejército dac6 56 24
fac6 112 48
var7 Un paı́s con fde7 19 8
ejército es un paı́s des7 45 19
totalitario ind7 106 46
dac7 44 19
fac7 18 8
var8 Es necesario que Costa fde8 15 6
Rica tenga ejército des8 23 10
para defenderse de ind8 36 16
amenazas externas dac8 41 18
fac8 117 50
var9 La existencia de un des9 97 41
ejército en Costa ind9 67 29
Rica podrı́a llevar dac9 34 15
a una dictadura. . . fac9 34 15
var10 Estados Unidos no es un fde0 23 10
paı́s democático des0 41 18
porque tiene ind0 118 51
ejército dac0 50 21
Cuadro 5.2: Frecuencias de las variables de opinión.

ind6
Eje 2 6 •
ind9
des5 • • • ind2
• • des4
dac1
• ind0
dac7 •
• dac9 dac2 •
ind5 ind9 • • des8 • dac8
des1
• • • dac0
des0 des3 • • ind4
• des2 des7 • • ind8 -
fac9 •
dac4 • ••fde8 • dac3 fac6 •
Eje 1
• fde7
• ind1 •
• • ind7 fac7 •
fde1
• • des6
dac6 dac5
fde2 • fac1 •
fde0 • fac9 •
des9 •
fac5 • fac8
•
fac4 •
Figura 5.1: ACM de las diez variables de opinión: plano principal (25 % de inercia).
El plano definido por los ejes 1 y 3 no fue reportado en este trabajo. Sin embargo este
plano, con 23 % de inercia explicada, confirma la fuerte relación entre var1 y var6 , que
corresponde a dos tipos de preguntas diferentes. La correspondencia entre modalidades
es: fac1 –des6 , dac1 –ind6 , ind1 –dac6 , fde1 –fac6 . Se observa además una trayectoria or-
denada de acuerdo a las modalidades. Sin embargo, no se confirma la relación entre las
variables 8 y 9. Sólo se observa una cercanı́a entre fac9 y fde8 . La modalidad dac8 parece
estar mal ubicada, tanto aquı́ como en el plano principal.
ACM de las preguntas “empresa privada–libertad”
Al realizar el ACM entre las modalidades de las variables 1 a 5 se obtiene como plano
principal el mostrado en la Figura 2. En ésta se ve claramente la fuerte relación directa
que hay entre var4 y var5 , observándose también la trayectoria ordenada de la que antes
hablábamos. En el plano generado por el primer y tercer ejes principales se confirma
esta relación (sin observar la trayectoria), y como aquı́, no se ve ninguna otra relación
importante.
ACM de las preguntas “democracia–ejército”
Al hacer el análisis entre las variables var6 a var10 , se confirma el agrupamiento de

algunas modalidades de var8 y var9 , pero en cierto desorden, y no es sino en el gráfico
que cruza los ejes principales 1 y 3 en que se puede ver una cierta trayectoria, con dac8
fac4 •
Eje 2 6
•
fac5
fac3 •
dac5
• fde2
• •
dac4 • •
ind1
• des2 • fac1
des3 fde1
•
dac3 •
-
• Eje 1
des1 •
ind5 dac1 • • dac2
• ind4
• ind3
ind2 • • des4
• des5
Figura 5.2: ACM de los temas “empresa privada–libertad”: plano principal (49 % de inercia
explicada).
mejor ubicado para que ésta tenga un sentido, como se ilustra en la Figura 3.
5.5.4. Confirmación de resultados comparando

con otros métodos
Quisimos confirmar los resultados apuntados arriba mediante la Clasificación Automáti-
ca y el Análisis de Correspondencias.
Para el primer método, por tratarse de variables cualitativas, medimos su asociación
mediante el coeficiente T de Chuprov:
χ2
T (a, b) = ,
(p − 1)(q − 1)
donde p y q son la cantidad de modalidades de cada variable, y χ2 el chi-cuadrado de
contingencia. Empleamos la agregación del promedio de las distancias:
XX d(a, b)
δ(A, B) = ,
a∈A b∈B
card (A) card (B)
donde d(a, b) = 1 − T (a, b).

Aplicando el algoritmo de clasificación jerárquica ascendente [1], se obtiene el árbol
de clasificación mostrado en la Figura 4. Véase que se confirma la fuerte relación entre
• ind9
Eje 2 6
• ind8
dac8
•
fac8 •
des9 •
-
fac9
• Eje 1
• fde8 dac9
•
• des8
Figura 5.3: Trayectoria seguida por las modalidades de var8 y var9 en el plano generado
por los ejes 1 y 3 (43 % de inercia).
var1 y var6 (ı́ndice de agregación igual a 0.48) por un lado, y entre var4 y var5 (ı́ndice
de agregación igual a 0.49) por el otro. Sigue la agregación entre var8 y var9 con ı́ndice
de agregación igual a 0.85, y el resto se encuentra por encima del valor 0.92. Con los
ı́ndices de agregación del ligamen simple y del ligamen máximo se obtuvieron resultados
similares.
q var1
q var6
q var10
q var3
q var7
q var4
q var5
q var2
q var8
q var9
Escala de disimilitud
1 0.9 0.5 0
Figura 5.4: Arbol de clasificación para las variables de opinión.
Por otro lado, analizamos la homogeneidad de las respuestas dadas a estas preguntas,
mediante las formas fuertes [1]. Como cada pregunta determina una partición de los
estudiantes entrevistados, se pueden analizar las formas fuertes entre dos preguntas.
Para las variables 4 y 5, con 4 modalidades cada una, se obtienen 8 formas fuertes,
de las cuales cuatro son mayoritarias con 60, 54, 41 y 29 estudiantes respectivamente, lo
cual da una buena clasificación del 79 % de los estudiantes.
Para las variables 1 y 6, con 5 y 4 modalidades respectivamente, también se obtie-

nen 8 formas fuertes, de las cuales 4 son mayoritarias con efectivos de 60, 52, 34 y 27
estudiantes, lo cual resulta en una distribución coherente para el 75 % de los estudiantes.
Lo anterior permite concluir que hay grupos bastante grandes con tendencias de opi-
nión respecto a estas preguntas.
Por su parte, el estudio de las formas fuertes para las variables 8 y 9 no permite sacar
ninguna información, pues hay 20 formas fuertes, de las que una sola, (fac8 ∩ des9 , con
82 elementos: el 35 % de la población) es suficientemente grande.
Al formar la tabla de contingencia entre las modalidades de las variables retenidas,
esto es, var1 –var6 , var4 –var5 , var8 –var9 , se puede hacer el análisis de correspondencias
sobre cada tabla. Ası́, pudimos confirmar las fuertes relaciones siguientes sobre el primer
plano principal:
var1 y var6 var4 y var5 var8 y var9

fac1–des6 des4–des5 fac9–fde8
dac1–ind6 ind4–ind5 dac9–des8
ind1–dac6 dac4–dac5 ind9–ind8–dac8
des1–fde1–fac6 fac4–fac5 des9–fac8
5.5.5. Conclusiones
Las principales conclusiones a las que llegamos son las siguientes:
1. La relación directa entre “los trabajadores deben respetar las órdenes de su patrono
sin criticarlas” (var4 ) y “mi padre debe dedicarle más tiempo a la empresa o insti-
tución donde trabaja” (var5 ) denota una fuerte concordancia sumisión-explotación.
2. La relación inversa entre “la empresa privada es necesaria para que exista libertad”
(var1 ) y “un paı́s democrático no necesita ejército” (var6 ) concuerda con la fuerte
propaganda que salı́a en la prensa en la época anterior en que se pasó la encuesta,
que hacı́a énfasis en que la empresa privada produce libertad, y que insistı́a a la vez
en que Costa Rica debı́a armarse para preservar su democracia. Aquı́ se muestra
la gran permeabilidad de los estudiantes de secundaria a la propaganda masiva e
ideológica.
3. La relación inversa entre “Costa Rica necesita ejército para defenderse de amenazas
externas” (var8 ) y “un ejército en Costa Rica podrı́a llevar a una dictadura militar
a corto plazo” (var9 ) parece muy lógica: quienes quieren la implantación de un
ejército en Costa Rica hacen creer que en nuestro paı́s no se correrı́a el riesgo de
una dictadura militar.
4. La ausencia de otras relaciones entre las otras preguntas puede ser debida a la falta
de consistencia en la opinión de los estudiantes de educación media.
5. Respecto de la metodologı́a estadı́stica empleada, que dicho sea de paso tiene un

carácter descriptivo por excelencia, cabe mencionar la importancia de los gráficos
obtenidos a partir del ACM, en la medida que nos permitieron explorar, no sólo las
asociaciones entre variables, sino también su carácter (directo o inverso), propiedad
que no es posible observar mediante el clásico chi-cuadrado.
Capı́tulo 6
Escalamiento Multidimensional
Bajo el nombre de Escalamiento Multidimensional1 se agrupa una serie de técnicas

de análisis de datos que consisten en, dada una tabla de dismilitudes o similitudes entre
un conjunto de objetos, encontrar un espacio de dimensión pequeña tal que sus puntos
representen a esos objetos, de manera que las distancias Euclı́deas observadas en el espacio
se ajusten lo mejor posible a las disimilitudes observas. Esta búsqueda el espacio se hace
con el fin de tener un gráfico legible que permita “ver” lo que sucede en la tabla de
disimilitudes dada.
El nombre de Escalamiento Multidimensional se ha impuesto a otros nombres también
usados por distintos autores, como Análisis de Proximidades, Análisis de Coordenadas
Principales, Análisis de Estructuras de Similitud.
A continuación presentamos los principales métodos de Escalamiento Multidimensio-
nal. Iniciamos con el llamado Escalamiento Clásico, usado cuando las disimilitudes dadas
son distancias Euclı́deas (sección 6.1). Enseguida abordamos el problema de la minimiza-
ción de un criterio de mı́nimos cuadrados, presentando varios enfoques en el caso métrico
(sección 6.2). Luego hacemos una breve descripción del MDS no métrico (sección 6.3), y
terminamos con dos extensiones: el análisis de tablas múltiples (sección 6.4) y el análisis
de datos de preferencia (sección 6.5).
El escalamiento clásico es considerado como un tipo especial de escalamiento métrico.
En ambos casos, dada una matriz de disimilitudes
∆ = (δij )n×n
se quiere encontrar una configuración definida por n vectores
x1 , . . . , xn ∈ Rp
tales que las distancias Euclı́deas medidas en Rp
dij = kxi − xj k
1
Multidimensional Scaling en inglés, abreviado generalmente MDS.
97
98 Escalamiento Multidimensional
aproximen lo mejor posible a las disimilitudes observadas δij .

Luego presentamos las principales técnicas de MDS métrico, como el método de Krus-
kal, Smacof, Alscal y el uso de heurı́sticas de optimización. También mencionamos el caso
de restricciones en la configuración. Luego vemos brevemente la extensión al caso de datos
de preferencia y al caso de tablas múltiples, con el modelo Indscal.
Eventualmente, se puede considerar que la aproximación sea a una función ϕ(δij de las
disimilitudes, donde ϕ es una función continua y creciente. El espacio de representación
Rp es generalmente R2 ó R3 ; ahora bien, este espacio de representación podrı́a ser otro
tipo de espacio como por ejemplo una esfera (en el caso en que se quiera representar
objetos sobre la Tierra, y se considere conveniente tomar en cuenta la esfericidad de la
misma).
6.1. Escalamiento clásico

Si las disimilitudes de entrada son distancias Euclı́deas, entonces existe un método
de Escalamiento Multidimensional, llamado Escalamiento Clásico o en algunas ocasiones
Análisis Factorial sobre Tabla de Distancias, que encuentra una solución exacta en Rp .
Dadas las disimilitudes δij , se busca una configuración x1 , . . . , xn en Rp tal que δij =
d(xi , xj ), donde d es la distancia Euclı́dea en Rp :
d2 (xi , xj ) = d2ij = kxi − xj k2 = (xi − xj )t (xi − xj ).
Es decir, se busca una solución en el espacio de donde provienen las distancias observadas.
En Rp , la matriz B del producto interno usual se puede escribir como
[B]ij = bij = xti xj .
El procedimiento que se describe a continuación consiste en encontrar la matriz B

mediante la forma de Torgerson, y a partir de B se encuentran los vectores xi .
6.1.1. La forma de Torgerson

La llamada forma de Torgerson permite escribir la matriz de productos internos B
a partir de las distancias dij . Con el fin de evitar indeterminaciones, se supone que los
vectores xi están centrados, es decir, que para todo k = 1, . . . , p se tiene:
n
X
xik = 0.
i=1
6.1 Escalamiento clásico 99
Las distancias al cuadrado se pueden escribir como:
d2ij = (xi − xj )t (xi − xj )

= xti xi + xtj xj − 2xti xj
Sumando sobre i y sobre j se obtiene:

n n
1X 2 1X t
dij = x xi + xtj xj
n i=1 n i=1 i
n n
1X 2 1X t
dij = xti xi + x xj
n j=1 n j=1 j
n n n
1 XX 2 2X t
d = x xi
n2 i=1 j=1 ij n i=1 i
Pn Pn Pp Pp Pn
ya que i=1 xti xj = i=1 k=1 xik xjk = k=1 i=1 xik xjk = 0.
Como
d2ij = (xi − xj )t (xi − xj )
entonces
bij = xti xj
1
= − (d2ij − xti xi − xtj xj )
2
n n n n
1 2 1X 2 1X 2 1 XX 2
= − (dij − d − d + d )
2 n r=1 rj n s=1 is n2 r=1 s=1 rs
Escribiendo
1
aij = − d2ij
2
1X
ai· = aij
n j
1X
a·j = aij
n i
1 XX
a·· = aij
n2 i j
entonces se obtiene
bij = aij − ai· − a·j + a··
6.1.2. Determinación de las coordenadas

Si X = (x1 , x2 , . . . , xn ) es la matriz n×p de coordenadas buscadas, entonces B = XXt .
El rango de B es el mismo que el rango de X, es decir p, ya que los rangos de X y XXt
son el mismo.
Ahora bien, como B es una matriz simétrica, semidefinida positiva re rango p, entonces
posee p calores propios positivos y n − p valores propios nulos. Es decir, se puede escribir
B = VΛV
donde Λ es la matriz diagonal con los valores propios no nulos en la diagonal y escritos en
forma decreciente, y V es la matriz con los vectores propios normalizados correspondientes
en las columnas. Por lo tanto, se tiene
B = VΛ1/2 Λ1/2 Vt
donde Λ es la matriz diagonal con las raı́ces cuadradas de los valores propios, de donde
se obtiene
B = VΛ1/2 .
Recuérdese que si v es un vector propio asociado al valor propio λ, dada una matriz,
entonces −v también es vector propio asociado a λ. Por lo tanto, las soluciones de un
MDS clásico son únicas salvo por reflexión sobre un eje de coordenadas.
6.1.3. Relación con el Análisis en Componentes Principales

Supóngase que X es una matriz n × p de datos numéricos (centrados). Si se calculan
las distancias Euclı́deas entre las filas de X para obtener un conjunto de n × n distancias
dij , entonces se podrı́a aplicar el MDS clásico con el fin de reconstruir las coordenadas
de los puntos. Veremos que el procedimiento es equivalente a realizar un Análisis en
Componentes Principales (A.C.P.) de los datos X, ya que existe una estrecha relación
entre los valores y vectores propios de ambos análisis.
En el A.C.P. de X, se calcula la matriz de varianzas-covarianzas V = n1 Xt X (ó n−1 1
Xt X
si se considera el estimador insesgado de la matriz de varianzas-covarianzas), y al diago-
nalizarla se obtienen los valores propios µ1 , . . . , µp y los vectores propios u1 , . . . , up de V,
definiéndose las componentes principales Ck = xt uk .
Por su parte, el MDS clásico considera las distancias Euclı́deas dij y diagonaliza la
matriz B = XXt (usando la forma de Torgerson), obteniendo los valores propios λ1 , . . . , λn
y los vectores propios v1 , . . . , vp de B.
Se tiene entonces que
XXt vk = λk vk
6.1 Escalamiento clásico 101
por lo que al premultiplicar por Xt se obtiene
(Xt X)Xt vk = λk (Xt vk .
Como
Xt Xuk = nµk uk
y siendo únicos los valores propios de Xt X, entonces se tiene λk = nµk y uk = ±X t vk .
Si bien es cierto que, en presencia de una tabla de datos numéricos, algunos autores
realizan un MDS clásico calculando primero las distancias entre los objetos, es más razo-
nable realizar directamente un A.C.P. ya que como hemos visto que se obtendrá el mismo
plano principal. Además, con el A.C.P. se obtiene también como resultado el cı́rculo de
correlaciones, el cual es esencial para una correcta interpretación de los resultados. Ahora
bien, el gráfico del cı́rculo de correlaciones también se puede hacer con MDS considerando
a las correlaciones como medidas de proximidad y haciendo una transformación adecuada,
pero no se tratarı́a del MDS clásico sino de alguno de los métodos que se presentan más
adelante.
6.1.4. Uso del MDS clásico

El MDS clásico da una solución exacta cuando las disimilitudes de entrada son distan-
cias Euclı́deas en un espacio Rp y se quiere hacer la representación en ese mismo espacio.
Ahora bien, difı́cilmente se cumplen las dos condiciones.
Con base en una tabla de disimilitudes, se puede desear aplicar el MDS clásico sin tener
la certeza de que las disimilitudes sean distancias Euclı́deas. En tal caso, B puede tener
rango inferior a p y además puede que no sea semidefinida positiva. Como consecuencia,
la diagonalización de B producirá algunos valores propios negativos.
En la práctica, el MDS clásico es conocido como Análisis en Coordenadas Principales
[81] y se usa para representar a los objetos en un espacio de poca dimensión, por ejemplo
de dimensión q = 2 ó q = 3. De manera análoga al A.C.P., se puede medir la calidad de
la representación por
q
X
λi
i=1
n−1
X
|λi |
i=1
tomándose valor absoluto en los valores propios ya que algunos de ellos pueden ser nega-
tivos, aunque algunos autores sigieren considerar en la suma del denominador únicamente
a los valores propios positivos.
Los valores propios negativos surgen cuando B no es semidefinida positiva. Se sabe
que teóricamente existe una constante c tal que las disimilitudes se pueden transformar
por δij + c si i 6= j dejando δii inalteradas, pero es difı́cil determinar ese valor de c. Para
mayor información sobre este pun to, se puede consultar [51].
6.1.5. Algoritmo de MDS clásico

Con base en lo expuesto anteriormente, se formaliza el algoritmo de Escalamiento
Multidimensional Clásico, también conocido como Análisis en Coordendas Principales.
Algoritmo Escalamiento Multidimensional Clásico

Entrada: Matriz de disimilitudes [δij ]n×n
1. Encontrar A = [− 12 ]δij2
2. Definir B = [bij ] por bij = [aij − ai· − a·j + a·· ]
3. Diagonalizar B obteniendo λ1 , . . . , λn−1 y v1 , . . . , vn−1 (normalizados).
Si algunos λi son negativos entonces ignórelos, úselos con valor absoluto, o sume
c:
δij := δij + c(1 − δijKR ) (donde δijKR denota el delta de Kronecker)
Pp Pn−1
4. Escoja el número p de dimensiones (puede √ usar como criterio λ i / λi )
p
5. Escriba las coordenadas en R : xik = λk vki
6.2. Escalamiento métrico

El escalamiento multidimensional métrico trata de obtener una representación de los n
puntos en un espacio de pocas dimensiones Rp , de manera que las distancias Euclı́deas que
se observen en el espacio de proyección Rp sean lo más parecidas posibles a disimilitudes
que se poseen δij .
6.2.1. El criterio de Stress

Por lo general, para el MDS métrico se usa un criterio de mı́nimos cuadrados, llamado
stress. Ası́, se buscará una configuracón X de los n puntos en Rp , mediante la minimización
del stress:
n Xj−1
X
σ(X) = wij [δij − dij (X)]2
j=1 i=1
donde los wij son pesos asociados a la disimilitud δij (eventualmente, estos pesos pueden
ser útiles para el manejo de datos faltantes) y los dij (X) son las distancias Euclı́deas entre
los puntos i, j en el espacio de representación Rp , cuyas coordenadas están en la matriz
X. Se define el stress normalizado como:
j−1
n X
X
σ(X)/ wij δij2
j=1 i=1
6.2 Escalamiento métrico 103
y el stress explicado como:

Eσ = (1 − σ(X)/ηδ2 ) × 100,
que serı́a un valor a maximizar.
Originalmente, se Kruskal propuso un método basado en el descenso del gradiente,
el cual puede encontrar un óptimo local de σ(X). Por esto último, diversos autores han
estudiado el problema de la óptimización global del stress. Despés de presentar el método
de Kruskal, presentaremos algunos de estos enfoques más modernos que usan técnicas de
optimización más sofisticadas.
6.2.2. Método de Kruskal

El primer método para realizar el MDS métrico y minimizando el stress, fue propuesto
por Kruskal en 1964 y se basa en la técnica de optimización llamada descenso del gradiente.
El algoritmo de Kruskal es iterativo, partiendo de una configuración inicial que puede
ser dada al azar, o bien calculada usando la aproximación que se obtenga con MDS
clásico, o bien usando el conocimiento del experto que quiere analizar los datos. Si X0 es
la configuración inicial, entonces se hacen iteraciones de manera que en la iteración t + 1
se calcular Xt+1 a partir de Xt de la siguiente manera:
Xt+1 = Xt + αt dt ,
donde dt es la dirección del descenso y αt el factor del descenso. Por la teorı́a del descenso
del gradiente, es sabido que la matriz dt tiene por i-ésima fila:
∂σ ∂σ
(dt )i = (− ,...,− )
∂xi1 ∂xip
y αt se toma de manera que se minimice σ(Xt + αt dt ) como función de αt .
Existen muchas variantes al método, pudiéndose usar una técnica de aceleración de
la convergencia, el m”etodo de Newton o el gradiente conjugado. Sin embargo, el método
siempre adolece del problema de que converge a un óptimo local del stress.
Ejemplo
En [107] se cita el siguiente ejemplo. Se dispone de una tabla 12 × 12 de proximidades

entre 12 paı́ses, mostrada en la tabla 6.1. En una escala de 1 a 9, un grupo de 18 estudiantes
debe indicar la proximidad que percibe entre cada pareja de paı́ses siemdo 9 la máxima
similitud. La tabla de datos relfeja los promedios de las similitudes que percibieron esos
18 estudiantes.
Al aplicar el método de Kruskal de MDS métrico, se obtienen las siguientes coordena-
das para los 12 paı́ses:
Bra Con Cub Egi Fra Ind Isr Jap Chi Rus USA Yug
Brasil 0 4.83 5.28 3.44 4.72 4.50 3.83 3.50 2.39 3.06 5.39 3.17
Congo 4.83 0 4.56 5.00 4.00 4.83 3.33 3.39 4.00 3.39 2.39 3.50
Cuba 5.28 4.56 0 5.17 4.11 4.00 3.61 2.94 5.50 5.44 3.17 5.11
Egipto 3.44 5.00 5.17 0 4.78 5.83 4.67 3.83 4.39 4.39 3.33 4.28
Francia 4.72 4.00 4.11 4.78 0 3.44 4.00 4.22 3.67 5.06 5.94 4.72
India 4.50 4.83 4.00 5.83 3.44 0 4.11 4.50 4.11 4.50 4.28 4.00
Israel 3.83 3.33 3.61 4.67 4.00 4.11 0 4.83 3.00 4.17 5.94 4.44
Japón 3.50 3.39 2.94 3.83 4.22 4.50 4.83 0 4.17 4.61 6.06 4.28
China 2.39 4.00 5.50 4.39 3.67 4.11 3 4.17 0 5.72 2.56 5.06
Rusia 3.06 3.39 5.44 4.39 5.06 4.5 4.17 4.61 5.72 0 5.00 6.67
USA 5.39 2.39 3.17 3.33 5.94 4.28 5.94 6.06 2.56 5.00 0 3.56
Yugoslavia 3.17 3.50 5.11 4.28 4.72 4.00 4.44 4.28 5.06 6.67 3.56 0
Cuadro 6.1: Proximidades entre 12 paı́ses.
Bra Con Cub Egi Fra Ind Isr Jap Chi Rus USA Yug
Coord 1 0.15 −1,15 −0,90 −0,60 0.36 −0,33 0.96 1.04 −0,76 0.12 1.14 −0,03
Coord 2 1.22 0.71 −0,29 0.29 0.02 0.64 0.40 −0,39 −0,96 −0,85 0.12 −0,90
El gráfico se muestra en la figura 6.1.

Estos resultados se interpretan de la siguiente forma: hay dos ejes que explican el
comportamiento de la percepción de los estudiantes, ejes que forman una bisectriz con
los ejes de coordenadas. Un primer eje irı́a de la esquina inferior izquierda del plano a
la esquina superior derecha y se interpreta como un eje pro-comunista/pro-occidental. El
otro eje va de la esquina inferior derecha del plano a la esquina superior izquierda y se
interpreta como desarrollo/subdesarrollo.
6.2.3. ALSCAL
Takane, Young y De Leeuw porpusieron en 1977 un método para MDS que se ha
convertido en muy popular, denominado ALSCAL2 , y que trata de minimizar el SStress
definido por: XX
SS = wij (dˆ2ij − d2ij (X))2
i j
, donde dˆ2ij son alguna transformacón monotóna de las disimilitudes de entrada δij2 . Puede
verse que el SStress es el stress de las disimilitudes al cuadrado, una vez transformadas.
ALSCAL tiene dos fases:
2
Mnemónico de Alternating Least Squares SCAling.
Eje 2 Brasil
6 •
Congo
• India
•
Israel
•
Egipto
•
•
Francia U.S.A.
• - Eje 1
Cuba
• Japón
•
Rusia
Yugoslavia •
China •
•
?
Figura 6.1: Representación de la percepción de similitudes entre 12 paı́ses por parte de
un grupo de 18 estudiantes, usando el método de Kruskal para MDS métrico.
1. Fase de escalamiento óptimo: hallar D̂ para X, W fijos por medio de mı́nimos cua-
drados (regresión lineal): dˆ = Z(Zt Z)−1 Zt , donde Z contiene los cuadrados d2ij . La
solución obtenida se normaliza.
2. Fase de estimación: fijando D̂, se encuentran estimadores para W y X.
Para conocer más detalles sobre ALSCAL se puede consultar [51].
6.2.4. MDS y optimización
En vista de que el MDS encuentra óptimos locales de la función de stress, muchos

autores se han abocado a la tarea de tratar de mejorar los resultados que se obtienen
con el método de Kruskal usando técnicas de optimización modernas, que tengan mejores
rendimientos que el descenso del gradiente. Ası́, De Leeuw y otros investigadores de la
escuela holandesa han propuesto el método Smacof, que se basa en el uso de una función
de mayorización. Para un estudio comparativo entre distintos métodos de optimización
combinatoria aplicados a Escalamiento Multidimensional, puede consultarse [83].
6.2.5. Restricciones en la configuración

El Escalamiento Multidimensional con restricciones en la configuración (Multidimen-
sional Scaling with Restrictions on the configuration o MDSR) tiene como objetivo mi-
nimizar el Stress sujeto a restricciones sobre la matriz de configuración. De Leeuw y
Heiser (1980) proponen un algoritmo para calcular el mı́nimo del Stress con restricciones
en la configuración. Nuestro objetivo es mostrar un procedimiento alternativo utilizando
Sobrecalentamiento Simulado, en el caso que las restricciones sean lineales.
Utilizando los datos “Expresiones Faciales” presentadas por Borg & Groenen (1987)
calculamos, con ambos algoritmos, el stress y la configuración correspondiente. Posterior-
mente repetimos los cálculos en un juego de 20 datos obtenidos de modificaciones de los
anteriores. En todos los casos obtuvimos, con ambos algoritmos, el mismo Stress e idénti-
cas configuraciones (salvo rotaciones). Además con los datos sobre “Esfuerzos Bacteriales”
de Mathar (1989) obtuvimos una diferencia del 10 %, a favor del sobrecalentamiento si-
mulado.
El MDSR, en el caso de restricciones lineales tiene como objetivo minimizar la función:

n
X
σ(X) = wij (δij − dij (X))2 con X = Y C (6.1)
i<j
donde Y es una matriz de n × q dada y C es una matriz de tamaño q × p a determinar.

De Leeuw y Heiser (1980), proponen de manera análoga a SMACOF un algoritmo para
calcular el mı́nimo del Stress con restricciones en la configuración. Para ello se expresa el
stress como:
σ(X) = η 2 (δ) + η 2 (X) − 2ρ(X) (6.2)
con X X
η 2 (δ) = wij δij2 η 2 (X) = wij d2ij (X)
i<j i<j
X
ρ(X) = wij δij dij (X).
i<j
Si Z es una matriz de n × p, se define V y B(Z) como:

n
X
Vii = wij y Vij = −wij
j6=i
(
w δ
− dijij(Z)
ij
i 6= j, dij (Z) 6= 0
bij =
0 i= 6 j, dij (Z) = 0
Pn
bii = − j6=i bij
Usando V y B(X) el Stress se expresa como:
σ(X) = η(δ 2 ) + tr(X t V X) − 2tr(X t B(X)X).
Si r(X, Z) = η 2 (δ) + tr(X t V X) − 2tr(X t B(Z)Z) entonces
σ(X) = r(X, X) ≤ r(X, Z) para todo Z.
A partir de esta última desigualdad se deduce el siguiente teorema.
Teorema. Sea Y matriz de tamaño n × q. El mı́nimo sobre X de r(X, Z) con Z fijo

de tamaño n × p, sujeto a la restrición X = Y C con C de tamaño q × p, se alcanza
en X u = Y C u con C u = (Y t V Y )−1 Y t V Z̄, donde Z̄ = V + B(Z)Z es la transformada de
Guttman de Z y V + es la inversa de Moore-Penrose de V.
El teorema permite definir el algoritmo descrito a continuación.
Algoritmo basado en SMACOF para minimizar el Stress

u
con la restricción X = Y C. Sea X0 una configuración inicial y Xm+1 = Xm Cm . Del
teorema se tiene que:
σ(Xm ) = r(Xm , Xm ) ≤ r(Xm , Xm−1 ) ≤ r(Xm−1 , Xm−1 ) = σ(Xm−1 )
luego la sucesión (σ(Xm )) es decreciente y acotada, por lo tanto convergente. Un algoritmo

de cálculo, que denominamos MDSR, basado en el descrito en De Leeuw y Heiser (1980),
se define a continuación.
1. X0 configuración al azar; m = 0
2. X̄m = V + B(Xm )Xm , u
Cm = (Y t V Y )−1 Y t X̄m
u
3. Haga Xm+1 = Y Cm
4. Regrese a (2) hasta que σ(Xm ) − σ(Xm+1 ) < ó m = ni con ni número máximo
de iteraciones.
MDS con restricciones y sobrecalentamiento simulado
Los aspectos fundamentales del método que proponemos son los siguientes:
Sistema de Generación de Estados.
Mallado Como se trata de minimizar la función del Stress sobre la matriz C de tamaño
q×p, realizamos una discretización del espacio Rq , construyendo un mallado formado
por la unión de cuadrados de lado h.
Vecindario Sea B = {±ei |ei vector canónico de Rq }.

Denotemos como C(l, v) la matriz obtenida de C al sustituir la columna l−ésima
de C, que denotamos C l por C l := C l + hv con v ∈ B.
Definimos el vecindario de C como.
V (C) = {C(l, v)|l = 1, . . . , p; v ∈ B}.
Notemos que para cualquier C los vecindarios tienen la misma cardinalidad |V (C)| =
2qp.
Algoritmo de sobrecalentamiento simulado.
1. Se escoge una matriz C al azar, cada entrada con probabilidad uniforme en [0, 1].
Se calcula la temperatura inicial c0 , se elige el largo de la cadena Lc y se inicia el
contador en t = 0. Escoger γ ∈ [0,8, 0,95].
2. Sea t := t + 1 y ct = γct−1 . Repetir Lc veces los pasos (a) y (b).
a) Elegir al azar una columna l de C y una dirección v de B y generar un vecino

C(l, v).
b) Calcular el incremento del Stress: 4S=Stress(C)-Stress(C(l, v)). Aceptar C(l, v)
− 4S
de acuerdo con la regla de Metropolis, esto es con probabilidad igual a min{1, e ct }.
Si es aceptado redefinir C := C(l, v).
3. Si la temperatura ct es menor que el umbral definido parar, en caso contrario regresar

a 2.
Notemos que de acuerdo con el proceso de generación definido tenemos que la proba-
1
bilidad de generar el estado j a partir del estado i es constante e igual a Gi,j = 2qp , por lo
que la reversibilidad Gi,j = Gj,i y la conexidad de dos estados cualesquiera se satisfacen
trivialmente, es decir, las condiciones de convergencia asintótica se satisfacen (Aarts &
Korst (1988)). En adelante nos referiremos a este algoritmo como ssMDSR.
Comparación entre MDSR y ssMDSR
El propósito de esta sección es comparar los algoritmos descritos anteriormente MDSR

y ssMDSR. Para ello utilizaremos los datos decritos por Borg y Groenen (1997) bajo el
nombre de “Expresiones Faciales” y los reportados por Mathar (1989) de “Esfuerzos
Bacteriales”.
La comparación la realizamos calculando con ambos procedimientos el coeficiente de

variación r, el cual se encuentra entre 0 y 1 y es una medida de la calidad de la aproxi-
mación de la matriz de disimilitud por la matriz de distancia obtenida.
Pn 2
σ(X) i<j wij (δij − dij (X))
r =1− 2 =1− P 2
(6.3)
η (δ) i<j wij δij
Datos de expresiones faciales. Con el propósito de analizar si un sujeto puede iden-

tificar correctamente el mensaje emocional que una persona transmite a través de su
expresión facial, Engen et al. (1958) idearon un experimento que se fundamenta en una
teorı́a desarrollada por ellos, la cual afirma que una buena clasificación de las diferentes
expresiones faciales debe considerar las variables AD, ID, TD en los siguientes rangos:
AD: Agradable-Desagradable.
ID: Interesado-Desinteresado.
T D: Tenso-Dormido.
Enge, Levy y Schlosberg usaron cuarenta y ocho fotografı́as de la expresión facial de
una mujer ante trece situaciones diferentes para luego asignarles de manera empı́rica,
usando una escala de nueve puntos, valores en las tres variables definidas anteriormente.
Ası́ se obtuvo la tabla 6.2 de restricciones en la configuración.
Situación AD ID TD
1 Muerte madre 3.8 4.2 4.1
2 Comiendo galleta 5.9 5.4 4.8
3 Sorpresa agradable 8.8 7.8 7.1
4 Amor maternal 7.0 5.9 4.0
5 Cansancio fı́sico 3.3 2.5 3.1
6 Problema en avión 3.5 6.1 6.8
7 Perro bravo 2.1 8.0 8.2
8 Empujando 6.7 4.2 6.6
9 Encuentro inesperado 7.4 6.8 5.9
10 Cambio repentino 2.9 3.0 5.1
11 Dolor extremo 2.2 2.2 6.4
12 El avión cae 1.1 8.6 8.9
13 Sueño ligero 4.1 1.3 1.0
Cuadro 6.2: Matriz de restricciones entre trece expresiones faciales.
Por otra parte Abelson y Sermat (1962) construyeron, usando las mismas fotografı́as,
una matriz de disimilitud. Para ello recurrieron a un grupo de treinta estudiantes que opi-
naron sobre la diferencia entre el grado de alegrı́a que reflejaban las diferentes expresiones
faciales. Teniendo en cuenta estas evaluaciones construyeron la matriz de disimilitud mos-
trada en la tabla 6.3.
1 2 3 4 5 6 7 8 9 10 11 12 13
1 0
2 4.05 0
3 8.25 2.54 0
4 5.57 2.69 2.11 0
5 1.15 2.67 8.98 3.78 0
6 2.97 3.88 9.27 6.05 2.34 0
7 4.34 8.53 11.87 9.78 7.12 1.36 0
8 4.90 1.31 2.56 4.21 5.90 5.18 8.47 0
9 6.25 1.88 0.74 0.45 4.77 5.45 10.20 2.63 0
10 1.55 4.84 9.25 4.92 2.22 4.17 5.44 5.45 7.10 0
11 1.68 5.81 7.92 5.42 4.34 4.72 4.31 3.79 6.58 1.98 0
12 6.57 7.43 8.30 8.93 8.16 4.66 1.57 6.49 9.77 4.93 4.83 0
13 3.93 4.51 8.47 3.48 1.60 4.89 9.18 6.05 6.55 4.12 3.51 12.65 0
Cuadro 6.3: Matriz de disimilitudes entre trece expresiones faciales.
Obtención de una configuración plana vı́a MDSR y SS. Para realizar un estudio
de las Expresiones Faciales disponemos de una matriz de disimilitudes δ y de una tabla Y
de expresiones faciales por variables, obtenidas de manera independiente una de otra. Sin
embargo es natural plantearse que exista una relación entre ellas, cuestión que podemos
verificar al asumir que es posible construir una configuración X de 13 puntos en el plano,
de modo que las dos variables que la determinan sean combinaciones lineales de las tres
variables definidas anteriormente y que además la matriz de distancias euclı́deas d(X)
aproxime la matriz de disimilitud.
Estamos entonces ante un problema de Escalamiento Multidimensional con restric-
ciones lineales en la configuración que resolveremos con los dos algoritmos que hemos
definido.
En este caso, δ es la matriz de disimilitud de tamaño 13 × 13 de la tabla 6.3, Y es la
matriz de 13 × 3 de la tabla 6.2 que tiene los valores que las expresiones faciales asumen
en las tres variables empı́ricas definidas y necesitamos encontrar una matriz C de tamaño
3 × 2 que minimice la función de stress (6.1):
Estimamos la matriz C con los algoritmos MDSR y ssMDSR, ambos programados en
Mathematica 3.0.
La matriz C, el valor del Stress y el gráfico de la configuración obtenida con ambos
algoritmos se reportan en seguida. Adem’as se incluyen los resultados obtenidos por por
Borg y Groenen (1997) para los mismos datos.
En el caso de ssMDSR se utilizaron los siguientes parámetros: largo de la cadena
Lc = 800, γ = 0,85, temperatura inicial c0 = 285 (estimada según se propone en Aarts &
Kors (1988)), paso del mallado h = 0,05.
El coeficiente de variación r con ambos algoritmos fue de 0,955. En la tabla 6.4 se
MDSR ssMDSR Borg & Groenen

Peso de AD 0.815 1.111 -0.481 1.329 2.19 0.31
Peso de ID 0.289 -0.287 0.474 0.086 -0.35 0.137
Peso de TD 0.453 -0.549 0.541 -0.017 -0.24 0.53
Cuadro 6.4: Matrices C obtenidas por los métodos MDSR y ssMDSR y la reportada por
Borg & Groenen (1997).
indican las matrices C y en la figura 6.2 las configuraciones correspondientes a MDSR,

ssMDSR y la reportada por Borg & Groenen (1997).
MDSR ssMDSR Borg & Groenen
4 9 13
13
2 8 4 5
5 2 8 9 3 8 4
1 11 10 1 2
13 9
10 3
1
5 11
6 6 6
10
7
11 7 7
12
12 12
Figura 6.2: Configuraciones de las trece expresiones faciales obtenidas con los métodos
MDSR, ssMDSR y la reportada por Borg & Groenen (1997).
Podemos observar que las configuraciones en los tres casos son iguales, salvo rotación.
Por otra parte las variables sugeridas por Engen, Levy y Scholosberg nos dan una configu-
ración análoga a las anteriores como podemos observar en el plano principal del Análisis
en Componentes Principales realizado sobre la matriz Y (ver la figura 6.3), lo que indica,
en alguna medida, que las tres variables definidas explican adecuadamente las expresiones
faciales.
Datos de esfuerzos bacteriales. Estos datos fueron reportados por Mathar (1989) y
correponde a experimentos realizados en 1986 entre 17 individuos. La matriz de disimilitud
tiene la particularidad que que al realizar un MDS sin restricciones se han encontrado
alrededor de 1000 mı́nimos locales.
En este caso usamos una matriz Y de tamaño 17 × 3 (ver tabla 6.5), elegida de modo
que produjera varios mı́nimos locales. Realizamos 50 corridas de cada algoritmo, en el
caso del MDSR hicimos, por cada corrida, 10 tirajes al azar de la configuación inicial y
elegimos el mejor r. Para ssMDSR se hizo solo un tiraje al azar por cada corrida, pues
en este caso hay una menor dependencia de la configuración inicial y un mayor tiempo de
ejecución. La tabla de disimilitudes se presenta en la tabla 6.6.
Escala externap11 % Inercia 93.97
AD
3
4 9
2 8
ID
13
1
5 6 TD
10
7
11
12
Figura 6.3: Plano principal y cı́rculo de correlaciones del Análisis en Componentes Prin-
cipales de la matriz Y .
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
1 2.8 7.1 6.4 6.4 4.0 8.5 4.6 6.4 6.4 8.4 8.1 4.5 7.2 3.4 6.0 8.7 5.8
2 4.9 4.9 8.4 2.5 7.5 7.2 2.5 2.0 2.4 2.5 8.4 6.6 5.0 8.3 1.5 4.9 7.4
3 5.5 2.2 1.9 7.5 7.2 7.9 6.9 6.4 5.2 1.1 1.4 2.1 8.5 6.0 2.7 3.7 8.6
Cuadro 6.5: Matriz de restricciones transpuesta (Y t ) para los datos de esfuerzos bacteria-
les.
El mejor r obtenido en ambos algoritmos fue r = 0,777712, pero con MDSR en un

80 % de las veces contra un 90 % del ssMDSR. Los otros valores de r obtenidos en el caso
del MDSR, con un 5 % de las veces fueron: 0,777702, 0,777691, 0, 777559, 0,776885 y para
el ssMDSR el otro 10 % fue para r = 0,777703.
Conclusiones
En los ejemplos mostrados se observa una vez más la tendencia reportada por otros
autores cuando comparan los algoritmos clásicos con los obtenidos con sobrecalentamien-
to simulado, esto es que este último obtiene mejores resultados en los casos en que se
presentan varios mı́nimos locales. Tiene la desventaja de que su tiempo de ejecución es
un poco más del doble que el MDSR.
Referencias
1. Aarst, E.; Korst, J. (1988) Simulated Annealing and Boltzman Machines: a Stochas-
tic Approach to Combinatorial Optimization and Neural Computing. John Wiley &
Sons, Chichester.
2. Abelson, R. P.; Sermat, V. (1962) “Multidimensional scaling of facial expressions”

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
1 0 35 28 29 31 42 49 70 60 100 75 48 77 60 36 88 93
2 35 0 17 42 34 49 55 77 54 89 98 98 78 43 23 86 100
3 28 17 0 32 38 59 32 96 62 95 93 85 91 38 44 80 79
4 29 42 32 0 32 36 100 66 55 93 81 73 98 54 47 78 56
5 31 34 38 32 0 50 57 86 86 100 100 74 86 34 45 94 80
6 42 49 59 36 50 0 33 100 69 100 79 90 88 51 55 92 97
7 49 55 32 100 57 33 0 85 89 57 71 85 100 63 57 93 100
8 70 77 96 66 86 100 85 0 81 89 77 87 58 80 73 88 90
9 60 54 62 55 86 69 89 81 0 92 79 73 82 73 86 88 100
10 100 89 95 93 100 100 57 89 92 0 100 85 89 52 42 96 57
11 75 98 93 81 100 79 71 77 79 100 0 100 100 100 85 62 80
12 48 98 85 73 74 90 85 87 73 85 100 0 87 63 81 67 71
13 77 78 91 98 86 88 100 58 82 89 100 87 0 79 92 84 66
14 60 43 38 54 34 51 63 80 73 52 100 63 79 0 4 69 76
15 36 23 44 47 45 55 57 73 86 42 85 81 92 4 0 81 57
16 88 86 80 78 94 92 93 88 88 96 62 67 84 69 81 0 79
17 93 100 79 56 80 97 100 90 100 57 80 71 66 76 57 79 0
Cuadro 6.6: Matriz de disimilitudes para los datos de esfuerzos bacteriales.
Journal of Experimental Psychology, 63: 546–554.
3. Borg, I.; Groenen, P.J.F. (1997) Modern Multidimensional Scaling. Springer, New
York.
4. De Leeuw, J.; Heiser, W. (1980) “Multidimensional scaling with restrictions on

the configuration”. En: P.R. Krishnaiah (Ed.) Multivariate Analysis. North-Holland
Publishing Company, Amsterdam: 501–522.
5. Engen, T.; Levy, N.; Schlosberg, H. (1958) “The dimensional analysis of a new series
of facial expressions”, Journal of Experimental Psychology, 55: 454–458.
6. Mathar, R. (1989) “Algorithms en multidimensional scaling”. In: O. Optiz (Ed),

Conceptual and Numerical Analysis of Data, Springer, Heidelberg: 159–177.
7. Kirkpatrick, S.; Gellat C.D.; Vecchi, M.P. (1983) “ Optimization by simulated an-
neling”, Science, 220: 671–680.
8. Trejos, J.; Villalobos, M. (1998) “Análisis de proximidades usando sobrecalentamien-

to simulado”. In: Castillo, W.; Trejos, J. (Eds.), Estudios de Análisis de Datos y
Estadı́stica, Universidad de Costa Rica–Instituto Tecnológico de Costa Rica: 41-52.
9. Villalobos, M. (1998) Optimización Estocástica para el Análisis de Proximidades.

Tesis de Maestrı́a, Universidad de Costa Rica.
6.3. Escalamiento no métrico

En MDS no métrico, se dispone también de una tabla de disimilitudes δij como entrada
y se busca una representación en un espacio de pocas dimensiones, pero ahora no interesan
los valores mismos de las δij sino solamente el orden de ellas. Kruskal [107] en 1964 propuso
también un método para resolver este problema, usando un enfoque llamado de regresión
isotónica.
A partir de una configuración inicial, narmalizada y centrada, se encuentran valores
de las distancias Eucl1́deas dij en el espacio Rp de representación. Como estas distancias
dij puede que no conserven el mismo orden en las parejas (i, j) que el orden que tienen las
disimilitudes dadas δij , entonces se hace una regresión de las dij sobre las δij , obteniéndose
una estimación dˆij , lo que consiste en re-etiquetar las distancias de manera que se conserve
el orden deseado. Se reitera el procedimiento hasta que haya estabilidad.
Ejemplo: cereales para el desayuno

En [51] se ilustra el MDS no métrico con el siguiente ejemplo. Se dispone de una tabla
de 23 cereales para el desayuno de la firma Kellog’s (ver tabla 6.7), para los cuales se
han medido variables como: tipo (frı́o, caliente), número de calorı́as, proteina (gr.), grasa
(gr.), sodio (mg.), fibra dietética (gr.), carbohidratos complejos (gr.), azúcar (gr.), potasio
(mg.), vitaminas y minerales (0, 25, ó 100 indicando no adicionados, enriquecidos hasta
un 25 % de la dosis diaria recomendada y hasta un 100 % de esa dosis).
Cereal Cereal
All Bran AllB Just Right Fruit and Nut JRFN
All Bran with extra fibre AllF Meusliz Crispy Blend MuCB
Apple Jacks AppJ Nut and Honey Crunch Nut&
Cornflakes CorF Nutri Grain Almond Raisin NGAR
Corn Pops CorP Nutri Grain Wheat NutW
Cracklin Oat Brain Crac Product 19 Prod
Crispix Cris Raisin Bran RaBr
Froot Loops Froo Raisin Squares Rais
Frosted Flakes FroF Rice Crispies RiKr
Frosted Mini Wheats FrMW Smacks Smac
Fruitful Bran FruB Special K Spec
Just Right Crunch Nuggets JRCN
Cuadro 6.7: Lista de cereales analizados con MDS no métrico.
Se estandarizaron las variables para que tengan media 0 y varianza 1, y se calcularon

las distancias Eucl1́deas entre los cereales. Luego se realizó un MDS no métrico, cuyos
resultados se presentan en la tabla 6.8. En la figura 6.9 se muestran los puntos etiquetados
6.4 El caso de tablas múltiples 115
con su contenido en fibra. Se puede apreciar una tendencia a desplegar los cereales con
alto contenido en fibra en la parte superior izquierda, mientras que los que tienen muy
poco contenido en fibra están en la parte inferior derecha.
Cuadro 6.8: Resultados del MDS no métrico sobre la tabla de cereales: configuración de
puntos en el plano.
6.4. El caso de tablas múltiples

El escalalmiento multidimensional se puede extender al caso en que se tengan va-
rias matrices de disimilitudes sobre los mismos objetos. Ası́, se tendrı́an m matrices
∆1 , ∆2 , . . . , ∆m de dimensión n × n de disimilitudes. Cada matriz puede provenir de una
situación diferente o bien ser medida en un instante distinto. Por ejemplo, puede tratarse
de la medida de similitud dada por m jueces sobre n objetos diferentes.
Existen varios métodos para abordar este problema. El más conocido es conocido
como INDSCAL y parte del mismo principio que el MDS clásico, al recurrir a la forma de
Torgerson mediante productos escalares. Otro método también popular es Idioscal, que
constituye una variante de INDSCAL.
Dadas m matrices B1 , B2 , . . . , Bm de productos escalares aproximados, el modelo
INDSCAL propuesto por Carrol y Chang en 1970, estima una matriz X de dimensión
n × p y m matrices diagonales W1 , W2 , . . . , Wm de pesos no negativos, tales que minimi-
cen la función: m
X
f (X, W1 , . . . , Wm ) = kBk − XWk Xt k2
k=1
Cuadro 6.9: Resultados del MDS no métrico sobre la tabla de cereales: contenido de fibra
de cada cereal.
En la literatura se han propuesto varios procedimientos para minimizar esta función.

Carrol y Chang (1970) propusieron el algoritmo CANDECOMP, que consiste en minimizar
la función:
m
X
f (X, Y, W1 , . . . , Wm ) = kBk − XWk Yt k2
k=1
utilizando mı́nimos cuadrados alternantes. Este procedimiento tiene tres desventajas: no se

garantiza la obtención del mı́nimo global, puede dar pesos negativos y puede no existir una
matriz diagonal D tal que X = YD (problema conocido como el problema de simetrı́a),
condición necesaria para que la matriz X minimizante de g lo sea también de f . Para
subsanar las últimas dos dificultades Ten Berge et. al. (1993) propusieron un algoritmo
llamado SYMPRES. En [40] se propone un nuevo método que llamado ssINDS el cual
resuelve el problema de la simetrı́a y de la no negatividad de los pesos. Además el algoritmo
correspondiente converge hacia el óptimo global con probabilidad igual a 1. El método se
basa en la técnica de sobrecalentamiento simulado y fue implementado con Mathematica
3.0, a fin de poder hacer comparaciones. Esta técnica se usa para optimizar la función
objetivo en problemas combinatorios, sobre dominios de cardinal finito (ver Aarst & Korst
(1990)). Por lo tanto, para poder ser aplicado a nuestro problema fue necesario discretizar
el plano siguiendo la idea propuesta por Trejos & Villalobos (1998) y Villalobos (1998)
en escalamiento multidimensional métrico.
Tomando como referencia los resultados reportados por Ten Berge et. al. (1993), nues-
tro método superó los porcentajes de ajuste obtenidos con el algoritmo SYMPRES de Ten
Berge et. al. (1993) y el CANDECOMP. Para ello realizamos la siguiente experimentación
6.4 El caso de tablas múltiples 117
computacional.
Denotamos un grupo de m matrices de tamaño n × n como n × n × m. Los resultados
con ssINDS se obtuvieron al considerar 20 grupos de tres matrices 3 × 3 × 3 y 20 grupos
de matrices 6 × 6 × 9. Cada matriz Bk fue construida generando primero una matriz A con
entradas tomadas al azar con distribución uniforme en [−1, 1], luego se define Bk = AAt
verificando posteriormente que ésta sea definida positiva. Este es el mismo procedimiento
seguido por Ten Berge et al. (1993).
La calidad de ajuste se mide como un porcentaje de la suma de los cuadrados de los
datos. Es decir,
2
P P
k i≤j (Bkij − Xi Wk Xj )
porc = 1 − P P 2
k i≤j (Bkij )
De manera similar a como lo reporta Ten Berge et al. (1993), el programa ssINDS se
ejecutó 10 veces para cada grupo de matrices y se escogió la mejor solución de acuerdo
con el mayor valor de porc obtenido. Luego se hizo el promedio sobre los 20 grupos de
matrices. Estos porcentajes de ajuste promedio se reportan en el siguiente cuadro. Tam-
bién se incluyen los resultados de Ten Berge et al. (1993) para los algoritmos SYMPRES
y CANDECOMP, aplicados a 100 grupos de matrices de 3 × 3 × 3 y 6 × 6 × 9.
Orden de la matriz ssINDS SYMPRES CANDECOMP

3×3×3 90.73 % 87.02 % 87.02 %
6×6×9 49.27 % 43.23 % 43.23 %
Cuadro 6.10: Resultados comparativos para ssINDS, SYMPRES y CANDECOMP.
Referencias
1. Aarst, E.; Korst, J. (1990) Simulated Annealing and Boltzman Machines: a Stochas-
tic Approach to Combinatorial Optimization and Neural Computing. John Wiley &
Sons, Chichester.
2. Carroll, J.D.; Chang, J.J. (1970) “Analysis of individual differences in multidimen-

sional scaling via an n-way generalization of Eckart-Young descomposition”, Psy-
chometrika 35: 283–319.
3. Ten Berge, J.M.F.; Bekker, P.A.; Kiers, H.A.L. (1994) “Some clarifications of the
Tuckals2 algorithm applied to the IDIOSCAL problem”, Psychometrika 59: 193–201.
4. Ten Berge, J.M.F.; Kiers, H.A.L.; Krijnen, W.P.(1993) “Computational solutions

for the problem of negative saliences and nonsymmetry in INDSCAL”, Journal of
Classification 10: 115-124.
5. Trejos, J.; Villalobos, M. (1998) “Análisis de proximidades usando sobrecalenta-

miento simulado”, W. Castillo & J. Trejos (Eds.) Estudios de Análisis de Datos y
Estadı́stica, Universidad de Costa Rica- Instituto Tecnológico de Costa Rica.
6. Villalobos, M. (1998) Optimización Estocástica para el Análisis de Proximidades.

Tesis de Maestrı́a, Universidad de Costa Rica, San José.
6.5. Análisis de preferencias

El análisis de preferencias3 trata de estudiar tablas de datos en las que se muestran
las preferencias, en orden, que tiene un grupo de sujetos (comúnmente llamados jueces)
respecto a un conjunto de ı́tems.
Ası́, una tabla de preferencias tiene el siguiente aspecto:
A B C D E
Juez 1 2 3 1 5 4
Juez 2 1 2 3 5 4
Juez 3 1 4 5 4 3
.. .. .. .. .. ..
. . . . . .
Puede verse entonces que se trata de datos de proximidad entre dos modos: el modo de
los ı́tems y el modo de los jueces. Sea X la matriz de datos de preferencia, con los jueces
en fila y los ı́tems en columna. Si colocamos estos datos en una gran matriz cuadrada con
jueces e ı́tems, que contenga cuatro bloques: los dos bloques diagonales que cruzan jueces
con jueces por una parte, e ı́tems con ı́tems por otra parte, contienen ceros y se consideran
datos faltantes; y los dos bloques extra-diagonales que contienen X y Xt , que cruzan jueces
con ı́tems. Obsérvese que la nueva tabla contiene las mismas filas y columnas.
Entonces se puede realizar un MDS métrico sobre esta nueva tabla, tomando pesos
cero en los bloques diagonales, minimizando el stress.
6.5.1. Ejemplo sobre desayunos
A un conjunto de 42 personas se le preguntó qué preferı́an para desayunar, en una

lista de 15 posibilidades basadas en harinas y panes, y los debı́an colocar en orden de
preferencia, siendo 1 el preferido. La tabla tiene el aspecto mostrado a continuación:
3
En inglés se usa a veces el término unfolding.
6.5 Análisis de preferencias 119
A b C D E F G H I J K L M N O
1 13 12 7 3 5 4 8 11 10 15 2 1 6 9 14
2 15 11 6 3 10 5 14 8 9 12 7 1 4 2 13
3 15 10 12 14 3 2 9 8 7 11 1 6 4 5 13
4 6 14 11 3 7 8 12 10 9 15 4 1 2 5 13
..
.
42 13 3 1 14 4 10 6 15 6 2 11 7 12 8 9
Las posibilidades desayunos que se le presentan a las personas son:
A: tostada H: tostada con mermelada

B: tostada con mantequilla I: tostada con mantequilla y jalea
C: muffin inglés con margarina J: tostada con margarina
D: dona con jalea K: bollo de canela
E: tostada con canela L: pastelillo danés
F: muffin de mora y margarina M: dona con azúcar
G: “hard rolls” con mantequilla N: pastel de café
O: muffin de maı́z con mantequilla
Los resultados del análisis de preferencias se muestras en la figura 6.4. Puede apreciarse
que el individuo 4 juega un rol central, con preferencia a los desayunos L, K, M y D. Los
jueces se despliegan prácticamente en una lı́nea, desde el 4 hasta el 11.
Figura 6.4: Resultado del análisis de preferencias de desayunos.

6.5.2. Ejemplo sobre pintura

A un conjunto de 300 escolares, se les presentan 6 fotografı́as, 4 de ellas son cuadros de
flores de pintores famosos (Rousseau, Klee, Dufy, Van Gogh), una es de un pintor chino
anónimo y la última es un cromo. Los estudiantes deben calificar de 1 a 6 las fotos según
su preferencia, siendo 1 la preferida. La tabla de preferencias tiene el siguiente aspecto:
Cromo Chino Klee Van Gogh Dufy Rousseau

Durand 6 2 3 1 4 5
Meunier 6 1 3 2 4 5
Dupont 4 2 1 3 6 5
Lemoine 3 6 2 1 5 4
Dureau 4 5 2 1 6 3
Junot 5 1 3 2 4 6
Balbac 2 1 5 6 4 3
Martin 1 2 4 5 3 6
Leroy 6 5 1 2 3 4
..
.
Los resultados se muestran en la figura 6.5, donde solo ponemos explı́citamente a los
pintores, y un punto para cada uno de los 300 jueces.
Figura 6.5: Resultado del análisis de preferencias de 6 pinturas.

El Método Statis4 es una metodologı́a estadı́stica utilizada para hacer el análisis des-
criptivo de varias tablas de datos. Este método fue concebido y desarrollado para el análisis
de tablas de datos del tipo individuos × variables cuantitativas, observadas durante un
perı́odo determinado o en condiciones distintas. En general suponemos que se tienen K
matrices:
X1 , X2 , . . . , XK
donde la matriz k-ésima Xk es de dimensiones n × pk . Xk contiene las observaciones de
pk variables sobre n individuos. Entre los objetivos de Statis, destacan:
Comparar las K tablas de datos,
describir la estructura común a las diferentes tablas, y
conocer las diferencias entre las tablas.
Para ello, el método Statis consta de tres fases importantes, a saber: la Intraestructura,
el Compromiso y la Interestructura.
6.5.3. La Interestructura
Su objetivo es comparar globalmente la estructura de las diferentes tablas de datos,
lo cual se realiza a través del estudio de las matrices Wi = Xi Xti de productos escalares
entre individuos. Para obtener una descripción de estas K matrices usamos la métrica
definida por el producto interno:
hWi , Wj iHS = traza(Wi Wj )
Una representación plana de la nube {W1 , . . . , WK } se obtiene diagonalizando la

matriz S definida como Sij = hWi , Wj iHS y se proyectan los Wi , HS-ortogonalmente
sobre los ejes determinados por los vectores propios de S. Esto es equivalente a realizar un
ACP sobre el triple (X, Ir , n12 I), donde X es la matriz cuyas columnas son los operadores
2
Wi escritos como vectores de Rn . Ası́, la representación bidimensional de los operadores
es la representación de las variables de este ACP, en el cı́rculo de correlaciones.
6.5.4. El Compromiso
En análisis de tablas múltiples, los inidviduos y las variables de tablas distintas, per-
tenecen a espacios de dimensión diferente. Esta circunstancia obliga a determinar un
operador promedio llamado compromiso. Los ejes determinados por los vectores propios
4
Statis proviene del francés Structuration de Tableaux À Trois Indices de la Statistique, que se puede
traducir como Estructuración de Tablas con Tres Índices de la Estadı́stica.
de este operador constituyen un sistema ortonormado en el cual se pueden representar

todos los individuos y todas las variables. Existen varias definiciones del compromiso, una
de las cuales es la de H. L’Hermier des PPlantes que consiste en elegir como compromiso la
primera componente principal W = αi Wi del ACP anterior. Esta definición es posible
gracias a que todas las entradas de la matriz S son positivas de modo que, por el Teorema
de Frobenius ([2]), α1 , . . . , αK pueden elegirse positivos.
6.5.5. La Intraestructura
El objetivo de esta fase es buscar las causas de la diferenciación observada a partir de

la interestructura. El procedimiento consiste en proyectar las variables y los individuos
sobre sus respectivos
P ejes del compromiso. Para lo cual se debe considerar la matriz de
tamaño (n × pi ),
√ √
X = ( α1 X1 , . . . , αK XK ).
El compromiso es precisamente
P XXt . El ACP del triplete (X, I, Dw ) nos da una repre-
sentación simultánea de las pi variables en la base Dw −ortonormal de las componentes
principales, donde Dw es la métrica de pesos.
Para representar los individuos usamos la técnica de elemento suplementario. Ası́ el
i-ésimo individuo del k-ésimo año es la fila i-ésima de la matriz Wk Dw C, donde C es la
matriz de las componentes principales normalizadas.
6.5.6. Aplicación: Análisis de la Evolución de la Opinión Pública
En [?] se utiliza el método Statis para analizar la evolución de la Opinión Pública de

los Costarricenses mayores de 18 años. Para tal efecto se usaron las encuestas anuales de
opinión realizadas en el perı́odo 1988-1991, especı́ficamente en aquellas preguntas que se
repitieron en los cuatro años [146].
El análisis de los fenómenos sociales o de otra naturaleza, puede ser abordado desde
el ángulo de su evolución o de una manera estática. Ası́ nuestro enfoque en relación con
el fenómeno de la opinión es descubrir sus tendencias evolutivas e intentar explicarlas.
Técnicamente este tipo de estudios se denomina análisis de tablas múltiples y existen
varios métodos para su implementación; los cuales marcan su principal diferencia en la
forma como se elige el operador compromiso. En el presente caso se ha utilizado el método
STATIS (Estadı́stica de tres ı́ndices), del cual se ofrece enseguida una breve descripción,
enmarcada en las condiciones del caso que nos ocupa. (Una presentación más amplia se
encuentra en [36], [72], [48], [110], [76], [123]).
Los datos
Los datos de base de esta investigación corresponden a las encuestas de opinión de los
años 1988, 1989,1990 y 1991 realizadas por el proyecto de investigación Estructuras de
la Opinión Pública. Estas encuestas son anuales sobre una muestra de 1000 individuos,
mayores de 18 años, preservando cuotas por sexo, edad y professión. Los entrevistados
se pronuncian sobre unas 100 afirmaciones relativas a los principales conflictos sociales
ventilados por la prensa local [146].
Un ejemplo de tales afirmaciones es:
La democracia es el sufragio
Los entrevistados deben responder una de las siguientes alternativas:
En total desacuerdo
Bastante en desacuerdo
Podrı́a estar de acuerdo
Bastante de acuerdo
Totalmente de acuerdo
No responde
Estas respuestas se codifican en una escala de 1 a 6, respectivamente.
Selección de las variables
Nos limitaremos a hacer un análisis evolutivo de la opinión, teniendo en cuenta úni-

camente aquellas preguntas que se repiten en todas las encuestas.
Ası́ entonces, decidimos escoger las siguientes variables que son las que permanecieron
en el periodo 88-91:
El Seguro social debe privatizarse (SP).
Se debe propiciar la libre elección médica (LM).
La democracia es el sufragio (DS).
Se debe defender la banca nacionalizada (BN).
Se debe confiar en la justicia (CJ).

Se debe aumentar el presupuesto en seguridad (PS).
Ya no nos sentimos seguros (IS).
Los enfermos de sida deben aislarse (SD).
Construcción de la tabla de datos
Para analizar la evolución de la opinión hemos considerado la opinión promedio de los

grupos sociales determinados por las siguientes variables:
Provincia: San José (Sjos), Alajuela (Ala), Cartago (Car), Guanacaste (Gua), Pun-
tarenas (Aren), Limón (Lim) y Heredia (Her).
Edad, codificada en las siguientes clases: de 18 a 25 (A18), de 25 a 35 (A25), de 35

a 45 (A35), de 45 a 55 (A45) y más de 55 (A55).
Sexo: Hombres (H) y Mujeres (M).
Escolaridad: Ninguna (N), Primaria (P), Secundaria (S), Técnica (T), Universitaria
incompleta (UI) y Universitaria completa (UC).
Profesión: Agricultor (Bag), Patrón o empleado de comercio (Bec), Profesión libe-

ral (Bpl), Empleado (Bem), Profesión intermedia (Bpi), maestro-profesor (Bmp),
pensionado (Bpen), Ama de casa (Bac) y Desempleado (Bdes)
Partido polı́tico: Partido Liberación Nacional (PLN), Partido Unidad Social Cris-
tiana (PUSC), Izquierda (Izq), Otros partidos (Potr) y Ningún partido (Pnin).
Ingreso Familiar: Ingresos Bajos (IB), Ingresos Medios (IM) e Ingresos Altos (IA).
La tabla de datos se construye usando los centros de gravedad como filas (individuos),
para obtener ası́ una matriz de tamaño 42 × 8 por cada año.
Resultados preliminares
A continuación se presentan los histogramas de las respuestas promedio a las pregun-

tas: Se debe confiar en la justicia (CJ), Se debe aumentar el presupuesto en seguridad
(PS), Ya no nos sentimos seguros (IS), Los enfermos de sida deben aislarse (SD), dadas
por los grupos sociales ordenados según grupos de edad, nivel educativo, nivel de ingreso
y filiación polı́tica.
Histogramas de las respuestas promedio a las preguntas: Se debe confiar

en la justicia (CJ), Se debe aumentar el presupuesto en seguridad (PS), Ya no
nos sentimos seguros (IS), Los enfermos de sida deben aislarse (SD), dadas por
los grupos sociales ordenados según: Grupos de edad, nivel educativo, nivel
de ingreso y filiación polı́tica
CG CJ PS IS SD
A18 3.153 3.676 3.610 3.554
A18 2.679 3.879 3.555 3.386
A18 2.504 3.879 3.613 2.603
A18 2.510 3.977 3.875 2.449
A54 3.292 3.746 4.031 3.950

A54 3.000 3.977 4.034 4.022
A54 3.125 4.121 4.136 3.547
A54 2.734 4.037 4.232 3.419
EN 3.200 3.242 3.769 3.969

EN 3.167 3.902 4.220 4.063
EN 3.245 3.739 3.918 3.438
EN 2.816 3.816 3.974 3.263
EP 3.265 3.729 3.800 3.876

EP 2.807 3.949 3.800 3.881
EP 2.812 4.067 3.935 3.431
EP 2.531 3.960 3.906 3.162
EUC 3.319 3.602 3.836 3.381

EUC 2.837 3.724 3.871 3.035
EUC 2.663 3.971 4.049 2.481
EUC 2.532 4.063 4.351 2.425
EUI 3.266 3.699 3.788 3.475

EUI 2.698 3.860 3.569 2.965
EUI 2.538 3.938 3.793 2.406
EUI 2.527 4.086 4.122 2.242
IA 3.191 3.736 3.866 3.614

IA 2.750 3.841 3.708 3.402
IA 2.648 4.070 3.885 2.666
IA 2.548 4.111 4.141 2.582
IB 3.199 3.649 3.749 3.701

IB 2.786 3.943 3.887 3.708
IB 2.617 3.902 3.789 3.336
IB 2.591 3.834 4.036 3.109
IM 3.258 3.806 3.925 3.761

IM 2.733 3.959 3.802 3.498
IM 2.696 4.008 3.940 2.945
IM 2.411 3.958 3.958 2.783
PIZ 2.857 3.714 3.857 3.429

PIZ 2.278 2.500 3.647 2.722
PIZ 2.000 3.350 3.850 2.450
PIZ 2.550 3.550 4.250 1.550
PLN 3.317 3.810 3.767 3.568

PLN 2.860 3.954 3.722 3.493
PLN 2.694 4.026 3.878 2.753
PLN 2.542 4.007 4.046 2.767
PNIN 3.141 3.662 3.905 3.733

PNIN 2.582 3.917 3.869 3.276
PNIN 2.467 3.914 3.913 2.919
PNIN 2.305 4.000 4.088 2.660
POT 3.000 3.000 4.000 2.500

POT 3.091 3.417 3.500 3.500
POT 2.273 3.727 3.727 2.727
POT 2.400 4.200 5.000 3.400
PUSC 3.236 3.888 3.977 3.802

PUSC 2.744 3.921 3.830 3.640
PUSC 2.715 4.081 3.888 3.082
PUSC 2.620 4.114 4.066 2.740
A continuación se presentan las correlaciones entre las variables, para cada año, ası́ co-
mo entre las del año 1989 y el resto.
Correlaciones entre las variables del año 1989
SP1 LM1 DS1 BN1 CJ1 PS1 IS1 SD1

SP1 1 .00 0.01 0.27 -0.26 0.11 -0.18 0.29 0.47
LM1 0.01 1.00 -0.01 0.31 0.27 0.27 0.51 -0.32
DS1 0.27 -0.01 1.00 0.07 -0.03 0.29 0.15 0.45
BN1 -0.26 0.31 0.07 1.00 0.43 0.40 0.01 -0.11
CJ1 0.11 0.27 -0.03 0.43 1.00 -0.08 0.03 -0.27
PS1 -0.18 0.27 0.29 0.40 -0.08 1.00 0.06 0.06
IS1 0.29 0.51 0.15 0.01 0.03 0.06 1.00 -0.03
SD1 0.47 -0.32 0.45 -0.11 -0.27 0.06 -0.03 1.00

SP2 1.00 0.13 0.41 0.47 0.31 0.48 0.19 0.71
LM2 0.13 1.00 0.55 0.61 0.32 0.07 0.76 0.33
DS2 0.41 0.55 1.00 0.54 0.24 0.35 0.38 0.76
BN2 0.47 0.61 0.54 1.00 0.45 0.48 0.60 0.66
CJ2 0.31 0.32 0.24 0.45 1.00 0.36 0.45 0.34
PS2 0.48 0.07 0.35 0.48 0.36 1.00 0.17 0.50
IS2 0.19 0.76 0.38 0.60 0.45 0.17 1.00 0.26
SD2 0.71 0.33 0.76 0.66 0.34 0.50 0.26 1.00

SP3 1.00 0.25 0.53 0.36 0.71 -0.18 0.43 0.65
LM3 0.25 1.00 0.22 0.41 0.55 0.45 0.34 0.26
DS3 0.53 0.22 1.00 0.45 0.52 0.05 0.05 0.81
BN3 0.36 0.41 0.45 1.00 0.57 0.25 0.30 0.57
CJ3 0.71 0.55 0.52 0.57 1.00 0.01 0.37 0.77
PS3 -0.18 0.45 0.05 0.25 0.01 1.00 0.35 0.09
IS3 0.43 0.34 0.05 0.30 0.37 0.35 1.00 0.31
SD3 0.65 0.26 0.81 0.57 0.77 0.09 0.31 1.00


SP4 1.00 0.13 0.07 -0.34 -0.25 -0.36 0.08 0.29
LM4 0.13 1.00 0.12 0.41 -0.08 0.04 0.46 0.32
DS4 0.07 0.12 1.00 0.35 0.20 -0.27 -0.22 0.53
BN4 -0.34 0.41 0.35 1.00 0.22 -0.06 -0.16 0.21
CJ4 -0.25 -0.08 0.20 0.22 1.00 0.21 -0.31 0.18
PS4 -0.36 0.04 -0.27 -0.06 0.21 1.00 0.40 -0.48
IS4 0.08 0.46 -0.22 -0.16 -0.31 0.40 1.00 -0.25
SD4 0.29 0.32 0.53 0.21 0.18 -0.48 -0.25 1.00
Correlaciones entre las variables de los años 1992, 1991, 1990,

con las variables del año 1989

SSP4 0.12 -.22 0.00 -.28 -.35 -.13 -.19 0.33
LM4 0.11 0.41 0.14 0.03 0.05 0.10 0.37 0.18
DS4 0.37 -.16 0.58 -.04 -.03 0.22 -.15 0.55
BN4 -.16 0.10 0.19 0.17 0.29 0.00 -.05 0.07
CJ4 0.28 0.03 0.21 -.01 0.58 -.26 0.07 -.10
PS4 -.01 0.46 -.17 0.27 0.17 0.18 0.24 -.24
IS4 -.11 0.28 -.28 -.17 -.25 0.03 0.26 -.09
SD4 0.22 -.04 0.54 -.02 0.07 -.06 0.02 0.57
SSP3 0.55 -.07 0.32 -.50 -.08 -.37 0.13 0.39
LM3 0.20 0.41 -.12 -.11 0.31 -.34 0.42 -.07
DS3 0.26 -.27 0.53 -.24 -.26 -.19 -.14 0.56
BN3 0.31 0.06 0.28 -.10 0.02 0.09 0.02 0.43
CJ3 0.32 -.05 0.25 -.21 0.14 -.26 0.10 0.43
PS3 0.00 0.38 -.02 0.15 0.01 0.29 0.36 0.04
IS3 0.22 0.29 0.05 -.30 -.08 0.12 0.31 0.26
SD3 0.26 -.11 0.48 -.12 -.11 -.03 -.01 0.64
SSP2 0.10 -.21 0.16 -.39 -.13 -.19 -.07 0.36
LM2 0.49 0.18 0.14 -.02 0.34 -.28 0.32 0.33
DS2 0.60 -.22 0.57 -.25 -.07 -.17 0.18 0.71
BN2 0.35 0.14 0.37 -.11 -.01 0.04 0.12 0.56
CJ2 0.18 -.25 0.26 0.03 0.45 0.04 -.24 0.28
PS2 0.25 0.09 0.41 -.12 -.04 0.47 -.11 0.35
IS2 0.38 0.17 0.18 -.16 0.10 -.02 0.29 0.35
SD2 0.32 -.20 0.51 -.17 -.10 -.02 -.08 0.68
Resultados de Statis
Utilizando el sistema PIMAD-STATIS [75] hemos obtenido los siguientes resultados :

( % Inercia 85.00) Eje 2

6
•
88
•
-Eje 1
89
•
90
•
91
Figura 6.6: Cı́rculo de correlaciones que contiene los años y su evolución.
Análisis de la interestructura. Para hacer una representación plana de la distribución

espacial de las opiniones correspondientes a cada uno de los cuatro años, calculamos una
imagen euclı́dea aproximada de los operadores WDw , lo que se obtiene considerando el
primer plano principal del ACP sobre la matriz cuyas variables son los Wi .
La Figura 6.6 muestra la evolución global de la opinión anual en el periodo 1988-
1991 en el primer plano principal el cual explica un 85 % de la inercia total. Los puntos
representativos de cada encuesta se encuentran muy próximos a la circunferencia de radio
uno, lo que garantiza una buena representación de la realidad descrita por las variables
tomadas en cuenta en este estudio.
Se observa una estabilidad de la opinión en los años 89, 90, 91 diferenciándose de la
estructura de la opinión en 1988. Esta diferenciación la analizaremos en el contexto de la
Intraestructura.
La configuración espacial de los individuos representada por los operadores Wk , se
resume en el operador compromiso W que no es otra cosa que la primera componen-
te principal del ACP mencionado arriba. En la Figura 6.6 se observa que este operador
representa bien la estructura común de la opinión de los años 89–90–91. Como puede com-
probarse en las Tablas de Correlaciones, la proximidad en estos mismos años es coherente
con la estabilidad observada en las matrices de correlaciones correspondientes y, por otra
parte, con las ortogonalidades mayoritarias entre las variables de estos años con el año
1988.
Análisis de la intraestructura
El análisis de la intraestructura consiste en hacer representaciones planas de las varia-

bles y de los individuos en los ejes del operador compromiso. Un análisis en componentes
principales sobre la tabla que se obtiene concatenando las tablas de los centros de gravedad
de cada año y ponderándolas adecuadamente, nos permite obtener tales representaciones.
La Figura 6.7 corresponde a la representación de las variables en los dos primeros ejes
los cuales explican el 58 % de la inercia total.
Se observa que las variables SD, DS, SP y en menor grado BN y CJ, correlacionan
con el primer eje. Por otra parte las variables LM e IS lo hacen con el segundo eje. En el
caso de las variables BN y CJ se observa una evolución (movimiento) sobre el primer eje
que es explicada en parte por la diferenciación del año 89 con respecto a los restantes.
Eje 2
% Inercia 57.89 6
•
LM3
•
LM4
•
IS4 •
• IS3•
LM1 •
• IS2LM2
IS1
• •
PS4 CJ3
•
• • BN2
CJ1 PS3
•
BN4
• ••
• CJ2 BN3
SP3
CJ4 •
SP1 •
SP2 •
• SD3 -
• PS2 Eje 1
BN1 •
• SD4
PS1
• •
• SD1
• DS2 •
SP4• DS4 • SD2
DS3
DS1
Figura 6.7: Cı́rculo de correlaciones que contiene las variables y su evolución en los 4
anños del estudio.
En la Figura 6.8 se representan los grupos sociales promedio en los ejes del compromiso,
y en las Figuras 6.10 y 6.11 las trayectorias.
Se nota que el nivel de escolaridad es un factor claramente discriminante en cuanto
a la opinión. Los grupos de mayor escolaridad UC arriba en el segundo cuadrante se
oponen a los grupos sociales de menor escolaridda (P) que son a su vez los de más bajos
ingresos (IB). Asociadas con estos grupos se encuentran, respectivamente, las provincias
de mayor desarrollo como San José y Alajuela, en oposición a Limón y Guanacaste. Las
diferencias de opinión más claras derivan de las variables que determinan en mayor grado
esas direcciones. Es ası́ como a partir de las observaciones anteriores complementadas con
los histogramas, podemos decir lo siguiente:
% Inercia 57.89 Eje 2

6
•
UC
•
A54
• •
A35 A44
• •
SJOS
ALA
• •
IA •
•• • N -Eje 1
• PLN PUSC
UI IM
• •
T A25 • •
LIM P
•
S IB
•
GUA
•
A18
Figura 6.8: Plano principal con los grupos sociales en los ejes del compromiso.
En los grupos sociales de más alta escolaridad como EUC se nota una evolución
en el sentido de disminuir su confianza en la justicia, aumentar su deseo de que se
invierta más presupuesto en seguridad y cada año el sentimento de inseguridad es
mayor. Respecto a la enfermedad del sida estos grupos sociales son cada vez más
tolerantes. En los sectores de menos escolaridad como EP y EN esta tendencia es
menos pronunciada y más irregular (ver Histogramas).
Hay una diferenciación de la opinión entre los grupos de menor edad con respecto
a los de mayor edad, la cual se expresa en grado creciente de desconfianza en la
justicia de parte de los jóvenes que ha su vez son más tolerantes respecto al sida,
que las personas de mayor edad (ver Figuras 6.10 y 6.11).
En relación con los grupos de filiación polı́tica, hemos constatado que la diferen-
ciación proviene de los grupos minoritarios fuera del PLN y del PUSC. Estos dos
últimos partidos son indistinguibles desde el ángulo de la opinión respecto de las va-
riables analizadas, como lo ponen en evidencia las representaciones en la Figura 6.9.
Este hecho también lo hemos verificado con un segundo análisis donde los partidos
minoritarios (Izquierda, Otros y Ninguno) no fueron tomados en cuenta.
Conclusiones y perspectivas
De acuerdo con los análisis realizados podemos señalar lo siguiente:

% Inercia 62.57
Eje 2
6
•
POT
•
PIZ
-Eje 1
• • •
PLNPUSC
PNIN
Figura 6.9: Plano principal con los puntos asociados a los partidos polı́ticos en los ejes del
compromiso.
1. La opinión en el año 1988 se diferencia de los tres años siguientes. A efecto de

poder explicar esta situación es necesario superar ciertas limitaciones como son,
por ejemplo, la necesidad de incluir en los análisis más variables y abordar la fase
de interpretación con participación multidisciplinaria, especialmente con cientı́ficos
sociales.
2. Pese a las limitaciones señaladas en el punto anterior, se puede afirmar que el mo-
vimiento evolutivo de las variables Defender la banca nacionalizada, Aumentar el
presupuesto en seguridad y Se puede confiar en la justicia; marcan una clara dife-
rencia de la opinión en 1988 con respecto a la opinión en los otros años.
3. Los resultados obtenidos confirman que la edad y el nivel de escolaridad son varia-
bles diferenciadoras de la opinión. Mientras tanto la filiación polı́tica no introduce
diferencias de opinión importantes, con excepcion de los grupos minoritarios. Desde
este ángulo, queda justificada la apreciación en el sentido que los partidos tradicio-
nalmente mayoritarios desde hace algunos años representan esencialmente lo mismo.
Esto es ası́, aun cuando 5 años atrás, durante el perı́odo en que se realizaron estas
encuestas, la mayor parte de los ciudadanos no lo percibı́an claramente. En esta
perspectiva cabe preguntarse si actualmente los ciudadanos son conscientes de lo
que representan el PLN y el PUSC y si perciben diferencias importantes entre es-

tos dos partidos. Para argumentar una respuesta a estas dos preguntas es necesario
extender el perı́odo de análisis a más años y considerar suficientes conflictos.

6
•
A543
•
•
A442 •
A443 A544
•
A444 •
• • A542 -Eje 1
A441
A541
•
A181
•
A182
•
A184
•
A183
?
Figura 5
Figura 6.10: Trayectorias de los grupos sociales (1).


6
•
• UC4
• UC2
UC3
•
N3
•
UC1 •
N2
• -Eje 1
P3
•
P1• ••
N1 P4
P2
•
N4
?
Figura 6
Figura 6.11: Trayectorias de los grupos sociales (2).

Capı́tulo 7
Clasificación jerárquica
7.1. Introducción
La clasificación automática tiene por objetivo reconocer grupos de individuos ho-

mogéneos, de tal forma que los grupos queden bien separados y bien diferenciados. Estos
individuos pueden estar descritos por una tabla de datos de individuos por variables, con
variables cuantitativas o cualitativas, o por una tabla de proximidades.
Lo que se entiende por individuos homogéneos es que los individuos que pertenezcan
a un mismo grupo tengan, ya sea caracterı́sticas iguales o similares en el caso de que sean
descritos por una tabla con variables, o bien que estén próximos unos de otros en el caso
de que sean descritos por una tabla de proximidades. Es decir, dos individuos de una
misma clase deben parecerse más entre sı́, que parecerse a un individuo de otra clase.
La clasificación automática también es conocida bajo otros nombres, como por ejemplo
análisis de grupos, análisis tipológico, análisis de conglomerados, análisis de agrupaciones
(en inglés, se usa normalmente el término cluster analysis). Nosotros preferimos el término
de clasificación automática porque el objetivo es buscar una clasificación (o varias clasifi-
caciones, según sea el método usado) de los individuos u objetos a agrupar, y como esta
clasificación es desconocida a priori, el método debe hacer la clasificación automática-
mente sin que intervenga ningún agente externo. Contrariamente, la discriminación trata
de clasificar a los individuos en grupos dados a priori, por lo que la clasificación no es
automática sino supervisada (se trata de que la regla de asignación a los grupos dados
minimice los posibles errores a clases incorrectas).
Existe gran cantidad de métodos de clasificación automática, entre los que podemos
distinguir los siguientes:
los métodos jerárquicos, que buscan una serie de particiones encajadas de tal
manera que puedan representarse mediante un árbol;
135
136 Clasificación jerárquica
los métodos piramidales, que como los jerárquicos buscan particiones encajadas,
pero que permiten a una clase de nivel inferior estar contenida en dos clases de nivel
superior;
los métodos de particionamiento, que buscan una sola partición del conjunto de
individuos;
los métodos de clasificación no exclusiva, que buscan grupos en los datos de tal
manera que un individuo pueda pertenecer a varios grupos al mismo tiempo;
los métodos de clasificación difusa, que buscan grupos homogéneos de individuos

pero que dan el grado de pertenencia difusa (en el intervalo [0, 1]) de cada individuo
a cada clase;
los métodos de clasificación cruzada, que tratan de hacer la clasificación simultá-

neamente sobre dos conjuntos de individuos (o uno de individuos y uno de variables).
En este curso veremos únicamente los métodos más usados, que son los jerárquicos y
los de particionamiento. Ası́, abordaremos los métodos llamados de clasificación jerárquica
ascendente y los de nubes dinámicas, por ser los más populares y fáciles de usar. Tanto
los métodos jerárquicos como algunos del tipo nubes dinámicas están implementados en
la mayorı́a de los paquetes estadı́sticos citados en el apéndice correspondiente a software.
Los métodos de clasificación automática usan ampliamente el concepto de similitud o

disimilitud entre los individuos. Por lo tanto, en un primer momento abordaremos este
tema antes de pasar a describir los métodos de clasificación propiamente dichos. A lo largo
del capı́tulo denotaremos con Ω al conjunto de individuos a clasificar, y supondremos que
posee n elementos.
7.2. Similitudes y disimilitudes

Las similitudes y disimilitudes son los conceptos básicos que nos permitirán determinar
si dos individuos u objetos son parecidos o diferentes. La similitud tiene el sentido de medir
cuán similares son dos individuos, por lo tanto entre mayor sea su valor mayor será el
parecido entre los individuos, y entre más cercano a cero menor será este parecido. La
disimilitud, por el contrario, mide cuán diferentes son dos individuos, como es el caso de las
distancias que todos conocemos; por lo tanto entre más cercana a cero sea la disimilitud
menos diferentes serán los individuos (es decir, es más posible que pertenezcan a una
misma clase) y entre mayor sea ésta más diferentes serán.
7.2 Similitudes y disimilitudes 137
7.2.1. Similitudes
Una similitud es una función s : Ω × Ω −→ R+ tal que:
1. para cada i ∈ Ω, se tiene s(i, i) = máx{s(i, j)/j ∈ Ω};
2. para cada i, j ∈ Ω, hay simetrı́a: s(i, j) = s(j, i).
Con sólo estos dos requisitos se pueden construir funciones que den una idea de la
similitud entre individuos. Ahora bien, la definición de una similitud dependerá de cómo
es la descripción de los individuos, es decir, qué tipo de variables son las que los describen.
Caso de variables binarias
Un caso frecuente para usar similitudes es cuando los individuos están descritos por
variables binarias, es decir, variables de presencia-ausencia que toman sólo los valores 0 y
1 dependiendo de si el individuo presenta o no la variable. Si un individuo tiene un valor
de 1 en la variable se dice que “posee el atributo”, que describe esa variable. Por ejemplo,
podemos considerar que la variable: “el estudiante posee beca”, es una variable binaria, o
bien “el estudiante es repitente”. En biologı́a también aparecen con frecuencia este tipo
de variables, como por ejemplo: “el animal posee alas”, o bien “la planta está presente en
la parcela”.
En este contexto, dados dos individuos i y j en Ω, antes de medir su similitud se
pueden contar los siguientes elementos:
pij : es el número de atributos que poseen al mismo tiempo tanto i como j
qij : es el número de atributos que presenta sólo uno de los dos
p: es el número total de atributos (número de variables).
Existe una serie de ı́ndice de similitud basados en los elementos anteriores. Daremos a
continuación solamente los dos ı́ndices más usados, dejando para la consulta de abundantes
referencias los otros ı́ndices [31, 43, 46, 56, 94, 95, 65, 86, 63, 145]. Los ı́ndices de similitud
más usados para datos binarios son:
el ı́ndice de Jaccard:
pij
s(i, j) =
pij + qij
el ı́ndice de Russel y Rao:

pij
s(i, j) =
p
Obsérvese que, cuando los individuos i y j coinciden en todos sus atributos, el ı́ndice
de Jaccard alcanza su valor máximo que es 1, mientras que el de Russel y Rao alcanza
como valor máximo el cociente entre el número de atributos que coinciden y p. Sólo en el
caso en que tanto i como j posean todos los atributos el valor del ı́ndice de Russel y Rao
será 1.
Ejemplo 7.2.1 Supóngase que se tienen 6 individuos a, b, c, d, e, f descritos por 4 varia-

bles binarias v 1 ,v 2 ,v 3 ,v 4 . Los datos son:
v1 v2 v3 v4
a 1 0 1 1
b 0 1 1 1
c 0 0 0 0
d 1 0 1 1
e 0 1 0 0
f 1 1 1 1
Al calcular el número de atributos para los que coinciden (con presencia) las parejas
de individuos o para los que son diferentes, se obtienen los valores de pij y qij dados a
continuación:
pij b c d e f qij b c d e f
a 2 0 3 0 3 a 2 3 0 4 1
b 0 2 1 3 b 3 2 2 1
c 0 0 0 c 3 1 4
d 0 3 d 4 1
e 1 e 3
Al calcular los ı́ndices de Jaccard y de Russel & Rao, se obtiene:
Jaccard Russel&Rao
s(i, j) a b c d e f s(i, j) a b c d e f
a 1 0,5 0 1 0 0,75 a 1 0,5 0 0,75 0 0,75
b 1 0 0,5 0,33 0,75 b 1 0 0,5 0,25 0,75
c 1 0 0 0 c 1 0 0 0
d 1 0 0,75 d 1 0 0,75
e 1 0,25 e 1 0,25
f 1 f 1
En la tabla de datos original se puede ver que los individuos a y d coinciden en todos
sus valores. El valor de 1 para s(i, j) calculado con el ı́ndice de Jaccard refleja este hecho,
lo cual no se aprecia con el ı́ndice de Russel & Rao. por otra parte, el individuo a es el
opuesto de e, el valor de 0 para s(i, j) calculado con ambos ı́ndices refleja este hecho.
7.2.2. Disimilitudes
Una disimilitud es una función d : Ω × Ω −→ R+ tal que:
1. para cada i ∈ Ω se tiene d(i, i) = 0
2. para cada i, j ∈ Ω, hay simetrı́a: d(i, j) = d(j, i)
Si a la definición anterior uno le añade:
3. d(i, j) = 0 ⇔ i = j
4. la desigualdad triangular: para cada i, j, k ∈ Ω d(i, j) ≤ d(i, k) + d(k, j)
entonces la disimilitud es lo que llamamos una distancia.
Caso cuantitativo
La disimilitud más usada es la distancia euclı́dea clásica:

v
u p
uX
d(i, j) = t (xk − xk )2
i j
k=1
Recuérdese de lo estudiado en el capı́tulo 2 que una distancia euclı́dea puede ser

definida a partir de una métrica, esto es, de una matriz simétrica definida y positiva M .
En tal caso, se podrı́a poner d2 (i, j) = ||xi − xj ||M = (xi − xj )t M (xi − xj ). Ası́, la distancia
euclı́dea clásica coincide con el caso en que se usa como métrica la identidad de orden p.
El uso de la distancia clásica tiene sentido cuando las variables observadas sobre los
individuos son cuantitativas, pues en este caso tienen sentido las operaciones expresadas
en la fórmula de la distancia. Hay que mencionar que esta distancia tiene un inconveniente
si se usa sin precaución: debido a que cada término de la sumatoria es elevado al cuadrado,
la distancia euclı́dea tiene tendencia a magnificar las grandes diferencias entre las obser-
vaciones, por lo que si hay un dato aberrante este comportamiento atı́pico se traducirá en
un valor muy grande dela distancia. Por ello, antes de cualquier análisis multivariado,
siempre se recomienda hacer un estudio univariado de cada variable; en particular una
caja de dispersión deberı́a indicar la presencia de valores aberrantes y ası́ el analista puede
tomar las medidas necesarias.
Algunos autores prefieren usar una distancia como la siguiente, llamada “city-block”1 :
p
X
d(i, j) = |xki − xkj |
k=1
Otra distancia usada en ocasiones, es la llamada distancia de Chebychev:

d(i, j) = máx{|xki − xkj |/k = 1, . . . , p}
Ejemplo 7.2.2 Supóngase que se tiene 4 individuos a, b, c, d descritos por 5 variables

v 1 , v 2 , v 3 , v 4 , v 5 , según se muestra en la tabla siguiente:
v1, v2 v3 v4 v5
a 2 3,5 0 4 7
b 4 3 1,5 5 6
c 0 6 4 2 3
d 3 3 1 4 77
El cálculo de las distancias euclı́dea clásica, city-block y de Chebichev son:

Euclı́dea City-block
d(i, j) a b c d d(i, j) a b c d
a 0 2,915 6,801 70,02 a 0 6 14,5 72,5
b 0 7,018 71,02 b 0 15,5 73,5
c 0 74,21 c 0 85
d 0 d 0
Chebychev
d(i, j) a b c d
a 0 2 4 70
b 0 4 71
c 0 74
d 0
De los cuatro individuos de la tabla de datos, se puede apreciar que a y b tienen valores
muy parecidos para las cinco variables, y su cercanı́a es reflejadapor el bajo valor de las
distancias. Por su parte, d también tiene valores cercanos a a y b en las cuatro primeras
variables, aunque para la quinta tenga una gran diferencia; si se supone que esta gran
diferencia es debida a un valor “aberrante”, como por ejemplo debido a un error de un
digitador a la hora de pasar los datos del papel a la computadora (supóngase que el dato
real era 7 y no 77, como aparece en la tabla), entonces puede apreciarse que las tres
distancias mostradas son muy sensibles a los valores de estos casos atı́picos.
1
Este nombre proviene del hecho que para medir la distancia entre dos puntos de una ciudad como
el centro de San Jośe, donde las calles y avenidas son paralelas y se cruzan perpendicularmente entre sı́,
hay que medir las distancias recorriendo las calles pasando por las esquinas, y no en lı́nea recta
7.2.3. Caso binario

Se puede definir una disimilitud facilmente a partir de una similitud en el caso de tener
variables binarias. Por ejemplo, considerando una similitud s cuyo valor máximo sea 1,
entonces se define d(i, j) = 1 − s(i, j). Ası́, se definen la disimilitud de Jaccard:
qij
d(i, j) = 1 −
pij + qij
usando las notaciones de la sección 7.2.1, y la disimilitud de Russel & Rao:
p − pij
d(i, j) =
p
Ejemplo 7.2.3 Usando los datos del ejemplo 7.2.1, tendrı́amos los siguientes valores
para las disimilitudes de Jaccard y de Russel & Rao:
Jaccard Russel&Rao
d(i, j) a b c d e f d(i, j) a b c d e f
a 0 0,5 1 0 1 0,25 a 0 0,5 1 0,25 1 0,25
b 0 1 0,5 0,66 0,25 b 0 1 0,5 0,75 0,25
c 0 1 1 1 c 0 1 1 1
d 0 1 0,25 d 0 1 0,25
e 0 0,75 e 0 0,75
f 0 f 0
7.2.4. Caso cualitativo

Se podrı́a plantear la medida de la disimilitud entre dos individuos descritos por p
variables cualitativas, usando las definiciones de disimilitudes para datos binarios y la
tabla de datos en forma disyuntiva completa, esto es, con las indicatrices (0 y 1) de las
modalidades de las variables cualitativas. En este caso, se podrı́an usar las disimilitudes de
Jaccard y Russel & Rao vistas anteriormente. Sin embargo, lo usual es usar adaptaciones
especiales de las distancias euclı́deas, como la distancia euclı́dea clásica y la distancia de
χ2 (chi-cuadrado).
La distancia euclı́dea clásica entre dos individuos i y j descritos por p variables cuali-
tativas x1 , x2 , . . . , xp es:
p
X
d(i, j) = 2 δijk
k=1
si xki 6= xkj

1
donde δijk = .
0 si xki =6 xkj
La distancia de χ2 es:
p
!
1 X 1 1
d(i, j) = 2 + δijk
p k=1 s(xi ) s(xkj )
k
donde δijk se define como antes y s(xki ) es el número de veces que la modalidad xki está pre-
sente para la variable xk .
7.2.5. Agregaciones
Los métodos de clasificación automática usan generalmente una noción de proximidad
entre grupos de elementos, para medir la separación entre las clases que se buscan. Para
ellos, se introduce el concepto de agregación, que no es más que una disimilitud entre
grupos de individuos: sean A, B ⊂ Ω, entonces la agregación entre A y B es:
δ(A, B)
tal que δ es una disimilitud en el conjunto de partes P(Ω):
i) δ(A, A) = 0 para todo A ∈ P(Ω)
ii) δ(A, B) = δ(B, A) para todo A, B ∈ P(Ω)
Usualmente, la medida de agregación está basada en la disimilitud d medida sobre Ω.

En efecto, denotando A yB dos subconjuntos de Ω, las agregaciones más usadas son:
1. Agregación del salto mı́nimo o del vecino más cercano:
δmı́n (A, B) = mı́n{d(a, b)|a ∈ A, b ∈ B}
2. Agregación del salto máximo:
δmáx (A, B) = máx{d(a, b)|a ∈ A, b ∈ B}
3. Agregación del salto promedio:
1 X
δprom (A, B) = d(a, b)
card(A) + card(B) a∈A
b∈B
En el caso cuantitativo se tiene además:

7.3 Jerarquı́as 143
4. Agregación de Ward:
card(A)card(B)
δward (A, B) = ||g(A) − g(B)||2 = I(A ∪ B) − I(A) − I(B)
card(A) + card(B)
P A, ||·|| es una norma euclı́dea e I(A)

donde g(A) es el centro de gravedad del conjunto
es la inercia del conjunto A, es decir I(A) = xi ∈A pi ||xi − g(A)||2 . Esta agregación,
también llamada del incremento de la inercia, sólo tiene sentido cuando se está en
un contexto euclı́deo, es decir, cuando se dispone de variables cuantitativas.
Existen otras agregaciones también citadas en la literatura, como por ejemplo la dis-
tancia entre los centros de gravedad o la inercia I(A ∪ B). Sin embargo, la mayorı́a de
éstas tienen el defecto de producir inversiones en el algoritmo de clasificación jerárquica
ascendente que veremos en la siguiente sección.
7.3. Jerarquı́as
Generalmente, los métodos de particionamiento –como los de nubes dinámicas que pre-
sentaremos en el próximo capı́tulo– encuentran en cada ejecución una sola partición en un
número dado a priori de clases. Ahora bien, este número de clases puede no “representar”
el número real de clases que se forman en la configuración de los datos.
Por ejemplo, considérese la siguiente configuración de puntos en R2 :
r
r rr
r r
r
r r r
rr r
rr r
r r rr
Puede apreciarse que de forma natural se forman 3 clases de individuos según la

cercanı́a de los puntos. Ahora bien, si el usuario no conoce esta configuración (para efectos
de simplificación la hemos dado en dos dimensiones, pero el lector puede pensar que se
trata de una configuración en muchas más dimensiones), entonces puede suceder que se
trate de obtener clasificaciones en números de clases diferentes de 3, por ejemplo en 2
clases o en 5 clases.
Para paliar este problema, uno puede plantearse la posibilidad de crear clasificaciones
para varios números de clases al mismo tiempo, y escoger luego la que más conviene
según las necesidades. Una manera de abordar este problema, es tratar de obtener un
a b c d e
Figura 7.1: Ejemplo de árbol jerárquico
árbol jerárquico de clasificaciones, tal como se muestra en la figura 7.1 para un conjunto
Ω = {a, b, c, d, e}.
Una árbol jerárquico tiene la ventaja de que es de fácil interpretación. En efecto, para
el árbol de la figura 7.1, se interpreta que los individuos más cercanos son los que se unen
a un nivel más bajo del árbol, esto es a y b. Enseguida, los dos individuos que siguen en
similitud son d y e, luego el grupo {a, b} con el individuo c, y finalmente se obtiene el
grupo total Ω.
El procedimiento para construir el árbol jerárquico, trata de encontrar los dos indivi-
duos más cercanos en el sentido de la disimilitud d definida sobre Ω. Una vez que se han
unido, se consideran las distancias entre los individuos restantes, y entre ellos y el nuevo
grupo formado. Para esto último, necesitamos escoger una agregación δ.
Un árbol jerárquico representa lo que se conoce como una jerarquı́a.
Una jerarquı́a sobre Ω es un subconjunto H de P(Ω) tal que:
1. Ω ∈ H,
2. ∀i ∈ Ω, {i} ∈ H,
3. ∀i, i0 ∈ H : h ∩ h0 6= ∅ ⇒ h ⊂ h0 o h0 ⊂ h.
Puede observarse que una jerarquı́a tiene asociado un árbol, llamado árbol jerárquico,
donde cada nodo del árbol es un elemento de H y las hojas del árbol son los elementos
de Ω. Además, el árbol tiene una raı́z que es Ω mismo. Si este árbol es binario se dice que
la jerarquı́a es binaria.
La clasificación jerárquica consiste en construir una jerarquı́a sobre Ω, de tal forma
que los individuos más parecidos formen nodos, y los grupos de individuos más similares
también formen nodos.
7.4 Algoritmo de clasificación jerárquica ascendente 145
Se puede asociar un ı́ndice f a la jerarquı́a, tal que:
1. f (h) ≥ 0,
2. ∀i ∈ Ω : f ({i}) = 0,
3. ∀h, h0 ∈ H : h ⊂ h0 ⇒ f (h) ≤ f (h0 ).
Se dice entonces que (H, f ) es una jerarquı́a indexada.
Pueden consultarse las siguientes referencias como una introducción a estos conceptos:
[17, pp. 119–138, tomo 1], [31, pp. 544–558], [56, pp. 74–76], [94, pp. 105–108]. De las
referencias anteriores, quizás la más accesible sea [56].
7.4. Algoritmo de clasificación jerárquica ascendente

El algoritmo general de clasificación jerárquica ascendente (CJA) construye,
en cada paso una partición en k clases, que denotaremos Pk , mediante la fusión de los
dos conjuntos de la partición anterior (Pk−1 en k − 1) clases que sean más cercanos en el
sentido de δ. El algoritmo procede de la siguiente manera:
1. k := 0; ∀i ∈ Ω, {i} ∈ H; Pk := {{i}|i ∈ Ω};
2. k := k + 1 ;
3. escoger h1 , h2 ∈ Pk tales que δ(h1 , h2 ) sea mı́nimo; sea h := h1 ∪ h2 ; sea Pk :=

(Pk−1 ∪ {h}) − {h1 , h2 }; sea H := H ∪ {h};
4. calcular f (h) y δ(h, h0 ), para todo h0 ∈ H;
5. mientras k < n − 1 ir al paso 2;
6. H = H ∪ Ω;
El H obtenido es la jerarquı́a deseada. Se define un ı́ndice f , como una función f :

H −→ R+ definida por:

0 si h es un conjunto unitario
f (h) =
δ(h1 , h2 ) si h1 , h2 se fusionaron en el algoritmo para formar h
Esta indexación hace que el árbol de clasificación sea más fácilmente interpretable, pues
da la idea de la altura de los nodos del árbol: entre más bajos sean los nodos más parecidos
son los objetos que están debajo del nodo.
7.4.1. Ejemplos
Ejemplo 7.4.1 Supóngase que se tiene los siguientes valores de una disimilitud sobre
Ω = {a, b, c, d}:
a b c d
a 0 1 3 5,5
b 0 2 4,5
c 0 2,5
d 0
Puede verse que el mı́nimo de la disimilitud se alcanza para la disimilitud entre a y b,

cuyo valor es 1. Por lo tanto, se agregan estos dos individuos y al usar la agregación del
salto mı́nimo δmı́n se obtiene la nueva tabla:
{a, b} c d
{a, b} 0 2 4,5
c 0 2,5
d 0
Ahora, el mı́nimo valor es para δ({a, b}, c) = 2, por lo que se fusionan {a, b} y c,
obteniéndose la nueva tabla:
{a, b, c} d
{a, b, c} 0 2,5
d 0
De esta forma, se obtiene el árbol jerárquico que se muestra en la figura 7.2.
a b c d
Figura 7.2: Arbol de clasificación obtenido al usar la agregación del salto mı́nimo
Ejemplo 7.4.2 En caso de usarse la agregación del salto máximo δmáx sobre los datos
anteriores, se obtendrı́an sucesivamente las dos tablas siguientes:
{a, b} c d
{a, b} {c, d}
{a, b} 0 3 5,5
{a, b} 0 5,5
c 0 2,5
{c, d} 0
d 0
y el árbol de clasificación serı́a el presentado en la figura 7.3.
a b c d
Figura 7.3: Arbol de clasificación opbtenido al usar la agregación del salto máximo
Ejemplo 7.4.3 Por otra parte, si se usa la agregación del salto promedio δprom sobre los
datos anteriores, se obtienen las tablas:
{a, b} c d
{a, b, c} d
{a, b} 0 2,5 5
{a, b, c} 0 4,16
c 0 2,5
d 0
d 0
Puede verse que en la primera tabla se alcanza el mı́nimo para dos valores diferentes:
δ({a, b}, c) = 2,5 = δ(c, d). Ante esta situación, el usuario debe decidir cual de las dos
posibles fusiones hará.2 Suponiendo que se fusionan {a, b} con c, se obtiene el siguiente
árbol mostrado en la figura 7.4.
El lector puede comprobar que de haber escogido la fusión de c con d al árbol de
clasificación hubiera tenido una forma diferente.
2
En los programas de computación, normalmente se decide automáticamente cual fusión se hará; por
ejemplo, se sugiere hacer aquélla que involucre al menor ı́ndice de individuo.
a b c d
Figura 7.4: Arbol de clasificación obtenido al usar la agregación del salto promedio
7.4.2. Fórmula de recurrencia

Según los ejemplos mostrados anteriormente, puede apreciarse que luego de cada fu-
sión deben calcularse algunos valores de la agregación: aquéllos que involucran al grupo
recién creado, y que además se suprime de la tabla a los elementos individuales que se
fusionaron. Se acuerdo con la definición de los ı́ndices de agregación dados, todos ellos se
calculan a partir de la tabla original de las disimilitudes, y no a partir de la tabla recién
calculada. Para evitar hacer referencia siempre a la tabla original, y hacer este cálculo
de actualización solamente a partir de la última tabla de que se dispone, es que se han
encontrado fórmulas de recurrencia o actualización de las agregaciones. Estas fórmulas
son especialmente útiles para las agregaciones del salto promedio y la de Ward. Si deno-
tamos a y b los dos elementos que se fusionan en una etapa, y h cualquier otro elemento,
entonces las fórmulas de actualización para δprom y δward son:
card(a)δprom (h, a) + card(b)δprom (h, b)
δprom (h, a ∪ b) =
card(a) + card(b)
(card(h) + card(a))δward (h, a) + (card(h) + card(b))δward (h, b) − card(h)δward (a, b)
δward (h, a∪b) =
card(a) + card(b)
donde card(a), card(b), card(h) son respectivamente las cardinalidades de a, b y h.
Ejemplo 7.4.4 Considérese la siguiente tabla con los valores de una disimilitud:
a b c d e
a 0 25 18 25 10
b 0 30 40 34
c 0 10 15
d 0 18
e 0
Usando la agregación del salto promedio δprom , se obtiene la secuencia de tablas:
a b {c, d} e
{a, e} b {c, d}
a 0 25 21,5 10 {a, c, d, e} b
{a, e} 0 29,5 19
b 0 35 34 {a, c, d, e} 0 32,25
b 0 35
{c, d} 0 16,5 b 0
{c, d} 0
e 0
y el árbol de clasificación mostrado en la figura 7.5.
30
20
10
c d a e b
Figura 7.5: Arbol de clasificación obtenido al usar la agregación del salto promedio
7.4.3. Inversiones
Se dice que una clasificación jerárquica produce una inversión cuando se construye
h = a ∪ b con f (h) < f (a) ó f (h) < f (b). Diday [56] dió condiciones sobre los coeficientes
de la fórmula de recurrencia para que no se produzcan inversiones. Los cuatro ı́ndices
de agregación no producen inversiones como sepuede verificar sobre el teorema de Diday,
pero hay otros ı́ndices que sı́ pueden producir, como el de la distancia entre centros de
gravedad δ(a, b) = ||ga − gb ||2 .
7.4.4. Algoritmos ascendentes acelerados

A partir de la investigaciones de Bruynooghe, se estudian algoritmos más eficientes pa-
ra construir las jerarquı́as. Existen dos enfoques, fundamentalmente: el de los vecindarios
reducibles y el de los vecinos recı́procos.
El primero establece que, dado un umbral r, cuando se cumple una rpopiedad llamada
de vecindarios reducibles, en cada paso de la construcción jerárquica ascendente, sola-
mente se examinan los vecinos más cercanos de r de un grupo existente. Este criterio se
puede encontrar en: [94, 171–194], [95, 368–380], [63, 90–100]. Además, Diday [56, 91–96]
dió condiciones sobre los coeficientes de la fórmula de recurrencia de lanza & Williams,
para caracterizar a los ı́ndices de agregación que cumplen la propiedad de vecindarios
reducibles.
El segundo enfoque se debe a De Rham y se conoce como el principio de vecinos
recı́procos: dos grupos a y b se llaman vecinos recı́procos si a es el grupo más cercano de b
y b el de a. La construcción jerárquica ascendente se puede simplificar si se fusionan, desde
un primer paso, todos los vecinos recı́procos. Una vez hechas estas fusiones, se calculan
los vecinos recı́procos de los grupos formados y se recomienza, alternando este paso de
fusión con el desarrollo normal del algoritmo de clasificación jerárquica ascendente. Puede
encontrarse una descripción del procedimiento en [43, 176–177].
Existen demostraciones sobre la equivalencia de los resultados obtenidos con cualquiera
de los dos enfoques acelerados anteriores y el algoritmo usual de clasificación jerárquica
ascendente.
7.5. Ejemplo de notas escolares

Consideramos el ejemplo de notas escolares, en que 10 estudiantes son descritos por
las notas entre 0 y 10 obtenidas en 5 materias: matemáticas, ciencias, historia, español y
educación fı́sica.
La clasificación jerárquica usando la agregación de Ward con la distancia euclı́dea, da
como resultado:
Lucı́a
Carmen
Ana
Marı́a
José
Pedro
Andrés
Carlos
Sonia
Luis
Puede verse que hay una clara clasificación en dos clases, que es:
C1 = {Lucı́a,Inés,Ana,Marı́a,José},
C2 = {Pedro,Andrés,Carlos,Sonia,Luis}.
Si se quiere hacer una clasificación en tres clases, entonces se formarı́a una nueva clase
C3 que contendrı́a sólo a Luis.
7.6 Jerarquı́as y ultramétricas 151
El lector deseoso de consultar aplicaciones de la clasificación jerárquica, puede encon-

trar 13 aplicaciones en [17, pp. 321–538, tomo 1].
7.6. Jerarquı́as y ultramétricas

Una propiedad esencial es que toda jeraquı́a indexada tiene asociada una ultramétrica
y viceversa. La demostración de esta propiedad, llamada teorema de Johnson–Benzécri,
puede consultarse en: [17, pp. 138–142, tomo 1], [56, pp. 98–102], [94, pp. 111–114], [63,
pp. 33–38].
La propiedad anterior puede inducir a pensar que, para poder obtener un jerarquı́a,
basta con encontrar un ultramétrica δ “similar” a la disimilitud d definida sobre Ω. Esta
idea fue seguida por autores como M. Roux, que propuso un algoritmo que hace modifica-
ciones sobre d con el fin de ir obteniendo poco a poco la ultramétrica deseada. De hecho,
el supremo de las ultramétricas inferiores a d es a su vez una ultramétrica, llamada la ul-
tramétrica subdominante. Esta ultramétrica puede ser obtenida mediante la construcción
de un árbol de longitud mı́nima sobre Ω3 , usando por ejemplo los algoritmos de Prim o de
Kruskal. También Roux habı́a propuesto un algoritmo que examina todos los tripletes de
elementos de Ω, construyendo cada vez un triángulo isósceles agudo (puede consultarse
[31, pp. 568–569], [63, pp. 50–51]).
7.7. Observaciones acerca de la clasificación jerárqui-

ca
La clasificación jerárquica ascendente tiene dos defectos que ya hemos observado sobre
los ejemplos y sobre los que hay que insistir:
En primer lugar, los resultados dependen de la agregación que se escoja. Por ello,
siempre se recomienda al usuario que haga una reflexión antes de aplicar el método,
en el sentido de ensoger la agregación que tenga un mejor sentido en el problema
que se esté tratando.
En segundo lugar, en el caso en que haya igualdad en el valor de la agregación para

dos parejas diferentes, se debe escoger la pareja que se fusionará, escogencia que
puede llevar a resultados diferentes.
3
Un árbol de longitud mı́nima sobre un conjunto Ω es un árbol tal que las aristas tienen valores, todos
los nodos son elementos de Ω, y la suma de los valores de las aristas es mı́nima entre todos los árboles
con esas caracterı́sticas.
7.7.1. Algoritmos descendentes

Debe notarse que la construcción de un árbol de clasificación podrı́a también hacerse
descendentemente. Los algoritmos descendentes parten de Ω y buscan particionar cada
grupo de dos (hacen dicotomı́as), hasta obtener los conjuntos unitarios formados por los
individuos. Cada método difiere en el criterio para hacer la dicotomı́a. Los métodos más
conocidos son los de Williams & Lambert, de Hubert, de Roux y de Edwards & Cavalli–
Sforza. Presentaciones de éstos se pueden encontrar en [86, pp. 251–276], [158, pp. 85–92],
[63, pp. 101–106]; con menos detalle hablan [17, pp. 85–92, tomo 1, sobre todo sobre
un método usado por Lacoste y basado en el Análisis Factorial] [46, 126–127], [94, pp.
206–212], [65, pp. 82–88].
Capı́tulo 8
Clasificación por particiones
Los métodos de clasificación por particiones buscan una sola partición de Ω, mediante
la optimización de algún criterio. Existen básicamente dos tipos de métodos:
los que fijan a priori el número de clases,

los que no fijan este número.
Los primeros tienen la ventaja de la sencillez y rapidez, mientras que los segundos
tienen la ventaja obvia de buscar el número de clases. Sin embargo, estos últimos tienen
la gran desventaja de depender de un gran número de parámetros que deben ser estima-
dos por el usuario y cuya manipulación no es fácil sin una adecuada experimentación y
práctica. Ejemplos de estos métodos son Isodata y Wishart.
En este curso sólo abordaremos los primeros métodos, que se puede agrupar en un
esquema llamado de Nubes Dinámicas.
Los métodos de nubes dinámicas están basados en el principio que una clase puede
ser representada por algún objeto, sea éste un punto promedio, un individuo o grupo de
individuos de la clase, un conjunto de parámetros, etc; a este representante lo llamaremos
núcleo. El primer algoritmo de este tipo fue propuesto por Forgy (1965), y luego fueron
propuestos otros similares por Mac Queen, Diday, Jancey, etc.
La idea subyacente es:
asignar los individuos al núcleo más cercano,

calcular los núcleos con las clases formadas en el paso anterior,
iterar los pasos anteriores hasta obtener estabilidad.
Se parte de una configuración inicial de núcleos, y se puede probar que el método

converge a una partición que no mejora el criterio. Dependiendo del contexto y del tipo
de núcleo, se define un criterio a ser mejorado.
153
154 Clasificación por particiones
8.1. Problema combinatorio

Es necesario hacer notar que, cuando se quiere obtener una partición en k clases de
un conjunto con n individuos, no tiene sentido examinar todas las posibles particiones
del conjunto de individuos en k clases. En efecto, se está en presencia de un problema
combinatorio muy complejo; sólo para efectos de ilustración, mencionemos que el número
de particiones de un conjunto con 60 elementos en 2 clases es aproximadamente 1018 , y
para 100 elementos en 5 clases anda por 1068 . De hecho, se puede probar que el número
S(n, k) de particiones diferentes de un conjunto de n individuos en k clases, cumple la
ecuación de recurrencia
S(n, k) = S(n − 1, k − 1) + kS(n − 1, k)
Esto lleva a que
k
1 X k
S(n, k) = (−1)k−i in
k! i=0 i
De lo anterior se deduce la necesidad de contar con métodos y algoritmos que den

una solución satisfactoria del problema propuesto, aunque evidentemente puede que no
se obtenga la mejor solución en todos los casos.
8.2. Criterio de la inercia

Como se ha mencionado, se quiere obtener clases lo más homogéneas posibles y tal
que estén suficientemente separadas. Este objetivo se puede concretar numéricamente a
partir de la siguiente propiedad:
supóngase que se está en presencia de una partición P = (C1 , C2 , . . . , Ck ) de Ω, donde
g1 , g2 , . . . , gk son los centros de gravedad de las clases:
X
g(C` ) = pi xi
i∈C`
g es el centro de gravedad total de la nube de puntos N = (X, M, D):

n
X
g= pi xi
i=1
y denotamos µ1 , µ2 , . . . , µk los pesos de las clases:

card(C` )
µ` = .
n
Si se denota I(N ) la inercia total de la nube de puntos,
k
X
B= µ` ||g(C` ) − g||2M
`=1
8.3 Método de nubes dinámicas 155
la inercia inter-clases, es decir la inercia de los centros de gravedad respecto al centro de

gravedad total, y
X k
W = I(C` )
`=1
P
la inercia intra-clases, es decir la inercia al interior de cada clase, con I(C` ) = i∈C` pi ||xi −
g(C` )||2M , entonces se tiene la igualdad de Fisher:
I(N ) = B + W.
Obsérvese que B mide precisamente la “separación” de la nube de puntos, al medir la
inercia entre los centros de gravedad; si esta inercia es grande se deduce que los centros de
gravedad están bastante separados (son dispersos). Además, W mide la homogeneidad de
las clases; en efecto, si W es pequeño entonces cada I(C` ) es pequeño y ası́ la dispersión
al interior de cada clase es pequeña.
Como la inercia I(N ) es fija, dada la nube de puntos, entonces al minimizar B se
maximiza automáticamente W . Por lo tanto, los dos objetivos (homogeneidad al interior
de las clases y separación entre las clases) se alcanzan al mismo tiempo al querer minimizar
W . Ası́, el objetivo en el método de nubes dinámicas es encontrar una partición P de Ω
y representantes de las clases, tales que W sea mı́nima.
8.3. Método de nubes dinámicas

Denotaremos Ω el conjunto de n individuos que queremos clasificar y supondremos que
están descritos por p variables cuantitativas x1 , x2 , . . . , xp . Supondremos que los individuos
están dotados de pesos pi .
En el método de nubes dinámicas, cada clase estará representada por un núcleo, que
será un elemento representativo de los integrantes de la clase. Estos núcleos pueden ser
de dos tipos:
puede ser un individuo promedio, en cuyo caso se usará el centro de gravedad, cal-
culado por los promedios de los individuos que forman la clase;
puede ser un grupo de objetos representativos, es decir, un grupo de algunos indi-
viduos de la clase escogidos de tal manera que sean las más representativos de la
clase.
El método de nubes dinámicas se basa en hacer iteraciones sobre dos operaciones:
representar una clasificación por núcleos;

hacer clasificaciones de los individuos mediante la asignación de los individuos al
núcleo más cercano.
Según esta idea, dada una representación mediante k núcleos, se asignarán los indivi-
duos al núcleo más cercano, definiéndose de esta forma una partición. Ahora bien, dada
esta partición, se calculan los nuevos núcleos, ya sea como centros de gravedad o como un
pequeño grupo de elementos representativos de la clase. Los nuevos núcleos pueden ser
ligeramente diferentes de los que sirvieron para crear las clases, por lo que se puede ver
que el método va aproximando poco a poco la solución que se obtendrá finalmente, que
será cuando ya los núcleos sean estables.
8.3.1. Escogencia de los núcleos iniciales

La escogencia de los núcleos iniciales, la haremos de manera aleatoria. Ası́, en el caso en
que los núcleos sean los centros de gravedad, escogeremos k elementos entre el conjunto Ω
de individuos. En el caso en que los núcleos estén formados por elementos representativos,
escogeremos k veces m elementos entre los individuos (respecto al número m, daremos
algunas indicaciones más adelante).
8.3.2. Caso de los centros de gravedad

En el caso en que se está en presencia de variables cuantitativas, tiene sentido el cálculo
de promedios y de distancias euclı́deas. Por lo tanto, también tiene sentido que cada clase
esté representada por su centro de gravedad, esto es, por un individuo ficticio cuyas
coordenadas son los valores promedio de las variables para los individuos pertenecientes
a la clase. Este es el caso más simple y el usado más corrientemente. Generalemente, se
usará la distancia euclı́dea clásica en este contexto.
8.3.3. Ejemplos
Ejemplo 8.3.1 Ilustremos gráficamente el comportamiento del método de nubes dinámi-
cas. Supóngase que se está en presencia de una serie de indidivuos representados en R2
por la siguiente configuración:
r rr r
r
r rr
r r r
r r r
Se desea obtener una clasificación de los individuos en 2 clases. A partir de la represen-

tación gráfica puede verse que hay dos clases “naturales”: una de los individuos ubicaods
a la izquierda del plano y otra de los que están a la derecha.

Si se escogen al azar los dos individuos mostrados en la figura siguiente por el sı́mbolo
:
r
rr
r
r rr
r r
r r r
entonces se obtiene la partición mostrada en la siguiente figura, donde los individuos de

una clase se muestran con un triángulo 4 y los de la otra con un cuadrado :

4 44
4 44
4 4
4
Para proceder a la segunda iteración, se calculan los centros de gravedad de las clases
determinadas, obteniéndose los puntos ficticios mostrados con un ?:
r ∗r r r
r
r rr
r r r
r r ∗ r
Enseguida se asignan los individuos al centro más cercano, obteniéndose la partición:

44
4 44
4 4
4
Al empezar la tercera iteración, se calculan los centros de gravedad de las clases ante-
riores:
r rr r
r∗
r rr
r r
r ∗r rr
y se obtienen las clases:

44
44
4

Finalmente, se calculan los centros de las clases anteriores:
r rr r
r
r∗ rr
r r∗r
r r r
Las clases deducidas de estos centros son las mismas de la iteración precedente. De
esta forma, se ha llegado a un punto de estabilidad pues ahora el cálculo de los centros
de gravedad dará los mismos centros obtenidos antes, por lo que las clases ya no serán
modificadas.
Ejemplo 8.3.2 Supóngase que se tienen 14 objetos descritos por dos variables x, y; los
valores de los datos están dados en la tabla 8.1.
Se tiene entonces la configuración de puntos dada en la figura 8.1.
De acuerdo con la representación de los puntos en el plano se puede apreciar que hay
dos clases naturales, que son:
Objeto x y
1 30 104
2 68 129
3 40 155
4 40 195
5 29 226
9 70 93
6 60 215
7 46 239
8 84 234
10 193 129
11 210 107
12 216 130
13 216 157
14 234 162
Cuadro 8.1: Tabla de 14 objetos descritos por dos variables x, y.

•7 •8
5•
•6
•4
•3 13• •14
•2 10• •12
•1 •11
•9
Figura 8.1: Configuración de 14 puntos descritos por dos variables x, y.
Objetos
Clase 1 1, 2, 3, 4, 5, 6, 7, 8, 9
Clase 2 10, 11, 12, 13, 14
Para aplicar el método de nubes dinámicas, se escogen al azar dos puntos entre los 14
dados, que se constituirán en los primeros núcleos; supóngase en un primer momento que
esos objetos son 4 (40, 195) y 5 (29, 226). Luego, se calculan las distancias de todos los
puntos a estos núcleos iniciales; estas distancias al cuadrado están dadas en la tabla 8.2.
De esta forma, se hacen las asignaciones de los objetos a la clase correspondiente al
núcleo más cercano, obteniéndose una primera clasificación que es:
Objetos
Clase 1 1, 2, 3, 4, 6, 9, 10, 11, 12, 13, 14
Clase 2 5, 7, 8
Para la segunda iteración, se calculan los centros de gravedad de las dos clases obte-
nidas anteriormente; estos centros de gravedad son: (125,18, 143,3) para la primera clase
Objeto Distancia al núcleo 1 Distancia al núcleo 2

1 8381 14885
2 5140 10930
3 1600 5162
4 0 1082
5 1082 0
6 800 1082
7 1972 458
8 3457 3089
9 11304 19370
10 27765 36305
11 36644 46922
12 35201 44185
13 32420 39730
14 38725 46121
Cuadro 8.2: Distancias cuadráticas de los 14 objetos a los núcleos iniciales.
y (53, 73) para la segunda clase. Los núcleos que se usarán en esta iteración serán estos
centros.
Ahora se calculan las distancias entre los 14 puntos y estos núcleos, obteniéndose las
distancias dadas en la tabla 8.3.
1 10607.53 5290
2 3476.33 2161
3 7395.93 493
4 9931.93 653
5 16093.73 3385
6 9391.93 1813
7 15431.13 4405
8 9923.93 4682
9 5577.13 6689
10 4801.33 21536
11 8508.73 29005
12 8421.53 28418
13 8432.33 26825
14 12187.13 32882
Cuadro 8.3: Distancias de los 14 objetos a los núcleos de la segunda iteración.
Al asignar los objetos al núcleo más cercano se obtiene la clasificación:
Objetos
Clase 1 9, 10, 11, 12, 13, 14
Clase 2 1, 2, 3, 4, 5, 6, 7, 8
Al comparar la clasificación anterior con la obtenida en la primera iteración, se nota

que los objetos 1, 2, 3, 4 y 6 pasaron de la primera clase a la segunda clase. Este cambio
hará variar los centros de gravedad de las clases. En efecto, para empezar la tercera itera-
ción, se calculan los centros de gravedad de las dos clases y se obtienen (194,83, 147) para
la primera clase y (49,625, 187,1) para la segunda. El cálculo de las distancias cuadráticas
de los objetos a los dos centros de gravedad da como resultado la tabla 8.4.

1 29008.04 7290.947
2 16402.24 3713.067
3 24027.04 1123.147
4 26267.04 155.1469
5 33730.64 1938.807
6 22795.04 885.9469
7 30605.44 2706.787
8 19845.64 3380.907
9 18491.04 9269.747
10 327.24 23930.57
11 1831.04 32134.55
12 738.44 30939.39
13 549.44 28584.99
14 1761.64 34622.31
Cuadro 8.4: Distancias de los 14 objetos a los núcleos de la tercera iteración.
La clasificación basada en las distancias anteriores es:
Objetos
Clase 1 10, 11, 12, 13, 14
Clase 2 1, 2, 3, 4, 5, 6, 7, 8, 9
que es precisamente la “clasificación natural” deseada. En efecto, al calcular los centros de

gravedad de las clases se obtienen (213,8, 137) para la primera clase y (51,889, 176,7) para
la segunda. Ahora, si se calculan las distancias de los objetos a estos nuevos núcleos se
notará que ningún objeto cambia de clase, por lo que el cálculo de los centros de gravedad
tampoco cambiará los núcleos. Estas distancias son dadas en la tabla 8.5.
De esta forma, se obtiene lo que llama una clasificación estable o convergente, que ya
no será modificada por el algoritmo.
Puede observarse que los núcleos de las dos clases han ido modificándose, según se
muestra en la tabla siguiente:
Iteración 1 Iteración 2 Iteración 3 Iteración 4

Clase 1 40 195 125.18 143.3 194.83 147 213.8 137
Clase 2 29 226 53 73 49.625 187.1 51.89 176.7
Esta evolución de los núcleos, y su carácter de centros de atracción de los demás puntos
para constituir las clases, es lo que le da el nombre a este método de nubes dinámicas.
Esta evolución de los núcleos puede ilustrarse mediante la figura 8.2.

1 34871.44 5764.462
2 21321.64 2534.822
3 30530.44 612.2621
4 33570.44 476.2621
5 42072.04 2954.442
6 29738.44 1532.662
7 38560.84 3915.982
8 26257.04 4314.342
9 22614.44 7333.662
10 496.64 22187.32
11 914.44 29856.86
12 53.84 29112.98
13 404.84 27320.18
14 1033.04 33380.14
Cuadro 8.5: Distancias de los objetos a los núcleos finales obtenidos.
•
1 • •
1◦3
4?2
• ••
2 ◦3?4
• • •
• • •
Figura 8.2: Evolución de los núcleos para el método de nubes dinámicas (1a iteración: ,
2a iteración: , 3a iteración: ◦, 4a iteración: ?).
Ejemplo 8.3.3 ¿Qué pasa si los núcleos iniciales se escogen de forma diferente? Por
ejemplo, si se escogen como núcleos iniciales los objetos 5 (29, 226) y 7 (46, 239), enton-
ces se obtiene la evolución de las clases dada en la tabla 8.6, alcanzándose también la
clasificación natural1 .
Iteración Clase Núcleos Objetos
1 1 (29, 226) 1, 2, 3, 4, 5, 9
2 (46, 239) 6, 7, 8, 10, 11, 12, 13, 14
2 1 (46,17, 150,3) 1, 2, 3, 4, 5, 6, 7, 8, 9
2 (157,4, 171,6) 10, 11, 12, 13, 14
3 1 (51,89, 176,7) 1, 2, 3, 4, 5, 6, 7, 8, 9
2 (213,8, 137) 10, 11, 12, 13, 14
Cuadro 8.6: Evolución de las clases escogiendo los objetos 5 y 7 como núcleos iniciales.
Ejemplo 8.3.4 Consideremos ahora la tabla de datos dada en la tabla 8.7, que muestra
20 puntos caracterizados por dos variables x, y.
Objeto x y
1 1 1
2 2 1
3 1.5 1.5
4 1 2
5 2 2
6 1 3
7 2 6
8 2 7
9 2 8
10 3 6
11 3 7.5
12 3.5 8.5
13 4 7
14 5 4
15 5 5
16 5.5 3.5
17 6 4
18 6 5
19 6 6
20 7 5
Cuadro 8.7: Tabla de 20 objetos caracterizados por dos variables x, y.
Los objetos se representan en el plano mediante la configuración de 20 puntos mostrada

en el figura 8.3, observándose que hay tres clases “naturales” de objetos: una clase con
los objetos del 1 al 6, otra clase conteniendo los objetos del 7 al 13, y la tercera clase con
los objetos del 14 al 20.
1
El lector no debe creer que siempre se obtiene clasificación natural, para ello véanse los dos ejemplos
que siguen.
•12
9•
•11
8• •13
7• •10 •19
15• •18 •20
14• •17
•16
6•
4• •5
3•
1• •2
Figura 8.3: Configuración de 20 objetos en el plano.
En la primera iteración, se escogen al azar tres objetos, digamos que los objetos esco-
gidos son el objeto 1 (1, 1), el objeto 6 (1, 3) y el objeto 8 (2, 7). Estos tres objetos serán
los núcleos iniciales y luego se calculan las distancias de los 20 objetos a los núcleos,
obteniéndose las distancias al cuadrado dadas en la tabla 8.8.
Objeto Distancia al núcleo 1 Distancia al núcleo 2 Distancia al núcleo 3
1 4 0 37
2 5 1 36
3 2.5 0.5 30.5
4 1 1 26
5 2 2 25
6 0 4 17
7 10 26 1
8 17 37 0
9 26 50 1
10 13 29 2
11 24.25 46.25 1.25
12 36.5 62.5 4.5
13 25 45 4
14 17 25 18
15 20 32 13
16 20.5 26.5 24.5
17 26 34 25
18 29 41 20
19 34 50 17
20 40 52 29
Cuadro 8.8: Distancias de los 20 objetos a los núcleos de la primera iteración.
Al clasificar los objetos en la clase del núcleo más cercano, se obtiene la siguiente
clasificación2 :
2
Debe notarse que la distancia de los objetos 4 y 5 al núcleo de la clase 1 es igual a la distancia de cada
uno al núlceo de la clase 2, por lo que la asignación de ambos a la clase 1 es arbitraria; todo programa
del método de nubes dinámicas debe prever esta situación.
Objetos
Clase 1 4, 5, 6, 14, 16
Clase 2 1, 2, 3
Clase 3 7, 8, 9, 10, 11, 12, 13, 15, 17, 18, 19, 20
Para proceder a la segunda iteración, se calculan los centros de gravedad de las cla-
ses recién formadas. obteniéndose (2,9, 2,9) para la clase 1, (1,5, 1,17) para la clase 2 y
(4,13, 6,25) para la clase 3. Estos centros de gravedad son los nuevos núcleos y se calculan
las distancias de todos los objetos a estos núcleos, obteniéndose las distancias cuadráticas
dadas en la tabla 8.9.

1 7.22 0.277889 37.32813
2 4.42 0.277889 32.07813
3 3.92 0.110889 29.45313
4 4.42 0.943889 27.82813
5 1.62 0.943889 22.57813
6 3.62 3.609889 20.32813
7 10.42 23.60789 4.578125
8 17.62 34.27389 5.078125
9 26.82 46.93989 7.578125
10 9.62 25.60789 1.328125
11 21.17 42.35689 2.828125
12 31.72 57.77289 5.453125
13 18.02 40.27389 0.578125
14 5.62 20.27589 5.828125
15 8.82 26.94189 2.328125
16 7.12 21.44289 9.453125
17 10.82 28.27589 8.578125
18 14.02 34.94189 5.078125
19 19.22 43.60789 3.578125
20 21.22 44.94189 9.828125
Cuadro 8.9: Distancias de los 20 objetos a los núcleos de la segunda iteración.
Al asignar los objetos a la clase correspondiente al núcleo más cercano, se obtiene la

clasificación siguiente:
Objetos
Clase 1 6, 16
Clase 2 1, 2, 3, 4, 5
Clase 3 7, 8, 9, 10, 11, 12, 13, 14, 15, 17, 18, 19, 20
Los centros de gravedad de las clases, para las tres iteraciones siguientes, son:
Iteración 3 Iteración 4 Iteración 5

Centro de gravedad de la clase 1: (3,25, 3,25) (5,25, 3,75) (5,75, 4,42)
Centro de gravedad de la clase 2: (1,5, 1,5) (1,42, 1,75) (1,42, 1,75)
Centro de gravedad de la clase 3: (4,19, 6,08) (4,13, 6,25) (3,19, 7)
Las distancias de los objetos a los respectivos núcleos, durante esas tres iteraciones,
fueron las dadas en la tabla 8.10.
Objeto n1 n2 n3 n1 n2 n3 n1 n2 n3
1 10.13 0.50 35.96 25.63 0.74 37.33 34.24 0.74 40.79
2 6.63 0.50 30.58 18.13 0.90 32.08 25.74 0.90 37.41
3 6.13 0.00 28.20 19.13 0.07 29.45 26.57 0.07 33.10
4 6.63 0.50 26.81 21.13 0.24 27.83 28.40 0.24 29.79
5 3.13 0.50 21.43 13.63 0.40 22.58 19.90 0.40 26.41
6 5.13 2.50 19.66 18.63 1.74 20.33 24.57 1.74 20.79
7 9.13 20.50 4.81 15.63 18.40 4.58 16.57 18.40 2.41
8 15.63 30.50 5.66 21.13 27.90 5.08 20.73 27.90 1.41
9 24.13 42.50 8.50 28.63 39.40 7.58 26.90 39.40 2.41
10 7.63 22.50 1.43 10.13 20.57 1.33 10.07 20.57 1.04
11 18.13 38.25 3.45 19.13 35.57 2.83 17.07 35.57 0.29
12 27.63 53.00 6.35 25.63 49.90 5.45 21.73 49.90 2.35
13 14.63 36.50 0.89 12.13 34.23 0.58 9.73 34.23 0.66
14 3.63 18.50 4.97 0.13 17.90 5.83 0.74 17.90 12.28
15 6.13 24.50 1.81 1.63 23.40 2.33 0.90 23.40 7.28
16 5.13 20.00 8.35 0.13 19.73 9.45 0.90 19.73 17.60
17 8.13 26.50 7.58 0.63 26.07 8.58 0.24 26.07 16.91
18 10.63 32.50 4.43 2.13 31.57 5.08 0.40 31.57 11.91
19 15.13 40.50 3.27 5.63 39.07 3.58 2.57 39.07 8.91
20 17.13 42.50 9.04 4.63 41.73 9.83 1.90 41.73 18.53
Cuadro 8.10: Distancias de los objetos a los núcleos en las iteraciones 3, 4 y 5.
Las clases evolucionaron de la siguiente forma:

Clase 1: 14,16 14,15,16,17,18,20 14,15,16,17,18,19,20
Clase 2: 1,2,3,4,5,6 1,2,3,4,5,6 1,2,3,4,5,6
Clase 3: 7,8,9,10,11,12,13,15,17,18,19,20 7,8,9,10,11,12,13,19 7,8,9,10,11,12,13
Para la sexta iteración, se tienen los núcleos (5,79, 4,64) para la clase 1, (1,42, 1,75)
para la clase 2, y (2,79, 7,14) para la clase 3. Las distancias cuadráticas de los 20 objetos
a estos núcleos son dadas por la tabla 8.11.
Ası́, se obtiene la misma clasificación que en la iteración precedente, que es precisa-
mente la clasificación “natural”.

1 36.177 0.7364 40.926
2 27.605 0.9024 38.354
3 28.248 0.0694 33.497
4 29.891 0.2364 29.64
5 21.319 0.4024 27.068
6 25.605 1.7364 20.354
7 16.175 18.402 1.9242
8 19.889 27.902 0.6382
9 25.603 39.402 1.3522
10 9.6032 20.568 1.3522
11 15.924 35.568 0.1732
12 20.102 49.901 2.3512
13 8.7452 34.234 1.4942
14 1.0312 17.9 14.78
15 0.7452 23.4 9.4942
16 1.3882 19.733 20.637
17 0.4592 26.066 20.208
18 0.1732 31.566 14.922
19 1.8872 39.066 11.636
20 1.6012 41.732 22.35
Cuadro 8.11: Distancias de los 20 objetos a los núcleos de la sexta iteración.

Ejemplo 8.3.5 Para el ejemplo anterior, serı́a interesante saber qué pasa si la escogencia
de los núcleos iniciales es diferente de la dada. Si cada uno de los núcleos iniciales está en
una clase “natural”, entonces es bastante claro que se obtendrán las tres clases “naturales”
muy rápidamente. Ahora bien, si, como en el caso del ejemplo presentado, dos de los
núcleos están en una misma clase “natural”, entonces puede que no siempre se obtenga
la partición deseada. Este es el caso cuando se escogen como núcleos iniciales los objetos
5 (5, 5), 8 (2, 7) y 9 (2, 8).
Las distancias de los 20 objetos a estos centros son dadas por la tabla 8.12.
1 50 37 32
2 49 36 25
3 42.5 30.5 25
4 37 26 25
5 36 25 18
6 26 17 20
7 4 1 10
8 1 0 13
9 0 1 18
10 5 2 5
11 1.25 1.25 10
12 2.5 4.5 15
13 5 4 5
14 25 18 1
15 18 13 0
16 32.5 24.5 2.5
17 32 25 2
18 25 20 1
19 20 17 2
20 34 29 4
Cuadro 8.12: Distancias de los 20 objetos a los nuevos núcleos (ejemplo 5).
Ası́, se obtiene la clasificación siguiente:
Objetos
Clase 1 9, 11, 12
Clase 2 6, 7, 8, 10, 13
Clase 3 1, 2, 3, 4, 5, 14, 15, 16, 17, 18, 19, 20
Los núcleos calculados en las siguientes tres iteraciones son:

Centro de gravedad de la clase 1: (2,83, 8) (3,13, 7,75) (2,9, 7,6)
Centro de gravedad de la clase 2: (2,4, 5,8) (2,25, 5) (2,5, 4,75)
Centro de gravedad de la clase 3: (4, 3,33) (3,92, 3,5) (4,27, 3,46)
Las distancias de los objetos a los respectivos núcleos, durante esas tres iteraciones,
están dadas en la tabla 8.13.

Objeto n1 n2 n3 n1 n2 n3 n1 n2 n3
1 52.36 25.00 14.43 50.08 17.56 14.76 47.17 16.31 16.74
2 49.69 23.20 9.43 46.83 16.06 9.92 44.37 14.31 11.19
3 44.03 19.30 9.60 41.70 12.81 9.84 39.17 11.56 11.51
4 39.36 16.40 10.77 37.58 10.56 10.76 34.97 9.81 12.83
5 36.69 14.60 5.77 34.33 9.06 5.92 32.17 7.81 7.28
6 28.36 9.80 9.11 27.08 5.56 8.76 24.77 5.31 10.92
7 4.69 0.20 11.13 4.33 1.06 9.92 3.37 1.81 11.64
8 1.69 1.60 17.47 1.83 4.06 15.92 1.17 5.31 17.73
9 0.69 5.00 25.81 1.33 9.06 23.92 0.97 10.81 25.82
10 4.03 0.40 8.13 3.08 1.56 7.09 2.57 1.81 8.10
11 0.28 3.25 18.39 0.08 6.81 16.84 0.02 7.81 17.98
12 0.69 8.50 26.98 0.70 13.81 25.17 1.17 15.06 26.05
13 2.36 4.00 13.47 1.33 7.06 12.26 1.57 7.31 12.64
14 20.70 10.00 1.45 17.58 8.56 1.42 17.37 6.81 0.83
15 13.70 7.40 3.79 11.08 7.56 3.42 11.17 6.31 2.92
16 27.36 14.90 2.28 23.70 12.81 2.51 23.57 10.56 1.51
17 26.03 16.20 4.45 22.33 15.06 4.59 22.57 12.81 3.28
18 19.03 13.60 6.79 15.83 14.06 6.59 16.37 12.31 5.37
19 14.03 13.00 11.13 11.33 15.06 10.59 12.17 13.81 9.46
20 26.36 21.80 11.79 22.58 22.56 11.75 23.57 20.31 9.82
Cuadro 8.13: Distancias de los objetos a los núcleos durante las iteraciones 2, 3 y 4.
Las clases evolucionaron de la siguiente forma:

Clase 1: 9,11,12,13 8,9,11,12,13 8,9,11,12,13
Clase 2: 2,7,8,10 4,6,7,10 4,6,7,10
Clase 3: 1,3,4,5,6,14,15,16,17,18,19,20 1,2,3,5,14,15,16,17,18,19,20 1,2,3,5,14,15,16,17,18,19,20
Se aprecia por lo tanto que la clasificación final obtenida no es la misma que en el

ejemplo anterior, cuando se escogieron de manera diferente los núcleos.
Ejemplo 8.3.6 Otro asunto importante a considerar es el del número de clases. Hemos
dicho que el método de Nubes Dinámicas encuentra una partición de Ω en un número k
de clases, donde k es dado a priori. Ahora bien, puede suceder que este número de clases,
solicitado por el usuario del método, no sea un número “natural” de clases En efecto,
supóngase que para el ejemplo de los 20 objetos del plano el usuario no disponga (como
sucede en general) de la representación en el plano, y que pide 2 clases en lugar de tres.
Si la escogencia al azar de los núcleos iniciales es: 10 (3, 6) y 16 (5,5, 3,5), entonces
se obtiene estabilidad luego de cuatro iteraciones; la evolución de las clases se muestra en
la tabla 8.14.
Las distancias, en esas iteraciones, son las dadas por la tabla 8.15. Puede verse que en
la clasificación final el objeto 19 queda clasificado con los objetos “de arriba”, los objetos
7, 8, 9, 10, 11, 12 y 13.
Iteración Clase Núcleos Partición

1 1 (3, 6) 4,5,7,8,9,10,11,12,13
2 (5,5, 3,5) 1,2,3,5,14,15,16,17,18,19,20
2 1 (2,389, 6,111) 7,8,9,10,11,12,13
2 (4,273, 3,455) 1,2,3,4,5,14,15,16,17,18,19,20
3 1 (2,786, 7,143) 7,8,9,10,11,12,13,19
2 (3,769, 3,308) 1,2,3,4,5,14,15,16,17,18,20
4 1 (3,188, 7) 7,8,9,10,11,12,13,19
2 (3,583, 3,083) 1,2,3,4,5,14,15,16,17,18,20
Cuadro 8.14: Evolución de las clases para las 4 iteraciones.
8.3.4. Ejemplo de las notas escolares

La presentación de cualquier resultado del método de nubes dinámicas, dependerá de
la escogencia inicial de los núcleos. En una ejecución con Chadoc, se obtuvo la siguiente
clasificación en tres clases de los estudiantes de la tabla de notas escolares:
C1 = {Lucı́a,Inés,Ana,Marı́a}
C2 = {Luis,Carlos}
C3 = {Pedro,Andrés,José,Sonia}.
La inercia inter-clases de esta partición es: B = 1,37. Ahora bien, se sabe que la partición
optimal es:
C1 = {Lucı́a,Andrés,Carlos,Marı́a}
C2 = {Luis,Sonia}
C3 = {Pedro,Inés,Ana,José},
cuya inercia inter-clases es: B = 4,97 (puede verse en el plano principal –ver capı́tulo 3–
que esta partición es la que se observa como resultado del A.C.P.).
Hay que mencionar que el método de nubes dinámicas encontró la partición óptima
en dos clases, a saber:
C1 = {Lucı́a,Andrés,Carlos,Marı́a,Luis,Sonia}
C2 = {Pedro,Inés,Ana,José},
8.4. Análisis de las formas fuertes

Como pudo observarse sobre los ejemplos de la sección 8.3.3, los resultados del método
de nubes dinámicas (y de otros de particionamiento) dependen de la configuración dada
inicialmente. Por ello se recomienda ejecutar el algoritmo varias veces y examinar los
individuos que quedaron en la misma clase en todas las ocasiones. Estos grupos se llaman
formas fuertes.
Ejemplo 8.4.1 Supóngase que se tienen 9 individuos x1 , x2 , . . . , x9 que fueron clasifica-

dos en 3 clases mediante el método de nubes dinámicas. Se aplicó el método en 4 ocasiones,
8.4 Análisis de las formas fuertes 171
Iteración 1 Iteración 2 Iteración 3 Iteración 4

Objeto n1 n2 n1 n2 n1 n2 n1 n2
1 29 26.5 28.05 16.74 40.93 12.99 40.79 11.01
2 26 18.5 26.27 11.19 38.35 8.46 37.41 6.84
3 22.5 20 22.05 11.51 33.50 8.42 33.10 6.84
4 20 22.5 18.83 12.83 29.64 9.38 29.79 7.84
5 17 14.5 17.05 7.28 27.07 4.84 26.41 3.68
6 13 20.5 11.61 10.92 20.35 7.76 20.79 6.68
7 1 18.5 0.16 11.64 1.92 10.38 2.41 11.01
8 2 24.5 0.94 17.73 0.64 16.76 1.41 17.85
9 5 32.5 3.72 25.82 1.35 25.14 2.41 26.68
10 0 12.5 0.39 8.10 1.35 7.84 1.04 8.85
11 2.25 22.25 2.30 17.98 0.17 18.16 0.29 19.85
12 6.5 29 6.94 26.05 2.35 27.03 2.35 29.35
13 2 14.5 3.39 12.64 1.49 13.68 0.66 15.52
14 8 0.5 11.27 0.83 14.78 1.99 12.28 2.85
15 5 2.5 8.05 2.92 9.49 4.38 7.28 5.68
16 12.5 0 16.50 1.51 20.64 3.03 17.60 3.85
17 13 0.5 17.50 3.28 20.21 5.46 16.91 6.68
18 10 2.5 14.27 5.37 14.92 7.84 11.91 9.52
19 9 6.5 13.05 9.46 11.64 12.22 8.91 14.35
20 17 4.5 22.50 9.82 22.35 13.30 18.53 15.35
Cuadro 8.15: Distancias de los 20 objetos a los núcleos en cada iteración cuando se escogen
dos clases.
obteniéndose 4 particiones P1 , P2 , P3 , P4 con los siguientes resultados:

P1 = {(x1 , x2 , x3 )(x4 )(x5 , x6 , x7 , x8 , x9 )}
P2 = {(x1 , x2 , x3 , x4 )(x5 , x6 )(x7 , x8 , x9 )}
P3 = {(x1 , x2 ), (x3 )(x4 , x5 , x6 , x7 , x8 , x9 )}
P4 = {(x1 , x2 , x3 )(x4 , x5 , x6 )(x7 , x8 , x9 )}
Entonces las formas fuertes son:
P0 = {(x1 , x2 )(x3 )(x4 )(x5 , x6 )(x7 , x8 , x9 )}
Se suele recomendar analizar las formas fuertes contando el número de veces en que
ellas fueron agrupadas juntas en las particiones creadas, y ası́ formar una matriz de simi-
litudes. Cada entrada de esta matriz contendrá el número de veces que las formas fuertes
en fila y columna estuvieron juntas en las particiones estudiadas. A partir de esta ma-
triz se crea una de disimilitudes y ésta es analizada mediante una clasificación jerárquica
ascendente.
Ejemplo 8.4.2 En el ejemplo anterior, se tendrı́a la matriz de similitudes:

(x1 , x2 ) 4 3 1 0 0
(x3 ) 3 4 1 0 0
(x4 ) 1 1 4 2 1
(x5 , x6 ) 0 0 2 4 2
(x7 , x8 , x9 ) 0 0 1 2 4
A partir de esta matriz de similitudes se puede construir una de disimilitudes, restando

al número de particiones consideradas (4) el valor de la similitud. En el ejemplo, las
disimilitudes serı́an:
(x1 , x2 ) 0 1 3 4 4
(x3 ) 1 0 3 4 4
(x4 ) 3 3 0 2 3
(x5 , x6 ) 4 4 2 0 2
(x7 , x8 , x9 ) 4 4 3 2 0
Usando la agregación del salto promedio, se obtiene el siguiente árbol de clasificación

jerárquica:
(x1 , x2 )
(x3 )
(x4 )
(x5 , x6 )
(x7 , x8 , x9 )
Según el árbol anterior, la clasificación en tres clases serı́a:

∗
P = {(x1 , x2 , x3 )(x4 )(x5 , x6 , x7 , x8 , x9 )}
Debemos mencionar que para obtener tal clasificación, cuando se analizó las disimilitudes:
d[(x5 , x6 ), (x7 , x8 , x9 )] = 2 = d[(x5 , x6 ), (x4 )], y se escogió agregar (x5 , x6 ) con (x7 , x8 , x9 );
en caso que se hubiera escogido agregar (x5 , x6 ) con (x4 ) entonces la partición en tres
clases obtenida hubiera sido:
P ∗ = {(x1 , x2 , x3 )(x4 , x5 , x6 )(x7 , x8 , x9 )}.
Ejercicios
1. Considere la siguiente tabla de disimilitudes d entre cinco elementos a1 , a2 , a3 , a4 , a5 :
a1 a2 a3 a4 a5
a1 0 3 7 3 4
a2 3 0 4 4 1
a3 7 4 0 2 6
a4 3 4 2 0 1/2
a5 4 1 6 1/2 0
Dibuje el árbol de clasificación jerárquica a partir de la tabla anterior usando el

algoritmo ascendente con las agregaciones del salto mı́nimo, del salto máximo y del
salto promedio.
2. Supóngase que 6 objetos a, b, c, d, e, f están descritos por 18 variables de presencia-

ausencia, según la tabla:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
a 0 1 0 1 1 0 0 1 0 1 1 0 1 0 0 1 1 0
b 0 0 0 0 0 0 1 0 0 1 0 0 0 1 1 0 1 1
c 0 0 1 0 0 0 1 0 0 1 1 1 1 0 1 0 0 1
d 0 1 0 1 0 1 0 0 0 0 1 0 1 1 0 0 1 0
e 1 0 1 0 0 1 0 0 0 1 0 0 0 1 0 0 0 0
f 1 0 0 1 1 1 0 1 1 0 1 0 0 1 0 1 1 0
a) Calcule la similitud entre los cinco objetos usando el ı́ndice de Jaccard y el

ı́ndice de Russel y Rao.
b) Ordene las parejas de individuos de menor a mayor, para cada uno de los dos
ı́ndices.
c) Compare los os órdenes. ¿Encuentran ambos ı́ndices los mismos “parecidos”
entre los objetos? Es decir, ¿ordenan de la misma forma las parejas de objetos
según su similitud?
d ) Deduzca el valor de la disimilitud correspondiente para cada caso.
3. Considérese los siete puntos x1 , x2 , . . . , x7 tales que sus distancias euclı́deas son:
x1 x2 x3 x4 x5 x6 x7
x1 0
x2 0,5 0
x3 0,4 0,55 0
x4 2,51 2 2,3
x5 3 2,5 2,8 0,41 0
x6 3,3 2,81 3,2 0,6 0,7 0
x7 4,4 4 4,2 4,5 1,5 1,4 0
Construya el árbol jerárquico correspondiente a los datos anteriores usando la agre-

gación del salto mı́nimo y la agregación de Ward (para esta última debe usar la
fórmula de recurrencia).
4. Considérese la siguiente tabla de disimilitudes entre 5 tipos de carros:
carro 1 carro 2 carro 3 carro 4 carro 5

carro 1 0 0.725 0.925 0.95 0.935
carro 2 0 0.975 0.94 0.96
carro 3 0 0.955 0.945
carro 4 0 0.69
carro 5 0
Construya el árbol de clasificación jerárquica usando la agregación de salto mı́nimo.
5. Considere la siguiente tabla de datos, con 2 variables sobre 5 individuos:
Individuo x y
1 1 1
2 1 2
3 6 3
4 8 2
5 8 0
a) Calcule la distancia euclı́dea clásica entre los individuos y la distancia “city-

block”.
b) Construya un árbol de clasificación jerárquica usando las agregaciones del salto
mı́nimo, del salto máximo y del salto promedio.
c) Dibuje un diagrama de dispersión de los puntos en el plano x − y (use la misma
escala para ambas variables). ¿Corresponden las clasificaciones obtenidas con
las observadas en el diagrama?
6. Considere la siguiente tabla de datos, con 3 variables sobre 6 individuos:
Individuo x1 x2 x3
1 2 4 9
2 5 6 6
3 8 8 7
4 6 5 6
5 2 5 9
6 8 9 5
Calcule la distancia “city-block” y construya un árbol de clasificación jerárquica

usando la agregación del salto mı́nimo y del salto máximo.
7. Considérese la siguiente tabla de datos, que contiene algunas causas de muerte para
cada 100.000 habitantes en algunos paı́ses occidentales.
Suic Homic AccRuta AccInd OtrAcc Cirro

Austria 241 16 330 43 363 325
Francia 156 9 225 10 535 328
Portugal 85 19 349 7 281 345
Alemania Fed. 210 12 230 21 198 169
Bélgica 156 10 260 13 367 144
Finlandia 251 26 180 29 387 55
Suecia 194 11 151 13 384 122
Suiza 225 9 195 26 276 128
Italia 54 11 219 19 224 319
Irlanda del Norte 40 136 215 18 320 43
Dinamarca 241 6 168 11 230 107
Islandia 101 5 179 23 380 9
Escocia 82 15 155 18 342 59
España 40 4 136 17 237 225
Noruega 38 7 182 32 314 37
Rep. Irlanda 38 7 182 32 314 47
Holanda 89 7 169 10 218 47
Inglaterra - Gales 79 10 130 14 203 36
Estados Unidos 121 102 220 26 273 158
Suic: suicidio; Homic: homicio; AccRuta: accidentes de carretera; AccInd: accidentes

individuales; OtrAcc: otros accidentes; Cirro: cirrosis.
Utilizando un paquete estadı́stico:
a) Haga un Análisis en Componentes Principales y un Análisis de Corresponden-
cias de la tabla anterior, con 3 ejes factoriales. Interprete los tres ejes.
b) Haga una clasificación usando el método de nubes dinámicas y 4 clases, esco-
giendo al azar las clases iniciales.
c) Haga una clasificación jerárquica usando la distancia euclı́dea clásica y la agre-
gación de Ward.
d ) Compare los resultados de los métodos anteriores.
8. Aplique el método de nubes dinámicas sobre la tabla de consumo de proteı́nas en
Europa (ver ejercicios del capı́tulo 4) 5 veces, usando particiones aleatorias en cada
ocasión. Luego, determine las formas fuertes.
9. Aplique el método de nubes dinámicas sobre la tabla de notas escolares francesas
5 veces, usando particiones aleatorias en cada ocasión. Luego, determine las formas
fuertes.
h
Capı́tulo 9
Análisis Discriminante
9.1. Introducción
La discriminación trata de distinguir clases existentes dentro de un conjunto de datos.
Las clases son dadas a priori por alguna variable cualitativa observada, que será llamada
variable a explicar. Además, se dispone de variables explicativas x1 , x2 , . . . , xp , que por
el momento supondremos que son cuantitavas.
Veamos algunas situaciones en que puede aparecer la discriminación:
El Diagnóstico médico: durante algunos años, se ha hecho una base de datos

que contiene una serie de observaciones sobre mediciones clı́nicas concernientes a
alguna enfermedad especı́fica y mediciones fı́sicas acerca de los pacientes, y además
el diagnóstico dado por el médico, que puede ser de dos tipos: sano o enfermo.
Cuando llega un nuevo paciente con sı́ntomas similares a los de los pecientes que
están en la base de datos, entonces se necesita dar un diagnóstico lo más pronto
posible y lo más acertado posible.
Con base en todo el historial de que se dispone, se espera que la experiencia acumu-
lada sirva para crear variables discriminantes que permitan hacer el diagnóstico.
La previsión meteorológica: en Meteorologı́a, se quiere prever el tiempo de un

dı́a para un lugar determinado, anunciando por ejemplo que el clima será lluvioso,
asoleado, nublado, etc. Para ello, se dispone de una serie de observaciones acerca
de la velocidad del viento, de la humedad relativa, de la presión atmosférica, de la
dirección del viento, de imágenes satélite acerca del comportamiento de las nubes,
etc.
Con base en la experiencia acumulada a través del tiempo, viendo cual ha sido el
comportamiento del clima cuando se tenı́a a disposición el conjunto de variables
explicativas, entonces se quiere hacer la previsión lo más acertada posible. La im-
177
178 Análisis Discriminante
portancia que esto reviste es muy grande para algunos sectores como la agricultura,
la pesca, la aviación, la previsión de emergencias, etc.
La asignación de créditos: una empresa financiera debe decidir si otorga un crédi-

to a una persona que lo solicita. Generalmente, se solicita una serie de datos a los
demandantes como el ingreso mensual, si tienen hipotecas, si tienen propiedades
o vehı́culos, el estado civil el número de hijos, etc. Toda esta información puede
servir para discriminar entre los que serán buenos y malos pagadores, siempre que
se disponga de un historial suficiente acerca del comportamiento de las personas a
las que ya se les ha otorgado un crédito con anterioridad.
Existen muchas técnicas para hacer la discriminación; nosotros nos centraremos en el

llamado Análisis Factorial Discriminante y únicamente haremos una breve referencia a
otras técnicas. El lector innteresado podrá consultar otras fuentes más especializadas en
la discriminación para profundizar en el tema.
9.2. Análisis Factorial Discriminante

Como hemos descrito en la introducción, la discriminación trata de reconocer grupos
dados a priori, a partir de un conjunto de datos explicativos. Se dispondrá de un conjunto
de variables explicativas, normalmente cuantitativas, a partir de las cuales trataremos de
construir la caracterización de las clases dadas. Estas caracterizaciones son conocidas
como funciones discriminantes, que son combinaciones lineales de las variables originales,
y que permiten además asignar una clase a un nuevo individuo con fines decisionales.
A continuación presentaremos un método geométrico para hacer Análisis Factorial Dis-
criminante. Los métodos geométricos tratan de usar las herramientas del Álgebra Lineal
con el fin de construir las funciones discriminantes.
9.2.1. Plantemiento del problema

Dispondremos de n individuos x1 , x2 , . . . , xn descritos por pPvariables cuantitativas
x1 , x2 , . . . , xp ; los individuos están dotados de pesos pi > 0 con i pi = 1, que miden la
importancia relativa del individuo en el análisis. En el espacio de los individuos E = Rp
se miden las distancias a partir de una métrica M (matriz simétrica definida positiva) tal
que ||x||M = xt M x, y en el espacio de las variablesF = Rn se usa la métrica de pesos
D = diag(pi ), ya que para variables centradas se tiene ||xj ||2D = var(xj ) y cos(xj , xk ) =
ρ(xj , xk ), la varianza y la correlación, respectivamente. Los individuos forman ası́ una nube
de puntos N = (X, M, D) que caracteriza la forma que tienen los n puntos–individuos Pn en
el espacio multidimensional. El centro de gravedad de la nube de puntos es g = i=1 pi xi ,
que es el vector formado por la media de todas las variables. En el caso en que se centren
las variables, este centro de gravedad se traslada al origen de coordenadas.
9.2 Análisis Factorial Discriminante 179
P N1 , . . . , Nk ,
Las k clases C1 , C2 , . . . , Ck dadas a priori en los individuos forman k subnubes
tales que N` = {xi |xi ∈ C` }. El centro de gravedad de la clase C` es g` = µ1` xi ∈C` pi xi ,
P
donde µ` = xi ∈C` pi es el peso de la clase C` . Se puede probar que el centro de gravedad
de los g` es g (ver ejercicios).
Se define la matriz de varianzas intra–clases como:
k
X
W = V`
`=1
donde: X
V` = pi (xi − gell )(xi − g` )t
xi ∈C`
es la matriz de varianzas de la clase `–ésima. La matriz de varianzas inter–clases es:

k
X
B= µ` (g` − g)(g` − g)t
`=1
que está formada por las varianzas entre las variables restringidas a los centros de gravedad
de las clases.
Si V es la matriz de varianzas–covarianzas total (observadas sobre todos los indivi-
duos), se tiene la importante relación de Fisher [26]:
V =W +B
En el anexo de este capı́tulo está probado este resultado para el caso de las inercias, pero
el lector puede hacer una demostración análoga para establecar la relación que damos
para el caso de las matrices de varianzas.
Se quieren construir nuevas variables en Rp , que sean combinación lineal de las varia-
bles originales xj , de tal forma que separen lo mejor posible (en proyección) a los k–grupos
existentes.
9.2.2. Solución del análisis factorial discriminante

En un primer paso se busca el eje a ∈ Rp , tal que en proyección sobre el eje a, los
k grupos (representados por los centros de gravedad) estén lo más separados posible,
mientras que cada subnube debe ser proyectada alrededor del centro de gravedad.
Recuérdese que ([31] o capı́tulo 3 sobre Análisis en Componentes Principales) que la
inercia de la nube N proyectada sobre el eje a es
I∆⊥ u = M V M (a, a)
cuando a es un vector unitario. Ası́, la inercia de la nube de los centros de gravedad
proyectada sobre a es M BM (a, a) = at M BM a, ya que B es la matriz de varianzas de los
centros de gravedad de las clases.
Véase que entonces buscar la separación de los centros de gravedad equivale a buscar
que, en proyección, estos centros tengan inercia máxima. Este es un problema similar al
del Análisis en Componentes Principales (A.C.P.).
Debido a la relación V = B + W , se tiene entonces que at M V M a = at M BM a +
at M W M a, es decir
at M BM a at M W M a
1= + t .
at M V M a a MV Ma
at M BM a at M W M a
Por lo tanto, la maximización de λ = at M V M a
es equivalente a la minimización de at M V M a
.
Para hacer esta minimización, se deriva vectorialmente λ respecto a a, obtiéndose que
hay un máximo si 2(at M V M a)BM a − 2(at M BM a)V M a = 0, esto es, si
V −1 Bu = λu,
donde u = M a y suponiendo que V es invertible. Es decir, la solución del problema se

obtiene al diagonalizar V −1 B. Además, el valor máximo de λ se obtiene con el mayor
valor propio de V −1 B
La determinación del eje a1 define una nueva variable C 1 = XM a1 ∈ F , que se
llamará la primera variable discriminante, asociada al vector propio u1 correspondiente al
mayor valor propio λ1 de V −1 B.
Una vez encontrada la primer variable discriminante C 1 asociada a a1 , se busca un

nuevo eje a2 , ortogonal a a1 , que cumpla con el mismo criterio. Se muestra que la solución
se obtiene con el vector propio u2 asociado al segundo valor propio de V −1 B, que define
la segunda variable discriminante C 2 = Xu2 .
Siguiendo con este procedimiento, se obtendrı́an las restantes variables discriminantes
C , C 4 , . . ., cada una asociada a un valor propio λj de V −1 B.
3
El poder discriminante de la variable discriminante C j es λj ≤ 1.
9.2.3. Un A.C.P. particular
Puede observarse que la solución del Análisis Factorial Discriminante se obtiene al

hacer el A.C.P. de la nube de centros de gravedad gk de las clases dada a priori, usando la
métrica V −1 , ya que B es la matriz de varianzas–covarianzas de los centros de gravedad.
Por lo tanto, se pueden hacer las representaciones gráficas usuales del A.C.P.: los pla-
nos principales, donde se representarı́an los centros de gravedad (y eventualmente, los
individuos como puntos suplementarios), y los cı́rculos de correlaciones que muestran
las correlaciones entre las variables discriminantes y las variables originales.
9.3 Análisis decisional: reglas geométricas de asignación 181
9.2.4. El caso de dos grupos

En el caso de dos grupos por discriminar, el eje discriminante es simplemente a =
g1 −g2 , la recta que une a los dos centros de gravedad. Ası́, se puede tomar u = V −1 (g1 −g2 )
como el factor discriminante; este factor es llamado la función de Fisher.
9.3. Análisis decisional: reglas geométricas de asig-

nación
Supóngase que se tiene un individuo x del cual se tienen las observaciones explicativas,
y se quiere asignarlo a alguna de las clases. Geométricamente, se suele asignar un individuo
x al grupo más cercano midiendo la distancia a los centros de gravedad, con la métrica
V −1 . Es decir, se busca `∗ tal que:
d(x, g`∗ ) = mı́n d(x, g` )

`
Esto es equivalente a encontrar `∗ tal que g`t V −1 g` − 2xt V −1 g` sea mı́nima.
Caso de dos grupos
En el caso de dos grupos, se asignará x a la clase 1 si xt V −1 (g1 − g2 ) (la función de

Fisher evaluada en x) es mayor que 21 (g1 + g2 )t V −1 (g1 − g2 ) (la función de Fisher evaluada
sobre el punto medio entre los dos centros de gravedad).
Observación: : Estas reglas son muchas veces inapropiadas si las clases tienen diferentes
cardinales. En efecto, el tamaño de una clase tiene un efecto atractor cuando se usa la
distancia W −1 . Por ello, en el caso en que las clases son de cardinales muy diferentes, se
recomienda mejor usar una distancia local Mk proporcional a Vk .
9.4. Discriminación paso a paso: selección de las va-

riables más discriminantes
En Análisis Factorial Discriminante, la obtención de la solución pasa por la diagona-
lización de una matriz p × p. Este cálculo puede ser sumamente pesado si p es bastante
grande, o bien los resultados pueden ser numéricamente inestables si las variables expli-
cativas están muy correlacionadas.
Antes de aplicar cualquier método de discriminación, se recomienda hacer una etapa
de selección de las variables explicativas más discriminantes, con el fin de usarlas para
la determinación de las funciones discriminentes. Algunos de estos métodos se llevan a
cabo al mismo tiempo que se calculan las variables discriminantes. Sin embargo, aquı́ des-
cribiremos uno que se hace como etapa previa a la discriminación, llamado método de
Sebestyen.
Se requiere que el conjunto Ω de individuos sea suficientemente grande, para dividirlo
en dos: un conjunto de aprendizaje, que servirá para el cálculo de las funciones discri-
minantes, y un conjunto de test, que servirá para medir la calidad de la discriminación.
Supongamos que la muestra de test tiene m elementos.
Para aplicar el método de Sebestyen se pueden usar varios criterios:
el porcentaje de buena clasificación de un conjunto de variables,
la maximización del lambda de Wilks: λ = traza(V −1 B),
la minimización de det(W )/det(V ).
A continuación examinaremos el procedimiento usando el primero de estos criterios.

Dada la partición a priori C1 , C2 , . . . , Ck y una partición P1 , P2 , . . . , Pk calculada de
alguna forma, se define el procentaje de buena clasificación de la partición de los Pl por
el porcentaje de elementos tales que son clasificados en la l-ésima clase y que provenı́an
de la l-ésima clase, es decir el porcentaje de elementos en la intersección Pl ∩ Cl .
Consideremos una función Sr,l : Rr −→ R, que mide la similitud entre un individuo x
descrito por r variables y la clase Cl . Esta función de similitud puede perfectamente ser
la distancia entre x y el centro de gravedad de la clase, ambos descritos por r variables;
sin embargo, la propuesta de Sebestyen para S es el promedio de las distancias de x a los
elementos de Cl , todos descritos por r variables, donde las distancias están definidas por
la métrica Vl−1 . la inversa de la matriz de covarianzas intra Cl . De hecho, se puede ver
que la escogencia de S corresponde a la escogencia de un ı́ndice de agregación en Rr .
El objetivo del método de selección de variables es determinar las variables xj que se
espera que sirvan mejor para efectuar la discriminación. Para ello, se determinará primero
la que posee el mejor porcentaje de buena clasificación usando la función S para clasifi-
car los individuos. Una vez determinada la primera función, se determina la segunda, y
ası́ sucesivamente. Hay que hacer notar que el cálculo de S se hace respecto a las clases
existentes Cl en la muestra de aprendizaje, que sirve para por ejemplo calcular los centros
de gravedad.
El algoritmo para la determinación de la primera variable serı́a:
para j := 1 hasta p hacer
para i := 1 hasta m hacer
para l := 1 hasta k hacer
calcular S1,l (xi ) usando sólo xj
escoger l∗ que optimice S1,l (xi )
asignar xi a la clase Pl∗
9.5 Evaluación de las funciones discriminantes 183
calcular el porcentaje Πj de buena clasificación de la partición P1 , . . . , Pk

escoger j ∗ con el máximo Πj
El procedimiento anterior, llamado discriminación paso a paso, determina una varia-

∗
ble x1 . Este procedimiento se reitera usando ahora S2,l (xi ) en lugar de S1,l (xi ), tomando
∗
dos variables: la x1 ya determinada y cada variable restante; de esta forma se determi-
∗ ∗
nan dos variables, la x1 que ya se tenı́a y una x2 que sea la mejor. Estas dos se usan
∗
como base para el cálculo de una tercera x3 , y ası́ sucesivamente. El criterio (porcentaje
de buena clasificación) normalmente crece con las primeras variables seleccionadas. El
procedimiento se detiene cuando el criterio cesa de crecer de manera significativa.
∗ ∗ ∗
Una vez determinadas q variables explicativas x1 , x2 , . . . , xq , entonces se aplica el
método de discriminación con esas variables, con el fin de encontrar las variables discri-
minantes.
La utilización del criterio de la maximización del lambda de Wilks: λr = traza(Vr−1 Br ),

usando para el cálculo r variables, tiene una interpretación clara proveniente de la solución
del Análisis Factorial Discriminante. En efecto, λr representa la suma de los valores propios
∗
de la matriz a diagonalizar. Ası́, se seleccionará en primer lugar a la variable xj que
maximiza traza(V1−1 B1 ), donde las matrices de covarianza son calculadas con una sola
∗
variables; una vez determinada xj , se calculan los valores traza(V2−1 B2 ) para cada una
de las variables restantes, donde las matrices de covarianzas son calculadas con base en
∗
dos variables: xj y cada una de las que se examinan. El procedimiento se continúa de
esta forma hasta que el crecimiento en el criterio para dos pasos sucesivos no sea tan
significativo (al llamado criterio “del codo”).
9.5. Evaluación de las funciones discriminantes
Al igual que en el método de selección de variables de Sebestyen, se dividen los indi-

viduos en dos grupos: un conjunto de aprendizaje y un conjunto de test. Se supone que
las funciones discriminantes son calculadas unicamente a partir de los individuos de la
muestra de aprendizaje.
A cada individuo x de la muestra de test, se le aplica la función discriminante como
en el caso decisional, y se examina a cual clase se le asigna. Se compara la clase obtenida
con la clase conocida a la que pertenece x. Si son iguales, entonces se dice que la función
discriminante reconoció la clase de x. Finalmente, se calcula el porcentaje de individuos
de la muestra test cuya clase fue reconocida. Este porcentaje es un ı́ndice de calidad
del método de discriminación, para la muestra dada.
Se puede notar que este método de evaluación de un conjunto de funciones discrimi-
nantes se puede usar en cualquier método de discriminación.
9.6. Ejemplos
Ejemplo 9.6.1 Se tiene un conjunto de 20 reses, de los cuales 10 son de raza cebú y 10
son de raza charolais. Se dispone la observación de 3 variables cuantitativas x1 , x2 , x3 de
cada una de ellas, según se muestra en la tabla que sigue:
Res x1 x2 x3 Grupo
1 1 400 224 1(cebu)
2 1 395 229 1
3 1 395 219 1
4 1 395 224 1
5 1 400 223 1
6 1 400 224 1
7 1 400 221 1
8 1 410 233 1
9 1 402 234 1
10 1 400 223 1
11 2 395 224 2(charolais)
12 2 410 232 2
13 2 405 233 2
14 2 405 240 2
15 2 390 217 2
16 2 415 243 2
17 2 390 229 2
18 2 405 240 2
19 2 420 234 2
20 2 390 223 2
Las matrices V y W de varianzascovarianzas entre las variables son:

   
63,984 40,602 −1,598 62,025 36,338 −4,629
V =  40,602 51,949 2,462  W = 36,338 42,644 −4,142 
−1,598 2,462 6,356 −4,629 −4,142 1,668
Usando como ı́ndice para selección de variables el lambda de Wilks Deet W/Det V,
entonces se selecciona primero a x3 ya que es la variable más explicativa según este ı́ndice
(da el valor mı́nimo):
V ariable |W |/|V |
x1 0,969
x2 0,821
3
x 0,262
Introduciendo x3 como variable explicativa, se calcula el lambda de Wilks para las otras
9.7 Otros métodos 185
dos variables:
V ariable |W |/|V |
x1 0,203
x2 0,167
Por lo tanto, se selecciona x2 como la segunda variable más explicativa.
9.7. Otros métodos

Existen muchos otros métodos de discriminación, que no detallaremos, pero que dare-
mos la idea general de como funcionan. La mayorı́a de ellos están basados en la teorı́a de
la probabilidad, como la discriminación bayesiana.
9.7.1. Métodos probabilı́sticos

Supongamos que los k grupos tienen proporciones p1 , p2 , . . . , pk y que la probabili-
dad para que un individuo x pertenezca a la clase l está dada por fl (x). Entonces, la
probabilidad de que el individuo x provenga de la clase l está dada por la regla de Bayes:
pl fl (x)
P (Cl |x) = Pk
j=1 pj fj (x)
Ası́, se asignará el individuo x a la clase l tal que P (Cl |x) sea máxima. Esto constiste en
maximizar pl fl (x)
El problema de la discriminación bayesiana consiste en la estimación de las probabili-
dades fl (x). Mencionaremos someramente en qué consiste uno de los métodos más usados
para esta estimación, llamado el método de los vecinos más cercanos.
Para estimar fl (x) = P (x|Cl ), se escoge un número K y para cada x ∈ Ω, se deter-
minan los K vecinos de Ω más cercanos de x, en el sentido de alguna proximidad (una
distancia euclı́dea, por ejemplo). Entre esos K vecinos, se cuentan cuántos pertenecen a
la clase C1 (digamos n1 ), cuántos a la clase C2 (digamos n2 ), . . ., cuántos a la clase Ck
(digamos nk ). Entonces se estima fl (x) por nl /K. Este método es uno de los más usados
en discriminación bayesiana.
El método anterior es una variante de otro basado en la estimación de fl (x) mediante
bolas. Se define un radio R y alrededor de cada x ∈ Ω se toman todos los individuos de
Ω que están a una distancia de x inferior a R. De esos individuos, se cuentan cuántos
pertenecen a cada clase. La proporción de esos elementos entre el total de los que están
en la bola de centro x y radio R es una estimación de fl (x). Un inconveniente de este
procedimiento es que se debe tener una buena estimación de R, de tal forma que no se
tengan muy pocos elementos en la bola de manera que la estimación no sirva.
Finalmente, otro de los métodos bayesianos más usados consiste en suponer que las
fl (x) siguen una distribución normal. Esto implica la estimación de parámetros, la prue-
ba de hipótesis sobre los parámetros, y la verificación de la normalidad mediante algún
procedimiento.
9.7.2. Discriminación cualitativa

Hasta este momento hemos supuesto que las variables explicativas eran cuantitati-
vas. En el caso en que éstas sean cualitativas entonces hay varios procedimientos que
se pueden emplear. El más burdo consistirı́a en usar las indicatrices de las modalidades
de las variables explicativas como variables cuantitativas, y emplear el análisis factorial
discriminante. Sin embargo, este procedimiento no tiene ninguna base teórica consistente.
Una tendencia consiste en “numerizar” las variables dándole un puntaje a las moda-
lidades explicativas. Una manera de proceder es obtener variables numéricas sintéticas, a
partir de las variables explicativas cualitativas, y usar esas variables sintéticas para efec-
tuar el análisis factorial discriminante. Este procedimiento consistirı́a entonces en hacer un
análisis de correspondencias múltiples, del que se obtienen componentes principales que
serán usadas para hacer la discriminación. Luego, con base en las componentes principales
y las variables discriminantes obtenidas, se asignan puntajes a las modalidades explicati-
vas madiante las fórmulas de reconstitución del análisis de correspondencias múltiples.
9.7.3. Segmentación y árboles de decisión

Los métodos de segmentación tratan de obtener árboles (binarios) de decisión, tales
que en el nodo raı́z se tenga la población total a discriminar, y se descienda construyendo
nodos tales que, en cada paso, se escoja la variable explicativa que mejor separa a la
población. Son muy usados en mercadeo y en las ciencias médicas y sociales.
Se puede estar en uno de tres contextos:
la variable a explicar es cualitativa y las variables explicativas son cualitativas: es

el caso usual, y se usan criterios donde se mida la asociación entre las variables
con medidas como el χ2 o la entropı́a, para escoger a la variable explicativa mejor
asociada con la variable a explicar.
la variable a explicar es cualitativa y las variables explicativas son cuantitativas: en

este caso se deben determinar “puntos de corte” de las variables explicativas, de tal
forma que se optimice un criterio, el más usado es el de la distancia de Kolmogorov–
Smirnov.
la variable a explicar es cuantitativa y las variables explicativas son cualitativas:

se puede usar un criterio del tipo cociente de correlación (o simplementela máxima
diferencia entre las medias, si la variable a explicar tiene solo dos modalidades) para
determinar la mejor variable explicativa.
Ejercicios
1. Deduzca cuál es la matriz B de varianzas-covarianzas inter-clases para los datos del
ejemplo 1, sobre las reses cebú y charolais.
2. Considere la siguiente tabla de datos con dos variables cuantitativas x1 , x2 , con 10

individuos separados en dos clases.
Obs x1 x2
1 0 3
2 2 1
3 4 5
4 6 9
5 8 7
6 5 2
7 7 0
8 9 4
9 11 8
10 13 6
a) Dibuje un diagrama de dispersión entre x1 y x2 , marcando con un punto a los

elementos del grupo 1 y con una cruz a los del grupo 2.
b) Calcule los centros de gravedad de cada grupo y el centro de gravedad total.
c) Calcule la matriz de varianzas-covarianzas V , W y B.
d ) Compruebe la relación V = W + B.
e) Calcule la inversa de V .
(Nota: puede usar la fórmula simple para invertir matrices 2 × 2, usando el
determinante).
f ) Determine la función discriminante de Fisher.
g) Usando la función discriminante de Fisher, decida a cual grupo asignar el ele-
mento x = (7, 5,2).
3. En un estudio zootécnico realizado en Cuba en 1970, acerca del interés por cruzar
reses de raza charolais y cebú, se llevaron a cabo medidas de 6 variables, que repre-
sentan distintos pesos del animal. La muestra contiene 23 reses, de las cuales 12 son
charolais y 11 son cebú. Las variables son:
x1 : peso de la res viva
x2 : peso de la piel
x3 : peso de la carne de primera calidad

x4 : peso de la carne total
x5 : peso de la grasa
x6 : peso de los huesos.
El grupo 1 está formado por las reses charolais mientras que el grupo 2 por las cebú.
Los datos se muestran a continuación:
Res x1 x2 x3 x4 x5 x6 Grupo
1 395 224 35,1 79,1 6 14,9 1
2 410 232 31,9 73,4 9,7 16,4 1
3 405 233 30,7 76,5 7,5 16,5 1
4 405 240 30,4 75,3 8,7 16 1
5 390 217 31,9 76,5 7,8 15,7 1
6 405 243 32,1 77,4 7,1 15,5 1
7 390 229 32,1 78,4 4,6 17 1
8 405 240 31,1 76,5 8,2 15,3 1
9 420 234 32,4 76 7,2 16,8 1
10 390 223 33,8 77 6,2 16,8 1
11 415 247 30,7 75,5 8,4 16,1 1
12 400 234 31,7 77,6 5,7 18,7 1
13 400 224 28,2 73,5 11 15,5 2
14 395 229 29,4 74,5 9,3 16,1 2
15 395 219 29,4 72,8 8,7 18,5 2
16 395 224 28,6 73,7 8,7 17,3 2
17 400 223 28,5 73,1 9,1 17,7 2
18 400 224 27,8 73,2 12,2 14,6 2
19 400 221 26,5 72,3 13,2 14,5 2
20 410 233 25,9 72,3 11,1 16,6 2
21 402 234 27,1 72,1 10,4 17,5 2
22 400 223 26,8 70,3 13,5 16,2 2
23 400 213 25,8 70,4 12,1 17,5 2
Se quiere obtener una función discriminante para diferenciar las dos razas.
a) Calcule los centros de gravedad de cada clase y el centro de gravedad total.

b) Realice la discriminación lineal por un método paso a paso, usando a lo sumo
3 variables explicativas.
c) Si sólo se usan 2 variables explicativas, ¿cuáles serı́an?
d ) Suponga que se tienen las siguientes medidas para una res: 397, 225, 27,3, 74,5, 10,2, 17,1.
¿De cuál raza cree usted que es?
4. Pruebe la relación de Fisher entre las matrices de varianzas-covarianzas: V = W +B.

5. Considere la nube Ng de centros de gravedad de las clases C1 , . . . , Ck , donde cada

centro de gravedad g` está dotado del peso µ` . Pruebe que el centro de gravedad de
la nube Ng es g, el centro de gravedad total.
Anexo: Descomposición de la inercia

Presentamos una propiedad importante de la inercia cuando se está en presencia de
una partición del conjunto de individuos. La propiedad establece que la inercia total de
la nube se puede descomponer como la suma de la inercia inter-clases (es decir, la inercia
calculada a partir de los centros de gravedad de cada clase) y la inercia intra-clases (la
suma de las inercias de cada clase tomada por separado).
Sea C1 , C2 , . . . , Ck una partición del conjunto de individuos en k clases (recuérdese

que una partición está dada por conjuntos no vacı́os disjuntos dos a dos y cuya unión es
el conjunto de individuos). Definimos
X
µ` = pi
xi ∈C`
como el peso de la clase C` , y

1 X
g` = pi xi
µ` x ∈C
i `
como el centro de gravedad de la clase C` .

Recuérdese que la inercia total de la nube N es:
n
X
T = I(N ) = pi kxi − gk2
i=1
Definimos la inercia inter-clases como la inercia de la subnube de centros de gravedad,

cada uno ponderado por el peso de la clase que representa:
k
X
B= µ` kg` − gk2
`=1
y definimos la inercia intra-clases como la suma de las inercias de cada clase:

k
X
W = I`
`=1
donde I` es la inercia de clase C` , es decir:

X
I` = pi kxi − g` k2
xi ∈C`
Entonces se tiene la reclación de Fisher para el caso de las inercias:
T =B+W
Para probar este resultado, véase que, como cada individuo pertenece a una y sólo a
una clase C` , entonces podemos escribir:
k X
X
T = pi kxi − gk2
`=1 xi ∈C`
La segunda sumatoria de la expresión anterior se puede escribir como:

X X
pi kxi − gk2 = pi kxi − g` k2 + µ` kg` − gk2
xi ∈C` xi ∈C`
X X X
pues pi kxi −g` +g` −gk2 = pi kxi −g` k2 +µ` kg` −gk2 +2 pi (xi −g` )t M (g` −g)
xi ∈C` xi ∈C` xi ∈C`
X X X
t t
y pi (xi − g` ) M (g` − g) = ( pi xi − pi xi g` ) M (g` − g)
xi ∈C` xi ∈C` xi ∈C`
t
= (µ` g` − µ` g` ) M (g` − g) = 0.
La propiedad aquı́ probada es muy importante cuando se está en presencia de una

partición, como es el caso en discriminación factorial, o cuando se busca una partición,
como en clasificación automática por particiones.
Capı́tulo 10
Regresión Lineal Múltiple
En el capı́tulo 1, hemos presentado la regresión lineal simple como una técnica para
explicar, mediante un modelo lineal, una variable cuantitativa y mediante una variable
cuantitativa x. En el caso en que se disponga de más de una variable explicativa, se puede
plantear también un modelo lineal para trata de explicar una variable explicativa. Este
es el objetivo de la regresión lineal múltiple.
10.1. Planteamiento del problema

Supóngase que se está en presencia de una variable cuantitativa y, la cual se quiere
explicar mediante un conjunto de variables cuantitativas x1 , x2 , . . . , xp , llamadas variables
explicativas. Todas las variables consideradas han sido observadas sobre n individuos. Se
plantea que el modelo explicativo es de tipo lineal:
∀i ∈ {1, 2, . . . , n} : yi = a + b1 x1i + b2 x2i + · · · + bp xpi + ei (10.1)
donde ei es un término de error, llamado residuo.
Por lo tanto, se quiere encontrar una variable ŷ tal que:
ŷi = a + b1 x1i + b2 x2i + · · · + bp xpi (10.2)
de tal forma que el error sea mı́nimo. El objetivo de minimizar el error, puede ser planteado
de la siguiente forma:
Minimizar ||e||2
es decir
Minimizar ||y − ŷ||2
Debe observarse que la norma a la que se hace referencia en la mninimización anterior,

es la norma del espacio de variables F = Rn (ver capı́tulo 2). Esta minimización plantea
entonces un sistema de ecuaciones, llamadas ecuaciones normales.
191
192 Regresión Lineal Múltiple
10.1.1. Interpretación geométrica

El problema de la regresión lineal múltiple puede plantearse fácilmente de manera
geométrica. En efecto, considérese que y y ŷ son vectores de Rn . Por su parte, 1In , x1 , x2 , . . . , xp
son también vectores1 de Rn y generan un subespacio vectorial de Rn , denotado W . De
acuerdo con las ecuaciones 10.2, ŷ estarı́a en W pues es combinación lineal de los xj y 1In .
Ası́, el objetivo de minimizar e se puede traducir geométricamente en tratar de encon-
trar el vector de W más cercano de y. Este vector solución es precisamente la proyección
ortogonal de y en W , como se muestra en la figura 10.1.
b•
D
D
D
D
D
D
D
D
D
D
D
!•a D
! !! D

!!
•
D
!α ((((( â

β D
b̂ •PP !(
!
(
(
PP D!
(!(
(

0

Figura 10.1: Proyeccion de la variable a explicar en el espacio generado por las variables
explicativas
10.1.2. Solución
Puede observarse que el vector de los errores e, es precisamente el vector diferencia
y − ŷ, por lo que es ortogonal a cualquier combinación lineal de vectores de W . Esto es,
como la métrica de pesos D define el producto interno en F = Rn , entonces se tiene:
X ⊥D y − ŷ
Denotamos X la matriz de datos que contiene a las variables explicativas xj por columm-
nas, y tal que su primera columna está formada de unos, y denotamos b el vector de
1
Por comodidad en el desarrollo, consideramos 1In el vector de “unos” como una variable explicativa,
que es la que tiene por coeficiente a la constante a en el modelo.
10.2 Calidad de la regresión 193
coeficientes de regresión:  
a

 b1 

b=
 b2 

 .. 
 . 
bp
Ası́, la condición de ortogonalidad es equivalente a:
X t D(y − Xb) = 0 ⇔ X t DXb = X t Dy
Si X t DX es invertible (lo que en este contexto equivale a decir que no hay dos variables
explicativas con correlación 1) entonces la solución es:
b = (X t DX)−1 X t Dy (10.3)
De esta forma, la variable estimada o predicha ŷ serı́a:
ŷ = Xb = X(X t DX)−1 X t Dy (10.4)
El lector debe observar que hasta el momento no hemos supuesto que las variables
estén centradas. En efecto, esta hipótesis no es necesaria para obtener la solución dada
por las ecuaciones 10.3 y 10.4. Sin embargo, en el caso en que las variables estén centra-
das entonces X t DX es la matriz de varianzas-covarianzas V y X t Dy es el vector delas
covarianzas entre las xj y y.
10.2. Calidad de la regresión

Al igual que en la regresión lineal simple,se medirá un ı́ndice de calidad global de
la regresión mediante el coeficiente de determinación R2 , que no es otra cosa que la
correlación entre la variable observada y y la variable estimada ŷ:
R2 = ρ2 (y, ŷ)
En la figura 10.1 puede observarse que, en el caso de tener variables centradas, esta
correlación es dada preisamente por el coseno del ángulo entre y y ŷ, pues en el el espacio
de variables esta es la interpretación geométrica de las correlaciones.
Por otra parte, también es necesario examinar el comportamiento de los residuos res-
pecto a cada una de las variables que intervienen en el análisis. Para ello, se harán los
diagramas de dispersión de los residuos estandarizados e/σe versus cada xj y versus y. Es-
tos diagramas no deben mostrar ninguna tendencia ni ningún comportamiento anormal,
en el sentido que los puntos del diagrama deben dar la impresión de seguir un compor-
tamiento aleatorio. En el caso que el analista descubra algún comportamiento anormal,
por ejemplo que los puntos sigan una parábola o algún orden creciente o decreciente,
o bien que haya algún punto que se separe netamente de los demás (tal que el residuo
estandarizado sea mayor que 3 o menor que −3), entoces se deben examinar de cerca los
datos. Es posible que en estos casos una pequeña transformación sobre los datos resuelva
el problema, o bien que el modelo no sea lineal como se pensaba originalmente.
Regresión paso a paso

Cuando las variables explicativas están muy correlacionadas, se aconseja emplear un
método que seleccione las variables más explicativas, con el fin de eliminar las posibles
redundancias que probablemente existen entre las xj .
Hay varios métodos paso a paso, uno de ellos es el siguiente:
1. Realice la regresión lineal simple de y sobre cada una de las x1 , x2 , . . . , xp ; escoja

aquella que da el mayor R2 (esta es la que mejor explica a y). A esta variable la
0
denotamos x1 .
0
2. Haga la regresión doble de y sobre x1 y cada una de las restantes variables explica-
0
tivas; escoja aquella que el mayor R2 , la denotaremos x2 .
0 0 0
3. Reitere el paso anterior, escogiendo x3 , x4 , . . . xq .
Las iteraciones anteriores se hacen hasta que las nuevas variables introducidas no
aporten nada nuevo a la regresión. Esto se puede evaluar con el estadı́stico de Fisher F :
sea F el estadı́stico de Fisher con (n − q − 1, 1) grados de libertad (consultar una

tabla de los valores de este estadı́stico),
e2i
P
∆
sea F̃ = rP 2
e
i
n−q−1
reiterar hasta que F̃ < F
Ejercicios
1. Supónga que se tiene la siguiente tabla de covarianzas entre y y dos variables expli-
cativas x1 y x2 :
y x1 x2
y 1 0,7 0,3
x1 1 0,5
x2 1
Calcule los coeficientes de regresión de y en función de:
10.2 Calidad de la regresión 195
a) solamente x1
b) solamente x2
c) x1 y x2 .
2. Se quieren determinar los principales factores que influyen sobre el rendimiento del
un campo de trigo. Los factores se escogen entre los parámetros siguientes:
Potasio y ácido fosfórico (Kg/Ha)

Nitrógeno (Kg/Ha)
Agua de lluvia durante la germinación (Cm)
Acidez del suelo (pH)
Temperatura media durante la germinación (◦ C)
Se han observado los rendimientos (Q/Ha) correspondientes sobre diez campos de

trigo:
Pota Nitr Agua Acid Temp Rend

1 1100 300 6.0 5.0 10 30
2 1000 200 4.0 7.0 8 20
3 1200 350 6.7 8.0 10 40
4 1000 300 5.0 6.0 8 25
5 1100 300 5.5 7.0 9 35
6 1200 350 8.0 6.0 11 45
7 900 300 4.0 5.0 8 30
8 700 400 3.5 3.0 7 25
9 1200 350 6.0 7.0 7 35
10 1300 350 7.0 6.5 10 40
Encuentre los coeficientes de regresión lineal (puede usar un método paso a paso),
los residuos, la variable estimada. Además, calcule el coeficiente de determinación
R2 y haga los diagramas de residuos estandarizados versus las variables explicativas
y la variable a explicar.
3. En una empresa de producción de plantas, se desea explicar el consumo mensual de

agua y, medido en galones, en función de las cinco variables siguientes:
x1 : temperatura media en el mes (en grados Fahrenheit)

x2 : producción mensual (en miles de litros)
x3 : número de dı́as hábiles en el mes
x4 : número de personas que trabajaron en el mes
x5 : número al azar de dos cifras
La variable x5 fue añadida para chequear el método estadı́stico utilizado. Las me-
didas efectuadas sobre 17 meses fueron:
x1 x2 x3 x4 x5 y
1 58.8 7107 21 129 52 3067
2 65.2 6373 22 141 68 2828
3 70.9 6796 22 153 29 2891
4 77.4 9208 20 166 23 2994
5 79.3 14792 25 193 40 3082
6 81.0 14564 23 189 14 3898
7 71.9 11964 20 175 96 3502
8 63.9 13525 23 186 94 3060
9 54.5 12656 20 190 54 3211
10 39.5 14119 20 187 37 3286
11 44.5 16691 22 195 42 3542
12 43.6 14571 19 206 22 3125
13 56.0 13619 22 198 28 3022
14 64.7 14575 22 192 7 2922
15 73.0 14556 21 191 42 3950
16 78.9 18573 21 200 33 4488
19 79.4 15618 22 200 92 3295
a) Encuentre los coeficientes de regresión lineal (puede usar un método paso a

paso).
b) Encuentre los residuos y la variable estimada.
c) Calcule el coeficiente de determinación R2 .
d ) Haga los diagramas de residuos estandarizados versus las variables explicativas
y la variable a explicar.
Apéndice A
Guı́a breve de técnicas multivariadas

de análisis de datos
Presentamos las principales técnicas de análisis multivariado de datos, cada una ubi-
cada en sus objetivos, situación y solución. Las primeras cinco son técnicas descriptivas
que generalmente se usan para reducir las dimensiones de una tabla de datos con mu-
chas observaciones. Las dos siguientes son técnicas también descriptivas de clasificación
de individuos, que tratan de obtener clases homogéneas de individuos. Finalmente, las
cuatro técnicas siguientes son previsionales, cada una adaptada a una situación y un ob-
jetivo diferente. En un contexto previsional, se dice que hay variables explicativas que son
independientes, y una o más variables a explicar, que es dependiente de las anteriores.
Análisis en Componentes Principales (ACP)

Esta técnica fue originalmente propuesta por Pearson a principios de siglo en su versión
más simple, y luego fue formalizada por Hotelling en 1933 en el caso general cuando
se supone una distribución normal multivariada. Pagès [31] propuso en 1971 la versión
geométrica actualmente en uso.
Situación Se tiene una tabla de datos con n individuos descritos por p variables cuan-
titativas.
Objetivo Se quieren encontrar q variables sintéticas (con q < p), que sean no correla-
cionadas y tales que contengan el máximo de varianza que se pueda extraer de la tabla
de datos original. Tales variables sintéticas servirán para hacer una descripción de las
relaciones entre los individuos entre sı́, entre las variables entre sı́, y entre los individuos
y las variables.
197
198 Guı́a breve de técnicas multivariadas de análisis de datos
Solución Las variables sintéticas encontradas se llaman componentes principales y de-

finen los llamados planos principales, en los cuales se representan las posiciones relativas
de los individuos, más o menos como se representan en el espacio de p dimensiones que
los definen. También se representan las variables en los llamados cı́rculo de correlación,
mostrándose de manera sintética el conjunto de correlaciones entre las variables de la
tabla. Finalmente, la posición de las variables sirve para detectar cuáles variables son
importantes para cada individuo.
Se obtiene además el valor de la inercia asociada a cada componente principal, que
indica qué porcentaje de la dispersión de la tabla original está contenida en la componente
respectiva. Entre mayor sea la inercia mejor será la calidad de la representación sobre el
plano respectivo.
La calidad de la representación de cada individuo y cada variable sobre el plano princi-
pal se mide con la ayuda del coseno del ángulo entre el vector original y el representado en
el plano. Entre más cercano sea a 1 este coseno mejor será la representación del individuo
o variable en el plano.
Análisis Factorial de Correspondencias

Esta técnica fue originalmente propuesta por Benzécri en 1965 y se popularizó mucho
en Francia. Fue el origen de la corriente francesa de Análisis de Datos.
Situación Se tiene una tabla de contingencia que cruza las p modalidades de una va-
riable cualitativa con las q modalidades de otra variable cualitativa.
Sin embargo, también se puede aplicar a otras tablas de datos con las siguientes ca-
racterı́sticas:
todos los datos son positivos;

el papel que juegan las filas y las columnas de la tabla es simétrico;
todas las filas son de la misma naturaleza entre sı́, y todas las columnas son de la
misma naturaleza entre sı́.
Objetivo Detectar las relaciones entre las modalidades de las dos variables cualitativas
(o entre filas y columnas de la tabla) con el fin de determinar si hay dependencia o
independencia entre ellas, y además determinar qué tipo de dependencia.
Solución Se obtienen gráficos del tipo planos principales del ACP que muestran las
posiciones relativas entre las filas y las columnas de la tabla. En el mismo plano se repre-
sentan simultáneamente las filas y las columnas.
199
En cuanto a la interpretación, la proximidad entre dos filas muestra que ambas tienen
distribuciones similares entre las columnas (idem para las columnas respecto a su distri-
bución entre las filas). La proximidad entre una fila y una columna muestra que en la
distribución de la fila, la columna muestra una importancia relativa mayor que las otras
columnas.
Análisis de Correspondencias Múltiples

Se trata de una generalización del Análisis de Correspondencias al caso en que se
tenga más de dos variables cualitativas. Fue propuesto por Lebart a mediados de los años
setenta.
Situación Se tiene una tabla de contingencia generalizada (tabla de Burt) que cruza las
modalidades de varias variables cualitativas tanto en filas como en columnas. O bien, se
tiene una tabla de individuos por variables cualitativas, tal que para cada modalidad de
cada variable cualitativa hay una columna tal que si un individuo presenta la modalidad
aparece un 1 y si no aparece un 0 (tabla disyuntiva completa).
Objetivo Se quiere estudiar la relación entre las distintas modalidades de las variables
cualitativas.
Solución Se obtienen planos principales del tipo del ACP tales que en un mismo plano
se representan simultáneamente todas las modalidades que intervienen en el análisis. Cada
modalidad está representada por el punto promedio de todos los individuos que presentan
esa modalidad. La proximidad entre modalidades muestra que para los mismos individuos
las modalidades respectivas estaban presentes.
Análisis de Proximidades o Escalamiento Multidimen-

sional
Las diversas técnicas llamadas en inglés Multidimensional scaling fueron propuestas
entre finales de los años cincuenta y mediados de los años sesenta por varios autores,
entre los que están Carroll, Kruskal, Shepard, Young y Torgerson, y fueron mejorados
recientemente mediante el uso de técnicas eficientes de optimización.
Situación Se tiene una tabla n × n que contiene las proximidades o distancias entre n
individuos.
Objetivo Obtener una representación gráfica de pocas dimensiones tal que las distan-
cias entre individuos representados en los planos sean lo más parecidas a las distancias
observadas en la tabla.
Solución Se obtienen planos principales del tipo ACP que contienen puntos que re-
presentan a los n individuos. Las distancias entre los puntos son, en lo posible, lo más
parecidas a las distancias de la tabla original.
Análisis de Preferencias
El primer modelo fue propuesto en 1950 por Coombs. Luego, otros autores estudiaron
distintos métodos, como Benzécri en 1965 y Carroll en 1970.
Situación Un conjunto de n individuos da sus preferencias sobre p objetos, colocándolos

en orden.
Objetivo Se quieren describir las preferencias individuales para obtener una preferencia
general.
Solución Se obtienen planos principales del tipo del ACP tales que muestran próximos
a individuos que tienen preferencias similares y alejados a individuos con preferencias muy
diferentes.
Clasificación Jerárquica
Su origen remonta a las investigaciones taxonómicas de Lineo. En los años sesenta,
diversos autores (Sneath, Sokal, Jardine, Sibson, Johnson, Benzécri) formalizaron una
serie de métodos y propiedades.
Situación Se tiene una tabla de datos con n individuos y p variables. También se puede
tener una tabla n × n con las proximidades o distancias entre n individuos.
Objetivo Obtener varias clasificaciones de los individuos, de tal manera que las clasifi-
caciones se puedan encajar y representar mediante un árbol.
201
Solución Hay dos enfoques para la construcción del árbol: uno ascendente y otro des-
cendente.
En la construcción ascendente, se parte de los individuos y se van agregando los más
parecidos, y luego las clases más parecidas y ası́ sucesivamente, hasta agregar dos clases
cuya unión dé la población total.
En la construcción descendente, se parte de la población total y ésta se divide en dos
según la partición que mejor separe, y luego se divide de nuevo cada clase ası́ obtenida y
ası́ sucesivamente, hasta obtener los individuos.
Clasificación por Particiones

Desde mediados de los años sesenta, Forgy, Mac Queen, Hall y Ball en Estados Unidos
y Diday en Francia, propusieron métodos muy similares.
Situación Se tiene una tabla de datos con n individuos y p variables. También se puede
tener una tabla n × n con las proximidades o distancias entre n individuos.
Objetivo Se quiere obtener una partición de los n individuos en un cierto número de

clases tales que sean bien homogéneas internamente y estén bien separadas entre sı́.
Solución Los diferentes métodos (nubes dinámicas, centros móviles, k-means, Isodata)
obtienen k clases que normalmente dependen de una clasificación dada a priori por el
usuario. Por ello se aconseja hacer varias corridas del método con el fin de estudiar las
clases que son estables, es decir, que a pesar de partir de diferentes particiones a priori,
se mantienen homogéneas.
Regresión Lineal
La regresión lineal es quizás el método estadı́stico más antiguo y está basado en la
regresión lineal simple. Se dice que Galton, a finales del siglo XIX, estudió el primer
problema de regresión al querer predecir la estatura de los hijos de padres altos.
Situación Se tienen p variables cuantitativas explicativas x1 , x2 , . . . , xp observadas sobre

n individuos y una variable cuantitativa a explicar y.
Objetivo Expresar y como combinación lineal de las xj .

Solución Se obtienen expresiones numéricas para los coeficientes de regresión. Esto

permite predecir el valor de y para cualquier nueva observación, por simple aplicación de
la combinación lineal de las xj .
La calidad de la regresión se mide usualmente por estudio de los diagramas de disper-
sión de los residuos versus y o versus las xj , con el fin de determinar si los residuos no
tienen un comportamiento que esconda una relación no lineal entre las variables. Además,
hay que calcular la correlación entre la variable observada y y la variable predicha ŷ.
En el caso en que se suponga una distribución normal de las variables, se pueden
determinar los intervalos de confianza de los coeficientes de regresión y elaborar algunos
tests estadı́sticos. Sin embargo, repetimos, esta hipótesis no es necesaria y a menudo no
es realista.
Discriminación
Fisher, a mediados de los años 30, fue el primero en proponer soluciones a los métodos
de discriminación.
Situación Se tienen p variables cuantitativas explicativas x1 , x2 , . . . , xp observadas sobre

n individuos y una variable cualitativa a explicar y, con q modalidades. Cada modalidad
de y define una clase en la población, la de los individuos que presentan esa modalidad.
También existen métodos de discriminación tales que las variables explicativas son
cualitativas, estos métodos son a veces llamados métodos de puntaje o de discriminación
sobre variables cualitativas.
Objetivo Caracterizar las clases definidas por y mediante las variables explicativas xj
(usualmente, usando combinaciones lineales de ellas).
Solución Se obtiene una función llamada de discriminación, tal que se puede aplicar a
las observaciones que tenga cada individuo. Si el resultado de esa aplicación está en un
cierto intervalo, entonces se dice que la función de discriminación clasifica al individuo
correspondiente. Por ejemplo, suponiendo que y tiene sólo dos modalidades, la función
de discriminación serı́a tal que si al aplicarla a un individuo el resultado es mayor que
un valor α entonces se toma la decisión de clasificar al individuo en la clase A, y si el
resultado es menor que α entonces se toma la decisión de clasificarlo en la clase B.
Los individuos de la tabla de datos usualmente se dividen en dos grupos: uno de
aprendizaje, que se usa para calcular la función de discriminación, y otro de test, que
sirve para medir la calidad de la función de discriminación. En efecto, para el conjunto
de test se conoce a priori la clasificación mediante las modalidades de y, pero también
203
se puede determinar una clasificación mediante la función de discriminación. Ası́, ambas

clasificaciones se pueden comparar y esta comparación dará valores numéricos que den
una idea de la calidad de la discriminación.
Para los métodos de puntaje, se obtiene una función que asigna puntos a cada moda-
lidad de las variables explicativas según sea la discriminación entre las distintas modali-
dades de la variable a explicar. Ası́, al estudiar un nuevo individuo bastará con observar
las modalidades que presenta, sumar los puntos correspondientes y determinar su clase
de discriminación.
Segmentación
Se trata de un caso especial de discriminación en dos clases, tal que se representan los
resultados en forma de árbol, llamado árbol de decisión.
Situación Se tiene una tabla de datos con n individuos y p variables explicativas, cuan-
titativas o cualitativas, y una variable a explicar.
Objetivo Se quiere construir un árbol de decisión binario, tal que cada nodo se divida
en dos mediante los valores de una variable cuantitativa (la que mejor haga la división de
la población según las modalidades de la variable a explicar) o mediante las modalidades
de alguna variable cualitativa (de nuevo, la que mejor haga la división).
Solución Se obtiene un árbol de decisión, tal que al descender se obtiene cada vez una
división en dos dela población según alguna variable, la más explicativa.
Análisis de Varianza
Fue propuesto por Fisher durante los años treinta. Usualmente se usa en un experi-
mento dirigido, de tal manera que el investigador puede controlar los factores explicativos.
Situación Se tienen p variables cualitativas explicativas observadas sobre n individuos

y una variable cuantitativa a explicar y. Se supone que la variable a explicar es normal o
gaussiana.
Objetivo Se quiere estudiar si las diferentes modalidades de las variables explicativas

afectan los valores de y. Es decir, si la población que presenta las diferentes modalidades
de las variables explicativas presenta diferencias significativas en los valores de y.
Solución Se obtienen valores estadı́sticos que determinan si las medias entre las distintas
poblaciones son significativamente diferentes, usando una descomposición de la varianza
total en varianza intra-clases y varianza inter-clases.
Técnicas para datos temporales

Algunas de las técnicas anteriores se pueden generalizar al caso en que se tengan
varias tablas de datos como los indicados en cada situación, pero cada tabla para un año
diferente.
Ası́, en el caso del Análisis en Componentes Principales el método se extiende al
llamado método Statis (propuesto por Y. Escoufier) o al Análisis Factorial Múltiple
(propuesto por B. Escofier), que brindan planos principales que muestran no sólo las
relaciones entre los individuos y las variables, sino también de ellos con los distintos años.
El Análisis Factorial Múltiple también puede aplicarse al caso en que se tengan tablas
del tipo de las analizadas por el Análisis de Correspondencias o del Análisis de Corres-
pondencias Múltiples.
El Análisis de Proximidades también se extiende por el método IndScal de Carroll.
Los planos principales obtenidos por los métodos anteriores son un “término medio”
(llamado “compromiso”) entre los distintos planos principales que se obtendrı́an si se
hiciera un análisis para cada año.
Bibliografı́a
[1] Aarts E.M., Korst J. (1988) Simulated Annealing and Boltzmann Machines: A Sto-
chastic Approach to Combinatorial Optimization and Neural Computing. John Wiley
& Sons, Chichester.
[2] Acuña, O.; Ulate, F. (1994) Matrices no negativas. Editorial de la Universidad de

Costa Rica, San José.
[3] Adorf F., Murtagh F. (1988) “Clustering based on neural network processing”, en:
Compstat’88, IASC, Physica–Verlag, Heidelberg.
[4] Anderberg, M.R. (1973) Cluster Analysis for Applications. Academic Press, New
York.
[5] Anderson, J. A.; Rosenfeld, E. (1989) Neurocomputing. Foundations of Research.

The MIT Press, Cambridge Mass. (Recopilación de los trabajos pioneros en redes
neuronales).
[6] Badran, F.; Thiria, S.; Fogelman-Soulié, F. (1991) “Etude du comportement des
réseaux multicouches – comparaison avec l’analyse discriminante”, en: Induction
Symbolique et Numérique à Partir de Données, Y. Kodratoff & E. Diday (eds.),
Cépaduès, Toulouse.
[7] Ball, G.H.; Hall, D.J. (1965) “Isodata, a novel method of data analysis and classi-
fication”. Technical Report, Stanford Research Institute.
[8] Barthélemy, J.P.; Guénoche, A. (1988) Les Arbres et la Représentation des Proxi-
mités. Masson, Parı́s.
[9] Batbedat A. (1990) Les Approches Pyramidales dans la Classification Arborée. Mas-
son, Parı́s.
[10] Belaı̈d, Belaı̈d (1992) Reconnaissance des Formes. InterEditions, Parı́s.
[11] Benzècri, J.-P. (1965) Problèmes et méthodes de la taxinomie. Cours ISUP, Paris –
Rennes.
205
[12] Benzécri, J.-P. y colaboradores (1982) L’Analyse des Données. Tomo I: La Taxino-
mie. 4a. edición. Dunod, Parı́s.
[13] Benzécri, J.-P. y colaboradores (1982) L’Analyse des Données. Tomo II: Correspon-
dances. 4a edición. Dunod, Paris.
[14] Benzécri, J.P. (1985) “Démonstration de l’équivalence des résultats des algorithmes
accélérés à ceux de l’algorithme de base en CAH”, Les Cahiers de l’Analyse de
Données, Vol. X, No.3
[15] Benzécri, J.P. (1972) Sur l’analyse des tableaux binaires associés à una correspon-
dance multiple. Note multigraphiée du Laboratoire de Statistique Mathématique,
Université de Paris VI.
[16] Bastin, C.; Benzécri, J.P.; Bougarit, C.; Cazes, P. (1980) Pratique de l’Analyse des
Données. Tomo 2: Abrégé Théorique, Etudes de cas Modèle. Dunod, Paris.
[17] Benzécri, J.P. y colaboradores (1982) L’Analyse des Données. Tomo I: La Taxino-
mie; Tomo II: Correspondances, 4a edición. Dunod, Paris.
[18] Benzécri, J.P. y F. (1984) Pratique de l’Analyse des Données. Tomo 1: Analyse
des Correspondences et Classification Automatique, Exposé Elémentaire, 2a edición.
Dunod, Paris.
[19] Benzécri, J.P. y colaboradores (1981) Pratique de l’Analyse des Données. Tomo 3:
Linguistique et Lexicologie, Dunod, Paris.
[20] Benzécri, J.P. y colaboradores (1986) Pratique de l’Analyse des Données. Tomo 5:
Economie. Dunod, Paris.
[21] Bergé, C. (1970) Graphes et Hypergraphes. Dunod, Paris.
[22] Bertrand, P. (1986) Estude de la Représentation Pyramidale. Thèse de Doctorat de

3ème cycle, Université Paris–Dauphine.
[23] Bertrand, P.; Diday, E. (1990) “Une généralisation des arbres hiérarchiques: les
représentations pyramidales”, Revue de Statistique Appliquée XXXVIII (3): 53–78.
[24] Bittner, J.; Trejos, J. (1997) “Analysis of the vascular epiphytes of tree ferns in a
montane rain forest in Costa Rica”, Revista de Matemática: Teorı́a y Aplicaciones
4(2): 62–74.
[25] Bourret P., Reggia J., Samuélidès M. Réseaux Neuronaux: une Approche Connexio-
niste de l’Intelligence Artificielle. Teknéa, Toulouse.
[26] Bouroche, J.M.; Saporta, G. (1989) L’Analyse des Données. 4a. edición, Presses
Universitaires de France, Collection que sais–je?, Parı́s.
207
[27] Brito P. (1991) Analyse de Données Symboliques. Pyramides d’Héritage. Tesis de

doctorado, Universidad Paris IX-Dauphine.
√
[28] Brossier, G.; Le Calvé, G. (1985): “Analyse des Dissimilarités sous l’Eclairage D.
Application à la Recherche d’Arbres Additifs Optimaux”,pp.17-26.
[29] Brossier, G. (1986) Problèmes de Representation par des Arbres. pp. 1-40
[30] Burt (1950) “The factorial analysis of qualitative data”, British Journal of Statistical
Psychology, Vol. III, No. 3: 166–185.
[31] Cailliez, F.; Pagès, J.P. (1976) Introduction à l’Analyse des Données. SMASH, Parı́s.
[32] Carpenter, G.A. (1989) “Neural network models for pattern recognition and asso-
ciative memory”, en Neural Networks, vol. 2, Pergamon Press, 138–152.
[33] Castillo, W. (1989) “Métodos y resultados en clasificación automática”, Revista de

Ciencia y Tecnologı́a 13(1–2): 105–116.
[34] Castillo, W. (1991) “Descripción de algunos métodos de clasificación automática

y aplicación a un problema de producción distribuida por cantón”, Ciencias Ma-
temáticas 2(1): 67–78.
[35] Castillo, W.; González, J. (1996) Primer Seminario de Análisis de Datos. Notas de
curso, Universidad de Atacama, Chile.
[36] Castillo, W.; González, J. (1994) “Análisis de tablas múltiples de datos”, Revista
de Matemática: Teorı́a y Aplicaciones 1(1): 47–55.
[37] Castillo, W.; Rodrı́guez, O.; Trejos, J.; Chacón, B. (1996) Presentación del método
de nubes dinámicas para la clasificación de curvas de carga. Proyecto UCR-ICE,
San José, Costa Rica.
[38] Castillo, W.; Rodrı́guez, O. (1997) “Algoritmo e implementación del análisis fac-
torial de correspondencias”, Revista de Matemática: Teorı́a y Aplicaciones 4(2):
51–62.
[39] Celeux, G. (1987) “Les formes fortes”, en Ecole Modulad Méthodes de Classificacion
pour l’Analyse des Données, CCS–INRIA, Strasbourg, pp. 49–56.
[40] Castillo, W.; González, J. (2001) “Estimación de los parámetros del modelo Indscal
por el método de sobrecalentamiento simulado”, Investigación Operacional 22(1):
45–52.
[41] Celeux, G.; Diday, E.; Govaert, G.; Lechevallier, Y.; Ralambondrainy, H. (1987)
“La méthode des nuées dynamiques”, en Ecole Modulad Méthodes de Classificacion
pour l’Analyse des Données, CCS–INRIA, Strasbourg, pp. 14–36.
[42] Celeux G. (editor) (1991) Discrimination sur variables continues. Collection Didac-
tique INRIA, Le Chesnay.
[43] Celeux G., Diday E., Govaert G., Lechevallier Y., Ralambondrainy H.(1989) Clas-
sification Automatique des Données: Environnement Informatique et Statistique.
Dunod, Parı́s.
[44] Celeux, G.; Nakache (1994) Analyse Discriminante sur Variables Qualitatives. Eco-
nomica, Paris.
[45] Chabanon, C.; Dubuisson, B. (1990) “Méthodes non probabilistes”, en Analyse Dis-
criminante sur Variables Continues, G. Celeux (ed.), INRIA–Collection Didactique,
Rocquencourt.
[46] Chandon, J.L.; Pinson, S. (1981) Analyse Typologique: Théorie et Applications. Mas-
son, Parı́s.
[47] Charniak, E.; McDermott, D. (1985) Introduction to Artificial Intelligence.
Addison–Wesley, Reading, Mass.
[48] Chevalier, F. (1990) “L’analyse en composantes conjointes d’une famille de triplets
indexés”, Statistique et Analyse des Données, Vol 2: 35–75.
[49] Coad, P.; Yourdon, E. (1991) Object-Oriented Analysis. Yourdon Press, Texas.
[50] Chatfield, C.; Collins, A.J. (1980) Introduction to Multivariate Analysis. Chapman
& Hall, Londres.
[51] Cox, T.F.; Cox, M.A.A. (1994) Multidimensional Scaling. Chapman & Hall, London.
[52] Davalo, E.; Naı̈m, P. (1990) Des Réseaux de Neurones. 2a edición, Eyrolles, Parı́s.
[53] Davis, L.; Steenstrup, M. (1987) “Genetic algorithms and Simulated Annealing: an
overview”, en Genetic Algorithms and Simulated Annealing, L. Davis (ed.). Pitman,
Londres.
[54] De Soete; Carrol, D.; De Sarbo (1987) “Least squares algorithms for constructing
constrained ultrametric and additive tree representations of symmetric proximity
data”, pp. 7-8.
[55] Diday, E. et coll. (1980) Optimisation en Classification Automatique. INRIA, Le
Chesnay.
[56] Diday, E.; Lemaire, J.; Pouget, J.; Testu, F. (1982) Eléments d’Analyse des Données.
Dunod, Parı́s.
[57] Diday, E. (1982) “Inversions en classification hiérarchique: application à la cons-
truction adaptative d’indices d’aggrégation”, Revue de Statistique Appliquée 31(1):
45–62.
209
[58] Diday, E. (1985) “Une représentation visuelle des classes empiétantes: les pyrami-
des”, R.A.I.R.O.–APII, 52: 475–526.
[59] Draper; Smith. Applied Regression Analysis. John Wiley & Sons, New York.
[60] Dubes, R.; Jain, A.K. (1980) “Clustering methodologies in exploratory data analy-
sis”, Advances in Computers, Vol. 19, pp. 113–228.
[61] Escofier, B.; Pagès, J. (1988) Analyses Factorielles Simples et Multiples: objectifs,
méthodes et interprétation. Dunod, Paris.
[62] Espinoza, J.L. (1996) “El algoritmo de Fisher para particionamiento óptimo” Re-
vista de Matemática: Teorı́a y Aplicaciones 3.
[63] Espinoza, J.L.; Mora, W.; Trejos, J. (1988) Clasificación automática. Tesis de licen-
ciatura, Universidad de Costa Rica.
[64] Espinoza, J.L.; Trejos, J. (1989) “Clasificación por particiones”, Revista de Ciencia
y Tecnologı́a, XIII (1–2): 129–154.
[65] Everitt, B.S. (1993) Cluster Analysis. 3a edición. Edward Arnold, London.
[66] Fénélon, J.P. (1981) Qu’est-ce que l’Analyse des Données? Lefonen, Paris.
[67] Fisher, W.D. (1958) “On grouping for maximum homogeneity”, J. Amer. Stat.
Assoc. 53.
[68] Forgy, E.W. (1965) “Cluster analysis of multivariate data: efficiency versus inter-
pretability of classifications”, Biometrics 21.
[69] Fukushima, K.; Miyake, D.; Takayuki, I (1983) “Neocognitron: a neural network mo-
del for a mechanism of visual pattern recognition”, IEEE Transactions on Systems,
Man and Cybernetics, SMC-13: 826–834.
[70] Fukushima, K. (1988) “Neural networks and visual pattern recognition”, en Systems
with Learning and Memory Abilities, J. Delacour and J,C,S, Levy (eds.), Elsevier
Science Publ. B.V. (north–Holland), Amsterdam, 365–386.
[71] Garita, N.; Poltronieri, J, (1994) Estructuras de la opinión pública en Costa Rica:
¿Estabilidad o evolución? Editorial de la Universidad de Costa Rica, San Pedro.
[72] Glaçon, F. (1981) Analyse Conjointe de Plusieurs Matrices de Données. Thèse de

3ème cycle, Université Scientifique et Médicale de Grenoble.
[73] Goldberg, D.E. (1987) “Simple genetic algorithms and the minimal, deceptive pro-
blem”, en Genetic Algorithms and Simulated Annealing, L. Davis (ed.). Pitman,
Londres.
[74] Goldberg, D.E. (1989) Genetic Algorithms in Search, Optimization and Machine
Learning. Addison-Wesley, Reading-Mass.
[75] González, J.; Rodrı́guez, O. (1995) “Algoritmo e implementación del método Sta-
tis”. IX Simposio Métodos Matemáticos Aplicados a las Ciencias, J. Trejos (ed.),
Turrialba: 49–56.
[76] González, J. (1994) “Estudio evolutivo de la calidad del agua”, Memoria del II
Encuentro Centroamericano de Investigadores en Matemáticas, G. Mora (ed.), San
Ramón: 425–434.
[77] González, J.; Rodrı́guez, O. (1995) “Algoritmo e implementación del método Statis”,
en: J. Trejos (Ed.) IX Simposio de Métodos Matemáticos Aplicados a las Ciencias,
U.C.R. û I.T.C.R., Turrialba.
[78] Govaert, G. (1975) Classification automatique et distances adaptatives. Thése de

Doctorat de 3ème cycle, Universtié Paris VI.
[79] Govaert, G. (1983) Classification Croisée. Thèse de Doctorat ès Sciences, Univer-
sité Paris VI.
[80] Govaert, G. (1987) “Classification croisée d’un tableau de contingence; classifica-

tion croisée d’un questionnaire”, en Ecole Modulad Méthodes de Classificacion pour
l’Analyse des Données, CCS–INRIA, Strasbourg, pp. 79–101.
[81] Gower, J. (1966) “Some distance properties of latent root and vector methods in
multivariate analysis”, Biometrika 53:325–338.
[82] Greenacre, M. (1984) Theory and Applications of Correspondence Analysis. Acade-

mic Press, Londres.
[83] Groenen, P.J.F.; Mathar, R.; Trejos, J. (2000) “Global optimization methods for
multidimensional scaling applied to mobile communications”, in W. Gaul, O. Opitz
& M. Schader (Eds.) Data Analysis. Scientific Modeling and Practical Application,
Springer, Berlin: 459–469.
[84] Grossberg S., editor (1988) Neural Networks and Natural Intelligence. The MIT
Press, Cambridge, Massachussets.
[85] Hakimi; Patrinos (1972) “The distance matrix of a graph and its tree realization”,
pp. 255-262.
[86] Hartigan (1974) Clustering Algorithms. John Wiley & Sons, Nueva York.
[87] Henry-Labordère, A. (1977) Analyse de Données: Applications et Méthodes Prati-

ques. Masson, Paris.
211
[88] Hertz, J.A.; Krogh, A.; Palmer, R.G. (1991) Introduction to the Theory of Neural
Computation. Addison–Wesley, Redwood City, California.
[89] Hoaglin, D.C.; Moore, D.S. (1992) Perspectives in Contemporary Statistics. Mathe-
matical Association of America, MAA Notes Nr. 21.
[90] Holland, J.H. (1975) Adaptation in Natural and Artificial Systems. University of
Michigan Press, Ann Arbor.
[91] Hruschka, H.; Natter, M. (1993) “A-posteriori segmentation in marketing by neural

network models”, en Applied Stochastic Models and Data Analysis, J. Janssen and
C.H. Skiadas (eds.), World Scientific, Singapur, 375–387.
[92] Hopfield, J.J. (1984) “Neurons with graded response have collective computatio-
nal properties like those of two–state neurons”, Proc. of the National Academy of
Sciences 81: 3088–3092.
[93] Hush, D.R.; Horne, B.G. (1993) “Progress in supervised neural networks. What’s
new since Lippman?”, IEEE Signal Processing Magazine, January 1993: 8–39.
[94] Jambu M. (1978) Classification Automatique pour l’Analyse des Données. Tomo 1.
Dunod, Parı́s.
[95] Jambu M. (1989) Exploration Informatique et Statistique des Données. Dunod,

Parı́s.
[96] Jardine, C.J.; Jardine, N.; Sibson, R. (1967) “The structure and construction of
taxinomic hierarchies”, Mathematical Biosciences 1: 171–179.
[97] Jardine, N.; Sibson, R. (1971) Mathematical Taxonomy. John Wiley & Sons, New
York.
[98] Johnson, S.C. (1967) “Hierarchical clustering schemes”, Psychometrika 32(3).
[99] Kamp, Y.; Haster, M. (1990) Recursive Neural Networks for Associative Memory.
John Wiley & Sons, Chichester.
[100] Kaufman, L.; Rousseeuw, P.J. (1990) Finding Groups in Data. John Wiley & Sons,
New York.
[101] Kirkpatrick, S.; Gellat, C.D.; Vecchi, M.P. (1983) “Optimization by simulated an-
nealing”, Science 220: 671–680.
[102] Klecka, W.R. (1980) Discriminant Analysis. Sage University Paper, Series: Quanti-
tative Applications in the Social Sciences, No. 19, London.
[103] Knuth, D.E. (1981) Seminumerical Algorithms, segunda edición, volumen 2 del libro
The Art of Computer Programming. Addison-Wesley, Reading, Mass.
[104] Kodratoff, Y. (1986) Leçons d’Apprentissage Symbolique. Cépaduès, Toulouse.
[105] Kodratoff, Y.; Diday, E. (1991) Induction Symbolique et Numérique à Partir de

Données. Cépaduès, Toulouse.
[106] Kohonen, T. (1984) Self-Organization and Associative Memory. (2a edición),

Springer–Verlag, Berlin.
[107] Kruskal, J.B.; Wish, M. (1978) Multidimensional Scaling. Sage Publications, Beverly
Hills CA.
[108] Laarhoven, P.J.M. van; Aarts, E.M. (1988) Simulated Annealing: Theory and Ap-
plication. Kluwer, Dordrecht.
[109] Lance, G.N.; Williams, W.T. (1967) “A general theory of classification sorting stra-
tegies. I. Hierarchical systems”, Computer Journal 9(4); “II. Clustering systems”,
Computer Journal 10(3).
[110] Lavit, Ch. (1988) Analyse Conjointe de Tableaux Quantitatifs. Masson, Paris.
[111] Lebart, L. (1975) “L’orientation du dépouillement de certaines enquêtes par

l’analyse des correspondances multiples”, Consommation, No. 2.
[112] Lebart, L.; Morineau, A.; Fenelon, J.P. (1979) Informatique et Statistique Appli-
quées. Dunod, Paris.
[113] Lebart, L.; Morineau, A.; Tabard, N. (1982) Techniques de la Description Statisti-
que. Dunod, Paris.
[114] Lebart, L.; Morineau, A.; Warwick, K.M. (1984) Multivariate Descriptive Statistical
Analysis. John Wiley & Sons, Nueva York.
[115] Lebart, L.; Morineau, A.; Fénelon, J.-P. (1985) Tratamiento Estadı́stico de Datos.
Métodos y Programas. Marcombo, Barcelona.
[116] Lebart, L. (1992) “Les enquêtes et la statistique”, en D. Grangé & L. Lebart (Eds.)
Traitements Statistiques des Enquêtes, Dunod, Paris: 1–19.
[117] Lebart, L.; Morineau, A.; Piron, M. (1995) Statistique Exploratoire Multidimension-
nelle. Dunod, Paris.
[118] Le Cun, Y. (1985) Une Procédure d’Apprentissage pour Réseau à Seuil Assymétri-
que. Proceedings of Cognitiva 85, Parı́s, pp. 599-604.
[119] Lechevallier, Y. (1995) “Construcción eficaz de una red neuronal a partir de un árbol
de decisión”, en Memorias VII y VIII Simposio Métodos Matemáticos Aplicados a
las Ciencias, W. Castillo y J. Trejos (eds.), Editorial de la Universidad de Costa
Rica, San Pedro, pp.: 53–74.
213
[120] Lerman, I.C.; Hardouin, M.; Chantrel, T. (1980) “Analyse de la situation relative
entre deux classifications floues”, in Data Analysis and Informatics I, E. Diday et
al. (eds.), North–Holland Publ. Co., 523–552.
[121] Lerman, I.C. (1981) Classification et Analyse Ordinale des Données. Dunod, Parı́s.
[122] Lerman, I.C.; Ghazzali, N. (1990) Quoi retenir d’un arbre de classification? Un essai
de quantification d’image numérisée. Publication interne No. 568, IRISA, Rennes.
[123] L’Hermier-des-Plantes, H. (1976) “Structuration des Tableaux à Trois Indices de la

Statistique”, Thèse de 3ème cycle, Université de Montpellier II.
[124] Libert, G.; Roubens, M. (1983) “New experimental results in cluster validity of
fuzzy clustering algorithms”, in New Trends in Data Analysis and Applications,
J. Janssen, J.-F. Marcotorchino, J.-M. Proth (eds.), Elsevier Science Publ. B. V.
(North–Holland), Amsterdam, 205–217.
[125] Lippman, R.P. (1987) “An introduction to computing with neural nets”, IEEE-
ASSP Magazine, April 1987, pp. 4–22.
[126] McClelland, J.L.; Rumelhart, D.E. (1989) Explorations in Parallel Distribute Proces-
sing. A Handbook of Models, Programs and Exercises. The MIT Press, Cambridge,
Massachussets.
[127] McCord Nelson, M.; Illingworth, W.T. (1990) A Practical Guide to Neural Nets.
Addison–Wesley, Reading, Massachussets.
[128] McQueen, J.B. (1967) “Some methods for classification and analysis of multivariate
observations”, Proc. 5th Berkeley Symposium on Math. Statistics and Probability,
Vol. 1.
[129] Michalsky, R.S.; Diday, E. (1981) “A recent advance in data analysis: clustering
objects into classes characterized by conjunctive concepts”, Progress in Pettern Re-
cognition, L.N. Kanal & A. Rosenfeld (eds.), North–Holland Publ. Co., 33–56.
[130] Michalsky, R.S.; Carbonell, J.G.; Mitchell, T.M. (1983) Machine Learning: an Ar-
tificial Intelligence Approach. Tioga, Palo Alto, California.
[131] Milgram, M. (1993) Reconnaissance des Formes: Méthodes Numériques et Conne-

xionistes. Armand Colin, Parı́s.
[132] Minsky, M.; Papert, G. (1969) Perceptrons. The MIT Press, Cambridge, Massachus-
sets.
[133] Morineau, A. (1993) “Le ‘thémascope’ ou analyse structurelle des données

d’enquête” en D. Grangé & L. Lebart (Eds.) Traitements Statistiques des Enquêtes,
Dunod, Paris: 135–159.
[134] Murtagh, F. (1982) “A survey of recent advances in hierarchical clustering algo-

rithms”, The Computer Journal 26(4): 354–359.
[135] Murtagh, F. (1984) “An empirical study of coefficients for measuring the structure
of hierarchic classifications”, in Data Analysis and Informatics III, E. Diday et al.
(eds.), North–Holland Publ. Co., 385–393.
[136] Murtagh, F. (1990) “Multilayer perceptrons for classification and regression.”
[137] Murtagh, F. (1990) “Neural networks for forecasting and related problems: an an-
notated bibliography”.
[138] Nakache, J.P.; Chevalier, A.; Morice, V. (1981) Exercises commentés de Mathéma-
tiques pour l’Analyse Statistique des Données. Dunod, Paris.
[139] Ohsumi, N. (1980) “Evaluation procedure of agglomerative hierarchical clustering

methods by fuzzy relations”, in Data Analysis and Informatics I, E. Diday et al.
(eds.), North–Holland Publ. Co., 509–522.
[140] Pagès, J.P. (1989) “El Cielo y la Tierra: un enfoque constructivista del fenómeno
de la opinión en Francia”, Revista de Ciencia y Tecnologı́a 13(1–2): 11–45.
[141] Pao, Y.H. (1989) Adaptive Pattern Recognition and Neural Nets. Addison-Wesley,
Reading, Mass.
[142] Peltier, M.-A.; Dubuisson, B. (1993) “A human state detection system based on a
fuzzy approach”, ToolDiag’93 International Conference on Fault Diagnosis, Toulou-
se, 5–7 abril 1993, 645–652.
[143] Perez, J.C. (1989) De Nouvelles Voies vers l’Intelligence Artificielle. Pluri-
Disciplinarité, Auto-Organisation, Résaux Neuronaux. Masson, Paris.
[144] Piza E. (1988) “Clasificación Automática Jerárquica Aglomerativa” Revista de

Ciencias Económicas, VII(1): 95–111.
[145] Piza, E. (1987) “La clasificación automática jerárquica aglomerativa”, Revista de

Ciencias Económicas 7(1): 95–111.
[146] Poltronieri, J. (1989-1991) “Estructuras de la Opinión Pública en Costa Rica”. In-

formes de Investigación del perı́odo 1989-1991. Escuela de Matemáticas, Universidad
de Costa Rica.
[147] Poltronieri, J.; Piza, E. (1989) Estructuras de la Opinión Pública en Costa Rica.
Editorial de la Universidad de Costa Rica, San José.
[148] Press, W.H.; Flannery, B.P.; Teulolsky, S.A.; Vetterling, W.T. (1990) Numerical
Recipes (Fortran Version). The Art of Scientific Computing. Cambridge University
Press, New York.
215
[149] Reeves, C.; Steele, N (1993) “Neural networks for multivariate analysis: results of
some cross–validation studies”, en Applied Stochastic Models and Data Analysis, J.
Janssen and C.H. Skiadas (eds.), World Scientific, Singapur, 780–791.
[150] Régnier, S. (1965) “Sur quelques aspects mathématiques des problèmes de classifi-
cation automatique”, ICC Bulletin 4 & Math. Sci. Hum 82 (1983).
[151] Ripley, B. D. (1993) Statistical aspects of neural networks. Chapman & Hall, Lon-
dres.
[152] Rizzi, A. (1982) Analisi dei Gruppi. La Goliardica, Roma.
[153] Rodrı́guez, O. (1994) “Análisis de datos: una implementación orientada a objetos”,

en: G. Mora (Ed.) II Encuentro Centroamericano de Investigadores en Matemáticas,
San Ramón: 71–84.
[154] Rodrı́guez, O. (1997) “PIMAD 2.1: los algoritmos”, en: W Castillo & J. Trejos
(Eds.) X Simposio Internacional de Métodos Matemáticos Aplicados a las Ciencias,
U.C.R. û I.T.C.R., Liberia.
[155] Rodrı́guez, O. (1997) C++ para Ambiente Windows. Editorial Tecnológica de Costa
Rica, Cartago.
[156] Rodrı́guez, O.; Castillo, W. (1999) “Análisis discriminante descriptivo: teorı́a, algo-
ritmo y software”, Revista de Matemática: Teorı́a y Aplicaciones 6(1): 35–50.
[157] Rosenblatt, F. (1958) The Perceptron: a probabilistic model for information storage
and organization in the brain. En: Psychological Review, 65, pp. 386-408.
[158] Roux M. (1985) Algorithmes de Classification. Masson, Parı́s.
[159] Roux, M. (1985) “Représentation d’une distance par un arbre aux arêtes aditives”,
Journées d’Analyse des Données et Informatique, INRIA, Versailles.
[160] Roux, M. (1987) “Techniques of approximation for building two tree structures”, En:
Recent Developments in Clustering and Data Analysis, Proceedings of the French–
Japanese Scientific Seminar, Tokyo.
[161] Roux, M. (1993) “Classification des données d’enquêtes”, en D. Grangé & L. Lebart
(Eds.) Traitements Statistiques des Enquêtes, Dunod, Paris: 91–112.
[162] Rumelhart, D. E.; McClelland, J. L., editores (1986) Parallel distributed processing.
Vol. 1: Foundations. Vol. 2: Exploration in the microstructure of cognition. The MIT
Press, Cambridge, Massachussets.
[163] Sánchez, A. L. (1994) “Una arquitectura neuronal hı́brida para reconocimiento de

palabras aisladas”, Actas I Reunión ECLA, junio 1994, Valladolid.
[164] Saporta G. (1982) Théorie et Méthodes de la Statistique. Technip, Parı́s.

[165] Saporta, G. (1995) “El análisis discriminante”, en Memorias VII y VIII Simpo-
sio Métodos Matemáticos Aplicados a las Ciencias, W. Castillo y J. Trejos (eds.),
Editorial de la Universidad de Costa Rica, San Pedro, pp.: 75–102.
[166] Saporta, G. (1995) “Los métodos y aplicaciones del credit–scoring”, en Memorias
VII y VIII Simposio Métodos Matemáticos Aplicados a las Ciencias, W. Castillo y
J. Trejos (eds.), Editorial de la Universidad de Costa Rica, San Pedro, pp.: 103–110.
[167] Schektman, Y. (1978) Estadı́stica descriptiva (análisis lineal de datos multidimen-
sionales, I parte. En: Memorias I Simposio Métodos Matemáticos Aplicados a las
Ciencias, J. Badia, Y. Schektman y J. Poltronieri (eds.), Universidad de Costa Rica,
San Pedro: 9–67.
[168] Schektman, Y.; Badia, J.; Poltronieri, J. (1978) “Estadı́stica descriptiva (análisis
lineal de datos multidimensionales)”, en: Memorias I Simposio de Métodos Ma-
temáticos Aplicados a las Ciencias: 9–67.
[169] Schektman, Y. (1988) Analyse et Traitement Informatique de Données. Curso del
Diplôme d’Etudes Approfondies, Universidad Paul Sabatier, Toulouse.
[170] Siarry, P.; Dreyfus, G. (1988) La Méthode du Recuit Simulé. IDSET, Parı́s.
[171] Sokal, R.R.; Sneath, P.H. (1963) Principles of Numerical Taxonomy. W. H. Freeman
& Co., San Francisco.
[172] Tenenhaus, M.; Young, F.(1984) “An analysis and synthesis of multiple corres-
pondence analysis, optimal scaling, dual scaling, homogeneity analysis and other
methods for quantifying categorical multivariate data”, J.A.S.A., 79(388): 91–119.
[173] Tenenhaus, M.; Young, F. (1983) Multiple correspondence analysis and the principal
components of quantitative data. Report No. 170, The L.L.Thurstone Psychometric
Laboratory, University of North Carolina (27 pp.).
[174] Tomassone, R.; Danzart, M.; Daudin, J.J.; Masson, J.P. (1988) Discrimination et
Classement. Masson, Parı́s.
[175] Trejos, J. (1994) Contribution à l’acquisition de connaissances à partir de données
symboliques. Tesis de doctorado, Universidad Paul Sabatier, Toulouse.
[176] Trejos, J. (1995) Principios de Análisis Multivariado de Datos. Notas de curso,
Universidad de Costa Rica, San Pedro.
[177] Trejos, J. (1995) “Presentación de las redes neuronales: aplicaciones al análisis de
datos”, en Memorias VII y VIII Simposio Métodos Matemáticos Aplicados a las
Ciencias, W. Castillo y J. Trejos (eds.), Editorial de la Universidad de Costa Rica,
San Pedro, pp.: 117–148.
217
[178] Trejos, J. (1995) “Análisis de datos: historia, filosofı́a y tendencias actuales”, en M.

Caldera et al. (Eds.) Memorias III Encuentro Centroamericano de Investigadores
en Matemáticas, Managua–León.
[179] Trejos, J.; Moya, E. (1998) Introducción a la Estadı́stica Descriptiva. Editorial Sello
Latino, San José.
[180] Villoing, P. (1987) “Algorithmes de réallocation”, en Ecole Modulad Méthodes de

Classificacion pour l’Analyse des Données, CCS–INRIA, Strasbourg, pp. 102–136.
[181] Wasserman, P. D. (1989) Neural Computing. Theory and Practice. Van Nostrand
Reinhold, New York.
[182] White, H. (1989) “Some asymptotic results for learning in single hidden–layer feed-
forward network models”, Journ. American Statistical Society, 84 (408): 1003–1013.

NotasAMD Pag 31

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

NotasAMD Pag 31

Cargado por

Copyright:

Formatos disponibles

ANÁLISIS MULTIVARIADO DE DATOS

Javier Trejos Zelaya

2. Introducción a la Estadı́stica Multidimensional 19

3. Análisis en Componentes Principales 29

3.2. Objetivo del A.C.P. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

4. Análisis Factorial de Correspondencias 49

4.5.4. Selección de puntos . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

5. Análisis de Correspondencias Múltiples 79

6.2.1. El criterio de Stress . . . . . . . . . . . . . . . . . . . . . . . . . . . 102

7. Clasificación jerárquica 135

7.7. Observaciones acerca de la clasificación jerárquica . . . . . . . . . . . . . . 151

8. Clasificación por particiones 153

9. Análisis Discriminante 177

10.Regresión Lineal Múltiple 191

10.1. Planteamiento del problema . . . . . . . . . . . . . . . . . . . . . . . . . . 191

A. Guı́a breve de técnicas multivariadas de análisis de datos 197

1.1. El coeficiente de correlación muestra el tipo de relación entre dos variables

2.1. El esquema de dualidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

4.1. Notaciones relacionadas con una tabla de contingencia . . . . . . . . . . . 51

6.1. Representación de la percepción de similitudes entre 12 paı́ses por parte de

7.1. Ejemplo de árbol jerárquico . . . . . . . . . . . . . . . . . . . . . . . . . . 144

8.1. Configuración de 14 puntos descritos por dos variables x, y. . . . . . . . . . 159

10.1. Proyeccion de la variable a explicar en el espacio generado por las variables

1.1. Tabla de datos de las notas escolares con peso y estatura. . . . . . . . . . . 7

3.1. Tabla de datos de las notas escolares . . . . . . . . . . . . . . . . . . . . . 30

5.1. Frecuencias para las variables socioeconómicas. . . . . . . . . . . . . . . . . 89

6.1. Proximidades entre 12 paı́ses. . . . . . . . . . . . . . . . . . . . . . . . . . 104

6.4. Matrices C obtenidas por los métodos MDSR y ssMDSR y la reportada

8.1. Tabla de 14 objetos descritos por dos variables x, y. . . . . . . . . . . . . . 159

1.1. Elementos de Estadı́stica

La Estadı́stica trata de estudiar datos producidos en diversas situaciones. El estudio

1.1.1. Individuos o unidades estadı́sticas

Pesos de los individuos

En algunos métodos de Análisis de Datos, es importante tomar en cuenta que las

1.1.2. Las variables de la estadı́stica

Dependiendo de la naturaleza del conjunto de posibles valores de la variable distin-

Entre las variables cuantitativas distinguimos dos tipos:

Si la variable puede tomar su valor solamente en un conjunto finito de posibilidades,

Si las modalidades no están ordenadas, entonces la variable se llama nominal. Por

Codificación de variables cualitativas. Para las variables cualitativas, un aspecto

Ejemplo 1.1.9 En la práctica, la variable sexo puede aparecer codificada de la siguiente

Estudiante Sexo o bien Estudiante Sexo

Ejemplo 1.1.10 El ejemplo anterior (1.1.9) quedarı́a codificado en forma disyuntiva

Al hacer una codificación como la anterior, se pierde la estructura algebraica de R

1.2. Tablas de datos

1.2.1. Tablas de individuos × variables

Estudiante Mate Cien Espa Hist EdFi Peso Estatura

Estado Número Ingreso

Cuadro 1.2: Tabla de datos de una encuesta.

Supóngase que se tienen n individuos descritos por p variables. Llamemos X a una

En general, en la notación xij el primer subı́ndice denota a los individuos y el segundo

1.2.2. Tablas de variables × variables

Ejemplo 1.2.3 En una encuesta se ha preguntado por el nivel de estudios de un conjunto

salario bajo: menos de 100.000 colones mesuales

Nivel de Nivel de salario

1.2.3. Tablas de individuos × individuos

S.J. Ala. Car. Her. Pun. Lim. Lib. Gol.

Cuadro 1.4: Tabla de datos con la distancia entre algunas ciudades

1.3. Análisis estadı́sticos univariados y bivariados

Siempre que se haga un análisis de datos, es imprescindible tener un conocimiento

Análisis estadı́stico univariado. Si la variable a analizar es cuantitativa, se medirán

Análisis estadı́stico bivariado. El análisis bivariado consiste el estudio de las rela-

Si r(x, y) ≈ 0: no hay correlación, esto significa que a valores grandes de x corres-

Más adelante haremos una interpretación geométrica del coeficiente de correlación,