Está en la página 1de 232

ANÁLISIS MULTIVARIADO DE DATOS

Javier Trejos Zelaya

Escuela de Matemática
Universidad de Costa Rica
ii
Índice general

1. Estadı́stica Descriptiva 1
1.1. Elementos de Estadı́stica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1.1. Individuos o unidades estadı́sticas . . . . . . . . . . . . . . . . . . . 2
1.1.2. Las variables de la estadı́stica . . . . . . . . . . . . . . . . . . . . . 3
1.2. Tablas de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2.1. Tablas de individuos × variables . . . . . . . . . . . . . . . . . . . . 7
1.2.2. Tablas de variables × variables . . . . . . . . . . . . . . . . . . . . 8
1.2.3. Tablas de individuos × individuos . . . . . . . . . . . . . . . . . . . 9
1.3. Análisis estadı́sticos univariados y bivariados . . . . . . . . . . . . . . . . . 10
1.4. Análisis univariado y bivariado con el sistema PIMAD . . . . . . . . . . . 15
1.4.1. Análisis univariado en PIMAD . . . . . . . . . . . . . . . . . . . . . 16
1.4.2. Análisis bivariado en PIMAD . . . . . . . . . . . . . . . . . . . . . 17
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

2. Introducción a la Estadı́stica Multidimensional 19


2.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.2. Los espacios vectoriales asociados a las tablas de datos . . . . . . . . . . . 19
2.3. Nubes de puntos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.4. Inercia en un punto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
Anexo: esquema de dualidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

3. Análisis en Componentes Principales 29


3.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

iii
iv

3.2. Objetivo del A.C.P. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29


3.3. Solución del A.C.P. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.3.1. Diagonalización de V . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.3.2. Vectores principales . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.3.3. Componentes principales . . . . . . . . . . . . . . . . . . . . . . . . 32
3.3.4. Propiedades de las componentes principales . . . . . . . . . . . . . 32
3.4. Representaciones gráficas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.4.1. Planos principales . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.4.2. Cı́rculos de correlaciones . . . . . . . . . . . . . . . . . . . . . . . . 34
3.5. Indices de calidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.5.1. Calidad global . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.5.2. Calidad particular . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.5.3. Número de componentes principales . . . . . . . . . . . . . . . . . . 40
3.6. Interpretación de los resultados . . . . . . . . . . . . . . . . . . . . . . . . 41
3.7. Elementos suplementarios . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.7.1. Individuos suplementarios . . . . . . . . . . . . . . . . . . . . . . . 42
3.7.2. Variables suplementarias . . . . . . . . . . . . . . . . . . . . . . . . 43
3.8. Otras aplicaciones del A.C.P. . . . . . . . . . . . . . . . . . . . . . . . . . 43
Anexo: cálculo de los ejes principales de inercia . . . . . . . . . . . . . . . . . . 43

4. Análisis Factorial de Correspondencias 49


4.1. Perfiles-fila y perfiles-columna . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.1.1. Nube de perfiles-fila . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.1.2. Nube de perfiles-columna . . . . . . . . . . . . . . . . . . . . . . . . 54
4.2. Propiedad de equivalencia distribucional . . . . . . . . . . . . . . . . . . . 55
4.3. Análisis en Componentes Principales de una nube de perfiles . . . . . . . . 56
4.4. Representaciones gráficas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
4.5. Interpretación de un AFC . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4.5.1. La contribución absoluta . . . . . . . . . . . . . . . . . . . . . . . . 61
4.5.2. Contribución relativa . . . . . . . . . . . . . . . . . . . . . . . . . . 62
4.5.3. Selección de ejes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
v

4.5.4. Selección de puntos . . . . . . . . . . . . . . . . . . . . . . . . . . . 63


4.6. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
4.6.1. Análisis de Correspondencias de una tabla de contingencia . . . . . 63
4.6.2. Análisis de Correspondencias de una tabla de notas . . . . . . . . . 65
4.7. Aplicación en Biologı́a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
4.7.1. Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
4.7.2. Methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
4.7.3. Results . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
4.7.4. Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

5. Análisis de Correspondencias Múltiples 79


5.1. Los principios básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
5.2. Equivalencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
5.3. El AFC de Z . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
5.4. Interpretación de resultados . . . . . . . . . . . . . . . . . . . . . . . . . . 85
5.5. Ejemplo: Análisis de Conceptos Sociológicos en la
Educación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
5.5.1. El cuestionario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
5.5.2. Tratamiento previo de los datos . . . . . . . . . . . . . . . . . . . . 87
5.5.3. Análisis de las relaciones entre las variables de opinión . . . . . . . 88
5.5.4. Confirmación de resultados comparando
con otros métodos . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
5.5.5. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94

6. Escalamiento Multidimensional 97
6.1. Escalamiento clásico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
6.1.1. La forma de Torgerson . . . . . . . . . . . . . . . . . . . . . . . . . 98
6.1.2. Determinación de las coordenadas . . . . . . . . . . . . . . . . . . . 100
6.1.3. Relación con el Análisis en Componentes Principales . . . . . . . . 100
6.1.4. Uso del MDS clásico . . . . . . . . . . . . . . . . . . . . . . . . . . 101
6.1.5. Algoritmo de MDS clásico . . . . . . . . . . . . . . . . . . . . . . . 102
6.2. Escalamiento métrico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
vi

6.2.1. El criterio de Stress . . . . . . . . . . . . . . . . . . . . . . . . . . . 102


6.2.2. Método de Kruskal . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
6.2.3. ALSCAL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
6.2.4. MDS y optimización . . . . . . . . . . . . . . . . . . . . . . . . . . 105
6.2.5. Restricciones en la configuración . . . . . . . . . . . . . . . . . . . . 106
6.3. Escalamiento no métrico . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
6.4. El caso de tablas múltiples . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
6.5. Análisis de preferencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
6.5.1. Ejemplo sobre desayunos . . . . . . . . . . . . . . . . . . . . . . . . 118
6.5.2. Ejemplo sobre pintura . . . . . . . . . . . . . . . . . . . . . . . . . 120
6.5.3. La Interestructura . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
6.5.4. El Compromiso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
6.5.5. La Intraestructura . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
6.5.6. Aplicación: Análisis de la Evolución de la Opinión Pública . . . . . 122

7. Clasificación jerárquica 135


7.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
7.2. Similitudes y disimilitudes . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
7.2.1. Similitudes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
7.2.2. Disimilitudes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
7.2.3. Caso binario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
7.2.4. Caso cualitativo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
7.2.5. Agregaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
7.3. Jerarquı́as . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
7.4. Algoritmo de clasificación jerárquica ascendente . . . . . . . . . . . . . . . 145
7.4.1. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
7.4.2. Fórmula de recurrencia . . . . . . . . . . . . . . . . . . . . . . . . . 148
7.4.3. Inversiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
7.4.4. Algoritmos ascendentes acelerados . . . . . . . . . . . . . . . . . . . 149
7.5. Ejemplo de notas escolares . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
7.6. Jerarquı́as y ultramétricas . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
vii

7.7. Observaciones acerca de la clasificación jerárquica . . . . . . . . . . . . . . 151


7.7.1. Algoritmos descendentes . . . . . . . . . . . . . . . . . . . . . . . . 152

8. Clasificación por particiones 153


8.1. Problema combinatorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154
8.2. Criterio de la inercia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154
8.3. Método de nubes dinámicas . . . . . . . . . . . . . . . . . . . . . . . . . . 155
8.3.1. Escogencia de los núcleos iniciales . . . . . . . . . . . . . . . . . . . 156
8.3.2. Caso de los centros de gravedad . . . . . . . . . . . . . . . . . . . . 156
8.3.3. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156
8.3.4. Ejemplo de las notas escolares . . . . . . . . . . . . . . . . . . . . . 170
8.4. Análisis de las formas fuertes . . . . . . . . . . . . . . . . . . . . . . . . . 170

9. Análisis Discriminante 177


9.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177
9.2. Análisis Factorial Discriminante . . . . . . . . . . . . . . . . . . . . . . . . 178
9.2.1. Plantemiento del problema . . . . . . . . . . . . . . . . . . . . . . . 178
9.2.2. Solución del análisis factorial discriminante . . . . . . . . . . . . . . 179
9.2.3. Un A.C.P. particular . . . . . . . . . . . . . . . . . . . . . . . . . . 180
9.2.4. El caso de dos grupos . . . . . . . . . . . . . . . . . . . . . . . . . . 181
9.3. Análisis decisional: reglas geométricas de asignación . . . . . . . . . . . . . 181
9.4. Discriminación paso a paso: selección de las variables más discriminantes . 181
9.5. Evaluación de las funciones discriminantes . . . . . . . . . . . . . . . . . . 183
9.6. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184
9.7. Otros métodos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
9.7.1. Métodos probabilı́sticos . . . . . . . . . . . . . . . . . . . . . . . . 185
9.7.2. Discriminación cualitativa . . . . . . . . . . . . . . . . . . . . . . . 186
9.7.3. Segmentación y árboles de decisión . . . . . . . . . . . . . . . . . . 186
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187
Anexo: descomposición de la inercia . . . . . . . . . . . . . . . . . . . . . . . . . 189

10.Regresión Lineal Múltiple 191


viii

10.1. Planteamiento del problema . . . . . . . . . . . . . . . . . . . . . . . . . . 191


10.1.1. Interpretación geométrica . . . . . . . . . . . . . . . . . . . . . . . 192
10.1.2. Solución . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192
10.2. Calidad de la regresión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193

A. Guı́a breve de técnicas multivariadas de análisis de datos 197


Bibliografı́a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205
Índice de figuras

1.1. El coeficiente de correlación muestra el tipo de relación entre dos variables


cuantitativas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.1. El esquema de dualidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

3.1. Primer plano principal para la tabla de notas escolares, generado por las
dos primeras componentes principales . . . . . . . . . . . . . . . . . . . . . 35
3.2. Cı́rculo de correlaciones para la tabla de notas escolares generado por las
dos primeras componentes principales . . . . . . . . . . . . . . . . . . . . . 36
3.3. Proyección de dos puntos individuos en el plano principal . . . . . . . . . . 38
3.4. Descomposición del coseno cuadrado según el teorema de Pitágoras . . . . 39

4.1. Notaciones relacionadas con una tabla de contingencia . . . . . . . . . . . 51


4.2. Componentes de una tabla de frecuencias . . . . . . . . . . . . . . . . . . . 51
4.3. Tabla de perfiles-fila . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
4.4. Plano principal: nivel de salario vs. tipo de empleo . . . . . . . . . . . . . . 59
4.5. Plano principal: estudiantes vs. notas escolares . . . . . . . . . . . . . . . . 67
4.6. Principal plane of the correspondence analysis crossing the epiphytes and
the tree ferns. Tree ferns are indicated with a star ?, only the labels of the
epiphytes of interest are indicated with a circle ◦ and those around Cyathea
delgadii are indicated with a diamond . . . . . . . . . . . . . . . . . . . . 70
4.7. Principal plane of the correspondence analysis crossing the epiphytes and
the 5 levels. The levels are indicated with a star ?, only the labels of the
epiphytes of interest are indicated with a circle ◦. . . . . . . . . . . . . . . 71
4.8. Principal plane of the correspondence analysis crossing the epiphytes and
the 5 levels, for Cyathea nigripes. The levels are indicated with a star ?,
only the labels of the epiphytes of interest are indicated with a circle ◦. . . 72

ix
x

4.9. Principal plane of the correspondence analysis crossing the epiphytes and
the 5 levels, for Cyathea delgadii. The levels are indicated with a star ?,
only the labels of the epiphytes of interest are indicated with a circle ◦. . . 73
4.10. Principal plane of the correspondence analysis crossing the epiphytes and
the 5 levels, for Alsophila polystichoides. The levels are indicated with a star
?, only the labels of the epiphytes of interest are indicated with a circle ◦. . 74
4.11. Principal plane of the correspondence analysis crossing the epiphytes and
the 5 levels, for Alsophila erinacea. The levels are indicated with a star ?,
only the labels of the epiphytes of interest are indicated with a circle ◦. . . 75

5.1. ACM de las diez variables de opinión: plano principal (25 % de inercia). . . 91
5.2. ACM de los temas “empresa privada–libertad”: plano principal (49 % de
inercia explicada). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
5.3. Trayectoria seguida por las modalidades de var8 y var9 en el plano gene-
rado por los ejes 1 y 3 (43 % de inercia). . . . . . . . . . . . . . . . . . . . 93
5.4. Arbol de clasificación para las variables de opinión. . . . . . . . . . . . . . 93

6.1. Representación de la percepción de similitudes entre 12 paı́ses por parte de


un grupo de 18 estudiantes, usando el método de Kruskal para MDS métrico.105
6.2. Configuraciones de las trece expresiones faciales obtenidas con los métodos
MDSR, ssMDSR y la reportada por Borg & Groenen (1997). . . . . . . . . 111
6.3. Plano principal y cı́rculo de correlaciones del Análisis en Componentes
Principales de la matriz Y . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
6.4. Resultado del análisis de preferencias de desayunos. . . . . . . . . . . . . . 119
6.5. Resultado del análisis de preferencias de 6 pinturas. . . . . . . . . . . . . . 120
6.6. Cı́rculo de correlaciones que contiene los años y su evolución. . . . . . . . . 128
6.7. Cı́rculo de correlaciones que contiene las variables y su evolución en los 4
anños del estudio. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
6.8. Plano principal con los grupos sociales en los ejes del compromiso. . . . . . 130
6.9. Plano principal con los puntos asociados a los partidos polı́ticos en los ejes
del compromiso. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
6.10. Trayectorias de los grupos sociales (1). . . . . . . . . . . . . . . . . . . . . 132
6.11. Trayectorias de los grupos sociales (2). . . . . . . . . . . . . . . . . . . . . 133

7.1. Ejemplo de árbol jerárquico . . . . . . . . . . . . . . . . . . . . . . . . . . 144


7.2. Arbol de clasificación obtenido al usar la agregación del salto mı́nimo . . . 146
xi

7.3. Arbol de clasificación opbtenido al usar la agregación del salto máximo . . 147
7.4. Arbol de clasificación obtenido al usar la agregación del salto promedio . . 148
7.5. Arbol de clasificación obtenido al usar la agregación del salto promedio . . 149

8.1. Configuración de 14 puntos descritos por dos variables x, y. . . . . . . . . . 159


8.2. Evolución de los núcleos para el método de nubes dinámicas (1a iteración:
, 2a iteración: , 3a iteración: ◦, 4a iteración: ?). . . . . . . . . . . . . . . 162
8.3. Configuración de 20 objetos en el plano. . . . . . . . . . . . . . . . . . . . 164

10.1. Proyeccion de la variable a explicar en el espacio generado por las variables


explicativas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192
xii
Índice de cuadros

1.1. Tabla de datos de las notas escolares con peso y estatura. . . . . . . . . . . 7


1.2. Tabla de datos de una encuesta. . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3. Tabla de contingencia que cruza el nivel de salario con el nivel de estudios 9
1.4. Tabla de datos con la distancia entre algunas ciudades . . . . . . . . . . . 10
1.5. Tabla de datos: sociomatriz en que 12 estudiantes de sexto grado califican
la afinidad hacia cada uno de sus compañeros. . . . . . . . . . . . . . . . . 10

3.1. Tabla de datos de las notas escolares . . . . . . . . . . . . . . . . . . . . . 30


3.2. Correlaciones entre las materias de la tabla de notas escolares . . . . . . . 32
3.3. Dos primeras componentes principales para la tabla de notas escolares . . . 33
3.4. Cosenos cuadrados y calidad de la representación para la tabla de notas
escolares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

4.1. Tabla de contingencia que cruza nivel de salario con tipo de empleo . . . . 50
4.2. Coordenadas de los puntos sobre las componentes principales - Tabla de
notas escolares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
4.3. Número de epı́fitas de cada especie sobre 4 especies de helechos arbores-
centes (primera parte de la tabla) y en cinco niveles (segunda parte de
la tabla): nivel 1 (0–20 %), nivel 2 (20–40 %), nivel 3 (40–60 %), nivel 4
(60–80 %) y nivel 5 (80–100 %) . . . . . . . . . . . . . . . . . . . . . . . . . 77

5.1. Frecuencias para las variables socioeconómicas. . . . . . . . . . . . . . . . . 89


5.2. Frecuencias de las variables de opinión. . . . . . . . . . . . . . . . . . . . . 90

6.1. Proximidades entre 12 paı́ses. . . . . . . . . . . . . . . . . . . . . . . . . . 104


6.2. Matriz de restricciones entre trece expresiones faciales. . . . . . . . . . . . 109
6.3. Matriz de disimilitudes entre trece expresiones faciales. . . . . . . . . . . . 110

xiii
1

6.4. Matrices C obtenidas por los métodos MDSR y ssMDSR y la reportada


por Borg & Groenen (1997). . . . . . . . . . . . . . . . . . . . . . . . . . . 111
6.5. Matriz de restricciones transpuesta (Y t ) para los datos de esfuerzos bacte-
riales. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
6.6. Matriz de disimilitudes para los datos de esfuerzos bacteriales. . . . . . . . 113
6.7. Lista de cereales analizados con MDS no métrico. . . . . . . . . . . . . . . 114
6.8. Resultados del MDS no métrico sobre la tabla de cereales: configuración de
puntos en el plano. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
6.9. Resultados del MDS no métrico sobre la tabla de cereales: contenido de
fibra de cada cereal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
6.10. Resultados comparativos para ssINDS, SYMPRES y CANDECOMP. . . . 117

8.1. Tabla de 14 objetos descritos por dos variables x, y. . . . . . . . . . . . . . 159


8.2. Distancias cuadráticas de los 14 objetos a los núcleos iniciales. . . . . . . . 160
8.3. Distancias de los 14 objetos a los núcleos de la segunda iteración. . . . . . 160
8.4. Distancias de los 14 objetos a los núcleos de la tercera iteración. . . . . . . 161
8.5. Distancias de los objetos a los núcleos finales obtenidos. . . . . . . . . . . . 162
8.6. Evolución de las clases escogiendo los objetos 5 y 7 como núcleos iniciales. 163
8.7. Tabla de 20 objetos caracterizados por dos variables x, y. . . . . . . . . . . 163
8.8. Distancias de los 20 objetos a los núcleos de la primera iteración. . . . . . 164
8.9. Distancias de los 20 objetos a los núcleos de la segunda iteración. . . . . . 165
8.10. Distancias de los objetos a los núcleos en las iteraciones 3, 4 y 5. . . . . . . 166
8.11. Distancias de los 20 objetos a los núcleos de la sexta iteración. . . . . . . . 167
8.12. Distancias de los 20 objetos a los nuevos núcleos (ejemplo 5). . . . . . . . . 168
8.13. Distancias de los objetos a los núcleos durante las iteraciones 2, 3 y 4. . . . 169
8.14. Evolución de las clases para las 4 iteraciones. . . . . . . . . . . . . . . . . . 170
8.15. Distancias de los 20 objetos a los núcleos en cada iteración cuando se es-
cogen dos clases. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
2
Capı́tulo 1

Estadı́stica Descriptiva

1.1. Elementos de Estadı́stica

La Estadı́stica trata de estudiar datos producidos en diversas situaciones. El estudio


de tales datos puede ser con diversos fines, dependiendo del campo de procedencia de los
datos. Debido a la dificultad de extraer a simple vista toda la información que los datos
poseen, o bien las tendencias que tienen, la Estadı́stica trata de “entender” cuáles son las
estructuras que los datos encierran intrı́nsecamente. La Estadı́stica consiste entonces en
una serie de técnicas útiles para el análisis de los datos producidos u observados.
En la actualidad, datos son producidos en casi todas las disciplinas y actividades
del ser humano: en Ciencias Sociales, Ciencias del Comportamiento, Ciencias Médicas,
Ciencias Agrı́colas, Fı́sica, Meteorologı́a, Educación, Biologı́a, Quı́mica, etc. En general,
casi cualquier actividad humana dondehaya medidas numéricas repetidas provenientes de
la observación o de experimentos, son susceptibles de ser ayudadas por las técnicas es-
tadı́sticas. También es cada vez más común que estas disciplinas acudan a las técnicas
multivariadas, ya que la complejidad de la información que manejan obliga a un análisis
más profundo que los simples promedios y porcentajes, que no muestran las interrelaciones
existentes entre las distintas variables observadas. El desarrollo actual de la computación
y los desarrollos metodologógicos han permitido abordar los grandes problemas de trata-
miento de datos multivariados.
En el presente capı́tulo introducimos la notación y terminologı́a sobre la que reposan
las técnicas multivariadas, que se verán más adelante. Ası́, empezamos definiendo lo que se
entiende por individuos y variables, ası́ como la clasificación de éstas. También recordamos
las principales medidas de estadı́stica descriptiva simple, aunque suponemos que la mayor
parte de los lectores las maneja cómodamente.

1
2 Estadı́stica Descriptiva

1.1.1. Individuos o unidades estadı́sticas


Todo estudio estadı́stico se hace sobre un individuo, que es el objeto de observación. Los
individuos u objetos de un análisis es lo que comúnmente se llaman unidades estadı́sticas.
Una unidad estadı́stica es la entidad sobre la que se quieren obtener las informaciones
para ser analizadas.
Al conjunto de todas las unidades estadı́sticas se le llama población. A una parte de
la población, se le llama muestra. En esta obra no trataremos asuntos relacionados con
las muestras. El lector interesado puede consultar [179] para una descripción de los tipos
de métodos de muestreo, o una obra especializada para profundizar en el tema.

Ejemplo 1.1.1 Supóngase que se quiere conocer las caracterı́sticas de los asegurados al
régimen de Seguridad Social, como por ejemplo su ocupación, su sexo, su estado civil,
el número de hijos que tienen, etc. Entonces los individuos u objetos de estudio son los
asegurados. La población es el conjunto de todos los asegurados, pero para un estudio
particular se puede extraer una muestra.

Ejemplo 1.1.2 Supóngase que se quiere estudiar la eficiencia de las clı́nicas del paı́s.
Para ello se contará el número de médicos y demás personal que tiene cada clı́nica, el
número de personas que ha atendido en un lapso de tiempo (digamos, en el último año), el
número de habitantes que tiene la comunidad a la que atiende, etc. Entonces los individuos
u objetos del análisis son las clı́nicas.

En el enfoque del Análisis de Datos, se suele trabajar directamente con los datos, por
lo que la diferencia entre si los datos provienen de una muestra o de una población es
irrelevante. De hecho, las técnicas que se verán en el curso son todas descriptivas, no
inferenciales. Es únicamente dentro de la Estadı́stica llamada Inferencial en que esta di-
ferencia tiene alguna importancia. En el caso de trabajar con una muestra, la validez de
extrapolar los resultados obtenidos a toda la población, dependerá de la representativi-
dad de la muestra. Es decir, dependerá de si la muestra fue obtenida por algún método
confiable.

Pesos de los individuos

En algunos métodos de Análisis de Datos, es importante tomar en cuenta que las


unidades estadı́sticas pueden tener distinta importancia en un estudio. A la importancia
que puede tomar un individuo, se le llama peso o ponderación.
Supondremos que los n individuos están ponderados por pesos positivos w1 , w2 , . . .,
wn tales que w1 + · · · + wn = 1. En muchas ocasiones, estos pesos serán iguales para todos
los individuos, en cuyo caso wi = 1/n para todo individuo i. Salvo que se especifique lo
contrario, supondremos que los pesos son iguales.
1.1 Elementos de Estadı́stica 3

Ejemplo 1.1.3 En caso de que se tengan 100 individuos y todos con la misma importan-
cia, entonces el peso de cada uno es 1/100.
Si se quiere estudiar la evolución de los porcentajes de votación obtenidos por los distin-
tos partidos polı́ticos, según cada provincia, y se dispone únicamente de los porcentajes
de votos obtenidos por cada partido, entonces las unidades estadı́sticas son las provincias
y la ponderación de cada provincia será el número de votantes de la misma. Por ejem-
plo, digamos que se sabe que el partido PXY obtuvo en la pasada elección 42 % de los
votos en Limón, 47 % en Puntarenas, 52 % en Cartago, etc., entonces para calcular el
porcentaje obtenido en el paı́s se sumarán los porcentajes anteriores, pero ponderados por
la población respectiva. Ası́, si el número de votantes de Limón es 234,789, entonces se
multiplicará 42 % por 234,789, y ası́ sucesivamente. Más adelante veremos como calcular
promedios ponderados y otros ı́ndices cuando los pesos no son iguales.

1.1.2. Las variables de la estadı́stica


Una variable en estadı́stica, es lo que se observa o mide sobre las unidades estadı́sti-
cas. Para cada individuo puede tomar un valor distinto, de ahı́ su nombre. En términos
matemáticos, se puede definir como una función x del conjunto de individuos Ω a un con-
junto de valores. En vista de que los valores que puede tomar x varı́an en ese conjunto,
entonces se le da el nombre de variable a x. Debe observarse que este término estadı́stico,
que proviene del lenguaje de la probabilidad variable aleatoria, no debe confundirse con
el término usual en matemática de variable, en cuyo contexto se usa ese término para de-
signar a los elementos del dominio de la función (en este caso, a los individuos), mientras
que en la definición anterior se usa el término para designar a la función misma.

Ejemplo 1.1.4 Digamos que se quiere estudiar las caracterı́sticas fı́sicas de un grupo
de personas. Entonces resultará de interés medir su estatura, su peso, el perı́metro del
cráneo, su sexo, etc. Todas éstas son variables: por ejemplo, el peso puede tomar valores
diferentes para todas las personas, o bien, puede ocurrir que algunas de ellas tengan el
mismo peso, pero otras lo tengan diferente. Lo importante es que no todas tienen el mismo
valor.

Dependiendo de la naturaleza del conjunto de posibles valores de la variable distin-


guiremos dos tipos principales de variables: las cuantitativas y las cualitativas.

Variables cuantitativas

Una variable se llama cuantitativa o numérica cuando sus valores son números,
reales o enteros.

Ejemplo 1.1.5 Son variables cuantitativas el peso, la edad y la estatura de una persona,
la temperatura de una habitación, la edad, el número de camas de un hospital.
4 Estadı́stica Descriptiva

Puede observarse que las variables cuantitativas tienen una unidad de medida. Es decir,
se miden en alguna unidad que permita tener una idea de qué tanto posee un individuo
la caracterı́stica representada por la variable.

Ejemplo 1.1.6 El peso puede medirse en kilogramos, libras, miligramos, toneladas, etc.
El uso de una unidad dependerá de la naturaleza de las unidades estadı́sticas. Por ejemplo,
si se trata de personas, entonces el peso se medirı́a en kilogramos o libras; si se trata de
pastillas contra el dolor de cabeza y se quiere medir el peso del acetaminofén contenido,
entonces éste se puede medir en miligramos; si se trata de exportaciones de café, entonces
éstas se pueden medir en toneladas. Se debe notar que en algunos análisis que se estudiarán
más adelante, las unidades de medida pueden tener influencia en los resultados, por lo
que se recomienda tener cuidado en la escogencia de las mismas.

Entre las variables cuantitativas distinguimos dos tipos:

Las variables continuas, que son aquéllas que pueden tomar como valores cualquier
número real, es decir, un valor con decimales. Siempre es importante plantearse el
asunto de las unidades de medida de una variable continua, ya que en algunos casos
pueden influir en los resultados de un análisis. Por ejemplo, son variables continuas
el peso, la estatura, la temperatura, un porcentaje.

Las variables discretas, también llamadas de conteo, que son aquéllas que sólo
pueden tomar valores discretos, es decir, números enteros positivos. Son variables
discretas, por ejemplo, el número de camas en un hospital, el número de hijos de
un familia, la edad (dada en años). Las variables discretas tienen por lo general
los números enteros positivos como unidad de medida (aunque por ejemplo la edad
tiene unidad de medida el número de años).

Variables cualitativas

Si la variable puede tomar su valor solamente en un conjunto finito de posibilidades,


tales que todas ellas significan una cualidad o atributo, entonces se llama una variable
cualitativa o categórica.

Ejemplo 1.1.7 El sexo de una persona es una variable cualitativa, pues un individuo
solo puede tener dos cualidades para esta variable: la cualidad masculino o la cualidad
femenino.

Ejemplo 1.1.8 El estado civil de una persona es una variable cualitativa, pues un in-
dividuo solo puede tener una de cuatro cualidades: soltero, casado, viudo, divorciado. Es
decir, hay un conjunto finito de posibilidades, todas ellas excluyentes entre sı́.
1.1 Elementos de Estadı́stica 5

Las posibles cualidades que tiene una variable cualitativa, se llaman las modalidades
de la variable. Algunos autores las llaman también categorı́as o atributos.
Distinguiremos tres tipos de variables cualitativas:

Si las modalidades están ordenadas, entonces la variable se llama ordinal. Por ejem-
plo, la variable nivel de estudios es ordinal, ya que sus modalidades están ordenadas
según la duración de los estudios: las modalidades podrı́an ser por ejemplo educación
primaria, secundaria, técnica, universitaria.

Si las modalidades no están ordenadas, entonces la variable se llama nominal. Por


ejemplo, el sexo o el estado civil son variables nominales ya que las modalidades de
estas variables no tienen un orden lógico.

Un caso especial de variable cualitativa nominal es cuando se tienen solo dos moda-
lidades que reflejan la presencia o la ausencia de una cualidad; este tipo de variables
se llaman binarias, dicotómicas o de presencia–ausencia. Por ejemplo, si un
paciente tiene o no tiene una determinada enfermedad.

Codificación de variables cualitativas. Para las variables cualitativas, un aspecto


de suma importancia es el de la codificación. Por ejemplo, para la variable sexo, se puede
pensar en codificar la modalidad “femeninoçomo 1 y la modalidad “masculinoçomo 0. Sin
embargo, es claro que tal escogencia es totalmente arbitraria, ya que perfectamente se
pudo haber escogido 1 para femenino y 2 para masculino, o cualquier otra cosa, siempre
que el código asignado a cada modalidad sea diferente con el fin de no crear ninguna
ambigüedad. La codificación es en general necesaria en vista de que la mayorı́a de los
programas de computación manipulan información numérica. Por lo tanto, este es un
asunto al que hay que prestarle la mayor importancia en el momento de elaborar un
cuestionario y de tabularlo.

Ejemplo 1.1.9 En la práctica, la variable sexo puede aparecer codificada de la siguiente


manera:

Estudiante Sexo o bien Estudiante Sexo


Ana 1 Ana 1
Juan 0 Juan 2
Pedro 0 Pedro 2
Carmen 1 Carmen 1
Luis 0 Luis 2

Hay muchos programas estadı́sticos que necesitan hacer una codificación disyuntiva
completa, esto es, poner una columna completa para cada modalidad.
6 Estadı́stica Descriptiva

Ejemplo 1.1.10 El ejemplo anterior (1.1.9) quedarı́a codificado en forma disyuntiva


completa como sigue:

Sexo
Estudiante Feme. Masc.
Ana 1 0
Juan 0 1
Pedro 0 1
Carmen 1 0
Luis 0 1

Las columnas de la tabla del ejemplo 1.1.10, se llaman las indicatrices o indicadoras
de cada modalidad: un 1 indica que el individuo correspondiente posee la modalidad y
un 0 que no la posee. Es claro que las modalidades de la variable cualitativa definen
una partición sobre el conjunto de individuos. La partición en el ejemplo 1.1.10 serı́a
{Ana,Carmen}, {Juan,Pedro,Luis}.
Como para toda partición, las clases tienen asociada una función caracterı́stica: esta
función es precisamente la indicatriz de la modalidad. Véase además que esta partición
es la asociada a la relación de equivalencia mencionada anteriormente.

Recodificación de una variable cuantitativa. Por otro lado, es claro que cualquier
variable cuantitativa puede “codificarseçomo variable cualitativa, estableciendo niveles en
el rango de la variable cuantitativa.

Ejemplo 1.1.11 Para ciertos análisis, puede ser más útil manipular el salario como va-
riable cualitativa que como cuantitativa: se puede entonces pensar en establecer categorı́as
de salario, como muy bajo (menos de 500 dólares), bajo (entre 500 y menos de 1000
dólares), medio (entre 1000 y menos de 2000 dólares), alto (entre 2000 y menos de 4000
dólares) y muy alto ( más de 4000 dólares).

Al hacer una codificación como la anterior, se pierde la estructura algebraica de R


pero se mantiene la de orden y quizás se gana en sı́ntesis. La utilidad de una codificación
como ésta sólo se verá a la luz de los objetivos del estudio y las herramientas de que se
disponga.

1.2. Tablas de datos


Para hacer un análisis de datos, generalmente se disponen los datos arreglos rectangu-
lares en forma de matriz, llamados tablas de datos. En ellas, las filas y columnas describen
a individuos o variables, según sea el caso. A continuación presentamos los principales ti-
pos de tablas de dats.
1.2 Tablas de datos 7

1.2.1. Tablas de individuos × variables


En las tablas de individuos por variables, los individuos se asocian con las filas y las
variables con las columnas. Esto es, cada fila representa a un individuo y cada columna
representa a una variable.

Ejemplo 1.2.1 Considérese que se han observado 7 variables cuantitativas sobre un gru-
po de 10 estudiantes. Las primeras cinco variables son las notas obtenidas por los estudian-
tes en cinco materias: Matemáticas (Mate), Ciencias (Cien), Español (Espa), Historia
(Hist) y Educación Fı́sica (EdFi), todas ellas en escala de 0 a 10, y las otras dos variables
son el peso del estudiante (medido en libras) y la estatura (medida en centı́metros). Los
datos se presentan en la tabla 1.1.

Estudiante Mate Cien Espa Hist EdFi Peso Estatura


(lbs.) (cms.)
Lucı́a 7.0 6.5 9.2 8.6 8.0 126 162
Pedro 7.5 9.4 7.3 7.0 7.0 140 168
Inés 7.6 9.2 8.0 8.0 7.5 130 169
Luis 5.0 6.5 6.5 7.0 9.0 150 172
Andrés 6.0 6.0 7.8 8.9 7.3 142 165
Ana 7.8 9.6 7.7 8.0 6.5 128 165
Carlos 6.3 6.4 8.2 9.0 7.2 144 170
José 7.9 9.7 7.5 8.0 6.0 134 165
Sonia 6.0 6.0 6.5 5.5 8.7 135 170
Marı́a 6.8 7.2 8.7 9.0 7.0 128 166

Cuadro 1.1: Tabla de datos de las notas escolares con peso y estatura.

Ejemplo 1.2.2 Al realizar una encuesta, normalmente se disponen los datos en una tabla
de individuos × variables. Considérese que en una encuesta se ha recogido información
como el nombre, el sexo, la edad, el estado civil, el número de hijos, el ingreso mensual
bruto, etc. Entonces la tabla de datos tendrı́a una forma como la mostrada en la tabla 1.2.

Estado Número Ingreso


Nombre Sexo Edad civil de hijos mensual ...
(años) (colones)
J. Pérez M 34 Casado 1 356.000 ...
S. Acuña F 24 Soltera 0 188.000 ...
L. Coto F 52 Viuda 3 141.000 ...
F. Solı́s M 46 Soltero 0 170.000 ...
A. M. Porras F 38 Casada 2 92.000 ...
.. .. .. .. .. .. ..
. . . . . . .

Cuadro 1.2: Tabla de datos de una encuesta.


8 Estadı́stica Descriptiva

Normalmente, en una tabla de datos como la de la tabla 1.2 se codifican las variables
cualitativas, de modo que la tabla puede ser almacenada en una base de datos o archivo
numérico, para lo cual el usuario debe señalar los códigos asociados a cada modalidad.
Dependiendo del software estadı́stico que se use, el mismo permitirá cierta forma de hacer
esta codificación.

Supóngase que se tienen n individuos descritos por p variables. Llamemos X a una


tabla de datos de filas × columnas, entonces X es un matriz que tiene n filas y p columnas.
La tabla de datos se puede ver como sigue:

x1 x2 · · · xj · · · xp
x1 x11 x12 · · · x1j · · · x1p
x2 x21 x22 · · · x2j · · · x2p
. .. ..
X = .. . .
xi xi1 xi2 · · · xij · · · xip
.. .. ..
. . .
xn xn1 xn2 · · · xnj · · · xnp

En general, en la notación xij el primer subı́ndice denota a los individuos y el segundo


subı́ndice a las variables. Por otro lado, distinguiremos a los individuos de las variables
poniendo subı́ndice a los individuos y superı́ndice a las variables: xi denota al individuo
i y xj denota a la variable j.
Este tipo de tablas serán usadas más adelante, en técnicas como el Análisis en Com-
ponentes Principales y la Clasificación Automática. En algunos casos especiales, también
se podrı́a usar el Análisis Factorial de Correspondencias.

1.2.2. Tablas de variables × variables


Se trata de tablas en que tanto las filas como las columnas describen a variables, o a
modalidades de éstas en el caso cualitativo. Es el caso de las tablas de contingencia que
se analizan en Análisis Factorial de Correspondencias o las tablas de Burt para Análisis
de Correspondencias Múltiples.
Sean x y y dos variables cualitativas que poseen respectivamente las modalidades x1 ,
x2 , . . ., xp y y1 , y2 , . . ., yq . Se puede entonces construir la tabla estadı́stica siguiente, que
resulta de cruzar las variables x y y:
la entrada (j, k) de la tabla representa el número de individuos que poseen simultáneamen-
te las modalidades xj y yk . Ese número se denotará njk Una tabla de datos construida de
esta forma se llama tabla de contingencia o tabla cruzada. El análisis de este tipo de tablas
se introduce en la sección 1.3, y se desarrolla en el capı́tulo 4 sobre Análisis Factorial de
Correspondencias.
1.2 Tablas de datos 9

Ejemplo 1.2.3 En una encuesta se ha preguntado por el nivel de estudios de un conjunto


de 1200 presonas, ası́ como por su nivel de ingresos. Los ingresos han sido codificados de
la siguiente forma:

salario bajo: menos de 100.000 colones mesuales


salario medio: entre 100.000 y menos de 250.000 mesuales
salario alto: entre 250.000 y menos de 700.000 mensuales
salario muy alto: 700.000 mensuales o más.

Entonces los datos se han dispuesto en una tabla tal que cada casilla contiene el núme-
ro de personas entrevistadas con determinado nivel de estudios y determinado nivel de
salario. La tabla de contingencia obtenida se muestra en la tabla 1.3.

Nivel de Nivel de salario


estudios Bajo Medio Alto Muy alto Total
Ninguno 200 21 2 0 223
Primario 217 45 5 6 273
Técnico 156 105 46 32 339
Secundario 73 93 24 2 192
Universitario 6 86 52 29 173
Total 652 350 129 69 1200

Cuadro 1.3: Tabla de contingencia que cruza el nivel de salario con el nivel de estudios

1.2.3. Tablas de individuos × individuos


Se trata de tablas que tienen tanto por filas como por columnas a individuos. Un caso
tı́pico es una tabla de distancias: en la entrada (i, h) de la matriz se tiene la distancia
calculada entre el individuo i y el individuo h, denotada d(xi , xh ). Estas tablas son muy
usadas en Clasificación Automática y en Escalamiento Multidimensional.

Ejemplo 1.2.4 Considérese la tabla 1.4 de datos que muestra la distancia en lı́nea recta
(en kilómetros) entre algunas ciudades de Costa Rica: San José (S.J.), Alajuela (Ala.),
Cartago (Car.), Heredia (Her.), Puntarenas (Pun.), Limón (Lim.), Liberia (Lib.) y Gol-
fito (Gol.). Es un ejemplo tı́pico de tabla de individuos × individuos, donde los individuos
son las ciudades.

Ejemplo 1.2.5 Se dispone de una matriz de datos donde 12 estudiantes de sexto grado
han calificado la afinidad que tienen por cada uno de sus compañeros. Por filas se tienen
las notas que asignan los estudiantes, entre 1 y 5, y por columnas las notas que les son
asignadas por sus compañeros. Una matriz de este tipo es llamada una sociomatriz. El
grupo tiene a 5 mujeres y 5 varones. En la diagonal, se han colocado las notas máximas,
para la calificación de un estudiante a sı́ mismo. Los datos se presentan en la tabla 1.5.
10 Estadı́stica Descriptiva

S.J. Ala. Car. Her. Pun. Lim. Lib. Gol.


S.J. 0 18.0 18.0 9.0 82.5 114.0 168.0 172.5
Ala. 18.0 0 36.0 10.5 67.5 127.5 150.0 184.5
Car. 18.0 36.0 0 25.5 99.0 97.5 186.0 157.5
Her. 9.0 10.5 25.5 0 78.0 118.5 160.5 181.5
Pun. 82.5 67.5 99.0 78.0 0 195.0 97.5 232.5
Lim. 114.0 127.5 97.5 118.5 195.0 0 271.5 150.0
Lib. 168.0 150.0 186.0 160.5 97.5 271.5 0 330.0
Gol. 172.5 184.5 157.5 181.5 232.5 150.0 330.0 0

Cuadro 1.4: Tabla de datos con la distancia entre algunas ciudades

Iren Flor Beat Silv Hele Anto Migu Fede Este Dieg
Irene 5 4 5 2 3 2 2 2 3 2
Flor 5 5 4 3 4 3 3 3 4 3
Beatriz 4 5 5 2 3 3 3 4 3 3
Silvia 2 4 5 5 5 2 3 3 4 3
Helena 3 4 4 5 5 1 2 2 2 1
Antonio 1 3 1 2 1 5 5 2 3 2
Miguel 2 4 3 2 2 5 5 2 3 3
Federico 3 4 4 3 3 3 3 5 4 4
Esteban 2 5 3 3 3 4 4 4 5 3
Diego 2 4 3 3 2 4 3 3 5 5

Cuadro 1.5: Tabla de datos: sociomatriz en que 12 estudiantes de sexto grado califican la
afinidad hacia cada uno de sus compañeros.

1.3. Análisis estadı́sticos univariados y bivariados

Siempre que se haga un análisis de datos, es imprescindible tener un conocimiento


profundo del comportamiento individual de cada variable. Incluso si el objetivo es hacer
un análisis multivariado, esta etapa previa de profundización es indispensable.
Para ello, se han definido varios ı́ndices que miden este comportamiento y se han
diseñado varias técnicas, en su mayorı́a con apoyo gráfico, para tener una mejor visión de
lo que mide o explica cada variable. Se puede decir que lo que se quiere es un resumen
numérico y un resumen gráfico de la variable. A este tipo de análisis se le llama análisis
de una variable o análisis univariado.
Según sea la naturaleza de las variables hay diferentes tipos de análisis univariados
que se pueden hacer. A continuación recordaremos rápidamente los principales ı́ndices y
gráficos univariados y bivariados, el lector interesado puede consultar más ampliamente
sobre este punto en [179]
1.3 Análisis estadı́sticos univariados y bivariados 11

Análisis estadı́stico univariado. Si la variable a analizar es cuantitativa, se medirán


su tendencia central y su dispersión. Entre las primeras se cuentan la media, la mediana
y la media de los valores extremos. Como es usual, la media de una variable cuantitativa
x se denota x̄, su desviación estándar σx y su varianza var(x). Los cuartilos y percentiles
permiten tener una idea del comportamiento de una variable según su orden. Entre las
principales medidas de dispersión están la desviación estándar (y su cuadrado, la varian-
za), la desviación media, la desviación mediana, la desviación cuartil y la extensión. El
coeficiente de variación es el cociente de la desviación estándar entre la media.
Si la variable a analizar es cualitativa o binaria, se calculan las frecuencias (absolutas y
relativas) de cada modalidad, y en caso de ser ordinal la variable, también las frecuencias
acumuladas.
Los principales gráficos asociados a una variable cuantitativa son generalmente los
histogramas (que pasan por la escogencia de un número de clases en los que se divide a
las observaciones, construyéndose una distribución de frecuencias), las cajas de dispersión
(o boxplot) y los diagramas tallo–hoja. Estos gráficos permiten tener una idea de la
dispersión de los datos.
En el caso de una variable cualitativa, hay una serie de gráficos que se usan, dependien-
do de los intereses en la descripción, como los gráficos de barras, de bastones o circulares,
que representan proporcionalmente a las frecuencias.

Análisis estadı́stico bivariado. El análisis bivariado consiste el estudio de las rela-


ciones entre las parejas de variables, y también forma parte de la descripción simple de
una tabla de datos.
En el caso de tener dos variables cuantitativas, se suele hacer el diagrama de dispersión,
el cual grafica en ejes de abscisas y de ordenadas a las dos variables, y permite ver la
asociación entre ellas. El coeficiente de correlación es una cuantificación de la relación
entre dos variables cuantitativas x y y:
cov(x, y)
r(x, y) = ,
σx σy
donde la covarianza es:
1X 1X
cov(x, y) = (xi − x̄)(yi − ȳ) = xi yi − x̄ȳ.
n n
El coeficiente de correlación se interpreta ası́:

Si r(x, y) ≈ 1: hay una fuerte correlación directa, esto significa que a valores grandes
de x corresponden valores grandes de y y que a pequeños valores de x corresponden
pequeños valores de y. Es decir, las variables tienen un comportamiento similar sobre
todos los individuos. Lo anterior se puede ilustrar en el diagrama de dispersión que
se muestra en la figura 1.1(a).
12 Estadı́stica Descriptiva

Si r(x, y) ≈ 0: no hay correlación, esto significa que a valores grandes de x corres-


ponden tanto valores grandes como pequeños de y, y que a valores pequeños de x
también corresponden valores grandes como pequeños de y. Es decir, el comporta-
miento de las variables no tiene ninguna relación entre sı́. Ver la figura 1.1(b).

Si r(x, y) ≈ −1: hay una fuerte correlación inversa, lo que significa que a valo-
res grandes de x corresponden valores pequeños de y, y a valores pequeños de x
correponden valores grandes de y. Es decir, las variables tienen un comportamiento
opuesto una de la otra. Ver la figura 1.1(c).

y y y
• •
• • • • ••
• • • •• • •
•• • • •
• • • • • • ••
• • •
• • •
x x x
(a) r(x, y) ≈ 1 (b) r(x, y) ≈ 0 (c) r(x, y) ≈ −1

Figura 1.1: El coeficiente de correlación muestra el tipo de relación entre dos variables
cuantitativas

Más adelante haremos una interpretación geométrica del coeficiente de correlación,


como un coseno, muy importante para el desarrollo posterior del análisis multivariado.
Si las dos variables son cualitativas, entonces se suele estudiar la independencia entre
las modalidades de las dos variables mediante un ı́ndice de asociación, que usualmente es
el ı́ndice de chi–cuadrado (denotado χ2 ); existe toda una técnica factorial para el análisis
del tipo de dependencia entre las modalidades, que es el Análisis Factorial de Correspon-
dencias, que además provee gráficos de fácil lectura. Esta técnica será presentada en el
capı́tulo 4.
Sean x y y dos variables cualitativas que poseen respectivamente las modalidades x1 ,
x , . . ., xp y y1 , y2 , . . ., yq . Denotando njk la entrada j, k de la tabla de contingencia,
2

entonces q
escribimos: p
X X
j
nj· = njk el efectivo de x , n·k = njk el efectivo de yk
k=1 j=1
p q p q
X X X X
yn= nj· = n·k = njk es la población total.
j=1 k=1 j=1 k=1
nj· n·k
Denotemos n0jk la cantidad . Diremos que la variable x es independiente de la
0
n
variable y si njk = njk , para todo j y todo k. Véase que la igualdad anterior es equivalente
a:
njk nj·
= (1.1)
n·k n
1.3 Análisis estadı́sticos univariados y bivariados 13

para todo j = 1, 2, . . . , p y todo k = 1, 2, . . . , q. Esto quiere decir que las variables son
independientes si la proporción de individuos que poseen simultáneamente xj y yk , entre
los que poseen yk , es la misma proporción de aquéllos que poseen xj en la población total.
Una manera de caracterizar las diferencias entre los njk y los n0jk es mediante la
cantidad χ2 (léase chi-cuadrado):
p q
2
X X (njk − n0jk )2
χ (x, y) = (1.2)
j=1 k=1
n0jk
es decir p q
2
X X 1 (nnjk − nj· n·k )2
χ (x, y) = (1.3)
j=1 k=1
n nj· n·k
Esta cantidad representa la diferencia entre el producto de las frecuencias relativas teóricas
n0jk nj· n·k njk
= · y las frecuencias relativas observadas . La asociación entre x y y
n n n n
será mayor conforme χ2 (x, y) sea grande, y χ2 (x, y) será cercano a cero en el caso de
independencia entre x y y. Se puede probar que (ver ejercicio 1 de la sección 1.4.2):
p q
2
X X n2jk
χ (x, y) = n −n
n n
j=1 k=1 j· ·k

También es muy usado el coeficiente de contingencia de Pearson, denotado Φ2 :


2 χ2 (x, y)
Φ (x, y) =
n
y el T 2 de Chuprov:
Φ2 (x, y) χ2 (x, y)
T 2 (x, y) = = .
(p − 1)(q − 1) n(p − 1)(q − 1)
El Φ2 elimina el efecto del efectivo de una muestra y sirve para comparar dos tablas de
contingencia de las mismas dimensiones, mientras que el T 2 elimina además el efecto del
número de modalidades, por lo que puede servir para comparar cualquier par de tablas
de contingencia. Además, el T 2 está comprendido entre 0 y 1.

Ejemplo 1.3.1 Considérense los datos de la tabla de contingencia 1.3, que cruza el nivel
de salario con el nivel de estudios en un conjunto de 1200 entrevistados. Para calcular el
n2
ı́ndice de chi-cuadrado, se calculan los términos nj·jk
n·k
, que son:

Nivel de Nivel de salario


estudios Bajo Medio Alto Muy alto
Ninguno 0.27511073 0.00565022 0.00013904 0
Primario 0.26455088 0.02119309 0.00070988 0.00191113
Técnico 0.11010369 0.09292035 0.04838672 0.04377752
Secundario 0.04256933 0.12870535 0.02325581 0.00030193
Universitario 0.00031916 0.12214698 0.12116323 0.07045321
14 Estadı́stica Descriptiva

Al calcular la suma de todos esos términos, multiplicarla por


n = 1200 y restarle n, se obtiene que χ2 = 448,04. Además,
2 2
Φ = 448,04/1200 = 0,3734 y T = 0,0311.

Supóngase que se tiene una variable cuantitativa x y una variable cualitativa y con
modalidades y1 , y2 , . . . , yq . Si bien es cierto que se podrı́a analizar la asociación entre x
y y discretizando x, por ejemplo construyendo un histograma de x y calculando luego el
ı́ndice de χ2 , es preferible no perder la información de continuidad que posee la variable
cuantitativa.
El cociente de correlación mide la intensidad de la asociación entre x y y, calculando
la dispersión que tiene x restringido en cada una de las modalidades de y.

Ejemplo 1.3.2 Supóngase que se tienen las siguientes variables, observadas sobre 20
individuos, x: salario en dólares y y: nivel de estudios, esta última con las modalidades
primario, secundario, técnico y universitario. Agrupadas según las modalidades de y, las
observaciones son

y (nivel de estudios) x (salario en dólares)


primario $267 $503 $208 $198 $250 $263
secundario $845 $471 $310 $830
técnico $759 $1200 $810 $650
universitario $1500 $1113 $2300 $900 $2100 $1621

Separando los datos según las modalidades de y y calculando la media para cada uno
de los grupos, se tiene que el salario medio para las personas con nivel educativo primario
es 281.50, para los de nivel secundario es 614.00, para los de nivel técnico es 854.75 y
para los de nivel universitario es 1589.00. La media total es 854.90. Se puede ver que hay
diferencias grandes entre los salarios medios para cada modalidad de y y que los técnicos
tienen un salario promedio muy parecido al de la media total, aún si ninguno de ellos
tiene realmente un salario medio.

El cálculo del cociente de correlación se basa en una comparación de las medias de x


para cada una de las modalidades de y. Sean x̄1 , x̄2 , . . . , x̄q las medias de x para cada una
de las q modalidades de y. Entonces el cociente de correlación entre x y y es:
var{x̄1 , x̄2 , . . . , x̄q }
η(x, y) =
var(x)
donde var(x) es la varianza de x y donde var{x̄1 , x̄2 , . . . , x̄q } es la varianza de las medias,
la cual debe ser calculada de manera ponderada de acuerdo con el total de cada modalidad
de y.
Se puede ver que el cociente de correlación está entre 0 y 1. Cuando η(x, y) está cercano
a 1 hay una fuerte asociación entre x y y, y cuando está cercano a 0 hay muy poca
asociación.
1.4 Análisis univariado y bivariado con el sistema PIMAD 15

Ejemplo 1.3.3 Considerando los datos del ejemplo anterior (1.3.2), la varianza de las
medias es 271,913.68, la cual se calcula ası́:
271, 913,68 = 0,3 × (281,50 − 854,90)2 + 0,2 × (614,00 − 854,90)2 +
+0,2 × (854,75 − 854,90)2 + 0,3 × (1589,00 − 854,90)2 .

La varianza total es 368,165.59 por lo que el cociente de correlación es


271, 913,68
η(x, y) = = 0,73856,
368, 165,59
lo cual se puede interpretar como que la asociación entre el salario y el nivel educativo es
del 73.85 % para ese grupo de individuos.

1.4. Análisis univariado y bivariado con el sistema


PIMAD
El módulo de Análisis Univariado del sistema PIMAD realiza la mayorı́a de los cálculos
y gráficos presentados en este capı́tulo, correspondientes al análisis univariado o bivariado.
Puede consultarse en el manual de PIMAD los conceptos básicos para el uso del sistema
PIMAD.
Para que el usuario seleccione las variables, puede usar el menú
Análisis-Univariado|Seleccionar las Variables, o bien puede presionar el botón

La selección se hace haciendo doble click sobre cada una de las variables para las
que se quiere obtener los valores de los ı́ndices. Nótese que en caso de hacer un gráfico
posteriormente, se desplegará únicamente el gráfico de la primera variable seleccionada.
Además, para hacer un análisis bivariado (por ejemplo, el cálculo de una correlación o el
despliegue de un gráfico de dispersión), se deben seleccionar únicamente dos variables.

1.4.1. Análisis univariado en PIMAD


Los siguientes botones realizan el análisis univariado de las variables seleccionadas:

En su orden de izquierda a derecha, los botones realizan lo siguiente:


16 Estadı́stica Descriptiva

cálculo de la media aritmética (promedio simple)

cálculo de la mediana

cálculo de la media de los valores extremos

cálculo de la varianza

cálculo de la desviación estándar

cálculo del coeficiente de variación

cálculo de la desviación media

cálculo de la desviación cuartil

cálculo de la extensión

grafica el histograma

grafica el polı́gono de frecuencias

grafica el diagrama tallo-hoja

grafica la caja de dispersión (boxplot).

Observación: : Los últimos cuatro botones, asociados al despliegue de gráficos, sólo se


aplican para la primera variable seleccionada por el usuario.

Para el histograma y el polı́gono de frecuencias, el usuario debe indicar el número de


intervalos, el lı́mite inferior y el lı́mite superior; estos parámetros ası́ como el tı́tulo del
gráfico pueden ser cambiados por el usuario, a pesar de que el sistema propone valores
por defecto (10 intervalos, lı́mite superior igual al valor máximo y lı́mite inferior igual
al valor mı́nimo). En ambos, las clases se toman con el mismo ancho. En el polı́gono de
frecuencias, la marca de clase es la media entre los extremos de la clase.
La caja de dispersión grafica los cuartilos como los lı́mites de la caja, la mediana dentro
de ella y lı́neas que van a los valores extremos que se encuentran a una diferencia menor
al doble de la desviación cuartil. Las operaciones anteriores se pueden efectuar utilizando
el menú Análisis-Univariado.

1.4.2. Análisis bivariado en PIMAD


El usuario debe seleccionar únicamente dos variables (de lo contrario el sistema en-
viará un mensaje de error). Los botones asociados al análisis bivariado son:
Estos botones realizan las siguientes operaciones:
1.4 Análisis univariado y bivariado con el sistema PIMAD 17

diagrama de dispersión

cálculo de la covarianza

cálculo del coeficiente de correlación lineal.

Para el diagrama de dispersión, el sistema pregunta el nombre del gráfico y el número de


clases en que se subdivide cada eje (por defecto este valor es 10).

Ejercicios
1. Demuestre que, dadas dos variables cualitativas x y y con p y q modalidades, res-
pectivamente, el ı́ndice de chi–cuadrado tiene la siguiente propiedad:
p q
2
X X n2jk
χ (x, y) = n − n.
j=1 k=1
n j· n ·k

2. Sean x, y dos variables cuantitativas y considere que los individuos tienen todos
pesos iguales 1/n. Si a, b son constantes determine el valor de cov(ax, by) en función
de cov(x, y). Ası́ mismo, determine r(ax, by) en función de r(x, y).
18 Estadı́stica Descriptiva
Capı́tulo 2

Introducción a la Estadı́stica
Multidimensional

2.1. Introducción

Cuando se dispone de muchas observaciones para cada individuo, los análisis univa-
riados y bivariados vistos al final del capı́tulo 1 tienen la limitación de no contemplar las
interrelaciones entre todas las variables, ni cómo esas interrelaciones afectan al conjun-
to de individuos. El objetivo de las técnicas multivariadas o multidimensionales es el de
proveer descripciones de esas interrelaciones, tomando las variables en su conjunto. Tales
descripciones son hechas, en la visión del Análisis de Datos, a partir de representaciones
geométricas, para las que se usa como herramienta el Algebra Lineal.
En este capı́tulo presentamos las nociones básicas del lenguaje algebraico que se usarán
en lo sucesivo, ası́ como la mayorı́a de las definiciones de nuestra representación geométri-
ca. Presentamos por lo tanto los tipos de tablas de datos, los espacios vectoriales utilizados,
las nociones de proximidad que se usarán a partir de la definición de un producto interno,
y finalmente la noción de inercia, que mide la dispersión de nuestras observaciones.

2.2. Los espacios vectoriales asociados a las tablas de


datos

Supóngase que se está en presencia de n individuos sobre los que se han observado
p variables cuantitativas. Tal y como definimos las tablas individuos × variables, a cada
individuo le corresponde una fila de la matriz de datos X.
La i-ésima fila de la denotamos xi y se ve que está representada por el vector de p

19
20 Introducción a la Estadı́stica Multidimensional

dimensiones:  
xi1
 xi2 
xi = 
 
.. 
 . 
xip
Entonces xi pertenece al espacio vectorial Rp . Por ello, Rp se llama el espacio de los
individuos.
Por otro lado, a cada variable observada le corresponde una columna de X. La j-ésima
columna la denotamos xj y está representada por el vector de n dimensiones:
 
x1j
 x2j 
j
x =  .. 
 
 . 
xnj

Entonces xj está en el espacio vectorial Rn . Por esta razón, a Rn se le llama el espacio de


variables.
En los espacios de individuos o de variables, podremos estudiar las relaciones entre
sus elementos a través de una serie de caracterı́sticas, entre ellas las proximidades entre
puntos. Estas proximidades serán definidas a través de distancias.
Para fijar las ideas que vamos a desarrollar, veamos los conceptos geométricos siguien-
tes en el espacio de individuos Rp .
Una distancia sobre el espacio Rp es una aplicación d : Rp × Rp −→ R+ tal que:

1. d(x, x) = 0 para todo x en Rp

2. d(x, y) = d(y, x), para todo x, y en Rp

3. d(x, z) ≤ d(x, y) + d(y, z), para todo x, y, z en Rp

Un caso tı́pico de distancia es la distancia euclı́dea clásica:


v
u p
uX
d(x, y) = t (xi − yi )2 (2.1)
i=1

donde x y y son dos elementos de Rp con p componentes.


Véase que la distancia euclı́dea clásica puede formularse según el siguiente producto
matricial:
2.2 Los espacios vectoriales asociados a las tablas de datos 21
   
x1 y1
 x2   y2 
si x =  yy=
   
.. .. 
 .   . 
xp yp
p
entonces d(x, y) = (x − y)t (x − y). Esto es, d(x, y) = kx − yk,pdonde k · k denota la
norma matricial clásica1 , y también podemos escribir d(x, y) = (x − y)t Id(x − y) =
kx − ykIp , donde Ip es la matriz identidad en Rp .
Los conceptos de norma y distancia euclı́dea se pueden generalizar para otro tipo de
matrices. En efecto, sea M una matriz simétrica, definida y positiva2 de dimensiones
p × p. Entonces el producto matricial xt Mx permite definir una norma sobre Rp , que
denotaremos k · kM , ası́: √
kxkM = xt Mx (2.2)
En efecto

sea x ∈ Rp tal que kxkM = 0, esto es xt Mx = 0, por ser M definida entonces x = 0;


inversamente, si x = 0 es claro que xt Mx = 0 y kxkM = 0
p p
si λ ∈ R y x ∈ Rp , entonces kλxkM = (λx)t M(λx) = (λ)2 xt Mx = |λ|kxkM
veamos que se cumple la desigualdad triangular: ∀x, y ∈ Rp : kx + ykM ≤ kxkM +
kykM .
Para probarla, establezcamos primero la desigualdad de Cauchy-Schwartz:
en efecto, ∀x, y ∈ Rp y ∀λ ∈ R, por ser M definida positiva tenemos (x + λy)t M(x + λy) ≥ 0, lo
que es equivalente a λ2 kyk2M + 2λxt My + kxk2M ≥ 0.
Esta última expresión puede ser vista como un polinomio de segundo grado en λ: para que su gráfico
esté sobre el eje de las abscisas entonces debe tener a lo sumo una raı́z real y su discriminante debe
ser menor o igual a 0. El discriminante de ese polinomio es 4(xt My)2 − 4kyk2M kxk2M ,
por lo tanto debemos tener: xt My ≤ kxkM kykM .
Regresando a la prueba de la desigualdad triangular, ∀x, y ∈ Rp tendremos kx +
yk2M = (x+y)t M(x+y) = xt Mx+2xt My+yt My ≤ kxk2M +2kxkM kykM +kyk2M =
(kxkM + kykM )2 ,
de donde se deduce el resultado buscado.

Llamaremos métrica sobre Rp a una matriz p×p que sea simétrica, definida y positiva,
ya que como acabamos de ver una matriz de este tipo permite definir una norma y una
distancia sobre Rp . El caso clásico es cuando se toma la matriz identidad Ip de orden
p, que es la métrica que define la distancia euclı́dea clásica, tal como se presentó en la
ecuación (2.1).
1
Una norma en un espacio vectorial E es una aplicación k · k : E → R+ tal que (a) kxk = 0 ⇔ x = 0,
(b) ∀x ∈ y ∀λ ∈ R : kλxk = |λ|kxk, y (c) ∀x, y ∈ E : kx + yk ≤ kxk + kyk.
2
Esto es, (simétrica) xt My = yt Mx para cualquier par de vectores p-dimensionales x, y; (definida)
x Mx = 0 ⇔ x = 0; y (positiva) ∀x : xt Mx ≥ 0.
t
22 Introducción a la Estadı́stica Multidimensional

Una métrica define un producto interno sobre Rp : sea f : Rp × Rp −→ R la aplica-


ción definida por f (x, y) = xt My, entonces f es bilineal, simétrica, definida y positiva.
Normalmente, se denota hx, yiM = f (x, y).
En un espacio con producto interno tiene entonces sentido hablar, no sólo de proximi-
dad (a través de los conceptos de norma y distancia) sino también de ángulo: si x y y son
dos vectores del espacio entonces el coseno del ángulo θ que forman se puede determinar
a partir de:
hx, yiM = kxkM kykM cosθ
Ası́, diremos que dos vectores x, y son ortogonales si hx, yi = 0. Esto completa el propósito
que tenı́amos de proveer a nuestros espacios de una estructura geométrica.

Métrica de pesos en Rn

Sobre Rn también podemos definir una métrica que mida la proximidad entre las
variables, se tratará entonces de una matriz de orden n × n simétrica, definida y positiva.
Salvo que indiquemos lo contrario, usaremos la métrica de pesos Dω cuya matriz tiene
en la diagonal los pesos de los individuos y ceros en las otras entradas:
 
w1 0 . . . 0
 0 w2 . . . 0 
Dω =  .. (2.3)
 
 . . . . .. 
. 
0 0 . . . wn

donde suponemos que para todo wi > 0 y ni=1 wi = 1.


P

En el caso de variables cualitativas, las métricas de pesos se definirán a partir de la


tabla de contingencia por medio de los perfiles marginales.

Matriz de varianzas-covarianzas

Supongamos que estamos en presencia de p variables cuantitativas centradas x1 , . . . , xp ,


que definen una matriz X. Definimos la matriz de varianzas-covarianzas como la matriz
V de dimensiones p × p tal que en la entrada (j, j) de la diagonal contiene la varianza
de la variable xj : var(x), y en la entrada (j, k) (con j 6= k) la covarianza entre xj y xk :
cov(xj , xk ).
Entonces, V puede calcularse matricialmente ası́:
V = Xt Dω X (2.4)

Si xj , xk son dos de las variables, entonces su covarianza es:


cov(xj , xk ) = (xj )t Dω xk
2.2 Los espacios vectoriales asociados a las tablas de datos 23

Asimismo, la varianza de xj es:

var(xj ) = (xj )t Dω xj

Interpretaciones geométricas de media y varianza

La última igualdad nos permite establecer que la varianza puede ser vista como la
norma al cuadrado de un vector de Rn : var(xj ) = kxj k2Dω .
Por lo tanto, la correlación por su lado puede ser vista como el ángulo entre dos
vectores de Rn :
cov(xj , xk ) (xj )t Dω xk
r(xj , xk ) = p = = cos θ
var(xj )var(xk ) kxj kDω kxk kDω

donde θ es el ángulo formado en Rn por los vectores xj y xk .

Por su parte, la media de xj se puede interpretar como la proyección Dω ortogonal en


R de xj sobre el eje generado por el vector de unos: 1In = (1, 1, . . . , 1)t . En efecto, esta
n

proyección ortogonal serı́a:


Pn
(xj )t Dω 1In wi xi x̄j
1In = Pi=1
n 1
I n = 1In = x̄j 1In
k1In kDω w
i=1 i 1

Por otro lado, la diferencia en norma entre el vector-variable xj y su proyección o promedio


x̄j 1In , serı́a: v
u n
j j
uX
kx − x̄ 1In kDω = t wi (xi − x̄j )2 = σxj
i=1

es decir, es la medida de dispersión (la desviación estándar) alrededor de la media.

Métricas en Rp

Como ya mencionamos, la matriz identidad de orden p define una métrica en Rp .


Cuando estudiemos el Análisis en Componentes Principales (A.C.P.), veremos que esta
métrica puede usarse cuando todas las variables han sido medidas con la misma unidad
de medida (por ejemplo, todas en metros).
Otra métrica usual en Rp , es la definida por la diagonal de las inversas de las varianzas:
 
1/var(x1 ) 0 ... 0
 0 1/var(x2 ) . . . 0 
D1/σ2 = 
 
.. . . .
. 
 . . . 
p
0 0 . . . 1/var(x )
24 Introducción a la Estadı́stica Multidimensional

Esta métrica se recomienda en un A.C.P. cuando las unidades de medida para las variables
son diferentes (por ejemplo, algunas variables son medidas en metros, otras en kilogramos,
otras son notas, etc.).
Véase que usar la métrica D1/σ2 para medir proximidades, corresponde en la práctica
a estandarizar las variables y usar luego la distancia euclı́dea clásica.
Finalmente, citamos la métrica de Mahalanobis, cuya matriz es la inversa de la matriz
de varianzas-covarianzas V−1 . Esta métrica se usa normalmente en Análisis Factorial
Discriminante, como veremos en el capı́tulo 9.

Las métricas anteriores son utilizadas cuando se dispone de variables cuantitativas.


Como veremos, en el caso de tablas de contingencia que crucen modalidades de dos varia-
bles cualitativas, se usa la métrica llamada del χ2 , que tiene una serie de propiedades que
la hacen particularmente bien adaptada a estos casos, lo cual será utilizado en el Análisis
de Correspondencias.

2.3. Nubes de puntos


Sea X una tabla de datos definida con variables cuantitativas, y sean Rp el espacio
de individuos y Rn el de variables. Si M es la métrica sobre Rp y Dω la métrica de pesos
sobre Rn , entonces denotamos con N = (X, M, Dω ) la nube de puntos, esto es, los n
puntos ponderados del espacio vectorial Rp , junto con la medida de proximidad y angular
definidas por M, y las medidas de tendencia central y de dispersión asociadas a Dω . El
concepto de nube de puntos es entonces un concepto geométrico, cuya forma trataremos
de describir y sintetizar mediante métodos estadı́sticos.
Cuando estemos en presencia de tablas de contingencia, hablaremos más bien de nubes
de perfiles: en efecto, serán los perfiles fila y los perfiles columna los que caracterizarán
nuestros datos. Veremos esto con detalle en el capı́tulo 4 sobre el Análisis de Correspon-
dencias.

2.4. Inercia en un punto


Sea Rp provisto de una métrica M, se llama inercia en un punto a de Rp a la cantidad:
n
X
Ia = wi kxi − ak2M (2.5)
i=1

Véase que este valor mide la dispersión de la nube de puntos N alrededor del punto
a.
2.4 Inercia en un punto 25

Se atribuye al gran estadı́stico R.A. Fisher la frase “la información está en la disper-
sión”. Por ello, en el análisis univariado es de vital importancia un estudio minucioso de
las medidas de dispersión (desviación estándar, intervalo inter-cuartil, etc.). En el análisis
multivariado, la medida de dispersión es la inercia, cuya definición dada más arriba viene
de una analogı́a con la mecánica.
Como nuestros datos están descritos por varias variables, trataremos también de definir
un “término medio”: éste será el centro de gravedad g de la nube de puntos, definido por:
n
X
g= wi xi (2.6)
i=1

Como es de esperarse, la inercia o dispersión es mı́nima cuando es medida respecto el


centro de gravedad o término medio, tal como lo establece el teorema de Huyghens:

Teorema 2.1 Para todo a ∈ Rp se tiene Ia = Ig + ka − gk2M

Demostración:
Sea a ∈ Rp , entonces:
n
X
Ia = wi (xi − a)t M(xi − a)
i=1
n
X
= wi (xi − g + g − a)t M(xi − g + g − a)
i=1
n
X n
X n
X
t t
= wi (xi − g) M(xi − g) + 2 wi (g − a) M(xi − g) + wi (g − a)t M(g − a)
i=1 i=1 i=1
Xn
= Ig + kg − ak2M + 2(g − a)t M wi (xi − g)
i=1

donde hemosPusado el hecho que M es simétrica y que la suma de los pesos es 1.


Ahora bien, ni=1 wi (xi −g) = 0 por definición de g, por lo que se obtiene el resultado.

Ig es llamada la inercia total de la nube N y a menudo es denotada I.


Obsérvese que la noción de inercia generaliza la de varianza. En efecto, si se dispone
de solamente una variable x, entonces el centro de gravedad es x̄, y por lo tanto la inercia
I es exactamente var(x).

Ejercicios
1. Considere la siguiente tabla de datos con dos variables cualitativas:
26 Introducción a la Estadı́stica Multidimensional

sexo profesión
masculino oficinista
masculino obrero
femenino obrera
femenino artista
femenino artista
femenino oficinista
masculino artista
masculino oficinista
femenino artista

Haga una codificación disyuntiva completa de la tabla de datos.


Con las matrices asociadas a la codificación anterior, construya la tabla de contin-
gencia que cruza a las dos variables cualitativas mediante el procedimiento matricial
explicado en el texto.
2.4 Inercia en un punto 27

Anexo: Esquema de Dualidad


Recuérdese que Rp es el espacio de individuos al que dotamos de la base canónica
{e1 , e2 , . . . , ep } y que su espacio dual lo denotamos (Rp )∗ y está provisto de la base dual
{e∗1 , e∗2 , . . . , e∗p }. Este espacio tiene definido un producto interno hx, yiM = M (x, y) a
partir de la métrica M, existe por lo tanto un isomorfismo M : Rp −→ (Rp )∗ tal que
∀x ∈ Rp : M(x) ∈ (Rp )∗ es tal que ∀y ∈ Rp : M(x)(y) = M(x, y).
Por su parte, Rn es el espacio de variables al que dotamos de la base canónica
{f1 , f2 , . . . , fn } y su espacio dual es (Rn )∗ y está provisto de la base dual {f1∗ , f2∗ , . . . , fn∗ }.
Este espacio tiene definido un producto interno hx, yiDω = Dω (x, y) a partir de la
métrica de pesos Dω , existe por lo tanto un isomorfismo Dω : Rn −→ (Rn )∗ tal que
∀x ∈ Rn : Dω (x) ∈ (Rn )∗ es tal que ∀y ∈ Rn : Dω (x)(y) = Dω (x, y).
Finalmente, la tabla de datos centrados X tiene asociada una matriz, también denota-
da X de dimensiones n × p y llamada matriz de datos, tal que la fila i-ésima representa al
individuo i-ésimo y es denotada xi , y la columna j-ésima Pprepresenta a la j-ésima variable
j
centrada y es denotada x . Obsérvese que se tiene xi = k=1 xik ek , por lo tanto aplicando
las propiedades de la base dual se tiene e∗j (xi ) = xij y recorriendo todos los n individuos
se obtiene x1j , x2j , . . . , xnj . Esto es, se obtienen las n componentes del vector-columna que
representa a la variable j. Por lo tanto, existe una aplicación de (Rp )∗ en Rn que asocia
e∗j con xj , esta aplicación también es denotada por X y tiene por matriz en las bases
consideradas la matriz X. Su transpuesta Xt es la matriz p × n asociada a la aplicación
lineal transpuesta de X, esto es la aplicación de (Rn )∗ sobre Rp tal que Xt (fi∗ ) = xi .
Con las notaciones anteriores se obtiene el esquema de dualidad de la figura 2.1, donde
V = Xt Dω X es la matriz de covarianzas.

Rp  Xt (Rn )∗

M 6V 6D
ω
?
(Rp )∗ - Rp
X

Figura 2.1: El esquema de dualidad


28 Introducción a la Estadı́stica Multidimensional
Capı́tulo 3

Análisis en Componentes Principales

3.1. Introducción
El Análisis en componentes Principales constituye la técnica de base en Análisis de
Datos. Su principal objetivo es el de encontrar, a partir de una tabla de datos con variables
cuantitativas, un conjunto de variables sintéticas cuya información sea lo más parecida a
la da las variables originales. Es por lo tanto, una técnica de reducción de las dimensiones
de un problema puesto que de un conjunto inicial de variables, que pueden muchas, se
trata de encontrar un conjunto reducido de variables que contengan practicamente la
misma información que las variables originales.
En general, las tablas de datos definen nubes de puntos en espacios vectoriales con
dimensiones muy grandes, por lo que la visualización de las relaciones entre los puntos es
imposible cuando la dimensión del espacio es mayor que 3. El ojo humano sólo es capaz
de “ver” en dimensión menor o igual a 3. Ası́, en los casos multivariados el Análisis en
Componentes Principales (en adelante abreviado A.C.P.) es una herramienta muy útil
para la descripción de las relaciones entre las variables, pero también para la descripción
del comportamiento multidimensional de los individuos respecto a todas las variables en
su conjunto.

3.2. Objetivo del A.C.P.


Supóngase que se está en presencia de n individuos x1 , x2 , . . . , xn sobre los que se han
medido p variables cuantitativas x1 , x2 , . . . , xp . Por lo tanto se define una tabla de datos
X, con n filas y p columnas. Como vimos anteriormente, cada fila de la matriz se puede
ver como un punto de Rp , ası́ el conjunto de n individuos define una nube de puntos en
Rp .
Supondremos en este capı́tulo que las variables xj están centradas. Esto significa que

29
30 Análisis en Componentes Principales

el centro de gravedad de la nube de los n puntos en Rp está en el origen de coordenadas.

Buscamos un conjunto de q variables sintéticas c1 , c2 , . . . , cq , donde q < p, que en


adelante se llamarán componentes principales, tal que:

Cada componente principal ck debe ser combinación lineal de las variables originales
xj ; esto significa que la información contenida en las xj también está reflejada en
las ck .
Las componentes principales deben ser no correlacionadas dos a dos; esto significa
que las ck no tienen información redundante.
Las componentes principales deben tener varianza máxima; esto significa que con-
dendrán el máximo de información posible.

La tercera condición es equivalente a pedir que la inercia de la nube de puntos, pro-


yectada sobre las componentes principales, sea máxima. De esta forma las posiciones de
los puntos en Rp se verán aproximadamente reproducidas en el espacio reducido Rq .
Pedir que la inercia de la nube proyectada sea máxima es equivalente a pedir que haya
un mı́nimo de información perdida en la proyección.

Ejemplo 3.2.1 Considérese la tabla de datos de notas escolares mostrada en la tabla 3.1,
en que se muestran las notas obtenidas en cinco materias por 10 estudiantes. Todas las
materias están en la escala de 0 a 10. Puede observarse que los estudiantes son vectores

Estudiante Matemáticas Ciencias Español Historia Ed. Fı́sica


Lucı́a 7.0 6.5 9.2 8.6 8.0
Pedro 7.5 9.4 7.3 7.0 7.0
Inés 7.6 9.2 8.0 8.0 7.5
Luis 5.0 6.5 6.5 7.0 9.0
Andrés 6.0 6.0 7.8 8.9 7.3
Ana 7.8 9.6 7.7 8.0 6.5
Carlos 6.3 6.4 8.2 9.0 7.2
José 7.9 9.7 7.5 8.0 6.0
Sonia 6.0 6.0 6.5 5.5 8.7
Marı́a 6.8 7.2 8.7 9.0 7.0

Cuadro 3.1: Tabla de datos de las notas escolares

en R5 , por lo que para el ojo humano no es posible observar la configuración de los 10


puntos en R5 . Se quiere obtener una sı́ntesis de la tabla anterior que muestre:

La principales relaciones entre los individuos, es decir, cuales se parecen más que
otros, y cuales se diferencian de los demás.
3.3 Solución del A.C.P. 31

Las principales relaciones entre las variables, es decir, cuales tiene un comporta-
miento similar sobre los individuos, cuales tienen un comportamiento opuesto y
cuales no tienen ninguna relación entre sı́.
Explicar las relaciones entre individuos y variables.

El análisis anterior lo queremos hacer de forma global, es decir, tomando en cuenta a


todas las variables al mismo tiempo. Esta es una caracterı́stica esencial del Análisis Mul-
tivariado.

3.3. Solución del A.C.P.


No desarrollaremos como se obtiene la solución del problema planteado, pues ello
implicarı́a entrar en una serie de detalles matemáticos, lo cual no entra en los objetivos
de este curso. Para el lector interesado en consultar esos detalles, lo remitimos a las
referencias siguientes: [31, 35, 56, 114, 115, 164, 176].

3.3.1. Diagonalización de V
La solución al problema se obtiene al diagonalizar1 la matriz V. Obsérvese que la
matriz V es simétrica y positiva, por lo que tiene p valores propios reales y positivos.
Recuérdese que en caso de que las variables estén centradas y estandarizadas entonces
V es igual a la matriz de correlaciones R. Es decir, en el caso de variables estandarizadas,
la matriz que se diagonaliza en la matriz de correlaciones.

Ejemplo 3.3.1 Para el análisis de las notas escolares, estandarizaremos las variables
(es decir, las materias), ya que a pesar de que todas están en la misma escala de 0 a 10,
el nivel de dificultad de cada materia es diferente y es posible que cada profesor tenga
distintos criterios de evaluación. La matriz de correlaciones de esta tabla es dada en la
tabla 3.2.
Esta matriz de correlaciones tiene 5 valores propios positivos, que son:
λ1 = 2,89
λ2 = 1,63
λ3 = 0,35
λ4 = 0,12
λ5 = 0,01
1
Recuérdese que un escalar λ se llama valor propio de una matriz A si existe un vector v tal que
Av = λv; al vector v se le llama vector propio de A. Al proceso de obtener los valores y vectores propios
de una matriz se le llama diagonalización de la matriz.
32 Análisis en Componentes Principales

Matemáticas Ciencias Español Historia Educación Fı́sica


Matemáticas 1.00 0.85 0.38 0.21 -0.79
Ciencias 0.85 1.00 -0.02 -0.02 -0.69
Español 0.38 -0.02 1.00 0.82 -0.37
Historia 0.21 -0.02 0.82 1.00 -0.51
Educación Fı́sica -0.79 -0.69 -0.37 -0.51 1.00

Cuadro 3.2: Correlaciones entre las materias de la tabla de notas escolares

3.3.2. Vectores principales


Al calcular los q valores propios mayores de la matriz V, denotados λ1 , λ2 , . . . , λq (or-
denados en orden decreciente), se obtienen los llamados vectores principales u1 , u2 , . . . , uq ,
donde
u1 es un vector propio normado asociado al valor propio λ1 ,
u2 es un vector propio normado asociado al valor propio λ2 ,
etc.

3.3.3. Componentes principales


Las componentes principales serán las variables asociadas a estos ejes principales.
Ası́,
1
c = Xu1 será llamada la primera componente principal,
c2 = Xu2 la segunda componente principal,
.. k
., c = Xuk la k-ésima componente principal,
etc.

Ejemplo 3.3.2 El cálculo de las componentes principales de la tabla de notas escolares da


como resultado las componentes mostradas en la tabla 3.3. Puede observarse que se trata
efectivamente de nuevas variables, puesto que tienen valores para todos los estudiantes.

3.3.4. Propiedades de las componentes principales


Las componentes principales tienen las siguientes propiedades:

1. son centradas:
c¯k = 0;

2. ck tiene varianza λk :
var(ck ) = λk ;
3.4 Representaciones gráficas 33

Primera componente Segunda componente


c1 c2
Lucı́a −0,32 −1,77
Pedro −0,67 1.64
Inés −1,00 0.52
Luis 3.17 0.26
Andrés 0.49 −1,37
Ana −1,71 1.02
Carlos −0,07 −1,46
José −2,01 1.28
Sonia 3.04 1.25
Marı́a −0,92 −1,37

Cuadro 3.3: Dos primeras componentes principales para la tabla de notas escolares

3. cada par de ellas tiene correlación cero:

∀k, l : r(ck , cl ) = 0.

La demostración de estas propiedades se deja como ejercicio.

Ejemplo 3.3.3 El lector puede comprobar que efectivamente, para las componentes c1 y
c2 de la tabla 3.3, éstas tienen media cero y que tienen correlación nula. Además, que la
varianza de c1 es 2.89 y la de c2 es 1.63.

3.4. Representaciones gráficas


Uno de los mayores usos que tiene el A.C.P. es a través de sus representaciones gráficas,
pues las componentes principales permiten hacer une representación en pocas dimensiones
de los hechos más sobresalientes de una tabla de datos.
Se obtendrán dos representaciones gráficas:

los planos principales, formados por las coordenadas de los individuos en las
componentes principales; aquı́ se pueden apreciar las principales agrupaciones y
dispersiones de los individuos;

los cı́rculos de correlaciones, obtenidos a partir de las correlaciones entre las va-
riables originales y las componentes principales normalizadas; aquı́ se pueden apre-
ciar las agrupaciones de variables y su comportamiento respecto de las componentes
principales.
34 Análisis en Componentes Principales

Los dos gráficos anteriores son complemetarios. En efecto, el cı́rculo de correlaciones


permite interpretar las posiciones relativas de los individuos. Ası́ mismo, se puede apreciar
para qué individuos las variables tienen grandes valores (por encima del promedio).
En cualquier interpretación de los gráficos, siempre debe tenerse presente que éstos
no son más que simplificaciones de los hechos observados, por lo tanto cualquier hipótesis
que quiera formularse debe ser examinada a la vista de los datos originales para verificarla
o descartarla.

3.4.1. Planos principales


El plano definido por c1 , c2 es llamado el primer plano principal. En general, cualquier
plano definido por dos componentes principales es llamado un plano principal.
También llamaremos espacio principal a un espacio generado por un cierto número de
componentes principales.

Ejemplo 3.4.1 En el ejemplo de las notas escolares, el primer plano principal está ge-
nerado por c1 y c2 dados en la tabla 3.3.

Las coordenadas de un individuo sobre un plano principal se obtiene por la proyección


del individuo sobre ese plano. El valor de esta proyección es dado precisamente por los
valores corrrespondientes al individuo en las componentes principales.

Ejemplo 3.4.2 El plano principal obtenido para la tabla de notas escolares es dado en la
figura 3.1.

3.4.2. Cı́rculos de correlaciones


Por su parte, la construcción del cı́rculo de correlaciones se obtiene calculando el coe-
ficiente de correlación lineal entre cada xj y la componente principal ck correspondiente:
Coordenada variable xj en ck : = r(xj , ck )

Ejemplo 3.4.3 En la tabla de notas escolares, las correlaciones entre las variables ori-
ginales y las dos primeras componentes principales con:

Componente 1 Componente 2
c1 c2
Matemáticas −0,90 0.35
Ciencias −0,72 0.65
Español −0,61 −0,72
Historia −0,60 −0,75
Educación Fı́sica 0.91 −0,12
3.5 Indices de calidad 35

% Inercia 90.44 Eje 2 (32.57 %)


6

Pedro

José •
Sonia

Ana


Inés

Luis
 -
Eje 1 (57.86 %)


Marı́a •
Andrés

Carlos

Lucı́a
?

Figura 3.1: Primer plano principal para la tabla de notas escolares, generado por las dos
primeras componentes principales

En un plano, se puede entonces graficar como puntos las parejas de coordenadas cal-
culadas de la forma anterior. Puede verse que ninguno de estos valores puede sobrepasar
1, ya que se trata de correlaciones. Por ello, en este plano se traza un cı́rculo de radio 1.
Además, entre más cercano al cı́rculo esté uno de los puntos mejor representada estará la
variable correspondiente, ya que eso significará que tiene una correlación muy elevada con
las dos componentes principales que generan el plano.

Ejemplo 3.4.4 Siguiendo el procedimiento descrito anteriormente, para la tabla de notas


escolares, se obtiene el cı́rculo de correlaciones en la figura 3.2.

3.5. Indices de calidad

3.5.1. Calidad global


La proyección de los individuos sobre el plano principal da una imagen aproximada de
las posiciones relativas de los puntos-individuos.
36 Análisis en Componentes Principales

% Inercia 90.44 Eje 2 (32.57 %)


6


Ciencias


Matemáticas

 -
Eje 1 (57.86 %)
• Fı́sica
Ed.

Español
••
Historia

Figura 3.2: Cı́rculo de correlaciones para la tabla de notas escolares generado por las dos
primeras componentes principales

En vista de las componentes principales son no correlacionadas, entonces son (geomé-


tricamente) perpendiculares, u ortogonales. Esto quiere decir que al calcular la inercia de
la nube de puntos basta con sumar las varianzas de las componentes principales.

Ejemplo 3.5.1 En la tabla de notas escolares, ya una vez centrada y estandarizada, la


inercia de la nube de puntos es 5 puesto que:

λ1 + λ2 + · · · λ5 = 5

En general, cuando se tenga una tabla centrada y estandarizada con p variables, en-
tonces la inercia total de la nube de puntos es p, lo cual también coincide con la suma de
los valores propios de la matriz de correlaciones.
Ahora bien, la inercia de la nube proyectada sobre el primer plano principal se cal-
culará usando las coordenadas de los puntos en ese plano. Si se hace el cálculo de esta
inercia se puede comprobar que es igual a la suma de los valores propios correspondientes
a las componentes principales.
3.5 Indices de calidad 37

Ejemplo 3.5.2 La inercia de la nube de puntos-estudiantes proyectada en el primer plano


principal es:
λ1 + λ2 = 2,89 + 1,63 = 4,52

Ası́, la calidad de la representación de la nube de puntos sobre el primer plano principal


se puede medir, en forma de porcentaje, por el cociente de la inercia de la nube proyectada
entre la inercia total:
λ 1 + λ2
Calidad global: × 100
I(N )
donde I(N ) es la inercia total de la nube, que es igual a la suma de todos los valores
propios de V . En el caso estandarizado, vimos que esta inercia total vale p, el número de
variables observadas.
En particular, el porcentaje de inercia explicado por una sola componente principal
k
c es:
λk
I(N )

Más generalmente, si se retienen q componentes principales, ellas resumen un porcen-


taje de inercia dado por:
λ1 + λ2 + . . . + λ q
× 100
I(N )
de la inercia total de la nube de puntos.

Ejemplo 3.5.3 En la tabla de notas escolares, el porcentaje de inercia explicado por cada
eje principal es (indicamos entre paréntesis el porcentaje acumulado):

Valor propio Porcentaje de Inercia


inercia acumulada
1 2,89 57,86 % (57,86 %)
2 1,63 32,57 % (90,44 %)
3 0,35 6,93 % (97,37 %)
4 0,12 2,45 % (99,82 %)
5 0,01 0,18 % (100,00 %)

Ası́, el porcentaje de inercia explicado por el primer plano principal es de 90.44 %.

3.5.2. Calidad particular


Calidad de representación de cada individuo

Las coordenadas de los individuos representados en el plano principal se obtienen por


proyección. Por lo tanto, es de esperar que esa proyección sea una fiel representación del
38 Análisis en Componentes Principales

individuo si “no se pierde mucho” al proyectar, es decir, si la distancia entre el punto


original y el punto proyectado es pequeña.
En la figura 3.3 ilustramos esta situación. Se tienen dos puntos en la nube original, los
puntos a y b. Estos se proyectan sobre el plano principal en los puntos â y b̂, respectiva-
mente.
En la figura se puede apreciar que â y a están relativamente cercanos, por lo que â
puede considerarse como una buena representación de a. Sin embargo, b̂ y b son muy
diferentes, por lo que la representación b̂ de b es mala.
b•
D
D
D
D
D
D
D
D
D
D
D
!•a D
!!! D
 !!



β D
D

!α ((((( â 
b̂ •PP
! ( 
 P
!(
!( ( 
 PD!(( 
 0 
  

 

Figura 3.3: Proyección de dos puntos individuos en el plano principal

Esta buena o mala representación se puede cuantificar facilmente con la ayuda de los
cosenos de los ángulos formados por ciertos vectores. En efecto, el ángulo α entre el vector
a y el vector â es pequeño, por lo que su coseno es cercano a 1. Por su parte, el ángulo β
entre el vector b y el vector b̂ es muy abierto, casi de 90 grados, por lo que su coseno es
cercano a 0.
Estos cosenos servirán entonces para medir la calidad de la representación de un
individuo sobre el plano principal. Ası́, siguiendo la notación de la figura 3.3 entonces:
kâk
cos α =
kak
Elevando al cuadrado, se tendrá:
kâk2
cos2 α = (3.1)
kak2
Pero aún hay más: el cálculo del coseno del ángulo formado entre un vector individuo
y su representación en un espacio principal se puede calcular sumando los cosenos al
3.5 Indices de calidad 39

cuadrado que forma ese vector individuo con cada una de las componentes principales
que forman el espacio principal. En efecto, debido al teorema de Pitágoras, si â1 es la
proyección de a sobre la componente c1 y â2 es la proyección de a sobre la componente
c2 , entonces ||â||2 = ||â1 ||2 + ||â2 ||2 , por lo que:

kâ1 k2 + kâ2 k2
cos2 α =
kak2

Si α1 es ángulo que forma a con c1 y α2 el que forma con c2 , entonces:

kâ1 k2
cos2 α1 =
kak2
kâ2 k2
cos2 α2 =
kak2

De esta forma, se obtiene la siguiente descomposición para el coseno cuadrado de α (ver


figura 3.4):
cos2 α= cos2 α1 + cos2 α2 (3.2)

C2
 a


â2 1 â
-C 1
0 â1

Figura 3.4: Descomposición del coseno cuadrado según el teorema de Pitágoras

Según la igualdad 3.2, se puede medir la calidad de la representación en cada com-


ponente principal y sumarlas para obtener la calidad total en un plano principal. Este
mismo tipo de suma se puede obtener para obtener la calidad de la representación de los
individuos en un espacio principal de dimensión mayor que 2.

Ejemplo 3.5.4 Para la tabla de notas escolares, en la tabla 3.4 se muestran los cosenos
cuadrados de los ángulos entre los puntos-individuos en el espacio R5 con su representación
en el primer plano principal.

Calidad de representación de cada variable

La calidad de la representación de una variable sobre el cı́rculo de correlaciones,


será también medida con el cuadrado del coseno del ángulo entre los vectores respec-
tivos. Ahora bien, recuérdese que entre variables, el coseno es igual a una correlación,
40 Análisis en Componentes Principales

cos2 1 cos2 2 Calidad


plano (1,2)
Lucı́a 2.23 67.04 69.27
Pedro 13.99 84.84 98.83
Inés 51.45 13.61 65.06
Luis 93.69 0.64 94.33
Andrés 8.41 65.64 74.05
Ana 73.27 26.20 99.47
Carlos 0.19 88.61 88.80
José 67.36 27.09 94.45
Sonia 80.88 13.76 94.64
Marı́a 30.86 67.79 98.65

Cuadro 3.4: Cosenos cuadrados y calidad de la representación para la tabla de notas


escolares

por lo que serán las correlaciones las que midan la calidad de la representación de las
variables.
Sin embargo, en este caso no se puede aplicar el teorema de Pitágoras para descom-
poner la calidad de representación en el plano como suma de las correlaciones con cada
componente principal.

3.5.3. Número de componentes principales


Un asunto delicado es el de la decisión del número de componentes principales, o ejes,
que se deben escoger en un A.C.P. Para ello hay algunos criterios que el usuario puede
seguir para tomar la decisión. Estos criterios son:

El usuario fija un porcentaje de inercia P que considera como mı́nimo para que el
A.C.P. sea satisfactorio, entonces tomará el número de ejes que sea necesario hasta
que la inercia explicada por ellos sobrepase P . Por ejemplo, este porcentaje puede
ser fijado en P = 70 %, o en P = 80 %; solamente debe tomarse en cuenta que entre.
Si los datos están estandarizados, entonces se sugiere guardar todas las componentes
principales asociadas a valores propios mayores o iguales a 1. En efecto, una com-
ponente principal tiene por varianza el valor propio correspondiente, y las variables
originales -en el caso estandarizado- tienen varianza 1. Este criterio entonces dice
que se deben guardar aquellos ejes cuya varianza sea más importante que la varianza
de las variables originales.

Ejemplo 3.5.5 Para la tabla de notas escolares se escogerán 2 ejes, en vista de que se
han estandarizado los datos y solamente los dos primeros valores propios son mayores que
1.
3.6 Interpretación de los resultados 41

3.6. Interpretación de los resultados


El asunto más importante de un Análisis en Componentes Principales es la interpre-
tación de los resultados. A pesar de que, como en toda técnica estadı́stica, en la interpre-
tación hay mucho de arte y la experiencia juega un papel importante, se pueden sugerir
algunas directrices que pueden ayudar a encontrar los hechos más sobresalientes en los
resultados.
En primer lugar, se debe tratar de etiquetar a las componentes principales. Para ello,
se usarán las medidas de calidad de representación de los individuos y de las variables. Se
usan generalmente dos criterios:

Un eje tendrá mucha relación con aquellos individuos cuyo coseno cuadrado sea
superior o igual al 50 %. Estos individuos están particularmente bien representados
sobre ese eje.

Una componente principal puede ser interpretada a partir de las variables originales
que tengan con ella una correlación mayor o igual a 0.7.

Interpretación de los resultados para la tabla de notas escolares

Consulta de las correlaciones Puede apreciarse que todas las variables excepto Edu-
cación Fı́sica tienen correlación negativa con la primera componente principal; además
todas las correlaciones con esta componente son relativamente altas en valor absoluto,
especialmente para Matemática y Educación Fı́sica. Por lo tanto, parece ser que esta pri-
mera componente opone a las variables “de estudio” a la variable de “esfuerzo fı́sico”.
Esta oposición se aprecia claramente sobre el cı́rculo de correlaciones (figura 3.2).
Por su parte, la segunda componente principal tiene altas correlaciones (en valor ab-
soluto) únicamente con las variables “de estudio”, y esta correlación es positiva con las
“cientı́ficas” (Matemática y Ciencias) y negativa con las “humanidades” (Historia y Es-
pañol). Por lo tanto, esta segunda componente parece oponer a las variables cientı́ficas de
las humanı́sticas, como puede apreciarse sobre el cı́rculo de correlaciones.
Podemos por lo tanto etiquetar a la primera componente principal como “naturaleza
de la materia” y la segunda “tipo de materias”.

Examen de las agrupaciones en el plano Sobre el primer plano principal podemos


observar al lado izquierdo a los estudiantes (Sonia y Luis) que tienen buenas notas en
Educación Fı́sica pero muy malas notas en las otras materias (cf. tabla de datos, tabla
3.1). Estos estudiantes están del lado que corresponde, en el cı́rculo de correlaciones,
precisamente a Educación Fı́sica, lado que es opuesto a las materias académicas. Esto
significa que estos estudiantes tienen notas encima del promedio en Educación Fı́sica, y
por debajo del promedio en las demás materias.
42 Análisis en Componentes Principales

En el segundo cuadrante están Pedro, Inés, Ana y José, que son los estudiantes con
mejores notas en Ciencias y Matemáticas. Este cuadrante corresponde al sector del cı́rculo
de correlaciones en que se encuentran precisamente las variables Ciencias y Matemáticas.
Por ello, se puede decir que son los estudiantes con notas superiores al promedio en esas
materias. Además, están en una posición “perpendicular” a las materias humanı́sticas,
por lo que se puede decir que en las materias de Historia y Español tienen notas como el
promedio.
En la parte inferior del plano están Marı́a, Lucı́a, Carlos y Andrés, que tienen las
mejores notas Español e Historia, con notas cerca o por debajo del promedio en las
cientı́ficas; los tres últimos están además cerca del eje vertical lo que explica que sus notas
en Educación Fı́sica están cerca del promedio general en esa materia (7.42).
Los comentarios anteriores confirman lo observado sobre el cı́rculo de correlaciones.

Examen de los cosenos cuadrados Los cosenos cuadrados de los individuos sobre los
dos ejes muestran que todos tienen una muy buena representación sobre el plano principal
(representaciones superiores al 69 %).
Los estudiantes más importantes para la explicación de la primera componente prin-
cipal son: Luis y Sonia (debido a su fuerte nota en Educación Fı́sica), y en menor grado
Inés, Ana y José (los “cientı́ficos”, bajos en Ed. Fı́sica). Y los estudiantes que mejor ex-
plican a la segunda componete principal son: Lucı́a, Pedro, Andrés, Carlos y Marı́a, que
tienen buenas notas en las materias académicas (Pedro en las cientı́ficas, y los demás en
las Humanidades), y que además tienen una nota promedio en Educación Fı́sica.

Al lector interesado en una guı́a completa para la interpretación de los resultados de


un A.C.P., se le sugiere consultar el capı́tulo 9 del libro de B. Escofier & J. Pagès [61].

La interpretación de los ejes también puede ser completada con la ayuda de los ele-
mentos suplementarios, como se explica en la siguiente sección.

3.7. Elementos suplementarios

3.7.1. Individuos suplementarios

El A.C.P. permite graficar también individuos que no se hacen intervenir en el análi-


sis, llamados individuos suplementarios. Por alguna razón, uno puede desear tener la
representación en el plano principal de algún individuo que no participa de los cálcu-
los (técnicamente, puede ponérsele peso cero). Puede por ejemplo tratarse de un punto
atı́pico, o de naturaleza ligeramente diferente a los demás.
Su proyección sobre el plano principal puede hacerse ya que está en la tabla X. En
3.8 Otras aplicaciones del A.C.P. 43

caso de que sea un individuo calculado (por ejemplo, un punto promedio para alguna
modalidad), entonces la proyección puede ser determinada usando los ejes principales.

Ejemplo 3.7.1 El uso de individuos suplementarios en A.C.P. es muy común en las


encuestas donde se entrevista a la gente, y se quiere tener por ejemplo la representación
del “hombre” promedio y de la “mujer” promedio.

3.7.2. Variables suplementarias


De manera análoga, uno puede desear la representación sobre el cı́rculo de correlaciones
de variables suplementarias, que no participen del análisis (no forman parte de la matriz
V ). Como pertenecen al espacio F , basta con calcular su correlación con las componentes
principales normalizadas para obtener su representación sobre el cı́rculo de correlaciones.

3.8. Otras aplicaciones del A.C.P.


El A.C.P. también puede aplicarse al caso en que se tengan solamente variables cua-
litativas ordinales. El caso tı́pico es el de las encuestas, en que se tienen las siguientes
modalidades a las preguntas formuladas: totalmente de acuerdo, de acuerdo, indeciso, en
desacuerdo, totalmente en desacuerdo.
En efecto, en este caso las modalidades se pueden condificar del 1 al 5 y entonces se
pueden calcular las correlaciones entre las distintas variables.
Puede consultarse un tratamiento exhaustivo de este tipo de tablas de datos, en [147],
ası́ como en los artı́culos de J.P. Pagès [140], C. Arce, N. Garita y M. López en las
Memorias del V y VI Simposios de Métodos Matemáticos Aplicados a las Ciencias, Revista
de Ciencia y Tecnologı́a, U.C.R., Vol. XIII, Nos. 1 y 2, 1989, y en los artı́culos de O.
Prieto y M. López en las Memorias del VII y VIII Simposios de Métodos Matemáticos
Aplicados a las Ciencias, Editorial de la Universidad de Costa Rica, San Pedro, 1995. Más
recientemente, se estudia la estabilidad de la opinión pública en Costa Rica en [71].

Anexo: cálculo de los ejes principales de inercia


En el desarrollo del presente capı́tulo asumimos dos resultados importantes: primero,
que el cálculo de los ejes principales de inercia se pueden hacer uno a uno, y segundo
que ellos provienen de la diagonalización de la matriz V M . Ambos resultados tienen su
justificación matemática que damos a continuación.

Recordemos que tenemos una nube de n puntos en Rp denotada N = (X, M, Dω ),


con X una matriz n × p asociada a p variables cuantitativas centradas, M una métrica
44 Análisis en Componentes Principales

sobre el espacio de individuos E = Rp (con una matriz asociada p × p), y Dω la métrica


de pesos sobre el espacio de variables F = Rn (con una matriz diagonal asociada n × n
con los pesos ωi ).
Ya hemos definido la inercia de una nube de puntos respecto a un punto a y respecto
al centro de gravedad. Veamos ahora la expresión de la inercia respecto a un subespacio
vectorial. Si H es un subespacio vectorial de E, entonces existe un subespacio de E
denotado H ⊥ y llamado el complemento ortogonal de H, tal que E = H ⊕ H ⊥ ; se cumple
que ∀h ∈ H, ∀h̄ ∈ H ⊥ M(h, h̄) = hh, h̄iM = 0. Por lo tanto, para todo xi ∈ E, existen
ai ∈ H, bi ∈ H ⊥ tales que xi = ai + bi , y esta descomposición es única.
Se define la inercia de la nube N respecto a H como:
n
X
IH (N ) = ωi kbi k2
i=1

Ası́ mismo, la inercia de N respecto a H ⊥ es:


n
X
IH ⊥ (N ) = ωi kai k2
i=1

Esto es, es la inercia de la nube proyectada sobre el espacio H. Cuando H está generado
por un vector unitario v, es decir H = ∆v con kvk = 1, entonces se tiene ai = hv, xi iM v =
(v t Mxi )v, por lo tanto
n
X n
X n
X
2 t 2 2
I∆⊥v (N ) = ωi kai k = ωi (v Mxi ) kvk = ωi v t Mxi xti Mv
i=1 i=1 i=1

y se tiene que
n
X 
t
I∆⊥v (N ) = v M ωi xi xti Mv = v t MVMv
i=1

Debido a que E = H ⊕ H ⊥ y al teorema de Pitágoras, se tiene la importante relación:

I(N ) = IH (N ) + IH ⊥ (N )

Recuérdese que el objetivo en A.C.P. es obtener un subespacio de E de dimensión q,


con q < p y que denotaremos Eq , tal que la inercia IEq⊥ (N ) de la nube proyectada sobre
ese espacio sea máxima (lo que es equivalente a pedir que la inercia IEq (N ) sea mı́nima).

El siguiente resultado es llamado el Teorema de inclusión.

Teorema 3.1 Si Ek−1 es un subespacio vectorial óptimo de E de dimensión k − 1, en-


tonces el subespacio vectorial óptimo de E dimensión k contiene a Ek−1 .
3.8 Otras aplicaciones del A.C.P. 45

Demostración:

Sea Fk un subespacio vectorial de E de dimensión k y denotemos H = Fk + Ek−1 .
⊥ ⊥
Si Fk ∩ Ek−1 = 0 entonces se tendrı́a H = Fk ⊕ Ek−1 y dim(H) = k + (p − (k − 1)) = p + 1,
lo cual es absurdo pues H ⊆ E = Rp .

Por lo tanto existe un vector no nulo v ∈ Fk ∩ Ek−1 y denotemos ∆v el eje (espacio vec-
torial de dimensión uno) generado por v.
Sea G el espacio suplementario M -ortogonal a ∆v en Fk : es decir, tal que Fk = G ⊕ ∆v ;
y sea Ek la suma directa Ek = Ek−1 ⊕ ∆v .
Debido a la ortogonalidad entre G y ∆v se tiene IFk (N ) = IG (N ) + I∆v (N ) y a la orto-
gonalidad entre Ek−1 y ∆v se tiene IEk (N ) = IEk−1 (N ) + I∆v (N ).
Sin embargo, por hipótesis Ek−1 es óptimo entre los subespacios vectoriales de dimensión
k − 1, esto es IEk−1 (N ) ≤ IG (N ),
por lo tanto IEk (N ) ≤ IFk (N ) y entonces Ek es óptimo entre los subespacios vectoriales
de E de dimensión k.

Proposición 3.2 Sea Ek−1 el subespacio vectorial de E óptimo de dimensión k − 1.


La búsqueda de un subespacio vectorial Ek de dimensión k que minimice IEk (N ) y que
contenga a Ek−1 , se reduce a buscar un eje ∆v , M ortogonal a Ek−1 y que minimice
I∆v (N ).

Demostración:
Para cualquier espacio Ek de dimensión k que contenga a Ek−1 , existe un eje ∆v tal que
se tiene una descomposión en suma directa Ek = Ek−1 ⊕ ∆v con ∆v ⊥ Ek , por lo tanto
IEk (N ) = IEk−1 (N ) + I∆v (N ).
Como IEk−1 (N ) es constante, minimizar IEk (N ) se reduce a minimizar I∆v (N ).

Los dos resultados anteriores permiten la siguiente estrategia para obtener la solución
del A.C.P.:

1. buscar el eje E1 = ∆v1 con inercia mı́nima, v1 es un vector unitario que genera a
∆v1 ;

2. buscar el eje ∆v2 , M-ortogonal a ∆v1 y con inercia mı́nima; sea E2 = ∆u1 ⊕ ∆v2 ,
E2 es un subespacio óptimo de dimensión 2;

k. buscar un eje ∆vk , M-ortogonal a Ek−1 y con inercia mı́nima; sea Ek = Ek−1 ⊕ ∆vk ,
Ek es un subespacio óptimo de dimensión k.

Se tiene Ek = ∆v1 ⊕ ∆v2 ⊕ . . . ⊕ ∆vk . Los ejes ∆v1 , ∆v2 , . . . son llamados los ejes
factoriales.
46 Análisis en Componentes Principales

Recuérdese que M es una matriz simétrica definida positiva y que V es simétrica


positiva. Además, VM es M-simétrica: (VM)t M = M(VM). Por lo tanto deducimos
que los valores propios de VM son reales, positivos o nulos, y que existe una base M-
ortonormada de E = Rp formada por vectores propios de VM. Denotemos λ1 , λ2 , . . . , λp
los valores propios de VM ordenados de mayor a menor, y denotemos {u1 , u2 , . . . , up }
una base de vectores propios asociados respectivamente a los λj .

Según la estrategia deducida del teorema de inclusión y de la proposición 3.2, para


obtener la solución del A.C.P. se comienza por buscar el eje ∆v1 que minimice la inercia
I∆v1 (N ) con kv1 k = 1, luego el eje ∆∆v2 que minimice la inercia Iv2 (N ) con kv2 k = 1 y
ortogonal a v1 , y ası́ sucesivamente:

1. se quiere encontrar v1 tal que maximice I∆⊥v (N ) = v1t MVMv1 con la restricción
1
kv1 k2 = v1t Mv1 = 1.
En la base de vectores propios de VM, el vector v1 tiene una expresión
p p
X X
v1 = αj uj con αj2 = 1,
j=1 j=1

por lo tanto se tiene:


p p
X  p p
X X X
v1t MVMv1 =h αj uj , VM αk uk iM = h αj uj , λk αk uk iM
j=1 k=1 j=1 k=1

de donde v1t MVMv1 = pj=1 λj αj2 .


P

Se debe por lo tanto maximizar pj=1 λj αj2 bajo la restricción pj=1 αj2 = 1.
P P
Debido a que losP λj están ordenados de manera decreciente, se tiene
P p 2 p 2
j=1 λj αj ≤ λ1 j=1 αj = λ1 . Basta por lo tanto tomar α1 = 1 y ∀j > 1 αj = 0.
Ası́, v1 = u1 , un vector propio unitario de VM asociado al mayor valor propio λ1 .

2. se quiere encontrar v2 tal que maximice I∆⊥v (N ) = v2t MVMv2 con las restricciones
2
kv2 k2 = v2t Mv2 = 1 y v2t Mu1P= 0.
A partir de la escritura v2 = pj=1 αj uj con
Pp 2
j=1 αj = 1 de v2 en la base de vec-
tores propios de VM, se muestra de manera análoga que para la etapa anterior que
v2 = u2 , vector propio de VM asociado al segundo valor propio más grande de VM.

k. La búsqueda del k-ésimo eje factorial ∆vk se hace análogamente y se encuentra que
vk = uk .

Obsérvese que los vectores axiales principales uk pertenecen a E, mientras que las
componentes principales ck = XMuk pertenecen a F , y que son las proyecciones por
dualidad de los primeros (ver esquema de dualidad en el anexo del capı́tulo 2).
3.8 Otras aplicaciones del A.C.P. 47

En los ejercicios se pide probar que λ1 = I∆⊥u (N ), es decir es la inercia de la nube


1
proyectada sobre el primer eje principal.
Se tiene que:

λ1
tr(VM)
es la parte de inercia explicada por el primer eje principal.
λ1 +λ2
tr(VM)
es la parte de inercia explicada por el primer plano principal generado por
u1 y u2 .
λ1 +λ2 +...+λk
tr(VM)
es la parte de inercia explicada por el subespacio principal Ek de dimen-
sión k generado por u1 , u2 , . . . , uk , donde Ek = ∆u1 ⊕ ∆u2 ⊕ . . . ⊕ ∆uk .
48 Análisis en Componentes Principales
Capı́tulo 4

Análisis Factorial de
Correspondencias

El Análisis Factorial de Correspondencias, llamado simplemente Análisis de Corres-


pondencias, fue propuesto en 1962 por el fı́sico-matemático francés Jean-Paul Benzécri,
con el fin de estudiar la relación entre dos variables cualitativas; esto es, analizando la
tabla de contingencia asociada a ellas. Esta técnica lleva a cabo el análisis tal como lo
idearon algunos precursores en la Estadı́stica, entre los que podemos citar a Pearson,
Guttman, Fisher, Burt y Hayashi; sin embargo ellos no pudieron llevar a cabo los cálculos
por la falta de la herramienta computacional.
Como el Análisis en Componentes Principales, se trata de una técnica descriptiva, y
según el espı́ritu del Análisis de Datos al puro estilo francés, no se usan leyes de probabi-
lidad ni modelos a priori.

El Análisis de Correspondencias no sólo es aplicable a las tablas de contingencia. De


hecho, se aplica a una enorme cantidad de tipos de tablas de datos, entre los que podemos
citar: tablas de notas, tablas de rangos, tablas de porcentajes, tablas de flujos, tablas de
medidas llevadas a cabo con la misma unidad de medida.
Los requisitos que deben cumplir tales tablas de datos son:

1. los datos que contiene la tabla deben ser todos positivos,

2. debe haber homogeneidad: las magnitudes en la tabla deben ser del mismo orden,

3. las filas y las columnas de la tabla deben ser susceptibles de ser sumadas.

Sobre algunas de estas tablas de datos, también se puede hacer un Análisis en Com-
poenentes Principales, sin embargo el uso del Análisis de Correspondencias a menudo es
más rico por las razones siguientes:

49
50 Análisis Factorial de Correspondencias

la simetrı́a que juegan las filas y las columnas de la tabla permite su representación
simultánea,
al trabajar sobre los perfiles y no sobre los datos brutos, el Análisis de Correspon-
dencias evita el efecto de talla que a veces se encuentra en el A.C.P.,
la propiedad de equivalencia distribucional (ver anexo) hace que los resultados sean
poco sensibles a cambios de codificación.

Para la presentación del método, nos restringiremos al caso de una tabla de contin-
gencia para evitar una presentación muy pesada.

Recordemos algunos conceptos y notaciones importantes asociados a las tablas de


contingencia. Supóngase que estamos en presencia de dos variables cualitativas x, y con
p y q modalidades respectivamente. Entonces la tabla de contingencia que cruza a x con
y es una tabla p × q tal que en la entrada (j, k) se tiene el número, denotado njk , de
individuos que poseen tanto la modalidad j de x como la modalidad k de y.
Por ejemplo, en la tabla 4.1 se cruzan las modalidades de las variables “nivel de
salario” por fila y “tipo de empleo” por columna. En esta tabla, n12 = 14 y n34 = 40. La
fila y la columna de totales son la fila marginal y la columna marginal, y en la esquina
inferior derecha aparece el número total de individuos, 390, a los que se le midieron las
dos variables. Obsérvese que en la tabla no aparecen explı́citamente estos individuos, sino
solamente a través de la cantidad de ellos que poseen simultánemente dos modalidades.

funcionario agricultor obrero otros Total


empleado
bajo 11 14 107 75 207
medio 1 10 60 31 102
alto 23 2 16 40 81
Total 35 26 183 146 390

Cuadro 4.1: Tabla de contingencia que cruza nivel de salario con tipo de empleo

Otras notaciones asociadas a la tabla de contingencia son:


q
X
nj· = njk el efectivo de la j-ésima modalidad de x,
k=1
p
X
n·k = njk el efectivo de la k-ésima modalidad de y
j=1
p q p q
X X X X
yn= nj· = n·k = njk la población total.
j=1 k=1 j=1 k=1

Resumiendo las notaciones anteriores, podemos escribir en general una tabla de con-
tingencia como la mostrada en la figura 4.1.
4.1 Perfiles-fila y perfiles-columna 51

modalidades de y
1 k q
..
1 .
..
.
modalidades de x
j · · · · · · njk · · · · · · nj·
..
.
..
p .
n·k n
Figura 4.1: Notaciones relacionadas con una tabla de contingencia

Dividiendo todos los elementos de la tabla de contingencia por n, entonces se obtienen


las llamadas frecuencias: fjk = njk /n,
q p
X X
fj· = nj· /n = fjk , f·k = n·k /n = fjk ,
k=1 j=1
p q p q
X X X X
y1= fj· = f·k = fjk .
j=1 k=1 j=1 k=1
Las componentes de una tabla de frecuencias están ilustradas en la figura 4.2.

4.1. Perfiles-fila y perfiles-columna


El estudio que llevaremos a cabo de una tabla de contingencia, se basará en encon-
trar tipologı́as o agrupaciones de las filas y/o de las columnas. Para ello es necesaria una
medida de la similitud entre modalidades. Para el Análisis de Correspondencias conside-
raremos que dos filas (modalidades de una misma variable cualitativa) son parecidas si se
asocian de forma similar sobre el conjunto de columnas. Esta comparación sólo será posi-
ble si eliminamos el efecto de la popularidad que pueda tener una modalidad, por lo que

modalidades de y
1
k q
..
1 .
..
.
modalidades de x
j · · · · · · fjk · · · · · · fj·
..
.
..
p .
f·k 1
Figura 4.2: Componentes de una tabla de frecuencias
52 Análisis Factorial de Correspondencias

usaremos una medida que relativice la importancia de cada fila. Para ello se introducen
entonces los llamados perfiles-fila de la tabla de contingencia.
El j-ésimo perfil-fila de la tabla de contingencia se construye al dividir cada entrada
njk de la fila j entre nj· . Por lo tanto, cada perfil-fila es algo ası́ como la distribución de
los porcentajes de la fila entre todos las columnas.
Por ejemplo, en la tabla 4.1, el perfil-fila asociado a la primera fila de la tabla es:

11/207 14/207 107/207 75/207 = 0.053 0.068 0.517 0.362

Obsérvese que njk /nj· = fjk /fj· y que por lo tanto esta componente del j-ésimo perfil-
fila es una probabilidad condicional: es la probabilidad de que un inviduo ocupe un empleo
de la categorı́a k sabiendo que tiene un nivel de salario de la categorı́a j.
Ası́ mismo, el perfil marginal fila está constituido de los f·k . En el ejemplo de la tabla
citada, el perfil marginal fila serı́a:

35/390 26/390 183/390 146/390 = 0.090 0.067 0.469 0.374

De manera similar, se definen los perfiles-columna. Ası́, el k-ésimo perfil columna de


la tabla serı́a definido al dividir cada entrada njk de la columna k entre n·k .
Por ejemplo, el perfil columna asociado a la primera modalidad de “tipo de empleo”
es:
11/35 0.314
1/35 = 0.029
23/35 0.657

y el perfil marginal columna (formado por los fj· ) es:

207/390 0.530
102/390 = 0.262
81/390 0.208

Geométricamente, una modalidad j de x será representada por un vector de Rq , cuyas


componentes serán las componentes del perfil-fila que tiene asociado. A este espacio vec-
torial le daremos entonces una estructura euclı́dea mediante la definición de una métrica
y de pesos para los perfiles-fila, para formar una nube de perfiles-fila.
Por otro lado, una modalidad k de y será representada por un vector de Rp mediante
el perfil-columna asociado, y a este espacio vectorial también le daremos una estructura
euclı́dea llamada nube de perfiles-columna.
4.1 Perfiles-fila y perfiles-columna 53

4.1.1. Nube de perfiles-fila


La nube de perfiles-fila, denotada Nx , está constituida por:

p puntos que son los perfiles-fila deducidos de la tabla de contingencia, es decir los
p puntos de Rq : (nj1 /nj· , nj2 /nj· , . . . , njq /nj· )

el peso del j-ésimo perfil-fila es: nj· /n = fj·

la métrica es la diagonal de los n/n·k = 1/f·k , es decir


 
n/n·1 0 0
 . .. 
 
Mx =  n/n·k
 

 .. 
 . 
0 0 n/n·q
 
f·1
El centro de gravedad de la nube es gx =  ...  pues su k-ésima componente es:
 
f·q
p p
X nj· njk X
gx (k) = = njk /n = n·k /n
j=1
n nj· j=1

Este centro de gravedad debe ser considerado como el perfil-fila promedio. Por lo tanto,
servirá como referencia para el estudio de los perfiles-fila. Por ejemplo, para la tabla que
cruza los niveles de salario y los tipo de empleo, calculamos el perfil marginal fila que
es el centro de gravedad de la nube asociada. Si se quiere estudiar en qué medida y de
qué manera un nivel de salario difiere del conjunto de niveles de salario, se reduce a
estudiar la diferencia entre el perfil de este nivel de salario y el perfil promedio.

En la figura 4.3 ilustramos la tabla de perfiles-fila.


La distancia al cuadrado entre dos perfiles fila j y h es la llamada distancia del χ2 :
q q
X n  njk nhk 2 X 1  fjk fhk 2
dχ2 (perfil-fila j, perfil-fila h) = − = −
k=1
n ·k nj· n h·
k=1
f·k fj· fh·

Por lo tanto, la inercia de la nube de perfiles-fila respecto al centro de gravedad es:


p
X nj·
I(Nx ) = dχ2 (perfil–filej, gx )
j=1
n
54 Análisis Factorial de Correspondencias

1 k q
..
1 .
..
.
j · · · · · · fjk /fj· · · · · · · 1
..
.
..
p .
gx f·k 1

Figura 4.3: Tabla de perfiles-fila

4.1.2. Nube de perfiles-columna


La nube de perfiles-columna, denotada Ny , está constituida por:

q puntos que son los perfiles-columna deducidos de la tabla de contingencia, es decir


los q puntos de Rp : (n1k /n·k , n2k /n·k , . . . , npk /n·k )

el peso del k-ésimo perfil-columna es: n·k /n = f·k

la métrica es la diagonal de los n/nj· = 1/fj· , es decir


 
n/n1· 0 0
 ... 
 
My =  n/nj·
 

 .. 
 . 
0 0 n/np·

De forma similar
 a lanube de perfiles-fila, el centro de gravedad de la nube de perfiles-
f1·
 .. 
columna es gy =  .  pues su j-ésima componente es:
fp·

q q
X nj· njk X
gy (j) = = njk /n = nj· /n
k=1
n nj· k=1

Este perfil promedio es el que servirá de referencia para el estudio de la nube Ny .


La distancia al cuadrado entre dos perfiles columna k y ` es la distancia del χ2 :
p p
X n  njk nj` 2 X 1  fjk fj` 2
dχ2 (perfil-columna k, perfil-columna `) = − = −
j=1
n j· n ·k n ·` j=1
fj· f·k f·`
4.2 Propiedad de equivalencia distribucional 55

La inercia de la nube de perfiles-columna respecto al centro de gravedad es:


q
X n·k
I(Ny ) = dχ2 (perfil–columnak, gy )
k=1
n

4.2. Propiedad de equivalencia distribucional


Durante la presentación del Análisis de Correspondencias mencionamos que entre las
propiedades de la distancia del χ2 está la de equivalencia distribucional. Esta consiste en
que si, para una tabla de contingencia, hay dos perfiles-columna que son iguales, entonces
al sumar las columnas en una sola, las distancias entre perfiles-fila o entre perfiles-columna
quedan inalteradas. La misma propiedad es cierta cuando son dos perfiles-fila los que son
iguales.
Precisemos lo dicho más arriba para el caso en que hay dos perfiles-columna iguales.
Sean k1 , k2 los ı́ndices de las columnas que son iguales y sea k la nueva columna creada
por suma de ellas, es decir: ∀j njk = njk1 + njk2 . Por lo tanto al dividir entre n se tiene
∀j fjk = fjk1 + fjk2 y por lo tanto f·k = f·k1 + f·k2 .
Como los perfiles-columna k1 y k2 son iguales entonces se tiene njk1 /n·k1 = njk2 /n·k2
lo cual implica fjk1 /f·k1 = fjk2 /f·k2 . Por lo tanto ∀j fjk = fjk1 + f·k2 fjk2 /f·k2 = fjk1 +
f·k2 fjk1 /f·k1 = fjk1 (f·k1 + f·k2 )/f·k1 . Como además f·k = f·k1 + f·k2 entonces tenemos que

fjk fjk1 fjk2


= = (4.1)
f·k f·k1 f·k2

Al hacer la suma de las columnas, las distancias entre los perfiles-columna de la nube
Ny no cambian pues la métrica sigue siendo My = diag(n/nj· ).
Ahora, para la nube Nx de perfiles-fila, al calcular la distancia del χ2 entre los perfiles
j y h con la tabla original y con la tabla con las columnas sumadas, los términos que
difieren en la expresión de la distancia son:

1  fjk1 fhk1 2 1  fjk2 fhk2 2


− + − (4.2)
f·k1 fj· fh· f·k2 fj· fh·
y
1  fjk fhk 2
− (4.3)
f·k fj· fh·
Por lo tanto, hay que probar que ambas cantidades son iguales.
Véase que, usando la primera igualdad de 4.1:

1  fjk1 fhk1 2 1  fjk1 f·k1 fhk1 f·k1 2


− = −
f·k1 fj· fh· f·k1 f·k1 fj· f·k1 fh·
56 Análisis Factorial de Correspondencias

 f fhk1 2
jk1
= f·k1 −
f·k1 fj· f·k1 fh·
 f fhk 2
jk
= f·k1 −
f·k fj· f·k fh·

1  fjk2 fhk2 2  f
jk fhk 2
Análogamente − = f·k2 − .
f·k2 fj· fh· f·k fj· f·k fh·

Por lo anterior, la cantidad 4.2 es igual a


 f fhk 2  f fhk 2 1  fjk fhk 2
jk jk
(f·k1 + f·k2 ) − = f·k − = −
f·k fj· f·k fh· f·k fj· f·k fh· f·k fj· fh·

de donde se obtiene el resultado buscado.

La propiedad de equivalencia distribucional establece que si hay dos filas o dos co-
lumnas que tienen una misma distribución, entonces las posiciones relativas de todos los
puntos son las mismas si esas dos filas o columnas son fusionadas y se suman sus pesos.
Véase que desde el punto de vista de los objetivos del Análisis de Correspondencias, esta
es una propiedad deseable para la configuración de puntos; ello constituye una de las
razones por las que se usa la distancia del χ2 .

4.3. Análisis en Componentes Principales de una nu-


be de perfiles
Considérese la nube de perfiles-fila definida en la sección anterior. Se tienen entonces p
objetos (las modalidades de x representadas por sus perfiles) descritos por q caracterı́sticas
(la proporción de la fila para cada modalidad de y).
Queremos encontrar un espacio de dimensiones reducidas tal que represente lo mejor
posible las dispersiones de la nube Nx , que está en Rq . Este objetivo es análogo al del
Análisis en Componentes Principales de la nube para los perfiles centrados. Véase que
la k-ésima entrada del j-ésimo perfil-fila centrado es: fjk /fj· − f·k . Por lo tanto este
perfil centrado representa la diferencia entre la distribución de la modalidad j de x y la
distribución de la población total sobre las modalidades de y. Ası́, buscar las direcciones
de inercia máxima de la nube centrada consiste en poner en evidencia las modalidades de
x que se diferencian más del perfil promedio.

Observación: en el primer capı́tulo vimos que el χ2 mide la asociación entre dos variables
cualitativas. En los ejercicios que se plantean al final del capı́tulo, se pide probar que el χ2
es precisamente, salvo por un factor de n, igual a la inercia de la nube de perfiles-fila. Esto
quiere decir que la inercia de la nube traduce en cierta forma la estructura de la tabla
4.3 Análisis en Componentes Principales de una nube de perfiles 57

de contingencia. Por lo tanto, buscar un subespacio que maximice la inercia equivale a


buscar un subespacio que maximice el χ2 de contingencia.

Para hacer el A.C.P. de la nube Nx se debe diagonalizar la matriz Vx Mx , donde Mx


es la matriz de la métrica del χ2 y Vx es la matriz de covarianzas entre las columnas de
la tabla de perfiles-fila.
De manera análoga, se puede plantear la realización de un A.C.P. de la nube Ny de
perfiles-columna, diagonalizando la matriz Vy My , con Vy la matriz de covarianzas para
esta nube. Se puede probar que los valores propios de Vx Mx y Vy My son los mismos, y
que los vectores propios correspondientes están relacionados por las llamadas fórmulas de
transición, que veremos enseguida.
Si denotamos λ1 , λ2 , . . . los valores propios de Vx Mx ordenados en orden decreciente,
y u1 , u2 , . . . los vectores propios correspondientes (llamados ejes principales), entonces las
componentes principales serán C 1 = XMx u1 , C 2 = XMx u2 , . . ., donde X es la tabla de
los perfiles-fila centrados. Como en el A.C.P., las componentes principales resultan de la
proyección de los perfiles-fila sobre los ejes principales:
 
c11
 c1 
 2 
C 1 =  .. 
 . 
c1p

Una pregunta natural es cuántos valores propios hay diferentes de cero. La respuesta
es el rango de la matriz Vx Mx , el cual no puede sobrepasar el mı́nimo entre p y q, y que
denotaremos r.
Denotemos D1 , D2 , . . . las componentes principales del A.C.P. de la nube Ny de los
perfiles-columna, con D1 el vector de los d1j , etc. Entonces se pueden probar las siguientes
fórmulas de transición:
q
1 1 X njk 1
cj = d
λ1 k=1 nj· k
p
1 X njk 1
d1k = c
λ1 j=1 n·k j

Las fórmulas están enunciadas para la primera componente principal de cada análisis,
pero se pueden escribir para todas las componentes principales cambiando el superı́ndice
correspondiente por el número de componente principal.

Estas fórmulas muestran que basta hacer uno de los dos análisis, pues los resultados
del otro se deducirán a partir del primero. Además, permiten hacer una representación
gráfica simultánea de las modalidades de x y de las modalidades de y, como veremos en
la sección siguiente.
58 Análisis Factorial de Correspondencias

Al igual que en A.C.P., las componentes principales son ortogonales (no correlaciona-
das) y tienen varianza el valor propio correspondiente (ası́, la varianza de C ` y de D` es
λ` ).
Ası́ mismo, la calidad de los resultados se mide de manera análoga al A.C.P. La calidad
global del espacio retenido será dada por el porcentaje de inercia explicada:
λ1 + λ2 + · · · + λ k
I(N )
y la calidad de representación de cada punto es dada por el coseno cuadrado de su pro-
yección sobre el espacio.

Todos los resultados anteriores siguen siendo válidos cuando en lugar de una tabla
de contingencia se dispone de una tabla de datos que reúne los requisitos enunciados
al principio de este capı́tulo. Sólo se deberá tener la precaución de reemplazar algunos
términos de vocabulario como “perfil” por “distribución condicional”
Mencionaremos de paso la aplicación del Análisis de Correspondencias sobre las llama-
das tablas desdobladas. Se tiene una tabla de datos con entradas positivas y p columnas,
entonces se crean otras p columnas que midan lo contrario de las p originales en el siguien-
te sentido: si para la columna j los datos van de 0 a m, que es el valor máximo, entonces
los valores de la columna se cambian transforman en m − xj + 1.
Por ejemplo, supóngase que se tiene una tabla de preferencias entre 6 materias donde
cada columna indica el rango de preferencia por cada materia, por lo tanto la escala de
preferencias va de 1 a 6. Si la columna de “Matemáticas” es:

1 6
6 1
1 6
4 3
entonces se transforma en:
5 2
2 5
2 5
3 4

Este procedimiento es particularmente útil en Análisis de Correspondencias cuando se


quiere examinar las filas que se agrupan alrededor del concepto “positivo” de la columna
y las que se agrupan alrededor del concepto “negativo” de la columna.

4.4. Representaciones gráficas


Las fórmulas de transición permiten representar en un mismo gráfico tanto las filas
como las columnas de la tabla original. Esta representación simultánea se obtiene al
4.4 Representaciones gráficas 59

sobreponer las proyecciones de cada una de las nubes Nx y Ny sobre los planos generados
por los ejes principales de mismo ı́ndice, lo cual no podı́a hacerse con los gráficos de un
A.C.P.
Por ejemplo, si se aplica el Análisis de Correspondencias a la tabla de contingencia
presentada en la tabla 4.1 que cruza el nivel de salario con el tipo de empleo, se obtiene el
plano principal representado en la figura 4.4 con las proyecciones de las modalidades. En
este caso, los puntos tienen una calidad de representación del 100 %, por lo que prácti-
camente se puede decir que las nubes de perfiles estaban contenidas en un hiperplano (el
plano principal) de dimensión 2.

Eje 2 (0.77 %)
6

obr/empl bajo otro Eje 1 (99.23 %)


-
alto func
medio
agri

Figura 4.4: Plano principal: nivel de salario vs. tipo de empleo

Las agrupaciones en el plano principal son notorias: salario alto con funcionario a la
derecha del primer eje, todas las demás modalidades hacia el lado opuesto. El comporta-
miento de otros empleos es un poco particular pues a pesar de que las personas con salario
bajo son preponderantes, las de salario alto son más numerosas que las de salario medio,
lo que explica el hecho que su proyección esté más atraı́da por el punto alto que medio.
Puede también apreciarse que para el resto de tipos de empleo, los niveles de salario medio
y bajo tienen comportamientos similares.

En los planos ası́ obtenidos se pueden entonces interpretar dos tipos de posiciones (a
condición de que los puntos correspondientes estén bien representados):

la proximidad entre dos perfiles-fila: si los puntos que representan a dos perfiles-fila
están cercanos significa que su distancia del χ2 es baja; por lo tanto, sus distribu-
ciones condicionales entre las columnas deben ser muy parecidas; análogamente se
analizarı́a la cercanı́a entre perfiles-columna;

la posición relativa entre un perfil-fila


√ y los perfiles-columna: la proyección de la fila
j sobre el eje `, por un factor de 1/ λ` , es el baricentro (centro de gravedad) de las
60 Análisis Factorial de Correspondencias

proyecciones de las columnas k si se pondera cada una de ellas por un peso igual a
fjk ; las columnas “pesadas” (con fjk “grande”) atraerán al baricentro. Por lo tanto,
para una fila j se encontrarán del mismo lado del factor ` las columnas con las que
se asocia más, y del lado opuesto con las que se asocia menos; análogamente se
analizarı́a la posición relativa de un perfil-columna respecto al conjunto de perfiles-
fila.

Ya hemos mencionado el hecho que la inercia de las nubes Nx o Ny son proporcionales


al χ2 . Debido a que los ejes principales son ortogonales, la inercia se puede escribir como
una suma de inercias proyectadas sobre cada eje: la inercia proyectada sobre el factor
` es la varianza λ` de la componente principal asociada. Por lo tanto, el Análisis de
Correspondencias brinda una descomposición del χ2 : en efecto, cada eje o factor representa
una parte de la relación entre las variables x y y.
En el ejemplo anterior, se obtienen los siguientes valores propios: λ1 = 0,18, λ2 =
0,0014, λ3 = λ4 = 0. Con estos resultados, es claro que prácticamente toda la información
está contenida en el primer eje ya que él explica 99,23 % de la inercia total, mientras que
el segundo eje aporta solamente 0,77 %. Obsérvese que de lo anterior se puede deducir que
el χ2 de contingencia entre las variables cualitativas “nivel de salario” y “tipo de empleo”
es 390 · 0,1814 = 70,746.

Un aspecto muy importante en el análisis de la asociación entre dos variables cualitati-


vas, es el de la independencia, que ya hemos evocado en el capı́tulo 1; según los resultados
del Análisis de Correspondencias, se puede analizar ası́:

si hay independencia entre las dos modalidades, las nubes de puntos estarán con-
centradas en un sólo punto (el centro de gravedad) pues todos los perfiles siguen un
comportamiento como el del promedio (perfil marginal); en este caso la inercia de
las nubes Nx y Ny es nula;

si hay dependencia, la representación de los puntos está alejada del origen. El caso
extremo es cuando un eje tiene inercia 1, lo cual significa que refleja una gran
dependencia entre las filas y las columnas: prácticamente, se podrı́a dividir las filas
y las columnas de la tabla de datos en dos grupos, generando ası́ 4 bloques tales
que haya valores altos en dos de ellos y muy cercanos a cero en los otros dos; esto
mostrarı́a una gran asociación entre cada par de bloques. Si hay dos ejes que tienen
inercia cercana a 1, entonces cada fila y cada columna se dividirá en tres grupos, lo
que generará tres bloques muy asociados, y ası́ sucesivamente.

Al igual que en A.C.P., se proponen ı́ndices de calidad de la representación mediante


el porcentaje de inercia explicada por el subespacio principal retenido (el cual también
representa el porcentaje de asociación entre las variables cualitativas). Ası́, la calidad de
4.5 Interpretación de un AFC 61

la representación sobre el primer plano principal se medirá con:


λ1 + λ2
λ 1 + λ2 + · · · λr
Para cada perfil-fila y cada perfil-columna, también se puede calcular la calidad de su re-
presentación mediante el coseno cuadrado del ángulo que forma el vector que lo representa
con el subespacio principal.

Finalmente, también se pueden representar tanto filas como columnas suplementarias


que no participen en la determinación de los ejes pero que pueden servir para interpre-
tarlos.

4.5. Interpretación de un AFC


La interpretación de un Análisis Factorial de Correspondencias tiene que ver con la
selección de ejes factoriales significativos, de puntos significativos y su representación
plana; todo lo cual permite visualizar las proximidades y oposiciones entre perfiles. A
continuación se presentan los ı́ndices y criterios utilizados como ayudas usuales en la etapa
de análisis e interpretación de las “salidas” en un programa de AFC. La implementación
en PIMAD permite hacer uso de estos ı́ndices y criterios.

4.5.1. La contribución absoluta


La contribución absoluta es un indicador del aporte inercial de una modalidad a un
eje. Como se sabe, cada eje explica una parte de la inercia de la nube de perfiles, que es
justamente la inercia de la nube proyectada sobre este eje. Ası́ por ejemplo, para el eje
α−ésimo se tiene:
n p
X 2
X
Inercia proyectada = λα = pi (coorduα (pfi )) = qj (coordvα (pcj ))2 .
i=1 j=1

En virtud de esta relación es natural definir la contribución absoluta del perfil pfi
al eje α−ésimo, como

pi (coorduα (pfi ))2 fi (coorduα (pfi ))2


ctrα (i) = = .
λα T λα
Cuanto mayor es ctrα (i), más contribuye el perfil a la construcción del eje α−ésimo.
De la misma manera la contribución de un perfil columna pcj al eje α−ésimo es

qj (coordvα (pcj ))2 cj (coordvα (pcj ))2


ctrα (j) = =
λα T λα
62 Análisis Factorial de Correspondencias

4.5.2. Contribución relativa

La contribución relativa se puede usar como un ı́ndice para evaluar la calidad de


la representación de las modalidades en los ejes y planos principales. También puede ser
usado para dar P significado a un eje con el cual se relacionan ciertas modalidades. Como
||pfi − Gf || = aα=2 || Pruα (pfi )||2D−1 entonces es natural definir la contribución relativa
2
q
del eje α−ésimo al perfil pfi , como:

2
kP ruα (pfi )k2Dq−1 [coorduα (pfi )]2
corr (θiα ) = =P
k(pfi − Gf )k2Dq−1
 2
p T kij cj
j=1 cj fi
−T

el cual se interpreta geométricamente como el cuadrado del coseno del ángulo formado
por el eje α−ésimo y el vector pfi − Gf . De la misma manera para el caso de los perfiles
columna, la contribución relativa del eje α−ésimo al perfil pcj es:

kP rvα (pcj )k2Dp−1 [coordvα (pcj )]2


2
corr (θjα ) = =P 2 .
k(pcj − Gc )k2Dp−1

n T kij fi
i=1 fi cj
− T

Cuanto más grande sea corr2 (θiα ) , más especı́fico es el perfil pfi del eje α−ésimo.
La misma relación vale para los perfiles columna. Por otra parte, cuanto mayor sea
corr2 (θiα ) + corr2 (θiβ ) , de mejor calidad es la representación del perfil pfi en el plano
determinado por uα y uβ . Los mismo vale para los perfiles columna.

4.5.3. Selección de ejes

Los criterios usuales para seleccionar


Pr el número de ejes son de carácter empı́rico. Sean
s=2 λs
a = min{n, p}, IE (r) = 100 a λs la inercia explicada por los primeros r − 1 ejes, y
P
s=2
sea ie (r) = 100 Paλr λs la inercia explicada por el r−eje. Una primera forma (sencilla) es
s=2
fijar a priori un porcentaje de inercia explicada por los ejes, digamos por ejemplo 75 %,
y escoger los primeros r − 1 ejes tales que IE (r) ≥ 75. Al ser este un criterio global, se
aconseja controlarlo con un criterio local que involucre el porcentaje de inercia explicada
100
por un eje: ie (r) ≥ a−1 . El criterio local consiste en retener los primeros r ejes tales que
1
P a 100 100
ie (r) ≥ a−1 s=2 ie (s) = a−1 , y ie(r + 1) < a−1 .
Otro criterio empı́rico, también usado en ACP, es la “regla del codo” que consiste en
construir un diagrama lineal de los valores propios y determinar el punto donde la curva
tiene una forma similar a un codo. Esto es, escoger los primeros r ejes tales que a partir
del valor propio λr , el diagrama es aproximadamente una función constante.
4.6 Ejemplos 63

4.5.4. Selección de puntos

La media aritmética de las contribuciones absolutas de los perfiles fila ( resp. perfiles
columna) es n1 ( resp. p1 ), entonces los perfiles tales que ctrα (i) ≥ n1 y ctrα (j) ≥ p1 se llaman
perfiles explicativos del eje α−ésimo. En la etapa de depuración e interpretación de
resultados se tomarán en cuenta prioritariamente los perfiles explicativos.
Selección de puntos explicativos: para el eje α−ésimo supongamos que las contribu-
ciones ctrα (i) están ordenadas en forma decreciente. Se escogen los h primeros puntos
explicativos tales que hi=1 ctrα (i) ≥ d, donde d es un P
P
número entre cero y uno, escogido
a priori. El criterio para los perfiles columna es igual: gj=1 ctrα (j) ≥ d.

Por otra parte, los perfiles fuertemente asociados con un eje se llaman puntos expli-
cados por este eje. Normalmente se toma 0.5 como valor lı́mite. Esto significa que un
perfil pfi es explicado por el eje α−ésimo, si corr2 (θiα ) ≥ 0,5. En modo análogo, un perfil
pcj es explicado por el eje α−ésimo, si corr2 (θjα ) ≥ 0,5.
Eventualmente un eje que explica muy poca inercia (no pasa el criterio de selección de
ejes) puede ser considerado dentro del análisis si existe algún perfil explicado por este
eje, de modo tal que se pueda afirmar que se trata de una dirección caracterı́stica de ese

4.6. Ejemplos

4.6.1. Análisis de Correspondencias de una tabla de contingen-


cia

Se han aplicado 4 tipos de drogas (A,B,C y D) a 121 pacientes y cada paciente ha


calificado el medicamento como malo, regular, bueno, muy bueno y excelente. La tabla de
contingencia que se muestra a continuación muestra al número de pacientes que recibieron
cada droga y según como la catalogaron:

malo regular bueno muy bueno excelente


A 5 1 10 8 6
B 5 3 3 8 12
C 10 6 12 3 0
D 7 12 8 1 1

Al hacer un Análisis de Correspondencias de la tabla anterior para estudiar la relación


entre el tipo de droga y la calificación que dieron los pacientes, se obtuvieron los siguientes
resultados:
Valores propios y porcentaje de inercia explicada:
64 Análisis Factorial de Correspondencias

valores propios % inercia % acumulado


λ1 0.30 78.32 78.32
λ2 0.08 19.88 98.20
λ3 0.01 1.80 100.00

Según esto, la representación en el primer plano principal explicarı́a 98.20 % de la


inercia de la nube de puntos, o lo que es lo mismo, del χ2 de asociación entre las variables
cruzadas. Véase de paso que el χ2 de contingencia es 0,39 × 121 = 47,19.
La tabla de componentes principales y cosenos cuadrados (por 100) que se obtuvo fue:

Eje 1 Eje 2 Cos2 1 Cos2 2 Calidad en el plano


malo -0.25 -0.07 69.10 6.32 75.42
regular -0.64 0.44 67.35 32.10 99.45
bueno -0.27 -0.30 43.68 54.37 98.06
muy bueno 0.58 -0.16 92.29 6.67 98.96
excelente 0.95 0.28 92.10 7.85 99.95
A 0.35 -0.30 54.73 40.68 95.41
B 0.70 0.25 88.57 10.81 99.38
C -0.45 -0.25 74.31 22.09 96.40
D -0.63 0.31 79.33 19.82 99.14

Puede verse que casi todos los puntos están muy bien representados en el primer plano
principal, salvo quizás el punto malo que tiene un porcentaje de representación inferior a
los demás, pero de calidad siempre satisfactoria.
El primer plano principal es:
4.6 Ejemplos 65

Eje 2 (19.9 %)
6
?
regular


D ?
• excelente
B

 -Eje 1 (78.3 %)
?
malo

?
muy bueno


C
? •
bueno A

Obsérvese que la percepción de los pacientes respecto a los medicamentos es diferente


según el tipo de medicamento que se haya administrado: en efecto, los pacientes a los que
se administró el medicamento tipo B tienen una percepción mayoritariamente excelente,
lo cual se puede verificar en la tabla de contingencia. Se aprecian además los siguientes
agrupamientas: muy bueno con A, bueno con C y regular con D. Malo tiene una posición
intermedia entre C y D, que son los grupos para los que significativamente tiene alguna
importancia.
Se puede entonces concluir que hay una fuerte relación entre el tipo de medicamento
y la percepción de los pacientes.

4.6.2. Análisis de Correspondencias de una tabla de notas


Consideramos de nuevo la tabla de notas de materias que ya hemos considerado para
el Análisis en Componentes Principales. Es una tabla con 10 individuos y 5 materias
evaluadas de 0 a 10. Esta tabla cumple con los requisitos que ya hemos enunciado para
poder aplicar el Análisis de Correspondencias: sus componentes son positivas (notas de
materias), son homogéneas (todas sus columnas son materias calificadas de 0 a 10, y todas
sus filas son estudiantes), y hay simetrı́a entre filas y columnas.
Al aplicar el Análisis de Correspondencias obtenemos los siguientes valores propios
(indicamos entre paréntesis el porcentaje de inercia explicada): λ1 = 0,01 (61,90 %), λ2 =
0,0053 (32,62 %), λ3 = 0,0008 (4,96 %), λ4 = 0,00008 (0,52 %) y λ5 = 0 (0,00 %).
66 Análisis Factorial de Correspondencias

Eje 1 Eje 2 Cos2 1 Cos2 2 Calidad


Matemática -0.08 0.01 76.62 0.34 76.96
Ciencias -0.15 0.05 86.98 10.59 97.57
Español 0.04 -0.05 28.12 53.23 81.36
Historia 0.04 -0.10 11.70 79.10 90.80
Ed.Fı́sica 0.14 0.10 64.88 34.98 99.85
Lucı́a 0.08 -0.05 57.41 22.83 80.24
Pedro -0.11 0.06 77.73 21.90 99.64
Carmen -0.07 0.02 88.26 11.21 99.47
Luis 0.13 0.10 54.73 32.94 87.66
Andrés 0.09 -0.08 55.16 40.28 95.43
Ana -0.12 0.00 99.78 0.01 99.79
Carlos 0.07 -0.08 39.69 59.25 98.94
José -0.15 -0.01 98.97 0.52 99.49
Sonia 0.11 0.15 32.10 61.15 93.25
Marı́a 0.02 -0.08 7.01 91.12 98.13

Cuadro 4.2: Coordenadas de los puntos sobre las componentes principales - Tabla de notas
escolares

Ası́, el porcentaje de inercia explicada por el plano principal es de 94,52 %. Consideran-


do que este porcentaje de inercia es suficiente, retenemos lo dos primeros ejes principales.
En la tabla 4.2 presentamos las proyecciones de las materias y los estudiantes sobre
las componentes principales, ası́ como el coseno cuadrado del ángulo y el ı́ndice de calidad
de la representación sobre el plano principal.
En la figura 4.5 están representados los estudiantes y las materias sobre el primer
plano principal. Obsérvese que los puntos tienen una calidad de representación superior al
80 %. Puede verse sobre este plano principal las principales agrupaciones que ya habı́amos
observado en el A.C.P. Alrededor de Educación Fı́sica, en el primer cuadrante, están los
estudiantes que sólo tienen buenas notas para esta materia, esto es Sonia y Luis, y malas
notas para el resto de las materias, aunque sus notas son ligeramente mejores para las
materias literarias que para las cientı́ficas. En el segundo cuadrante están ubicadas las
materias cientı́ficas (MATE y CIEN) y los estudiantes que tienen las mejores notas en
estas materias: Pedro, Carmen, Ana y José. Estos dos últimos están un poco atraı́dos
también por la posición de las materias literarias y opuestos a la EDFI (donde tienen
6.0 y 6.5 respectivamente), y Carmen tiende a tener una nota promedio en esas mismas
materias y en Educación Fı́sica. Finalmente, en el cuarto cuadrante están ubicadas las
materias literarias (ESPA e HIST), y alrededor de ellas los estudiantes que tienen muy
buenas notas en estas materias: Lucı́a, Marı́a, Carlos y Andrés. Estos estudiantes tienen
notas relativamente bajas en las materias cientı́ficas, pero están cerca o sobre el promedio
para Educación Fı́sica.
4.7 Aplicación en Biologı́a 67

Eje 2 (32.62 %)Sonia


6

ED.FISICA
Luis

Pedro
CIENCIAS

Carmen
MATEMATICA
Ana Eje 1 -
(61.90 %)
José

Lucı́a
ESPAÑOL

Marı́a Carlos
Andrés
HISTORIA

Figura 4.5: Plano principal: estudiantes vs. notas escolares

4.7. Aplicación en Biologı́a


En [24] se aplica el Análisis Factorial de Correspondencias al estudio de le presencia
de plantas epı́fitas en helechos arborescentes. Las referencias particulares de este trabajo
se muestran al final de la sección.
La relación entre plantas epı́fitas y las plantas que las alojan es conocida. En [24]
se investiga la relación entre algunas plantas epı́fitas especı́icas y troncos de helechos.
Solamente algunas epı́fitas son frecuentes o muy frecuentes en helechos. La mayorı́a de
las especies de epı́fitas no son especı́ficas de estos troncos. Blechnum grafile son las únicas
encontradas exclusivamente en helechos. También se ha observado diferentes comunidades
de epı́fitas que dependen de la especie de helecho y la morfologı́a del tronco del helecho.

4.7.1. Introduction
In Costa Rican montane rainforest, many species of epiphytes grow on all substrates.
Research results about the ecology, diversity, and significance of epiphytes in the rain
forests have been published recently (Ingram et al. (1993), Johansson (1974), Nardkarni
(1985, 1986), Wolf (1993 a,b)). But there are few reports on studies of the host specifi-
city of epiphytes (Johanson et al. (1972)). Beaver (1984) showed the differences of most
epiphytes on diferent tree fern species in New Zealand. Medeiros et al. (1993) compared
the colonization of native and invaded tree fern species in Hawaii. In the present study an
68 Análisis Factorial de Correspondencias

analysis has been made of the frequency of vascular epiphytes on four tree fern species.
Correspondence analysis is well suited for this kind of data, since it can give a synthetic
representation of the multidimensional behavoir of the frequency data.

4.7.2. Methods
Study site

The study of tree ferns was undertaken on a one hectare plot in the “Reserva Biológica
de Alberto Brenes”. The site is located on the Atlantic slope of the Cordillera de Tilarán
in Costa Rica. The geographical coordinates are 10o 12’ N, 84o 36’ W. The study site is
at 1000 m over sea level in the vicinity of the field station of this area.

Inventory

We inventoried all tree ferns with trunk height from 1.0 to 5.0 m in the one hectare
plot. For each tree fern, all vascular plant epiphytes species were listed as well as the
location where this epiphyte is growing on the trunk. After this, we analysed the epiphyte
communities on every tree fern species using a correspondence analysis.
In our case, we want to measure the associations between the presence and frequency
of epiphytes on tree ferns, and moreover, how is this association. That is to say, which
epiphytes are present (or absent) in which kinds of tree ferns, and what are the relations
latent to these associations.
Our basic information is contained on a contingency table that describes the presence
of 53 epiphytes on 4 tree ferns (first part of Table 4.3). This presence is divided in 5 levels:
from 0 % to 20 % of the tree fern height, from 20 % to 40 %, from 40 % to 60 %, from 60 %
to 80 % and from 80 % to 100 % (second part of Table 4.3).

4.7.3. Results
We have found in the study site four species of tree fern with a different number of
individuals for each species. The tree fern species Alsophila erinacea (n = 5), Alsophila
polystichoides (n = 17), Cyathea delgadii (n = 17) and Cyathea nigripes (n = 21) are
unspecifically distributed in the plot. All plants are covered by epiphytes. A total of 52
vascular epiphyte or hemiepiphyte species was found on the trunks of tree ferns. 24 spe-
cies are pteridophtes in 9 families and 28 spermatophytes from 12 families. The cover by
epiphytes and the frequency is very different for each tree fern species. Alsophila erinacea
showed twenty-eight different epiphyte species. Half of these species are observed on 25 %
of the trunks. Eight species were found on more than 50 % of the trunks. Alsophila polys-
tichoides were covered by thirty-eight vascular epiphyte species. 27 species were found on
4.7 Aplicación en Biologı́a 69

less than 25 % of the trunks. Four species were observed on more than 50 % of the trunks
and Asplenum pteropus on more than 75 % of the trunks from Alsophila polystichoides.
Cyathea delgadii showed very unspecific epiphytes. Most of the twenty-five species that
were found are on less than 25 % of all trunks of Cyathea delgadii. Only three species
covered up to 50 % of all trunks. Thirty-seven species covered Cyathea nigripes, the most
epiphytes in this study. 65 % of the species are only on 25 % or less of the trunks of
this species. Five species are frequent on 50 % or more of the trunks of Cyathea nigripes.
The comparison of the epiphyte species for all four tree ferns, showed that the following
epiphyte species are very frequent on tree fern trunks: Marcgravia spec., Schradea costa-
ricensis, Asplenium pteropus, Blechnum fragile and Trichomanes capillaceum. It should
be added that no orchids were observated on the trunks of tree ferns.
We have performed different kinds of correspondence analysis. Firstly, an analysis over
the table crossing the frequency of the 53 species of epiphytes on the 4 species of tree ferns
gives us a raw idea of the relation between epiphytes and tree ferns. The data are in the
first part of Table 1. In the principal plane (Fig. 1) we have plotted with a star the tree
ferns and with a bullet the epiphytes, but only the most important are highlighted with
a circle and their name is indicated. These important epiphytes are: Marcgravia spec.,
Peperomia emerginella, Asplenium holophlebium, Asplenium pteropus, Blechnum fragile,
Polybotrya alfredii, Grammitis lehmanniana and Trichomanes capillaceum.
The configuration of the points in Fig. 1 shows that the epiphytes of our interest are
not the responsible of the major statistical deviations. However, it can be observed that
there are two clear clusters: one cluster around Cyathea delgadii, composed by Polypodium
loriaceum, Trichomanes reptans, Solanum evolulifolium and Oleandra articulata. The rest
of the epiphytes form a second cluster around Cyathea nigripes, Alsophila polystichoides
and Alsophila erinacea; in this cluster are the eight epiphytes of our interest. The dots
without label are the other epiphytes of the analysis.
In order to determine whether the five levels show significant differences in the fre-
quency of epiphytes, we have performed a second correspondence analysis in the table
crossing the epiphytes and their frequency on the levels (second part of Table 1). Results
in Fig. 2 show some important features: the height plays an important role, since the five
levels follow the direction of the first axis. There is an specialization of epiphytes among
the levels and it can be seen that lower levels are associated with some kind of epiphytes
and higher levels with other epiphytes.
This analysis can be refined in order to investigate the relations between the levels and
the tree ferns. Indeed, we have applied correspondence analysis to a table crossing epiphy-
tes and tree ferns, level per level. Unfortunately, apart from the factor of “height.already
observed, the results are very difficult to elucidate since we have now 73 points in a
plane that only explains 32.7 % of the total inertia. Thus, we decided to perform analy-
ses tree-fern per tree-fern and level per level. The analyses over the tree ferns showed
the following results: for Cyathea delgadii (Fig. 4) Blechnum fragile and less importantly
Grammitis lehmanniana, Polybotrya alfredii and Marcgravia spec. are associated with lo-
70 Análisis Factorial de Correspondencias

Axis 2 (37.8 %)
6
Vittaria minima
Rhodospatha spec.

• •

Oleandra •
articulata Cyathea
delgadii
? Polypodium • •

Solanum 
evolulifolium
loriaceum
Cyathea ••
 Polybotrya nigripes
? ••
Trychomanes alfredii ◦
reptans Peperomia • •
emerginella
◦ ◦Marcgravia spec.
Asplenium Blechnum fragile -Axis 1
holophlebium◦ • ◦•

(44.8 %)
Grammitis
lehmanniana ◦ ••


•Alsophila
polystichoides •
? ? •◦Trichomanes

Alsophila capillaceum
erinacea
Asplenium◦pteropus
• •

• •

Figura 4.6: Principal plane of the correspondence analysis crossing the epiphytes and
the tree ferns. Tree ferns are indicated with a star ?, only the labels of the epiphytes of
interest are indicated with a circle ◦ and those around Cyathea delgadii are indicated with
a diamond .

wer levels, Peperomia emerginella with middle levels, and Asplenium holophlebium with
higher levels. On the other three tree ferns (Figs. 3, 5 and 6) Trichomanes capillaceum
and Polybotrya alfredii are highly correlated with the lower levels, Asplenium pteropus
and Grammitis lehmanniana are on intermediate levels, and Peperomia emerginella and
Asplenium holophlebium (this one except for Alsophila erinacea) are clearly in the higher
levels. Asplenium holophlebium is rather on intermediate levels for Alsophila erinacea.
Analyses of the data crossing the epiphytes and each level confirm the preceding results.
4.7 Aplicación en Biologı́a 71

Axis 2 (21.22 %)
6


•• •

? •
Level 5 • • • Level 1 •
?
Asplenium Blechnum
holophlebium
◦ •••
Peperomia emerginella fragile
•◦ • •• ◦• • • • • -Axis 1
• ◦Marcgravia ◦ ◦ ◦Trichomanes

Asplenium pteropus 2? Polybotrya alfrediicapillaceum (53.6 %)
• • Level ?• •spec. ◦Gramittis •
4 • •lehmanniana
• •?
Level 3

• •

Figura 4.7: Principal plane of the correspondence analysis crossing the epiphytes and the
5 levels. The levels are indicated with a star ?, only the labels of the epiphytes of interest
are indicated with a circle ◦.

4.7.4. Discussion
The represented results of the correspondence analysis showed that we found some
correlation between epiphyte species and tree fern species. Also we can establish that the-
re is a relation between epiphyte communities and the level of these comunities on the tree
fern trunk. The occurrence of different epiphyte species on different tree fern is related
with the tree fern morphology and the age of the tree fern trunk. Older parts of the trunks
have more possibilities for colonization from epiphytes. This is a very important aspect for
the differences that we observed between Cyathea delgadii and the other tree fern species.
Cyathea delgadii shows a very fast growing (Bittner et al. 1995) and the colonization of
the youngest part needs time. In contrast, Alsophila erinacea or Cyathea nigripes shown
in the top part of the trunk the pioneers of epiphytes. This parts of the trunk are up
to four times older than the same part of C. delgadii. Another aspect is that the morp-
72 Análisis Factorial de Correspondencias

Axis 2 (27.5 %)
6


•• ◦Asplenium pteropus
? 3
Level ? 4
Level •

•• ◦Asplenium holophlebium
◦Peperomia
•◦Marcgraviafragile
spec. emerginella
 • ◦Blechnum
•• -Axis 1
(50.8 %) %
Trichomanes capillaceum◦◦Polybotrya alfredii
• ◦Grammitis lehmanniana
??
Level 1 Level• 2• •
• ?
Level 5

••••

Figura 4.8: Principal plane of the correspondence analysis crossing the epiphytes and the
5 levels, for Cyathea nigripes. The levels are indicated with a star ?, only the labels of the
epiphytes of interest are indicated with a circle ◦.

holgy of the trunks is very different. Cyathea delgadii shows a lot of long smooth scales.
The colonization of these parts is difficult. After the losing of the scales, we can find more
epiphytes on the trunks. Specially, the development of adventive roots can be observed. In
the parts with adventive roots it is possible to find large numbers of epiphytes. Alsophila
erinacea, Alsophila polystichoides and Cyathea nigripes do not have these extreme scales.
The morphology of the trunks is another reason for the differences in epiphyte quantities
and one more example of the relation between substrate morphology and epiphyte coloni-
zation, that was discussed by Benzing (1990) or Johansson (1974). Both the morphology
of trunk and the micro climate explain the kinds of epiphyte communities observed in this
study. An example is the observation of small ferns of the Hymnophylaceen in the base
of the trunks. Normally, adventive roots are found in this part. Also this part is normally
shady and wet, which is very important for this group of plants. The other extreme is
found on the top of the trunks, where small fast climbing species (Peperomia emergine-
lla or Polypodium) grow. These plants are normally more succulent and adapted to dry
4.7 Aplicación en Biologı́a 73

6
Axis 2 (31.4 %)

◦Blechnum fragile •

?
Level 1 •
◦Grammitis lehmanniana
• • ?
Marcgravia spec.◦ Level 5
? •
Level 2 •
Trichomanes capillaceum -Axis 1
Polybotrya alfredii ◦ •◦

◦Asplenium holophlebium (42.4 %)
• •
Asplenium ◦ pteropus
• •
Peperomia emerginella ◦ ? Level 3
Level •4?



?

Figura 4.9: Principal plane of the correspondence analysis crossing the epiphytes and the
5 levels, for Cyathea delgadii. The levels are indicated with a star ?, only the labels of the
epiphytes of interest are indicated with a circle ◦.

biotopes.
A preliminary list of the epiphytes was listed in Bittner’s (1994) study in the same
investigation area. A comparison with the present study shows that only Blechnum fragile
is found exclusively on tree ferns. This observation and also the result that no orchids are
growing on tree ferns is possibly due to chemical substances that we found in the trunk
of tree ferns (Soeder, per.com. ). Johansson (1974) and Medeiros et al. (1993) mention
similar observations. Summarizing, we can establish that tree fern trunks are specific hosts,
only for some species. The trunk is unspecific for most of the epiphytes and settlement
depends on the morphology and microclimate factors found. The importance of chemical
substances will be an interesting aspect of future studies.
74 Análisis Factorial de Correspondencias

Axis 2 (29.3 %)
6

• •

?
• Level 5
• •
• Level 1 ◦Asplenium holophlebium
•? Blechnum
• fragile
•Level
•2 •◦◦Marcgravia spec.
•? ◦ • -Axis 1
 ◦
Trichomanes capillaceum Polybotrya
••alfredii?
• ◦Asplenium ◦Peperomia
pteropus (42.9 %)
emerginella
Level 3 •
•◦
Grammitis lehmanniana •• •

?
•Level 4


?

Figura 4.10: Principal plane of the correspondence analysis crossing the epiphytes and
the 5 levels, for Alsophila polystichoides. The levels are indicated with a star ?, only the
labels of the epiphytes of interest are indicated with a circle ◦.

Referencias
1. Benzécri, J.-P. (1982) L’Analyse des Données. Vol. II: Correspondances. Dunod, Paris.

2. Bittner, J. (1994) Untersuchungen zur Ökologie und Phänologie verschiedener Vertreter


der Baumfarngattungen und Alsophila (Cyatheaceen) sowie der auf ihren Stämmen zu
findenen vasculären Epiphytengesellschaften. Ph.D. - Thesis, Bielefeld, Germany 163 p.

3. Bittner, J., Breckle, S.-W. (1995) “The growth rate and age of tree fern trunks in relation
to habitats”, American Fern Journal 85:36–41.

4. Ingram, S.W. & Nadkarni N.M. (1993) “Composition and distribution of epiphytic organic
matter in neotropical cloud forest, Costa Rica”, Biotropica 25: 370–383.

5. Johansson, D.R. (1974) “Ecology of vascular epiphytes in West African rain forest”, Acta
Phytogeographica Suecica 59: 1–139.
4.7 Aplicación en Biologı́a 75

6
Axis 2 (27.5 %)
◦•
Asplenium holophlebium


?
Level 3

◦ •
Grammitis lehmanniana •
Marcgravia spec.◦ Level •

• ? 2 ◦Blechnum
• • -Axis 1
• • ? 4 fragile
Asplenium pteropus (46.6 %)

Polybotrya alfredii ◦ TrichomanesLevel • ◦ ?Level 5
capillaceum Peperomia ◦emerginella•
• ? 1
Level

Figura 4.11: Principal plane of the correspondence analysis crossing the epiphytes and the
5 levels, for Alsophila erinacea. The levels are indicated with a star ?, only the labels of
the epiphytes of interest are indicated with a circle ◦.

6. Johnson, A. & Awan B. (1972) “The distribution of epiphytes on Fragraea fragrans and
Swietenia macrophylla”, Malayan forester 35: 5–12.

7. Greenacre, M. (1984) Theory and Applications of the Correspondence Analysis. Academic


Press, London.

8. Lebart, L., Morineau, A. & Warwick, K. M. (1985) Multivariate Descriptive Statistical


Analysis. John Wiley & Sons, New York.

9. Medeiros, A., Loope, L.L. & Anderson S.J. (1993) “Differential colonization by epiphytes
on native (Cibotium spec.) and alien (Cyathea cooperi) tree ferns in a Hawaiian rain forest”,
Selbyana 14: 71–74.

10. Nardkarni, N.M. (1985) “Epiphyte biomass and nutrient capital of a neotropical elfin
forest”, Biotropica 16: 249–256.
76 Análisis Factorial de Correspondencias

11. Nardkarni, N.M. (1986) “The nutritional effects of epiphytes on host trees with special
reference to alteration of precipitation chemistry”, Selbyana 9:44–51.

12. Wolf, J.H.D. (1993a) “Epiphyte communities of tropical montane rain forests in the nort-
hern Andes, I. Lower montane communities”, Phytocoenologia 22: 1–52.

13. Wolf, J.H.D. (1993b) “Epiphyte communities of tropical montane rain forests in the nort-
hern Andes, II. Upper montane communities”, Phytocoenologia 22: 53–103.
4.7 Aplicación en Biologı́a 77

Cuadro 4.3: Número de epı́fitas de cada especie sobre 4 especies de helechos arborescentes
(primera parte de la tabla) y en cinco niveles (segunda parte de la tabla): nivel 1 (0–20 %),
nivel 2 (20–40 %), nivel 3 (40–60 %), nivel 4 (60–80 %) y nivel 5 (80–100 %)
Helechos arborescentes Niveles
Cyathea Cyathea Alsophila Alsophila Nivel 1 Nivel 2 Nivel 3 Nivel 4 Nivel 5
nigripes delgadii polystichoides erinacea (0–20 %) (20–40 %) (40–60 %) (60–80 %) (80–100 %)
Anthurium
austinsmithii 0 0 0 1 0 0 0 0 1
Philodendron
scandens 1 0 1 0 1 0 0 0 1
Philodendron
sulcatum 23 10 4 4 15 11 5 5 5
Araceae
spec. 3 0 1 0 3 1 0 0 0
Pitcarnia
atrorubens 2 1 3 1 0 4 2 0 1
Bromeliaceae
spec. 4 1 3 1 2 2 5 0 0
Cyclanthaceae
spec. 11 4 9 5 9 10 5 3 2
Vaccinium
spec. 5 0 1 0 0 3 0 2 1
Campanea
grandiflora 15 3 6 3 8 8 1 6 4
Columnea
consanguinea 5 0 0 1 1 2 1 1 1
Paradrymonia
lineata 6 0 2 4 3 1 6 0 2
Gesneriaceae
spec. 6 1 0 1 0 1 4 3 0
?Marcgravia
spec. 52 11 33 9 30 30 23 14 8
Adelobotrys
adscendens 3 4 9 4 2 5 6 3 4
Cnedemia
epifitica 28 2 1 0 10 6 6 7 2
Conostegia
micrantha 0 1 6 1 3 2 1 1 1
Melastomataceae
spec. 5 0 3 5 5 3 2 2 1
?Peperomia
emerginella 12 6 12 2 2 2 8 10 10
Peperomia
rotundifolia 0 0 3 0 0 0 1 0 2
Peperomia
spec. 5 0 0 1 0 0 3 1 2
Schradea
costaricensis 34 4 20 15 18 19 14 13 9
Solanum
evolulifolium 0 5 3 0 2 3 2 0 1
Pilea
diversissima 4 0 2 0 1 2 0 1 2
Pilea
ptericlada 5 0 2 0 3 3 1 0 0
Pilea
impartifolia 1 0 1 0 2 0 0 0 0
Begonia
spec. 2 1 4 2 0 0 1 3 5
Syngonium
spec. 8 0 2 0 2 2 2 1 3

S28 1 0 1 0 1 0 0 0 1

S29 3 0 0 0 0 3 0 0 0
Rhodospatha
spec. 0 2 0 0 1 1 0 0 0

S31 6 0 5 0 3 3 3 2 0
78 Análisis Factorial de Correspondencias

Tabla 4.3 (cont.). Número de epı́fitas de cada especie sobre 4 especies de helechos
arborescentes (primera parte de la tabla) y en cinco niveles (segunda parte de la tabla):
nivel 1 (0–20 %), nivel 2 (20–40 %), nivel 3 (40–60 %), nivel 4 (60–80 %) y nivel 5
(80–100 %)
Helechos Arborescentes Niveles
Cyathea Cyathea Alsoph. Alsoph. Nivel 1 Nivel 2 Nivel 3 Nivel 4 Nivel 5
nigrip. delg. polystic. erin. (0-20 %) (20-40 %) (40-60 %) (60-80 %) (80-100 %)
Syngonium
spec. 8 0 2 0 2 2 2 1 3

S28 1 0 1 0 1 0 0 0 1

S29 3 0 0 0 0 3 0 0 0
Rhodospatha
spec. 0 2 0 0 1 1 0 0 0

S31 6 0 5 0 3 3 3 2 0
Asplenium
dissectum 1 0 1 0 2 0 0 0 0
?Asplenium
holophlebium 19 3 17 1 7 9 9 7 8
?Asplenium
pteropus 16 4 47 10 10 12 18 22 15
Blechnum
divergens 0 0 0 0 0 0 0 0 0
?Blechnum
fragile 43 3 23 12 23 22 15 13 8
Oleandra
articulata 0 3 1 0 0 1 1 1 1
?Polybotrya
alfredii 28 19 16 7 24 20 15 8 3
?Grammitis
lehmanniana 15 6 17 7 10 16 11 6 2
Grammitis
semihirsutum 3 0 4 0 1 1 3 2 0

F10 0 1 5 4 1 2 3 3 1
Elaphoglossum
amygdalifolium 0 0 0 0 0 0 0 0 0
Elaphoglossum
erinaceum 0 0 2 2 0 2 1 1 0
Elaphoglossum
spec. 1 2 6 2 5 3 2 1 0
?Trichomanes
capillaceum 21 0 24 13 23 16 13 5 1
Trichomanes
polypoides 16 1 3 0 13 6 1 0 0
Trichomanes
reptans 0 7 4 1 5 3 2 1 1
Campyloneurum
repens 1 0 1 3 0 1 1 2 1
Campyloneurum
spec. 3 0 5 1 2 1 4 2 0
Polypodium
loriaceum 2 3 2 0 1 2 1 3 0

F20 0 0 3 0 1 1 0 1 0
Vittaria
minima 0 2 0 0 0 1 1 0 0
Elaphoglossum
ambigunia 0 0 1 0 0 0 1 0 0
Capı́tulo 5

Análisis de Correspondencias
Múltiples

El Análisis de Corespondencias Múltiples (ACM) se trata de una generalización del


Análisis Factorial de Correspondencias. En efecto, se dispone de una tabla de datos con
varias variablas cualitativas observadas sobre un conjunto de individuos. Es el caso por
ejemplo de las encuestas por cuestionario, en que cada pregunta define una variable cuyas
modalidades son las posibles respuestas.
El lector interesado en profundizar en este tema, puede consultar las excelentes obras
que hablan del tema con más profundidad, en particular, los libros de L. Lebart [114]
(en inglés) y [115] (en español), de B. Escofier & J. Pagès [61] y de M. Jambu [95] (en
francés).

Se quiere tener una representación en pocas dimensiones de las relaciones entre las mo-
dalidades de las distintas variables, de tal manera que se pierda el mı́nimo de información.
La solución se obtiene de diferentes maneras, una de ellas es tomando la tabla de datos
luego de hacer una codificación disyuntiva completa de todas las variables cualitativas y
aplicar un Análisis de Correspondencias, como si la tabla fuera una tabla de contingencia.
Los resultados son los mismos que se obtienen al aplicar al Análisis de Correspondencias
sobre la tabla de Burt asociada a los datos, cuyas filas son de hecho los baricentros de las
columnas de la tabla disyuntiva completa.
Las modalidades se representan por el centro de gravedad de los individuos que las
poseen. Los resultados del análisis se interpretan como los del Análisis de Corrresponden-
cias, salvo que hay que tomar en cuenta que en un Análisis de Corespondencias Múltiples
los valores propios presentan siempre un porcentaje bajo de la inercia total (por ejemplo,
si las variables cualitativas tienen en promedio 5 modalidades, el primer eje no podrá so-
brepasar 25 % de la inercia).

79
80 Análisis de Correspondencias Múltiples

5.1. Los principios básicos


Al tener una tabla de individuos × variables cualitativas, con n individuos y q variables,
la tabla se puede escribir de la siguiente forma:

Individuo Sexo ProfesiónCategorı́a ...


de salario
1 M Liberal Alto ...
2 F Empleado Medio ...
3 F Liberal Muy alto ...
4 M Obrero Bajo ...
.. .. .. .. ..
. . . . .

Esta tabla se puede desde luego codificar, de la manera usual, por ejemplo en:

Individuo Sexo Profesión Categorı́a ...


de salario
1 1 3 4 ...
2 2 2 3 ...
3 2 3 5 ...
4 1 1 2 ...
.. .. .. .. ..
. . . . .

Ahora bien, para el ACM es muy útil la codificación disyuntiva completa, en la


que cada categorı́a o modalidad tiene una columna y en la tabla se coloca un 0 o un
1 según que el individuo posea la categorı́a o no. Entonces, la tabla anterior tendrı́a el
siguiente aspecto:

Individuo Sexo Profesión Categorı́a de salario ...


M F Obr Emp Lib MB B M A MA ...
1 1 0 0 0 1 0 0 0 1 0 ...
2 0 1 0 1 0 0 0 1 0 0 ...
3 0 1 0 0 1 0 0 0 0 1 ...
4 1 0 1 0 0 0 1 0 0 0 ...
.. .. .. .. .. .. .. .. .. .. .. ...
. . . . . . . . . . .

A la matriz de datos codificados de la manera usual se la denota X y a la matriz


con el código disyuntivo completo se la denota Z. Finalmente, se puede también definir
5.1 Los principios básicos 81

una tabla de “contingencia generalizada” o tabla de Burt, denotada B, que contiene por
bloques las tablas de contingencia de cada pareja de variables cualitativas. Por ejemplo,
para el caso de las tablas anteriores, suponiendo que la tabla completa es el resultado
de una encuesta sobre 499 individuos, entonces la tabla de Burt puede tener el aspecto
siguiente:

Sexo Profesión Categorı́a de salario ...


M F Obr Emp Lib MB B M A MA . . .
M 240 0 160 44 36 ... ... ... ... ... ...
F 0 259 169 39 51
Obr 160 169 329 0 0
Emp 44 39 0 83 0
Lib 36 51 0 0 87
.. .. .. .. .. .. .. .. .. .. ..
MB . . . . . . . . . . .
.. .. .. .. .. .. .. .. .. .. ..
B . . . . . . . . . . .
.. .. .. .. .. .. .. .. .. .. ...
M . . . . . . . . . .
.. .. .. .. .. .. .. .. .. .. ..
A . . . . . . . . . . .
.. .. .. .. .. .. .. .. .. .. ..
MA . . . . . . . . . . .
.. ... ... .. .. .. .. .. .. .. .. ..
. . . . . . . . . .

Tanto la tabla con el código dusyuntivo completo Z como la tabla de Burt B tienen
una estructura particular. El Análisis de Correspondencias Múltiples consiste en hacer un
AFC de la tabla Z, considerando esa estructura particular.
A continuación presentaremos las principales caracterı́sticas que tiene el ACM.

Siendo la matriz Z una matriz de ceros y unos, se debe tomar en cuenta este hecho
para deducir la forma particular que tienen las nubes de puntos sobre las que se hará el
análisis. Recuérdese que un AFC es un ACP de una nube de perfiles-fila o de una nube
de perfiles-columna.
Se está entonces en presencia de n individuos y q variables cualitativas. Sea pk el
número de modalidades de la variable k-ésima y sea p el número total de modalidades:
q
X
p= pk
k=1

es el total de columnas de Z. La matriz Z tiene entradas zij que son 0 ó 1. Los márgenes
de Z son:
zi· = q: pues hay q unos en la fila i (sin datos faltantes)
z·j = número de individuos que tienen la modalidad j
82 Análisis de Correspondencias Múltiples

Ası́, la suma total de la tabla es:


XX
zij = nq
i j

Llamando D = diag(z·j ) la diagonal de los márgenes-columna, entonces al hacer el AFC


de Z la matriz a diagonalizar es:

1 1
S = Zt ZD−1 = BD−1
q q

5.2. Equivalencias
Supóngase por un momento que la tabla de datos X tiene solamente dos variables
cualitativas y que se hace la deducción anterior, calculando la matriz Z del código dis-
yuntivo completo y la matriz de Burt B. Es de esperarse que en este caso el ACM y el
AFC coincidan en sus resultados, para que el procedimiento indicado esté justificado.
La matriz Z puede verse como la concatenación de dos submatrices Z1 y Z2 , una por
cada variable. Entonces, la tabla de contingencia es el producto matricial K = Zt1 Z2 y
la tabla de Burt es B = Zt Z. Al hacer el ACP de cada una de las nubes definidas por
cada una de esas matrices, se obtiene que los valores propios de Z, denotados λZ , los
valores propios de B, denotados λB , y los valores propios del AFC directo, denotados λK ,
cumplen las siguientes igualdades:

λB = λ2Z λK = (2λz − 1).

Esto quiere decir que el AFC de cualquiera de las tres tablas se puede deducir del AFC
de cada una de las otras, mediante esta relación entre los valores propios. Por lo tanto,
los gráficos que se obtengan ser”an equivalentes.

5.3. El AFC de Z
Para formalizar el AFC de la tabla Z debemos definir todas las caracterı́sticas de las
nubes de puntos correspondientes.
La nube de perfiles-fila (relacionada con los individuos) está dada por:

Puntos (coordenadas):
zij zij
=
zi· q
por lo que la tabla de puntos es 1q Z.
5.3 El AFC de Z 83

Pesos:
zi· q 1
= =
nq nq n

Matriz de distancias o producto escalar:


nq
diag( )
z·j

Por lo tanto, la distancia de χ2 entre dos individuos es:


p
2 0 nX 1
d (i, i ) = (zij − zi0 j )2
q j=1 z·j

La nube de perfiles-columna (relacionada con las modalidades o categorı́as) está dada


por:

Puntos (coordenadas):
zij
z·j

Pesos:
z·j
nq

Matriz de distancias o producto escalar:


nq nq
diag( ) = diag( ) = diag(n)
zi· q

Por lo tanto, la distancia de χ2 entre dos modalidades es:


n  2
2 0
X zij zi0 j
d (j, j ) = n −
i=1
z·j z·j 0

Con base en lo anterior, podemos decir que:

Dos modalidades escigigas por los mismos individuos coinciden (tienen distancia 0).

Modalidades con poco efectivo o popularidad están alejadas del resto de modalida-
des.

Dos individuos son cercanos si escogen las mismas modalidades.


84 Análisis de Correspondencias Múltiples

Vayamos más en profundidad de las fórmulas anteriores de distancia. La distancia de


χ2 entre perfiles-fila se puede escribir como:
p
2 0 nX 1
d (i, i ) = (zij − zi0 j )2
q j=1 z·j
n X 1
=
q j∈M z·j
ii0

siendo Mii0 el conjunto de modalidades que tiene sólo un individuo de i ó i0 . Esto quiere
decir que dos individuos son más parecidos entre más modalidades tienen en común.

Por su parte, la distancia de χ2 entre perfiles-columna se puede escribir como:


n  2
2 0
X zij zi0 j
d (j, j ) = n −
i=1
z·j z·j 0
(#ind[j, no j 0 ]) + (#ind[j 0 , no j])
= n
z·j z·j 0
donde #ind[j, no j 0 ] es el número de individuos que poseen la modalidad j y no poseen
la modalidad j 0 . Esto significa que entre más objetos tengan solo una de j ó j 0 mayor es
la distancia entre esas modalidades.

Revisemos ahora los conceptos relacionados a la inercia. El centro de gravedad de la


nube de modalidades es G = ( n1 , . . . , n1 ). Entonces la distancia entre una modalidad j y el
centro de gravedad G es:
n  2
2
X zij 1
d (j, G) = n −
i=1
z·j n
n  
X zij 2zij 1
= n 2
− − 2
i=1
z·j nz ·j n
n
= −1
z·j
Lo anterior se interpreta como que la distancia es mayor (al centro de gravedad o punto
promedio) si el efectivo es pequeño.
La inercia de la modalidad j es:
z·j 2 z·j n 1 z·j
I(j) = d (j, G) = ( − 1) = (1 − )
nq nq z·j q n
lo cual significa que la inercia es mayor si el efectivo de j es pequeño.
La inercia de la variable k, considerando todas sus modalidades, es:
pk pk
X X 1 z·j 1
I(k) = I(j) = (1 − ) = (pk − 1)
j=1 j=1
q n q
5.4 Interpretación de resultados 85

Lo anterior se interpreta como que la inercia I(k) crece con el número de modalidades.
Véase que si pk = 2 entonces I(k) es mı́nimo y vale 1/q.
Finalmente, la inercia total está dada por:
q q
X X 1 1 p
I(N ) = I(k) = (pk − 1) = (p − q) = − 1,
k=1 k=1
q q q

la cual no tiene un significado estadı́stico particular.

La solución del ACM pasa entonces por la disgonalización (en Rp ) de la matriz


Z ZD−1 , obteniéndose valores y vectores propios.
1 t
q

5.4. Interpretación de resultados


Mencionamos a continuación algunos puntos importantes para la interpretación de los
resultados en el plano principal de un ACM:

Proximidad entre individuos en términos de parecido: dos individuos se parecen si


tienen casi las mismas modalidades.

Proximidad entre modalidades de variables diferentes en términos de asociación: son


cercanas puesto que globalmente están presentes en casi los mismos individuos.

Proximidad entre modalidades de una misma variable en términos de parecido: como


son excluyentes por construcción, si son cercanas es porque los individuos que las
poseen presentan caso el mismo comportamiento de las otras variables.

5.5. Ejemplo: Análisis de Conceptos Sociológicos en


la
Educación
El siguiente estudio de caso, analiza las actitudes de los estudiantes costarricenses de
secundaria de dos colegios –uno público y el otro privado– respecto a ciertos conceptos
sociológicos escogidos, tales como empresa privada–libertad , y democracia–ejército. Se
analizan las relaciones entre estas variables. La metodologı́a empleada es principalmente
Análisis de Correspondencias Múltiples y el Análisis Factorial de Correspondencias, con
apoyo de la Clasificación Jerárquica.
86 Análisis de Correspondencias Múltiples

5.5.1. El cuestionario
Se redactó un cuestionario con dos tipos de preguntas. Por un lado, lo que llamaremos
variables socioeconómicas, y por otro, la opinión de los estudiantes acerca de una serie de
aspectos relacionados con la libertad, la democracia, la paz, etc.
Pese a que el presente estudio tiene por objetivo el análisis de las relaciones entre
algunas variables de opinión, como se señala más abajo, para efectos del tratamiento
previo al análisis multivariado (sección 2) se tomaron en cuenta también algunas variables
socioeconómicas. Ellas son:

sexo: sexo del estudiante.

cole: tipo de colegio.

ingr : ingreso familiar.

reli: religión del estudiante.

poli : partido polı́tico por el que simpatiza.

edpa: grado de educación del padre.

edma: grado de educación de la madre.

En cuanto al fenómeno de la opinión, cada tema tiene asociadas cinco preguntas:


una principal, dos caracterı́sticas y dos de control. De los doce temas del cuestionario
escogimos dos: libertad y democracia. En primer lugar se estudian las relaciones entre
libertad y empresa privada. Para ello se analizaron las siguientes preguntas:

var1 : la empresa privada es necesaria para que exista libertad.

var2 : se puede entrar en un sindicato sin ser perseguido o despedido.

var3: si se trabaja en la empresa privada no hay tiempo para ocuparse de sus propias
cosas.

var4 : los trabajadores deben respetar las órdenes de su patrono sin criticarlas.

var5 : mi padre debe dedicarle más tiempo a la empresa o institución donde trabaja.

Y para analizar las relaciones entre democracia y ejército:

var6 : un paı́s democrático no necesita ejército.

var7 : un paı́s con ejército es un paı́s totalitario.


5.5 Ejemplo: Análisis de Conceptos Sociológicos en la Educación 87

var8 : es necesario que Costa Rica tenga ejército para defenderse de amenazas ex-
ternas.
var9 : la existencia de un ejército en Costa Rica podrı́a llevar a una dictadura militar
en corto plazo.
var10 : Estados Unidos no es un paı́s democrático porque tiene ejército.

Cada una de estas preguntas tiene cinco modalidades de respuesta:

fde: fuertemente en desacuerdo.


des: en desacuerdo.
ind : indeciso.
dac: de acuerdo.
fac: fuertemente de acuerdo.

El cuestionario fue pasado en dos colegios del área metropolitana, uno público y otro
privado. Se entrevistaron un total de 232 estudiantes de cuarto y quinto año, durante el
primer semestre de 1987.

5.5.2. Tratamiento previo de los datos


Entre las variables socioeconómicas, las preguntas relativas al ingreso familiar (ingr )
y al partido polı́tico de sus simpatı́as (poli ) fueron las que presentaron el mayor número
de respuestas faltantes.
Partiendo de la hipótesis que la no respuesta refleja principalmente la actitud estudian-
til, más o menos consciente, de no dar la información, hemos conservado la no respuesta
como una modalidad de las variables ingr y poli . Sin embargo cabe observar que en el caso
del ingreso familiar (ingr ), la no respuesta podrı́a obedecer además a que los estudiantes
estiman que no tienen una información precisa acerca del ingreso familiar.
Para los otros casos se recurre a una asignación al azar de las no respuestas, entre
el resto de las modalidades (Morineau, [2]). Las variables involucradas y las asignacio-
nes realizadas son: edpa, 12 asignaciones; edma, 3 asignaciones; var3 , var5 y var7 , una
asignación cada una.
Finalmente las modalidades con muy poco efectivo fueron reunidas con otras. En
todo caso se fusionaron modalidades similares o cercanas, obteniéndose los resultados
siguientes:

edpa: ninguna educación y educación primaria (1+33).


88 Análisis de Correspondencias Múltiples

poli : partido Vanguardia Popular, partido del Pueblo Costarricense y otros (3+1+5).

var6 : des6 y fde6 (31+9).

var2 : dac2 y fac2 (19+5).

var3 : fde3 y des3 (1+9).

var4 : fde4 y des4 (7+51).

var5 : fde5 y des5 (12+29).

var9 : des9 y fde9 (9+25).

De esta manera, las tablas de frecuencias para las variables socioeconómicas y las
variables de opinión se presentan en las Tablas 1 y 2 respectivamente.

5.5.3. Análisis de las relaciones entre las variables de opinión


Primero se hizo un análisis global sobre las diez variables de opinión que abarcan
los temas empresa privada-libertad y democracia-ejército. La metodologı́a utilizada es el
Análisis de Correspondencias Múltiples (ACM), que nos permite obtener representacio-
nes planas de las distintas modalidades de las variables (ver Figura 1). Las relaciones
encontradas como resultado de este primer análisis son corroboradas mediante el Análi-
sis de Correspondencias Simples (sólo se analizan simultáneamente dos variables) y la
Clasificación Ascendente Jerárquica.

ACM de las 10 variables de opinión

En la Figura 1 se muestra el plano principal del ACM de las variables var1 a var10 ,
con un 25 % de inercia explicada. En él sobresalen los hechos siguientes:

Se muestra una relación directa entre las variables 4 y 5, excepto por la modalidad
“indecisos”. Es decir, la opinión de los entrevistados respecto de la proposición “los
trabajadores deben respetar las órdenes de los patronos” (var4 ), es básicamente la
misma que tienen respecto de “mi padre debe dedicarle más tiempo a la empresa”
(var5 ), excepto por los indecisos. Dicha relación se indica en la Figura 1 por medio
de trayectorias siguiendo el orden de las modalidades de una misma variable.

Sobre este plano también se observa que la opinión favorable (fac1 ) respecto de la
proposición “la empresa privada es necesaria para que exista libertad”, está asociada
con una opinión desfavorable (des6 ) respecto de la proposición “un paı́s democrático
no necesita ejército”.
5.5 Ejemplo: Análisis de Conceptos Sociológicos en la Educación 89

Variable Modalidades código frec. %


Tipo de público publ 124 53
colegio privado priv 108 47
Sexo masculino masc 101 44
femenino feme 131 56
Nivel de I<7 I1 24 10
ingreso 7 ≤ I < 14 I2 44 19
de la 14 ≤ I < 21 I3 35 15
familia 21 ≤ I < 28 I4 30 13
(en miles 28 ≤ I < 35 I5 34 15
de 35 ≤ I I6 47 20
colones) no responde I7 18 8
Grado de primaria incompleta P1 35 15
educación primaria completa P2 30 13
del padre secundaria incompleta P3 34 15
secundaria completa P4 35 16
universit. incompleta P5 29 12
universit. completa P6 68 29
Grado de primaria incompleta M1 37 16
educación primaria completa M2 41 18
de la madre secundaria incompleta M3 43 18
secundaria completa M4 41 17
universit. incompleta M5 18 8
universit. completa M6 52 23
Religión católica cato 127 55
evangélica evan 75 32
no creyente nocr 8 3
otra otra 22 10
Partido PUSC pusc 82 35
polı́tico PLN pln 129 56
otro otro 8 4
no responde nore 12 5

Cuadro 5.1: Frecuencias para las variables socioeconómicas.


90 Análisis de Correspondencias Múltiples

Cód. Variable Mod. frec. %


var1 La empresa privada es fde1 60 26
necesaria para que des1 74 32
exista libertad ind1 39 17
dac1 32 14
fac1 27 11
var2 Se puede entrar en un fde2 60 26
sindicato sin ser des2 119 51
perseguido o ind2 29 13
despedido dac2 24 10
var3 Si se trabaja en la des3 10 4
empresa privada no hay ind3 36 16
tiempo para ocuparse dac3 145 62
de sus propias cosas fac3 41 18
var4 Los trabajadores deben des4 58 25
respetar las órdenes ind4 22 9
de su patrono sin dac4 123 53
criticarlas fac4 29 13
var5 Mi padre debe dedicarle des5 32 18
más tiempo a la ind5 93 40
empresa o institución dac5 60 26
donde trabaja fac5 37 16
var6 Un paı́s des6 40 17
democrático no ind6 24 11
necesita ejército dac6 56 24
fac6 112 48
var7 Un paı́s con fde7 19 8
ejército es un paı́s des7 45 19
totalitario ind7 106 46
dac7 44 19
fac7 18 8
var8 Es necesario que Costa fde8 15 6
Rica tenga ejército des8 23 10
para defenderse de ind8 36 16
amenazas externas dac8 41 18
fac8 117 50
var9 La existencia de un des9 97 41
ejército en Costa ind9 67 29
Rica podrı́a llevar dac9 34 15
a una dictadura. . . fac9 34 15
var10 Estados Unidos no es un fde0 23 10
paı́s democático des0 41 18
porque tiene ind0 118 51
ejército dac0 50 21

Cuadro 5.2: Frecuencias de las variables de opinión.


5.5 Ejemplo: Análisis de Conceptos Sociológicos en la Educación 91

ind6
Eje 2 6 •
ind9
des5 • • • ind2
• • des4
dac1
• ind0
dac7 •
• dac9 dac2 •
ind5 ind9 • • des8 • dac8
des1
• • • dac0
des0 des3 • • ind4
• des2 des7 • • ind8 -
fac9 •
dac4 • ••fde8 • dac3 fac6 •
Eje 1
• fde7
• ind1 •
• • ind7 fac7 •
fde1
• • des6
dac6 dac5
fde2 • fac1 •
fde0 • fac9 •
des9 •
fac5 • fac8

fac4 •

Figura 5.1: ACM de las diez variables de opinión: plano principal (25 % de inercia).

El plano definido por los ejes 1 y 3 no fue reportado en este trabajo. Sin embargo este
plano, con 23 % de inercia explicada, confirma la fuerte relación entre var1 y var6 , que
corresponde a dos tipos de preguntas diferentes. La correspondencia entre modalidades
es: fac1 –des6 , dac1 –ind6 , ind1 –dac6 , fde1 –fac6 . Se observa además una trayectoria or-
denada de acuerdo a las modalidades. Sin embargo, no se confirma la relación entre las
variables 8 y 9. Sólo se observa una cercanı́a entre fac9 y fde8 . La modalidad dac8 parece
estar mal ubicada, tanto aquı́ como en el plano principal.

ACM de las preguntas “empresa privada–libertad”

Al realizar el ACM entre las modalidades de las variables 1 a 5 se obtiene como plano
principal el mostrado en la Figura 2. En ésta se ve claramente la fuerte relación directa
que hay entre var4 y var5 , observándose también la trayectoria ordenada de la que antes
hablábamos. En el plano generado por el primer y tercer ejes principales se confirma
esta relación (sin observar la trayectoria), y como aquı́, no se ve ninguna otra relación
importante.

ACM de las preguntas “democracia–ejército”

Al hacer el análisis entre las variables var6 a var10 , se confirma el agrupamiento de


algunas modalidades de var8 y var9 , pero en cierto desorden, y no es sino en el gráfico
que cruza los ejes principales 1 y 3 en que se puede ver una cierta trayectoria, con dac8
92 Análisis de Correspondencias Múltiples

fac4 •
Eje 2 6

fac5

fac3 •
dac5
• fde2
• •
dac4 • •
ind1
• des2 • fac1
des3 fde1

dac3 •
-
• Eje 1
des1 •
ind5 dac1 • • dac2
• ind4
• ind3
ind2 • • des4
• des5

Figura 5.2: ACM de los temas “empresa privada–libertad”: plano principal (49 % de inercia
explicada).

mejor ubicado para que ésta tenga un sentido, como se ilustra en la Figura 3.

5.5.4. Confirmación de resultados comparando


con otros métodos
Quisimos confirmar los resultados apuntados arriba mediante la Clasificación Automáti-
ca y el Análisis de Correspondencias.
Para el primer método, por tratarse de variables cualitativas, medimos su asociación
mediante el coeficiente T de Chuprov:
χ2
T (a, b) = ,
(p − 1)(q − 1)
donde p y q son la cantidad de modalidades de cada variable, y χ2 el chi-cuadrado de
contingencia. Empleamos la agregación del promedio de las distancias:
XX d(a, b)
δ(A, B) = ,
a∈A b∈B
card (A) card (B)

donde d(a, b) = 1 − T (a, b).


Aplicando el algoritmo de clasificación jerárquica ascendente [1], se obtiene el árbol
de clasificación mostrado en la Figura 4. Véase que se confirma la fuerte relación entre
5.5 Ejemplo: Análisis de Conceptos Sociológicos en la Educación 93

• ind9
Eje 2 6
• ind8
dac8

fac8 •
des9 •
-
fac9
• Eje 1
• fde8 dac9

• des8

Figura 5.3: Trayectoria seguida por las modalidades de var8 y var9 en el plano generado
por los ejes 1 y 3 (43 % de inercia).

var1 y var6 (ı́ndice de agregación igual a 0.48) por un lado, y entre var4 y var5 (ı́ndice
de agregación igual a 0.49) por el otro. Sigue la agregación entre var8 y var9 con ı́ndice
de agregación igual a 0.85, y el resto se encuentra por encima del valor 0.92. Con los
ı́ndices de agregación del ligamen simple y del ligamen máximo se obtuvieron resultados
similares.
q var1
q var6
q var10
q var3
q var7
q var4
q var5
q var2
q var8
q var9
 Escala de disimilitud
1 0.9 0.5 0

Figura 5.4: Arbol de clasificación para las variables de opinión.

Por otro lado, analizamos la homogeneidad de las respuestas dadas a estas preguntas,
mediante las formas fuertes [1]. Como cada pregunta determina una partición de los
estudiantes entrevistados, se pueden analizar las formas fuertes entre dos preguntas.
Para las variables 4 y 5, con 4 modalidades cada una, se obtienen 8 formas fuertes,
de las cuales cuatro son mayoritarias con 60, 54, 41 y 29 estudiantes respectivamente, lo
cual da una buena clasificación del 79 % de los estudiantes.
94 Análisis de Correspondencias Múltiples

Para las variables 1 y 6, con 5 y 4 modalidades respectivamente, también se obtie-


nen 8 formas fuertes, de las cuales 4 son mayoritarias con efectivos de 60, 52, 34 y 27
estudiantes, lo cual resulta en una distribución coherente para el 75 % de los estudiantes.
Lo anterior permite concluir que hay grupos bastante grandes con tendencias de opi-
nión respecto a estas preguntas.
Por su parte, el estudio de las formas fuertes para las variables 8 y 9 no permite sacar
ninguna información, pues hay 20 formas fuertes, de las que una sola, (fac8 ∩ des9 , con
82 elementos: el 35 % de la población) es suficientemente grande.
Al formar la tabla de contingencia entre las modalidades de las variables retenidas,
esto es, var1 –var6 , var4 –var5 , var8 –var9 , se puede hacer el análisis de correspondencias
sobre cada tabla. Ası́, pudimos confirmar las fuertes relaciones siguientes sobre el primer
plano principal:

var1 y var6 var4 y var5 var8 y var9


fac1–des6 des4–des5 fac9–fde8
dac1–ind6 ind4–ind5 dac9–des8
ind1–dac6 dac4–dac5 ind9–ind8–dac8
des1–fde1–fac6 fac4–fac5 des9–fac8

5.5.5. Conclusiones
Las principales conclusiones a las que llegamos son las siguientes:

1. La relación directa entre “los trabajadores deben respetar las órdenes de su patrono
sin criticarlas” (var4 ) y “mi padre debe dedicarle más tiempo a la empresa o insti-
tución donde trabaja” (var5 ) denota una fuerte concordancia sumisión-explotación.

2. La relación inversa entre “la empresa privada es necesaria para que exista libertad”
(var1 ) y “un paı́s democrático no necesita ejército” (var6 ) concuerda con la fuerte
propaganda que salı́a en la prensa en la época anterior en que se pasó la encuesta,
que hacı́a énfasis en que la empresa privada produce libertad, y que insistı́a a la vez
en que Costa Rica debı́a armarse para preservar su democracia. Aquı́ se muestra
la gran permeabilidad de los estudiantes de secundaria a la propaganda masiva e
ideológica.

3. La relación inversa entre “Costa Rica necesita ejército para defenderse de amenazas
externas” (var8 ) y “un ejército en Costa Rica podrı́a llevar a una dictadura militar
a corto plazo” (var9 ) parece muy lógica: quienes quieren la implantación de un
ejército en Costa Rica hacen creer que en nuestro paı́s no se correrı́a el riesgo de
una dictadura militar.
5.5 Ejemplo: Análisis de Conceptos Sociológicos en la Educación 95

4. La ausencia de otras relaciones entre las otras preguntas puede ser debida a la falta
de consistencia en la opinión de los estudiantes de educación media.

5. Respecto de la metodologı́a estadı́stica empleada, que dicho sea de paso tiene un


carácter descriptivo por excelencia, cabe mencionar la importancia de los gráficos
obtenidos a partir del ACM, en la medida que nos permitieron explorar, no sólo las
asociaciones entre variables, sino también su carácter (directo o inverso), propiedad
que no es posible observar mediante el clásico chi-cuadrado.
96 Análisis de Correspondencias Múltiples
Capı́tulo 6

Escalamiento Multidimensional

Bajo el nombre de Escalamiento Multidimensional1 se agrupa una serie de técnicas


de análisis de datos que consisten en, dada una tabla de dismilitudes o similitudes entre
un conjunto de objetos, encontrar un espacio de dimensión pequeña tal que sus puntos
representen a esos objetos, de manera que las distancias Euclı́deas observadas en el espacio
se ajusten lo mejor posible a las disimilitudes observas. Esta búsqueda el espacio se hace
con el fin de tener un gráfico legible que permita “ver” lo que sucede en la tabla de
disimilitudes dada.
El nombre de Escalamiento Multidimensional se ha impuesto a otros nombres también
usados por distintos autores, como Análisis de Proximidades, Análisis de Coordenadas
Principales, Análisis de Estructuras de Similitud.
A continuación presentamos los principales métodos de Escalamiento Multidimensio-
nal. Iniciamos con el llamado Escalamiento Clásico, usado cuando las disimilitudes dadas
son distancias Euclı́deas (sección 6.1). Enseguida abordamos el problema de la minimiza-
ción de un criterio de mı́nimos cuadrados, presentando varios enfoques en el caso métrico
(sección 6.2). Luego hacemos una breve descripción del MDS no métrico (sección 6.3), y
terminamos con dos extensiones: el análisis de tablas múltiples (sección 6.4) y el análisis
de datos de preferencia (sección 6.5).
El escalamiento clásico es considerado como un tipo especial de escalamiento métrico.
En ambos casos, dada una matriz de disimilitudes
∆ = (δij )n×n
se quiere encontrar una configuración definida por n vectores
x1 , . . . , xn ∈ Rp
tales que las distancias Euclı́deas medidas en Rp
dij = kxi − xj k
1
Multidimensional Scaling en inglés, abreviado generalmente MDS.

97
98 Escalamiento Multidimensional

aproximen lo mejor posible a las disimilitudes observadas δij .


Luego presentamos las principales técnicas de MDS métrico, como el método de Krus-
kal, Smacof, Alscal y el uso de heurı́sticas de optimización. También mencionamos el caso
de restricciones en la configuración. Luego vemos brevemente la extensión al caso de datos
de preferencia y al caso de tablas múltiples, con el modelo Indscal.

Eventualmente, se puede considerar que la aproximación sea a una función ϕ(δij de las
disimilitudes, donde ϕ es una función continua y creciente. El espacio de representación
Rp es generalmente R2 ó R3 ; ahora bien, este espacio de representación podrı́a ser otro
tipo de espacio como por ejemplo una esfera (en el caso en que se quiera representar
objetos sobre la Tierra, y se considere conveniente tomar en cuenta la esfericidad de la
misma).

6.1. Escalamiento clásico


Si las disimilitudes de entrada son distancias Euclı́deas, entonces existe un método
de Escalamiento Multidimensional, llamado Escalamiento Clásico o en algunas ocasiones
Análisis Factorial sobre Tabla de Distancias, que encuentra una solución exacta en Rp .
Dadas las disimilitudes δij , se busca una configuración x1 , . . . , xn en Rp tal que δij =
d(xi , xj ), donde d es la distancia Euclı́dea en Rp :

d2 (xi , xj ) = d2ij = kxi − xj k2 = (xi − xj )t (xi − xj ).

Es decir, se busca una solución en el espacio de donde provienen las distancias observadas.
En Rp , la matriz B del producto interno usual se puede escribir como

[B]ij = bij = xti xj .

El procedimiento que se describe a continuación consiste en encontrar la matriz B


mediante la forma de Torgerson, y a partir de B se encuentran los vectores xi .

6.1.1. La forma de Torgerson


La llamada forma de Torgerson permite escribir la matriz de productos internos B
a partir de las distancias dij . Con el fin de evitar indeterminaciones, se supone que los
vectores xi están centrados, es decir, que para todo k = 1, . . . , p se tiene:
n
X
xik = 0.
i=1
6.1 Escalamiento clásico 99

Las distancias al cuadrado se pueden escribir como:

d2ij = (xi − xj )t (xi − xj )


= xti xi + xtj xj − 2xti xj

Sumando sobre i y sobre j se obtiene:


n n
1X 2 1X t
dij = x xi + xtj xj
n i=1 n i=1 i
n n
1X 2 1X t
dij = xti xi + x xj
n j=1 n j=1 j
n n n
1 XX 2 2X t
d = x xi
n2 i=1 j=1 ij n i=1 i

Pn Pn Pp Pp Pn
ya que i=1 xti xj = i=1 k=1 xik xjk = k=1 i=1 xik xjk = 0.
Como
d2ij = (xi − xj )t (xi − xj )
entonces

bij = xti xj
1
= − (d2ij − xti xi − xtj xj )
2
n n n n
1 2 1X 2 1X 2 1 XX 2
= − (dij − d − d + d )
2 n r=1 rj n s=1 is n2 r=1 s=1 rs

Escribiendo
1
aij = − d2ij
2
1X
ai· = aij
n j
1X
a·j = aij
n i
1 XX
a·· = aij
n2 i j

entonces se obtiene
bij = aij − ai· − a·j + a··
100 Escalamiento Multidimensional

6.1.2. Determinación de las coordenadas


Si X = (x1 , x2 , . . . , xn ) es la matriz n×p de coordenadas buscadas, entonces B = XXt .
El rango de B es el mismo que el rango de X, es decir p, ya que los rangos de X y XXt
son el mismo.
Ahora bien, como B es una matriz simétrica, semidefinida positiva re rango p, entonces
posee p calores propios positivos y n − p valores propios nulos. Es decir, se puede escribir

B = VΛV

donde Λ es la matriz diagonal con los valores propios no nulos en la diagonal y escritos en
forma decreciente, y V es la matriz con los vectores propios normalizados correspondientes
en las columnas. Por lo tanto, se tiene

B = VΛ1/2 Λ1/2 Vt

donde Λ es la matriz diagonal con las raı́ces cuadradas de los valores propios, de donde
se obtiene
B = VΛ1/2 .

Recuérdese que si v es un vector propio asociado al valor propio λ, dada una matriz,
entonces −v también es vector propio asociado a λ. Por lo tanto, las soluciones de un
MDS clásico son únicas salvo por reflexión sobre un eje de coordenadas.

6.1.3. Relación con el Análisis en Componentes Principales


Supóngase que X es una matriz n × p de datos numéricos (centrados). Si se calculan
las distancias Euclı́deas entre las filas de X para obtener un conjunto de n × n distancias
dij , entonces se podrı́a aplicar el MDS clásico con el fin de reconstruir las coordenadas
de los puntos. Veremos que el procedimiento es equivalente a realizar un Análisis en
Componentes Principales (A.C.P.) de los datos X, ya que existe una estrecha relación
entre los valores y vectores propios de ambos análisis.
En el A.C.P. de X, se calcula la matriz de varianzas-covarianzas V = n1 Xt X (ó n−1 1
Xt X
si se considera el estimador insesgado de la matriz de varianzas-covarianzas), y al diago-
nalizarla se obtienen los valores propios µ1 , . . . , µp y los vectores propios u1 , . . . , up de V,
definiéndose las componentes principales Ck = xt uk .
Por su parte, el MDS clásico considera las distancias Euclı́deas dij y diagonaliza la
matriz B = XXt (usando la forma de Torgerson), obteniendo los valores propios λ1 , . . . , λn
y los vectores propios v1 , . . . , vp de B.
Se tiene entonces que
XXt vk = λk vk
6.1 Escalamiento clásico 101

por lo que al premultiplicar por Xt se obtiene

(Xt X)Xt vk = λk (Xt vk .

Como
Xt Xuk = nµk uk
y siendo únicos los valores propios de Xt X, entonces se tiene λk = nµk y uk = ±X t vk .
Si bien es cierto que, en presencia de una tabla de datos numéricos, algunos autores
realizan un MDS clásico calculando primero las distancias entre los objetos, es más razo-
nable realizar directamente un A.C.P. ya que como hemos visto que se obtendrá el mismo
plano principal. Además, con el A.C.P. se obtiene también como resultado el cı́rculo de
correlaciones, el cual es esencial para una correcta interpretación de los resultados. Ahora
bien, el gráfico del cı́rculo de correlaciones también se puede hacer con MDS considerando
a las correlaciones como medidas de proximidad y haciendo una transformación adecuada,
pero no se tratarı́a del MDS clásico sino de alguno de los métodos que se presentan más
adelante.

6.1.4. Uso del MDS clásico


El MDS clásico da una solución exacta cuando las disimilitudes de entrada son distan-
cias Euclı́deas en un espacio Rp y se quiere hacer la representación en ese mismo espacio.
Ahora bien, difı́cilmente se cumplen las dos condiciones.
Con base en una tabla de disimilitudes, se puede desear aplicar el MDS clásico sin tener
la certeza de que las disimilitudes sean distancias Euclı́deas. En tal caso, B puede tener
rango inferior a p y además puede que no sea semidefinida positiva. Como consecuencia,
la diagonalización de B producirá algunos valores propios negativos.
En la práctica, el MDS clásico es conocido como Análisis en Coordenadas Principales
[81] y se usa para representar a los objetos en un espacio de poca dimensión, por ejemplo
de dimensión q = 2 ó q = 3. De manera análoga al A.C.P., se puede medir la calidad de
la representación por
q
X
λi
i=1
n−1
X
|λi |
i=1

tomándose valor absoluto en los valores propios ya que algunos de ellos pueden ser nega-
tivos, aunque algunos autores sigieren considerar en la suma del denominador únicamente
a los valores propios positivos.
Los valores propios negativos surgen cuando B no es semidefinida positiva. Se sabe
que teóricamente existe una constante c tal que las disimilitudes se pueden transformar
102 Escalamiento Multidimensional

por δij + c si i 6= j dejando δii inalteradas, pero es difı́cil determinar ese valor de c. Para
mayor información sobre este pun to, se puede consultar [51].

6.1.5. Algoritmo de MDS clásico


Con base en lo expuesto anteriormente, se formaliza el algoritmo de Escalamiento
Multidimensional Clásico, también conocido como Análisis en Coordendas Principales.

Algoritmo Escalamiento Multidimensional Clásico


Entrada: Matriz de disimilitudes [δij ]n×n
1. Encontrar A = [− 12 ]δij2
2. Definir B = [bij ] por bij = [aij − ai· − a·j + a·· ]
3. Diagonalizar B obteniendo λ1 , . . . , λn−1 y v1 , . . . , vn−1 (normalizados).
Si algunos λi son negativos entonces ignórelos, úselos con valor absoluto, o sume
c:
δij := δij + c(1 − δijKR ) (donde δijKR denota el delta de Kronecker)
Pp Pn−1
4. Escoja el número p de dimensiones (puede √ usar como criterio λ i / λi )
p
5. Escriba las coordenadas en R : xik = λk vki

6.2. Escalamiento métrico


El escalamiento multidimensional métrico trata de obtener una representación de los n
puntos en un espacio de pocas dimensiones Rp , de manera que las distancias Euclı́deas que
se observen en el espacio de proyección Rp sean lo más parecidas posibles a disimilitudes
que se poseen δij .

6.2.1. El criterio de Stress


Por lo general, para el MDS métrico se usa un criterio de mı́nimos cuadrados, llamado
stress. Ası́, se buscará una configuracón X de los n puntos en Rp , mediante la minimización
del stress:
n Xj−1
X
σ(X) = wij [δij − dij (X)]2
j=1 i=1

donde los wij son pesos asociados a la disimilitud δij (eventualmente, estos pesos pueden
ser útiles para el manejo de datos faltantes) y los dij (X) son las distancias Euclı́deas entre
los puntos i, j en el espacio de representación Rp , cuyas coordenadas están en la matriz
X. Se define el stress normalizado como:
j−1
n X
X
σ(X)/ wij δij2
j=1 i=1
6.2 Escalamiento métrico 103

y el stress explicado como:


Eσ = (1 − σ(X)/ηδ2 ) × 100,
que serı́a un valor a maximizar.
Originalmente, se Kruskal propuso un método basado en el descenso del gradiente,
el cual puede encontrar un óptimo local de σ(X). Por esto último, diversos autores han
estudiado el problema de la óptimización global del stress. Despés de presentar el método
de Kruskal, presentaremos algunos de estos enfoques más modernos que usan técnicas de
optimización más sofisticadas.

6.2.2. Método de Kruskal


El primer método para realizar el MDS métrico y minimizando el stress, fue propuesto
por Kruskal en 1964 y se basa en la técnica de optimización llamada descenso del gradiente.
El algoritmo de Kruskal es iterativo, partiendo de una configuración inicial que puede
ser dada al azar, o bien calculada usando la aproximación que se obtenga con MDS
clásico, o bien usando el conocimiento del experto que quiere analizar los datos. Si X0 es
la configuración inicial, entonces se hacen iteraciones de manera que en la iteración t + 1
se calcular Xt+1 a partir de Xt de la siguiente manera:
Xt+1 = Xt + αt dt ,
donde dt es la dirección del descenso y αt el factor del descenso. Por la teorı́a del descenso
del gradiente, es sabido que la matriz dt tiene por i-ésima fila:
∂σ ∂σ
(dt )i = (− ,...,− )
∂xi1 ∂xip
y αt se toma de manera que se minimice σ(Xt + αt dt ) como función de αt .
Existen muchas variantes al método, pudiéndose usar una técnica de aceleración de
la convergencia, el m”etodo de Newton o el gradiente conjugado. Sin embargo, el método
siempre adolece del problema de que converge a un óptimo local del stress.

Ejemplo

En [107] se cita el siguiente ejemplo. Se dispone de una tabla 12 × 12 de proximidades


entre 12 paı́ses, mostrada en la tabla 6.1. En una escala de 1 a 9, un grupo de 18 estudiantes
debe indicar la proximidad que percibe entre cada pareja de paı́ses siemdo 9 la máxima
similitud. La tabla de datos relfeja los promedios de las similitudes que percibieron esos
18 estudiantes.
Al aplicar el método de Kruskal de MDS métrico, se obtienen las siguientes coordena-
das para los 12 paı́ses:
104 Escalamiento Multidimensional

Bra Con Cub Egi Fra Ind Isr Jap Chi Rus USA Yug
Brasil 0 4.83 5.28 3.44 4.72 4.50 3.83 3.50 2.39 3.06 5.39 3.17
Congo 4.83 0 4.56 5.00 4.00 4.83 3.33 3.39 4.00 3.39 2.39 3.50
Cuba 5.28 4.56 0 5.17 4.11 4.00 3.61 2.94 5.50 5.44 3.17 5.11
Egipto 3.44 5.00 5.17 0 4.78 5.83 4.67 3.83 4.39 4.39 3.33 4.28
Francia 4.72 4.00 4.11 4.78 0 3.44 4.00 4.22 3.67 5.06 5.94 4.72
India 4.50 4.83 4.00 5.83 3.44 0 4.11 4.50 4.11 4.50 4.28 4.00
Israel 3.83 3.33 3.61 4.67 4.00 4.11 0 4.83 3.00 4.17 5.94 4.44
Japón 3.50 3.39 2.94 3.83 4.22 4.50 4.83 0 4.17 4.61 6.06 4.28
China 2.39 4.00 5.50 4.39 3.67 4.11 3 4.17 0 5.72 2.56 5.06
Rusia 3.06 3.39 5.44 4.39 5.06 4.5 4.17 4.61 5.72 0 5.00 6.67
USA 5.39 2.39 3.17 3.33 5.94 4.28 5.94 6.06 2.56 5.00 0 3.56
Yugoslavia 3.17 3.50 5.11 4.28 4.72 4.00 4.44 4.28 5.06 6.67 3.56 0

Cuadro 6.1: Proximidades entre 12 paı́ses.

Bra Con Cub Egi Fra Ind Isr Jap Chi Rus USA Yug
Coord 1 0.15 −1,15 −0,90 −0,60 0.36 −0,33 0.96 1.04 −0,76 0.12 1.14 −0,03
Coord 2 1.22 0.71 −0,29 0.29 0.02 0.64 0.40 −0,39 −0,96 −0,85 0.12 −0,90

El gráfico se muestra en la figura 6.1.


Estos resultados se interpretan de la siguiente forma: hay dos ejes que explican el
comportamiento de la percepción de los estudiantes, ejes que forman una bisectriz con
los ejes de coordenadas. Un primer eje irı́a de la esquina inferior izquierda del plano a
la esquina superior derecha y se interpreta como un eje pro-comunista/pro-occidental. El
otro eje va de la esquina inferior derecha del plano a la esquina superior izquierda y se
interpreta como desarrollo/subdesarrollo.

6.2.3. ALSCAL
Takane, Young y De Leeuw porpusieron en 1977 un método para MDS que se ha
convertido en muy popular, denominado ALSCAL2 , y que trata de minimizar el SStress
definido por: XX
SS = wij (dˆ2ij − d2ij (X))2
i j

, donde dˆ2ij son alguna transformacón monotóna de las disimilitudes de entrada δij2 . Puede
verse que el SStress es el stress de las disimilitudes al cuadrado, una vez transformadas.
ALSCAL tiene dos fases:
2
Mnemónico de Alternating Least Squares SCAling.
6.2 Escalamiento métrico 105
Eje 2 Brasil
6 •

Congo
• India

Israel

Egipto


Francia U.S.A.
 • - Eje 1

Cuba
• Japón

Rusia
Yugoslavia •
China •

?
Figura 6.1: Representación de la percepción de similitudes entre 12 paı́ses por parte de
un grupo de 18 estudiantes, usando el método de Kruskal para MDS métrico.

1. Fase de escalamiento óptimo: hallar D̂ para X, W fijos por medio de mı́nimos cua-
drados (regresión lineal): dˆ = Z(Zt Z)−1 Zt , donde Z contiene los cuadrados d2ij . La
solución obtenida se normaliza.

2. Fase de estimación: fijando D̂, se encuentran estimadores para W y X.

Para conocer más detalles sobre ALSCAL se puede consultar [51].

6.2.4. MDS y optimización

En vista de que el MDS encuentra óptimos locales de la función de stress, muchos


autores se han abocado a la tarea de tratar de mejorar los resultados que se obtienen
con el método de Kruskal usando técnicas de optimización modernas, que tengan mejores
rendimientos que el descenso del gradiente. Ası́, De Leeuw y otros investigadores de la
escuela holandesa han propuesto el método Smacof, que se basa en el uso de una función
de mayorización. Para un estudio comparativo entre distintos métodos de optimización
combinatoria aplicados a Escalamiento Multidimensional, puede consultarse [83].
106 Escalamiento Multidimensional

6.2.5. Restricciones en la configuración


El Escalamiento Multidimensional con restricciones en la configuración (Multidimen-
sional Scaling with Restrictions on the configuration o MDSR) tiene como objetivo mi-
nimizar el Stress sujeto a restricciones sobre la matriz de configuración. De Leeuw y
Heiser (1980) proponen un algoritmo para calcular el mı́nimo del Stress con restricciones
en la configuración. Nuestro objetivo es mostrar un procedimiento alternativo utilizando
Sobrecalentamiento Simulado, en el caso que las restricciones sean lineales.
Utilizando los datos “Expresiones Faciales” presentadas por Borg & Groenen (1987)
calculamos, con ambos algoritmos, el stress y la configuración correspondiente. Posterior-
mente repetimos los cálculos en un juego de 20 datos obtenidos de modificaciones de los
anteriores. En todos los casos obtuvimos, con ambos algoritmos, el mismo Stress e idénti-
cas configuraciones (salvo rotaciones). Además con los datos sobre “Esfuerzos Bacteriales”
de Mathar (1989) obtuvimos una diferencia del 10 %, a favor del sobrecalentamiento si-
mulado.

El MDSR, en el caso de restricciones lineales tiene como objetivo minimizar la función:


n
X
σ(X) = wij (δij − dij (X))2 con X = Y C (6.1)
i<j

donde Y es una matriz de n × q dada y C es una matriz de tamaño q × p a determinar.


De Leeuw y Heiser (1980), proponen de manera análoga a SMACOF un algoritmo para
calcular el mı́nimo del Stress con restricciones en la configuración. Para ello se expresa el
stress como:
σ(X) = η 2 (δ) + η 2 (X) − 2ρ(X) (6.2)
con X X
η 2 (δ) = wij δij2 η 2 (X) = wij d2ij (X)
i<j i<j

X
ρ(X) = wij δij dij (X).
i<j

Si Z es una matriz de n × p, se define V y B(Z) como:


n
X
Vii = wij y Vij = −wij
j6=i

(
w δ
− dijij(Z)
ij
i 6= j, dij (Z) 6= 0
bij =
0 i= 6 j, dij (Z) = 0
Pn
bii = − j6=i bij
6.2 Escalamiento métrico 107

Usando V y B(X) el Stress se expresa como:

σ(X) = η(δ 2 ) + tr(X t V X) − 2tr(X t B(X)X).

Si r(X, Z) = η 2 (δ) + tr(X t V X) − 2tr(X t B(Z)Z) entonces

σ(X) = r(X, X) ≤ r(X, Z) para todo Z.

A partir de esta última desigualdad se deduce el siguiente teorema.

Teorema. Sea Y matriz de tamaño n × q. El mı́nimo sobre X de r(X, Z) con Z fijo


de tamaño n × p, sujeto a la restrición X = Y C con C de tamaño q × p, se alcanza
en X u = Y C u con C u = (Y t V Y )−1 Y t V Z̄, donde Z̄ = V + B(Z)Z es la transformada de
Guttman de Z y V + es la inversa de Moore-Penrose de V.
El teorema permite definir el algoritmo descrito a continuación.

Algoritmo basado en SMACOF para minimizar el Stress


u
con la restricción X = Y C. Sea X0 una configuración inicial y Xm+1 = Xm Cm . Del
teorema se tiene que:

σ(Xm ) = r(Xm , Xm ) ≤ r(Xm , Xm−1 ) ≤ r(Xm−1 , Xm−1 ) = σ(Xm−1 )

luego la sucesión (σ(Xm )) es decreciente y acotada, por lo tanto convergente. Un algoritmo


de cálculo, que denominamos MDSR, basado en el descrito en De Leeuw y Heiser (1980),
se define a continuación.

1. X0 configuración al azar; m = 0
2. X̄m = V + B(Xm )Xm , u
Cm = (Y t V Y )−1 Y t X̄m
u
3. Haga Xm+1 = Y Cm
4. Regrese a (2) hasta que σ(Xm ) − σ(Xm+1 ) <  ó m = ni con ni número máximo
de iteraciones.

MDS con restricciones y sobrecalentamiento simulado

Los aspectos fundamentales del método que proponemos son los siguientes:

Sistema de Generación de Estados.

Mallado Como se trata de minimizar la función del Stress sobre la matriz C de tamaño
q×p, realizamos una discretización del espacio Rq , construyendo un mallado formado
por la unión de cuadrados de lado h.
108 Escalamiento Multidimensional

Vecindario Sea B = {±ei |ei vector canónico de Rq }.


Denotemos como C(l, v) la matriz obtenida de C al sustituir la columna l−ésima
de C, que denotamos C l por C l := C l + hv con v ∈ B.
Definimos el vecindario de C como.

V (C) = {C(l, v)|l = 1, . . . , p; v ∈ B}.

Notemos que para cualquier C los vecindarios tienen la misma cardinalidad |V (C)| =
2qp.

Algoritmo de sobrecalentamiento simulado.

1. Se escoge una matriz C al azar, cada entrada con probabilidad uniforme en [0, 1].
Se calcula la temperatura inicial c0 , se elige el largo de la cadena Lc y se inicia el
contador en t = 0. Escoger γ ∈ [0,8, 0,95].

2. Sea t := t + 1 y ct = γct−1 . Repetir Lc veces los pasos (a) y (b).

a) Elegir al azar una columna l de C y una dirección v de B y generar un vecino


C(l, v).
b) Calcular el incremento del Stress: 4S=Stress(C)-Stress(C(l, v)). Aceptar C(l, v)
− 4S
de acuerdo con la regla de Metropolis, esto es con probabilidad igual a min{1, e ct }.
Si es aceptado redefinir C := C(l, v).

3. Si la temperatura ct es menor que el umbral definido parar, en caso contrario regresar


a 2.

Notemos que de acuerdo con el proceso de generación definido tenemos que la proba-
1
bilidad de generar el estado j a partir del estado i es constante e igual a Gi,j = 2qp , por lo
que la reversibilidad Gi,j = Gj,i y la conexidad de dos estados cualesquiera se satisfacen
trivialmente, es decir, las condiciones de convergencia asintótica se satisfacen (Aarts &
Korst (1988)). En adelante nos referiremos a este algoritmo como ssMDSR.

Comparación entre MDSR y ssMDSR

El propósito de esta sección es comparar los algoritmos descritos anteriormente MDSR


y ssMDSR. Para ello utilizaremos los datos decritos por Borg y Groenen (1997) bajo el
nombre de “Expresiones Faciales” y los reportados por Mathar (1989) de “Esfuerzos
Bacteriales”.
6.2 Escalamiento métrico 109

La comparación la realizamos calculando con ambos procedimientos el coeficiente de


variación r, el cual se encuentra entre 0 y 1 y es una medida de la calidad de la aproxi-
mación de la matriz de disimilitud por la matriz de distancia obtenida.
Pn 2
σ(X) i<j wij (δij − dij (X))
r =1− 2 =1− P 2
(6.3)
η (δ) i<j wij δij

Datos de expresiones faciales. Con el propósito de analizar si un sujeto puede iden-


tificar correctamente el mensaje emocional que una persona transmite a través de su
expresión facial, Engen et al. (1958) idearon un experimento que se fundamenta en una
teorı́a desarrollada por ellos, la cual afirma que una buena clasificación de las diferentes
expresiones faciales debe considerar las variables AD, ID, TD en los siguientes rangos:
AD: Agradable-Desagradable.
ID: Interesado-Desinteresado.
T D: Tenso-Dormido.
Enge, Levy y Schlosberg usaron cuarenta y ocho fotografı́as de la expresión facial de
una mujer ante trece situaciones diferentes para luego asignarles de manera empı́rica,
usando una escala de nueve puntos, valores en las tres variables definidas anteriormente.
Ası́ se obtuvo la tabla 6.2 de restricciones en la configuración.

Situación AD ID TD
1 Muerte madre 3.8 4.2 4.1
2 Comiendo galleta 5.9 5.4 4.8
3 Sorpresa agradable 8.8 7.8 7.1
4 Amor maternal 7.0 5.9 4.0
5 Cansancio fı́sico 3.3 2.5 3.1
6 Problema en avión 3.5 6.1 6.8
7 Perro bravo 2.1 8.0 8.2
8 Empujando 6.7 4.2 6.6
9 Encuentro inesperado 7.4 6.8 5.9
10 Cambio repentino 2.9 3.0 5.1
11 Dolor extremo 2.2 2.2 6.4
12 El avión cae 1.1 8.6 8.9
13 Sueño ligero 4.1 1.3 1.0

Cuadro 6.2: Matriz de restricciones entre trece expresiones faciales.

Por otra parte Abelson y Sermat (1962) construyeron, usando las mismas fotografı́as,
una matriz de disimilitud. Para ello recurrieron a un grupo de treinta estudiantes que opi-
naron sobre la diferencia entre el grado de alegrı́a que reflejaban las diferentes expresiones
faciales. Teniendo en cuenta estas evaluaciones construyeron la matriz de disimilitud mos-
trada en la tabla 6.3.
110 Escalamiento Multidimensional

1 2 3 4 5 6 7 8 9 10 11 12 13
1 0
2 4.05 0
3 8.25 2.54 0
4 5.57 2.69 2.11 0
5 1.15 2.67 8.98 3.78 0
6 2.97 3.88 9.27 6.05 2.34 0
7 4.34 8.53 11.87 9.78 7.12 1.36 0
8 4.90 1.31 2.56 4.21 5.90 5.18 8.47 0
9 6.25 1.88 0.74 0.45 4.77 5.45 10.20 2.63 0
10 1.55 4.84 9.25 4.92 2.22 4.17 5.44 5.45 7.10 0
11 1.68 5.81 7.92 5.42 4.34 4.72 4.31 3.79 6.58 1.98 0
12 6.57 7.43 8.30 8.93 8.16 4.66 1.57 6.49 9.77 4.93 4.83 0
13 3.93 4.51 8.47 3.48 1.60 4.89 9.18 6.05 6.55 4.12 3.51 12.65 0

Cuadro 6.3: Matriz de disimilitudes entre trece expresiones faciales.

Obtención de una configuración plana vı́a MDSR y SS. Para realizar un estudio
de las Expresiones Faciales disponemos de una matriz de disimilitudes δ y de una tabla Y
de expresiones faciales por variables, obtenidas de manera independiente una de otra. Sin
embargo es natural plantearse que exista una relación entre ellas, cuestión que podemos
verificar al asumir que es posible construir una configuración X de 13 puntos en el plano,
de modo que las dos variables que la determinan sean combinaciones lineales de las tres
variables definidas anteriormente y que además la matriz de distancias euclı́deas d(X)
aproxime la matriz de disimilitud.
Estamos entonces ante un problema de Escalamiento Multidimensional con restric-
ciones lineales en la configuración que resolveremos con los dos algoritmos que hemos
definido.
En este caso, δ es la matriz de disimilitud de tamaño 13 × 13 de la tabla 6.3, Y es la
matriz de 13 × 3 de la tabla 6.2 que tiene los valores que las expresiones faciales asumen
en las tres variables empı́ricas definidas y necesitamos encontrar una matriz C de tamaño
3 × 2 que minimice la función de stress (6.1):
Estimamos la matriz C con los algoritmos MDSR y ssMDSR, ambos programados en
Mathematica 3.0.
La matriz C, el valor del Stress y el gráfico de la configuración obtenida con ambos
algoritmos se reportan en seguida. Adem’as se incluyen los resultados obtenidos por por
Borg y Groenen (1997) para los mismos datos.
En el caso de ssMDSR se utilizaron los siguientes parámetros: largo de la cadena
Lc = 800, γ = 0,85, temperatura inicial c0 = 285 (estimada según se propone en Aarts &
Kors (1988)), paso del mallado h = 0,05.
El coeficiente de variación r con ambos algoritmos fue de 0,955. En la tabla 6.4 se
6.2 Escalamiento métrico 111

MDSR ssMDSR Borg & Groenen


Peso de AD 0.815 1.111 -0.481 1.329 2.19 0.31
Peso de ID 0.289 -0.287 0.474 0.086 -0.35 0.137
Peso de TD 0.453 -0.549 0.541 -0.017 -0.24 0.53

Cuadro 6.4: Matrices C obtenidas por los métodos MDSR y ssMDSR y la reportada por
Borg & Groenen (1997).

indican las matrices C y en la figura 6.2 las configuraciones correspondientes a MDSR,


ssMDSR y la reportada por Borg & Groenen (1997).

MDSR ssMDSR Borg & Groenen

4 9 13
13

2 8 4 5
5 2 8 9 3 8 4
1 11 10 1 2
13 9
10 3
1
5 11
6 6 6
10
7
11 7 7
12
12 12

Figura 6.2: Configuraciones de las trece expresiones faciales obtenidas con los métodos
MDSR, ssMDSR y la reportada por Borg & Groenen (1997).

Podemos observar que las configuraciones en los tres casos son iguales, salvo rotación.
Por otra parte las variables sugeridas por Engen, Levy y Scholosberg nos dan una configu-
ración análoga a las anteriores como podemos observar en el plano principal del Análisis
en Componentes Principales realizado sobre la matriz Y (ver la figura 6.3), lo que indica,
en alguna medida, que las tres variables definidas explican adecuadamente las expresiones
faciales.

Datos de esfuerzos bacteriales. Estos datos fueron reportados por Mathar (1989) y
correponde a experimentos realizados en 1986 entre 17 individuos. La matriz de disimilitud
tiene la particularidad que que al realizar un MDS sin restricciones se han encontrado
alrededor de 1000 mı́nimos locales.
En este caso usamos una matriz Y de tamaño 17 × 3 (ver tabla 6.5), elegida de modo
que produjera varios mı́nimos locales. Realizamos 50 corridas de cada algoritmo, en el
caso del MDSR hicimos, por cada corrida, 10 tirajes al azar de la configuación inicial y
elegimos el mejor r. Para ssMDSR se hizo solo un tiraje al azar por cada corrida, pues
en este caso hay una menor dependencia de la configuración inicial y un mayor tiempo de
ejecución. La tabla de disimilitudes se presenta en la tabla 6.6.
112 Escalamiento Multidimensional
Escala externap11 % Inercia 93.97
AD
3

4 9

2 8
ID
13
1
5 6 TD
10
7
11
12

Figura 6.3: Plano principal y cı́rculo de correlaciones del Análisis en Componentes Prin-
cipales de la matriz Y .
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
1 2.8 7.1 6.4 6.4 4.0 8.5 4.6 6.4 6.4 8.4 8.1 4.5 7.2 3.4 6.0 8.7 5.8
2 4.9 4.9 8.4 2.5 7.5 7.2 2.5 2.0 2.4 2.5 8.4 6.6 5.0 8.3 1.5 4.9 7.4
3 5.5 2.2 1.9 7.5 7.2 7.9 6.9 6.4 5.2 1.1 1.4 2.1 8.5 6.0 2.7 3.7 8.6

Cuadro 6.5: Matriz de restricciones transpuesta (Y t ) para los datos de esfuerzos bacteria-
les.

El mejor r obtenido en ambos algoritmos fue r = 0,777712, pero con MDSR en un


80 % de las veces contra un 90 % del ssMDSR. Los otros valores de r obtenidos en el caso
del MDSR, con un 5 % de las veces fueron: 0,777702, 0,777691, 0, 777559, 0,776885 y para
el ssMDSR el otro 10 % fue para r = 0,777703.

Conclusiones

En los ejemplos mostrados se observa una vez más la tendencia reportada por otros
autores cuando comparan los algoritmos clásicos con los obtenidos con sobrecalentamien-
to simulado, esto es que este último obtiene mejores resultados en los casos en que se
presentan varios mı́nimos locales. Tiene la desventaja de que su tiempo de ejecución es
un poco más del doble que el MDSR.

Referencias

1. Aarst, E.; Korst, J. (1988) Simulated Annealing and Boltzman Machines: a Stochas-
tic Approach to Combinatorial Optimization and Neural Computing. John Wiley &
Sons, Chichester.

2. Abelson, R. P.; Sermat, V. (1962) “Multidimensional scaling of facial expressions”


6.2 Escalamiento métrico 113

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
1 0 35 28 29 31 42 49 70 60 100 75 48 77 60 36 88 93
2 35 0 17 42 34 49 55 77 54 89 98 98 78 43 23 86 100
3 28 17 0 32 38 59 32 96 62 95 93 85 91 38 44 80 79
4 29 42 32 0 32 36 100 66 55 93 81 73 98 54 47 78 56
5 31 34 38 32 0 50 57 86 86 100 100 74 86 34 45 94 80
6 42 49 59 36 50 0 33 100 69 100 79 90 88 51 55 92 97
7 49 55 32 100 57 33 0 85 89 57 71 85 100 63 57 93 100
8 70 77 96 66 86 100 85 0 81 89 77 87 58 80 73 88 90
9 60 54 62 55 86 69 89 81 0 92 79 73 82 73 86 88 100
10 100 89 95 93 100 100 57 89 92 0 100 85 89 52 42 96 57
11 75 98 93 81 100 79 71 77 79 100 0 100 100 100 85 62 80
12 48 98 85 73 74 90 85 87 73 85 100 0 87 63 81 67 71
13 77 78 91 98 86 88 100 58 82 89 100 87 0 79 92 84 66
14 60 43 38 54 34 51 63 80 73 52 100 63 79 0 4 69 76
15 36 23 44 47 45 55 57 73 86 42 85 81 92 4 0 81 57
16 88 86 80 78 94 92 93 88 88 96 62 67 84 69 81 0 79
17 93 100 79 56 80 97 100 90 100 57 80 71 66 76 57 79 0

Cuadro 6.6: Matriz de disimilitudes para los datos de esfuerzos bacteriales.

Journal of Experimental Psychology, 63: 546–554.

3. Borg, I.; Groenen, P.J.F. (1997) Modern Multidimensional Scaling. Springer, New
York.

4. De Leeuw, J.; Heiser, W. (1980) “Multidimensional scaling with restrictions on


the configuration”. En: P.R. Krishnaiah (Ed.) Multivariate Analysis. North-Holland
Publishing Company, Amsterdam: 501–522.

5. Engen, T.; Levy, N.; Schlosberg, H. (1958) “The dimensional analysis of a new series
of facial expressions”, Journal of Experimental Psychology, 55: 454–458.

6. Mathar, R. (1989) “Algorithms en multidimensional scaling”. In: O. Optiz (Ed),


Conceptual and Numerical Analysis of Data, Springer, Heidelberg: 159–177.

7. Kirkpatrick, S.; Gellat C.D.; Vecchi, M.P. (1983) “ Optimization by simulated an-
neling”, Science, 220: 671–680.

8. Trejos, J.; Villalobos, M. (1998) “Análisis de proximidades usando sobrecalentamien-


to simulado”. In: Castillo, W.; Trejos, J. (Eds.), Estudios de Análisis de Datos y
Estadı́stica, Universidad de Costa Rica–Instituto Tecnológico de Costa Rica: 41-52.

9. Villalobos, M. (1998) Optimización Estocástica para el Análisis de Proximidades.


Tesis de Maestrı́a, Universidad de Costa Rica.
114 Escalamiento Multidimensional

6.3. Escalamiento no métrico


En MDS no métrico, se dispone también de una tabla de disimilitudes δij como entrada
y se busca una representación en un espacio de pocas dimensiones, pero ahora no interesan
los valores mismos de las δij sino solamente el orden de ellas. Kruskal [107] en 1964 propuso
también un método para resolver este problema, usando un enfoque llamado de regresión
isotónica.
A partir de una configuración inicial, narmalizada y centrada, se encuentran valores
de las distancias Eucl1́deas dij en el espacio Rp de representación. Como estas distancias
dij puede que no conserven el mismo orden en las parejas (i, j) que el orden que tienen las
disimilitudes dadas δij , entonces se hace una regresión de las dij sobre las δij , obteniéndose
una estimación dˆij , lo que consiste en re-etiquetar las distancias de manera que se conserve
el orden deseado. Se reitera el procedimiento hasta que haya estabilidad.

Ejemplo: cereales para el desayuno


En [51] se ilustra el MDS no métrico con el siguiente ejemplo. Se dispone de una tabla
de 23 cereales para el desayuno de la firma Kellog’s (ver tabla 6.7), para los cuales se
han medido variables como: tipo (frı́o, caliente), número de calorı́as, proteina (gr.), grasa
(gr.), sodio (mg.), fibra dietética (gr.), carbohidratos complejos (gr.), azúcar (gr.), potasio
(mg.), vitaminas y minerales (0, 25, ó 100 indicando no adicionados, enriquecidos hasta
un 25 % de la dosis diaria recomendada y hasta un 100 % de esa dosis).

Cereal Cereal
All Bran AllB Just Right Fruit and Nut JRFN
All Bran with extra fibre AllF Meusliz Crispy Blend MuCB
Apple Jacks AppJ Nut and Honey Crunch Nut&
Cornflakes CorF Nutri Grain Almond Raisin NGAR
Corn Pops CorP Nutri Grain Wheat NutW
Cracklin Oat Brain Crac Product 19 Prod
Crispix Cris Raisin Bran RaBr
Froot Loops Froo Raisin Squares Rais
Frosted Flakes FroF Rice Crispies RiKr
Frosted Mini Wheats FrMW Smacks Smac
Fruitful Bran FruB Special K Spec
Just Right Crunch Nuggets JRCN

Cuadro 6.7: Lista de cereales analizados con MDS no métrico.

Se estandarizaron las variables para que tengan media 0 y varianza 1, y se calcularon


las distancias Eucl1́deas entre los cereales. Luego se realizó un MDS no métrico, cuyos
resultados se presentan en la tabla 6.8. En la figura 6.9 se muestran los puntos etiquetados
6.4 El caso de tablas múltiples 115

con su contenido en fibra. Se puede apreciar una tendencia a desplegar los cereales con
alto contenido en fibra en la parte superior izquierda, mientras que los que tienen muy
poco contenido en fibra están en la parte inferior derecha.

Cuadro 6.8: Resultados del MDS no métrico sobre la tabla de cereales: configuración de
puntos en el plano.

6.4. El caso de tablas múltiples


El escalalmiento multidimensional se puede extender al caso en que se tengan va-
rias matrices de disimilitudes sobre los mismos objetos. Ası́, se tendrı́an m matrices
∆1 , ∆2 , . . . , ∆m de dimensión n × n de disimilitudes. Cada matriz puede provenir de una
situación diferente o bien ser medida en un instante distinto. Por ejemplo, puede tratarse
de la medida de similitud dada por m jueces sobre n objetos diferentes.
Existen varios métodos para abordar este problema. El más conocido es conocido
como INDSCAL y parte del mismo principio que el MDS clásico, al recurrir a la forma de
Torgerson mediante productos escalares. Otro método también popular es Idioscal, que
constituye una variante de INDSCAL.
Dadas m matrices B1 , B2 , . . . , Bm de productos escalares aproximados, el modelo
INDSCAL propuesto por Carrol y Chang en 1970, estima una matriz X de dimensión
n × p y m matrices diagonales W1 , W2 , . . . , Wm de pesos no negativos, tales que minimi-
cen la función: m
X
f (X, W1 , . . . , Wm ) = kBk − XWk Xt k2
k=1
116 Escalamiento Multidimensional

Cuadro 6.9: Resultados del MDS no métrico sobre la tabla de cereales: contenido de fibra
de cada cereal.

En la literatura se han propuesto varios procedimientos para minimizar esta función.


Carrol y Chang (1970) propusieron el algoritmo CANDECOMP, que consiste en minimizar
la función:
m
X
f (X, Y, W1 , . . . , Wm ) = kBk − XWk Yt k2
k=1

utilizando mı́nimos cuadrados alternantes. Este procedimiento tiene tres desventajas: no se


garantiza la obtención del mı́nimo global, puede dar pesos negativos y puede no existir una
matriz diagonal D tal que X = YD (problema conocido como el problema de simetrı́a),
condición necesaria para que la matriz X minimizante de g lo sea también de f . Para
subsanar las últimas dos dificultades Ten Berge et. al. (1993) propusieron un algoritmo
llamado SYMPRES. En [40] se propone un nuevo método que llamado ssINDS el cual
resuelve el problema de la simetrı́a y de la no negatividad de los pesos. Además el algoritmo
correspondiente converge hacia el óptimo global con probabilidad igual a 1. El método se
basa en la técnica de sobrecalentamiento simulado y fue implementado con Mathematica
3.0, a fin de poder hacer comparaciones. Esta técnica se usa para optimizar la función
objetivo en problemas combinatorios, sobre dominios de cardinal finito (ver Aarst & Korst
(1990)). Por lo tanto, para poder ser aplicado a nuestro problema fue necesario discretizar
el plano siguiendo la idea propuesta por Trejos & Villalobos (1998) y Villalobos (1998)
en escalamiento multidimensional métrico.
Tomando como referencia los resultados reportados por Ten Berge et. al. (1993), nues-
tro método superó los porcentajes de ajuste obtenidos con el algoritmo SYMPRES de Ten
Berge et. al. (1993) y el CANDECOMP. Para ello realizamos la siguiente experimentación
6.4 El caso de tablas múltiples 117

computacional.
Denotamos un grupo de m matrices de tamaño n × n como n × n × m. Los resultados
con ssINDS se obtuvieron al considerar 20 grupos de tres matrices 3 × 3 × 3 y 20 grupos
de matrices 6 × 6 × 9. Cada matriz Bk fue construida generando primero una matriz A con
entradas tomadas al azar con distribución uniforme en [−1, 1], luego se define Bk = AAt
verificando posteriormente que ésta sea definida positiva. Este es el mismo procedimiento
seguido por Ten Berge et al. (1993).
La calidad de ajuste se mide como un porcentaje de la suma de los cuadrados de los
datos. Es decir,
2
P P
k i≤j (Bkij − Xi Wk Xj )
porc = 1 − P P 2
k i≤j (Bkij )

De manera similar a como lo reporta Ten Berge et al. (1993), el programa ssINDS se
ejecutó 10 veces para cada grupo de matrices y se escogió la mejor solución de acuerdo
con el mayor valor de porc obtenido. Luego se hizo el promedio sobre los 20 grupos de
matrices. Estos porcentajes de ajuste promedio se reportan en el siguiente cuadro. Tam-
bién se incluyen los resultados de Ten Berge et al. (1993) para los algoritmos SYMPRES
y CANDECOMP, aplicados a 100 grupos de matrices de 3 × 3 × 3 y 6 × 6 × 9.

Orden de la matriz ssINDS SYMPRES CANDECOMP


3×3×3 90.73 % 87.02 % 87.02 %
6×6×9 49.27 % 43.23 % 43.23 %

Cuadro 6.10: Resultados comparativos para ssINDS, SYMPRES y CANDECOMP.

Referencias

1. Aarst, E.; Korst, J. (1990) Simulated Annealing and Boltzman Machines: a Stochas-
tic Approach to Combinatorial Optimization and Neural Computing. John Wiley &
Sons, Chichester.

2. Carroll, J.D.; Chang, J.J. (1970) “Analysis of individual differences in multidimen-


sional scaling via an n-way generalization of Eckart-Young descomposition”, Psy-
chometrika 35: 283–319.

3. Ten Berge, J.M.F.; Bekker, P.A.; Kiers, H.A.L. (1994) “Some clarifications of the
Tuckals2 algorithm applied to the IDIOSCAL problem”, Psychometrika 59: 193–201.

4. Ten Berge, J.M.F.; Kiers, H.A.L.; Krijnen, W.P.(1993) “Computational solutions


for the problem of negative saliences and nonsymmetry in INDSCAL”, Journal of
Classification 10: 115-124.
118 Escalamiento Multidimensional

5. Trejos, J.; Villalobos, M. (1998) “Análisis de proximidades usando sobrecalenta-


miento simulado”, W. Castillo & J. Trejos (Eds.) Estudios de Análisis de Datos y
Estadı́stica, Universidad de Costa Rica- Instituto Tecnológico de Costa Rica.

6. Villalobos, M. (1998) Optimización Estocástica para el Análisis de Proximidades.


Tesis de Maestrı́a, Universidad de Costa Rica, San José.

6.5. Análisis de preferencias


El análisis de preferencias3 trata de estudiar tablas de datos en las que se muestran
las preferencias, en orden, que tiene un grupo de sujetos (comúnmente llamados jueces)
respecto a un conjunto de ı́tems.
Ası́, una tabla de preferencias tiene el siguiente aspecto:

A B C D E
Juez 1 2 3 1 5 4
Juez 2 1 2 3 5 4
Juez 3 1 4 5 4 3
.. .. .. .. .. ..
. . . . . .

Puede verse entonces que se trata de datos de proximidad entre dos modos: el modo de
los ı́tems y el modo de los jueces. Sea X la matriz de datos de preferencia, con los jueces
en fila y los ı́tems en columna. Si colocamos estos datos en una gran matriz cuadrada con
jueces e ı́tems, que contenga cuatro bloques: los dos bloques diagonales que cruzan jueces
con jueces por una parte, e ı́tems con ı́tems por otra parte, contienen ceros y se consideran
datos faltantes; y los dos bloques extra-diagonales que contienen X y Xt , que cruzan jueces
con ı́tems. Obsérvese que la nueva tabla contiene las mismas filas y columnas.
Entonces se puede realizar un MDS métrico sobre esta nueva tabla, tomando pesos
cero en los bloques diagonales, minimizando el stress.

6.5.1. Ejemplo sobre desayunos

A un conjunto de 42 personas se le preguntó qué preferı́an para desayunar, en una


lista de 15 posibilidades basadas en harinas y panes, y los debı́an colocar en orden de
preferencia, siendo 1 el preferido. La tabla tiene el aspecto mostrado a continuación:
3
En inglés se usa a veces el término unfolding.
6.5 Análisis de preferencias 119

A b C D E F G H I J K L M N O
1 13 12 7 3 5 4 8 11 10 15 2 1 6 9 14
2 15 11 6 3 10 5 14 8 9 12 7 1 4 2 13
3 15 10 12 14 3 2 9 8 7 11 1 6 4 5 13
4 6 14 11 3 7 8 12 10 9 15 4 1 2 5 13
..
.
42 13 3 1 14 4 10 6 15 6 2 11 7 12 8 9

Las posibilidades desayunos que se le presentan a las personas son:

A: tostada H: tostada con mermelada


B: tostada con mantequilla I: tostada con mantequilla y jalea
C: muffin inglés con margarina J: tostada con margarina
D: dona con jalea K: bollo de canela
E: tostada con canela L: pastelillo danés
F: muffin de mora y margarina M: dona con azúcar
G: “hard rolls” con mantequilla N: pastel de café
O: muffin de maı́z con mantequilla

Los resultados del análisis de preferencias se muestras en la figura 6.4. Puede apreciarse
que el individuo 4 juega un rol central, con preferencia a los desayunos L, K, M y D. Los
jueces se despliegan prácticamente en una lı́nea, desde el 4 hasta el 11.

Figura 6.4: Resultado del análisis de preferencias de desayunos.


120 Escalamiento Multidimensional

6.5.2. Ejemplo sobre pintura


A un conjunto de 300 escolares, se les presentan 6 fotografı́as, 4 de ellas son cuadros de
flores de pintores famosos (Rousseau, Klee, Dufy, Van Gogh), una es de un pintor chino
anónimo y la última es un cromo. Los estudiantes deben calificar de 1 a 6 las fotos según
su preferencia, siendo 1 la preferida. La tabla de preferencias tiene el siguiente aspecto:

Cromo Chino Klee Van Gogh Dufy Rousseau


Durand 6 2 3 1 4 5
Meunier 6 1 3 2 4 5
Dupont 4 2 1 3 6 5
Lemoine 3 6 2 1 5 4
Dureau 4 5 2 1 6 3
Junot 5 1 3 2 4 6
Balbac 2 1 5 6 4 3
Martin 1 2 4 5 3 6
Leroy 6 5 1 2 3 4
..
.

Los resultados se muestran en la figura 6.5, donde solo ponemos explı́citamente a los
pintores, y un punto para cada uno de los 300 jueces.

Figura 6.5: Resultado del análisis de preferencias de 6 pinturas.


6.5 Análisis de preferencias 121

El Método Statis4 es una metodologı́a estadı́stica utilizada para hacer el análisis des-
criptivo de varias tablas de datos. Este método fue concebido y desarrollado para el análisis
de tablas de datos del tipo individuos × variables cuantitativas, observadas durante un
perı́odo determinado o en condiciones distintas. En general suponemos que se tienen K
matrices:
X1 , X2 , . . . , XK
donde la matriz k-ésima Xk es de dimensiones n × pk . Xk contiene las observaciones de
pk variables sobre n individuos. Entre los objetivos de Statis, destacan:

Comparar las K tablas de datos,

describir la estructura común a las diferentes tablas, y

conocer las diferencias entre las tablas.

Para ello, el método Statis consta de tres fases importantes, a saber: la Intraestructura,
el Compromiso y la Interestructura.

6.5.3. La Interestructura
Su objetivo es comparar globalmente la estructura de las diferentes tablas de datos,
lo cual se realiza a través del estudio de las matrices Wi = Xi Xti de productos escalares
entre individuos. Para obtener una descripción de estas K matrices usamos la métrica
definida por el producto interno:

hWi , Wj iHS = traza(Wi Wj )

Una representación plana de la nube {W1 , . . . , WK } se obtiene diagonalizando la


matriz S definida como Sij = hWi , Wj iHS y se proyectan los Wi , HS-ortogonalmente
sobre los ejes determinados por los vectores propios de S. Esto es equivalente a realizar un
ACP sobre el triple (X, Ir , n12 I), donde X es la matriz cuyas columnas son los operadores
2
Wi escritos como vectores de Rn . Ası́, la representación bidimensional de los operadores
es la representación de las variables de este ACP, en el cı́rculo de correlaciones.

6.5.4. El Compromiso
En análisis de tablas múltiples, los inidviduos y las variables de tablas distintas, per-
tenecen a espacios de dimensión diferente. Esta circunstancia obliga a determinar un
operador promedio llamado compromiso. Los ejes determinados por los vectores propios
4
Statis proviene del francés Structuration de Tableaux À Trois Indices de la Statistique, que se puede
traducir como Estructuración de Tablas con Tres Índices de la Estadı́stica.
122 Escalamiento Multidimensional

de este operador constituyen un sistema ortonormado en el cual se pueden representar


todos los individuos y todas las variables. Existen varias definiciones del compromiso, una
de las cuales es la de H. L’Hermier des PPlantes que consiste en elegir como compromiso la
primera componente principal W = αi Wi del ACP anterior. Esta definición es posible
gracias a que todas las entradas de la matriz S son positivas de modo que, por el Teorema
de Frobenius ([2]), α1 , . . . , αK pueden elegirse positivos.

6.5.5. La Intraestructura

El objetivo de esta fase es buscar las causas de la diferenciación observada a partir de


la interestructura. El procedimiento consiste en proyectar las variables y los individuos
sobre sus respectivos
P ejes del compromiso. Para lo cual se debe considerar la matriz de
tamaño (n × pi ),
√ √
X = ( α1 X1 , . . . , αK XK ).

El compromiso es precisamente
P XXt . El ACP del triplete (X, I, Dw ) nos da una repre-
sentación simultánea de las pi variables en la base Dw −ortonormal de las componentes
principales, donde Dw es la métrica de pesos.
Para representar los individuos usamos la técnica de elemento suplementario. Ası́ el
i-ésimo individuo del k-ésimo año es la fila i-ésima de la matriz Wk Dw C, donde C es la
matriz de las componentes principales normalizadas.

6.5.6. Aplicación: Análisis de la Evolución de la Opinión Pública

En [?] se utiliza el método Statis para analizar la evolución de la Opinión Pública de


los Costarricenses mayores de 18 años. Para tal efecto se usaron las encuestas anuales de
opinión realizadas en el perı́odo 1988-1991, especı́ficamente en aquellas preguntas que se
repitieron en los cuatro años [146].

El análisis de los fenómenos sociales o de otra naturaleza, puede ser abordado desde
el ángulo de su evolución o de una manera estática. Ası́ nuestro enfoque en relación con
el fenómeno de la opinión es descubrir sus tendencias evolutivas e intentar explicarlas.
Técnicamente este tipo de estudios se denomina análisis de tablas múltiples y existen
varios métodos para su implementación; los cuales marcan su principal diferencia en la
forma como se elige el operador compromiso. En el presente caso se ha utilizado el método
STATIS (Estadı́stica de tres ı́ndices), del cual se ofrece enseguida una breve descripción,
enmarcada en las condiciones del caso que nos ocupa. (Una presentación más amplia se
encuentra en [36], [72], [48], [110], [76], [123]).
6.5 Análisis de preferencias 123

Los datos

Los datos de base de esta investigación corresponden a las encuestas de opinión de los
años 1988, 1989,1990 y 1991 realizadas por el proyecto de investigación Estructuras de
la Opinión Pública. Estas encuestas son anuales sobre una muestra de 1000 individuos,
mayores de 18 años, preservando cuotas por sexo, edad y professión. Los entrevistados
se pronuncian sobre unas 100 afirmaciones relativas a los principales conflictos sociales
ventilados por la prensa local [146].
Un ejemplo de tales afirmaciones es:

La democracia es el sufragio

Los entrevistados deben responder una de las siguientes alternativas:

En total desacuerdo

Bastante en desacuerdo

Podrı́a estar de acuerdo

Bastante de acuerdo

Totalmente de acuerdo

No responde

Estas respuestas se codifican en una escala de 1 a 6, respectivamente.

Selección de las variables

Nos limitaremos a hacer un análisis evolutivo de la opinión, teniendo en cuenta úni-


camente aquellas preguntas que se repiten en todas las encuestas.
Ası́ entonces, decidimos escoger las siguientes variables que son las que permanecieron
en el periodo 88-91:

El Seguro social debe privatizarse (SP).

Se debe propiciar la libre elección médica (LM).

La democracia es el sufragio (DS).

Se debe defender la banca nacionalizada (BN).

Se debe confiar en la justicia (CJ).


124 Escalamiento Multidimensional

Se debe aumentar el presupuesto en seguridad (PS).

Ya no nos sentimos seguros (IS).

Los enfermos de sida deben aislarse (SD).

Construcción de la tabla de datos

Para analizar la evolución de la opinión hemos considerado la opinión promedio de los


grupos sociales determinados por las siguientes variables:

Provincia: San José (Sjos), Alajuela (Ala), Cartago (Car), Guanacaste (Gua), Pun-
tarenas (Aren), Limón (Lim) y Heredia (Her).

Edad, codificada en las siguientes clases: de 18 a 25 (A18), de 25 a 35 (A25), de 35


a 45 (A35), de 45 a 55 (A45) y más de 55 (A55).

Sexo: Hombres (H) y Mujeres (M).

Escolaridad: Ninguna (N), Primaria (P), Secundaria (S), Técnica (T), Universitaria
incompleta (UI) y Universitaria completa (UC).

Profesión: Agricultor (Bag), Patrón o empleado de comercio (Bec), Profesión libe-


ral (Bpl), Empleado (Bem), Profesión intermedia (Bpi), maestro-profesor (Bmp),
pensionado (Bpen), Ama de casa (Bac) y Desempleado (Bdes)

Partido polı́tico: Partido Liberación Nacional (PLN), Partido Unidad Social Cris-
tiana (PUSC), Izquierda (Izq), Otros partidos (Potr) y Ningún partido (Pnin).

Ingreso Familiar: Ingresos Bajos (IB), Ingresos Medios (IM) e Ingresos Altos (IA).

La tabla de datos se construye usando los centros de gravedad como filas (individuos),
para obtener ası́ una matriz de tamaño 42 × 8 por cada año.

Resultados preliminares

A continuación se presentan los histogramas de las respuestas promedio a las pregun-


tas: Se debe confiar en la justicia (CJ), Se debe aumentar el presupuesto en seguridad
(PS), Ya no nos sentimos seguros (IS), Los enfermos de sida deben aislarse (SD), dadas
por los grupos sociales ordenados según grupos de edad, nivel educativo, nivel de ingreso
y filiación polı́tica.
6.5 Análisis de preferencias 125

Histogramas de las respuestas promedio a las preguntas: Se debe confiar


en la justicia (CJ), Se debe aumentar el presupuesto en seguridad (PS), Ya no
nos sentimos seguros (IS), Los enfermos de sida deben aislarse (SD), dadas por
los grupos sociales ordenados según: Grupos de edad, nivel educativo, nivel
de ingreso y filiación polı́tica

CG CJ PS IS SD
A18 3.153 3.676 3.610 3.554
A18 2.679 3.879 3.555 3.386
A18 2.504 3.879 3.613 2.603
A18 2.510 3.977 3.875 2.449

A54 3.292 3.746 4.031 3.950


A54 3.000 3.977 4.034 4.022
A54 3.125 4.121 4.136 3.547
A54 2.734 4.037 4.232 3.419

EN 3.200 3.242 3.769 3.969


EN 3.167 3.902 4.220 4.063
EN 3.245 3.739 3.918 3.438
EN 2.816 3.816 3.974 3.263

EP 3.265 3.729 3.800 3.876


EP 2.807 3.949 3.800 3.881
EP 2.812 4.067 3.935 3.431
EP 2.531 3.960 3.906 3.162

EUC 3.319 3.602 3.836 3.381


EUC 2.837 3.724 3.871 3.035
EUC 2.663 3.971 4.049 2.481
EUC 2.532 4.063 4.351 2.425

EUI 3.266 3.699 3.788 3.475


EUI 2.698 3.860 3.569 2.965
EUI 2.538 3.938 3.793 2.406
EUI 2.527 4.086 4.122 2.242

IA 3.191 3.736 3.866 3.614


IA 2.750 3.841 3.708 3.402
IA 2.648 4.070 3.885 2.666
IA 2.548 4.111 4.141 2.582

IB 3.199 3.649 3.749 3.701


IB 2.786 3.943 3.887 3.708
IB 2.617 3.902 3.789 3.336
IB 2.591 3.834 4.036 3.109

IM 3.258 3.806 3.925 3.761


IM 2.733 3.959 3.802 3.498
IM 2.696 4.008 3.940 2.945
IM 2.411 3.958 3.958 2.783

PIZ 2.857 3.714 3.857 3.429


PIZ 2.278 2.500 3.647 2.722
PIZ 2.000 3.350 3.850 2.450
PIZ 2.550 3.550 4.250 1.550

PLN 3.317 3.810 3.767 3.568


PLN 2.860 3.954 3.722 3.493
PLN 2.694 4.026 3.878 2.753
PLN 2.542 4.007 4.046 2.767

PNIN 3.141 3.662 3.905 3.733


PNIN 2.582 3.917 3.869 3.276
PNIN 2.467 3.914 3.913 2.919
PNIN 2.305 4.000 4.088 2.660

POT 3.000 3.000 4.000 2.500


POT 3.091 3.417 3.500 3.500
POT 2.273 3.727 3.727 2.727
POT 2.400 4.200 5.000 3.400

PUSC 3.236 3.888 3.977 3.802


PUSC 2.744 3.921 3.830 3.640
PUSC 2.715 4.081 3.888 3.082
PUSC 2.620 4.114 4.066 2.740
126 Escalamiento Multidimensional

A continuación se presentan las correlaciones entre las variables, para cada año, ası́ co-
mo entre las del año 1989 y el resto.

Correlaciones entre las variables del año 1989

SP1 LM1 DS1 BN1 CJ1 PS1 IS1 SD1


SP1 1 .00 0.01 0.27 -0.26 0.11 -0.18 0.29 0.47
LM1 0.01 1.00 -0.01 0.31 0.27 0.27 0.51 -0.32
DS1 0.27 -0.01 1.00 0.07 -0.03 0.29 0.15 0.45
BN1 -0.26 0.31 0.07 1.00 0.43 0.40 0.01 -0.11
CJ1 0.11 0.27 -0.03 0.43 1.00 -0.08 0.03 -0.27
PS1 -0.18 0.27 0.29 0.40 -0.08 1.00 0.06 0.06
IS1 0.29 0.51 0.15 0.01 0.03 0.06 1.00 -0.03
SD1 0.47 -0.32 0.45 -0.11 -0.27 0.06 -0.03 1.00

Correlaciones entre las variables del año 1990

SP2 LM2 DS2 BN2 CJ2 PS2 IS2 SD2


SP2 1.00 0.13 0.41 0.47 0.31 0.48 0.19 0.71
LM2 0.13 1.00 0.55 0.61 0.32 0.07 0.76 0.33
DS2 0.41 0.55 1.00 0.54 0.24 0.35 0.38 0.76
BN2 0.47 0.61 0.54 1.00 0.45 0.48 0.60 0.66
CJ2 0.31 0.32 0.24 0.45 1.00 0.36 0.45 0.34
PS2 0.48 0.07 0.35 0.48 0.36 1.00 0.17 0.50
IS2 0.19 0.76 0.38 0.60 0.45 0.17 1.00 0.26
SD2 0.71 0.33 0.76 0.66 0.34 0.50 0.26 1.00

Correlaciones entre las variables del año 1991

SP3 LM3 DS3 BN3 CJ3 PS3 IS3 SD3


SP3 1.00 0.25 0.53 0.36 0.71 -0.18 0.43 0.65
LM3 0.25 1.00 0.22 0.41 0.55 0.45 0.34 0.26
DS3 0.53 0.22 1.00 0.45 0.52 0.05 0.05 0.81
BN3 0.36 0.41 0.45 1.00 0.57 0.25 0.30 0.57
CJ3 0.71 0.55 0.52 0.57 1.00 0.01 0.37 0.77
PS3 -0.18 0.45 0.05 0.25 0.01 1.00 0.35 0.09
IS3 0.43 0.34 0.05 0.30 0.37 0.35 1.00 0.31
SD3 0.65 0.26 0.81 0.57 0.77 0.09 0.31 1.00

Correlaciones entre las variables del año 1992


6.5 Análisis de preferencias 127

SP4 LM4 DS4 BN4 CJ4 PS4 IS4 SD4


SP4 1.00 0.13 0.07 -0.34 -0.25 -0.36 0.08 0.29
LM4 0.13 1.00 0.12 0.41 -0.08 0.04 0.46 0.32
DS4 0.07 0.12 1.00 0.35 0.20 -0.27 -0.22 0.53
BN4 -0.34 0.41 0.35 1.00 0.22 -0.06 -0.16 0.21
CJ4 -0.25 -0.08 0.20 0.22 1.00 0.21 -0.31 0.18
PS4 -0.36 0.04 -0.27 -0.06 0.21 1.00 0.40 -0.48
IS4 0.08 0.46 -0.22 -0.16 -0.31 0.40 1.00 -0.25
SD4 0.29 0.32 0.53 0.21 0.18 -0.48 -0.25 1.00

Correlaciones entre las variables de los años 1992, 1991, 1990,


con las variables del año 1989

SP1 LM1 DS1 BN1 CJ1 PS1 IS1 SD1


SSP4 0.12 -.22 0.00 -.28 -.35 -.13 -.19 0.33
LM4 0.11 0.41 0.14 0.03 0.05 0.10 0.37 0.18
DS4 0.37 -.16 0.58 -.04 -.03 0.22 -.15 0.55
BN4 -.16 0.10 0.19 0.17 0.29 0.00 -.05 0.07
CJ4 0.28 0.03 0.21 -.01 0.58 -.26 0.07 -.10
PS4 -.01 0.46 -.17 0.27 0.17 0.18 0.24 -.24
IS4 -.11 0.28 -.28 -.17 -.25 0.03 0.26 -.09
SD4 0.22 -.04 0.54 -.02 0.07 -.06 0.02 0.57
SSP3 0.55 -.07 0.32 -.50 -.08 -.37 0.13 0.39
LM3 0.20 0.41 -.12 -.11 0.31 -.34 0.42 -.07
DS3 0.26 -.27 0.53 -.24 -.26 -.19 -.14 0.56
BN3 0.31 0.06 0.28 -.10 0.02 0.09 0.02 0.43
CJ3 0.32 -.05 0.25 -.21 0.14 -.26 0.10 0.43
PS3 0.00 0.38 -.02 0.15 0.01 0.29 0.36 0.04
IS3 0.22 0.29 0.05 -.30 -.08 0.12 0.31 0.26
SD3 0.26 -.11 0.48 -.12 -.11 -.03 -.01 0.64
SSP2 0.10 -.21 0.16 -.39 -.13 -.19 -.07 0.36
LM2 0.49 0.18 0.14 -.02 0.34 -.28 0.32 0.33
DS2 0.60 -.22 0.57 -.25 -.07 -.17 0.18 0.71
BN2 0.35 0.14 0.37 -.11 -.01 0.04 0.12 0.56
CJ2 0.18 -.25 0.26 0.03 0.45 0.04 -.24 0.28
PS2 0.25 0.09 0.41 -.12 -.04 0.47 -.11 0.35
IS2 0.38 0.17 0.18 -.16 0.10 -.02 0.29 0.35
SD2 0.32 -.20 0.51 -.17 -.10 -.02 -.08 0.68

Resultados de Statis

Utilizando el sistema PIMAD-STATIS [75] hemos obtenido los siguientes resultados :


128 Escalamiento Multidimensional

( % Inercia 85.00) Eje 2


6

88

 •
-Eje 1
89

90


91

Figura 6.6: Cı́rculo de correlaciones que contiene los años y su evolución.

Análisis de la interestructura. Para hacer una representación plana de la distribución


espacial de las opiniones correspondientes a cada uno de los cuatro años, calculamos una
imagen euclı́dea aproximada de los operadores WDw , lo que se obtiene considerando el
primer plano principal del ACP sobre la matriz cuyas variables son los Wi .
La Figura 6.6 muestra la evolución global de la opinión anual en el periodo 1988-
1991 en el primer plano principal el cual explica un 85 % de la inercia total. Los puntos
representativos de cada encuesta se encuentran muy próximos a la circunferencia de radio
uno, lo que garantiza una buena representación de la realidad descrita por las variables
tomadas en cuenta en este estudio.
Se observa una estabilidad de la opinión en los años 89, 90, 91 diferenciándose de la
estructura de la opinión en 1988. Esta diferenciación la analizaremos en el contexto de la
Intraestructura.
La configuración espacial de los individuos representada por los operadores Wk , se
resume en el operador compromiso W que no es otra cosa que la primera componen-
te principal del ACP mencionado arriba. En la Figura 6.6 se observa que este operador
representa bien la estructura común de la opinión de los años 89–90–91. Como puede com-
probarse en las Tablas de Correlaciones, la proximidad en estos mismos años es coherente
con la estabilidad observada en las matrices de correlaciones correspondientes y, por otra
parte, con las ortogonalidades mayoritarias entre las variables de estos años con el año
1988.

Análisis de la intraestructura

El análisis de la intraestructura consiste en hacer representaciones planas de las varia-


bles y de los individuos en los ejes del operador compromiso. Un análisis en componentes
6.5 Análisis de preferencias 129

principales sobre la tabla que se obtiene concatenando las tablas de los centros de gravedad
de cada año y ponderándolas adecuadamente, nos permite obtener tales representaciones.
La Figura 6.7 corresponde a la representación de las variables en los dos primeros ejes
los cuales explican el 58 % de la inercia total.
Se observa que las variables SD, DS, SP y en menor grado BN y CJ, correlacionan
con el primer eje. Por otra parte las variables LM e IS lo hacen con el segundo eje. En el
caso de las variables BN y CJ se observa una evolución (movimiento) sobre el primer eje
que es explicada en parte por la diferenciación del año 89 con respecto a los restantes.

Eje 2
% Inercia 57.89 6


LM3

LM4

IS4 •
• IS3•
LM1 •
• IS2LM2
IS1
• •
PS4 CJ3

• • BN2
CJ1 PS3

BN4
• ••
• CJ2 BN3
SP3
CJ4 •
SP1 •
SP2 •
 • SD3 -
• PS2 Eje 1
BN1 •
• SD4
PS1
• •
• SD1
• DS2 •
SP4• DS4 • SD2
DS3
DS1

Figura 6.7: Cı́rculo de correlaciones que contiene las variables y su evolución en los 4
anños del estudio.
En la Figura 6.8 se representan los grupos sociales promedio en los ejes del compromiso,
y en las Figuras 6.10 y 6.11 las trayectorias.
Se nota que el nivel de escolaridad es un factor claramente discriminante en cuanto
a la opinión. Los grupos de mayor escolaridad UC arriba en el segundo cuadrante se
oponen a los grupos sociales de menor escolaridda (P) que son a su vez los de más bajos
ingresos (IB). Asociadas con estos grupos se encuentran, respectivamente, las provincias
de mayor desarrollo como San José y Alajuela, en oposición a Limón y Guanacaste. Las
diferencias de opinión más claras derivan de las variables que determinan en mayor grado
esas direcciones. Es ası́ como a partir de las observaciones anteriores complementadas con
los histogramas, podemos decir lo siguiente:
130 Escalamiento Multidimensional

% Inercia 57.89 Eje 2


6

UC


A54

• •
A35 A44

• •
SJOS
ALA
• •
IA •
 •• • N -Eje 1
• PLN PUSC
UI IM
• •
T A25 • •
LIM P

S IB

GUA


A18

Figura 6.8: Plano principal con los grupos sociales en los ejes del compromiso.

En los grupos sociales de más alta escolaridad como EUC se nota una evolución
en el sentido de disminuir su confianza en la justicia, aumentar su deseo de que se
invierta más presupuesto en seguridad y cada año el sentimento de inseguridad es
mayor. Respecto a la enfermedad del sida estos grupos sociales son cada vez más
tolerantes. En los sectores de menos escolaridad como EP y EN esta tendencia es
menos pronunciada y más irregular (ver Histogramas).

Hay una diferenciación de la opinión entre los grupos de menor edad con respecto
a los de mayor edad, la cual se expresa en grado creciente de desconfianza en la
justicia de parte de los jóvenes que ha su vez son más tolerantes respecto al sida,
que las personas de mayor edad (ver Figuras 6.10 y 6.11).

En relación con los grupos de filiación polı́tica, hemos constatado que la diferen-
ciación proviene de los grupos minoritarios fuera del PLN y del PUSC. Estos dos
últimos partidos son indistinguibles desde el ángulo de la opinión respecto de las va-
riables analizadas, como lo ponen en evidencia las representaciones en la Figura 6.9.
Este hecho también lo hemos verificado con un segundo análisis donde los partidos
minoritarios (Izquierda, Otros y Ninguno) no fueron tomados en cuenta.

Conclusiones y perspectivas

De acuerdo con los análisis realizados podemos señalar lo siguiente:


6.5 Análisis de preferencias 131

% Inercia 62.57
Eje 2
6

POT


PIZ
 -Eje 1
• • •
PLNPUSC
PNIN

Figura 6.9: Plano principal con los puntos asociados a los partidos polı́ticos en los ejes del
compromiso.

1. La opinión en el año 1988 se diferencia de los tres años siguientes. A efecto de


poder explicar esta situación es necesario superar ciertas limitaciones como son,
por ejemplo, la necesidad de incluir en los análisis más variables y abordar la fase
de interpretación con participación multidisciplinaria, especialmente con cientı́ficos
sociales.

2. Pese a las limitaciones señaladas en el punto anterior, se puede afirmar que el mo-
vimiento evolutivo de las variables Defender la banca nacionalizada, Aumentar el
presupuesto en seguridad y Se puede confiar en la justicia; marcan una clara dife-
rencia de la opinión en 1988 con respecto a la opinión en los otros años.

3. Los resultados obtenidos confirman que la edad y el nivel de escolaridad son varia-
bles diferenciadoras de la opinión. Mientras tanto la filiación polı́tica no introduce
diferencias de opinión importantes, con excepcion de los grupos minoritarios. Desde
este ángulo, queda justificada la apreciación en el sentido que los partidos tradicio-
nalmente mayoritarios desde hace algunos años representan esencialmente lo mismo.
Esto es ası́, aun cuando 5 años atrás, durante el perı́odo en que se realizaron estas
encuestas, la mayor parte de los ciudadanos no lo percibı́an claramente. En esta
perspectiva cabe preguntarse si actualmente los ciudadanos son conscientes de lo
132 Escalamiento Multidimensional

que representan el PLN y el PUSC y si perciben diferencias importantes entre es-


tos dos partidos. Para argumentar una respuesta a estas dos preguntas es necesario
extender el perı́odo de análisis a más años y considerar suficientes conflictos.

% Inercia 57.89 Eje 2


6


A543



A442 •
A443 A544

A444 •
 • • A542 -Eje 1
A441
A541

A181

A182

A184


A183

?
Figura 5

Figura 6.10: Trayectorias de los grupos sociales (1).


6.5 Análisis de preferencias 133

% Inercia 57.89 Eje 2


6


• UC4
• UC2
UC3

N3

UC1 •
N2
 • -Eje 1
P3

P1• ••
N1 P4
P2

N4

?
Figura 6

Figura 6.11: Trayectorias de los grupos sociales (2).


134 Escalamiento Multidimensional
Capı́tulo 7

Clasificación jerárquica

7.1. Introducción

La clasificación automática tiene por objetivo reconocer grupos de individuos ho-


mogéneos, de tal forma que los grupos queden bien separados y bien diferenciados. Estos
individuos pueden estar descritos por una tabla de datos de individuos por variables, con
variables cuantitativas o cualitativas, o por una tabla de proximidades.
Lo que se entiende por individuos homogéneos es que los individuos que pertenezcan
a un mismo grupo tengan, ya sea caracterı́sticas iguales o similares en el caso de que sean
descritos por una tabla con variables, o bien que estén próximos unos de otros en el caso
de que sean descritos por una tabla de proximidades. Es decir, dos individuos de una
misma clase deben parecerse más entre sı́, que parecerse a un individuo de otra clase.
La clasificación automática también es conocida bajo otros nombres, como por ejemplo
análisis de grupos, análisis tipológico, análisis de conglomerados, análisis de agrupaciones
(en inglés, se usa normalmente el término cluster analysis). Nosotros preferimos el término
de clasificación automática porque el objetivo es buscar una clasificación (o varias clasifi-
caciones, según sea el método usado) de los individuos u objetos a agrupar, y como esta
clasificación es desconocida a priori, el método debe hacer la clasificación automática-
mente sin que intervenga ningún agente externo. Contrariamente, la discriminación trata
de clasificar a los individuos en grupos dados a priori, por lo que la clasificación no es
automática sino supervisada (se trata de que la regla de asignación a los grupos dados
minimice los posibles errores a clases incorrectas).

Existe gran cantidad de métodos de clasificación automática, entre los que podemos
distinguir los siguientes:

los métodos jerárquicos, que buscan una serie de particiones encajadas de tal
manera que puedan representarse mediante un árbol;

135
136 Clasificación jerárquica

los métodos piramidales, que como los jerárquicos buscan particiones encajadas,
pero que permiten a una clase de nivel inferior estar contenida en dos clases de nivel
superior;

los métodos de particionamiento, que buscan una sola partición del conjunto de
individuos;

los métodos de clasificación no exclusiva, que buscan grupos en los datos de tal
manera que un individuo pueda pertenecer a varios grupos al mismo tiempo;

los métodos de clasificación difusa, que buscan grupos homogéneos de individuos


pero que dan el grado de pertenencia difusa (en el intervalo [0, 1]) de cada individuo
a cada clase;

los métodos de clasificación cruzada, que tratan de hacer la clasificación simultá-


neamente sobre dos conjuntos de individuos (o uno de individuos y uno de variables).

En este curso veremos únicamente los métodos más usados, que son los jerárquicos y
los de particionamiento. Ası́, abordaremos los métodos llamados de clasificación jerárquica
ascendente y los de nubes dinámicas, por ser los más populares y fáciles de usar. Tanto
los métodos jerárquicos como algunos del tipo nubes dinámicas están implementados en
la mayorı́a de los paquetes estadı́sticos citados en el apéndice correspondiente a software.

Los métodos de clasificación automática usan ampliamente el concepto de similitud o


disimilitud entre los individuos. Por lo tanto, en un primer momento abordaremos este
tema antes de pasar a describir los métodos de clasificación propiamente dichos. A lo largo
del capı́tulo denotaremos con Ω al conjunto de individuos a clasificar, y supondremos que
posee n elementos.

7.2. Similitudes y disimilitudes


Las similitudes y disimilitudes son los conceptos básicos que nos permitirán determinar
si dos individuos u objetos son parecidos o diferentes. La similitud tiene el sentido de medir
cuán similares son dos individuos, por lo tanto entre mayor sea su valor mayor será el
parecido entre los individuos, y entre más cercano a cero menor será este parecido. La
disimilitud, por el contrario, mide cuán diferentes son dos individuos, como es el caso de las
distancias que todos conocemos; por lo tanto entre más cercana a cero sea la disimilitud
menos diferentes serán los individuos (es decir, es más posible que pertenezcan a una
misma clase) y entre mayor sea ésta más diferentes serán.
7.2 Similitudes y disimilitudes 137

7.2.1. Similitudes
Una similitud es una función s : Ω × Ω −→ R+ tal que:

1. para cada i ∈ Ω, se tiene s(i, i) = máx{s(i, j)/j ∈ Ω};

2. para cada i, j ∈ Ω, hay simetrı́a: s(i, j) = s(j, i).

Con sólo estos dos requisitos se pueden construir funciones que den una idea de la
similitud entre individuos. Ahora bien, la definición de una similitud dependerá de cómo
es la descripción de los individuos, es decir, qué tipo de variables son las que los describen.

Caso de variables binarias

Un caso frecuente para usar similitudes es cuando los individuos están descritos por
variables binarias, es decir, variables de presencia-ausencia que toman sólo los valores 0 y
1 dependiendo de si el individuo presenta o no la variable. Si un individuo tiene un valor
de 1 en la variable se dice que “posee el atributo”, que describe esa variable. Por ejemplo,
podemos considerar que la variable: “el estudiante posee beca”, es una variable binaria, o
bien “el estudiante es repitente”. En biologı́a también aparecen con frecuencia este tipo
de variables, como por ejemplo: “el animal posee alas”, o bien “la planta está presente en
la parcela”.
En este contexto, dados dos individuos i y j en Ω, antes de medir su similitud se
pueden contar los siguientes elementos:

pij : es el número de atributos que poseen al mismo tiempo tanto i como j

qij : es el número de atributos que presenta sólo uno de los dos

p: es el número total de atributos (número de variables).

Existe una serie de ı́ndice de similitud basados en los elementos anteriores. Daremos a
continuación solamente los dos ı́ndices más usados, dejando para la consulta de abundantes
referencias los otros ı́ndices [31, 43, 46, 56, 94, 95, 65, 86, 63, 145]. Los ı́ndices de similitud
más usados para datos binarios son:

el ı́ndice de Jaccard:
pij
s(i, j) =
pij + qij

el ı́ndice de Russel y Rao:


pij
s(i, j) =
p
138 Clasificación jerárquica

Obsérvese que, cuando los individuos i y j coinciden en todos sus atributos, el ı́ndice
de Jaccard alcanza su valor máximo que es 1, mientras que el de Russel y Rao alcanza
como valor máximo el cociente entre el número de atributos que coinciden y p. Sólo en el
caso en que tanto i como j posean todos los atributos el valor del ı́ndice de Russel y Rao
será 1.

Ejemplo 7.2.1 Supóngase que se tienen 6 individuos a, b, c, d, e, f descritos por 4 varia-


bles binarias v 1 ,v 2 ,v 3 ,v 4 . Los datos son:

v1 v2 v3 v4
a 1 0 1 1
b 0 1 1 1
c 0 0 0 0
d 1 0 1 1
e 0 1 0 0
f 1 1 1 1

Al calcular el número de atributos para los que coinciden (con presencia) las parejas
de individuos o para los que son diferentes, se obtienen los valores de pij y qij dados a
continuación:
pij b c d e f qij b c d e f
a 2 0 3 0 3 a 2 3 0 4 1
b 0 2 1 3 b 3 2 2 1
c 0 0 0 c 3 1 4
d 0 3 d 4 1
e 1 e 3

Al calcular los ı́ndices de Jaccard y de Russel & Rao, se obtiene:

Jaccard Russel&Rao
s(i, j) a b c d e f s(i, j) a b c d e f
a 1 0,5 0 1 0 0,75 a 1 0,5 0 0,75 0 0,75
b 1 0 0,5 0,33 0,75 b 1 0 0,5 0,25 0,75
c 1 0 0 0 c 1 0 0 0
d 1 0 0,75 d 1 0 0,75
e 1 0,25 e 1 0,25
f 1 f 1

En la tabla de datos original se puede ver que los individuos a y d coinciden en todos
sus valores. El valor de 1 para s(i, j) calculado con el ı́ndice de Jaccard refleja este hecho,
lo cual no se aprecia con el ı́ndice de Russel & Rao. por otra parte, el individuo a es el
opuesto de e, el valor de 0 para s(i, j) calculado con ambos ı́ndices refleja este hecho.
7.2 Similitudes y disimilitudes 139

7.2.2. Disimilitudes

Una disimilitud es una función d : Ω × Ω −→ R+ tal que:

1. para cada i ∈ Ω se tiene d(i, i) = 0

2. para cada i, j ∈ Ω, hay simetrı́a: d(i, j) = d(j, i)

Si a la definición anterior uno le añade:

3. d(i, j) = 0 ⇔ i = j

4. la desigualdad triangular: para cada i, j, k ∈ Ω d(i, j) ≤ d(i, k) + d(k, j)

entonces la disimilitud es lo que llamamos una distancia.

Caso cuantitativo

La disimilitud más usada es la distancia euclı́dea clásica:


v
u p
uX
d(i, j) = t (xk − xk )2
i j
k=1

Recuérdese de lo estudiado en el capı́tulo 2 que una distancia euclı́dea puede ser


definida a partir de una métrica, esto es, de una matriz simétrica definida y positiva M .
En tal caso, se podrı́a poner d2 (i, j) = ||xi − xj ||M = (xi − xj )t M (xi − xj ). Ası́, la distancia
euclı́dea clásica coincide con el caso en que se usa como métrica la identidad de orden p.

El uso de la distancia clásica tiene sentido cuando las variables observadas sobre los
individuos son cuantitativas, pues en este caso tienen sentido las operaciones expresadas
en la fórmula de la distancia. Hay que mencionar que esta distancia tiene un inconveniente
si se usa sin precaución: debido a que cada término de la sumatoria es elevado al cuadrado,
la distancia euclı́dea tiene tendencia a magnificar las grandes diferencias entre las obser-
vaciones, por lo que si hay un dato aberrante este comportamiento atı́pico se traducirá en
un valor muy grande dela distancia. Por ello, antes de cualquier análisis multivariado,
siempre se recomienda hacer un estudio univariado de cada variable; en particular una
caja de dispersión deberı́a indicar la presencia de valores aberrantes y ası́ el analista puede
tomar las medidas necesarias.
140 Clasificación jerárquica

Algunos autores prefieren usar una distancia como la siguiente, llamada “city-block”1 :
p
X
d(i, j) = |xki − xkj |
k=1

Otra distancia usada en ocasiones, es la llamada distancia de Chebychev:


d(i, j) = máx{|xki − xkj |/k = 1, . . . , p}

Ejemplo 7.2.2 Supóngase que se tiene 4 individuos a, b, c, d descritos por 5 variables


v 1 , v 2 , v 3 , v 4 , v 5 , según se muestra en la tabla siguiente:
v1, v2 v3 v4 v5
a 2 3,5 0 4 7
b 4 3 1,5 5 6
c 0 6 4 2 3
d 3 3 1 4 77

El cálculo de las distancias euclı́dea clásica, city-block y de Chebichev son:


Euclı́dea City-block
d(i, j) a b c d d(i, j) a b c d
a 0 2,915 6,801 70,02 a 0 6 14,5 72,5
b 0 7,018 71,02 b 0 15,5 73,5
c 0 74,21 c 0 85
d 0 d 0

Chebychev
d(i, j) a b c d
a 0 2 4 70
b 0 4 71
c 0 74
d 0
De los cuatro individuos de la tabla de datos, se puede apreciar que a y b tienen valores
muy parecidos para las cinco variables, y su cercanı́a es reflejadapor el bajo valor de las
distancias. Por su parte, d también tiene valores cercanos a a y b en las cuatro primeras
variables, aunque para la quinta tenga una gran diferencia; si se supone que esta gran
diferencia es debida a un valor “aberrante”, como por ejemplo debido a un error de un
digitador a la hora de pasar los datos del papel a la computadora (supóngase que el dato
real era 7 y no 77, como aparece en la tabla), entonces puede apreciarse que las tres
distancias mostradas son muy sensibles a los valores de estos casos atı́picos.
1
Este nombre proviene del hecho que para medir la distancia entre dos puntos de una ciudad como
el centro de San Jośe, donde las calles y avenidas son paralelas y se cruzan perpendicularmente entre sı́,
hay que medir las distancias recorriendo las calles pasando por las esquinas, y no en lı́nea recta
7.2 Similitudes y disimilitudes 141

7.2.3. Caso binario


Se puede definir una disimilitud facilmente a partir de una similitud en el caso de tener
variables binarias. Por ejemplo, considerando una similitud s cuyo valor máximo sea 1,
entonces se define d(i, j) = 1 − s(i, j). Ası́, se definen la disimilitud de Jaccard:
qij
d(i, j) = 1 −
pij + qij

usando las notaciones de la sección 7.2.1, y la disimilitud de Russel & Rao:

p − pij
d(i, j) =
p

Ejemplo 7.2.3 Usando los datos del ejemplo 7.2.1, tendrı́amos los siguientes valores
para las disimilitudes de Jaccard y de Russel & Rao:

Jaccard Russel&Rao
d(i, j) a b c d e f d(i, j) a b c d e f
a 0 0,5 1 0 1 0,25 a 0 0,5 1 0,25 1 0,25
b 0 1 0,5 0,66 0,25 b 0 1 0,5 0,75 0,25
c 0 1 1 1 c 0 1 1 1
d 0 1 0,25 d 0 1 0,25
e 0 0,75 e 0 0,75
f 0 f 0

7.2.4. Caso cualitativo


Se podrı́a plantear la medida de la disimilitud entre dos individuos descritos por p
variables cualitativas, usando las definiciones de disimilitudes para datos binarios y la
tabla de datos en forma disyuntiva completa, esto es, con las indicatrices (0 y 1) de las
modalidades de las variables cualitativas. En este caso, se podrı́an usar las disimilitudes de
Jaccard y Russel & Rao vistas anteriormente. Sin embargo, lo usual es usar adaptaciones
especiales de las distancias euclı́deas, como la distancia euclı́dea clásica y la distancia de
χ2 (chi-cuadrado).
La distancia euclı́dea clásica entre dos individuos i y j descritos por p variables cuali-
tativas x1 , x2 , . . . , xp es:
p
X
d(i, j) = 2 δijk
k=1

si xki 6= xkj

1
donde δijk = .
0 si xki =6 xkj
142 Clasificación jerárquica

La distancia de χ2 es:
p
!
1 X 1 1
d(i, j) = 2 + δijk
p k=1 s(xi ) s(xkj )
k

donde δijk se define como antes y s(xki ) es el número de veces que la modalidad xki está pre-
sente para la variable xk .

7.2.5. Agregaciones
Los métodos de clasificación automática usan generalmente una noción de proximidad
entre grupos de elementos, para medir la separación entre las clases que se buscan. Para
ellos, se introduce el concepto de agregación, que no es más que una disimilitud entre
grupos de individuos: sean A, B ⊂ Ω, entonces la agregación entre A y B es:

δ(A, B)

tal que δ es una disimilitud en el conjunto de partes P(Ω):

i) δ(A, A) = 0 para todo A ∈ P(Ω)

ii) δ(A, B) = δ(B, A) para todo A, B ∈ P(Ω)

Usualmente, la medida de agregación está basada en la disimilitud d medida sobre Ω.


En efecto, denotando A yB dos subconjuntos de Ω, las agregaciones más usadas son:

1. Agregación del salto mı́nimo o del vecino más cercano:

δmı́n (A, B) = mı́n{d(a, b)|a ∈ A, b ∈ B}

2. Agregación del salto máximo:

δmáx (A, B) = máx{d(a, b)|a ∈ A, b ∈ B}

3. Agregación del salto promedio:

1 X
δprom (A, B) = d(a, b)
card(A) + card(B) a∈A
b∈B

En el caso cuantitativo se tiene además:


7.3 Jerarquı́as 143

4. Agregación de Ward:

card(A)card(B)
δward (A, B) = ||g(A) − g(B)||2 = I(A ∪ B) − I(A) − I(B)
card(A) + card(B)

P A, ||·|| es una norma euclı́dea e I(A)


donde g(A) es el centro de gravedad del conjunto
es la inercia del conjunto A, es decir I(A) = xi ∈A pi ||xi − g(A)||2 . Esta agregación,
también llamada del incremento de la inercia, sólo tiene sentido cuando se está en
un contexto euclı́deo, es decir, cuando se dispone de variables cuantitativas.

Existen otras agregaciones también citadas en la literatura, como por ejemplo la dis-
tancia entre los centros de gravedad o la inercia I(A ∪ B). Sin embargo, la mayorı́a de
éstas tienen el defecto de producir inversiones en el algoritmo de clasificación jerárquica
ascendente que veremos en la siguiente sección.

7.3. Jerarquı́as
Generalmente, los métodos de particionamiento –como los de nubes dinámicas que pre-
sentaremos en el próximo capı́tulo– encuentran en cada ejecución una sola partición en un
número dado a priori de clases. Ahora bien, este número de clases puede no “representar”
el número real de clases que se forman en la configuración de los datos.
Por ejemplo, considérese la siguiente configuración de puntos en R2 :

r
r rr
r r
r
r r r
rr r
rr r
r r rr

Puede apreciarse que de forma natural se forman 3 clases de individuos según la


cercanı́a de los puntos. Ahora bien, si el usuario no conoce esta configuración (para efectos
de simplificación la hemos dado en dos dimensiones, pero el lector puede pensar que se
trata de una configuración en muchas más dimensiones), entonces puede suceder que se
trate de obtener clasificaciones en números de clases diferentes de 3, por ejemplo en 2
clases o en 5 clases.
Para paliar este problema, uno puede plantearse la posibilidad de crear clasificaciones
para varios números de clases al mismo tiempo, y escoger luego la que más conviene
según las necesidades. Una manera de abordar este problema, es tratar de obtener un
144 Clasificación jerárquica

a b c d e

Figura 7.1: Ejemplo de árbol jerárquico

árbol jerárquico de clasificaciones, tal como se muestra en la figura 7.1 para un conjunto
Ω = {a, b, c, d, e}.
Una árbol jerárquico tiene la ventaja de que es de fácil interpretación. En efecto, para
el árbol de la figura 7.1, se interpreta que los individuos más cercanos son los que se unen
a un nivel más bajo del árbol, esto es a y b. Enseguida, los dos individuos que siguen en
similitud son d y e, luego el grupo {a, b} con el individuo c, y finalmente se obtiene el
grupo total Ω.
El procedimiento para construir el árbol jerárquico, trata de encontrar los dos indivi-
duos más cercanos en el sentido de la disimilitud d definida sobre Ω. Una vez que se han
unido, se consideran las distancias entre los individuos restantes, y entre ellos y el nuevo
grupo formado. Para esto último, necesitamos escoger una agregación δ.
Un árbol jerárquico representa lo que se conoce como una jerarquı́a.
Una jerarquı́a sobre Ω es un subconjunto H de P(Ω) tal que:

1. Ω ∈ H,

2. ∀i ∈ Ω, {i} ∈ H,

3. ∀i, i0 ∈ H : h ∩ h0 6= ∅ ⇒ h ⊂ h0 o h0 ⊂ h.

Puede observarse que una jerarquı́a tiene asociado un árbol, llamado árbol jerárquico,
donde cada nodo del árbol es un elemento de H y las hojas del árbol son los elementos
de Ω. Además, el árbol tiene una raı́z que es Ω mismo. Si este árbol es binario se dice que
la jerarquı́a es binaria.
La clasificación jerárquica consiste en construir una jerarquı́a sobre Ω, de tal forma
que los individuos más parecidos formen nodos, y los grupos de individuos más similares
también formen nodos.
7.4 Algoritmo de clasificación jerárquica ascendente 145

Se puede asociar un ı́ndice f a la jerarquı́a, tal que:

1. f (h) ≥ 0,

2. ∀i ∈ Ω : f ({i}) = 0,

3. ∀h, h0 ∈ H : h ⊂ h0 ⇒ f (h) ≤ f (h0 ).

Se dice entonces que (H, f ) es una jerarquı́a indexada.

Pueden consultarse las siguientes referencias como una introducción a estos conceptos:
[17, pp. 119–138, tomo 1], [31, pp. 544–558], [56, pp. 74–76], [94, pp. 105–108]. De las
referencias anteriores, quizás la más accesible sea [56].

7.4. Algoritmo de clasificación jerárquica ascendente


El algoritmo general de clasificación jerárquica ascendente (CJA) construye,
en cada paso una partición en k clases, que denotaremos Pk , mediante la fusión de los
dos conjuntos de la partición anterior (Pk−1 en k − 1) clases que sean más cercanos en el
sentido de δ. El algoritmo procede de la siguiente manera:

1. k := 0; ∀i ∈ Ω, {i} ∈ H; Pk := {{i}|i ∈ Ω};

2. k := k + 1 ;

3. escoger h1 , h2 ∈ Pk tales que δ(h1 , h2 ) sea mı́nimo; sea h := h1 ∪ h2 ; sea Pk :=


(Pk−1 ∪ {h}) − {h1 , h2 }; sea H := H ∪ {h};

4. calcular f (h) y δ(h, h0 ), para todo h0 ∈ H;

5. mientras k < n − 1 ir al paso 2;

6. H = H ∪ Ω;

El H obtenido es la jerarquı́a deseada. Se define un ı́ndice f , como una función f :


H −→ R+ definida por:

0 si h es un conjunto unitario
f (h) =
δ(h1 , h2 ) si h1 , h2 se fusionaron en el algoritmo para formar h

Esta indexación hace que el árbol de clasificación sea más fácilmente interpretable, pues
da la idea de la altura de los nodos del árbol: entre más bajos sean los nodos más parecidos
son los objetos que están debajo del nodo.
146 Clasificación jerárquica

7.4.1. Ejemplos

Ejemplo 7.4.1 Supóngase que se tiene los siguientes valores de una disimilitud sobre
Ω = {a, b, c, d}:
a b c d
a 0 1 3 5,5
b 0 2 4,5
c 0 2,5
d 0

Puede verse que el mı́nimo de la disimilitud se alcanza para la disimilitud entre a y b,


cuyo valor es 1. Por lo tanto, se agregan estos dos individuos y al usar la agregación del
salto mı́nimo δmı́n se obtiene la nueva tabla:

{a, b} c d
{a, b} 0 2 4,5
c 0 2,5
d 0

Ahora, el mı́nimo valor es para δ({a, b}, c) = 2, por lo que se fusionan {a, b} y c,
obteniéndose la nueva tabla:

{a, b, c} d
{a, b, c} 0 2,5
d 0

De esta forma, se obtiene el árbol jerárquico que se muestra en la figura 7.2.

a b c d

Figura 7.2: Arbol de clasificación obtenido al usar la agregación del salto mı́nimo
7.4 Algoritmo de clasificación jerárquica ascendente 147

Ejemplo 7.4.2 En caso de usarse la agregación del salto máximo δmáx sobre los datos
anteriores, se obtendrı́an sucesivamente las dos tablas siguientes:

{a, b} c d
{a, b} {c, d}
{a, b} 0 3 5,5
{a, b} 0 5,5
c 0 2,5
{c, d} 0
d 0

y el árbol de clasificación serı́a el presentado en la figura 7.3.

a b c d

Figura 7.3: Arbol de clasificación opbtenido al usar la agregación del salto máximo

Ejemplo 7.4.3 Por otra parte, si se usa la agregación del salto promedio δprom sobre los
datos anteriores, se obtienen las tablas:

{a, b} c d
{a, b, c} d
{a, b} 0 2,5 5
{a, b, c} 0 4,16
c 0 2,5
d 0
d 0

Puede verse que en la primera tabla se alcanza el mı́nimo para dos valores diferentes:
δ({a, b}, c) = 2,5 = δ(c, d). Ante esta situación, el usuario debe decidir cual de las dos
posibles fusiones hará.2 Suponiendo que se fusionan {a, b} con c, se obtiene el siguiente
árbol mostrado en la figura 7.4.
El lector puede comprobar que de haber escogido la fusión de c con d al árbol de
clasificación hubiera tenido una forma diferente.
2
En los programas de computación, normalmente se decide automáticamente cual fusión se hará; por
ejemplo, se sugiere hacer aquélla que involucre al menor ı́ndice de individuo.
148 Clasificación jerárquica

a b c d

Figura 7.4: Arbol de clasificación obtenido al usar la agregación del salto promedio

7.4.2. Fórmula de recurrencia


Según los ejemplos mostrados anteriormente, puede apreciarse que luego de cada fu-
sión deben calcularse algunos valores de la agregación: aquéllos que involucran al grupo
recién creado, y que además se suprime de la tabla a los elementos individuales que se
fusionaron. Se acuerdo con la definición de los ı́ndices de agregación dados, todos ellos se
calculan a partir de la tabla original de las disimilitudes, y no a partir de la tabla recién
calculada. Para evitar hacer referencia siempre a la tabla original, y hacer este cálculo
de actualización solamente a partir de la última tabla de que se dispone, es que se han
encontrado fórmulas de recurrencia o actualización de las agregaciones. Estas fórmulas
son especialmente útiles para las agregaciones del salto promedio y la de Ward. Si deno-
tamos a y b los dos elementos que se fusionan en una etapa, y h cualquier otro elemento,
entonces las fórmulas de actualización para δprom y δward son:
card(a)δprom (h, a) + card(b)δprom (h, b)
δprom (h, a ∪ b) =
card(a) + card(b)
(card(h) + card(a))δward (h, a) + (card(h) + card(b))δward (h, b) − card(h)δward (a, b)
δward (h, a∪b) =
card(a) + card(b)
donde card(a), card(b), card(h) son respectivamente las cardinalidades de a, b y h.

Ejemplo 7.4.4 Considérese la siguiente tabla con los valores de una disimilitud:
a b c d e
a 0 25 18 25 10
b 0 30 40 34
c 0 10 15
d 0 18
e 0
7.4 Algoritmo de clasificación jerárquica ascendente 149

Usando la agregación del salto promedio δprom , se obtiene la secuencia de tablas:

a b {c, d} e
{a, e} b {c, d}
a 0 25 21,5 10 {a, c, d, e} b
{a, e} 0 29,5 19
b 0 35 34 {a, c, d, e} 0 32,25
b 0 35
{c, d} 0 16,5 b 0
{c, d} 0
e 0

y el árbol de clasificación mostrado en la figura 7.5.

30

20

10

c d a e b

Figura 7.5: Arbol de clasificación obtenido al usar la agregación del salto promedio

7.4.3. Inversiones
Se dice que una clasificación jerárquica produce una inversión cuando se construye
h = a ∪ b con f (h) < f (a) ó f (h) < f (b). Diday [56] dió condiciones sobre los coeficientes
de la fórmula de recurrencia para que no se produzcan inversiones. Los cuatro ı́ndices
de agregación no producen inversiones como sepuede verificar sobre el teorema de Diday,
pero hay otros ı́ndices que sı́ pueden producir, como el de la distancia entre centros de
gravedad δ(a, b) = ||ga − gb ||2 .

7.4.4. Algoritmos ascendentes acelerados


A partir de la investigaciones de Bruynooghe, se estudian algoritmos más eficientes pa-
ra construir las jerarquı́as. Existen dos enfoques, fundamentalmente: el de los vecindarios
reducibles y el de los vecinos recı́procos.
El primero establece que, dado un umbral r, cuando se cumple una rpopiedad llamada
de vecindarios reducibles, en cada paso de la construcción jerárquica ascendente, sola-
mente se examinan los vecinos más cercanos de r de un grupo existente. Este criterio se
150 Clasificación jerárquica

puede encontrar en: [94, 171–194], [95, 368–380], [63, 90–100]. Además, Diday [56, 91–96]
dió condiciones sobre los coeficientes de la fórmula de recurrencia de lanza & Williams,
para caracterizar a los ı́ndices de agregación que cumplen la propiedad de vecindarios
reducibles.
El segundo enfoque se debe a De Rham y se conoce como el principio de vecinos
recı́procos: dos grupos a y b se llaman vecinos recı́procos si a es el grupo más cercano de b
y b el de a. La construcción jerárquica ascendente se puede simplificar si se fusionan, desde
un primer paso, todos los vecinos recı́procos. Una vez hechas estas fusiones, se calculan
los vecinos recı́procos de los grupos formados y se recomienza, alternando este paso de
fusión con el desarrollo normal del algoritmo de clasificación jerárquica ascendente. Puede
encontrarse una descripción del procedimiento en [43, 176–177].
Existen demostraciones sobre la equivalencia de los resultados obtenidos con cualquiera
de los dos enfoques acelerados anteriores y el algoritmo usual de clasificación jerárquica
ascendente.

7.5. Ejemplo de notas escolares


Consideramos el ejemplo de notas escolares, en que 10 estudiantes son descritos por
las notas entre 0 y 10 obtenidas en 5 materias: matemáticas, ciencias, historia, español y
educación fı́sica.
La clasificación jerárquica usando la agregación de Ward con la distancia euclı́dea, da
como resultado:
Lucı́a
Carmen
Ana
Marı́a
José
Pedro
Andrés
Carlos
Sonia
Luis

Puede verse que hay una clara clasificación en dos clases, que es:
C1 = {Lucı́a,Inés,Ana,Marı́a,José},
C2 = {Pedro,Andrés,Carlos,Sonia,Luis}.
Si se quiere hacer una clasificación en tres clases, entonces se formarı́a una nueva clase
C3 que contendrı́a sólo a Luis.
7.6 Jerarquı́as y ultramétricas 151

El lector deseoso de consultar aplicaciones de la clasificación jerárquica, puede encon-


trar 13 aplicaciones en [17, pp. 321–538, tomo 1].

7.6. Jerarquı́as y ultramétricas


Una propiedad esencial es que toda jeraquı́a indexada tiene asociada una ultramétrica
y viceversa. La demostración de esta propiedad, llamada teorema de Johnson–Benzécri,
puede consultarse en: [17, pp. 138–142, tomo 1], [56, pp. 98–102], [94, pp. 111–114], [63,
pp. 33–38].

La propiedad anterior puede inducir a pensar que, para poder obtener un jerarquı́a,
basta con encontrar un ultramétrica δ “similar” a la disimilitud d definida sobre Ω. Esta
idea fue seguida por autores como M. Roux, que propuso un algoritmo que hace modifica-
ciones sobre d con el fin de ir obteniendo poco a poco la ultramétrica deseada. De hecho,
el supremo de las ultramétricas inferiores a d es a su vez una ultramétrica, llamada la ul-
tramétrica subdominante. Esta ultramétrica puede ser obtenida mediante la construcción
de un árbol de longitud mı́nima sobre Ω3 , usando por ejemplo los algoritmos de Prim o de
Kruskal. También Roux habı́a propuesto un algoritmo que examina todos los tripletes de
elementos de Ω, construyendo cada vez un triángulo isósceles agudo (puede consultarse
[31, pp. 568–569], [63, pp. 50–51]).

7.7. Observaciones acerca de la clasificación jerárqui-


ca
La clasificación jerárquica ascendente tiene dos defectos que ya hemos observado sobre
los ejemplos y sobre los que hay que insistir:

En primer lugar, los resultados dependen de la agregación que se escoja. Por ello,
siempre se recomienda al usuario que haga una reflexión antes de aplicar el método,
en el sentido de ensoger la agregación que tenga un mejor sentido en el problema
que se esté tratando.

En segundo lugar, en el caso en que haya igualdad en el valor de la agregación para


dos parejas diferentes, se debe escoger la pareja que se fusionará, escogencia que
puede llevar a resultados diferentes.
3
Un árbol de longitud mı́nima sobre un conjunto Ω es un árbol tal que las aristas tienen valores, todos
los nodos son elementos de Ω, y la suma de los valores de las aristas es mı́nima entre todos los árboles
con esas caracterı́sticas.
152 Clasificación jerárquica

7.7.1. Algoritmos descendentes


Debe notarse que la construcción de un árbol de clasificación podrı́a también hacerse
descendentemente. Los algoritmos descendentes parten de Ω y buscan particionar cada
grupo de dos (hacen dicotomı́as), hasta obtener los conjuntos unitarios formados por los
individuos. Cada método difiere en el criterio para hacer la dicotomı́a. Los métodos más
conocidos son los de Williams & Lambert, de Hubert, de Roux y de Edwards & Cavalli–
Sforza. Presentaciones de éstos se pueden encontrar en [86, pp. 251–276], [158, pp. 85–92],
[63, pp. 101–106]; con menos detalle hablan [17, pp. 85–92, tomo 1, sobre todo sobre
un método usado por Lacoste y basado en el Análisis Factorial] [46, 126–127], [94, pp.
206–212], [65, pp. 82–88].
Capı́tulo 8

Clasificación por particiones

Los métodos de clasificación por particiones buscan una sola partición de Ω, mediante
la optimización de algún criterio. Existen básicamente dos tipos de métodos:

los que fijan a priori el número de clases,


los que no fijan este número.

Los primeros tienen la ventaja de la sencillez y rapidez, mientras que los segundos
tienen la ventaja obvia de buscar el número de clases. Sin embargo, estos últimos tienen
la gran desventaja de depender de un gran número de parámetros que deben ser estima-
dos por el usuario y cuya manipulación no es fácil sin una adecuada experimentación y
práctica. Ejemplos de estos métodos son Isodata y Wishart.
En este curso sólo abordaremos los primeros métodos, que se puede agrupar en un
esquema llamado de Nubes Dinámicas.
Los métodos de nubes dinámicas están basados en el principio que una clase puede
ser representada por algún objeto, sea éste un punto promedio, un individuo o grupo de
individuos de la clase, un conjunto de parámetros, etc; a este representante lo llamaremos
núcleo. El primer algoritmo de este tipo fue propuesto por Forgy (1965), y luego fueron
propuestos otros similares por Mac Queen, Diday, Jancey, etc.
La idea subyacente es:

asignar los individuos al núcleo más cercano,


calcular los núcleos con las clases formadas en el paso anterior,
iterar los pasos anteriores hasta obtener estabilidad.

Se parte de una configuración inicial de núcleos, y se puede probar que el método


converge a una partición que no mejora el criterio. Dependiendo del contexto y del tipo
de núcleo, se define un criterio a ser mejorado.

153
154 Clasificación por particiones

8.1. Problema combinatorio


Es necesario hacer notar que, cuando se quiere obtener una partición en k clases de
un conjunto con n individuos, no tiene sentido examinar todas las posibles particiones
del conjunto de individuos en k clases. En efecto, se está en presencia de un problema
combinatorio muy complejo; sólo para efectos de ilustración, mencionemos que el número
de particiones de un conjunto con 60 elementos en 2 clases es aproximadamente 1018 , y
para 100 elementos en 5 clases anda por 1068 . De hecho, se puede probar que el número
S(n, k) de particiones diferentes de un conjunto de n individuos en k clases, cumple la
ecuación de recurrencia
S(n, k) = S(n − 1, k − 1) + kS(n − 1, k)
Esto lleva a que
k  
1 X k
S(n, k) = (−1)k−i in
k! i=0 i

De lo anterior se deduce la necesidad de contar con métodos y algoritmos que den


una solución satisfactoria del problema propuesto, aunque evidentemente puede que no
se obtenga la mejor solución en todos los casos.

8.2. Criterio de la inercia


Como se ha mencionado, se quiere obtener clases lo más homogéneas posibles y tal
que estén suficientemente separadas. Este objetivo se puede concretar numéricamente a
partir de la siguiente propiedad:
supóngase que se está en presencia de una partición P = (C1 , C2 , . . . , Ck ) de Ω, donde
g1 , g2 , . . . , gk son los centros de gravedad de las clases:
X
g(C` ) = pi xi
i∈C`

g es el centro de gravedad total de la nube de puntos N = (X, M, D):


n
X
g= pi xi
i=1

y denotamos µ1 , µ2 , . . . , µk los pesos de las clases:


card(C` )
µ` = .
n
Si se denota I(N ) la inercia total de la nube de puntos,
k
X
B= µ` ||g(C` ) − g||2M
`=1
8.3 Método de nubes dinámicas 155

la inercia inter-clases, es decir la inercia de los centros de gravedad respecto al centro de


gravedad total, y
X k
W = I(C` )
`=1
P
la inercia intra-clases, es decir la inercia al interior de cada clase, con I(C` ) = i∈C` pi ||xi −
g(C` )||2M , entonces se tiene la igualdad de Fisher:
I(N ) = B + W.
Obsérvese que B mide precisamente la “separación” de la nube de puntos, al medir la
inercia entre los centros de gravedad; si esta inercia es grande se deduce que los centros de
gravedad están bastante separados (son dispersos). Además, W mide la homogeneidad de
las clases; en efecto, si W es pequeño entonces cada I(C` ) es pequeño y ası́ la dispersión
al interior de cada clase es pequeña.
Como la inercia I(N ) es fija, dada la nube de puntos, entonces al minimizar B se
maximiza automáticamente W . Por lo tanto, los dos objetivos (homogeneidad al interior
de las clases y separación entre las clases) se alcanzan al mismo tiempo al querer minimizar
W . Ası́, el objetivo en el método de nubes dinámicas es encontrar una partición P de Ω
y representantes de las clases, tales que W sea mı́nima.

8.3. Método de nubes dinámicas


Denotaremos Ω el conjunto de n individuos que queremos clasificar y supondremos que
están descritos por p variables cuantitativas x1 , x2 , . . . , xp . Supondremos que los individuos
están dotados de pesos pi .
En el método de nubes dinámicas, cada clase estará representada por un núcleo, que
será un elemento representativo de los integrantes de la clase. Estos núcleos pueden ser
de dos tipos:

puede ser un individuo promedio, en cuyo caso se usará el centro de gravedad, cal-
culado por los promedios de los individuos que forman la clase;
puede ser un grupo de objetos representativos, es decir, un grupo de algunos indi-
viduos de la clase escogidos de tal manera que sean las más representativos de la
clase.

El método de nubes dinámicas se basa en hacer iteraciones sobre dos operaciones:

representar una clasificación por núcleos;


hacer clasificaciones de los individuos mediante la asignación de los individuos al
núcleo más cercano.
156 Clasificación por particiones

Según esta idea, dada una representación mediante k núcleos, se asignarán los indivi-
duos al núcleo más cercano, definiéndose de esta forma una partición. Ahora bien, dada
esta partición, se calculan los nuevos núcleos, ya sea como centros de gravedad o como un
pequeño grupo de elementos representativos de la clase. Los nuevos núcleos pueden ser
ligeramente diferentes de los que sirvieron para crear las clases, por lo que se puede ver
que el método va aproximando poco a poco la solución que se obtendrá finalmente, que
será cuando ya los núcleos sean estables.

8.3.1. Escogencia de los núcleos iniciales


La escogencia de los núcleos iniciales, la haremos de manera aleatoria. Ası́, en el caso en
que los núcleos sean los centros de gravedad, escogeremos k elementos entre el conjunto Ω
de individuos. En el caso en que los núcleos estén formados por elementos representativos,
escogeremos k veces m elementos entre los individuos (respecto al número m, daremos
algunas indicaciones más adelante).

8.3.2. Caso de los centros de gravedad


En el caso en que se está en presencia de variables cuantitativas, tiene sentido el cálculo
de promedios y de distancias euclı́deas. Por lo tanto, también tiene sentido que cada clase
esté representada por su centro de gravedad, esto es, por un individuo ficticio cuyas
coordenadas son los valores promedio de las variables para los individuos pertenecientes
a la clase. Este es el caso más simple y el usado más corrientemente. Generalemente, se
usará la distancia euclı́dea clásica en este contexto.

8.3.3. Ejemplos
Ejemplo 8.3.1 Ilustremos gráficamente el comportamiento del método de nubes dinámi-
cas. Supóngase que se está en presencia de una serie de indidivuos representados en R2
por la siguiente configuración:

r rr r
r
r rr
r r r
r r r

Se desea obtener una clasificación de los individuos en 2 clases. A partir de la represen-


tación gráfica puede verse que hay dos clases “naturales”: una de los individuos ubicaods
8.3 Método de nubes dinámicas 157

a la izquierda del plano y otra de los que están a la derecha.


Si se escogen al azar los dos individuos mostrados en la figura siguiente por el sı́mbolo
:
r
rr
r
r rr
r r
r r r

entonces se obtiene la partición mostrada en la siguiente figura, donde los individuos de


una clase se muestran con un triángulo 4 y los de la otra con un cuadrado :

 




4 44
4 44
4 4
4

Para proceder a la segunda iteración, se calculan los centros de gravedad de las clases
determinadas, obteniéndose los puntos ficticios mostrados con un ?:

r ∗r r r
r
r rr
r r r
r r ∗ r

Enseguida se asignan los individuos al centro más cercano, obteniéndose la partición:

 




 44
4 44
4 4
4
158 Clasificación por particiones

Al empezar la tercera iteración, se calculan los centros de gravedad de las clases ante-
riores:

r rr r
r∗
r rr
r r
r ∗r rr

y se obtienen las clases:

 




 44
 44
 4


Finalmente, se calculan los centros de las clases anteriores:

r rr r
r
r∗ rr
r r∗r
r r r

Las clases deducidas de estos centros son las mismas de la iteración precedente. De
esta forma, se ha llegado a un punto de estabilidad pues ahora el cálculo de los centros
de gravedad dará los mismos centros obtenidos antes, por lo que las clases ya no serán
modificadas.

Ejemplo 8.3.2 Supóngase que se tienen 14 objetos descritos por dos variables x, y; los
valores de los datos están dados en la tabla 8.1.
Se tiene entonces la configuración de puntos dada en la figura 8.1.
De acuerdo con la representación de los puntos en el plano se puede apreciar que hay
dos clases naturales, que son:
8.3 Método de nubes dinámicas 159

Objeto x y
1 30 104
2 68 129
3 40 155
4 40 195
5 29 226
9 70 93
6 60 215
7 46 239
8 84 234
10 193 129
11 210 107
12 216 130
13 216 157
14 234 162

Cuadro 8.1: Tabla de 14 objetos descritos por dos variables x, y.


•7 •8
5•
•6
•4
•3 13• •14
•2 10• •12
•1 •11
•9

Figura 8.1: Configuración de 14 puntos descritos por dos variables x, y.

Objetos
Clase 1 1, 2, 3, 4, 5, 6, 7, 8, 9
Clase 2 10, 11, 12, 13, 14

Para aplicar el método de nubes dinámicas, se escogen al azar dos puntos entre los 14
dados, que se constituirán en los primeros núcleos; supóngase en un primer momento que
esos objetos son 4 (40, 195) y 5 (29, 226). Luego, se calculan las distancias de todos los
puntos a estos núcleos iniciales; estas distancias al cuadrado están dadas en la tabla 8.2.
De esta forma, se hacen las asignaciones de los objetos a la clase correspondiente al
núcleo más cercano, obteniéndose una primera clasificación que es:

Objetos
Clase 1 1, 2, 3, 4, 6, 9, 10, 11, 12, 13, 14
Clase 2 5, 7, 8

Para la segunda iteración, se calculan los centros de gravedad de las dos clases obte-
nidas anteriormente; estos centros de gravedad son: (125,18, 143,3) para la primera clase
160 Clasificación por particiones

Objeto Distancia al núcleo 1 Distancia al núcleo 2


1 8381 14885
2 5140 10930
3 1600 5162
4 0 1082
5 1082 0
6 800 1082
7 1972 458
8 3457 3089
9 11304 19370
10 27765 36305
11 36644 46922
12 35201 44185
13 32420 39730
14 38725 46121

Cuadro 8.2: Distancias cuadráticas de los 14 objetos a los núcleos iniciales.

y (53, 73) para la segunda clase. Los núcleos que se usarán en esta iteración serán estos
centros.
Ahora se calculan las distancias entre los 14 puntos y estos núcleos, obteniéndose las
distancias dadas en la tabla 8.3.
Objeto Distancia al núcleo 1 Distancia al núcleo 2
1 10607.53 5290
2 3476.33 2161
3 7395.93 493
4 9931.93 653
5 16093.73 3385
6 9391.93 1813
7 15431.13 4405
8 9923.93 4682
9 5577.13 6689
10 4801.33 21536
11 8508.73 29005
12 8421.53 28418
13 8432.33 26825
14 12187.13 32882

Cuadro 8.3: Distancias de los 14 objetos a los núcleos de la segunda iteración.

Al asignar los objetos al núcleo más cercano se obtiene la clasificación:

Objetos
Clase 1 9, 10, 11, 12, 13, 14
Clase 2 1, 2, 3, 4, 5, 6, 7, 8

Al comparar la clasificación anterior con la obtenida en la primera iteración, se nota


que los objetos 1, 2, 3, 4 y 6 pasaron de la primera clase a la segunda clase. Este cambio
8.3 Método de nubes dinámicas 161

hará variar los centros de gravedad de las clases. En efecto, para empezar la tercera itera-
ción, se calculan los centros de gravedad de las dos clases y se obtienen (194,83, 147) para
la primera clase y (49,625, 187,1) para la segunda. El cálculo de las distancias cuadráticas
de los objetos a los dos centros de gravedad da como resultado la tabla 8.4.

Objeto Distancia al núcleo 1 Distancia al núcleo 2


1 29008.04 7290.947
2 16402.24 3713.067
3 24027.04 1123.147
4 26267.04 155.1469
5 33730.64 1938.807
6 22795.04 885.9469
7 30605.44 2706.787
8 19845.64 3380.907
9 18491.04 9269.747
10 327.24 23930.57
11 1831.04 32134.55
12 738.44 30939.39
13 549.44 28584.99
14 1761.64 34622.31

Cuadro 8.4: Distancias de los 14 objetos a los núcleos de la tercera iteración.

La clasificación basada en las distancias anteriores es:

Objetos
Clase 1 10, 11, 12, 13, 14
Clase 2 1, 2, 3, 4, 5, 6, 7, 8, 9

que es precisamente la “clasificación natural” deseada. En efecto, al calcular los centros de


gravedad de las clases se obtienen (213,8, 137) para la primera clase y (51,889, 176,7) para
la segunda. Ahora, si se calculan las distancias de los objetos a estos nuevos núcleos se
notará que ningún objeto cambia de clase, por lo que el cálculo de los centros de gravedad
tampoco cambiará los núcleos. Estas distancias son dadas en la tabla 8.5.
De esta forma, se obtiene lo que llama una clasificación estable o convergente, que ya
no será modificada por el algoritmo.
Puede observarse que los núcleos de las dos clases han ido modificándose, según se
muestra en la tabla siguiente:

Iteración 1 Iteración 2 Iteración 3 Iteración 4


Clase 1 40 195 125.18 143.3 194.83 147 213.8 137
Clase 2 29 226 53 73 49.625 187.1 51.89 176.7

Esta evolución de los núcleos, y su carácter de centros de atracción de los demás puntos
para constituir las clases, es lo que le da el nombre a este método de nubes dinámicas.
Esta evolución de los núcleos puede ilustrarse mediante la figura 8.2.
162 Clasificación por particiones

Objeto Distancia al núcleo 1 Distancia al núcleo 2


1 34871.44 5764.462
2 21321.64 2534.822
3 30530.44 612.2621
4 33570.44 476.2621
5 42072.04 2954.442
6 29738.44 1532.662
7 38560.84 3915.982
8 26257.04 4314.342
9 22614.44 7333.662
10 496.64 22187.32
11 914.44 29856.86
12 53.84 29112.98
13 404.84 27320.18
14 1033.04 33380.14

Cuadro 8.5: Distancias de los objetos a los núcleos finales obtenidos.


1 • •
1 ◦3
4?2
• ••
 2 ◦3?4
• • •
• • •

Figura 8.2: Evolución de los núcleos para el método de nubes dinámicas (1a iteración: ,
2a iteración: , 3a iteración: ◦, 4a iteración: ?).
8.3 Método de nubes dinámicas 163

Ejemplo 8.3.3 ¿Qué pasa si los núcleos iniciales se escogen de forma diferente? Por
ejemplo, si se escogen como núcleos iniciales los objetos 5 (29, 226) y 7 (46, 239), enton-
ces se obtiene la evolución de las clases dada en la tabla 8.6, alcanzándose también la
clasificación natural1 .
Iteración Clase Núcleos Objetos
1 1 (29, 226) 1, 2, 3, 4, 5, 9
2 (46, 239) 6, 7, 8, 10, 11, 12, 13, 14
2 1 (46,17, 150,3) 1, 2, 3, 4, 5, 6, 7, 8, 9
2 (157,4, 171,6) 10, 11, 12, 13, 14
3 1 (51,89, 176,7) 1, 2, 3, 4, 5, 6, 7, 8, 9
2 (213,8, 137) 10, 11, 12, 13, 14

Cuadro 8.6: Evolución de las clases escogiendo los objetos 5 y 7 como núcleos iniciales.

Ejemplo 8.3.4 Consideremos ahora la tabla de datos dada en la tabla 8.7, que muestra
20 puntos caracterizados por dos variables x, y.
Objeto x y
1 1 1
2 2 1
3 1.5 1.5
4 1 2
5 2 2
6 1 3
7 2 6
8 2 7
9 2 8
10 3 6
11 3 7.5
12 3.5 8.5
13 4 7
14 5 4
15 5 5
16 5.5 3.5
17 6 4
18 6 5
19 6 6
20 7 5

Cuadro 8.7: Tabla de 20 objetos caracterizados por dos variables x, y.

Los objetos se representan en el plano mediante la configuración de 20 puntos mostrada


en el figura 8.3, observándose que hay tres clases “naturales” de objetos: una clase con
los objetos del 1 al 6, otra clase conteniendo los objetos del 7 al 13, y la tercera clase con
los objetos del 14 al 20.
1
El lector no debe creer que siempre se obtiene clasificación natural, para ello véanse los dos ejemplos
que siguen.
164 Clasificación por particiones

•12
9•
•11
8• •13
7• •10 •19
15• •18 •20
14• •17
•16
6•
4• •5
3•
1• •2

Figura 8.3: Configuración de 20 objetos en el plano.

En la primera iteración, se escogen al azar tres objetos, digamos que los objetos esco-
gidos son el objeto 1 (1, 1), el objeto 6 (1, 3) y el objeto 8 (2, 7). Estos tres objetos serán
los núcleos iniciales y luego se calculan las distancias de los 20 objetos a los núcleos,
obteniéndose las distancias al cuadrado dadas en la tabla 8.8.
Objeto Distancia al núcleo 1 Distancia al núcleo 2 Distancia al núcleo 3
1 4 0 37
2 5 1 36
3 2.5 0.5 30.5
4 1 1 26
5 2 2 25
6 0 4 17
7 10 26 1
8 17 37 0
9 26 50 1
10 13 29 2
11 24.25 46.25 1.25
12 36.5 62.5 4.5
13 25 45 4
14 17 25 18
15 20 32 13
16 20.5 26.5 24.5
17 26 34 25
18 29 41 20
19 34 50 17
20 40 52 29

Cuadro 8.8: Distancias de los 20 objetos a los núcleos de la primera iteración.

Al clasificar los objetos en la clase del núcleo más cercano, se obtiene la siguiente
clasificación2 :
2
Debe notarse que la distancia de los objetos 4 y 5 al núcleo de la clase 1 es igual a la distancia de cada
uno al núlceo de la clase 2, por lo que la asignación de ambos a la clase 1 es arbitraria; todo programa
del método de nubes dinámicas debe prever esta situación.
8.3 Método de nubes dinámicas 165

Objetos
Clase 1 4, 5, 6, 14, 16
Clase 2 1, 2, 3
Clase 3 7, 8, 9, 10, 11, 12, 13, 15, 17, 18, 19, 20

Para proceder a la segunda iteración, se calculan los centros de gravedad de las cla-
ses recién formadas. obteniéndose (2,9, 2,9) para la clase 1, (1,5, 1,17) para la clase 2 y
(4,13, 6,25) para la clase 3. Estos centros de gravedad son los nuevos núcleos y se calculan
las distancias de todos los objetos a estos núcleos, obteniéndose las distancias cuadráticas
dadas en la tabla 8.9.

Objeto Distancia al núcleo 1 Distancia al núcleo 2 Distancia al núcleo 3


1 7.22 0.277889 37.32813
2 4.42 0.277889 32.07813
3 3.92 0.110889 29.45313
4 4.42 0.943889 27.82813
5 1.62 0.943889 22.57813
6 3.62 3.609889 20.32813
7 10.42 23.60789 4.578125
8 17.62 34.27389 5.078125
9 26.82 46.93989 7.578125
10 9.62 25.60789 1.328125
11 21.17 42.35689 2.828125
12 31.72 57.77289 5.453125
13 18.02 40.27389 0.578125
14 5.62 20.27589 5.828125
15 8.82 26.94189 2.328125
16 7.12 21.44289 9.453125
17 10.82 28.27589 8.578125
18 14.02 34.94189 5.078125
19 19.22 43.60789 3.578125
20 21.22 44.94189 9.828125

Cuadro 8.9: Distancias de los 20 objetos a los núcleos de la segunda iteración.

Al asignar los objetos a la clase correspondiente al núcleo más cercano, se obtiene la


clasificación siguiente:

Objetos
Clase 1 6, 16
Clase 2 1, 2, 3, 4, 5
Clase 3 7, 8, 9, 10, 11, 12, 13, 14, 15, 17, 18, 19, 20
166 Clasificación por particiones

Los centros de gravedad de las clases, para las tres iteraciones siguientes, son:

Iteración 3 Iteración 4 Iteración 5


Centro de gravedad de la clase 1: (3,25, 3,25) (5,25, 3,75) (5,75, 4,42)
Centro de gravedad de la clase 2: (1,5, 1,5) (1,42, 1,75) (1,42, 1,75)
Centro de gravedad de la clase 3: (4,19, 6,08) (4,13, 6,25) (3,19, 7)

Las distancias de los objetos a los respectivos núcleos, durante esas tres iteraciones,
fueron las dadas en la tabla 8.10.
Iteración 3 Iteración 4 Iteración 5
Objeto n1 n2 n3 n1 n2 n3 n1 n2 n3
1 10.13 0.50 35.96 25.63 0.74 37.33 34.24 0.74 40.79
2 6.63 0.50 30.58 18.13 0.90 32.08 25.74 0.90 37.41
3 6.13 0.00 28.20 19.13 0.07 29.45 26.57 0.07 33.10
4 6.63 0.50 26.81 21.13 0.24 27.83 28.40 0.24 29.79
5 3.13 0.50 21.43 13.63 0.40 22.58 19.90 0.40 26.41
6 5.13 2.50 19.66 18.63 1.74 20.33 24.57 1.74 20.79
7 9.13 20.50 4.81 15.63 18.40 4.58 16.57 18.40 2.41
8 15.63 30.50 5.66 21.13 27.90 5.08 20.73 27.90 1.41
9 24.13 42.50 8.50 28.63 39.40 7.58 26.90 39.40 2.41
10 7.63 22.50 1.43 10.13 20.57 1.33 10.07 20.57 1.04
11 18.13 38.25 3.45 19.13 35.57 2.83 17.07 35.57 0.29
12 27.63 53.00 6.35 25.63 49.90 5.45 21.73 49.90 2.35
13 14.63 36.50 0.89 12.13 34.23 0.58 9.73 34.23 0.66
14 3.63 18.50 4.97 0.13 17.90 5.83 0.74 17.90 12.28
15 6.13 24.50 1.81 1.63 23.40 2.33 0.90 23.40 7.28
16 5.13 20.00 8.35 0.13 19.73 9.45 0.90 19.73 17.60
17 8.13 26.50 7.58 0.63 26.07 8.58 0.24 26.07 16.91
18 10.63 32.50 4.43 2.13 31.57 5.08 0.40 31.57 11.91
19 15.13 40.50 3.27 5.63 39.07 3.58 2.57 39.07 8.91
20 17.13 42.50 9.04 4.63 41.73 9.83 1.90 41.73 18.53

Cuadro 8.10: Distancias de los objetos a los núcleos en las iteraciones 3, 4 y 5.

Las clases evolucionaron de la siguiente forma:

Iteración 3 Iteración 4 Iteración 5


Clase 1: 14,16 14,15,16,17,18,20 14,15,16,17,18,19,20
Clase 2: 1,2,3,4,5,6 1,2,3,4,5,6 1,2,3,4,5,6
Clase 3: 7,8,9,10,11,12,13,15,17,18,19,20 7,8,9,10,11,12,13,19 7,8,9,10,11,12,13

Para la sexta iteración, se tienen los núcleos (5,79, 4,64) para la clase 1, (1,42, 1,75)
para la clase 2, y (2,79, 7,14) para la clase 3. Las distancias cuadráticas de los 20 objetos
a estos núcleos son dadas por la tabla 8.11.
Ası́, se obtiene la misma clasificación que en la iteración precedente, que es precisa-
mente la clasificación “natural”.
8.3 Método de nubes dinámicas 167

Objeto Distancia al núcleo 1 Distancia al núcleo 2 Distancia al núcleo 3


1 36.177 0.7364 40.926
2 27.605 0.9024 38.354
3 28.248 0.0694 33.497
4 29.891 0.2364 29.64
5 21.319 0.4024 27.068
6 25.605 1.7364 20.354
7 16.175 18.402 1.9242
8 19.889 27.902 0.6382
9 25.603 39.402 1.3522
10 9.6032 20.568 1.3522
11 15.924 35.568 0.1732
12 20.102 49.901 2.3512
13 8.7452 34.234 1.4942
14 1.0312 17.9 14.78
15 0.7452 23.4 9.4942
16 1.3882 19.733 20.637
17 0.4592 26.066 20.208
18 0.1732 31.566 14.922
19 1.8872 39.066 11.636
20 1.6012 41.732 22.35

Cuadro 8.11: Distancias de los 20 objetos a los núcleos de la sexta iteración.


168 Clasificación por particiones

Ejemplo 8.3.5 Para el ejemplo anterior, serı́a interesante saber qué pasa si la escogencia
de los núcleos iniciales es diferente de la dada. Si cada uno de los núcleos iniciales está en
una clase “natural”, entonces es bastante claro que se obtendrán las tres clases “naturales”
muy rápidamente. Ahora bien, si, como en el caso del ejemplo presentado, dos de los
núcleos están en una misma clase “natural”, entonces puede que no siempre se obtenga
la partición deseada. Este es el caso cuando se escogen como núcleos iniciales los objetos
5 (5, 5), 8 (2, 7) y 9 (2, 8).
Las distancias de los 20 objetos a estos centros son dadas por la tabla 8.12.
Objeto Distancia al núcleo 1 Distancia al núcleo 2 Distancia al núcleo 3
1 50 37 32
2 49 36 25
3 42.5 30.5 25
4 37 26 25
5 36 25 18
6 26 17 20
7 4 1 10
8 1 0 13
9 0 1 18
10 5 2 5
11 1.25 1.25 10
12 2.5 4.5 15
13 5 4 5
14 25 18 1
15 18 13 0
16 32.5 24.5 2.5
17 32 25 2
18 25 20 1
19 20 17 2
20 34 29 4

Cuadro 8.12: Distancias de los 20 objetos a los nuevos núcleos (ejemplo 5).

Ası́, se obtiene la clasificación siguiente:

Objetos
Clase 1 9, 11, 12
Clase 2 6, 7, 8, 10, 13
Clase 3 1, 2, 3, 4, 5, 14, 15, 16, 17, 18, 19, 20

Los núcleos calculados en las siguientes tres iteraciones son:


Iteración 2 Iteración 3 Iteración 4
Centro de gravedad de la clase 1: (2,83, 8) (3,13, 7,75) (2,9, 7,6)
Centro de gravedad de la clase 2: (2,4, 5,8) (2,25, 5) (2,5, 4,75)
Centro de gravedad de la clase 3: (4, 3,33) (3,92, 3,5) (4,27, 3,46)

Las distancias de los objetos a los respectivos núcleos, durante esas tres iteraciones,
están dadas en la tabla 8.13.
8.3 Método de nubes dinámicas 169

Iteración 3 Iteración 4 Iteración 5


Objeto n1 n2 n3 n1 n2 n3 n1 n2 n3
1 52.36 25.00 14.43 50.08 17.56 14.76 47.17 16.31 16.74
2 49.69 23.20 9.43 46.83 16.06 9.92 44.37 14.31 11.19
3 44.03 19.30 9.60 41.70 12.81 9.84 39.17 11.56 11.51
4 39.36 16.40 10.77 37.58 10.56 10.76 34.97 9.81 12.83
5 36.69 14.60 5.77 34.33 9.06 5.92 32.17 7.81 7.28
6 28.36 9.80 9.11 27.08 5.56 8.76 24.77 5.31 10.92
7 4.69 0.20 11.13 4.33 1.06 9.92 3.37 1.81 11.64
8 1.69 1.60 17.47 1.83 4.06 15.92 1.17 5.31 17.73
9 0.69 5.00 25.81 1.33 9.06 23.92 0.97 10.81 25.82
10 4.03 0.40 8.13 3.08 1.56 7.09 2.57 1.81 8.10
11 0.28 3.25 18.39 0.08 6.81 16.84 0.02 7.81 17.98
12 0.69 8.50 26.98 0.70 13.81 25.17 1.17 15.06 26.05
13 2.36 4.00 13.47 1.33 7.06 12.26 1.57 7.31 12.64
14 20.70 10.00 1.45 17.58 8.56 1.42 17.37 6.81 0.83
15 13.70 7.40 3.79 11.08 7.56 3.42 11.17 6.31 2.92
16 27.36 14.90 2.28 23.70 12.81 2.51 23.57 10.56 1.51
17 26.03 16.20 4.45 22.33 15.06 4.59 22.57 12.81 3.28
18 19.03 13.60 6.79 15.83 14.06 6.59 16.37 12.31 5.37
19 14.03 13.00 11.13 11.33 15.06 10.59 12.17 13.81 9.46
20 26.36 21.80 11.79 22.58 22.56 11.75 23.57 20.31 9.82

Cuadro 8.13: Distancias de los objetos a los núcleos durante las iteraciones 2, 3 y 4.

Las clases evolucionaron de la siguiente forma:

Iteración 2 Iteración 3 Iteración 4


Clase 1: 9,11,12,13 8,9,11,12,13 8,9,11,12,13
Clase 2: 2,7,8,10 4,6,7,10 4,6,7,10
Clase 3: 1,3,4,5,6,14,15,16,17,18,19,20 1,2,3,5,14,15,16,17,18,19,20 1,2,3,5,14,15,16,17,18,19,20

Se aprecia por lo tanto que la clasificación final obtenida no es la misma que en el


ejemplo anterior, cuando se escogieron de manera diferente los núcleos.

Ejemplo 8.3.6 Otro asunto importante a considerar es el del número de clases. Hemos
dicho que el método de Nubes Dinámicas encuentra una partición de Ω en un número k
de clases, donde k es dado a priori. Ahora bien, puede suceder que este número de clases,
solicitado por el usuario del método, no sea un número “natural” de clases En efecto,
supóngase que para el ejemplo de los 20 objetos del plano el usuario no disponga (como
sucede en general) de la representación en el plano, y que pide 2 clases en lugar de tres.
Si la escogencia al azar de los núcleos iniciales es: 10 (3, 6) y 16 (5,5, 3,5), entonces
se obtiene estabilidad luego de cuatro iteraciones; la evolución de las clases se muestra en
la tabla 8.14.
Las distancias, en esas iteraciones, son las dadas por la tabla 8.15. Puede verse que en
la clasificación final el objeto 19 queda clasificado con los objetos “de arriba”, los objetos
7, 8, 9, 10, 11, 12 y 13.
170 Clasificación por particiones

Iteración Clase Núcleos Partición


1 1 (3, 6) 4,5,7,8,9,10,11,12,13
2 (5,5, 3,5) 1,2,3,5,14,15,16,17,18,19,20
2 1 (2,389, 6,111) 7,8,9,10,11,12,13
2 (4,273, 3,455) 1,2,3,4,5,14,15,16,17,18,19,20
3 1 (2,786, 7,143) 7,8,9,10,11,12,13,19
2 (3,769, 3,308) 1,2,3,4,5,14,15,16,17,18,20
4 1 (3,188, 7) 7,8,9,10,11,12,13,19
2 (3,583, 3,083) 1,2,3,4,5,14,15,16,17,18,20

Cuadro 8.14: Evolución de las clases para las 4 iteraciones.

8.3.4. Ejemplo de las notas escolares


La presentación de cualquier resultado del método de nubes dinámicas, dependerá de
la escogencia inicial de los núcleos. En una ejecución con Chadoc, se obtuvo la siguiente
clasificación en tres clases de los estudiantes de la tabla de notas escolares:
C1 = {Lucı́a,Inés,Ana,Marı́a}
C2 = {Luis,Carlos}
C3 = {Pedro,Andrés,José,Sonia}.
La inercia inter-clases de esta partición es: B = 1,37. Ahora bien, se sabe que la partición
optimal es:
C1 = {Lucı́a,Andrés,Carlos,Marı́a}
C2 = {Luis,Sonia}
C3 = {Pedro,Inés,Ana,José},
cuya inercia inter-clases es: B = 4,97 (puede verse en el plano principal –ver capı́tulo 3–
que esta partición es la que se observa como resultado del A.C.P.).
Hay que mencionar que el método de nubes dinámicas encontró la partición óptima
en dos clases, a saber:
C1 = {Lucı́a,Andrés,Carlos,Marı́a,Luis,Sonia}
C2 = {Pedro,Inés,Ana,José},

8.4. Análisis de las formas fuertes


Como pudo observarse sobre los ejemplos de la sección 8.3.3, los resultados del método
de nubes dinámicas (y de otros de particionamiento) dependen de la configuración dada
inicialmente. Por ello se recomienda ejecutar el algoritmo varias veces y examinar los
individuos que quedaron en la misma clase en todas las ocasiones. Estos grupos se llaman
formas fuertes.

Ejemplo 8.4.1 Supóngase que se tienen 9 individuos x1 , x2 , . . . , x9 que fueron clasifica-


dos en 3 clases mediante el método de nubes dinámicas. Se aplicó el método en 4 ocasiones,
8.4 Análisis de las formas fuertes 171

Iteración 1 Iteración 2 Iteración 3 Iteración 4


Objeto n1 n2 n1 n2 n1 n2 n1 n2
1 29 26.5 28.05 16.74 40.93 12.99 40.79 11.01
2 26 18.5 26.27 11.19 38.35 8.46 37.41 6.84
3 22.5 20 22.05 11.51 33.50 8.42 33.10 6.84
4 20 22.5 18.83 12.83 29.64 9.38 29.79 7.84
5 17 14.5 17.05 7.28 27.07 4.84 26.41 3.68
6 13 20.5 11.61 10.92 20.35 7.76 20.79 6.68
7 1 18.5 0.16 11.64 1.92 10.38 2.41 11.01
8 2 24.5 0.94 17.73 0.64 16.76 1.41 17.85
9 5 32.5 3.72 25.82 1.35 25.14 2.41 26.68
10 0 12.5 0.39 8.10 1.35 7.84 1.04 8.85
11 2.25 22.25 2.30 17.98 0.17 18.16 0.29 19.85
12 6.5 29 6.94 26.05 2.35 27.03 2.35 29.35
13 2 14.5 3.39 12.64 1.49 13.68 0.66 15.52
14 8 0.5 11.27 0.83 14.78 1.99 12.28 2.85
15 5 2.5 8.05 2.92 9.49 4.38 7.28 5.68
16 12.5 0 16.50 1.51 20.64 3.03 17.60 3.85
17 13 0.5 17.50 3.28 20.21 5.46 16.91 6.68
18 10 2.5 14.27 5.37 14.92 7.84 11.91 9.52
19 9 6.5 13.05 9.46 11.64 12.22 8.91 14.35
20 17 4.5 22.50 9.82 22.35 13.30 18.53 15.35

Cuadro 8.15: Distancias de los 20 objetos a los núcleos en cada iteración cuando se escogen
dos clases.

obteniéndose 4 particiones P1 , P2 , P3 , P4 con los siguientes resultados:


P1 = {(x1 , x2 , x3 )(x4 )(x5 , x6 , x7 , x8 , x9 )}
P2 = {(x1 , x2 , x3 , x4 )(x5 , x6 )(x7 , x8 , x9 )}
P3 = {(x1 , x2 ), (x3 )(x4 , x5 , x6 , x7 , x8 , x9 )}
P4 = {(x1 , x2 , x3 )(x4 , x5 , x6 )(x7 , x8 , x9 )}
Entonces las formas fuertes son:
P0 = {(x1 , x2 )(x3 )(x4 )(x5 , x6 )(x7 , x8 , x9 )}

Se suele recomendar analizar las formas fuertes contando el número de veces en que
ellas fueron agrupadas juntas en las particiones creadas, y ası́ formar una matriz de simi-
litudes. Cada entrada de esta matriz contendrá el número de veces que las formas fuertes
en fila y columna estuvieron juntas en las particiones estudiadas. A partir de esta ma-
triz se crea una de disimilitudes y ésta es analizada mediante una clasificación jerárquica
ascendente.
172 Clasificación por particiones

Ejemplo 8.4.2 En el ejemplo anterior, se tendrı́a la matriz de similitudes:


(x1 , x2 ) 4 3 1 0 0
(x3 ) 3 4 1 0 0
(x4 ) 1 1 4 2 1
(x5 , x6 ) 0 0 2 4 2
(x7 , x8 , x9 ) 0 0 1 2 4

A partir de esta matriz de similitudes se puede construir una de disimilitudes, restando


al número de particiones consideradas (4) el valor de la similitud. En el ejemplo, las
disimilitudes serı́an:
(x1 , x2 ) 0 1 3 4 4
(x3 ) 1 0 3 4 4
(x4 ) 3 3 0 2 3
(x5 , x6 ) 4 4 2 0 2
(x7 , x8 , x9 ) 4 4 3 2 0

Usando la agregación del salto promedio, se obtiene el siguiente árbol de clasificación


jerárquica:
(x1 , x2 )

(x3 )

(x4 )

(x5 , x6 )

(x7 , x8 , x9 )

Según el árbol anterior, la clasificación en tres clases serı́a:



P = {(x1 , x2 , x3 )(x4 )(x5 , x6 , x7 , x8 , x9 )}
Debemos mencionar que para obtener tal clasificación, cuando se analizó las disimilitudes:
d[(x5 , x6 ), (x7 , x8 , x9 )] = 2 = d[(x5 , x6 ), (x4 )], y se escogió agregar (x5 , x6 ) con (x7 , x8 , x9 );
en caso que se hubiera escogido agregar (x5 , x6 ) con (x4 ) entonces la partición en tres
clases obtenida hubiera sido:
P ∗ = {(x1 , x2 , x3 )(x4 , x5 , x6 )(x7 , x8 , x9 )}.

Ejercicios
1. Considere la siguiente tabla de disimilitudes d entre cinco elementos a1 , a2 , a3 , a4 , a5 :
8.4 Análisis de las formas fuertes 173

a1 a2 a3 a4 a5
a1 0 3 7 3 4
a2 3 0 4 4 1
a3 7 4 0 2 6
a4 3 4 2 0 1/2
a5 4 1 6 1/2 0

Dibuje el árbol de clasificación jerárquica a partir de la tabla anterior usando el


algoritmo ascendente con las agregaciones del salto mı́nimo, del salto máximo y del
salto promedio.

2. Supóngase que 6 objetos a, b, c, d, e, f están descritos por 18 variables de presencia-


ausencia, según la tabla:

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
a 0 1 0 1 1 0 0 1 0 1 1 0 1 0 0 1 1 0
b 0 0 0 0 0 0 1 0 0 1 0 0 0 1 1 0 1 1
c 0 0 1 0 0 0 1 0 0 1 1 1 1 0 1 0 0 1
d 0 1 0 1 0 1 0 0 0 0 1 0 1 1 0 0 1 0
e 1 0 1 0 0 1 0 0 0 1 0 0 0 1 0 0 0 0
f 1 0 0 1 1 1 0 1 1 0 1 0 0 1 0 1 1 0

a) Calcule la similitud entre los cinco objetos usando el ı́ndice de Jaccard y el


ı́ndice de Russel y Rao.
b) Ordene las parejas de individuos de menor a mayor, para cada uno de los dos
ı́ndices.
c) Compare los os órdenes. ¿Encuentran ambos ı́ndices los mismos “parecidos”
entre los objetos? Es decir, ¿ordenan de la misma forma las parejas de objetos
según su similitud?
d ) Deduzca el valor de la disimilitud correspondiente para cada caso.

3. Considérese los siete puntos x1 , x2 , . . . , x7 tales que sus distancias euclı́deas son:

x1 x2 x3 x4 x5 x6 x7
x1 0
x2 0,5 0
x3 0,4 0,55 0
x4 2,51 2 2,3
x5 3 2,5 2,8 0,41 0
x6 3,3 2,81 3,2 0,6 0,7 0
x7 4,4 4 4,2 4,5 1,5 1,4 0
174 Clasificación por particiones

Construya el árbol jerárquico correspondiente a los datos anteriores usando la agre-


gación del salto mı́nimo y la agregación de Ward (para esta última debe usar la
fórmula de recurrencia).

4. Considérese la siguiente tabla de disimilitudes entre 5 tipos de carros:

carro 1 carro 2 carro 3 carro 4 carro 5


carro 1 0 0.725 0.925 0.95 0.935
carro 2 0 0.975 0.94 0.96
carro 3 0 0.955 0.945
carro 4 0 0.69
carro 5 0

Construya el árbol de clasificación jerárquica usando la agregación de salto mı́nimo.

5. Considere la siguiente tabla de datos, con 2 variables sobre 5 individuos:

Individuo x y
1 1 1
2 1 2
3 6 3
4 8 2
5 8 0

a) Calcule la distancia euclı́dea clásica entre los individuos y la distancia “city-


block”.
b) Construya un árbol de clasificación jerárquica usando las agregaciones del salto
mı́nimo, del salto máximo y del salto promedio.
c) Dibuje un diagrama de dispersión de los puntos en el plano x − y (use la misma
escala para ambas variables). ¿Corresponden las clasificaciones obtenidas con
las observadas en el diagrama?

6. Considere la siguiente tabla de datos, con 3 variables sobre 6 individuos:

Individuo x1 x2 x3
1 2 4 9
2 5 6 6
3 8 8 7
4 6 5 6
5 2 5 9
6 8 9 5

Calcule la distancia “city-block” y construya un árbol de clasificación jerárquica


usando la agregación del salto mı́nimo y del salto máximo.
8.4 Análisis de las formas fuertes 175

7. Considérese la siguiente tabla de datos, que contiene algunas causas de muerte para
cada 100.000 habitantes en algunos paı́ses occidentales.

Suic Homic AccRuta AccInd OtrAcc Cirro


Austria 241 16 330 43 363 325
Francia 156 9 225 10 535 328
Portugal 85 19 349 7 281 345
Alemania Fed. 210 12 230 21 198 169
Bélgica 156 10 260 13 367 144
Finlandia 251 26 180 29 387 55
Suecia 194 11 151 13 384 122
Suiza 225 9 195 26 276 128
Italia 54 11 219 19 224 319
Irlanda del Norte 40 136 215 18 320 43
Dinamarca 241 6 168 11 230 107
Islandia 101 5 179 23 380 9
Escocia 82 15 155 18 342 59
España 40 4 136 17 237 225
Noruega 38 7 182 32 314 37
Rep. Irlanda 38 7 182 32 314 47
Holanda 89 7 169 10 218 47
Inglaterra - Gales 79 10 130 14 203 36
Estados Unidos 121 102 220 26 273 158

Suic: suicidio; Homic: homicio; AccRuta: accidentes de carretera; AccInd: accidentes


individuales; OtrAcc: otros accidentes; Cirro: cirrosis.
Utilizando un paquete estadı́stico:
a) Haga un Análisis en Componentes Principales y un Análisis de Corresponden-
cias de la tabla anterior, con 3 ejes factoriales. Interprete los tres ejes.
b) Haga una clasificación usando el método de nubes dinámicas y 4 clases, esco-
giendo al azar las clases iniciales.
c) Haga una clasificación jerárquica usando la distancia euclı́dea clásica y la agre-
gación de Ward.
d ) Compare los resultados de los métodos anteriores.
8. Aplique el método de nubes dinámicas sobre la tabla de consumo de proteı́nas en
Europa (ver ejercicios del capı́tulo 4) 5 veces, usando particiones aleatorias en cada
ocasión. Luego, determine las formas fuertes.
9. Aplique el método de nubes dinámicas sobre la tabla de notas escolares francesas
5 veces, usando particiones aleatorias en cada ocasión. Luego, determine las formas
fuertes.
176 Clasificación por particiones

h
Capı́tulo 9

Análisis Discriminante

9.1. Introducción
La discriminación trata de distinguir clases existentes dentro de un conjunto de datos.
Las clases son dadas a priori por alguna variable cualitativa observada, que será llamada
variable a explicar. Además, se dispone de variables explicativas x1 , x2 , . . . , xp , que por
el momento supondremos que son cuantitavas.
Veamos algunas situaciones en que puede aparecer la discriminación:

El Diagnóstico médico: durante algunos años, se ha hecho una base de datos


que contiene una serie de observaciones sobre mediciones clı́nicas concernientes a
alguna enfermedad especı́fica y mediciones fı́sicas acerca de los pacientes, y además
el diagnóstico dado por el médico, que puede ser de dos tipos: sano o enfermo.
Cuando llega un nuevo paciente con sı́ntomas similares a los de los pecientes que
están en la base de datos, entonces se necesita dar un diagnóstico lo más pronto
posible y lo más acertado posible.
Con base en todo el historial de que se dispone, se espera que la experiencia acumu-
lada sirva para crear variables discriminantes que permitan hacer el diagnóstico.

La previsión meteorológica: en Meteorologı́a, se quiere prever el tiempo de un


dı́a para un lugar determinado, anunciando por ejemplo que el clima será lluvioso,
asoleado, nublado, etc. Para ello, se dispone de una serie de observaciones acerca
de la velocidad del viento, de la humedad relativa, de la presión atmosférica, de la
dirección del viento, de imágenes satélite acerca del comportamiento de las nubes,
etc.
Con base en la experiencia acumulada a través del tiempo, viendo cual ha sido el
comportamiento del clima cuando se tenı́a a disposición el conjunto de variables
explicativas, entonces se quiere hacer la previsión lo más acertada posible. La im-

177
178 Análisis Discriminante

portancia que esto reviste es muy grande para algunos sectores como la agricultura,
la pesca, la aviación, la previsión de emergencias, etc.

La asignación de créditos: una empresa financiera debe decidir si otorga un crédi-


to a una persona que lo solicita. Generalmente, se solicita una serie de datos a los
demandantes como el ingreso mensual, si tienen hipotecas, si tienen propiedades
o vehı́culos, el estado civil el número de hijos, etc. Toda esta información puede
servir para discriminar entre los que serán buenos y malos pagadores, siempre que
se disponga de un historial suficiente acerca del comportamiento de las personas a
las que ya se les ha otorgado un crédito con anterioridad.

Existen muchas técnicas para hacer la discriminación; nosotros nos centraremos en el


llamado Análisis Factorial Discriminante y únicamente haremos una breve referencia a
otras técnicas. El lector innteresado podrá consultar otras fuentes más especializadas en
la discriminación para profundizar en el tema.

9.2. Análisis Factorial Discriminante


Como hemos descrito en la introducción, la discriminación trata de reconocer grupos
dados a priori, a partir de un conjunto de datos explicativos. Se dispondrá de un conjunto
de variables explicativas, normalmente cuantitativas, a partir de las cuales trataremos de
construir la caracterización de las clases dadas. Estas caracterizaciones son conocidas
como funciones discriminantes, que son combinaciones lineales de las variables originales,
y que permiten además asignar una clase a un nuevo individuo con fines decisionales.
A continuación presentaremos un método geométrico para hacer Análisis Factorial Dis-
criminante. Los métodos geométricos tratan de usar las herramientas del Álgebra Lineal
con el fin de construir las funciones discriminantes.

9.2.1. Plantemiento del problema


Dispondremos de n individuos x1 , x2 , . . . , xn descritos por pPvariables cuantitativas
x1 , x2 , . . . , xp ; los individuos están dotados de pesos pi > 0 con i pi = 1, que miden la
importancia relativa del individuo en el análisis. En el espacio de los individuos E = Rp
se miden las distancias a partir de una métrica M (matriz simétrica definida positiva) tal
que ||x||M = xt M x, y en el espacio de las variablesF = Rn se usa la métrica de pesos
D = diag(pi ), ya que para variables centradas se tiene ||xj ||2D = var(xj ) y cos(xj , xk ) =
ρ(xj , xk ), la varianza y la correlación, respectivamente. Los individuos forman ası́ una nube
de puntos N = (X, M, D) que caracteriza la forma que tienen los n puntos–individuos Pn en
el espacio multidimensional. El centro de gravedad de la nube de puntos es g = i=1 pi xi ,
que es el vector formado por la media de todas las variables. En el caso en que se centren
las variables, este centro de gravedad se traslada al origen de coordenadas.
9.2 Análisis Factorial Discriminante 179

P N1 , . . . , Nk ,
Las k clases C1 , C2 , . . . , Ck dadas a priori en los individuos forman k subnubes
tales que N` = {xi |xi ∈ C` }. El centro de gravedad de la clase C` es g` = µ1` xi ∈C` pi xi ,
P
donde µ` = xi ∈C` pi es el peso de la clase C` . Se puede probar que el centro de gravedad
de los g` es g (ver ejercicios).
Se define la matriz de varianzas intra–clases como:
k
X
W = V`
`=1

donde: X
V` = pi (xi − gell )(xi − g` )t
xi ∈C`

es la matriz de varianzas de la clase `–ésima. La matriz de varianzas inter–clases es:


k
X
B= µ` (g` − g)(g` − g)t
`=1

que está formada por las varianzas entre las variables restringidas a los centros de gravedad
de las clases.
Si V es la matriz de varianzas–covarianzas total (observadas sobre todos los indivi-
duos), se tiene la importante relación de Fisher [26]:
V =W +B
En el anexo de este capı́tulo está probado este resultado para el caso de las inercias, pero
el lector puede hacer una demostración análoga para establecar la relación que damos
para el caso de las matrices de varianzas.
Se quieren construir nuevas variables en Rp , que sean combinación lineal de las varia-
bles originales xj , de tal forma que separen lo mejor posible (en proyección) a los k–grupos
existentes.

9.2.2. Solución del análisis factorial discriminante


En un primer paso se busca el eje a ∈ Rp , tal que en proyección sobre el eje a, los
k grupos (representados por los centros de gravedad) estén lo más separados posible,
mientras que cada subnube debe ser proyectada alrededor del centro de gravedad.
Recuérdese que ([31] o capı́tulo 3 sobre Análisis en Componentes Principales) que la
inercia de la nube N proyectada sobre el eje a es
I∆⊥ u = M V M (a, a)
cuando a es un vector unitario. Ası́, la inercia de la nube de los centros de gravedad
proyectada sobre a es M BM (a, a) = at M BM a, ya que B es la matriz de varianzas de los
centros de gravedad de las clases.
180 Análisis Discriminante

Véase que entonces buscar la separación de los centros de gravedad equivale a buscar
que, en proyección, estos centros tengan inercia máxima. Este es un problema similar al
del Análisis en Componentes Principales (A.C.P.).
Debido a la relación V = B + W , se tiene entonces que at M V M a = at M BM a +
at M W M a, es decir
at M BM a at M W M a
1= + t .
at M V M a a MV Ma
at M BM a at M W M a
Por lo tanto, la maximización de λ = at M V M a
es equivalente a la minimización de at M V M a
.
Para hacer esta minimización, se deriva vectorialmente λ respecto a a, obtiéndose que
hay un máximo si 2(at M V M a)BM a − 2(at M BM a)V M a = 0, esto es, si

V −1 Bu = λu,

donde u = M a y suponiendo que V es invertible. Es decir, la solución del problema se


obtiene al diagonalizar V −1 B. Además, el valor máximo de λ se obtiene con el mayor
valor propio de V −1 B
La determinación del eje a1 define una nueva variable C 1 = XM a1 ∈ F , que se
llamará la primera variable discriminante, asociada al vector propio u1 correspondiente al
mayor valor propio λ1 de V −1 B.

Una vez encontrada la primer variable discriminante C 1 asociada a a1 , se busca un


nuevo eje a2 , ortogonal a a1 , que cumpla con el mismo criterio. Se muestra que la solución
se obtiene con el vector propio u2 asociado al segundo valor propio de V −1 B, que define
la segunda variable discriminante C 2 = Xu2 .
Siguiendo con este procedimiento, se obtendrı́an las restantes variables discriminantes
C , C 4 , . . ., cada una asociada a un valor propio λj de V −1 B.
3

El poder discriminante de la variable discriminante C j es λj ≤ 1.

9.2.3. Un A.C.P. particular

Puede observarse que la solución del Análisis Factorial Discriminante se obtiene al


hacer el A.C.P. de la nube de centros de gravedad gk de las clases dada a priori, usando la
métrica V −1 , ya que B es la matriz de varianzas–covarianzas de los centros de gravedad.
Por lo tanto, se pueden hacer las representaciones gráficas usuales del A.C.P.: los pla-
nos principales, donde se representarı́an los centros de gravedad (y eventualmente, los
individuos como puntos suplementarios), y los cı́rculos de correlaciones que muestran
las correlaciones entre las variables discriminantes y las variables originales.
9.3 Análisis decisional: reglas geométricas de asignación 181

9.2.4. El caso de dos grupos


En el caso de dos grupos por discriminar, el eje discriminante es simplemente a =
g1 −g2 , la recta que une a los dos centros de gravedad. Ası́, se puede tomar u = V −1 (g1 −g2 )
como el factor discriminante; este factor es llamado la función de Fisher.

9.3. Análisis decisional: reglas geométricas de asig-


nación
Supóngase que se tiene un individuo x del cual se tienen las observaciones explicativas,
y se quiere asignarlo a alguna de las clases. Geométricamente, se suele asignar un individuo
x al grupo más cercano midiendo la distancia a los centros de gravedad, con la métrica
V −1 . Es decir, se busca `∗ tal que:

d(x, g`∗ ) = mı́n d(x, g` )


`

Esto es equivalente a encontrar `∗ tal que g`t V −1 g` − 2xt V −1 g` sea mı́nima.

Caso de dos grupos

En el caso de dos grupos, se asignará x a la clase 1 si xt V −1 (g1 − g2 ) (la función de


Fisher evaluada en x) es mayor que 21 (g1 + g2 )t V −1 (g1 − g2 ) (la función de Fisher evaluada
sobre el punto medio entre los dos centros de gravedad).

Observación: : Estas reglas son muchas veces inapropiadas si las clases tienen diferentes
cardinales. En efecto, el tamaño de una clase tiene un efecto atractor cuando se usa la
distancia W −1 . Por ello, en el caso en que las clases son de cardinales muy diferentes, se
recomienda mejor usar una distancia local Mk proporcional a Vk .

9.4. Discriminación paso a paso: selección de las va-


riables más discriminantes
En Análisis Factorial Discriminante, la obtención de la solución pasa por la diagona-
lización de una matriz p × p. Este cálculo puede ser sumamente pesado si p es bastante
grande, o bien los resultados pueden ser numéricamente inestables si las variables expli-
cativas están muy correlacionadas.
Antes de aplicar cualquier método de discriminación, se recomienda hacer una etapa
de selección de las variables explicativas más discriminantes, con el fin de usarlas para
la determinación de las funciones discriminentes. Algunos de estos métodos se llevan a
182 Análisis Discriminante

cabo al mismo tiempo que se calculan las variables discriminantes. Sin embargo, aquı́ des-
cribiremos uno que se hace como etapa previa a la discriminación, llamado método de
Sebestyen.
Se requiere que el conjunto Ω de individuos sea suficientemente grande, para dividirlo
en dos: un conjunto de aprendizaje, que servirá para el cálculo de las funciones discri-
minantes, y un conjunto de test, que servirá para medir la calidad de la discriminación.
Supongamos que la muestra de test tiene m elementos.
Para aplicar el método de Sebestyen se pueden usar varios criterios:

el porcentaje de buena clasificación de un conjunto de variables,

la maximización del lambda de Wilks: λ = traza(V −1 B),

la minimización de det(W )/det(V ).

A continuación examinaremos el procedimiento usando el primero de estos criterios.


Dada la partición a priori C1 , C2 , . . . , Ck y una partición P1 , P2 , . . . , Pk calculada de
alguna forma, se define el procentaje de buena clasificación de la partición de los Pl por
el porcentaje de elementos tales que son clasificados en la l-ésima clase y que provenı́an
de la l-ésima clase, es decir el porcentaje de elementos en la intersección Pl ∩ Cl .
Consideremos una función Sr,l : Rr −→ R, que mide la similitud entre un individuo x
descrito por r variables y la clase Cl . Esta función de similitud puede perfectamente ser
la distancia entre x y el centro de gravedad de la clase, ambos descritos por r variables;
sin embargo, la propuesta de Sebestyen para S es el promedio de las distancias de x a los
elementos de Cl , todos descritos por r variables, donde las distancias están definidas por
la métrica Vl−1 . la inversa de la matriz de covarianzas intra Cl . De hecho, se puede ver
que la escogencia de S corresponde a la escogencia de un ı́ndice de agregación en Rr .
El objetivo del método de selección de variables es determinar las variables xj que se
espera que sirvan mejor para efectuar la discriminación. Para ello, se determinará primero
la que posee el mejor porcentaje de buena clasificación usando la función S para clasifi-
car los individuos. Una vez determinada la primera función, se determina la segunda, y
ası́ sucesivamente. Hay que hacer notar que el cálculo de S se hace respecto a las clases
existentes Cl en la muestra de aprendizaje, que sirve para por ejemplo calcular los centros
de gravedad.
El algoritmo para la determinación de la primera variable serı́a:
para j := 1 hasta p hacer
para i := 1 hasta m hacer
para l := 1 hasta k hacer
calcular S1,l (xi ) usando sólo xj
escoger l∗ que optimice S1,l (xi )
asignar xi a la clase Pl∗
9.5 Evaluación de las funciones discriminantes 183

calcular el porcentaje Πj de buena clasificación de la partición P1 , . . . , Pk


escoger j ∗ con el máximo Πj

El procedimiento anterior, llamado discriminación paso a paso, determina una varia-



ble x1 . Este procedimiento se reitera usando ahora S2,l (xi ) en lugar de S1,l (xi ), tomando

dos variables: la x1 ya determinada y cada variable restante; de esta forma se determi-
∗ ∗
nan dos variables, la x1 que ya se tenı́a y una x2 que sea la mejor. Estas dos se usan

como base para el cálculo de una tercera x3 , y ası́ sucesivamente. El criterio (porcentaje
de buena clasificación) normalmente crece con las primeras variables seleccionadas. El
procedimiento se detiene cuando el criterio cesa de crecer de manera significativa.
∗ ∗ ∗
Una vez determinadas q variables explicativas x1 , x2 , . . . , xq , entonces se aplica el
método de discriminación con esas variables, con el fin de encontrar las variables discri-
minantes.

La utilización del criterio de la maximización del lambda de Wilks: λr = traza(Vr−1 Br ),


usando para el cálculo r variables, tiene una interpretación clara proveniente de la solución
del Análisis Factorial Discriminante. En efecto, λr representa la suma de los valores propios

de la matriz a diagonalizar. Ası́, se seleccionará en primer lugar a la variable xj que
maximiza traza(V1−1 B1 ), donde las matrices de covarianza son calculadas con una sola

variables; una vez determinada xj , se calculan los valores traza(V2−1 B2 ) para cada una
de las variables restantes, donde las matrices de covarianzas son calculadas con base en

dos variables: xj y cada una de las que se examinan. El procedimiento se continúa de
esta forma hasta que el crecimiento en el criterio para dos pasos sucesivos no sea tan
significativo (al llamado criterio “del codo”).

9.5. Evaluación de las funciones discriminantes

Al igual que en el método de selección de variables de Sebestyen, se dividen los indi-


viduos en dos grupos: un conjunto de aprendizaje y un conjunto de test. Se supone que
las funciones discriminantes son calculadas unicamente a partir de los individuos de la
muestra de aprendizaje.
A cada individuo x de la muestra de test, se le aplica la función discriminante como
en el caso decisional, y se examina a cual clase se le asigna. Se compara la clase obtenida
con la clase conocida a la que pertenece x. Si son iguales, entonces se dice que la función
discriminante reconoció la clase de x. Finalmente, se calcula el porcentaje de individuos
de la muestra test cuya clase fue reconocida. Este porcentaje es un ı́ndice de calidad
del método de discriminación, para la muestra dada.
Se puede notar que este método de evaluación de un conjunto de funciones discrimi-
nantes se puede usar en cualquier método de discriminación.
184 Análisis Discriminante

9.6. Ejemplos
Ejemplo 9.6.1 Se tiene un conjunto de 20 reses, de los cuales 10 son de raza cebú y 10
son de raza charolais. Se dispone la observación de 3 variables cuantitativas x1 , x2 , x3 de
cada una de ellas, según se muestra en la tabla que sigue:

Res x1 x2 x3 Grupo
1 1 400 224 1(cebu)
2 1 395 229 1
3 1 395 219 1
4 1 395 224 1
5 1 400 223 1
6 1 400 224 1
7 1 400 221 1
8 1 410 233 1
9 1 402 234 1
10 1 400 223 1
11 2 395 224 2(charolais)
12 2 410 232 2
13 2 405 233 2
14 2 405 240 2
15 2 390 217 2
16 2 415 243 2
17 2 390 229 2
18 2 405 240 2
19 2 420 234 2
20 2 390 223 2

Las matrices V y W de varianzascovarianzas entre las variables son:


   
63,984 40,602 −1,598 62,025 36,338 −4,629
V =  40,602 51,949 2,462  W = 36,338 42,644 −4,142 
−1,598 2,462 6,356 −4,629 −4,142 1,668

Usando como ı́ndice para selección de variables el lambda de Wilks Deet W/Det V,
entonces se selecciona primero a x3 ya que es la variable más explicativa según este ı́ndice
(da el valor mı́nimo):
V ariable |W |/|V |
x1 0,969
x2 0,821
3
x 0,262

Introduciendo x3 como variable explicativa, se calcula el lambda de Wilks para las otras
9.7 Otros métodos 185

dos variables:
V ariable |W |/|V |
x1 0,203
x2 0,167
Por lo tanto, se selecciona x2 como la segunda variable más explicativa.

9.7. Otros métodos


Existen muchos otros métodos de discriminación, que no detallaremos, pero que dare-
mos la idea general de como funcionan. La mayorı́a de ellos están basados en la teorı́a de
la probabilidad, como la discriminación bayesiana.

9.7.1. Métodos probabilı́sticos


Supongamos que los k grupos tienen proporciones p1 , p2 , . . . , pk y que la probabili-
dad para que un individuo x pertenezca a la clase l está dada por fl (x). Entonces, la
probabilidad de que el individuo x provenga de la clase l está dada por la regla de Bayes:

pl fl (x)
P (Cl |x) = Pk
j=1 pj fj (x)

Ası́, se asignará el individuo x a la clase l tal que P (Cl |x) sea máxima. Esto constiste en
maximizar pl fl (x)
El problema de la discriminación bayesiana consiste en la estimación de las probabili-
dades fl (x). Mencionaremos someramente en qué consiste uno de los métodos más usados
para esta estimación, llamado el método de los vecinos más cercanos.
Para estimar fl (x) = P (x|Cl ), se escoge un número K y para cada x ∈ Ω, se deter-
minan los K vecinos de Ω más cercanos de x, en el sentido de alguna proximidad (una
distancia euclı́dea, por ejemplo). Entre esos K vecinos, se cuentan cuántos pertenecen a
la clase C1 (digamos n1 ), cuántos a la clase C2 (digamos n2 ), . . ., cuántos a la clase Ck
(digamos nk ). Entonces se estima fl (x) por nl /K. Este método es uno de los más usados
en discriminación bayesiana.
El método anterior es una variante de otro basado en la estimación de fl (x) mediante
bolas. Se define un radio R y alrededor de cada x ∈ Ω se toman todos los individuos de
Ω que están a una distancia de x inferior a R. De esos individuos, se cuentan cuántos
pertenecen a cada clase. La proporción de esos elementos entre el total de los que están
en la bola de centro x y radio R es una estimación de fl (x). Un inconveniente de este
procedimiento es que se debe tener una buena estimación de R, de tal forma que no se
tengan muy pocos elementos en la bola de manera que la estimación no sirva.
186 Análisis Discriminante

Finalmente, otro de los métodos bayesianos más usados consiste en suponer que las
fl (x) siguen una distribución normal. Esto implica la estimación de parámetros, la prue-
ba de hipótesis sobre los parámetros, y la verificación de la normalidad mediante algún
procedimiento.

9.7.2. Discriminación cualitativa


Hasta este momento hemos supuesto que las variables explicativas eran cuantitati-
vas. En el caso en que éstas sean cualitativas entonces hay varios procedimientos que
se pueden emplear. El más burdo consistirı́a en usar las indicatrices de las modalidades
de las variables explicativas como variables cuantitativas, y emplear el análisis factorial
discriminante. Sin embargo, este procedimiento no tiene ninguna base teórica consistente.
Una tendencia consiste en “numerizar” las variables dándole un puntaje a las moda-
lidades explicativas. Una manera de proceder es obtener variables numéricas sintéticas, a
partir de las variables explicativas cualitativas, y usar esas variables sintéticas para efec-
tuar el análisis factorial discriminante. Este procedimiento consistirı́a entonces en hacer un
análisis de correspondencias múltiples, del que se obtienen componentes principales que
serán usadas para hacer la discriminación. Luego, con base en las componentes principales
y las variables discriminantes obtenidas, se asignan puntajes a las modalidades explicati-
vas madiante las fórmulas de reconstitución del análisis de correspondencias múltiples.

9.7.3. Segmentación y árboles de decisión


Los métodos de segmentación tratan de obtener árboles (binarios) de decisión, tales
que en el nodo raı́z se tenga la población total a discriminar, y se descienda construyendo
nodos tales que, en cada paso, se escoja la variable explicativa que mejor separa a la
población. Son muy usados en mercadeo y en las ciencias médicas y sociales.
Se puede estar en uno de tres contextos:

la variable a explicar es cualitativa y las variables explicativas son cualitativas: es


el caso usual, y se usan criterios donde se mida la asociación entre las variables
con medidas como el χ2 o la entropı́a, para escoger a la variable explicativa mejor
asociada con la variable a explicar.

la variable a explicar es cualitativa y las variables explicativas son cuantitativas: en


este caso se deben determinar “puntos de corte” de las variables explicativas, de tal
forma que se optimice un criterio, el más usado es el de la distancia de Kolmogorov–
Smirnov.

la variable a explicar es cuantitativa y las variables explicativas son cualitativas:


se puede usar un criterio del tipo cociente de correlación (o simplementela máxima
9.7 Otros métodos 187

diferencia entre las medias, si la variable a explicar tiene solo dos modalidades) para
determinar la mejor variable explicativa.

Ejercicios
1. Deduzca cuál es la matriz B de varianzas-covarianzas inter-clases para los datos del
ejemplo 1, sobre las reses cebú y charolais.

2. Considere la siguiente tabla de datos con dos variables cuantitativas x1 , x2 , con 10


individuos separados en dos clases.

Obs x1 x2
1 0 3
2 2 1
3 4 5
4 6 9
5 8 7
6 5 2
7 7 0
8 9 4
9 11 8
10 13 6

a) Dibuje un diagrama de dispersión entre x1 y x2 , marcando con un punto a los


elementos del grupo 1 y con una cruz a los del grupo 2.
b) Calcule los centros de gravedad de cada grupo y el centro de gravedad total.
c) Calcule la matriz de varianzas-covarianzas V , W y B.
d ) Compruebe la relación V = W + B.
e) Calcule la inversa de V .
(Nota: puede usar la fórmula simple para invertir matrices 2 × 2, usando el
determinante).
f ) Determine la función discriminante de Fisher.
g) Usando la función discriminante de Fisher, decida a cual grupo asignar el ele-
mento x = (7, 5,2).

3. En un estudio zootécnico realizado en Cuba en 1970, acerca del interés por cruzar
reses de raza charolais y cebú, se llevaron a cabo medidas de 6 variables, que repre-
sentan distintos pesos del animal. La muestra contiene 23 reses, de las cuales 12 son
charolais y 11 son cebú. Las variables son:
x1 : peso de la res viva
x2 : peso de la piel
188 Análisis Discriminante

x3 : peso de la carne de primera calidad


x4 : peso de la carne total
x5 : peso de la grasa
x6 : peso de los huesos.
El grupo 1 está formado por las reses charolais mientras que el grupo 2 por las cebú.
Los datos se muestran a continuación:

Res x1 x2 x3 x4 x5 x6 Grupo
1 395 224 35,1 79,1 6 14,9 1
2 410 232 31,9 73,4 9,7 16,4 1
3 405 233 30,7 76,5 7,5 16,5 1
4 405 240 30,4 75,3 8,7 16 1
5 390 217 31,9 76,5 7,8 15,7 1
6 405 243 32,1 77,4 7,1 15,5 1
7 390 229 32,1 78,4 4,6 17 1
8 405 240 31,1 76,5 8,2 15,3 1
9 420 234 32,4 76 7,2 16,8 1
10 390 223 33,8 77 6,2 16,8 1
11 415 247 30,7 75,5 8,4 16,1 1
12 400 234 31,7 77,6 5,7 18,7 1
13 400 224 28,2 73,5 11 15,5 2
14 395 229 29,4 74,5 9,3 16,1 2
15 395 219 29,4 72,8 8,7 18,5 2
16 395 224 28,6 73,7 8,7 17,3 2
17 400 223 28,5 73,1 9,1 17,7 2
18 400 224 27,8 73,2 12,2 14,6 2
19 400 221 26,5 72,3 13,2 14,5 2
20 410 233 25,9 72,3 11,1 16,6 2
21 402 234 27,1 72,1 10,4 17,5 2
22 400 223 26,8 70,3 13,5 16,2 2
23 400 213 25,8 70,4 12,1 17,5 2

Se quiere obtener una función discriminante para diferenciar las dos razas.

a) Calcule los centros de gravedad de cada clase y el centro de gravedad total.


b) Realice la discriminación lineal por un método paso a paso, usando a lo sumo
3 variables explicativas.
c) Si sólo se usan 2 variables explicativas, ¿cuáles serı́an?
d ) Suponga que se tienen las siguientes medidas para una res: 397, 225, 27,3, 74,5, 10,2, 17,1.
¿De cuál raza cree usted que es?

4. Pruebe la relación de Fisher entre las matrices de varianzas-covarianzas: V = W +B.


9.7 Otros métodos 189

5. Considere la nube Ng de centros de gravedad de las clases C1 , . . . , Ck , donde cada


centro de gravedad g` está dotado del peso µ` . Pruebe que el centro de gravedad de
la nube Ng es g, el centro de gravedad total.

Anexo: Descomposición de la inercia


Presentamos una propiedad importante de la inercia cuando se está en presencia de
una partición del conjunto de individuos. La propiedad establece que la inercia total de
la nube se puede descomponer como la suma de la inercia inter-clases (es decir, la inercia
calculada a partir de los centros de gravedad de cada clase) y la inercia intra-clases (la
suma de las inercias de cada clase tomada por separado).

Sea C1 , C2 , . . . , Ck una partición del conjunto de individuos en k clases (recuérdese


que una partición está dada por conjuntos no vacı́os disjuntos dos a dos y cuya unión es
el conjunto de individuos). Definimos
X
µ` = pi
xi ∈C`

como el peso de la clase C` , y


1 X
g` = pi xi
µ` x ∈C
i `

como el centro de gravedad de la clase C` .


Recuérdese que la inercia total de la nube N es:
n
X
T = I(N ) = pi kxi − gk2
i=1

Definimos la inercia inter-clases como la inercia de la subnube de centros de gravedad,


cada uno ponderado por el peso de la clase que representa:
k
X
B= µ` kg` − gk2
`=1

y definimos la inercia intra-clases como la suma de las inercias de cada clase:


k
X
W = I`
`=1

donde I` es la inercia de clase C` , es decir:


X
I` = pi kxi − g` k2
xi ∈C`
190 Análisis Discriminante

Entonces se tiene la reclación de Fisher para el caso de las inercias:

T =B+W

Para probar este resultado, véase que, como cada individuo pertenece a una y sólo a
una clase C` , entonces podemos escribir:
k X
X
T = pi kxi − gk2
`=1 xi ∈C`

La segunda sumatoria de la expresión anterior se puede escribir como:


X X
pi kxi − gk2 = pi kxi − g` k2 + µ` kg` − gk2
xi ∈C` xi ∈C`

X X X
pues pi kxi −g` +g` −gk2 = pi kxi −g` k2 +µ` kg` −gk2 +2 pi (xi −g` )t M (g` −g)
xi ∈C` xi ∈C` xi ∈C`
X X X
t t
y pi (xi − g` ) M (g` − g) = ( pi xi − pi xi g` ) M (g` − g)
xi ∈C` xi ∈C` xi ∈C`
t
= (µ` g` − µ` g` ) M (g` − g) = 0.

La propiedad aquı́ probada es muy importante cuando se está en presencia de una


partición, como es el caso en discriminación factorial, o cuando se busca una partición,
como en clasificación automática por particiones.
Capı́tulo 10

Regresión Lineal Múltiple

En el capı́tulo 1, hemos presentado la regresión lineal simple como una técnica para
explicar, mediante un modelo lineal, una variable cuantitativa y mediante una variable
cuantitativa x. En el caso en que se disponga de más de una variable explicativa, se puede
plantear también un modelo lineal para trata de explicar una variable explicativa. Este
es el objetivo de la regresión lineal múltiple.

10.1. Planteamiento del problema


Supóngase que se está en presencia de una variable cuantitativa y, la cual se quiere
explicar mediante un conjunto de variables cuantitativas x1 , x2 , . . . , xp , llamadas variables
explicativas. Todas las variables consideradas han sido observadas sobre n individuos. Se
plantea que el modelo explicativo es de tipo lineal:
∀i ∈ {1, 2, . . . , n} : yi = a + b1 x1i + b2 x2i + · · · + bp xpi + ei (10.1)
donde ei es un término de error, llamado residuo.
Por lo tanto, se quiere encontrar una variable ŷ tal que:
ŷi = a + b1 x1i + b2 x2i + · · · + bp xpi (10.2)
de tal forma que el error sea mı́nimo. El objetivo de minimizar el error, puede ser planteado
de la siguiente forma:
Minimizar ||e||2
es decir
Minimizar ||y − ŷ||2

Debe observarse que la norma a la que se hace referencia en la mninimización anterior,


es la norma del espacio de variables F = Rn (ver capı́tulo 2). Esta minimización plantea
entonces un sistema de ecuaciones, llamadas ecuaciones normales.

191
192 Regresión Lineal Múltiple

10.1.1. Interpretación geométrica


El problema de la regresión lineal múltiple puede plantearse fácilmente de manera
geométrica. En efecto, considérese que y y ŷ son vectores de Rn . Por su parte, 1In , x1 , x2 , . . . , xp
son también vectores1 de Rn y generan un subespacio vectorial de Rn , denotado W . De
acuerdo con las ecuaciones 10.2, ŷ estarı́a en W pues es combinación lineal de los xj y 1In .
Ası́, el objetivo de minimizar e se puede traducir geométricamente en tratar de encon-
trar el vector de W más cercano de y. Este vector solución es precisamente la proyección
ortogonal de y en W , como se muestra en la figura 10.1.
b•
D
D
D
D
D
D
D
D
D
D
D
!•a D
! !! D
 

!!

 D
!α ((((( â 



β D
b̂ •PP !(
!
(
( 
 PP D!
(!(
( 
 
 0 
 

 

Figura 10.1: Proyeccion de la variable a explicar en el espacio generado por las variables
explicativas

10.1.2. Solución
Puede observarse que el vector de los errores e, es precisamente el vector diferencia
y − ŷ, por lo que es ortogonal a cualquier combinación lineal de vectores de W . Esto es,
como la métrica de pesos D define el producto interno en F = Rn , entonces se tiene:

X ⊥D y − ŷ

Denotamos X la matriz de datos que contiene a las variables explicativas xj por columm-
nas, y tal que su primera columna está formada de unos, y denotamos b el vector de
1
Por comodidad en el desarrollo, consideramos 1In el vector de “unos” como una variable explicativa,
que es la que tiene por coeficiente a la constante a en el modelo.
10.2 Calidad de la regresión 193

coeficientes de regresión:  
a

 b1 

b=
 b2 

 .. 
 . 
bp
Ası́, la condición de ortogonalidad es equivalente a:

X t D(y − Xb) = 0 ⇔ X t DXb = X t Dy

Si X t DX es invertible (lo que en este contexto equivale a decir que no hay dos variables
explicativas con correlación 1) entonces la solución es:

b = (X t DX)−1 X t Dy (10.3)

De esta forma, la variable estimada o predicha ŷ serı́a:

ŷ = Xb = X(X t DX)−1 X t Dy (10.4)

El lector debe observar que hasta el momento no hemos supuesto que las variables
estén centradas. En efecto, esta hipótesis no es necesaria para obtener la solución dada
por las ecuaciones 10.3 y 10.4. Sin embargo, en el caso en que las variables estén centra-
das entonces X t DX es la matriz de varianzas-covarianzas V y X t Dy es el vector delas
covarianzas entre las xj y y.

10.2. Calidad de la regresión


Al igual que en la regresión lineal simple,se medirá un ı́ndice de calidad global de
la regresión mediante el coeficiente de determinación R2 , que no es otra cosa que la
correlación entre la variable observada y y la variable estimada ŷ:

R2 = ρ2 (y, ŷ)

En la figura 10.1 puede observarse que, en el caso de tener variables centradas, esta
correlación es dada preisamente por el coseno del ángulo entre y y ŷ, pues en el el espacio
de variables esta es la interpretación geométrica de las correlaciones.
Por otra parte, también es necesario examinar el comportamiento de los residuos res-
pecto a cada una de las variables que intervienen en el análisis. Para ello, se harán los
diagramas de dispersión de los residuos estandarizados e/σe versus cada xj y versus y. Es-
tos diagramas no deben mostrar ninguna tendencia ni ningún comportamiento anormal,
en el sentido que los puntos del diagrama deben dar la impresión de seguir un compor-
tamiento aleatorio. En el caso que el analista descubra algún comportamiento anormal,
194 Regresión Lineal Múltiple

por ejemplo que los puntos sigan una parábola o algún orden creciente o decreciente,
o bien que haya algún punto que se separe netamente de los demás (tal que el residuo
estandarizado sea mayor que 3 o menor que −3), entoces se deben examinar de cerca los
datos. Es posible que en estos casos una pequeña transformación sobre los datos resuelva
el problema, o bien que el modelo no sea lineal como se pensaba originalmente.

Regresión paso a paso


Cuando las variables explicativas están muy correlacionadas, se aconseja emplear un
método que seleccione las variables más explicativas, con el fin de eliminar las posibles
redundancias que probablemente existen entre las xj .
Hay varios métodos paso a paso, uno de ellos es el siguiente:

1. Realice la regresión lineal simple de y sobre cada una de las x1 , x2 , . . . , xp ; escoja


aquella que da el mayor R2 (esta es la que mejor explica a y). A esta variable la
0
denotamos x1 .
0
2. Haga la regresión doble de y sobre x1 y cada una de las restantes variables explica-
0
tivas; escoja aquella que el mayor R2 , la denotaremos x2 .
0 0 0
3. Reitere el paso anterior, escogiendo x3 , x4 , . . . xq .

Las iteraciones anteriores se hacen hasta que las nuevas variables introducidas no
aporten nada nuevo a la regresión. Esto se puede evaluar con el estadı́stico de Fisher F :

sea F el estadı́stico de Fisher con (n − q − 1, 1) grados de libertad (consultar una


tabla de los valores de este estadı́stico),

e2i
P

sea F̃ = rP 2
e
i
n−q−1

reiterar hasta que F̃ < F

Ejercicios
1. Supónga que se tiene la siguiente tabla de covarianzas entre y y dos variables expli-
cativas x1 y x2 :
y x1 x2
y 1 0,7 0,3
x1 1 0,5
x2 1
Calcule los coeficientes de regresión de y en función de:
10.2 Calidad de la regresión 195

a) solamente x1
b) solamente x2
c) x1 y x2 .

2. Se quieren determinar los principales factores que influyen sobre el rendimiento del
un campo de trigo. Los factores se escogen entre los parámetros siguientes:

Potasio y ácido fosfórico (Kg/Ha)


Nitrógeno (Kg/Ha)
Agua de lluvia durante la germinación (Cm)
Acidez del suelo (pH)
Temperatura media durante la germinación (◦ C)

Se han observado los rendimientos (Q/Ha) correspondientes sobre diez campos de


trigo:

Pota Nitr Agua Acid Temp Rend


1 1100 300 6.0 5.0 10 30
2 1000 200 4.0 7.0 8 20
3 1200 350 6.7 8.0 10 40
4 1000 300 5.0 6.0 8 25
5 1100 300 5.5 7.0 9 35
6 1200 350 8.0 6.0 11 45
7 900 300 4.0 5.0 8 30
8 700 400 3.5 3.0 7 25
9 1200 350 6.0 7.0 7 35
10 1300 350 7.0 6.5 10 40

Encuentre los coeficientes de regresión lineal (puede usar un método paso a paso),
los residuos, la variable estimada. Además, calcule el coeficiente de determinación
R2 y haga los diagramas de residuos estandarizados versus las variables explicativas
y la variable a explicar.

3. En una empresa de producción de plantas, se desea explicar el consumo mensual de


agua y, medido en galones, en función de las cinco variables siguientes:

x1 : temperatura media en el mes (en grados Fahrenheit)


x2 : producción mensual (en miles de litros)
x3 : número de dı́as hábiles en el mes
x4 : número de personas que trabajaron en el mes
x5 : número al azar de dos cifras
196 Regresión Lineal Múltiple

La variable x5 fue añadida para chequear el método estadı́stico utilizado. Las me-
didas efectuadas sobre 17 meses fueron:

x1 x2 x3 x4 x5 y
1 58.8 7107 21 129 52 3067
2 65.2 6373 22 141 68 2828
3 70.9 6796 22 153 29 2891
4 77.4 9208 20 166 23 2994
5 79.3 14792 25 193 40 3082
6 81.0 14564 23 189 14 3898
7 71.9 11964 20 175 96 3502
8 63.9 13525 23 186 94 3060
9 54.5 12656 20 190 54 3211
10 39.5 14119 20 187 37 3286
11 44.5 16691 22 195 42 3542
12 43.6 14571 19 206 22 3125
13 56.0 13619 22 198 28 3022
14 64.7 14575 22 192 7 2922
15 73.0 14556 21 191 42 3950
16 78.9 18573 21 200 33 4488
19 79.4 15618 22 200 92 3295

a) Encuentre los coeficientes de regresión lineal (puede usar un método paso a


paso).
b) Encuentre los residuos y la variable estimada.
c) Calcule el coeficiente de determinación R2 .
d ) Haga los diagramas de residuos estandarizados versus las variables explicativas
y la variable a explicar.
Apéndice A

Guı́a breve de técnicas multivariadas


de análisis de datos

Presentamos las principales técnicas de análisis multivariado de datos, cada una ubi-
cada en sus objetivos, situación y solución. Las primeras cinco son técnicas descriptivas
que generalmente se usan para reducir las dimensiones de una tabla de datos con mu-
chas observaciones. Las dos siguientes son técnicas también descriptivas de clasificación
de individuos, que tratan de obtener clases homogéneas de individuos. Finalmente, las
cuatro técnicas siguientes son previsionales, cada una adaptada a una situación y un ob-
jetivo diferente. En un contexto previsional, se dice que hay variables explicativas que son
independientes, y una o más variables a explicar, que es dependiente de las anteriores.

Análisis en Componentes Principales (ACP)


Esta técnica fue originalmente propuesta por Pearson a principios de siglo en su versión
más simple, y luego fue formalizada por Hotelling en 1933 en el caso general cuando
se supone una distribución normal multivariada. Pagès [31] propuso en 1971 la versión
geométrica actualmente en uso.

Situación Se tiene una tabla de datos con n individuos descritos por p variables cuan-
titativas.

Objetivo Se quieren encontrar q variables sintéticas (con q < p), que sean no correla-
cionadas y tales que contengan el máximo de varianza que se pueda extraer de la tabla
de datos original. Tales variables sintéticas servirán para hacer una descripción de las
relaciones entre los individuos entre sı́, entre las variables entre sı́, y entre los individuos
y las variables.

197
198 Guı́a breve de técnicas multivariadas de análisis de datos

Solución Las variables sintéticas encontradas se llaman componentes principales y de-


finen los llamados planos principales, en los cuales se representan las posiciones relativas
de los individuos, más o menos como se representan en el espacio de p dimensiones que
los definen. También se representan las variables en los llamados cı́rculo de correlación,
mostrándose de manera sintética el conjunto de correlaciones entre las variables de la
tabla. Finalmente, la posición de las variables sirve para detectar cuáles variables son
importantes para cada individuo.
Se obtiene además el valor de la inercia asociada a cada componente principal, que
indica qué porcentaje de la dispersión de la tabla original está contenida en la componente
respectiva. Entre mayor sea la inercia mejor será la calidad de la representación sobre el
plano respectivo.
La calidad de la representación de cada individuo y cada variable sobre el plano princi-
pal se mide con la ayuda del coseno del ángulo entre el vector original y el representado en
el plano. Entre más cercano sea a 1 este coseno mejor será la representación del individuo
o variable en el plano.

Análisis Factorial de Correspondencias


Esta técnica fue originalmente propuesta por Benzécri en 1965 y se popularizó mucho
en Francia. Fue el origen de la corriente francesa de Análisis de Datos.

Situación Se tiene una tabla de contingencia que cruza las p modalidades de una va-
riable cualitativa con las q modalidades de otra variable cualitativa.
Sin embargo, también se puede aplicar a otras tablas de datos con las siguientes ca-
racterı́sticas:

todos los datos son positivos;


el papel que juegan las filas y las columnas de la tabla es simétrico;
todas las filas son de la misma naturaleza entre sı́, y todas las columnas son de la
misma naturaleza entre sı́.

Objetivo Detectar las relaciones entre las modalidades de las dos variables cualitativas
(o entre filas y columnas de la tabla) con el fin de determinar si hay dependencia o
independencia entre ellas, y además determinar qué tipo de dependencia.

Solución Se obtienen gráficos del tipo planos principales del ACP que muestran las
posiciones relativas entre las filas y las columnas de la tabla. En el mismo plano se repre-
sentan simultáneamente las filas y las columnas.
199

En cuanto a la interpretación, la proximidad entre dos filas muestra que ambas tienen
distribuciones similares entre las columnas (idem para las columnas respecto a su distri-
bución entre las filas). La proximidad entre una fila y una columna muestra que en la
distribución de la fila, la columna muestra una importancia relativa mayor que las otras
columnas.

Análisis de Correspondencias Múltiples


Se trata de una generalización del Análisis de Correspondencias al caso en que se
tenga más de dos variables cualitativas. Fue propuesto por Lebart a mediados de los años
setenta.

Situación Se tiene una tabla de contingencia generalizada (tabla de Burt) que cruza las
modalidades de varias variables cualitativas tanto en filas como en columnas. O bien, se
tiene una tabla de individuos por variables cualitativas, tal que para cada modalidad de
cada variable cualitativa hay una columna tal que si un individuo presenta la modalidad
aparece un 1 y si no aparece un 0 (tabla disyuntiva completa).

Objetivo Se quiere estudiar la relación entre las distintas modalidades de las variables
cualitativas.

Solución Se obtienen planos principales del tipo del ACP tales que en un mismo plano
se representan simultáneamente todas las modalidades que intervienen en el análisis. Cada
modalidad está representada por el punto promedio de todos los individuos que presentan
esa modalidad. La proximidad entre modalidades muestra que para los mismos individuos
las modalidades respectivas estaban presentes.

Análisis de Proximidades o Escalamiento Multidimen-


sional
Las diversas técnicas llamadas en inglés Multidimensional scaling fueron propuestas
entre finales de los años cincuenta y mediados de los años sesenta por varios autores,
entre los que están Carroll, Kruskal, Shepard, Young y Torgerson, y fueron mejorados
recientemente mediante el uso de técnicas eficientes de optimización.

Situación Se tiene una tabla n × n que contiene las proximidades o distancias entre n
individuos.
200 Guı́a breve de técnicas multivariadas de análisis de datos

Objetivo Obtener una representación gráfica de pocas dimensiones tal que las distan-
cias entre individuos representados en los planos sean lo más parecidas a las distancias
observadas en la tabla.

Solución Se obtienen planos principales del tipo ACP que contienen puntos que re-
presentan a los n individuos. Las distancias entre los puntos son, en lo posible, lo más
parecidas a las distancias de la tabla original.

Análisis de Preferencias
El primer modelo fue propuesto en 1950 por Coombs. Luego, otros autores estudiaron
distintos métodos, como Benzécri en 1965 y Carroll en 1970.

Situación Un conjunto de n individuos da sus preferencias sobre p objetos, colocándolos


en orden.

Objetivo Se quieren describir las preferencias individuales para obtener una preferencia
general.

Solución Se obtienen planos principales del tipo del ACP tales que muestran próximos
a individuos que tienen preferencias similares y alejados a individuos con preferencias muy
diferentes.

Clasificación Jerárquica
Su origen remonta a las investigaciones taxonómicas de Lineo. En los años sesenta,
diversos autores (Sneath, Sokal, Jardine, Sibson, Johnson, Benzécri) formalizaron una
serie de métodos y propiedades.

Situación Se tiene una tabla de datos con n individuos y p variables. También se puede
tener una tabla n × n con las proximidades o distancias entre n individuos.

Objetivo Obtener varias clasificaciones de los individuos, de tal manera que las clasifi-
caciones se puedan encajar y representar mediante un árbol.
201

Solución Hay dos enfoques para la construcción del árbol: uno ascendente y otro des-
cendente.
En la construcción ascendente, se parte de los individuos y se van agregando los más
parecidos, y luego las clases más parecidas y ası́ sucesivamente, hasta agregar dos clases
cuya unión dé la población total.
En la construcción descendente, se parte de la población total y ésta se divide en dos
según la partición que mejor separe, y luego se divide de nuevo cada clase ası́ obtenida y
ası́ sucesivamente, hasta obtener los individuos.

Clasificación por Particiones


Desde mediados de los años sesenta, Forgy, Mac Queen, Hall y Ball en Estados Unidos
y Diday en Francia, propusieron métodos muy similares.

Situación Se tiene una tabla de datos con n individuos y p variables. También se puede
tener una tabla n × n con las proximidades o distancias entre n individuos.

Objetivo Se quiere obtener una partición de los n individuos en un cierto número de


clases tales que sean bien homogéneas internamente y estén bien separadas entre sı́.

Solución Los diferentes métodos (nubes dinámicas, centros móviles, k-means, Isodata)
obtienen k clases que normalmente dependen de una clasificación dada a priori por el
usuario. Por ello se aconseja hacer varias corridas del método con el fin de estudiar las
clases que son estables, es decir, que a pesar de partir de diferentes particiones a priori,
se mantienen homogéneas.

Regresión Lineal
La regresión lineal es quizás el método estadı́stico más antiguo y está basado en la
regresión lineal simple. Se dice que Galton, a finales del siglo XIX, estudió el primer
problema de regresión al querer predecir la estatura de los hijos de padres altos.

Situación Se tienen p variables cuantitativas explicativas x1 , x2 , . . . , xp observadas sobre


n individuos y una variable cuantitativa a explicar y.

Objetivo Expresar y como combinación lineal de las xj .


202 Guı́a breve de técnicas multivariadas de análisis de datos

Solución Se obtienen expresiones numéricas para los coeficientes de regresión. Esto


permite predecir el valor de y para cualquier nueva observación, por simple aplicación de
la combinación lineal de las xj .
La calidad de la regresión se mide usualmente por estudio de los diagramas de disper-
sión de los residuos versus y o versus las xj , con el fin de determinar si los residuos no
tienen un comportamiento que esconda una relación no lineal entre las variables. Además,
hay que calcular la correlación entre la variable observada y y la variable predicha ŷ.
En el caso en que se suponga una distribución normal de las variables, se pueden
determinar los intervalos de confianza de los coeficientes de regresión y elaborar algunos
tests estadı́sticos. Sin embargo, repetimos, esta hipótesis no es necesaria y a menudo no
es realista.

Discriminación
Fisher, a mediados de los años 30, fue el primero en proponer soluciones a los métodos
de discriminación.

Situación Se tienen p variables cuantitativas explicativas x1 , x2 , . . . , xp observadas sobre


n individuos y una variable cualitativa a explicar y, con q modalidades. Cada modalidad
de y define una clase en la población, la de los individuos que presentan esa modalidad.
También existen métodos de discriminación tales que las variables explicativas son
cualitativas, estos métodos son a veces llamados métodos de puntaje o de discriminación
sobre variables cualitativas.

Objetivo Caracterizar las clases definidas por y mediante las variables explicativas xj
(usualmente, usando combinaciones lineales de ellas).

Solución Se obtiene una función llamada de discriminación, tal que se puede aplicar a
las observaciones que tenga cada individuo. Si el resultado de esa aplicación está en un
cierto intervalo, entonces se dice que la función de discriminación clasifica al individuo
correspondiente. Por ejemplo, suponiendo que y tiene sólo dos modalidades, la función
de discriminación serı́a tal que si al aplicarla a un individuo el resultado es mayor que
un valor α entonces se toma la decisión de clasificar al individuo en la clase A, y si el
resultado es menor que α entonces se toma la decisión de clasificarlo en la clase B.
Los individuos de la tabla de datos usualmente se dividen en dos grupos: uno de
aprendizaje, que se usa para calcular la función de discriminación, y otro de test, que
sirve para medir la calidad de la función de discriminación. En efecto, para el conjunto
de test se conoce a priori la clasificación mediante las modalidades de y, pero también
203

se puede determinar una clasificación mediante la función de discriminación. Ası́, ambas


clasificaciones se pueden comparar y esta comparación dará valores numéricos que den
una idea de la calidad de la discriminación.
Para los métodos de puntaje, se obtiene una función que asigna puntos a cada moda-
lidad de las variables explicativas según sea la discriminación entre las distintas modali-
dades de la variable a explicar. Ası́, al estudiar un nuevo individuo bastará con observar
las modalidades que presenta, sumar los puntos correspondientes y determinar su clase
de discriminación.

Segmentación
Se trata de un caso especial de discriminación en dos clases, tal que se representan los
resultados en forma de árbol, llamado árbol de decisión.

Situación Se tiene una tabla de datos con n individuos y p variables explicativas, cuan-
titativas o cualitativas, y una variable a explicar.

Objetivo Se quiere construir un árbol de decisión binario, tal que cada nodo se divida
en dos mediante los valores de una variable cuantitativa (la que mejor haga la división de
la población según las modalidades de la variable a explicar) o mediante las modalidades
de alguna variable cualitativa (de nuevo, la que mejor haga la división).

Solución Se obtiene un árbol de decisión, tal que al descender se obtiene cada vez una
división en dos dela población según alguna variable, la más explicativa.

Análisis de Varianza
Fue propuesto por Fisher durante los años treinta. Usualmente se usa en un experi-
mento dirigido, de tal manera que el investigador puede controlar los factores explicativos.

Situación Se tienen p variables cualitativas explicativas observadas sobre n individuos


y una variable cuantitativa a explicar y. Se supone que la variable a explicar es normal o
gaussiana.

Objetivo Se quiere estudiar si las diferentes modalidades de las variables explicativas


afectan los valores de y. Es decir, si la población que presenta las diferentes modalidades
de las variables explicativas presenta diferencias significativas en los valores de y.
204 Guı́a breve de técnicas multivariadas de análisis de datos

Solución Se obtienen valores estadı́sticos que determinan si las medias entre las distintas
poblaciones son significativamente diferentes, usando una descomposición de la varianza
total en varianza intra-clases y varianza inter-clases.

Técnicas para datos temporales


Algunas de las técnicas anteriores se pueden generalizar al caso en que se tengan
varias tablas de datos como los indicados en cada situación, pero cada tabla para un año
diferente.
Ası́, en el caso del Análisis en Componentes Principales el método se extiende al
llamado método Statis (propuesto por Y. Escoufier) o al Análisis Factorial Múltiple
(propuesto por B. Escofier), que brindan planos principales que muestran no sólo las
relaciones entre los individuos y las variables, sino también de ellos con los distintos años.
El Análisis Factorial Múltiple también puede aplicarse al caso en que se tengan tablas
del tipo de las analizadas por el Análisis de Correspondencias o del Análisis de Corres-
pondencias Múltiples.
El Análisis de Proximidades también se extiende por el método IndScal de Carroll.
Los planos principales obtenidos por los métodos anteriores son un “término medio”
(llamado “compromiso”) entre los distintos planos principales que se obtendrı́an si se
hiciera un análisis para cada año.
Bibliografı́a

[1] Aarts E.M., Korst J. (1988) Simulated Annealing and Boltzmann Machines: A Sto-
chastic Approach to Combinatorial Optimization and Neural Computing. John Wiley
& Sons, Chichester.

[2] Acuña, O.; Ulate, F. (1994) Matrices no negativas. Editorial de la Universidad de


Costa Rica, San José.

[3] Adorf F., Murtagh F. (1988) “Clustering based on neural network processing”, en:
Compstat’88, IASC, Physica–Verlag, Heidelberg.

[4] Anderberg, M.R. (1973) Cluster Analysis for Applications. Academic Press, New
York.

[5] Anderson, J. A.; Rosenfeld, E. (1989) Neurocomputing. Foundations of Research.


The MIT Press, Cambridge Mass. (Recopilación de los trabajos pioneros en redes
neuronales).

[6] Badran, F.; Thiria, S.; Fogelman-Soulié, F. (1991) “Etude du comportement des
réseaux multicouches – comparaison avec l’analyse discriminante”, en: Induction
Symbolique et Numérique à Partir de Données, Y. Kodratoff & E. Diday (eds.),
Cépaduès, Toulouse.

[7] Ball, G.H.; Hall, D.J. (1965) “Isodata, a novel method of data analysis and classi-
fication”. Technical Report, Stanford Research Institute.

[8] Barthélemy, J.P.; Guénoche, A. (1988) Les Arbres et la Représentation des Proxi-
mités. Masson, Parı́s.

[9] Batbedat A. (1990) Les Approches Pyramidales dans la Classification Arborée. Mas-
son, Parı́s.

[10] Belaı̈d, Belaı̈d (1992) Reconnaissance des Formes. InterEditions, Parı́s.

[11] Benzècri, J.-P. (1965) Problèmes et méthodes de la taxinomie. Cours ISUP, Paris –
Rennes.

205
206 Guı́a breve de técnicas multivariadas de análisis de datos

[12] Benzécri, J.-P. y colaboradores (1982) L’Analyse des Données. Tomo I: La Taxino-
mie. 4a. edición. Dunod, Parı́s.

[13] Benzécri, J.-P. y colaboradores (1982) L’Analyse des Données. Tomo II: Correspon-
dances. 4a edición. Dunod, Paris.

[14] Benzécri, J.P. (1985) “Démonstration de l’équivalence des résultats des algorithmes
accélérés à ceux de l’algorithme de base en CAH”, Les Cahiers de l’Analyse de
Données, Vol. X, No.3

[15] Benzécri, J.P. (1972) Sur l’analyse des tableaux binaires associés à una correspon-
dance multiple. Note multigraphiée du Laboratoire de Statistique Mathématique,
Université de Paris VI.

[16] Bastin, C.; Benzécri, J.P.; Bougarit, C.; Cazes, P. (1980) Pratique de l’Analyse des
Données. Tomo 2: Abrégé Théorique, Etudes de cas Modèle. Dunod, Paris.

[17] Benzécri, J.P. y colaboradores (1982) L’Analyse des Données. Tomo I: La Taxino-
mie; Tomo II: Correspondances, 4a edición. Dunod, Paris.

[18] Benzécri, J.P. y F. (1984) Pratique de l’Analyse des Données. Tomo 1: Analyse
des Correspondences et Classification Automatique, Exposé Elémentaire, 2a edición.
Dunod, Paris.

[19] Benzécri, J.P. y colaboradores (1981) Pratique de l’Analyse des Données. Tomo 3:
Linguistique et Lexicologie, Dunod, Paris.

[20] Benzécri, J.P. y colaboradores (1986) Pratique de l’Analyse des Données. Tomo 5:
Economie. Dunod, Paris.

[21] Bergé, C. (1970) Graphes et Hypergraphes. Dunod, Paris.

[22] Bertrand, P. (1986) Estude de la Représentation Pyramidale. Thèse de Doctorat de


3ème cycle, Université Paris–Dauphine.

[23] Bertrand, P.; Diday, E. (1990) “Une généralisation des arbres hiérarchiques: les
représentations pyramidales”, Revue de Statistique Appliquée XXXVIII (3): 53–78.

[24] Bittner, J.; Trejos, J. (1997) “Analysis of the vascular epiphytes of tree ferns in a
montane rain forest in Costa Rica”, Revista de Matemática: Teorı́a y Aplicaciones
4(2): 62–74.

[25] Bourret P., Reggia J., Samuélidès M. Réseaux Neuronaux: une Approche Connexio-
niste de l’Intelligence Artificielle. Teknéa, Toulouse.

[26] Bouroche, J.M.; Saporta, G. (1989) L’Analyse des Données. 4a. edición, Presses
Universitaires de France, Collection que sais–je?, Parı́s.
207

[27] Brito P. (1991) Analyse de Données Symboliques. Pyramides d’Héritage. Tesis de


doctorado, Universidad Paris IX-Dauphine.

[28] Brossier, G.; Le Calvé, G. (1985): “Analyse des Dissimilarités sous l’Eclairage D.
Application à la Recherche d’Arbres Additifs Optimaux”,pp.17-26.

[29] Brossier, G. (1986) Problèmes de Representation par des Arbres. pp. 1-40

[30] Burt (1950) “The factorial analysis of qualitative data”, British Journal of Statistical
Psychology, Vol. III, No. 3: 166–185.

[31] Cailliez, F.; Pagès, J.P. (1976) Introduction à l’Analyse des Données. SMASH, Parı́s.

[32] Carpenter, G.A. (1989) “Neural network models for pattern recognition and asso-
ciative memory”, en Neural Networks, vol. 2, Pergamon Press, 138–152.

[33] Castillo, W. (1989) “Métodos y resultados en clasificación automática”, Revista de


Ciencia y Tecnologı́a 13(1–2): 105–116.

[34] Castillo, W. (1991) “Descripción de algunos métodos de clasificación automática


y aplicación a un problema de producción distribuida por cantón”, Ciencias Ma-
temáticas 2(1): 67–78.

[35] Castillo, W.; González, J. (1996) Primer Seminario de Análisis de Datos. Notas de
curso, Universidad de Atacama, Chile.

[36] Castillo, W.; González, J. (1994) “Análisis de tablas múltiples de datos”, Revista
de Matemática: Teorı́a y Aplicaciones 1(1): 47–55.

[37] Castillo, W.; Rodrı́guez, O.; Trejos, J.; Chacón, B. (1996) Presentación del método
de nubes dinámicas para la clasificación de curvas de carga. Proyecto UCR-ICE,
San José, Costa Rica.

[38] Castillo, W.; Rodrı́guez, O. (1997) “Algoritmo e implementación del análisis fac-
torial de correspondencias”, Revista de Matemática: Teorı́a y Aplicaciones 4(2):
51–62.

[39] Celeux, G. (1987) “Les formes fortes”, en Ecole Modulad Méthodes de Classificacion
pour l’Analyse des Données, CCS–INRIA, Strasbourg, pp. 49–56.

[40] Castillo, W.; González, J. (2001) “Estimación de los parámetros del modelo Indscal
por el método de sobrecalentamiento simulado”, Investigación Operacional 22(1):
45–52.

[41] Celeux, G.; Diday, E.; Govaert, G.; Lechevallier, Y.; Ralambondrainy, H. (1987)
“La méthode des nuées dynamiques”, en Ecole Modulad Méthodes de Classificacion
pour l’Analyse des Données, CCS–INRIA, Strasbourg, pp. 14–36.
208 Guı́a breve de técnicas multivariadas de análisis de datos

[42] Celeux G. (editor) (1991) Discrimination sur variables continues. Collection Didac-
tique INRIA, Le Chesnay.
[43] Celeux G., Diday E., Govaert G., Lechevallier Y., Ralambondrainy H.(1989) Clas-
sification Automatique des Données: Environnement Informatique et Statistique.
Dunod, Parı́s.
[44] Celeux, G.; Nakache (1994) Analyse Discriminante sur Variables Qualitatives. Eco-
nomica, Paris.
[45] Chabanon, C.; Dubuisson, B. (1990) “Méthodes non probabilistes”, en Analyse Dis-
criminante sur Variables Continues, G. Celeux (ed.), INRIA–Collection Didactique,
Rocquencourt.
[46] Chandon, J.L.; Pinson, S. (1981) Analyse Typologique: Théorie et Applications. Mas-
son, Parı́s.
[47] Charniak, E.; McDermott, D. (1985) Introduction to Artificial Intelligence.
Addison–Wesley, Reading, Mass.
[48] Chevalier, F. (1990) “L’analyse en composantes conjointes d’une famille de triplets
indexés”, Statistique et Analyse des Données, Vol 2: 35–75.
[49] Coad, P.; Yourdon, E. (1991) Object-Oriented Analysis. Yourdon Press, Texas.
[50] Chatfield, C.; Collins, A.J. (1980) Introduction to Multivariate Analysis. Chapman
& Hall, Londres.
[51] Cox, T.F.; Cox, M.A.A. (1994) Multidimensional Scaling. Chapman & Hall, London.
[52] Davalo, E.; Naı̈m, P. (1990) Des Réseaux de Neurones. 2a edición, Eyrolles, Parı́s.
[53] Davis, L.; Steenstrup, M. (1987) “Genetic algorithms and Simulated Annealing: an
overview”, en Genetic Algorithms and Simulated Annealing, L. Davis (ed.). Pitman,
Londres.
[54] De Soete; Carrol, D.; De Sarbo (1987) “Least squares algorithms for constructing
constrained ultrametric and additive tree representations of symmetric proximity
data”, pp. 7-8.
[55] Diday, E. et coll. (1980) Optimisation en Classification Automatique. INRIA, Le
Chesnay.
[56] Diday, E.; Lemaire, J.; Pouget, J.; Testu, F. (1982) Eléments d’Analyse des Données.
Dunod, Parı́s.
[57] Diday, E. (1982) “Inversions en classification hiérarchique: application à la cons-
truction adaptative d’indices d’aggrégation”, Revue de Statistique Appliquée 31(1):
45–62.
209

[58] Diday, E. (1985) “Une représentation visuelle des classes empiétantes: les pyrami-
des”, R.A.I.R.O.–APII, 52: 475–526.

[59] Draper; Smith. Applied Regression Analysis. John Wiley & Sons, New York.

[60] Dubes, R.; Jain, A.K. (1980) “Clustering methodologies in exploratory data analy-
sis”, Advances in Computers, Vol. 19, pp. 113–228.

[61] Escofier, B.; Pagès, J. (1988) Analyses Factorielles Simples et Multiples: objectifs,
méthodes et interprétation. Dunod, Paris.

[62] Espinoza, J.L. (1996) “El algoritmo de Fisher para particionamiento óptimo” Re-
vista de Matemática: Teorı́a y Aplicaciones 3.

[63] Espinoza, J.L.; Mora, W.; Trejos, J. (1988) Clasificación automática. Tesis de licen-
ciatura, Universidad de Costa Rica.

[64] Espinoza, J.L.; Trejos, J. (1989) “Clasificación por particiones”, Revista de Ciencia
y Tecnologı́a, XIII (1–2): 129–154.

[65] Everitt, B.S. (1993) Cluster Analysis. 3a edición. Edward Arnold, London.

[66] Fénélon, J.P. (1981) Qu’est-ce que l’Analyse des Données? Lefonen, Paris.

[67] Fisher, W.D. (1958) “On grouping for maximum homogeneity”, J. Amer. Stat.
Assoc. 53.

[68] Forgy, E.W. (1965) “Cluster analysis of multivariate data: efficiency versus inter-
pretability of classifications”, Biometrics 21.

[69] Fukushima, K.; Miyake, D.; Takayuki, I (1983) “Neocognitron: a neural network mo-
del for a mechanism of visual pattern recognition”, IEEE Transactions on Systems,
Man and Cybernetics, SMC-13: 826–834.

[70] Fukushima, K. (1988) “Neural networks and visual pattern recognition”, en Systems
with Learning and Memory Abilities, J. Delacour and J,C,S, Levy (eds.), Elsevier
Science Publ. B.V. (north–Holland), Amsterdam, 365–386.

[71] Garita, N.; Poltronieri, J, (1994) Estructuras de la opinión pública en Costa Rica:
¿Estabilidad o evolución? Editorial de la Universidad de Costa Rica, San Pedro.

[72] Glaçon, F. (1981) Analyse Conjointe de Plusieurs Matrices de Données. Thèse de


3ème cycle, Université Scientifique et Médicale de Grenoble.

[73] Goldberg, D.E. (1987) “Simple genetic algorithms and the minimal, deceptive pro-
blem”, en Genetic Algorithms and Simulated Annealing, L. Davis (ed.). Pitman,
Londres.
210 Guı́a breve de técnicas multivariadas de análisis de datos

[74] Goldberg, D.E. (1989) Genetic Algorithms in Search, Optimization and Machine
Learning. Addison-Wesley, Reading-Mass.

[75] González, J.; Rodrı́guez, O. (1995) “Algoritmo e implementación del método Sta-
tis”. IX Simposio Métodos Matemáticos Aplicados a las Ciencias, J. Trejos (ed.),
Turrialba: 49–56.

[76] González, J. (1994) “Estudio evolutivo de la calidad del agua”, Memoria del II
Encuentro Centroamericano de Investigadores en Matemáticas, G. Mora (ed.), San
Ramón: 425–434.

[77] González, J.; Rodrı́guez, O. (1995) “Algoritmo e implementación del método Statis”,
en: J. Trejos (Ed.) IX Simposio de Métodos Matemáticos Aplicados a las Ciencias,
U.C.R. û I.T.C.R., Turrialba.

[78] Govaert, G. (1975) Classification automatique et distances adaptatives. Thése de


Doctorat de 3ème cycle, Universtié Paris VI.

[79] Govaert, G. (1983) Classification Croisée. Thèse de Doctorat ès Sciences, Univer-
sité Paris VI.

[80] Govaert, G. (1987) “Classification croisée d’un tableau de contingence; classifica-


tion croisée d’un questionnaire”, en Ecole Modulad Méthodes de Classificacion pour
l’Analyse des Données, CCS–INRIA, Strasbourg, pp. 79–101.

[81] Gower, J. (1966) “Some distance properties of latent root and vector methods in
multivariate analysis”, Biometrika 53:325–338.

[82] Greenacre, M. (1984) Theory and Applications of Correspondence Analysis. Acade-


mic Press, Londres.

[83] Groenen, P.J.F.; Mathar, R.; Trejos, J. (2000) “Global optimization methods for
multidimensional scaling applied to mobile communications”, in W. Gaul, O. Opitz
& M. Schader (Eds.) Data Analysis. Scientific Modeling and Practical Application,
Springer, Berlin: 459–469.

[84] Grossberg S., editor (1988) Neural Networks and Natural Intelligence. The MIT
Press, Cambridge, Massachussets.

[85] Hakimi; Patrinos (1972) “The distance matrix of a graph and its tree realization”,
pp. 255-262.

[86] Hartigan (1974) Clustering Algorithms. John Wiley & Sons, Nueva York.

[87] Henry-Labordère, A. (1977) Analyse de Données: Applications et Méthodes Prati-


ques. Masson, Paris.
211

[88] Hertz, J.A.; Krogh, A.; Palmer, R.G. (1991) Introduction to the Theory of Neural
Computation. Addison–Wesley, Redwood City, California.

[89] Hoaglin, D.C.; Moore, D.S. (1992) Perspectives in Contemporary Statistics. Mathe-
matical Association of America, MAA Notes Nr. 21.

[90] Holland, J.H. (1975) Adaptation in Natural and Artificial Systems. University of
Michigan Press, Ann Arbor.

[91] Hruschka, H.; Natter, M. (1993) “A-posteriori segmentation in marketing by neural


network models”, en Applied Stochastic Models and Data Analysis, J. Janssen and
C.H. Skiadas (eds.), World Scientific, Singapur, 375–387.

[92] Hopfield, J.J. (1984) “Neurons with graded response have collective computatio-
nal properties like those of two–state neurons”, Proc. of the National Academy of
Sciences 81: 3088–3092.

[93] Hush, D.R.; Horne, B.G. (1993) “Progress in supervised neural networks. What’s
new since Lippman?”, IEEE Signal Processing Magazine, January 1993: 8–39.

[94] Jambu M. (1978) Classification Automatique pour l’Analyse des Données. Tomo 1.
Dunod, Parı́s.

[95] Jambu M. (1989) Exploration Informatique et Statistique des Données. Dunod,


Parı́s.

[96] Jardine, C.J.; Jardine, N.; Sibson, R. (1967) “The structure and construction of
taxinomic hierarchies”, Mathematical Biosciences 1: 171–179.

[97] Jardine, N.; Sibson, R. (1971) Mathematical Taxonomy. John Wiley & Sons, New
York.

[98] Johnson, S.C. (1967) “Hierarchical clustering schemes”, Psychometrika 32(3).

[99] Kamp, Y.; Haster, M. (1990) Recursive Neural Networks for Associative Memory.
John Wiley & Sons, Chichester.

[100] Kaufman, L.; Rousseeuw, P.J. (1990) Finding Groups in Data. John Wiley & Sons,
New York.

[101] Kirkpatrick, S.; Gellat, C.D.; Vecchi, M.P. (1983) “Optimization by simulated an-
nealing”, Science 220: 671–680.

[102] Klecka, W.R. (1980) Discriminant Analysis. Sage University Paper, Series: Quanti-
tative Applications in the Social Sciences, No. 19, London.

[103] Knuth, D.E. (1981) Seminumerical Algorithms, segunda edición, volumen 2 del libro
The Art of Computer Programming. Addison-Wesley, Reading, Mass.
212 Guı́a breve de técnicas multivariadas de análisis de datos

[104] Kodratoff, Y. (1986) Leçons d’Apprentissage Symbolique. Cépaduès, Toulouse.

[105] Kodratoff, Y.; Diday, E. (1991) Induction Symbolique et Numérique à Partir de


Données. Cépaduès, Toulouse.

[106] Kohonen, T. (1984) Self-Organization and Associative Memory. (2a edición),


Springer–Verlag, Berlin.

[107] Kruskal, J.B.; Wish, M. (1978) Multidimensional Scaling. Sage Publications, Beverly
Hills CA.

[108] Laarhoven, P.J.M. van; Aarts, E.M. (1988) Simulated Annealing: Theory and Ap-
plication. Kluwer, Dordrecht.

[109] Lance, G.N.; Williams, W.T. (1967) “A general theory of classification sorting stra-
tegies. I. Hierarchical systems”, Computer Journal 9(4); “II. Clustering systems”,
Computer Journal 10(3).

[110] Lavit, Ch. (1988) Analyse Conjointe de Tableaux Quantitatifs. Masson, Paris.

[111] Lebart, L. (1975) “L’orientation du dépouillement de certaines enquêtes par


l’analyse des correspondances multiples”, Consommation, No. 2.

[112] Lebart, L.; Morineau, A.; Fenelon, J.P. (1979) Informatique et Statistique Appli-
quées. Dunod, Paris.

[113] Lebart, L.; Morineau, A.; Tabard, N. (1982) Techniques de la Description Statisti-
que. Dunod, Paris.

[114] Lebart, L.; Morineau, A.; Warwick, K.M. (1984) Multivariate Descriptive Statistical
Analysis. John Wiley & Sons, Nueva York.

[115] Lebart, L.; Morineau, A.; Fénelon, J.-P. (1985) Tratamiento Estadı́stico de Datos.
Métodos y Programas. Marcombo, Barcelona.

[116] Lebart, L. (1992) “Les enquêtes et la statistique”, en D. Grangé & L. Lebart (Eds.)
Traitements Statistiques des Enquêtes, Dunod, Paris: 1–19.

[117] Lebart, L.; Morineau, A.; Piron, M. (1995) Statistique Exploratoire Multidimension-
nelle. Dunod, Paris.

[118] Le Cun, Y. (1985) Une Procédure d’Apprentissage pour Réseau à Seuil Assymétri-
que. Proceedings of Cognitiva 85, Parı́s, pp. 599-604.

[119] Lechevallier, Y. (1995) “Construcción eficaz de una red neuronal a partir de un árbol
de decisión”, en Memorias VII y VIII Simposio Métodos Matemáticos Aplicados a
las Ciencias, W. Castillo y J. Trejos (eds.), Editorial de la Universidad de Costa
Rica, San Pedro, pp.: 53–74.
213

[120] Lerman, I.C.; Hardouin, M.; Chantrel, T. (1980) “Analyse de la situation relative
entre deux classifications floues”, in Data Analysis and Informatics I, E. Diday et
al. (eds.), North–Holland Publ. Co., 523–552.

[121] Lerman, I.C. (1981) Classification et Analyse Ordinale des Données. Dunod, Parı́s.

[122] Lerman, I.C.; Ghazzali, N. (1990) Quoi retenir d’un arbre de classification? Un essai
de quantification d’image numérisée. Publication interne No. 568, IRISA, Rennes.

[123] L’Hermier-des-Plantes, H. (1976) “Structuration des Tableaux à Trois Indices de la


Statistique”, Thèse de 3ème cycle, Université de Montpellier II.

[124] Libert, G.; Roubens, M. (1983) “New experimental results in cluster validity of
fuzzy clustering algorithms”, in New Trends in Data Analysis and Applications,
J. Janssen, J.-F. Marcotorchino, J.-M. Proth (eds.), Elsevier Science Publ. B. V.
(North–Holland), Amsterdam, 205–217.

[125] Lippman, R.P. (1987) “An introduction to computing with neural nets”, IEEE-
ASSP Magazine, April 1987, pp. 4–22.

[126] McClelland, J.L.; Rumelhart, D.E. (1989) Explorations in Parallel Distribute Proces-
sing. A Handbook of Models, Programs and Exercises. The MIT Press, Cambridge,
Massachussets.

[127] McCord Nelson, M.; Illingworth, W.T. (1990) A Practical Guide to Neural Nets.
Addison–Wesley, Reading, Massachussets.

[128] McQueen, J.B. (1967) “Some methods for classification and analysis of multivariate
observations”, Proc. 5th Berkeley Symposium on Math. Statistics and Probability,
Vol. 1.

[129] Michalsky, R.S.; Diday, E. (1981) “A recent advance in data analysis: clustering
objects into classes characterized by conjunctive concepts”, Progress in Pettern Re-
cognition, L.N. Kanal & A. Rosenfeld (eds.), North–Holland Publ. Co., 33–56.

[130] Michalsky, R.S.; Carbonell, J.G.; Mitchell, T.M. (1983) Machine Learning: an Ar-
tificial Intelligence Approach. Tioga, Palo Alto, California.

[131] Milgram, M. (1993) Reconnaissance des Formes: Méthodes Numériques et Conne-


xionistes. Armand Colin, Parı́s.

[132] Minsky, M.; Papert, G. (1969) Perceptrons. The MIT Press, Cambridge, Massachus-
sets.

[133] Morineau, A. (1993) “Le ‘thémascope’ ou analyse structurelle des données


d’enquête” en D. Grangé & L. Lebart (Eds.) Traitements Statistiques des Enquêtes,
Dunod, Paris: 135–159.
214 Guı́a breve de técnicas multivariadas de análisis de datos

[134] Murtagh, F. (1982) “A survey of recent advances in hierarchical clustering algo-


rithms”, The Computer Journal 26(4): 354–359.

[135] Murtagh, F. (1984) “An empirical study of coefficients for measuring the structure
of hierarchic classifications”, in Data Analysis and Informatics III, E. Diday et al.
(eds.), North–Holland Publ. Co., 385–393.

[136] Murtagh, F. (1990) “Multilayer perceptrons for classification and regression.”

[137] Murtagh, F. (1990) “Neural networks for forecasting and related problems: an an-
notated bibliography”.

[138] Nakache, J.P.; Chevalier, A.; Morice, V. (1981) Exercises commentés de Mathéma-
tiques pour l’Analyse Statistique des Données. Dunod, Paris.

[139] Ohsumi, N. (1980) “Evaluation procedure of agglomerative hierarchical clustering


methods by fuzzy relations”, in Data Analysis and Informatics I, E. Diday et al.
(eds.), North–Holland Publ. Co., 509–522.

[140] Pagès, J.P. (1989) “El Cielo y la Tierra: un enfoque constructivista del fenómeno
de la opinión en Francia”, Revista de Ciencia y Tecnologı́a 13(1–2): 11–45.

[141] Pao, Y.H. (1989) Adaptive Pattern Recognition and Neural Nets. Addison-Wesley,
Reading, Mass.

[142] Peltier, M.-A.; Dubuisson, B. (1993) “A human state detection system based on a
fuzzy approach”, ToolDiag’93 International Conference on Fault Diagnosis, Toulou-
se, 5–7 abril 1993, 645–652.

[143] Perez, J.C. (1989) De Nouvelles Voies vers l’Intelligence Artificielle. Pluri-
Disciplinarité, Auto-Organisation, Résaux Neuronaux. Masson, Paris.

[144] Piza E. (1988) “Clasificación Automática Jerárquica Aglomerativa” Revista de


Ciencias Económicas, VII(1): 95–111.

[145] Piza, E. (1987) “La clasificación automática jerárquica aglomerativa”, Revista de


Ciencias Económicas 7(1): 95–111.

[146] Poltronieri, J. (1989-1991) “Estructuras de la Opinión Pública en Costa Rica”. In-


formes de Investigación del perı́odo 1989-1991. Escuela de Matemáticas, Universidad
de Costa Rica.

[147] Poltronieri, J.; Piza, E. (1989) Estructuras de la Opinión Pública en Costa Rica.
Editorial de la Universidad de Costa Rica, San José.

[148] Press, W.H.; Flannery, B.P.; Teulolsky, S.A.; Vetterling, W.T. (1990) Numerical
Recipes (Fortran Version). The Art of Scientific Computing. Cambridge University
Press, New York.
215

[149] Reeves, C.; Steele, N (1993) “Neural networks for multivariate analysis: results of
some cross–validation studies”, en Applied Stochastic Models and Data Analysis, J.
Janssen and C.H. Skiadas (eds.), World Scientific, Singapur, 780–791.

[150] Régnier, S. (1965) “Sur quelques aspects mathématiques des problèmes de classifi-
cation automatique”, ICC Bulletin 4 & Math. Sci. Hum 82 (1983).

[151] Ripley, B. D. (1993) Statistical aspects of neural networks. Chapman & Hall, Lon-
dres.

[152] Rizzi, A. (1982) Analisi dei Gruppi. La Goliardica, Roma.

[153] Rodrı́guez, O. (1994) “Análisis de datos: una implementación orientada a objetos”,


en: G. Mora (Ed.) II Encuentro Centroamericano de Investigadores en Matemáticas,
San Ramón: 71–84.

[154] Rodrı́guez, O. (1997) “PIMAD 2.1: los algoritmos”, en: W Castillo & J. Trejos
(Eds.) X Simposio Internacional de Métodos Matemáticos Aplicados a las Ciencias,
U.C.R. û I.T.C.R., Liberia.

[155] Rodrı́guez, O. (1997) C++ para Ambiente Windows. Editorial Tecnológica de Costa
Rica, Cartago.

[156] Rodrı́guez, O.; Castillo, W. (1999) “Análisis discriminante descriptivo: teorı́a, algo-
ritmo y software”, Revista de Matemática: Teorı́a y Aplicaciones 6(1): 35–50.

[157] Rosenblatt, F. (1958) The Perceptron: a probabilistic model for information storage
and organization in the brain. En: Psychological Review, 65, pp. 386-408.

[158] Roux M. (1985) Algorithmes de Classification. Masson, Parı́s.

[159] Roux, M. (1985) “Représentation d’une distance par un arbre aux arêtes aditives”,
Journées d’Analyse des Données et Informatique, INRIA, Versailles.

[160] Roux, M. (1987) “Techniques of approximation for building two tree structures”, En:
Recent Developments in Clustering and Data Analysis, Proceedings of the French–
Japanese Scientific Seminar, Tokyo.

[161] Roux, M. (1993) “Classification des données d’enquêtes”, en D. Grangé & L. Lebart
(Eds.) Traitements Statistiques des Enquêtes, Dunod, Paris: 91–112.

[162] Rumelhart, D. E.; McClelland, J. L., editores (1986) Parallel distributed processing.
Vol. 1: Foundations. Vol. 2: Exploration in the microstructure of cognition. The MIT
Press, Cambridge, Massachussets.

[163] Sánchez, A. L. (1994) “Una arquitectura neuronal hı́brida para reconocimiento de


palabras aisladas”, Actas I Reunión ECLA, junio 1994, Valladolid.
216 Guı́a breve de técnicas multivariadas de análisis de datos

[164] Saporta G. (1982) Théorie et Méthodes de la Statistique. Technip, Parı́s.


[165] Saporta, G. (1995) “El análisis discriminante”, en Memorias VII y VIII Simpo-
sio Métodos Matemáticos Aplicados a las Ciencias, W. Castillo y J. Trejos (eds.),
Editorial de la Universidad de Costa Rica, San Pedro, pp.: 75–102.
[166] Saporta, G. (1995) “Los métodos y aplicaciones del credit–scoring”, en Memorias
VII y VIII Simposio Métodos Matemáticos Aplicados a las Ciencias, W. Castillo y
J. Trejos (eds.), Editorial de la Universidad de Costa Rica, San Pedro, pp.: 103–110.
[167] Schektman, Y. (1978) Estadı́stica descriptiva (análisis lineal de datos multidimen-
sionales, I parte. En: Memorias I Simposio Métodos Matemáticos Aplicados a las
Ciencias, J. Badia, Y. Schektman y J. Poltronieri (eds.), Universidad de Costa Rica,
San Pedro: 9–67.
[168] Schektman, Y.; Badia, J.; Poltronieri, J. (1978) “Estadı́stica descriptiva (análisis
lineal de datos multidimensionales)”, en: Memorias I Simposio de Métodos Ma-
temáticos Aplicados a las Ciencias: 9–67.
[169] Schektman, Y. (1988) Analyse et Traitement Informatique de Données. Curso del
Diplôme d’Etudes Approfondies, Universidad Paul Sabatier, Toulouse.
[170] Siarry, P.; Dreyfus, G. (1988) La Méthode du Recuit Simulé. IDSET, Parı́s.
[171] Sokal, R.R.; Sneath, P.H. (1963) Principles of Numerical Taxonomy. W. H. Freeman
& Co., San Francisco.
[172] Tenenhaus, M.; Young, F.(1984) “An analysis and synthesis of multiple corres-
pondence analysis, optimal scaling, dual scaling, homogeneity analysis and other
methods for quantifying categorical multivariate data”, J.A.S.A., 79(388): 91–119.
[173] Tenenhaus, M.; Young, F. (1983) Multiple correspondence analysis and the principal
components of quantitative data. Report No. 170, The L.L.Thurstone Psychometric
Laboratory, University of North Carolina (27 pp.).
[174] Tomassone, R.; Danzart, M.; Daudin, J.J.; Masson, J.P. (1988) Discrimination et
Classement. Masson, Parı́s.
[175] Trejos, J. (1994) Contribution à l’acquisition de connaissances à partir de données
symboliques. Tesis de doctorado, Universidad Paul Sabatier, Toulouse.
[176] Trejos, J. (1995) Principios de Análisis Multivariado de Datos. Notas de curso,
Universidad de Costa Rica, San Pedro.
[177] Trejos, J. (1995) “Presentación de las redes neuronales: aplicaciones al análisis de
datos”, en Memorias VII y VIII Simposio Métodos Matemáticos Aplicados a las
Ciencias, W. Castillo y J. Trejos (eds.), Editorial de la Universidad de Costa Rica,
San Pedro, pp.: 117–148.
217

[178] Trejos, J. (1995) “Análisis de datos: historia, filosofı́a y tendencias actuales”, en M.


Caldera et al. (Eds.) Memorias III Encuentro Centroamericano de Investigadores
en Matemáticas, Managua–León.

[179] Trejos, J.; Moya, E. (1998) Introducción a la Estadı́stica Descriptiva. Editorial Sello
Latino, San José.

[180] Villoing, P. (1987) “Algorithmes de réallocation”, en Ecole Modulad Méthodes de


Classificacion pour l’Analyse des Données, CCS–INRIA, Strasbourg, pp. 102–136.

[181] Wasserman, P. D. (1989) Neural Computing. Theory and Practice. Van Nostrand
Reinhold, New York.

[182] White, H. (1989) “Some asymptotic results for learning in single hidden–layer feed-
forward network models”, Journ. American Statistical Society, 84 (408): 1003–1013.

También podría gustarte