Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Escuela de Matemática
Universidad de Costa Rica
ii
Índice general
1. Estadı́stica Descriptiva 1
1.1. Elementos de Estadı́stica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1.1. Individuos o unidades estadı́sticas . . . . . . . . . . . . . . . . . . . 2
1.1.2. Las variables de la estadı́stica . . . . . . . . . . . . . . . . . . . . . 3
1.2. Tablas de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2.1. Tablas de individuos × variables . . . . . . . . . . . . . . . . . . . . 7
1.2.2. Tablas de variables × variables . . . . . . . . . . . . . . . . . . . . 8
1.2.3. Tablas de individuos × individuos . . . . . . . . . . . . . . . . . . . 9
1.3. Análisis estadı́sticos univariados y bivariados . . . . . . . . . . . . . . . . . 10
1.4. Análisis univariado y bivariado con el sistema PIMAD . . . . . . . . . . . 15
1.4.1. Análisis univariado en PIMAD . . . . . . . . . . . . . . . . . . . . . 16
1.4.2. Análisis bivariado en PIMAD . . . . . . . . . . . . . . . . . . . . . 17
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
iii
iv
6. Escalamiento Multidimensional 97
6.1. Escalamiento clásico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
6.1.1. La forma de Torgerson . . . . . . . . . . . . . . . . . . . . . . . . . 98
6.1.2. Determinación de las coordenadas . . . . . . . . . . . . . . . . . . . 100
6.1.3. Relación con el Análisis en Componentes Principales . . . . . . . . 100
6.1.4. Uso del MDS clásico . . . . . . . . . . . . . . . . . . . . . . . . . . 101
6.1.5. Algoritmo de MDS clásico . . . . . . . . . . . . . . . . . . . . . . . 102
6.2. Escalamiento métrico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
vi
3.1. Primer plano principal para la tabla de notas escolares, generado por las
dos primeras componentes principales . . . . . . . . . . . . . . . . . . . . . 35
3.2. Cı́rculo de correlaciones para la tabla de notas escolares generado por las
dos primeras componentes principales . . . . . . . . . . . . . . . . . . . . . 36
3.3. Proyección de dos puntos individuos en el plano principal . . . . . . . . . . 38
3.4. Descomposición del coseno cuadrado según el teorema de Pitágoras . . . . 39
ix
x
4.9. Principal plane of the correspondence analysis crossing the epiphytes and
the 5 levels, for Cyathea delgadii. The levels are indicated with a star ?,
only the labels of the epiphytes of interest are indicated with a circle ◦. . . 73
4.10. Principal plane of the correspondence analysis crossing the epiphytes and
the 5 levels, for Alsophila polystichoides. The levels are indicated with a star
?, only the labels of the epiphytes of interest are indicated with a circle ◦. . 74
4.11. Principal plane of the correspondence analysis crossing the epiphytes and
the 5 levels, for Alsophila erinacea. The levels are indicated with a star ?,
only the labels of the epiphytes of interest are indicated with a circle ◦. . . 75
5.1. ACM de las diez variables de opinión: plano principal (25 % de inercia). . . 91
5.2. ACM de los temas “empresa privada–libertad”: plano principal (49 % de
inercia explicada). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
5.3. Trayectoria seguida por las modalidades de var8 y var9 en el plano gene-
rado por los ejes 1 y 3 (43 % de inercia). . . . . . . . . . . . . . . . . . . . 93
5.4. Arbol de clasificación para las variables de opinión. . . . . . . . . . . . . . 93
7.3. Arbol de clasificación opbtenido al usar la agregación del salto máximo . . 147
7.4. Arbol de clasificación obtenido al usar la agregación del salto promedio . . 148
7.5. Arbol de clasificación obtenido al usar la agregación del salto promedio . . 149
4.1. Tabla de contingencia que cruza nivel de salario con tipo de empleo . . . . 50
4.2. Coordenadas de los puntos sobre las componentes principales - Tabla de
notas escolares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
4.3. Número de epı́fitas de cada especie sobre 4 especies de helechos arbores-
centes (primera parte de la tabla) y en cinco niveles (segunda parte de
la tabla): nivel 1 (0–20 %), nivel 2 (20–40 %), nivel 3 (40–60 %), nivel 4
(60–80 %) y nivel 5 (80–100 %) . . . . . . . . . . . . . . . . . . . . . . . . . 77
xiii
1
Estadı́stica Descriptiva
1
2 Estadı́stica Descriptiva
Ejemplo 1.1.1 Supóngase que se quiere conocer las caracterı́sticas de los asegurados al
régimen de Seguridad Social, como por ejemplo su ocupación, su sexo, su estado civil,
el número de hijos que tienen, etc. Entonces los individuos u objetos de estudio son los
asegurados. La población es el conjunto de todos los asegurados, pero para un estudio
particular se puede extraer una muestra.
Ejemplo 1.1.2 Supóngase que se quiere estudiar la eficiencia de las clı́nicas del paı́s.
Para ello se contará el número de médicos y demás personal que tiene cada clı́nica, el
número de personas que ha atendido en un lapso de tiempo (digamos, en el último año), el
número de habitantes que tiene la comunidad a la que atiende, etc. Entonces los individuos
u objetos del análisis son las clı́nicas.
En el enfoque del Análisis de Datos, se suele trabajar directamente con los datos, por
lo que la diferencia entre si los datos provienen de una muestra o de una población es
irrelevante. De hecho, las técnicas que se verán en el curso son todas descriptivas, no
inferenciales. Es únicamente dentro de la Estadı́stica llamada Inferencial en que esta di-
ferencia tiene alguna importancia. En el caso de trabajar con una muestra, la validez de
extrapolar los resultados obtenidos a toda la población, dependerá de la representativi-
dad de la muestra. Es decir, dependerá de si la muestra fue obtenida por algún método
confiable.
Ejemplo 1.1.3 En caso de que se tengan 100 individuos y todos con la misma importan-
cia, entonces el peso de cada uno es 1/100.
Si se quiere estudiar la evolución de los porcentajes de votación obtenidos por los distin-
tos partidos polı́ticos, según cada provincia, y se dispone únicamente de los porcentajes
de votos obtenidos por cada partido, entonces las unidades estadı́sticas son las provincias
y la ponderación de cada provincia será el número de votantes de la misma. Por ejem-
plo, digamos que se sabe que el partido PXY obtuvo en la pasada elección 42 % de los
votos en Limón, 47 % en Puntarenas, 52 % en Cartago, etc., entonces para calcular el
porcentaje obtenido en el paı́s se sumarán los porcentajes anteriores, pero ponderados por
la población respectiva. Ası́, si el número de votantes de Limón es 234,789, entonces se
multiplicará 42 % por 234,789, y ası́ sucesivamente. Más adelante veremos como calcular
promedios ponderados y otros ı́ndices cuando los pesos no son iguales.
Ejemplo 1.1.4 Digamos que se quiere estudiar las caracterı́sticas fı́sicas de un grupo
de personas. Entonces resultará de interés medir su estatura, su peso, el perı́metro del
cráneo, su sexo, etc. Todas éstas son variables: por ejemplo, el peso puede tomar valores
diferentes para todas las personas, o bien, puede ocurrir que algunas de ellas tengan el
mismo peso, pero otras lo tengan diferente. Lo importante es que no todas tienen el mismo
valor.
Variables cuantitativas
Una variable se llama cuantitativa o numérica cuando sus valores son números,
reales o enteros.
Ejemplo 1.1.5 Son variables cuantitativas el peso, la edad y la estatura de una persona,
la temperatura de una habitación, la edad, el número de camas de un hospital.
4 Estadı́stica Descriptiva
Puede observarse que las variables cuantitativas tienen una unidad de medida. Es decir,
se miden en alguna unidad que permita tener una idea de qué tanto posee un individuo
la caracterı́stica representada por la variable.
Ejemplo 1.1.6 El peso puede medirse en kilogramos, libras, miligramos, toneladas, etc.
El uso de una unidad dependerá de la naturaleza de las unidades estadı́sticas. Por ejemplo,
si se trata de personas, entonces el peso se medirı́a en kilogramos o libras; si se trata de
pastillas contra el dolor de cabeza y se quiere medir el peso del acetaminofén contenido,
entonces éste se puede medir en miligramos; si se trata de exportaciones de café, entonces
éstas se pueden medir en toneladas. Se debe notar que en algunos análisis que se estudiarán
más adelante, las unidades de medida pueden tener influencia en los resultados, por lo
que se recomienda tener cuidado en la escogencia de las mismas.
Las variables continuas, que son aquéllas que pueden tomar como valores cualquier
número real, es decir, un valor con decimales. Siempre es importante plantearse el
asunto de las unidades de medida de una variable continua, ya que en algunos casos
pueden influir en los resultados de un análisis. Por ejemplo, son variables continuas
el peso, la estatura, la temperatura, un porcentaje.
Las variables discretas, también llamadas de conteo, que son aquéllas que sólo
pueden tomar valores discretos, es decir, números enteros positivos. Son variables
discretas, por ejemplo, el número de camas en un hospital, el número de hijos de
un familia, la edad (dada en años). Las variables discretas tienen por lo general
los números enteros positivos como unidad de medida (aunque por ejemplo la edad
tiene unidad de medida el número de años).
Variables cualitativas
Ejemplo 1.1.7 El sexo de una persona es una variable cualitativa, pues un individuo
solo puede tener dos cualidades para esta variable: la cualidad masculino o la cualidad
femenino.
Ejemplo 1.1.8 El estado civil de una persona es una variable cualitativa, pues un in-
dividuo solo puede tener una de cuatro cualidades: soltero, casado, viudo, divorciado. Es
decir, hay un conjunto finito de posibilidades, todas ellas excluyentes entre sı́.
1.1 Elementos de Estadı́stica 5
Las posibles cualidades que tiene una variable cualitativa, se llaman las modalidades
de la variable. Algunos autores las llaman también categorı́as o atributos.
Distinguiremos tres tipos de variables cualitativas:
Si las modalidades están ordenadas, entonces la variable se llama ordinal. Por ejem-
plo, la variable nivel de estudios es ordinal, ya que sus modalidades están ordenadas
según la duración de los estudios: las modalidades podrı́an ser por ejemplo educación
primaria, secundaria, técnica, universitaria.
Un caso especial de variable cualitativa nominal es cuando se tienen solo dos moda-
lidades que reflejan la presencia o la ausencia de una cualidad; este tipo de variables
se llaman binarias, dicotómicas o de presencia–ausencia. Por ejemplo, si un
paciente tiene o no tiene una determinada enfermedad.
Hay muchos programas estadı́sticos que necesitan hacer una codificación disyuntiva
completa, esto es, poner una columna completa para cada modalidad.
6 Estadı́stica Descriptiva
Sexo
Estudiante Feme. Masc.
Ana 1 0
Juan 0 1
Pedro 0 1
Carmen 1 0
Luis 0 1
Las columnas de la tabla del ejemplo 1.1.10, se llaman las indicatrices o indicadoras
de cada modalidad: un 1 indica que el individuo correspondiente posee la modalidad y
un 0 que no la posee. Es claro que las modalidades de la variable cualitativa definen
una partición sobre el conjunto de individuos. La partición en el ejemplo 1.1.10 serı́a
{Ana,Carmen}, {Juan,Pedro,Luis}.
Como para toda partición, las clases tienen asociada una función caracterı́stica: esta
función es precisamente la indicatriz de la modalidad. Véase además que esta partición
es la asociada a la relación de equivalencia mencionada anteriormente.
Recodificación de una variable cuantitativa. Por otro lado, es claro que cualquier
variable cuantitativa puede “codificarseçomo variable cualitativa, estableciendo niveles en
el rango de la variable cuantitativa.
Ejemplo 1.1.11 Para ciertos análisis, puede ser más útil manipular el salario como va-
riable cualitativa que como cuantitativa: se puede entonces pensar en establecer categorı́as
de salario, como muy bajo (menos de 500 dólares), bajo (entre 500 y menos de 1000
dólares), medio (entre 1000 y menos de 2000 dólares), alto (entre 2000 y menos de 4000
dólares) y muy alto ( más de 4000 dólares).
Ejemplo 1.2.1 Considérese que se han observado 7 variables cuantitativas sobre un gru-
po de 10 estudiantes. Las primeras cinco variables son las notas obtenidas por los estudian-
tes en cinco materias: Matemáticas (Mate), Ciencias (Cien), Español (Espa), Historia
(Hist) y Educación Fı́sica (EdFi), todas ellas en escala de 0 a 10, y las otras dos variables
son el peso del estudiante (medido en libras) y la estatura (medida en centı́metros). Los
datos se presentan en la tabla 1.1.
Cuadro 1.1: Tabla de datos de las notas escolares con peso y estatura.
Ejemplo 1.2.2 Al realizar una encuesta, normalmente se disponen los datos en una tabla
de individuos × variables. Considérese que en una encuesta se ha recogido información
como el nombre, el sexo, la edad, el estado civil, el número de hijos, el ingreso mensual
bruto, etc. Entonces la tabla de datos tendrı́a una forma como la mostrada en la tabla 1.2.
Normalmente, en una tabla de datos como la de la tabla 1.2 se codifican las variables
cualitativas, de modo que la tabla puede ser almacenada en una base de datos o archivo
numérico, para lo cual el usuario debe señalar los códigos asociados a cada modalidad.
Dependiendo del software estadı́stico que se use, el mismo permitirá cierta forma de hacer
esta codificación.
x1 x2 · · · xj · · · xp
x1 x11 x12 · · · x1j · · · x1p
x2 x21 x22 · · · x2j · · · x2p
. .. ..
X = .. . .
xi xi1 xi2 · · · xij · · · xip
.. .. ..
. . .
xn xn1 xn2 · · · xnj · · · xnp
Entonces los datos se han dispuesto en una tabla tal que cada casilla contiene el núme-
ro de personas entrevistadas con determinado nivel de estudios y determinado nivel de
salario. La tabla de contingencia obtenida se muestra en la tabla 1.3.
Cuadro 1.3: Tabla de contingencia que cruza el nivel de salario con el nivel de estudios
Ejemplo 1.2.4 Considérese la tabla 1.4 de datos que muestra la distancia en lı́nea recta
(en kilómetros) entre algunas ciudades de Costa Rica: San José (S.J.), Alajuela (Ala.),
Cartago (Car.), Heredia (Her.), Puntarenas (Pun.), Limón (Lim.), Liberia (Lib.) y Gol-
fito (Gol.). Es un ejemplo tı́pico de tabla de individuos × individuos, donde los individuos
son las ciudades.
Ejemplo 1.2.5 Se dispone de una matriz de datos donde 12 estudiantes de sexto grado
han calificado la afinidad que tienen por cada uno de sus compañeros. Por filas se tienen
las notas que asignan los estudiantes, entre 1 y 5, y por columnas las notas que les son
asignadas por sus compañeros. Una matriz de este tipo es llamada una sociomatriz. El
grupo tiene a 5 mujeres y 5 varones. En la diagonal, se han colocado las notas máximas,
para la calificación de un estudiante a sı́ mismo. Los datos se presentan en la tabla 1.5.
10 Estadı́stica Descriptiva
Iren Flor Beat Silv Hele Anto Migu Fede Este Dieg
Irene 5 4 5 2 3 2 2 2 3 2
Flor 5 5 4 3 4 3 3 3 4 3
Beatriz 4 5 5 2 3 3 3 4 3 3
Silvia 2 4 5 5 5 2 3 3 4 3
Helena 3 4 4 5 5 1 2 2 2 1
Antonio 1 3 1 2 1 5 5 2 3 2
Miguel 2 4 3 2 2 5 5 2 3 3
Federico 3 4 4 3 3 3 3 5 4 4
Esteban 2 5 3 3 3 4 4 4 5 3
Diego 2 4 3 3 2 4 3 3 5 5
Cuadro 1.5: Tabla de datos: sociomatriz en que 12 estudiantes de sexto grado califican la
afinidad hacia cada uno de sus compañeros.
Si r(x, y) ≈ 1: hay una fuerte correlación directa, esto significa que a valores grandes
de x corresponden valores grandes de y y que a pequeños valores de x corresponden
pequeños valores de y. Es decir, las variables tienen un comportamiento similar sobre
todos los individuos. Lo anterior se puede ilustrar en el diagrama de dispersión que
se muestra en la figura 1.1(a).
12 Estadı́stica Descriptiva
Si r(x, y) ≈ −1: hay una fuerte correlación inversa, lo que significa que a valo-
res grandes de x corresponden valores pequeños de y, y a valores pequeños de x
correponden valores grandes de y. Es decir, las variables tienen un comportamiento
opuesto una de la otra. Ver la figura 1.1(c).
y y y
• •
• • • • ••
• • • •• • •
•• • • •
• • • • • • ••
• • •
• • •
x x x
(a) r(x, y) ≈ 1 (b) r(x, y) ≈ 0 (c) r(x, y) ≈ −1
Figura 1.1: El coeficiente de correlación muestra el tipo de relación entre dos variables
cuantitativas
entonces q
escribimos: p
X X
j
nj· = njk el efectivo de x , n·k = njk el efectivo de yk
k=1 j=1
p q p q
X X X X
yn= nj· = n·k = njk es la población total.
j=1 k=1 j=1 k=1
nj· n·k
Denotemos n0jk la cantidad . Diremos que la variable x es independiente de la
0
n
variable y si njk = njk , para todo j y todo k. Véase que la igualdad anterior es equivalente
a:
njk nj·
= (1.1)
n·k n
1.3 Análisis estadı́sticos univariados y bivariados 13
para todo j = 1, 2, . . . , p y todo k = 1, 2, . . . , q. Esto quiere decir que las variables son
independientes si la proporción de individuos que poseen simultáneamente xj y yk , entre
los que poseen yk , es la misma proporción de aquéllos que poseen xj en la población total.
Una manera de caracterizar las diferencias entre los njk y los n0jk es mediante la
cantidad χ2 (léase chi-cuadrado):
p q
2
X X (njk − n0jk )2
χ (x, y) = (1.2)
j=1 k=1
n0jk
es decir p q
2
X X 1 (nnjk − nj· n·k )2
χ (x, y) = (1.3)
j=1 k=1
n nj· n·k
Esta cantidad representa la diferencia entre el producto de las frecuencias relativas teóricas
n0jk nj· n·k njk
= · y las frecuencias relativas observadas . La asociación entre x y y
n n n n
será mayor conforme χ2 (x, y) sea grande, y χ2 (x, y) será cercano a cero en el caso de
independencia entre x y y. Se puede probar que (ver ejercicio 1 de la sección 1.4.2):
p q
2
X X n2jk
χ (x, y) = n −n
n n
j=1 k=1 j· ·k
Ejemplo 1.3.1 Considérense los datos de la tabla de contingencia 1.3, que cruza el nivel
de salario con el nivel de estudios en un conjunto de 1200 entrevistados. Para calcular el
n2
ı́ndice de chi-cuadrado, se calculan los términos nj·jk
n·k
, que son:
Supóngase que se tiene una variable cuantitativa x y una variable cualitativa y con
modalidades y1 , y2 , . . . , yq . Si bien es cierto que se podrı́a analizar la asociación entre x
y y discretizando x, por ejemplo construyendo un histograma de x y calculando luego el
ı́ndice de χ2 , es preferible no perder la información de continuidad que posee la variable
cuantitativa.
El cociente de correlación mide la intensidad de la asociación entre x y y, calculando
la dispersión que tiene x restringido en cada una de las modalidades de y.
Ejemplo 1.3.2 Supóngase que se tienen las siguientes variables, observadas sobre 20
individuos, x: salario en dólares y y: nivel de estudios, esta última con las modalidades
primario, secundario, técnico y universitario. Agrupadas según las modalidades de y, las
observaciones son
Separando los datos según las modalidades de y y calculando la media para cada uno
de los grupos, se tiene que el salario medio para las personas con nivel educativo primario
es 281.50, para los de nivel secundario es 614.00, para los de nivel técnico es 854.75 y
para los de nivel universitario es 1589.00. La media total es 854.90. Se puede ver que hay
diferencias grandes entre los salarios medios para cada modalidad de y y que los técnicos
tienen un salario promedio muy parecido al de la media total, aún si ninguno de ellos
tiene realmente un salario medio.
Ejemplo 1.3.3 Considerando los datos del ejemplo anterior (1.3.2), la varianza de las
medias es 271,913.68, la cual se calcula ası́:
271, 913,68 = 0,3 × (281,50 − 854,90)2 + 0,2 × (614,00 − 854,90)2 +
+0,2 × (854,75 − 854,90)2 + 0,3 × (1589,00 − 854,90)2 .
La selección se hace haciendo doble click sobre cada una de las variables para las
que se quiere obtener los valores de los ı́ndices. Nótese que en caso de hacer un gráfico
posteriormente, se desplegará únicamente el gráfico de la primera variable seleccionada.
Además, para hacer un análisis bivariado (por ejemplo, el cálculo de una correlación o el
despliegue de un gráfico de dispersión), se deben seleccionar únicamente dos variables.
cálculo de la mediana
cálculo de la varianza
cálculo de la extensión
grafica el histograma
diagrama de dispersión
cálculo de la covarianza
Ejercicios
1. Demuestre que, dadas dos variables cualitativas x y y con p y q modalidades, res-
pectivamente, el ı́ndice de chi–cuadrado tiene la siguiente propiedad:
p q
2
X X n2jk
χ (x, y) = n − n.
j=1 k=1
n j· n ·k
2. Sean x, y dos variables cuantitativas y considere que los individuos tienen todos
pesos iguales 1/n. Si a, b son constantes determine el valor de cov(ax, by) en función
de cov(x, y). Ası́ mismo, determine r(ax, by) en función de r(x, y).
18 Estadı́stica Descriptiva
Capı́tulo 2
Introducción a la Estadı́stica
Multidimensional
2.1. Introducción
Cuando se dispone de muchas observaciones para cada individuo, los análisis univa-
riados y bivariados vistos al final del capı́tulo 1 tienen la limitación de no contemplar las
interrelaciones entre todas las variables, ni cómo esas interrelaciones afectan al conjun-
to de individuos. El objetivo de las técnicas multivariadas o multidimensionales es el de
proveer descripciones de esas interrelaciones, tomando las variables en su conjunto. Tales
descripciones son hechas, en la visión del Análisis de Datos, a partir de representaciones
geométricas, para las que se usa como herramienta el Algebra Lineal.
En este capı́tulo presentamos las nociones básicas del lenguaje algebraico que se usarán
en lo sucesivo, ası́ como la mayorı́a de las definiciones de nuestra representación geométri-
ca. Presentamos por lo tanto los tipos de tablas de datos, los espacios vectoriales utilizados,
las nociones de proximidad que se usarán a partir de la definición de un producto interno,
y finalmente la noción de inercia, que mide la dispersión de nuestras observaciones.
Supóngase que se está en presencia de n individuos sobre los que se han observado
p variables cuantitativas. Tal y como definimos las tablas individuos × variables, a cada
individuo le corresponde una fila de la matriz de datos X.
La i-ésima fila de la denotamos xi y se ve que está representada por el vector de p
19
20 Introducción a la Estadı́stica Multidimensional
dimensiones:
xi1
xi2
xi =
..
.
xip
Entonces xi pertenece al espacio vectorial Rp . Por ello, Rp se llama el espacio de los
individuos.
Por otro lado, a cada variable observada le corresponde una columna de X. La j-ésima
columna la denotamos xj y está representada por el vector de n dimensiones:
x1j
x2j
j
x = ..
.
xnj
Llamaremos métrica sobre Rp a una matriz p×p que sea simétrica, definida y positiva,
ya que como acabamos de ver una matriz de este tipo permite definir una norma y una
distancia sobre Rp . El caso clásico es cuando se toma la matriz identidad Ip de orden
p, que es la métrica que define la distancia euclı́dea clásica, tal como se presentó en la
ecuación (2.1).
1
Una norma en un espacio vectorial E es una aplicación k · k : E → R+ tal que (a) kxk = 0 ⇔ x = 0,
(b) ∀x ∈ y ∀λ ∈ R : kλxk = |λ|kxk, y (c) ∀x, y ∈ E : kx + yk ≤ kxk + kyk.
2
Esto es, (simétrica) xt My = yt Mx para cualquier par de vectores p-dimensionales x, y; (definida)
x Mx = 0 ⇔ x = 0; y (positiva) ∀x : xt Mx ≥ 0.
t
22 Introducción a la Estadı́stica Multidimensional
Métrica de pesos en Rn
Sobre Rn también podemos definir una métrica que mida la proximidad entre las
variables, se tratará entonces de una matriz de orden n × n simétrica, definida y positiva.
Salvo que indiquemos lo contrario, usaremos la métrica de pesos Dω cuya matriz tiene
en la diagonal los pesos de los individuos y ceros en las otras entradas:
w1 0 . . . 0
0 w2 . . . 0
Dω = .. (2.3)
. . . . ..
.
0 0 . . . wn
Matriz de varianzas-covarianzas
var(xj ) = (xj )t Dω xj
La última igualdad nos permite establecer que la varianza puede ser vista como la
norma al cuadrado de un vector de Rn : var(xj ) = kxj k2Dω .
Por lo tanto, la correlación por su lado puede ser vista como el ángulo entre dos
vectores de Rn :
cov(xj , xk ) (xj )t Dω xk
r(xj , xk ) = p = = cos θ
var(xj )var(xk ) kxj kDω kxk kDω
Métricas en Rp
Esta métrica se recomienda en un A.C.P. cuando las unidades de medida para las variables
son diferentes (por ejemplo, algunas variables son medidas en metros, otras en kilogramos,
otras son notas, etc.).
Véase que usar la métrica D1/σ2 para medir proximidades, corresponde en la práctica
a estandarizar las variables y usar luego la distancia euclı́dea clásica.
Finalmente, citamos la métrica de Mahalanobis, cuya matriz es la inversa de la matriz
de varianzas-covarianzas V−1 . Esta métrica se usa normalmente en Análisis Factorial
Discriminante, como veremos en el capı́tulo 9.
Véase que este valor mide la dispersión de la nube de puntos N alrededor del punto
a.
2.4 Inercia en un punto 25
Se atribuye al gran estadı́stico R.A. Fisher la frase “la información está en la disper-
sión”. Por ello, en el análisis univariado es de vital importancia un estudio minucioso de
las medidas de dispersión (desviación estándar, intervalo inter-cuartil, etc.). En el análisis
multivariado, la medida de dispersión es la inercia, cuya definición dada más arriba viene
de una analogı́a con la mecánica.
Como nuestros datos están descritos por varias variables, trataremos también de definir
un “término medio”: éste será el centro de gravedad g de la nube de puntos, definido por:
n
X
g= wi xi (2.6)
i=1
Demostración:
Sea a ∈ Rp , entonces:
n
X
Ia = wi (xi − a)t M(xi − a)
i=1
n
X
= wi (xi − g + g − a)t M(xi − g + g − a)
i=1
n
X n
X n
X
t t
= wi (xi − g) M(xi − g) + 2 wi (g − a) M(xi − g) + wi (g − a)t M(g − a)
i=1 i=1 i=1
Xn
= Ig + kg − ak2M + 2(g − a)t M wi (xi − g)
i=1
Ejercicios
1. Considere la siguiente tabla de datos con dos variables cualitativas:
26 Introducción a la Estadı́stica Multidimensional
sexo profesión
masculino oficinista
masculino obrero
femenino obrera
femenino artista
femenino artista
femenino oficinista
masculino artista
masculino oficinista
femenino artista
Rp Xt (Rn )∗
M 6V 6D
ω
?
(Rp )∗ - Rp
X
3.1. Introducción
El Análisis en componentes Principales constituye la técnica de base en Análisis de
Datos. Su principal objetivo es el de encontrar, a partir de una tabla de datos con variables
cuantitativas, un conjunto de variables sintéticas cuya información sea lo más parecida a
la da las variables originales. Es por lo tanto, una técnica de reducción de las dimensiones
de un problema puesto que de un conjunto inicial de variables, que pueden muchas, se
trata de encontrar un conjunto reducido de variables que contengan practicamente la
misma información que las variables originales.
En general, las tablas de datos definen nubes de puntos en espacios vectoriales con
dimensiones muy grandes, por lo que la visualización de las relaciones entre los puntos es
imposible cuando la dimensión del espacio es mayor que 3. El ojo humano sólo es capaz
de “ver” en dimensión menor o igual a 3. Ası́, en los casos multivariados el Análisis en
Componentes Principales (en adelante abreviado A.C.P.) es una herramienta muy útil
para la descripción de las relaciones entre las variables, pero también para la descripción
del comportamiento multidimensional de los individuos respecto a todas las variables en
su conjunto.
29
30 Análisis en Componentes Principales
Cada componente principal ck debe ser combinación lineal de las variables originales
xj ; esto significa que la información contenida en las xj también está reflejada en
las ck .
Las componentes principales deben ser no correlacionadas dos a dos; esto significa
que las ck no tienen información redundante.
Las componentes principales deben tener varianza máxima; esto significa que con-
dendrán el máximo de información posible.
Ejemplo 3.2.1 Considérese la tabla de datos de notas escolares mostrada en la tabla 3.1,
en que se muestran las notas obtenidas en cinco materias por 10 estudiantes. Todas las
materias están en la escala de 0 a 10. Puede observarse que los estudiantes son vectores
La principales relaciones entre los individuos, es decir, cuales se parecen más que
otros, y cuales se diferencian de los demás.
3.3 Solución del A.C.P. 31
Las principales relaciones entre las variables, es decir, cuales tiene un comporta-
miento similar sobre los individuos, cuales tienen un comportamiento opuesto y
cuales no tienen ninguna relación entre sı́.
Explicar las relaciones entre individuos y variables.
3.3.1. Diagonalización de V
La solución al problema se obtiene al diagonalizar1 la matriz V. Obsérvese que la
matriz V es simétrica y positiva, por lo que tiene p valores propios reales y positivos.
Recuérdese que en caso de que las variables estén centradas y estandarizadas entonces
V es igual a la matriz de correlaciones R. Es decir, en el caso de variables estandarizadas,
la matriz que se diagonaliza en la matriz de correlaciones.
Ejemplo 3.3.1 Para el análisis de las notas escolares, estandarizaremos las variables
(es decir, las materias), ya que a pesar de que todas están en la misma escala de 0 a 10,
el nivel de dificultad de cada materia es diferente y es posible que cada profesor tenga
distintos criterios de evaluación. La matriz de correlaciones de esta tabla es dada en la
tabla 3.2.
Esta matriz de correlaciones tiene 5 valores propios positivos, que son:
λ1 = 2,89
λ2 = 1,63
λ3 = 0,35
λ4 = 0,12
λ5 = 0,01
1
Recuérdese que un escalar λ se llama valor propio de una matriz A si existe un vector v tal que
Av = λv; al vector v se le llama vector propio de A. Al proceso de obtener los valores y vectores propios
de una matriz se le llama diagonalización de la matriz.
32 Análisis en Componentes Principales
1. son centradas:
c¯k = 0;
2. ck tiene varianza λk :
var(ck ) = λk ;
3.4 Representaciones gráficas 33
Cuadro 3.3: Dos primeras componentes principales para la tabla de notas escolares
∀k, l : r(ck , cl ) = 0.
Ejemplo 3.3.3 El lector puede comprobar que efectivamente, para las componentes c1 y
c2 de la tabla 3.3, éstas tienen media cero y que tienen correlación nula. Además, que la
varianza de c1 es 2.89 y la de c2 es 1.63.
los planos principales, formados por las coordenadas de los individuos en las
componentes principales; aquı́ se pueden apreciar las principales agrupaciones y
dispersiones de los individuos;
los cı́rculos de correlaciones, obtenidos a partir de las correlaciones entre las va-
riables originales y las componentes principales normalizadas; aquı́ se pueden apre-
ciar las agrupaciones de variables y su comportamiento respecto de las componentes
principales.
34 Análisis en Componentes Principales
Ejemplo 3.4.1 En el ejemplo de las notas escolares, el primer plano principal está ge-
nerado por c1 y c2 dados en la tabla 3.3.
Ejemplo 3.4.2 El plano principal obtenido para la tabla de notas escolares es dado en la
figura 3.1.
Ejemplo 3.4.3 En la tabla de notas escolares, las correlaciones entre las variables ori-
ginales y las dos primeras componentes principales con:
Componente 1 Componente 2
c1 c2
Matemáticas −0,90 0.35
Ciencias −0,72 0.65
Español −0,61 −0,72
Historia −0,60 −0,75
Educación Fı́sica 0.91 −0,12
3.5 Indices de calidad 35
•
Inés
•
Luis
-
Eje 1 (57.86 %)
•
Marı́a •
Andrés
•
Carlos
•
Lucı́a
?
Figura 3.1: Primer plano principal para la tabla de notas escolares, generado por las dos
primeras componentes principales
En un plano, se puede entonces graficar como puntos las parejas de coordenadas cal-
culadas de la forma anterior. Puede verse que ninguno de estos valores puede sobrepasar
1, ya que se trata de correlaciones. Por ello, en este plano se traza un cı́rculo de radio 1.
Además, entre más cercano al cı́rculo esté uno de los puntos mejor representada estará la
variable correspondiente, ya que eso significará que tiene una correlación muy elevada con
las dos componentes principales que generan el plano.
•
Ciencias
•
Matemáticas
-
Eje 1 (57.86 %)
• Fı́sica
Ed.
Español
••
Historia
Figura 3.2: Cı́rculo de correlaciones para la tabla de notas escolares generado por las dos
primeras componentes principales
λ1 + λ2 + · · · λ5 = 5
En general, cuando se tenga una tabla centrada y estandarizada con p variables, en-
tonces la inercia total de la nube de puntos es p, lo cual también coincide con la suma de
los valores propios de la matriz de correlaciones.
Ahora bien, la inercia de la nube proyectada sobre el primer plano principal se cal-
culará usando las coordenadas de los puntos en ese plano. Si se hace el cálculo de esta
inercia se puede comprobar que es igual a la suma de los valores propios correspondientes
a las componentes principales.
3.5 Indices de calidad 37
Ejemplo 3.5.3 En la tabla de notas escolares, el porcentaje de inercia explicado por cada
eje principal es (indicamos entre paréntesis el porcentaje acumulado):
Esta buena o mala representación se puede cuantificar facilmente con la ayuda de los
cosenos de los ángulos formados por ciertos vectores. En efecto, el ángulo α entre el vector
a y el vector â es pequeño, por lo que su coseno es cercano a 1. Por su parte, el ángulo β
entre el vector b y el vector b̂ es muy abierto, casi de 90 grados, por lo que su coseno es
cercano a 0.
Estos cosenos servirán entonces para medir la calidad de la representación de un
individuo sobre el plano principal. Ası́, siguiendo la notación de la figura 3.3 entonces:
kâk
cos α =
kak
Elevando al cuadrado, se tendrá:
kâk2
cos2 α = (3.1)
kak2
Pero aún hay más: el cálculo del coseno del ángulo formado entre un vector individuo
y su representación en un espacio principal se puede calcular sumando los cosenos al
3.5 Indices de calidad 39
cuadrado que forma ese vector individuo con cada una de las componentes principales
que forman el espacio principal. En efecto, debido al teorema de Pitágoras, si â1 es la
proyección de a sobre la componente c1 y â2 es la proyección de a sobre la componente
c2 , entonces ||â||2 = ||â1 ||2 + ||â2 ||2 , por lo que:
kâ1 k2 + kâ2 k2
cos2 α =
kak2
kâ1 k2
cos2 α1 =
kak2
kâ2 k2
cos2 α2 =
kak2
C2
a
â2 1 â
-C 1
0 â1
Ejemplo 3.5.4 Para la tabla de notas escolares, en la tabla 3.4 se muestran los cosenos
cuadrados de los ángulos entre los puntos-individuos en el espacio R5 con su representación
en el primer plano principal.
por lo que serán las correlaciones las que midan la calidad de la representación de las
variables.
Sin embargo, en este caso no se puede aplicar el teorema de Pitágoras para descom-
poner la calidad de representación en el plano como suma de las correlaciones con cada
componente principal.
El usuario fija un porcentaje de inercia P que considera como mı́nimo para que el
A.C.P. sea satisfactorio, entonces tomará el número de ejes que sea necesario hasta
que la inercia explicada por ellos sobrepase P . Por ejemplo, este porcentaje puede
ser fijado en P = 70 %, o en P = 80 %; solamente debe tomarse en cuenta que entre.
Si los datos están estandarizados, entonces se sugiere guardar todas las componentes
principales asociadas a valores propios mayores o iguales a 1. En efecto, una com-
ponente principal tiene por varianza el valor propio correspondiente, y las variables
originales -en el caso estandarizado- tienen varianza 1. Este criterio entonces dice
que se deben guardar aquellos ejes cuya varianza sea más importante que la varianza
de las variables originales.
Ejemplo 3.5.5 Para la tabla de notas escolares se escogerán 2 ejes, en vista de que se
han estandarizado los datos y solamente los dos primeros valores propios son mayores que
1.
3.6 Interpretación de los resultados 41
Un eje tendrá mucha relación con aquellos individuos cuyo coseno cuadrado sea
superior o igual al 50 %. Estos individuos están particularmente bien representados
sobre ese eje.
Una componente principal puede ser interpretada a partir de las variables originales
que tengan con ella una correlación mayor o igual a 0.7.
Consulta de las correlaciones Puede apreciarse que todas las variables excepto Edu-
cación Fı́sica tienen correlación negativa con la primera componente principal; además
todas las correlaciones con esta componente son relativamente altas en valor absoluto,
especialmente para Matemática y Educación Fı́sica. Por lo tanto, parece ser que esta pri-
mera componente opone a las variables “de estudio” a la variable de “esfuerzo fı́sico”.
Esta oposición se aprecia claramente sobre el cı́rculo de correlaciones (figura 3.2).
Por su parte, la segunda componente principal tiene altas correlaciones (en valor ab-
soluto) únicamente con las variables “de estudio”, y esta correlación es positiva con las
“cientı́ficas” (Matemática y Ciencias) y negativa con las “humanidades” (Historia y Es-
pañol). Por lo tanto, esta segunda componente parece oponer a las variables cientı́ficas de
las humanı́sticas, como puede apreciarse sobre el cı́rculo de correlaciones.
Podemos por lo tanto etiquetar a la primera componente principal como “naturaleza
de la materia” y la segunda “tipo de materias”.
En el segundo cuadrante están Pedro, Inés, Ana y José, que son los estudiantes con
mejores notas en Ciencias y Matemáticas. Este cuadrante corresponde al sector del cı́rculo
de correlaciones en que se encuentran precisamente las variables Ciencias y Matemáticas.
Por ello, se puede decir que son los estudiantes con notas superiores al promedio en esas
materias. Además, están en una posición “perpendicular” a las materias humanı́sticas,
por lo que se puede decir que en las materias de Historia y Español tienen notas como el
promedio.
En la parte inferior del plano están Marı́a, Lucı́a, Carlos y Andrés, que tienen las
mejores notas Español e Historia, con notas cerca o por debajo del promedio en las
cientı́ficas; los tres últimos están además cerca del eje vertical lo que explica que sus notas
en Educación Fı́sica están cerca del promedio general en esa materia (7.42).
Los comentarios anteriores confirman lo observado sobre el cı́rculo de correlaciones.
Examen de los cosenos cuadrados Los cosenos cuadrados de los individuos sobre los
dos ejes muestran que todos tienen una muy buena representación sobre el plano principal
(representaciones superiores al 69 %).
Los estudiantes más importantes para la explicación de la primera componente prin-
cipal son: Luis y Sonia (debido a su fuerte nota en Educación Fı́sica), y en menor grado
Inés, Ana y José (los “cientı́ficos”, bajos en Ed. Fı́sica). Y los estudiantes que mejor ex-
plican a la segunda componete principal son: Lucı́a, Pedro, Andrés, Carlos y Marı́a, que
tienen buenas notas en las materias académicas (Pedro en las cientı́ficas, y los demás en
las Humanidades), y que además tienen una nota promedio en Educación Fı́sica.
La interpretación de los ejes también puede ser completada con la ayuda de los ele-
mentos suplementarios, como se explica en la siguiente sección.
caso de que sea un individuo calculado (por ejemplo, un punto promedio para alguna
modalidad), entonces la proyección puede ser determinada usando los ejes principales.
Esto es, es la inercia de la nube proyectada sobre el espacio H. Cuando H está generado
por un vector unitario v, es decir H = ∆v con kvk = 1, entonces se tiene ai = hv, xi iM v =
(v t Mxi )v, por lo tanto
n
X n
X n
X
2 t 2 2
I∆⊥v (N ) = ωi kai k = ωi (v Mxi ) kvk = ωi v t Mxi xti Mv
i=1 i=1 i=1
y se tiene que
n
X
t
I∆⊥v (N ) = v M ωi xi xti Mv = v t MVMv
i=1
I(N ) = IH (N ) + IH ⊥ (N )
Demostración:
⊥
Sea Fk un subespacio vectorial de E de dimensión k y denotemos H = Fk + Ek−1 .
⊥ ⊥
Si Fk ∩ Ek−1 = 0 entonces se tendrı́a H = Fk ⊕ Ek−1 y dim(H) = k + (p − (k − 1)) = p + 1,
lo cual es absurdo pues H ⊆ E = Rp .
⊥
Por lo tanto existe un vector no nulo v ∈ Fk ∩ Ek−1 y denotemos ∆v el eje (espacio vec-
torial de dimensión uno) generado por v.
Sea G el espacio suplementario M -ortogonal a ∆v en Fk : es decir, tal que Fk = G ⊕ ∆v ;
y sea Ek la suma directa Ek = Ek−1 ⊕ ∆v .
Debido a la ortogonalidad entre G y ∆v se tiene IFk (N ) = IG (N ) + I∆v (N ) y a la orto-
gonalidad entre Ek−1 y ∆v se tiene IEk (N ) = IEk−1 (N ) + I∆v (N ).
Sin embargo, por hipótesis Ek−1 es óptimo entre los subespacios vectoriales de dimensión
k − 1, esto es IEk−1 (N ) ≤ IG (N ),
por lo tanto IEk (N ) ≤ IFk (N ) y entonces Ek es óptimo entre los subespacios vectoriales
de E de dimensión k.
Demostración:
Para cualquier espacio Ek de dimensión k que contenga a Ek−1 , existe un eje ∆v tal que
se tiene una descomposión en suma directa Ek = Ek−1 ⊕ ∆v con ∆v ⊥ Ek , por lo tanto
IEk (N ) = IEk−1 (N ) + I∆v (N ).
Como IEk−1 (N ) es constante, minimizar IEk (N ) se reduce a minimizar I∆v (N ).
Los dos resultados anteriores permiten la siguiente estrategia para obtener la solución
del A.C.P.:
1. buscar el eje E1 = ∆v1 con inercia mı́nima, v1 es un vector unitario que genera a
∆v1 ;
2. buscar el eje ∆v2 , M-ortogonal a ∆v1 y con inercia mı́nima; sea E2 = ∆u1 ⊕ ∆v2 ,
E2 es un subespacio óptimo de dimensión 2;
k. buscar un eje ∆vk , M-ortogonal a Ek−1 y con inercia mı́nima; sea Ek = Ek−1 ⊕ ∆vk ,
Ek es un subespacio óptimo de dimensión k.
Se tiene Ek = ∆v1 ⊕ ∆v2 ⊕ . . . ⊕ ∆vk . Los ejes ∆v1 , ∆v2 , . . . son llamados los ejes
factoriales.
46 Análisis en Componentes Principales
1. se quiere encontrar v1 tal que maximice I∆⊥v (N ) = v1t MVMv1 con la restricción
1
kv1 k2 = v1t Mv1 = 1.
En la base de vectores propios de VM, el vector v1 tiene una expresión
p p
X X
v1 = αj uj con αj2 = 1,
j=1 j=1
Se debe por lo tanto maximizar pj=1 λj αj2 bajo la restricción pj=1 αj2 = 1.
P P
Debido a que losP λj están ordenados de manera decreciente, se tiene
P p 2 p 2
j=1 λj αj ≤ λ1 j=1 αj = λ1 . Basta por lo tanto tomar α1 = 1 y ∀j > 1 αj = 0.
Ası́, v1 = u1 , un vector propio unitario de VM asociado al mayor valor propio λ1 .
2. se quiere encontrar v2 tal que maximice I∆⊥v (N ) = v2t MVMv2 con las restricciones
2
kv2 k2 = v2t Mv2 = 1 y v2t Mu1P= 0.
A partir de la escritura v2 = pj=1 αj uj con
Pp 2
j=1 αj = 1 de v2 en la base de vec-
tores propios de VM, se muestra de manera análoga que para la etapa anterior que
v2 = u2 , vector propio de VM asociado al segundo valor propio más grande de VM.
k. La búsqueda del k-ésimo eje factorial ∆vk se hace análogamente y se encuentra que
vk = uk .
Obsérvese que los vectores axiales principales uk pertenecen a E, mientras que las
componentes principales ck = XMuk pertenecen a F , y que son las proyecciones por
dualidad de los primeros (ver esquema de dualidad en el anexo del capı́tulo 2).
3.8 Otras aplicaciones del A.C.P. 47
λ1
tr(VM)
es la parte de inercia explicada por el primer eje principal.
λ1 +λ2
tr(VM)
es la parte de inercia explicada por el primer plano principal generado por
u1 y u2 .
λ1 +λ2 +...+λk
tr(VM)
es la parte de inercia explicada por el subespacio principal Ek de dimen-
sión k generado por u1 , u2 , . . . , uk , donde Ek = ∆u1 ⊕ ∆u2 ⊕ . . . ⊕ ∆uk .
48 Análisis en Componentes Principales
Capı́tulo 4
Análisis Factorial de
Correspondencias
2. debe haber homogeneidad: las magnitudes en la tabla deben ser del mismo orden,
3. las filas y las columnas de la tabla deben ser susceptibles de ser sumadas.
Sobre algunas de estas tablas de datos, también se puede hacer un Análisis en Com-
poenentes Principales, sin embargo el uso del Análisis de Correspondencias a menudo es
más rico por las razones siguientes:
49
50 Análisis Factorial de Correspondencias
la simetrı́a que juegan las filas y las columnas de la tabla permite su representación
simultánea,
al trabajar sobre los perfiles y no sobre los datos brutos, el Análisis de Correspon-
dencias evita el efecto de talla que a veces se encuentra en el A.C.P.,
la propiedad de equivalencia distribucional (ver anexo) hace que los resultados sean
poco sensibles a cambios de codificación.
Para la presentación del método, nos restringiremos al caso de una tabla de contin-
gencia para evitar una presentación muy pesada.
Cuadro 4.1: Tabla de contingencia que cruza nivel de salario con tipo de empleo
Resumiendo las notaciones anteriores, podemos escribir en general una tabla de con-
tingencia como la mostrada en la figura 4.1.
4.1 Perfiles-fila y perfiles-columna 51
modalidades de y
1 k q
..
1 .
..
.
modalidades de x
j · · · · · · njk · · · · · · nj·
..
.
..
p .
n·k n
Figura 4.1: Notaciones relacionadas con una tabla de contingencia
modalidades de y
1
k q
..
1 .
..
.
modalidades de x
j · · · · · · fjk · · · · · · fj·
..
.
..
p .
f·k 1
Figura 4.2: Componentes de una tabla de frecuencias
52 Análisis Factorial de Correspondencias
usaremos una medida que relativice la importancia de cada fila. Para ello se introducen
entonces los llamados perfiles-fila de la tabla de contingencia.
El j-ésimo perfil-fila de la tabla de contingencia se construye al dividir cada entrada
njk de la fila j entre nj· . Por lo tanto, cada perfil-fila es algo ası́ como la distribución de
los porcentajes de la fila entre todos las columnas.
Por ejemplo, en la tabla 4.1, el perfil-fila asociado a la primera fila de la tabla es:
Obsérvese que njk /nj· = fjk /fj· y que por lo tanto esta componente del j-ésimo perfil-
fila es una probabilidad condicional: es la probabilidad de que un inviduo ocupe un empleo
de la categorı́a k sabiendo que tiene un nivel de salario de la categorı́a j.
Ası́ mismo, el perfil marginal fila está constituido de los f·k . En el ejemplo de la tabla
citada, el perfil marginal fila serı́a:
207/390 0.530
102/390 = 0.262
81/390 0.208
p puntos que son los perfiles-fila deducidos de la tabla de contingencia, es decir los
p puntos de Rq : (nj1 /nj· , nj2 /nj· , . . . , njq /nj· )
Este centro de gravedad debe ser considerado como el perfil-fila promedio. Por lo tanto,
servirá como referencia para el estudio de los perfiles-fila. Por ejemplo, para la tabla que
cruza los niveles de salario y los tipo de empleo, calculamos el perfil marginal fila que
es el centro de gravedad de la nube asociada. Si se quiere estudiar en qué medida y de
qué manera un nivel de salario difiere del conjunto de niveles de salario, se reduce a
estudiar la diferencia entre el perfil de este nivel de salario y el perfil promedio.
1 k q
..
1 .
..
.
j · · · · · · fjk /fj· · · · · · · 1
..
.
..
p .
gx f·k 1
De forma similar
a lanube de perfiles-fila, el centro de gravedad de la nube de perfiles-
f1·
..
columna es gy = . pues su j-ésima componente es:
fp·
q q
X nj· njk X
gy (j) = = njk /n = nj· /n
k=1
n nj· k=1
Al hacer la suma de las columnas, las distancias entre los perfiles-columna de la nube
Ny no cambian pues la métrica sigue siendo My = diag(n/nj· ).
Ahora, para la nube Nx de perfiles-fila, al calcular la distancia del χ2 entre los perfiles
j y h con la tabla original y con la tabla con las columnas sumadas, los términos que
difieren en la expresión de la distancia son:
f fhk1 2
jk1
= f·k1 −
f·k1 fj· f·k1 fh·
f fhk 2
jk
= f·k1 −
f·k fj· f·k fh·
1 fjk2 fhk2 2 f
jk fhk 2
Análogamente − = f·k2 − .
f·k2 fj· fh· f·k fj· f·k fh·
La propiedad de equivalencia distribucional establece que si hay dos filas o dos co-
lumnas que tienen una misma distribución, entonces las posiciones relativas de todos los
puntos son las mismas si esas dos filas o columnas son fusionadas y se suman sus pesos.
Véase que desde el punto de vista de los objetivos del Análisis de Correspondencias, esta
es una propiedad deseable para la configuración de puntos; ello constituye una de las
razones por las que se usa la distancia del χ2 .
Observación: en el primer capı́tulo vimos que el χ2 mide la asociación entre dos variables
cualitativas. En los ejercicios que se plantean al final del capı́tulo, se pide probar que el χ2
es precisamente, salvo por un factor de n, igual a la inercia de la nube de perfiles-fila. Esto
quiere decir que la inercia de la nube traduce en cierta forma la estructura de la tabla
4.3 Análisis en Componentes Principales de una nube de perfiles 57
Una pregunta natural es cuántos valores propios hay diferentes de cero. La respuesta
es el rango de la matriz Vx Mx , el cual no puede sobrepasar el mı́nimo entre p y q, y que
denotaremos r.
Denotemos D1 , D2 , . . . las componentes principales del A.C.P. de la nube Ny de los
perfiles-columna, con D1 el vector de los d1j , etc. Entonces se pueden probar las siguientes
fórmulas de transición:
q
1 1 X njk 1
cj = d
λ1 k=1 nj· k
p
1 X njk 1
d1k = c
λ1 j=1 n·k j
Las fórmulas están enunciadas para la primera componente principal de cada análisis,
pero se pueden escribir para todas las componentes principales cambiando el superı́ndice
correspondiente por el número de componente principal.
Estas fórmulas muestran que basta hacer uno de los dos análisis, pues los resultados
del otro se deducirán a partir del primero. Además, permiten hacer una representación
gráfica simultánea de las modalidades de x y de las modalidades de y, como veremos en
la sección siguiente.
58 Análisis Factorial de Correspondencias
Al igual que en A.C.P., las componentes principales son ortogonales (no correlaciona-
das) y tienen varianza el valor propio correspondiente (ası́, la varianza de C ` y de D` es
λ` ).
Ası́ mismo, la calidad de los resultados se mide de manera análoga al A.C.P. La calidad
global del espacio retenido será dada por el porcentaje de inercia explicada:
λ1 + λ2 + · · · + λ k
I(N )
y la calidad de representación de cada punto es dada por el coseno cuadrado de su pro-
yección sobre el espacio.
Todos los resultados anteriores siguen siendo válidos cuando en lugar de una tabla
de contingencia se dispone de una tabla de datos que reúne los requisitos enunciados
al principio de este capı́tulo. Sólo se deberá tener la precaución de reemplazar algunos
términos de vocabulario como “perfil” por “distribución condicional”
Mencionaremos de paso la aplicación del Análisis de Correspondencias sobre las llama-
das tablas desdobladas. Se tiene una tabla de datos con entradas positivas y p columnas,
entonces se crean otras p columnas que midan lo contrario de las p originales en el siguien-
te sentido: si para la columna j los datos van de 0 a m, que es el valor máximo, entonces
los valores de la columna se cambian transforman en m − xj + 1.
Por ejemplo, supóngase que se tiene una tabla de preferencias entre 6 materias donde
cada columna indica el rango de preferencia por cada materia, por lo tanto la escala de
preferencias va de 1 a 6. Si la columna de “Matemáticas” es:
1 6
6 1
1 6
4 3
entonces se transforma en:
5 2
2 5
2 5
3 4
sobreponer las proyecciones de cada una de las nubes Nx y Ny sobre los planos generados
por los ejes principales de mismo ı́ndice, lo cual no podı́a hacerse con los gráficos de un
A.C.P.
Por ejemplo, si se aplica el Análisis de Correspondencias a la tabla de contingencia
presentada en la tabla 4.1 que cruza el nivel de salario con el tipo de empleo, se obtiene el
plano principal representado en la figura 4.4 con las proyecciones de las modalidades. En
este caso, los puntos tienen una calidad de representación del 100 %, por lo que prácti-
camente se puede decir que las nubes de perfiles estaban contenidas en un hiperplano (el
plano principal) de dimensión 2.
Eje 2 (0.77 %)
6
Las agrupaciones en el plano principal son notorias: salario alto con funcionario a la
derecha del primer eje, todas las demás modalidades hacia el lado opuesto. El comporta-
miento de otros empleos es un poco particular pues a pesar de que las personas con salario
bajo son preponderantes, las de salario alto son más numerosas que las de salario medio,
lo que explica el hecho que su proyección esté más atraı́da por el punto alto que medio.
Puede también apreciarse que para el resto de tipos de empleo, los niveles de salario medio
y bajo tienen comportamientos similares.
En los planos ası́ obtenidos se pueden entonces interpretar dos tipos de posiciones (a
condición de que los puntos correspondientes estén bien representados):
la proximidad entre dos perfiles-fila: si los puntos que representan a dos perfiles-fila
están cercanos significa que su distancia del χ2 es baja; por lo tanto, sus distribu-
ciones condicionales entre las columnas deben ser muy parecidas; análogamente se
analizarı́a la cercanı́a entre perfiles-columna;
proyecciones de las columnas k si se pondera cada una de ellas por un peso igual a
fjk ; las columnas “pesadas” (con fjk “grande”) atraerán al baricentro. Por lo tanto,
para una fila j se encontrarán del mismo lado del factor ` las columnas con las que
se asocia más, y del lado opuesto con las que se asocia menos; análogamente se
analizarı́a la posición relativa de un perfil-columna respecto al conjunto de perfiles-
fila.
si hay independencia entre las dos modalidades, las nubes de puntos estarán con-
centradas en un sólo punto (el centro de gravedad) pues todos los perfiles siguen un
comportamiento como el del promedio (perfil marginal); en este caso la inercia de
las nubes Nx y Ny es nula;
si hay dependencia, la representación de los puntos está alejada del origen. El caso
extremo es cuando un eje tiene inercia 1, lo cual significa que refleja una gran
dependencia entre las filas y las columnas: prácticamente, se podrı́a dividir las filas
y las columnas de la tabla de datos en dos grupos, generando ası́ 4 bloques tales
que haya valores altos en dos de ellos y muy cercanos a cero en los otros dos; esto
mostrarı́a una gran asociación entre cada par de bloques. Si hay dos ejes que tienen
inercia cercana a 1, entonces cada fila y cada columna se dividirá en tres grupos, lo
que generará tres bloques muy asociados, y ası́ sucesivamente.
En virtud de esta relación es natural definir la contribución absoluta del perfil pfi
al eje α−ésimo, como
2
kP ruα (pfi )k2Dq−1 [coorduα (pfi )]2
corr (θiα ) = =P
k(pfi − Gf )k2Dq−1
2
p T kij cj
j=1 cj fi
−T
el cual se interpreta geométricamente como el cuadrado del coseno del ángulo formado
por el eje α−ésimo y el vector pfi − Gf . De la misma manera para el caso de los perfiles
columna, la contribución relativa del eje α−ésimo al perfil pcj es:
Cuanto más grande sea corr2 (θiα ) , más especı́fico es el perfil pfi del eje α−ésimo.
La misma relación vale para los perfiles columna. Por otra parte, cuanto mayor sea
corr2 (θiα ) + corr2 (θiβ ) , de mejor calidad es la representación del perfil pfi en el plano
determinado por uα y uβ . Los mismo vale para los perfiles columna.
La media aritmética de las contribuciones absolutas de los perfiles fila ( resp. perfiles
columna) es n1 ( resp. p1 ), entonces los perfiles tales que ctrα (i) ≥ n1 y ctrα (j) ≥ p1 se llaman
perfiles explicativos del eje α−ésimo. En la etapa de depuración e interpretación de
resultados se tomarán en cuenta prioritariamente los perfiles explicativos.
Selección de puntos explicativos: para el eje α−ésimo supongamos que las contribu-
ciones ctrα (i) están ordenadas en forma decreciente. Se escogen los h primeros puntos
explicativos tales que hi=1 ctrα (i) ≥ d, donde d es un P
P
número entre cero y uno, escogido
a priori. El criterio para los perfiles columna es igual: gj=1 ctrα (j) ≥ d.
Por otra parte, los perfiles fuertemente asociados con un eje se llaman puntos expli-
cados por este eje. Normalmente se toma 0.5 como valor lı́mite. Esto significa que un
perfil pfi es explicado por el eje α−ésimo, si corr2 (θiα ) ≥ 0,5. En modo análogo, un perfil
pcj es explicado por el eje α−ésimo, si corr2 (θjα ) ≥ 0,5.
Eventualmente un eje que explica muy poca inercia (no pasa el criterio de selección de
ejes) puede ser considerado dentro del análisis si existe algún perfil explicado por este
eje, de modo tal que se pueda afirmar que se trata de una dirección caracterı́stica de ese
4.6. Ejemplos
Puede verse que casi todos los puntos están muy bien representados en el primer plano
principal, salvo quizás el punto malo que tiene un porcentaje de representación inferior a
los demás, pero de calidad siempre satisfactoria.
El primer plano principal es:
4.6 Ejemplos 65
Eje 2 (19.9 %)
6
?
regular
•
D ?
• excelente
B
-Eje 1 (78.3 %)
?
malo
?
muy bueno
•
C
? •
bueno A
Cuadro 4.2: Coordenadas de los puntos sobre las componentes principales - Tabla de notas
escolares
ED.FISICA
Luis
Pedro
CIENCIAS
Carmen
MATEMATICA
Ana Eje 1 -
(61.90 %)
José
Lucı́a
ESPAÑOL
Marı́a Carlos
Andrés
HISTORIA
4.7.1. Introduction
In Costa Rican montane rainforest, many species of epiphytes grow on all substrates.
Research results about the ecology, diversity, and significance of epiphytes in the rain
forests have been published recently (Ingram et al. (1993), Johansson (1974), Nardkarni
(1985, 1986), Wolf (1993 a,b)). But there are few reports on studies of the host specifi-
city of epiphytes (Johanson et al. (1972)). Beaver (1984) showed the differences of most
epiphytes on diferent tree fern species in New Zealand. Medeiros et al. (1993) compared
the colonization of native and invaded tree fern species in Hawaii. In the present study an
68 Análisis Factorial de Correspondencias
analysis has been made of the frequency of vascular epiphytes on four tree fern species.
Correspondence analysis is well suited for this kind of data, since it can give a synthetic
representation of the multidimensional behavoir of the frequency data.
4.7.2. Methods
Study site
The study of tree ferns was undertaken on a one hectare plot in the “Reserva Biológica
de Alberto Brenes”. The site is located on the Atlantic slope of the Cordillera de Tilarán
in Costa Rica. The geographical coordinates are 10o 12’ N, 84o 36’ W. The study site is
at 1000 m over sea level in the vicinity of the field station of this area.
Inventory
We inventoried all tree ferns with trunk height from 1.0 to 5.0 m in the one hectare
plot. For each tree fern, all vascular plant epiphytes species were listed as well as the
location where this epiphyte is growing on the trunk. After this, we analysed the epiphyte
communities on every tree fern species using a correspondence analysis.
In our case, we want to measure the associations between the presence and frequency
of epiphytes on tree ferns, and moreover, how is this association. That is to say, which
epiphytes are present (or absent) in which kinds of tree ferns, and what are the relations
latent to these associations.
Our basic information is contained on a contingency table that describes the presence
of 53 epiphytes on 4 tree ferns (first part of Table 4.3). This presence is divided in 5 levels:
from 0 % to 20 % of the tree fern height, from 20 % to 40 %, from 40 % to 60 %, from 60 %
to 80 % and from 80 % to 100 % (second part of Table 4.3).
4.7.3. Results
We have found in the study site four species of tree fern with a different number of
individuals for each species. The tree fern species Alsophila erinacea (n = 5), Alsophila
polystichoides (n = 17), Cyathea delgadii (n = 17) and Cyathea nigripes (n = 21) are
unspecifically distributed in the plot. All plants are covered by epiphytes. A total of 52
vascular epiphyte or hemiepiphyte species was found on the trunks of tree ferns. 24 spe-
cies are pteridophtes in 9 families and 28 spermatophytes from 12 families. The cover by
epiphytes and the frequency is very different for each tree fern species. Alsophila erinacea
showed twenty-eight different epiphyte species. Half of these species are observed on 25 %
of the trunks. Eight species were found on more than 50 % of the trunks. Alsophila polys-
tichoides were covered by thirty-eight vascular epiphyte species. 27 species were found on
4.7 Aplicación en Biologı́a 69
less than 25 % of the trunks. Four species were observed on more than 50 % of the trunks
and Asplenum pteropus on more than 75 % of the trunks from Alsophila polystichoides.
Cyathea delgadii showed very unspecific epiphytes. Most of the twenty-five species that
were found are on less than 25 % of all trunks of Cyathea delgadii. Only three species
covered up to 50 % of all trunks. Thirty-seven species covered Cyathea nigripes, the most
epiphytes in this study. 65 % of the species are only on 25 % or less of the trunks of
this species. Five species are frequent on 50 % or more of the trunks of Cyathea nigripes.
The comparison of the epiphyte species for all four tree ferns, showed that the following
epiphyte species are very frequent on tree fern trunks: Marcgravia spec., Schradea costa-
ricensis, Asplenium pteropus, Blechnum fragile and Trichomanes capillaceum. It should
be added that no orchids were observated on the trunks of tree ferns.
We have performed different kinds of correspondence analysis. Firstly, an analysis over
the table crossing the frequency of the 53 species of epiphytes on the 4 species of tree ferns
gives us a raw idea of the relation between epiphytes and tree ferns. The data are in the
first part of Table 1. In the principal plane (Fig. 1) we have plotted with a star the tree
ferns and with a bullet the epiphytes, but only the most important are highlighted with
a circle and their name is indicated. These important epiphytes are: Marcgravia spec.,
Peperomia emerginella, Asplenium holophlebium, Asplenium pteropus, Blechnum fragile,
Polybotrya alfredii, Grammitis lehmanniana and Trichomanes capillaceum.
The configuration of the points in Fig. 1 shows that the epiphytes of our interest are
not the responsible of the major statistical deviations. However, it can be observed that
there are two clear clusters: one cluster around Cyathea delgadii, composed by Polypodium
loriaceum, Trichomanes reptans, Solanum evolulifolium and Oleandra articulata. The rest
of the epiphytes form a second cluster around Cyathea nigripes, Alsophila polystichoides
and Alsophila erinacea; in this cluster are the eight epiphytes of our interest. The dots
without label are the other epiphytes of the analysis.
In order to determine whether the five levels show significant differences in the fre-
quency of epiphytes, we have performed a second correspondence analysis in the table
crossing the epiphytes and their frequency on the levels (second part of Table 1). Results
in Fig. 2 show some important features: the height plays an important role, since the five
levels follow the direction of the first axis. There is an specialization of epiphytes among
the levels and it can be seen that lower levels are associated with some kind of epiphytes
and higher levels with other epiphytes.
This analysis can be refined in order to investigate the relations between the levels and
the tree ferns. Indeed, we have applied correspondence analysis to a table crossing epiphy-
tes and tree ferns, level per level. Unfortunately, apart from the factor of “height.already
observed, the results are very difficult to elucidate since we have now 73 points in a
plane that only explains 32.7 % of the total inertia. Thus, we decided to perform analy-
ses tree-fern per tree-fern and level per level. The analyses over the tree ferns showed
the following results: for Cyathea delgadii (Fig. 4) Blechnum fragile and less importantly
Grammitis lehmanniana, Polybotrya alfredii and Marcgravia spec. are associated with lo-
70 Análisis Factorial de Correspondencias
Axis 2 (37.8 %)
6
Vittaria minima
Rhodospatha spec.
• •
Oleandra •
articulata Cyathea
delgadii
? Polypodium • •
•
Solanum
evolulifolium
loriaceum
Cyathea ••
Polybotrya nigripes
? ••
Trychomanes alfredii ◦
reptans Peperomia • •
emerginella
◦ ◦Marcgravia spec.
Asplenium Blechnum fragile -Axis 1
holophlebium◦ • ◦•
(44.8 %)
Grammitis
lehmanniana ◦ ••
•
•
•Alsophila
polystichoides •
? ? •◦Trichomanes
•
Alsophila capillaceum
erinacea
Asplenium◦pteropus
• •
•
• •
•
Figura 4.6: Principal plane of the correspondence analysis crossing the epiphytes and
the tree ferns. Tree ferns are indicated with a star ?, only the labels of the epiphytes of
interest are indicated with a circle ◦ and those around Cyathea delgadii are indicated with
a diamond .
wer levels, Peperomia emerginella with middle levels, and Asplenium holophlebium with
higher levels. On the other three tree ferns (Figs. 3, 5 and 6) Trichomanes capillaceum
and Polybotrya alfredii are highly correlated with the lower levels, Asplenium pteropus
and Grammitis lehmanniana are on intermediate levels, and Peperomia emerginella and
Asplenium holophlebium (this one except for Alsophila erinacea) are clearly in the higher
levels. Asplenium holophlebium is rather on intermediate levels for Alsophila erinacea.
Analyses of the data crossing the epiphytes and each level confirm the preceding results.
4.7 Aplicación en Biologı́a 71
Axis 2 (21.22 %)
6
•
•
•• •
•
? •
Level 5 • • • Level 1 •
?
Asplenium Blechnum
holophlebium
◦ •••
Peperomia emerginella fragile
•◦ • •• ◦• • • • • -Axis 1
• ◦Marcgravia ◦ ◦ ◦Trichomanes
Asplenium pteropus 2? Polybotrya alfrediicapillaceum (53.6 %)
• • Level ?• •spec. ◦Gramittis •
4 • •lehmanniana
• •?
Level 3
•
• •
•
•
Figura 4.7: Principal plane of the correspondence analysis crossing the epiphytes and the
5 levels. The levels are indicated with a star ?, only the labels of the epiphytes of interest
are indicated with a circle ◦.
4.7.4. Discussion
The represented results of the correspondence analysis showed that we found some
correlation between epiphyte species and tree fern species. Also we can establish that the-
re is a relation between epiphyte communities and the level of these comunities on the tree
fern trunk. The occurrence of different epiphyte species on different tree fern is related
with the tree fern morphology and the age of the tree fern trunk. Older parts of the trunks
have more possibilities for colonization from epiphytes. This is a very important aspect for
the differences that we observed between Cyathea delgadii and the other tree fern species.
Cyathea delgadii shows a very fast growing (Bittner et al. 1995) and the colonization of
the youngest part needs time. In contrast, Alsophila erinacea or Cyathea nigripes shown
in the top part of the trunk the pioneers of epiphytes. This parts of the trunk are up
to four times older than the same part of C. delgadii. Another aspect is that the morp-
72 Análisis Factorial de Correspondencias
Axis 2 (27.5 %)
6
•
•
•• ◦Asplenium pteropus
? 3
Level ? 4
Level •
•
•• ◦Asplenium holophlebium
◦Peperomia
•◦Marcgraviafragile
spec. emerginella
• ◦Blechnum
•• -Axis 1
(50.8 %) %
Trichomanes capillaceum◦◦Polybotrya alfredii
• ◦Grammitis lehmanniana
??
Level 1 Level• 2• •
• ?
Level 5
•
••••
Figura 4.8: Principal plane of the correspondence analysis crossing the epiphytes and the
5 levels, for Cyathea nigripes. The levels are indicated with a star ?, only the labels of the
epiphytes of interest are indicated with a circle ◦.
holgy of the trunks is very different. Cyathea delgadii shows a lot of long smooth scales.
The colonization of these parts is difficult. After the losing of the scales, we can find more
epiphytes on the trunks. Specially, the development of adventive roots can be observed. In
the parts with adventive roots it is possible to find large numbers of epiphytes. Alsophila
erinacea, Alsophila polystichoides and Cyathea nigripes do not have these extreme scales.
The morphology of the trunks is another reason for the differences in epiphyte quantities
and one more example of the relation between substrate morphology and epiphyte coloni-
zation, that was discussed by Benzing (1990) or Johansson (1974). Both the morphology
of trunk and the micro climate explain the kinds of epiphyte communities observed in this
study. An example is the observation of small ferns of the Hymnophylaceen in the base
of the trunks. Normally, adventive roots are found in this part. Also this part is normally
shady and wet, which is very important for this group of plants. The other extreme is
found on the top of the trunks, where small fast climbing species (Peperomia emergine-
lla or Polypodium) grow. These plants are normally more succulent and adapted to dry
4.7 Aplicación en Biologı́a 73
6
Axis 2 (31.4 %)
•
◦Blechnum fragile •
•
?
Level 1 •
◦Grammitis lehmanniana
• • ?
Marcgravia spec.◦ Level 5
? •
Level 2 •
Trichomanes capillaceum -Axis 1
Polybotrya alfredii ◦ •◦
◦Asplenium holophlebium (42.4 %)
• •
Asplenium ◦ pteropus
• •
Peperomia emerginella ◦ ? Level 3
Level •4?
•
•
?
Figura 4.9: Principal plane of the correspondence analysis crossing the epiphytes and the
5 levels, for Cyathea delgadii. The levels are indicated with a star ?, only the labels of the
epiphytes of interest are indicated with a circle ◦.
biotopes.
A preliminary list of the epiphytes was listed in Bittner’s (1994) study in the same
investigation area. A comparison with the present study shows that only Blechnum fragile
is found exclusively on tree ferns. This observation and also the result that no orchids are
growing on tree ferns is possibly due to chemical substances that we found in the trunk
of tree ferns (Soeder, per.com. ). Johansson (1974) and Medeiros et al. (1993) mention
similar observations. Summarizing, we can establish that tree fern trunks are specific hosts,
only for some species. The trunk is unspecific for most of the epiphytes and settlement
depends on the morphology and microclimate factors found. The importance of chemical
substances will be an interesting aspect of future studies.
74 Análisis Factorial de Correspondencias
Axis 2 (29.3 %)
6
• •
•
?
• Level 5
• •
• Level 1 ◦Asplenium holophlebium
•? Blechnum
• fragile
•Level
•2 •◦◦Marcgravia spec.
•? ◦ • -Axis 1
◦
Trichomanes capillaceum Polybotrya
••alfredii?
• ◦Asplenium ◦Peperomia
pteropus (42.9 %)
emerginella
Level 3 •
•◦
Grammitis lehmanniana •• •
•
?
•Level 4
•
?
Figura 4.10: Principal plane of the correspondence analysis crossing the epiphytes and
the 5 levels, for Alsophila polystichoides. The levels are indicated with a star ?, only the
labels of the epiphytes of interest are indicated with a circle ◦.
Referencias
1. Benzécri, J.-P. (1982) L’Analyse des Données. Vol. II: Correspondances. Dunod, Paris.
3. Bittner, J., Breckle, S.-W. (1995) “The growth rate and age of tree fern trunks in relation
to habitats”, American Fern Journal 85:36–41.
4. Ingram, S.W. & Nadkarni N.M. (1993) “Composition and distribution of epiphytic organic
matter in neotropical cloud forest, Costa Rica”, Biotropica 25: 370–383.
5. Johansson, D.R. (1974) “Ecology of vascular epiphytes in West African rain forest”, Acta
Phytogeographica Suecica 59: 1–139.
4.7 Aplicación en Biologı́a 75
6
Axis 2 (27.5 %)
◦•
Asplenium holophlebium
•
?
Level 3
•
◦ •
Grammitis lehmanniana •
Marcgravia spec.◦ Level •
• ? 2 ◦Blechnum
• • -Axis 1
• • ? 4 fragile
Asplenium pteropus (46.6 %)
◦
Polybotrya alfredii ◦ TrichomanesLevel • ◦ ?Level 5
capillaceum Peperomia ◦emerginella•
• ? 1
Level
•
Figura 4.11: Principal plane of the correspondence analysis crossing the epiphytes and the
5 levels, for Alsophila erinacea. The levels are indicated with a star ?, only the labels of
the epiphytes of interest are indicated with a circle ◦.
6. Johnson, A. & Awan B. (1972) “The distribution of epiphytes on Fragraea fragrans and
Swietenia macrophylla”, Malayan forester 35: 5–12.
9. Medeiros, A., Loope, L.L. & Anderson S.J. (1993) “Differential colonization by epiphytes
on native (Cibotium spec.) and alien (Cyathea cooperi) tree ferns in a Hawaiian rain forest”,
Selbyana 14: 71–74.
10. Nardkarni, N.M. (1985) “Epiphyte biomass and nutrient capital of a neotropical elfin
forest”, Biotropica 16: 249–256.
76 Análisis Factorial de Correspondencias
11. Nardkarni, N.M. (1986) “The nutritional effects of epiphytes on host trees with special
reference to alteration of precipitation chemistry”, Selbyana 9:44–51.
12. Wolf, J.H.D. (1993a) “Epiphyte communities of tropical montane rain forests in the nort-
hern Andes, I. Lower montane communities”, Phytocoenologia 22: 1–52.
13. Wolf, J.H.D. (1993b) “Epiphyte communities of tropical montane rain forests in the nort-
hern Andes, II. Upper montane communities”, Phytocoenologia 22: 53–103.
4.7 Aplicación en Biologı́a 77
Cuadro 4.3: Número de epı́fitas de cada especie sobre 4 especies de helechos arborescentes
(primera parte de la tabla) y en cinco niveles (segunda parte de la tabla): nivel 1 (0–20 %),
nivel 2 (20–40 %), nivel 3 (40–60 %), nivel 4 (60–80 %) y nivel 5 (80–100 %)
Helechos arborescentes Niveles
Cyathea Cyathea Alsophila Alsophila Nivel 1 Nivel 2 Nivel 3 Nivel 4 Nivel 5
nigripes delgadii polystichoides erinacea (0–20 %) (20–40 %) (40–60 %) (60–80 %) (80–100 %)
Anthurium
austinsmithii 0 0 0 1 0 0 0 0 1
Philodendron
scandens 1 0 1 0 1 0 0 0 1
Philodendron
sulcatum 23 10 4 4 15 11 5 5 5
Araceae
spec. 3 0 1 0 3 1 0 0 0
Pitcarnia
atrorubens 2 1 3 1 0 4 2 0 1
Bromeliaceae
spec. 4 1 3 1 2 2 5 0 0
Cyclanthaceae
spec. 11 4 9 5 9 10 5 3 2
Vaccinium
spec. 5 0 1 0 0 3 0 2 1
Campanea
grandiflora 15 3 6 3 8 8 1 6 4
Columnea
consanguinea 5 0 0 1 1 2 1 1 1
Paradrymonia
lineata 6 0 2 4 3 1 6 0 2
Gesneriaceae
spec. 6 1 0 1 0 1 4 3 0
?Marcgravia
spec. 52 11 33 9 30 30 23 14 8
Adelobotrys
adscendens 3 4 9 4 2 5 6 3 4
Cnedemia
epifitica 28 2 1 0 10 6 6 7 2
Conostegia
micrantha 0 1 6 1 3 2 1 1 1
Melastomataceae
spec. 5 0 3 5 5 3 2 2 1
?Peperomia
emerginella 12 6 12 2 2 2 8 10 10
Peperomia
rotundifolia 0 0 3 0 0 0 1 0 2
Peperomia
spec. 5 0 0 1 0 0 3 1 2
Schradea
costaricensis 34 4 20 15 18 19 14 13 9
Solanum
evolulifolium 0 5 3 0 2 3 2 0 1
Pilea
diversissima 4 0 2 0 1 2 0 1 2
Pilea
ptericlada 5 0 2 0 3 3 1 0 0
Pilea
impartifolia 1 0 1 0 2 0 0 0 0
Begonia
spec. 2 1 4 2 0 0 1 3 5
Syngonium
spec. 8 0 2 0 2 2 2 1 3
S28 1 0 1 0 1 0 0 0 1
S29 3 0 0 0 0 3 0 0 0
Rhodospatha
spec. 0 2 0 0 1 1 0 0 0
S31 6 0 5 0 3 3 3 2 0
78 Análisis Factorial de Correspondencias
Tabla 4.3 (cont.). Número de epı́fitas de cada especie sobre 4 especies de helechos
arborescentes (primera parte de la tabla) y en cinco niveles (segunda parte de la tabla):
nivel 1 (0–20 %), nivel 2 (20–40 %), nivel 3 (40–60 %), nivel 4 (60–80 %) y nivel 5
(80–100 %)
Helechos Arborescentes Niveles
Cyathea Cyathea Alsoph. Alsoph. Nivel 1 Nivel 2 Nivel 3 Nivel 4 Nivel 5
nigrip. delg. polystic. erin. (0-20 %) (20-40 %) (40-60 %) (60-80 %) (80-100 %)
Syngonium
spec. 8 0 2 0 2 2 2 1 3
S28 1 0 1 0 1 0 0 0 1
S29 3 0 0 0 0 3 0 0 0
Rhodospatha
spec. 0 2 0 0 1 1 0 0 0
S31 6 0 5 0 3 3 3 2 0
Asplenium
dissectum 1 0 1 0 2 0 0 0 0
?Asplenium
holophlebium 19 3 17 1 7 9 9 7 8
?Asplenium
pteropus 16 4 47 10 10 12 18 22 15
Blechnum
divergens 0 0 0 0 0 0 0 0 0
?Blechnum
fragile 43 3 23 12 23 22 15 13 8
Oleandra
articulata 0 3 1 0 0 1 1 1 1
?Polybotrya
alfredii 28 19 16 7 24 20 15 8 3
?Grammitis
lehmanniana 15 6 17 7 10 16 11 6 2
Grammitis
semihirsutum 3 0 4 0 1 1 3 2 0
F10 0 1 5 4 1 2 3 3 1
Elaphoglossum
amygdalifolium 0 0 0 0 0 0 0 0 0
Elaphoglossum
erinaceum 0 0 2 2 0 2 1 1 0
Elaphoglossum
spec. 1 2 6 2 5 3 2 1 0
?Trichomanes
capillaceum 21 0 24 13 23 16 13 5 1
Trichomanes
polypoides 16 1 3 0 13 6 1 0 0
Trichomanes
reptans 0 7 4 1 5 3 2 1 1
Campyloneurum
repens 1 0 1 3 0 1 1 2 1
Campyloneurum
spec. 3 0 5 1 2 1 4 2 0
Polypodium
loriaceum 2 3 2 0 1 2 1 3 0
F20 0 0 3 0 1 1 0 1 0
Vittaria
minima 0 2 0 0 0 1 1 0 0
Elaphoglossum
ambigunia 0 0 1 0 0 0 1 0 0
Capı́tulo 5
Análisis de Correspondencias
Múltiples
Se quiere tener una representación en pocas dimensiones de las relaciones entre las mo-
dalidades de las distintas variables, de tal manera que se pierda el mı́nimo de información.
La solución se obtiene de diferentes maneras, una de ellas es tomando la tabla de datos
luego de hacer una codificación disyuntiva completa de todas las variables cualitativas y
aplicar un Análisis de Correspondencias, como si la tabla fuera una tabla de contingencia.
Los resultados son los mismos que se obtienen al aplicar al Análisis de Correspondencias
sobre la tabla de Burt asociada a los datos, cuyas filas son de hecho los baricentros de las
columnas de la tabla disyuntiva completa.
Las modalidades se representan por el centro de gravedad de los individuos que las
poseen. Los resultados del análisis se interpretan como los del Análisis de Corrresponden-
cias, salvo que hay que tomar en cuenta que en un Análisis de Corespondencias Múltiples
los valores propios presentan siempre un porcentaje bajo de la inercia total (por ejemplo,
si las variables cualitativas tienen en promedio 5 modalidades, el primer eje no podrá so-
brepasar 25 % de la inercia).
79
80 Análisis de Correspondencias Múltiples
Esta tabla se puede desde luego codificar, de la manera usual, por ejemplo en:
una tabla de “contingencia generalizada” o tabla de Burt, denotada B, que contiene por
bloques las tablas de contingencia de cada pareja de variables cualitativas. Por ejemplo,
para el caso de las tablas anteriores, suponiendo que la tabla completa es el resultado
de una encuesta sobre 499 individuos, entonces la tabla de Burt puede tener el aspecto
siguiente:
Tanto la tabla con el código dusyuntivo completo Z como la tabla de Burt B tienen
una estructura particular. El Análisis de Correspondencias Múltiples consiste en hacer un
AFC de la tabla Z, considerando esa estructura particular.
A continuación presentaremos las principales caracterı́sticas que tiene el ACM.
Siendo la matriz Z una matriz de ceros y unos, se debe tomar en cuenta este hecho
para deducir la forma particular que tienen las nubes de puntos sobre las que se hará el
análisis. Recuérdese que un AFC es un ACP de una nube de perfiles-fila o de una nube
de perfiles-columna.
Se está entonces en presencia de n individuos y q variables cualitativas. Sea pk el
número de modalidades de la variable k-ésima y sea p el número total de modalidades:
q
X
p= pk
k=1
es el total de columnas de Z. La matriz Z tiene entradas zij que son 0 ó 1. Los márgenes
de Z son:
zi· = q: pues hay q unos en la fila i (sin datos faltantes)
z·j = número de individuos que tienen la modalidad j
82 Análisis de Correspondencias Múltiples
1 1
S = Zt ZD−1 = BD−1
q q
5.2. Equivalencias
Supóngase por un momento que la tabla de datos X tiene solamente dos variables
cualitativas y que se hace la deducción anterior, calculando la matriz Z del código dis-
yuntivo completo y la matriz de Burt B. Es de esperarse que en este caso el ACM y el
AFC coincidan en sus resultados, para que el procedimiento indicado esté justificado.
La matriz Z puede verse como la concatenación de dos submatrices Z1 y Z2 , una por
cada variable. Entonces, la tabla de contingencia es el producto matricial K = Zt1 Z2 y
la tabla de Burt es B = Zt Z. Al hacer el ACP de cada una de las nubes definidas por
cada una de esas matrices, se obtiene que los valores propios de Z, denotados λZ , los
valores propios de B, denotados λB , y los valores propios del AFC directo, denotados λK ,
cumplen las siguientes igualdades:
Esto quiere decir que el AFC de cualquiera de las tres tablas se puede deducir del AFC
de cada una de las otras, mediante esta relación entre los valores propios. Por lo tanto,
los gráficos que se obtengan ser”an equivalentes.
5.3. El AFC de Z
Para formalizar el AFC de la tabla Z debemos definir todas las caracterı́sticas de las
nubes de puntos correspondientes.
La nube de perfiles-fila (relacionada con los individuos) está dada por:
Puntos (coordenadas):
zij zij
=
zi· q
por lo que la tabla de puntos es 1q Z.
5.3 El AFC de Z 83
Pesos:
zi· q 1
= =
nq nq n
Puntos (coordenadas):
zij
z·j
Pesos:
z·j
nq
Dos modalidades escigigas por los mismos individuos coinciden (tienen distancia 0).
Modalidades con poco efectivo o popularidad están alejadas del resto de modalida-
des.
siendo Mii0 el conjunto de modalidades que tiene sólo un individuo de i ó i0 . Esto quiere
decir que dos individuos son más parecidos entre más modalidades tienen en común.
Lo anterior se interpreta como que la inercia I(k) crece con el número de modalidades.
Véase que si pk = 2 entonces I(k) es mı́nimo y vale 1/q.
Finalmente, la inercia total está dada por:
q q
X X 1 1 p
I(N ) = I(k) = (pk − 1) = (p − q) = − 1,
k=1 k=1
q q q
5.5.1. El cuestionario
Se redactó un cuestionario con dos tipos de preguntas. Por un lado, lo que llamaremos
variables socioeconómicas, y por otro, la opinión de los estudiantes acerca de una serie de
aspectos relacionados con la libertad, la democracia, la paz, etc.
Pese a que el presente estudio tiene por objetivo el análisis de las relaciones entre
algunas variables de opinión, como se señala más abajo, para efectos del tratamiento
previo al análisis multivariado (sección 2) se tomaron en cuenta también algunas variables
socioeconómicas. Ellas son:
var3: si se trabaja en la empresa privada no hay tiempo para ocuparse de sus propias
cosas.
var4 : los trabajadores deben respetar las órdenes de su patrono sin criticarlas.
var5 : mi padre debe dedicarle más tiempo a la empresa o institución donde trabaja.
var8 : es necesario que Costa Rica tenga ejército para defenderse de amenazas ex-
ternas.
var9 : la existencia de un ejército en Costa Rica podrı́a llevar a una dictadura militar
en corto plazo.
var10 : Estados Unidos no es un paı́s democrático porque tiene ejército.
El cuestionario fue pasado en dos colegios del área metropolitana, uno público y otro
privado. Se entrevistaron un total de 232 estudiantes de cuarto y quinto año, durante el
primer semestre de 1987.
poli : partido Vanguardia Popular, partido del Pueblo Costarricense y otros (3+1+5).
De esta manera, las tablas de frecuencias para las variables socioeconómicas y las
variables de opinión se presentan en las Tablas 1 y 2 respectivamente.
En la Figura 1 se muestra el plano principal del ACM de las variables var1 a var10 ,
con un 25 % de inercia explicada. En él sobresalen los hechos siguientes:
Se muestra una relación directa entre las variables 4 y 5, excepto por la modalidad
“indecisos”. Es decir, la opinión de los entrevistados respecto de la proposición “los
trabajadores deben respetar las órdenes de los patronos” (var4 ), es básicamente la
misma que tienen respecto de “mi padre debe dedicarle más tiempo a la empresa”
(var5 ), excepto por los indecisos. Dicha relación se indica en la Figura 1 por medio
de trayectorias siguiendo el orden de las modalidades de una misma variable.
Sobre este plano también se observa que la opinión favorable (fac1 ) respecto de la
proposición “la empresa privada es necesaria para que exista libertad”, está asociada
con una opinión desfavorable (des6 ) respecto de la proposición “un paı́s democrático
no necesita ejército”.
5.5 Ejemplo: Análisis de Conceptos Sociológicos en la Educación 89
ind6
Eje 2 6 •
ind9
des5 • • • ind2
• • des4
dac1
• ind0
dac7 •
• dac9 dac2 •
ind5 ind9 • • des8 • dac8
des1
• • • dac0
des0 des3 • • ind4
• des2 des7 • • ind8 -
fac9 •
dac4 • ••fde8 • dac3 fac6 •
Eje 1
• fde7
• ind1 •
• • ind7 fac7 •
fde1
• • des6
dac6 dac5
fde2 • fac1 •
fde0 • fac9 •
des9 •
fac5 • fac8
•
fac4 •
Figura 5.1: ACM de las diez variables de opinión: plano principal (25 % de inercia).
El plano definido por los ejes 1 y 3 no fue reportado en este trabajo. Sin embargo este
plano, con 23 % de inercia explicada, confirma la fuerte relación entre var1 y var6 , que
corresponde a dos tipos de preguntas diferentes. La correspondencia entre modalidades
es: fac1 –des6 , dac1 –ind6 , ind1 –dac6 , fde1 –fac6 . Se observa además una trayectoria or-
denada de acuerdo a las modalidades. Sin embargo, no se confirma la relación entre las
variables 8 y 9. Sólo se observa una cercanı́a entre fac9 y fde8 . La modalidad dac8 parece
estar mal ubicada, tanto aquı́ como en el plano principal.
Al realizar el ACM entre las modalidades de las variables 1 a 5 se obtiene como plano
principal el mostrado en la Figura 2. En ésta se ve claramente la fuerte relación directa
que hay entre var4 y var5 , observándose también la trayectoria ordenada de la que antes
hablábamos. En el plano generado por el primer y tercer ejes principales se confirma
esta relación (sin observar la trayectoria), y como aquı́, no se ve ninguna otra relación
importante.
fac4 •
Eje 2 6
•
fac5
fac3 •
dac5
• fde2
• •
dac4 • •
ind1
• des2 • fac1
des3 fde1
•
dac3 •
-
• Eje 1
des1 •
ind5 dac1 • • dac2
• ind4
• ind3
ind2 • • des4
• des5
Figura 5.2: ACM de los temas “empresa privada–libertad”: plano principal (49 % de inercia
explicada).
mejor ubicado para que ésta tenga un sentido, como se ilustra en la Figura 3.
• ind9
Eje 2 6
• ind8
dac8
•
fac8 •
des9 •
-
fac9
• Eje 1
• fde8 dac9
•
• des8
Figura 5.3: Trayectoria seguida por las modalidades de var8 y var9 en el plano generado
por los ejes 1 y 3 (43 % de inercia).
var1 y var6 (ı́ndice de agregación igual a 0.48) por un lado, y entre var4 y var5 (ı́ndice
de agregación igual a 0.49) por el otro. Sigue la agregación entre var8 y var9 con ı́ndice
de agregación igual a 0.85, y el resto se encuentra por encima del valor 0.92. Con los
ı́ndices de agregación del ligamen simple y del ligamen máximo se obtuvieron resultados
similares.
q var1
q var6
q var10
q var3
q var7
q var4
q var5
q var2
q var8
q var9
Escala de disimilitud
1 0.9 0.5 0
Por otro lado, analizamos la homogeneidad de las respuestas dadas a estas preguntas,
mediante las formas fuertes [1]. Como cada pregunta determina una partición de los
estudiantes entrevistados, se pueden analizar las formas fuertes entre dos preguntas.
Para las variables 4 y 5, con 4 modalidades cada una, se obtienen 8 formas fuertes,
de las cuales cuatro son mayoritarias con 60, 54, 41 y 29 estudiantes respectivamente, lo
cual da una buena clasificación del 79 % de los estudiantes.
94 Análisis de Correspondencias Múltiples
5.5.5. Conclusiones
Las principales conclusiones a las que llegamos son las siguientes:
1. La relación directa entre “los trabajadores deben respetar las órdenes de su patrono
sin criticarlas” (var4 ) y “mi padre debe dedicarle más tiempo a la empresa o insti-
tución donde trabaja” (var5 ) denota una fuerte concordancia sumisión-explotación.
2. La relación inversa entre “la empresa privada es necesaria para que exista libertad”
(var1 ) y “un paı́s democrático no necesita ejército” (var6 ) concuerda con la fuerte
propaganda que salı́a en la prensa en la época anterior en que se pasó la encuesta,
que hacı́a énfasis en que la empresa privada produce libertad, y que insistı́a a la vez
en que Costa Rica debı́a armarse para preservar su democracia. Aquı́ se muestra
la gran permeabilidad de los estudiantes de secundaria a la propaganda masiva e
ideológica.
3. La relación inversa entre “Costa Rica necesita ejército para defenderse de amenazas
externas” (var8 ) y “un ejército en Costa Rica podrı́a llevar a una dictadura militar
a corto plazo” (var9 ) parece muy lógica: quienes quieren la implantación de un
ejército en Costa Rica hacen creer que en nuestro paı́s no se correrı́a el riesgo de
una dictadura militar.
5.5 Ejemplo: Análisis de Conceptos Sociológicos en la Educación 95
4. La ausencia de otras relaciones entre las otras preguntas puede ser debida a la falta
de consistencia en la opinión de los estudiantes de educación media.
Escalamiento Multidimensional
97
98 Escalamiento Multidimensional
Eventualmente, se puede considerar que la aproximación sea a una función ϕ(δij de las
disimilitudes, donde ϕ es una función continua y creciente. El espacio de representación
Rp es generalmente R2 ó R3 ; ahora bien, este espacio de representación podrı́a ser otro
tipo de espacio como por ejemplo una esfera (en el caso en que se quiera representar
objetos sobre la Tierra, y se considere conveniente tomar en cuenta la esfericidad de la
misma).
Es decir, se busca una solución en el espacio de donde provienen las distancias observadas.
En Rp , la matriz B del producto interno usual se puede escribir como
Pn Pn Pp Pp Pn
ya que i=1 xti xj = i=1 k=1 xik xjk = k=1 i=1 xik xjk = 0.
Como
d2ij = (xi − xj )t (xi − xj )
entonces
bij = xti xj
1
= − (d2ij − xti xi − xtj xj )
2
n n n n
1 2 1X 2 1X 2 1 XX 2
= − (dij − d − d + d )
2 n r=1 rj n s=1 is n2 r=1 s=1 rs
Escribiendo
1
aij = − d2ij
2
1X
ai· = aij
n j
1X
a·j = aij
n i
1 XX
a·· = aij
n2 i j
entonces se obtiene
bij = aij − ai· − a·j + a··
100 Escalamiento Multidimensional
B = VΛV
donde Λ es la matriz diagonal con los valores propios no nulos en la diagonal y escritos en
forma decreciente, y V es la matriz con los vectores propios normalizados correspondientes
en las columnas. Por lo tanto, se tiene
B = VΛ1/2 Λ1/2 Vt
donde Λ es la matriz diagonal con las raı́ces cuadradas de los valores propios, de donde
se obtiene
B = VΛ1/2 .
Recuérdese que si v es un vector propio asociado al valor propio λ, dada una matriz,
entonces −v también es vector propio asociado a λ. Por lo tanto, las soluciones de un
MDS clásico son únicas salvo por reflexión sobre un eje de coordenadas.
Como
Xt Xuk = nµk uk
y siendo únicos los valores propios de Xt X, entonces se tiene λk = nµk y uk = ±X t vk .
Si bien es cierto que, en presencia de una tabla de datos numéricos, algunos autores
realizan un MDS clásico calculando primero las distancias entre los objetos, es más razo-
nable realizar directamente un A.C.P. ya que como hemos visto que se obtendrá el mismo
plano principal. Además, con el A.C.P. se obtiene también como resultado el cı́rculo de
correlaciones, el cual es esencial para una correcta interpretación de los resultados. Ahora
bien, el gráfico del cı́rculo de correlaciones también se puede hacer con MDS considerando
a las correlaciones como medidas de proximidad y haciendo una transformación adecuada,
pero no se tratarı́a del MDS clásico sino de alguno de los métodos que se presentan más
adelante.
tomándose valor absoluto en los valores propios ya que algunos de ellos pueden ser nega-
tivos, aunque algunos autores sigieren considerar en la suma del denominador únicamente
a los valores propios positivos.
Los valores propios negativos surgen cuando B no es semidefinida positiva. Se sabe
que teóricamente existe una constante c tal que las disimilitudes se pueden transformar
102 Escalamiento Multidimensional
por δij + c si i 6= j dejando δii inalteradas, pero es difı́cil determinar ese valor de c. Para
mayor información sobre este pun to, se puede consultar [51].
donde los wij son pesos asociados a la disimilitud δij (eventualmente, estos pesos pueden
ser útiles para el manejo de datos faltantes) y los dij (X) son las distancias Euclı́deas entre
los puntos i, j en el espacio de representación Rp , cuyas coordenadas están en la matriz
X. Se define el stress normalizado como:
j−1
n X
X
σ(X)/ wij δij2
j=1 i=1
6.2 Escalamiento métrico 103
Ejemplo
Bra Con Cub Egi Fra Ind Isr Jap Chi Rus USA Yug
Brasil 0 4.83 5.28 3.44 4.72 4.50 3.83 3.50 2.39 3.06 5.39 3.17
Congo 4.83 0 4.56 5.00 4.00 4.83 3.33 3.39 4.00 3.39 2.39 3.50
Cuba 5.28 4.56 0 5.17 4.11 4.00 3.61 2.94 5.50 5.44 3.17 5.11
Egipto 3.44 5.00 5.17 0 4.78 5.83 4.67 3.83 4.39 4.39 3.33 4.28
Francia 4.72 4.00 4.11 4.78 0 3.44 4.00 4.22 3.67 5.06 5.94 4.72
India 4.50 4.83 4.00 5.83 3.44 0 4.11 4.50 4.11 4.50 4.28 4.00
Israel 3.83 3.33 3.61 4.67 4.00 4.11 0 4.83 3.00 4.17 5.94 4.44
Japón 3.50 3.39 2.94 3.83 4.22 4.50 4.83 0 4.17 4.61 6.06 4.28
China 2.39 4.00 5.50 4.39 3.67 4.11 3 4.17 0 5.72 2.56 5.06
Rusia 3.06 3.39 5.44 4.39 5.06 4.5 4.17 4.61 5.72 0 5.00 6.67
USA 5.39 2.39 3.17 3.33 5.94 4.28 5.94 6.06 2.56 5.00 0 3.56
Yugoslavia 3.17 3.50 5.11 4.28 4.72 4.00 4.44 4.28 5.06 6.67 3.56 0
Bra Con Cub Egi Fra Ind Isr Jap Chi Rus USA Yug
Coord 1 0.15 −1,15 −0,90 −0,60 0.36 −0,33 0.96 1.04 −0,76 0.12 1.14 −0,03
Coord 2 1.22 0.71 −0,29 0.29 0.02 0.64 0.40 −0,39 −0,96 −0,85 0.12 −0,90
6.2.3. ALSCAL
Takane, Young y De Leeuw porpusieron en 1977 un método para MDS que se ha
convertido en muy popular, denominado ALSCAL2 , y que trata de minimizar el SStress
definido por: XX
SS = wij (dˆ2ij − d2ij (X))2
i j
, donde dˆ2ij son alguna transformacón monotóna de las disimilitudes de entrada δij2 . Puede
verse que el SStress es el stress de las disimilitudes al cuadrado, una vez transformadas.
ALSCAL tiene dos fases:
2
Mnemónico de Alternating Least Squares SCAling.
6.2 Escalamiento métrico 105
Eje 2 Brasil
6 •
Congo
• India
•
Israel
•
Egipto
•
•
Francia U.S.A.
• - Eje 1
Cuba
• Japón
•
Rusia
Yugoslavia •
China •
•
?
Figura 6.1: Representación de la percepción de similitudes entre 12 paı́ses por parte de
un grupo de 18 estudiantes, usando el método de Kruskal para MDS métrico.
1. Fase de escalamiento óptimo: hallar D̂ para X, W fijos por medio de mı́nimos cua-
drados (regresión lineal): dˆ = Z(Zt Z)−1 Zt , donde Z contiene los cuadrados d2ij . La
solución obtenida se normaliza.
X
ρ(X) = wij δij dij (X).
i<j
(
w δ
− dijij(Z)
ij
i 6= j, dij (Z) 6= 0
bij =
0 i= 6 j, dij (Z) = 0
Pn
bii = − j6=i bij
6.2 Escalamiento métrico 107
1. X0 configuración al azar; m = 0
2. X̄m = V + B(Xm )Xm , u
Cm = (Y t V Y )−1 Y t X̄m
u
3. Haga Xm+1 = Y Cm
4. Regrese a (2) hasta que σ(Xm ) − σ(Xm+1 ) < ó m = ni con ni número máximo
de iteraciones.
Los aspectos fundamentales del método que proponemos son los siguientes:
Mallado Como se trata de minimizar la función del Stress sobre la matriz C de tamaño
q×p, realizamos una discretización del espacio Rq , construyendo un mallado formado
por la unión de cuadrados de lado h.
108 Escalamiento Multidimensional
Notemos que para cualquier C los vecindarios tienen la misma cardinalidad |V (C)| =
2qp.
1. Se escoge una matriz C al azar, cada entrada con probabilidad uniforme en [0, 1].
Se calcula la temperatura inicial c0 , se elige el largo de la cadena Lc y se inicia el
contador en t = 0. Escoger γ ∈ [0,8, 0,95].
Notemos que de acuerdo con el proceso de generación definido tenemos que la proba-
1
bilidad de generar el estado j a partir del estado i es constante e igual a Gi,j = 2qp , por lo
que la reversibilidad Gi,j = Gj,i y la conexidad de dos estados cualesquiera se satisfacen
trivialmente, es decir, las condiciones de convergencia asintótica se satisfacen (Aarts &
Korst (1988)). En adelante nos referiremos a este algoritmo como ssMDSR.
Situación AD ID TD
1 Muerte madre 3.8 4.2 4.1
2 Comiendo galleta 5.9 5.4 4.8
3 Sorpresa agradable 8.8 7.8 7.1
4 Amor maternal 7.0 5.9 4.0
5 Cansancio fı́sico 3.3 2.5 3.1
6 Problema en avión 3.5 6.1 6.8
7 Perro bravo 2.1 8.0 8.2
8 Empujando 6.7 4.2 6.6
9 Encuentro inesperado 7.4 6.8 5.9
10 Cambio repentino 2.9 3.0 5.1
11 Dolor extremo 2.2 2.2 6.4
12 El avión cae 1.1 8.6 8.9
13 Sueño ligero 4.1 1.3 1.0
Por otra parte Abelson y Sermat (1962) construyeron, usando las mismas fotografı́as,
una matriz de disimilitud. Para ello recurrieron a un grupo de treinta estudiantes que opi-
naron sobre la diferencia entre el grado de alegrı́a que reflejaban las diferentes expresiones
faciales. Teniendo en cuenta estas evaluaciones construyeron la matriz de disimilitud mos-
trada en la tabla 6.3.
110 Escalamiento Multidimensional
1 2 3 4 5 6 7 8 9 10 11 12 13
1 0
2 4.05 0
3 8.25 2.54 0
4 5.57 2.69 2.11 0
5 1.15 2.67 8.98 3.78 0
6 2.97 3.88 9.27 6.05 2.34 0
7 4.34 8.53 11.87 9.78 7.12 1.36 0
8 4.90 1.31 2.56 4.21 5.90 5.18 8.47 0
9 6.25 1.88 0.74 0.45 4.77 5.45 10.20 2.63 0
10 1.55 4.84 9.25 4.92 2.22 4.17 5.44 5.45 7.10 0
11 1.68 5.81 7.92 5.42 4.34 4.72 4.31 3.79 6.58 1.98 0
12 6.57 7.43 8.30 8.93 8.16 4.66 1.57 6.49 9.77 4.93 4.83 0
13 3.93 4.51 8.47 3.48 1.60 4.89 9.18 6.05 6.55 4.12 3.51 12.65 0
Obtención de una configuración plana vı́a MDSR y SS. Para realizar un estudio
de las Expresiones Faciales disponemos de una matriz de disimilitudes δ y de una tabla Y
de expresiones faciales por variables, obtenidas de manera independiente una de otra. Sin
embargo es natural plantearse que exista una relación entre ellas, cuestión que podemos
verificar al asumir que es posible construir una configuración X de 13 puntos en el plano,
de modo que las dos variables que la determinan sean combinaciones lineales de las tres
variables definidas anteriormente y que además la matriz de distancias euclı́deas d(X)
aproxime la matriz de disimilitud.
Estamos entonces ante un problema de Escalamiento Multidimensional con restric-
ciones lineales en la configuración que resolveremos con los dos algoritmos que hemos
definido.
En este caso, δ es la matriz de disimilitud de tamaño 13 × 13 de la tabla 6.3, Y es la
matriz de 13 × 3 de la tabla 6.2 que tiene los valores que las expresiones faciales asumen
en las tres variables empı́ricas definidas y necesitamos encontrar una matriz C de tamaño
3 × 2 que minimice la función de stress (6.1):
Estimamos la matriz C con los algoritmos MDSR y ssMDSR, ambos programados en
Mathematica 3.0.
La matriz C, el valor del Stress y el gráfico de la configuración obtenida con ambos
algoritmos se reportan en seguida. Adem’as se incluyen los resultados obtenidos por por
Borg y Groenen (1997) para los mismos datos.
En el caso de ssMDSR se utilizaron los siguientes parámetros: largo de la cadena
Lc = 800, γ = 0,85, temperatura inicial c0 = 285 (estimada según se propone en Aarts &
Kors (1988)), paso del mallado h = 0,05.
El coeficiente de variación r con ambos algoritmos fue de 0,955. En la tabla 6.4 se
6.2 Escalamiento métrico 111
Cuadro 6.4: Matrices C obtenidas por los métodos MDSR y ssMDSR y la reportada por
Borg & Groenen (1997).
4 9 13
13
2 8 4 5
5 2 8 9 3 8 4
1 11 10 1 2
13 9
10 3
1
5 11
6 6 6
10
7
11 7 7
12
12 12
Figura 6.2: Configuraciones de las trece expresiones faciales obtenidas con los métodos
MDSR, ssMDSR y la reportada por Borg & Groenen (1997).
Podemos observar que las configuraciones en los tres casos son iguales, salvo rotación.
Por otra parte las variables sugeridas por Engen, Levy y Scholosberg nos dan una configu-
ración análoga a las anteriores como podemos observar en el plano principal del Análisis
en Componentes Principales realizado sobre la matriz Y (ver la figura 6.3), lo que indica,
en alguna medida, que las tres variables definidas explican adecuadamente las expresiones
faciales.
Datos de esfuerzos bacteriales. Estos datos fueron reportados por Mathar (1989) y
correponde a experimentos realizados en 1986 entre 17 individuos. La matriz de disimilitud
tiene la particularidad que que al realizar un MDS sin restricciones se han encontrado
alrededor de 1000 mı́nimos locales.
En este caso usamos una matriz Y de tamaño 17 × 3 (ver tabla 6.5), elegida de modo
que produjera varios mı́nimos locales. Realizamos 50 corridas de cada algoritmo, en el
caso del MDSR hicimos, por cada corrida, 10 tirajes al azar de la configuación inicial y
elegimos el mejor r. Para ssMDSR se hizo solo un tiraje al azar por cada corrida, pues
en este caso hay una menor dependencia de la configuración inicial y un mayor tiempo de
ejecución. La tabla de disimilitudes se presenta en la tabla 6.6.
112 Escalamiento Multidimensional
Escala externap11 % Inercia 93.97
AD
3
4 9
2 8
ID
13
1
5 6 TD
10
7
11
12
Figura 6.3: Plano principal y cı́rculo de correlaciones del Análisis en Componentes Prin-
cipales de la matriz Y .
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
1 2.8 7.1 6.4 6.4 4.0 8.5 4.6 6.4 6.4 8.4 8.1 4.5 7.2 3.4 6.0 8.7 5.8
2 4.9 4.9 8.4 2.5 7.5 7.2 2.5 2.0 2.4 2.5 8.4 6.6 5.0 8.3 1.5 4.9 7.4
3 5.5 2.2 1.9 7.5 7.2 7.9 6.9 6.4 5.2 1.1 1.4 2.1 8.5 6.0 2.7 3.7 8.6
Cuadro 6.5: Matriz de restricciones transpuesta (Y t ) para los datos de esfuerzos bacteria-
les.
Conclusiones
En los ejemplos mostrados se observa una vez más la tendencia reportada por otros
autores cuando comparan los algoritmos clásicos con los obtenidos con sobrecalentamien-
to simulado, esto es que este último obtiene mejores resultados en los casos en que se
presentan varios mı́nimos locales. Tiene la desventaja de que su tiempo de ejecución es
un poco más del doble que el MDSR.
Referencias
1. Aarst, E.; Korst, J. (1988) Simulated Annealing and Boltzman Machines: a Stochas-
tic Approach to Combinatorial Optimization and Neural Computing. John Wiley &
Sons, Chichester.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
1 0 35 28 29 31 42 49 70 60 100 75 48 77 60 36 88 93
2 35 0 17 42 34 49 55 77 54 89 98 98 78 43 23 86 100
3 28 17 0 32 38 59 32 96 62 95 93 85 91 38 44 80 79
4 29 42 32 0 32 36 100 66 55 93 81 73 98 54 47 78 56
5 31 34 38 32 0 50 57 86 86 100 100 74 86 34 45 94 80
6 42 49 59 36 50 0 33 100 69 100 79 90 88 51 55 92 97
7 49 55 32 100 57 33 0 85 89 57 71 85 100 63 57 93 100
8 70 77 96 66 86 100 85 0 81 89 77 87 58 80 73 88 90
9 60 54 62 55 86 69 89 81 0 92 79 73 82 73 86 88 100
10 100 89 95 93 100 100 57 89 92 0 100 85 89 52 42 96 57
11 75 98 93 81 100 79 71 77 79 100 0 100 100 100 85 62 80
12 48 98 85 73 74 90 85 87 73 85 100 0 87 63 81 67 71
13 77 78 91 98 86 88 100 58 82 89 100 87 0 79 92 84 66
14 60 43 38 54 34 51 63 80 73 52 100 63 79 0 4 69 76
15 36 23 44 47 45 55 57 73 86 42 85 81 92 4 0 81 57
16 88 86 80 78 94 92 93 88 88 96 62 67 84 69 81 0 79
17 93 100 79 56 80 97 100 90 100 57 80 71 66 76 57 79 0
3. Borg, I.; Groenen, P.J.F. (1997) Modern Multidimensional Scaling. Springer, New
York.
5. Engen, T.; Levy, N.; Schlosberg, H. (1958) “The dimensional analysis of a new series
of facial expressions”, Journal of Experimental Psychology, 55: 454–458.
7. Kirkpatrick, S.; Gellat C.D.; Vecchi, M.P. (1983) “ Optimization by simulated an-
neling”, Science, 220: 671–680.
Cereal Cereal
All Bran AllB Just Right Fruit and Nut JRFN
All Bran with extra fibre AllF Meusliz Crispy Blend MuCB
Apple Jacks AppJ Nut and Honey Crunch Nut&
Cornflakes CorF Nutri Grain Almond Raisin NGAR
Corn Pops CorP Nutri Grain Wheat NutW
Cracklin Oat Brain Crac Product 19 Prod
Crispix Cris Raisin Bran RaBr
Froot Loops Froo Raisin Squares Rais
Frosted Flakes FroF Rice Crispies RiKr
Frosted Mini Wheats FrMW Smacks Smac
Fruitful Bran FruB Special K Spec
Just Right Crunch Nuggets JRCN
con su contenido en fibra. Se puede apreciar una tendencia a desplegar los cereales con
alto contenido en fibra en la parte superior izquierda, mientras que los que tienen muy
poco contenido en fibra están en la parte inferior derecha.
Cuadro 6.8: Resultados del MDS no métrico sobre la tabla de cereales: configuración de
puntos en el plano.
Cuadro 6.9: Resultados del MDS no métrico sobre la tabla de cereales: contenido de fibra
de cada cereal.
computacional.
Denotamos un grupo de m matrices de tamaño n × n como n × n × m. Los resultados
con ssINDS se obtuvieron al considerar 20 grupos de tres matrices 3 × 3 × 3 y 20 grupos
de matrices 6 × 6 × 9. Cada matriz Bk fue construida generando primero una matriz A con
entradas tomadas al azar con distribución uniforme en [−1, 1], luego se define Bk = AAt
verificando posteriormente que ésta sea definida positiva. Este es el mismo procedimiento
seguido por Ten Berge et al. (1993).
La calidad de ajuste se mide como un porcentaje de la suma de los cuadrados de los
datos. Es decir,
2
P P
k i≤j (Bkij − Xi Wk Xj )
porc = 1 − P P 2
k i≤j (Bkij )
De manera similar a como lo reporta Ten Berge et al. (1993), el programa ssINDS se
ejecutó 10 veces para cada grupo de matrices y se escogió la mejor solución de acuerdo
con el mayor valor de porc obtenido. Luego se hizo el promedio sobre los 20 grupos de
matrices. Estos porcentajes de ajuste promedio se reportan en el siguiente cuadro. Tam-
bién se incluyen los resultados de Ten Berge et al. (1993) para los algoritmos SYMPRES
y CANDECOMP, aplicados a 100 grupos de matrices de 3 × 3 × 3 y 6 × 6 × 9.
Referencias
1. Aarst, E.; Korst, J. (1990) Simulated Annealing and Boltzman Machines: a Stochas-
tic Approach to Combinatorial Optimization and Neural Computing. John Wiley &
Sons, Chichester.
3. Ten Berge, J.M.F.; Bekker, P.A.; Kiers, H.A.L. (1994) “Some clarifications of the
Tuckals2 algorithm applied to the IDIOSCAL problem”, Psychometrika 59: 193–201.
A B C D E
Juez 1 2 3 1 5 4
Juez 2 1 2 3 5 4
Juez 3 1 4 5 4 3
.. .. .. .. .. ..
. . . . . .
Puede verse entonces que se trata de datos de proximidad entre dos modos: el modo de
los ı́tems y el modo de los jueces. Sea X la matriz de datos de preferencia, con los jueces
en fila y los ı́tems en columna. Si colocamos estos datos en una gran matriz cuadrada con
jueces e ı́tems, que contenga cuatro bloques: los dos bloques diagonales que cruzan jueces
con jueces por una parte, e ı́tems con ı́tems por otra parte, contienen ceros y se consideran
datos faltantes; y los dos bloques extra-diagonales que contienen X y Xt , que cruzan jueces
con ı́tems. Obsérvese que la nueva tabla contiene las mismas filas y columnas.
Entonces se puede realizar un MDS métrico sobre esta nueva tabla, tomando pesos
cero en los bloques diagonales, minimizando el stress.
A b C D E F G H I J K L M N O
1 13 12 7 3 5 4 8 11 10 15 2 1 6 9 14
2 15 11 6 3 10 5 14 8 9 12 7 1 4 2 13
3 15 10 12 14 3 2 9 8 7 11 1 6 4 5 13
4 6 14 11 3 7 8 12 10 9 15 4 1 2 5 13
..
.
42 13 3 1 14 4 10 6 15 6 2 11 7 12 8 9
Los resultados del análisis de preferencias se muestras en la figura 6.4. Puede apreciarse
que el individuo 4 juega un rol central, con preferencia a los desayunos L, K, M y D. Los
jueces se despliegan prácticamente en una lı́nea, desde el 4 hasta el 11.
Los resultados se muestran en la figura 6.5, donde solo ponemos explı́citamente a los
pintores, y un punto para cada uno de los 300 jueces.
El Método Statis4 es una metodologı́a estadı́stica utilizada para hacer el análisis des-
criptivo de varias tablas de datos. Este método fue concebido y desarrollado para el análisis
de tablas de datos del tipo individuos × variables cuantitativas, observadas durante un
perı́odo determinado o en condiciones distintas. En general suponemos que se tienen K
matrices:
X1 , X2 , . . . , XK
donde la matriz k-ésima Xk es de dimensiones n × pk . Xk contiene las observaciones de
pk variables sobre n individuos. Entre los objetivos de Statis, destacan:
Para ello, el método Statis consta de tres fases importantes, a saber: la Intraestructura,
el Compromiso y la Interestructura.
6.5.3. La Interestructura
Su objetivo es comparar globalmente la estructura de las diferentes tablas de datos,
lo cual se realiza a través del estudio de las matrices Wi = Xi Xti de productos escalares
entre individuos. Para obtener una descripción de estas K matrices usamos la métrica
definida por el producto interno:
6.5.4. El Compromiso
En análisis de tablas múltiples, los inidviduos y las variables de tablas distintas, per-
tenecen a espacios de dimensión diferente. Esta circunstancia obliga a determinar un
operador promedio llamado compromiso. Los ejes determinados por los vectores propios
4
Statis proviene del francés Structuration de Tableaux À Trois Indices de la Statistique, que se puede
traducir como Estructuración de Tablas con Tres Índices de la Estadı́stica.
122 Escalamiento Multidimensional
6.5.5. La Intraestructura
El compromiso es precisamente
P XXt . El ACP del triplete (X, I, Dw ) nos da una repre-
sentación simultánea de las pi variables en la base Dw −ortonormal de las componentes
principales, donde Dw es la métrica de pesos.
Para representar los individuos usamos la técnica de elemento suplementario. Ası́ el
i-ésimo individuo del k-ésimo año es la fila i-ésima de la matriz Wk Dw C, donde C es la
matriz de las componentes principales normalizadas.
El análisis de los fenómenos sociales o de otra naturaleza, puede ser abordado desde
el ángulo de su evolución o de una manera estática. Ası́ nuestro enfoque en relación con
el fenómeno de la opinión es descubrir sus tendencias evolutivas e intentar explicarlas.
Técnicamente este tipo de estudios se denomina análisis de tablas múltiples y existen
varios métodos para su implementación; los cuales marcan su principal diferencia en la
forma como se elige el operador compromiso. En el presente caso se ha utilizado el método
STATIS (Estadı́stica de tres ı́ndices), del cual se ofrece enseguida una breve descripción,
enmarcada en las condiciones del caso que nos ocupa. (Una presentación más amplia se
encuentra en [36], [72], [48], [110], [76], [123]).
6.5 Análisis de preferencias 123
Los datos
Los datos de base de esta investigación corresponden a las encuestas de opinión de los
años 1988, 1989,1990 y 1991 realizadas por el proyecto de investigación Estructuras de
la Opinión Pública. Estas encuestas son anuales sobre una muestra de 1000 individuos,
mayores de 18 años, preservando cuotas por sexo, edad y professión. Los entrevistados
se pronuncian sobre unas 100 afirmaciones relativas a los principales conflictos sociales
ventilados por la prensa local [146].
Un ejemplo de tales afirmaciones es:
La democracia es el sufragio
En total desacuerdo
Bastante en desacuerdo
Bastante de acuerdo
Totalmente de acuerdo
No responde
Provincia: San José (Sjos), Alajuela (Ala), Cartago (Car), Guanacaste (Gua), Pun-
tarenas (Aren), Limón (Lim) y Heredia (Her).
Escolaridad: Ninguna (N), Primaria (P), Secundaria (S), Técnica (T), Universitaria
incompleta (UI) y Universitaria completa (UC).
Partido polı́tico: Partido Liberación Nacional (PLN), Partido Unidad Social Cris-
tiana (PUSC), Izquierda (Izq), Otros partidos (Potr) y Ningún partido (Pnin).
Ingreso Familiar: Ingresos Bajos (IB), Ingresos Medios (IM) e Ingresos Altos (IA).
La tabla de datos se construye usando los centros de gravedad como filas (individuos),
para obtener ası́ una matriz de tamaño 42 × 8 por cada año.
Resultados preliminares
CG CJ PS IS SD
A18 3.153 3.676 3.610 3.554
A18 2.679 3.879 3.555 3.386
A18 2.504 3.879 3.613 2.603
A18 2.510 3.977 3.875 2.449
A continuación se presentan las correlaciones entre las variables, para cada año, ası́ co-
mo entre las del año 1989 y el resto.
Resultados de Statis
•
-Eje 1
89
•
90
•
91
Análisis de la intraestructura
principales sobre la tabla que se obtiene concatenando las tablas de los centros de gravedad
de cada año y ponderándolas adecuadamente, nos permite obtener tales representaciones.
La Figura 6.7 corresponde a la representación de las variables en los dos primeros ejes
los cuales explican el 58 % de la inercia total.
Se observa que las variables SD, DS, SP y en menor grado BN y CJ, correlacionan
con el primer eje. Por otra parte las variables LM e IS lo hacen con el segundo eje. En el
caso de las variables BN y CJ se observa una evolución (movimiento) sobre el primer eje
que es explicada en parte por la diferenciación del año 89 con respecto a los restantes.
Eje 2
% Inercia 57.89 6
•
LM3
•
LM4
•
IS4 •
• IS3•
LM1 •
• IS2LM2
IS1
• •
PS4 CJ3
•
• • BN2
CJ1 PS3
•
BN4
• ••
• CJ2 BN3
SP3
CJ4 •
SP1 •
SP2 •
• SD3 -
• PS2 Eje 1
BN1 •
• SD4
PS1
• •
• SD1
• DS2 •
SP4• DS4 • SD2
DS3
DS1
Figura 6.7: Cı́rculo de correlaciones que contiene las variables y su evolución en los 4
anños del estudio.
En la Figura 6.8 se representan los grupos sociales promedio en los ejes del compromiso,
y en las Figuras 6.10 y 6.11 las trayectorias.
Se nota que el nivel de escolaridad es un factor claramente discriminante en cuanto
a la opinión. Los grupos de mayor escolaridad UC arriba en el segundo cuadrante se
oponen a los grupos sociales de menor escolaridda (P) que son a su vez los de más bajos
ingresos (IB). Asociadas con estos grupos se encuentran, respectivamente, las provincias
de mayor desarrollo como San José y Alajuela, en oposición a Limón y Guanacaste. Las
diferencias de opinión más claras derivan de las variables que determinan en mayor grado
esas direcciones. Es ası́ como a partir de las observaciones anteriores complementadas con
los histogramas, podemos decir lo siguiente:
130 Escalamiento Multidimensional
•
A54
• •
A35 A44
• •
SJOS
ALA
• •
IA •
•• • N -Eje 1
• PLN PUSC
UI IM
• •
T A25 • •
LIM P
•
S IB
•
GUA
•
A18
Figura 6.8: Plano principal con los grupos sociales en los ejes del compromiso.
En los grupos sociales de más alta escolaridad como EUC se nota una evolución
en el sentido de disminuir su confianza en la justicia, aumentar su deseo de que se
invierta más presupuesto en seguridad y cada año el sentimento de inseguridad es
mayor. Respecto a la enfermedad del sida estos grupos sociales son cada vez más
tolerantes. En los sectores de menos escolaridad como EP y EN esta tendencia es
menos pronunciada y más irregular (ver Histogramas).
Hay una diferenciación de la opinión entre los grupos de menor edad con respecto
a los de mayor edad, la cual se expresa en grado creciente de desconfianza en la
justicia de parte de los jóvenes que ha su vez son más tolerantes respecto al sida,
que las personas de mayor edad (ver Figuras 6.10 y 6.11).
En relación con los grupos de filiación polı́tica, hemos constatado que la diferen-
ciación proviene de los grupos minoritarios fuera del PLN y del PUSC. Estos dos
últimos partidos son indistinguibles desde el ángulo de la opinión respecto de las va-
riables analizadas, como lo ponen en evidencia las representaciones en la Figura 6.9.
Este hecho también lo hemos verificado con un segundo análisis donde los partidos
minoritarios (Izquierda, Otros y Ninguno) no fueron tomados en cuenta.
Conclusiones y perspectivas
% Inercia 62.57
Eje 2
6
•
POT
•
PIZ
-Eje 1
• • •
PLNPUSC
PNIN
Figura 6.9: Plano principal con los puntos asociados a los partidos polı́ticos en los ejes del
compromiso.
2. Pese a las limitaciones señaladas en el punto anterior, se puede afirmar que el mo-
vimiento evolutivo de las variables Defender la banca nacionalizada, Aumentar el
presupuesto en seguridad y Se puede confiar en la justicia; marcan una clara dife-
rencia de la opinión en 1988 con respecto a la opinión en los otros años.
3. Los resultados obtenidos confirman que la edad y el nivel de escolaridad son varia-
bles diferenciadoras de la opinión. Mientras tanto la filiación polı́tica no introduce
diferencias de opinión importantes, con excepcion de los grupos minoritarios. Desde
este ángulo, queda justificada la apreciación en el sentido que los partidos tradicio-
nalmente mayoritarios desde hace algunos años representan esencialmente lo mismo.
Esto es ası́, aun cuando 5 años atrás, durante el perı́odo en que se realizaron estas
encuestas, la mayor parte de los ciudadanos no lo percibı́an claramente. En esta
perspectiva cabe preguntarse si actualmente los ciudadanos son conscientes de lo
132 Escalamiento Multidimensional
•
A543
•
•
A442 •
A443 A544
•
A444 •
• • A542 -Eje 1
A441
A541
•
A181
•
A182
•
A184
•
A183
?
Figura 5
•
• UC4
• UC2
UC3
•
N3
•
UC1 •
N2
• -Eje 1
P3
•
P1• ••
N1 P4
P2
•
N4
?
Figura 6
Clasificación jerárquica
7.1. Introducción
Existe gran cantidad de métodos de clasificación automática, entre los que podemos
distinguir los siguientes:
los métodos jerárquicos, que buscan una serie de particiones encajadas de tal
manera que puedan representarse mediante un árbol;
135
136 Clasificación jerárquica
los métodos piramidales, que como los jerárquicos buscan particiones encajadas,
pero que permiten a una clase de nivel inferior estar contenida en dos clases de nivel
superior;
los métodos de particionamiento, que buscan una sola partición del conjunto de
individuos;
los métodos de clasificación no exclusiva, que buscan grupos en los datos de tal
manera que un individuo pueda pertenecer a varios grupos al mismo tiempo;
En este curso veremos únicamente los métodos más usados, que son los jerárquicos y
los de particionamiento. Ası́, abordaremos los métodos llamados de clasificación jerárquica
ascendente y los de nubes dinámicas, por ser los más populares y fáciles de usar. Tanto
los métodos jerárquicos como algunos del tipo nubes dinámicas están implementados en
la mayorı́a de los paquetes estadı́sticos citados en el apéndice correspondiente a software.
7.2.1. Similitudes
Una similitud es una función s : Ω × Ω −→ R+ tal que:
Con sólo estos dos requisitos se pueden construir funciones que den una idea de la
similitud entre individuos. Ahora bien, la definición de una similitud dependerá de cómo
es la descripción de los individuos, es decir, qué tipo de variables son las que los describen.
Un caso frecuente para usar similitudes es cuando los individuos están descritos por
variables binarias, es decir, variables de presencia-ausencia que toman sólo los valores 0 y
1 dependiendo de si el individuo presenta o no la variable. Si un individuo tiene un valor
de 1 en la variable se dice que “posee el atributo”, que describe esa variable. Por ejemplo,
podemos considerar que la variable: “el estudiante posee beca”, es una variable binaria, o
bien “el estudiante es repitente”. En biologı́a también aparecen con frecuencia este tipo
de variables, como por ejemplo: “el animal posee alas”, o bien “la planta está presente en
la parcela”.
En este contexto, dados dos individuos i y j en Ω, antes de medir su similitud se
pueden contar los siguientes elementos:
Existe una serie de ı́ndice de similitud basados en los elementos anteriores. Daremos a
continuación solamente los dos ı́ndices más usados, dejando para la consulta de abundantes
referencias los otros ı́ndices [31, 43, 46, 56, 94, 95, 65, 86, 63, 145]. Los ı́ndices de similitud
más usados para datos binarios son:
el ı́ndice de Jaccard:
pij
s(i, j) =
pij + qij
Obsérvese que, cuando los individuos i y j coinciden en todos sus atributos, el ı́ndice
de Jaccard alcanza su valor máximo que es 1, mientras que el de Russel y Rao alcanza
como valor máximo el cociente entre el número de atributos que coinciden y p. Sólo en el
caso en que tanto i como j posean todos los atributos el valor del ı́ndice de Russel y Rao
será 1.
v1 v2 v3 v4
a 1 0 1 1
b 0 1 1 1
c 0 0 0 0
d 1 0 1 1
e 0 1 0 0
f 1 1 1 1
Al calcular el número de atributos para los que coinciden (con presencia) las parejas
de individuos o para los que son diferentes, se obtienen los valores de pij y qij dados a
continuación:
pij b c d e f qij b c d e f
a 2 0 3 0 3 a 2 3 0 4 1
b 0 2 1 3 b 3 2 2 1
c 0 0 0 c 3 1 4
d 0 3 d 4 1
e 1 e 3
Jaccard Russel&Rao
s(i, j) a b c d e f s(i, j) a b c d e f
a 1 0,5 0 1 0 0,75 a 1 0,5 0 0,75 0 0,75
b 1 0 0,5 0,33 0,75 b 1 0 0,5 0,25 0,75
c 1 0 0 0 c 1 0 0 0
d 1 0 0,75 d 1 0 0,75
e 1 0,25 e 1 0,25
f 1 f 1
En la tabla de datos original se puede ver que los individuos a y d coinciden en todos
sus valores. El valor de 1 para s(i, j) calculado con el ı́ndice de Jaccard refleja este hecho,
lo cual no se aprecia con el ı́ndice de Russel & Rao. por otra parte, el individuo a es el
opuesto de e, el valor de 0 para s(i, j) calculado con ambos ı́ndices refleja este hecho.
7.2 Similitudes y disimilitudes 139
7.2.2. Disimilitudes
3. d(i, j) = 0 ⇔ i = j
Caso cuantitativo
El uso de la distancia clásica tiene sentido cuando las variables observadas sobre los
individuos son cuantitativas, pues en este caso tienen sentido las operaciones expresadas
en la fórmula de la distancia. Hay que mencionar que esta distancia tiene un inconveniente
si se usa sin precaución: debido a que cada término de la sumatoria es elevado al cuadrado,
la distancia euclı́dea tiene tendencia a magnificar las grandes diferencias entre las obser-
vaciones, por lo que si hay un dato aberrante este comportamiento atı́pico se traducirá en
un valor muy grande dela distancia. Por ello, antes de cualquier análisis multivariado,
siempre se recomienda hacer un estudio univariado de cada variable; en particular una
caja de dispersión deberı́a indicar la presencia de valores aberrantes y ası́ el analista puede
tomar las medidas necesarias.
140 Clasificación jerárquica
Algunos autores prefieren usar una distancia como la siguiente, llamada “city-block”1 :
p
X
d(i, j) = |xki − xkj |
k=1
Chebychev
d(i, j) a b c d
a 0 2 4 70
b 0 4 71
c 0 74
d 0
De los cuatro individuos de la tabla de datos, se puede apreciar que a y b tienen valores
muy parecidos para las cinco variables, y su cercanı́a es reflejadapor el bajo valor de las
distancias. Por su parte, d también tiene valores cercanos a a y b en las cuatro primeras
variables, aunque para la quinta tenga una gran diferencia; si se supone que esta gran
diferencia es debida a un valor “aberrante”, como por ejemplo debido a un error de un
digitador a la hora de pasar los datos del papel a la computadora (supóngase que el dato
real era 7 y no 77, como aparece en la tabla), entonces puede apreciarse que las tres
distancias mostradas son muy sensibles a los valores de estos casos atı́picos.
1
Este nombre proviene del hecho que para medir la distancia entre dos puntos de una ciudad como
el centro de San Jośe, donde las calles y avenidas son paralelas y se cruzan perpendicularmente entre sı́,
hay que medir las distancias recorriendo las calles pasando por las esquinas, y no en lı́nea recta
7.2 Similitudes y disimilitudes 141
p − pij
d(i, j) =
p
Ejemplo 7.2.3 Usando los datos del ejemplo 7.2.1, tendrı́amos los siguientes valores
para las disimilitudes de Jaccard y de Russel & Rao:
Jaccard Russel&Rao
d(i, j) a b c d e f d(i, j) a b c d e f
a 0 0,5 1 0 1 0,25 a 0 0,5 1 0,25 1 0,25
b 0 1 0,5 0,66 0,25 b 0 1 0,5 0,75 0,25
c 0 1 1 1 c 0 1 1 1
d 0 1 0,25 d 0 1 0,25
e 0 0,75 e 0 0,75
f 0 f 0
si xki 6= xkj
1
donde δijk = .
0 si xki =6 xkj
142 Clasificación jerárquica
La distancia de χ2 es:
p
!
1 X 1 1
d(i, j) = 2 + δijk
p k=1 s(xi ) s(xkj )
k
donde δijk se define como antes y s(xki ) es el número de veces que la modalidad xki está pre-
sente para la variable xk .
7.2.5. Agregaciones
Los métodos de clasificación automática usan generalmente una noción de proximidad
entre grupos de elementos, para medir la separación entre las clases que se buscan. Para
ellos, se introduce el concepto de agregación, que no es más que una disimilitud entre
grupos de individuos: sean A, B ⊂ Ω, entonces la agregación entre A y B es:
δ(A, B)
1 X
δprom (A, B) = d(a, b)
card(A) + card(B) a∈A
b∈B
4. Agregación de Ward:
card(A)card(B)
δward (A, B) = ||g(A) − g(B)||2 = I(A ∪ B) − I(A) − I(B)
card(A) + card(B)
Existen otras agregaciones también citadas en la literatura, como por ejemplo la dis-
tancia entre los centros de gravedad o la inercia I(A ∪ B). Sin embargo, la mayorı́a de
éstas tienen el defecto de producir inversiones en el algoritmo de clasificación jerárquica
ascendente que veremos en la siguiente sección.
7.3. Jerarquı́as
Generalmente, los métodos de particionamiento –como los de nubes dinámicas que pre-
sentaremos en el próximo capı́tulo– encuentran en cada ejecución una sola partición en un
número dado a priori de clases. Ahora bien, este número de clases puede no “representar”
el número real de clases que se forman en la configuración de los datos.
Por ejemplo, considérese la siguiente configuración de puntos en R2 :
r
r rr
r r
r
r r r
rr r
rr r
r r rr
a b c d e
árbol jerárquico de clasificaciones, tal como se muestra en la figura 7.1 para un conjunto
Ω = {a, b, c, d, e}.
Una árbol jerárquico tiene la ventaja de que es de fácil interpretación. En efecto, para
el árbol de la figura 7.1, se interpreta que los individuos más cercanos son los que se unen
a un nivel más bajo del árbol, esto es a y b. Enseguida, los dos individuos que siguen en
similitud son d y e, luego el grupo {a, b} con el individuo c, y finalmente se obtiene el
grupo total Ω.
El procedimiento para construir el árbol jerárquico, trata de encontrar los dos indivi-
duos más cercanos en el sentido de la disimilitud d definida sobre Ω. Una vez que se han
unido, se consideran las distancias entre los individuos restantes, y entre ellos y el nuevo
grupo formado. Para esto último, necesitamos escoger una agregación δ.
Un árbol jerárquico representa lo que se conoce como una jerarquı́a.
Una jerarquı́a sobre Ω es un subconjunto H de P(Ω) tal que:
1. Ω ∈ H,
2. ∀i ∈ Ω, {i} ∈ H,
3. ∀i, i0 ∈ H : h ∩ h0 6= ∅ ⇒ h ⊂ h0 o h0 ⊂ h.
Puede observarse que una jerarquı́a tiene asociado un árbol, llamado árbol jerárquico,
donde cada nodo del árbol es un elemento de H y las hojas del árbol son los elementos
de Ω. Además, el árbol tiene una raı́z que es Ω mismo. Si este árbol es binario se dice que
la jerarquı́a es binaria.
La clasificación jerárquica consiste en construir una jerarquı́a sobre Ω, de tal forma
que los individuos más parecidos formen nodos, y los grupos de individuos más similares
también formen nodos.
7.4 Algoritmo de clasificación jerárquica ascendente 145
1. f (h) ≥ 0,
2. ∀i ∈ Ω : f ({i}) = 0,
Pueden consultarse las siguientes referencias como una introducción a estos conceptos:
[17, pp. 119–138, tomo 1], [31, pp. 544–558], [56, pp. 74–76], [94, pp. 105–108]. De las
referencias anteriores, quizás la más accesible sea [56].
2. k := k + 1 ;
6. H = H ∪ Ω;
Esta indexación hace que el árbol de clasificación sea más fácilmente interpretable, pues
da la idea de la altura de los nodos del árbol: entre más bajos sean los nodos más parecidos
son los objetos que están debajo del nodo.
146 Clasificación jerárquica
7.4.1. Ejemplos
Ejemplo 7.4.1 Supóngase que se tiene los siguientes valores de una disimilitud sobre
Ω = {a, b, c, d}:
a b c d
a 0 1 3 5,5
b 0 2 4,5
c 0 2,5
d 0
{a, b} c d
{a, b} 0 2 4,5
c 0 2,5
d 0
Ahora, el mı́nimo valor es para δ({a, b}, c) = 2, por lo que se fusionan {a, b} y c,
obteniéndose la nueva tabla:
{a, b, c} d
{a, b, c} 0 2,5
d 0
a b c d
Figura 7.2: Arbol de clasificación obtenido al usar la agregación del salto mı́nimo
7.4 Algoritmo de clasificación jerárquica ascendente 147
Ejemplo 7.4.2 En caso de usarse la agregación del salto máximo δmáx sobre los datos
anteriores, se obtendrı́an sucesivamente las dos tablas siguientes:
{a, b} c d
{a, b} {c, d}
{a, b} 0 3 5,5
{a, b} 0 5,5
c 0 2,5
{c, d} 0
d 0
a b c d
Figura 7.3: Arbol de clasificación opbtenido al usar la agregación del salto máximo
Ejemplo 7.4.3 Por otra parte, si se usa la agregación del salto promedio δprom sobre los
datos anteriores, se obtienen las tablas:
{a, b} c d
{a, b, c} d
{a, b} 0 2,5 5
{a, b, c} 0 4,16
c 0 2,5
d 0
d 0
Puede verse que en la primera tabla se alcanza el mı́nimo para dos valores diferentes:
δ({a, b}, c) = 2,5 = δ(c, d). Ante esta situación, el usuario debe decidir cual de las dos
posibles fusiones hará.2 Suponiendo que se fusionan {a, b} con c, se obtiene el siguiente
árbol mostrado en la figura 7.4.
El lector puede comprobar que de haber escogido la fusión de c con d al árbol de
clasificación hubiera tenido una forma diferente.
2
En los programas de computación, normalmente se decide automáticamente cual fusión se hará; por
ejemplo, se sugiere hacer aquélla que involucre al menor ı́ndice de individuo.
148 Clasificación jerárquica
a b c d
Figura 7.4: Arbol de clasificación obtenido al usar la agregación del salto promedio
Ejemplo 7.4.4 Considérese la siguiente tabla con los valores de una disimilitud:
a b c d e
a 0 25 18 25 10
b 0 30 40 34
c 0 10 15
d 0 18
e 0
7.4 Algoritmo de clasificación jerárquica ascendente 149
a b {c, d} e
{a, e} b {c, d}
a 0 25 21,5 10 {a, c, d, e} b
{a, e} 0 29,5 19
b 0 35 34 {a, c, d, e} 0 32,25
b 0 35
{c, d} 0 16,5 b 0
{c, d} 0
e 0
30
20
10
c d a e b
Figura 7.5: Arbol de clasificación obtenido al usar la agregación del salto promedio
7.4.3. Inversiones
Se dice que una clasificación jerárquica produce una inversión cuando se construye
h = a ∪ b con f (h) < f (a) ó f (h) < f (b). Diday [56] dió condiciones sobre los coeficientes
de la fórmula de recurrencia para que no se produzcan inversiones. Los cuatro ı́ndices
de agregación no producen inversiones como sepuede verificar sobre el teorema de Diday,
pero hay otros ı́ndices que sı́ pueden producir, como el de la distancia entre centros de
gravedad δ(a, b) = ||ga − gb ||2 .
puede encontrar en: [94, 171–194], [95, 368–380], [63, 90–100]. Además, Diday [56, 91–96]
dió condiciones sobre los coeficientes de la fórmula de recurrencia de lanza & Williams,
para caracterizar a los ı́ndices de agregación que cumplen la propiedad de vecindarios
reducibles.
El segundo enfoque se debe a De Rham y se conoce como el principio de vecinos
recı́procos: dos grupos a y b se llaman vecinos recı́procos si a es el grupo más cercano de b
y b el de a. La construcción jerárquica ascendente se puede simplificar si se fusionan, desde
un primer paso, todos los vecinos recı́procos. Una vez hechas estas fusiones, se calculan
los vecinos recı́procos de los grupos formados y se recomienza, alternando este paso de
fusión con el desarrollo normal del algoritmo de clasificación jerárquica ascendente. Puede
encontrarse una descripción del procedimiento en [43, 176–177].
Existen demostraciones sobre la equivalencia de los resultados obtenidos con cualquiera
de los dos enfoques acelerados anteriores y el algoritmo usual de clasificación jerárquica
ascendente.
Puede verse que hay una clara clasificación en dos clases, que es:
C1 = {Lucı́a,Inés,Ana,Marı́a,José},
C2 = {Pedro,Andrés,Carlos,Sonia,Luis}.
Si se quiere hacer una clasificación en tres clases, entonces se formarı́a una nueva clase
C3 que contendrı́a sólo a Luis.
7.6 Jerarquı́as y ultramétricas 151
La propiedad anterior puede inducir a pensar que, para poder obtener un jerarquı́a,
basta con encontrar un ultramétrica δ “similar” a la disimilitud d definida sobre Ω. Esta
idea fue seguida por autores como M. Roux, que propuso un algoritmo que hace modifica-
ciones sobre d con el fin de ir obteniendo poco a poco la ultramétrica deseada. De hecho,
el supremo de las ultramétricas inferiores a d es a su vez una ultramétrica, llamada la ul-
tramétrica subdominante. Esta ultramétrica puede ser obtenida mediante la construcción
de un árbol de longitud mı́nima sobre Ω3 , usando por ejemplo los algoritmos de Prim o de
Kruskal. También Roux habı́a propuesto un algoritmo que examina todos los tripletes de
elementos de Ω, construyendo cada vez un triángulo isósceles agudo (puede consultarse
[31, pp. 568–569], [63, pp. 50–51]).
En primer lugar, los resultados dependen de la agregación que se escoja. Por ello,
siempre se recomienda al usuario que haga una reflexión antes de aplicar el método,
en el sentido de ensoger la agregación que tenga un mejor sentido en el problema
que se esté tratando.
Los métodos de clasificación por particiones buscan una sola partición de Ω, mediante
la optimización de algún criterio. Existen básicamente dos tipos de métodos:
Los primeros tienen la ventaja de la sencillez y rapidez, mientras que los segundos
tienen la ventaja obvia de buscar el número de clases. Sin embargo, estos últimos tienen
la gran desventaja de depender de un gran número de parámetros que deben ser estima-
dos por el usuario y cuya manipulación no es fácil sin una adecuada experimentación y
práctica. Ejemplos de estos métodos son Isodata y Wishart.
En este curso sólo abordaremos los primeros métodos, que se puede agrupar en un
esquema llamado de Nubes Dinámicas.
Los métodos de nubes dinámicas están basados en el principio que una clase puede
ser representada por algún objeto, sea éste un punto promedio, un individuo o grupo de
individuos de la clase, un conjunto de parámetros, etc; a este representante lo llamaremos
núcleo. El primer algoritmo de este tipo fue propuesto por Forgy (1965), y luego fueron
propuestos otros similares por Mac Queen, Diday, Jancey, etc.
La idea subyacente es:
153
154 Clasificación por particiones
puede ser un individuo promedio, en cuyo caso se usará el centro de gravedad, cal-
culado por los promedios de los individuos que forman la clase;
puede ser un grupo de objetos representativos, es decir, un grupo de algunos indi-
viduos de la clase escogidos de tal manera que sean las más representativos de la
clase.
Según esta idea, dada una representación mediante k núcleos, se asignarán los indivi-
duos al núcleo más cercano, definiéndose de esta forma una partición. Ahora bien, dada
esta partición, se calculan los nuevos núcleos, ya sea como centros de gravedad o como un
pequeño grupo de elementos representativos de la clase. Los nuevos núcleos pueden ser
ligeramente diferentes de los que sirvieron para crear las clases, por lo que se puede ver
que el método va aproximando poco a poco la solución que se obtendrá finalmente, que
será cuando ya los núcleos sean estables.
8.3.3. Ejemplos
Ejemplo 8.3.1 Ilustremos gráficamente el comportamiento del método de nubes dinámi-
cas. Supóngase que se está en presencia de una serie de indidivuos representados en R2
por la siguiente configuración:
r rr r
r
r rr
r r r
r r r
4 44
4 44
4 4
4
Para proceder a la segunda iteración, se calculan los centros de gravedad de las clases
determinadas, obteniéndose los puntos ficticios mostrados con un ?:
r ∗r r r
r
r rr
r r r
r r ∗ r
44
4 44
4 4
4
158 Clasificación por particiones
Al empezar la tercera iteración, se calculan los centros de gravedad de las clases ante-
riores:
r rr r
r∗
r rr
r r
r ∗r rr
44
44
4
r rr r
r
r∗ rr
r r∗r
r r r
Las clases deducidas de estos centros son las mismas de la iteración precedente. De
esta forma, se ha llegado a un punto de estabilidad pues ahora el cálculo de los centros
de gravedad dará los mismos centros obtenidos antes, por lo que las clases ya no serán
modificadas.
Ejemplo 8.3.2 Supóngase que se tienen 14 objetos descritos por dos variables x, y; los
valores de los datos están dados en la tabla 8.1.
Se tiene entonces la configuración de puntos dada en la figura 8.1.
De acuerdo con la representación de los puntos en el plano se puede apreciar que hay
dos clases naturales, que son:
8.3 Método de nubes dinámicas 159
Objeto x y
1 30 104
2 68 129
3 40 155
4 40 195
5 29 226
9 70 93
6 60 215
7 46 239
8 84 234
10 193 129
11 210 107
12 216 130
13 216 157
14 234 162
Objetos
Clase 1 1, 2, 3, 4, 5, 6, 7, 8, 9
Clase 2 10, 11, 12, 13, 14
Para aplicar el método de nubes dinámicas, se escogen al azar dos puntos entre los 14
dados, que se constituirán en los primeros núcleos; supóngase en un primer momento que
esos objetos son 4 (40, 195) y 5 (29, 226). Luego, se calculan las distancias de todos los
puntos a estos núcleos iniciales; estas distancias al cuadrado están dadas en la tabla 8.2.
De esta forma, se hacen las asignaciones de los objetos a la clase correspondiente al
núcleo más cercano, obteniéndose una primera clasificación que es:
Objetos
Clase 1 1, 2, 3, 4, 6, 9, 10, 11, 12, 13, 14
Clase 2 5, 7, 8
Para la segunda iteración, se calculan los centros de gravedad de las dos clases obte-
nidas anteriormente; estos centros de gravedad son: (125,18, 143,3) para la primera clase
160 Clasificación por particiones
y (53, 73) para la segunda clase. Los núcleos que se usarán en esta iteración serán estos
centros.
Ahora se calculan las distancias entre los 14 puntos y estos núcleos, obteniéndose las
distancias dadas en la tabla 8.3.
Objeto Distancia al núcleo 1 Distancia al núcleo 2
1 10607.53 5290
2 3476.33 2161
3 7395.93 493
4 9931.93 653
5 16093.73 3385
6 9391.93 1813
7 15431.13 4405
8 9923.93 4682
9 5577.13 6689
10 4801.33 21536
11 8508.73 29005
12 8421.53 28418
13 8432.33 26825
14 12187.13 32882
Objetos
Clase 1 9, 10, 11, 12, 13, 14
Clase 2 1, 2, 3, 4, 5, 6, 7, 8
hará variar los centros de gravedad de las clases. En efecto, para empezar la tercera itera-
ción, se calculan los centros de gravedad de las dos clases y se obtienen (194,83, 147) para
la primera clase y (49,625, 187,1) para la segunda. El cálculo de las distancias cuadráticas
de los objetos a los dos centros de gravedad da como resultado la tabla 8.4.
Objetos
Clase 1 10, 11, 12, 13, 14
Clase 2 1, 2, 3, 4, 5, 6, 7, 8, 9
Esta evolución de los núcleos, y su carácter de centros de atracción de los demás puntos
para constituir las clases, es lo que le da el nombre a este método de nubes dinámicas.
Esta evolución de los núcleos puede ilustrarse mediante la figura 8.2.
162 Clasificación por particiones
•
1 • •
1◦3
4?2
• ••
2 ◦3?4
• • •
• • •
Figura 8.2: Evolución de los núcleos para el método de nubes dinámicas (1a iteración: ,
2a iteración: , 3a iteración: ◦, 4a iteración: ?).
8.3 Método de nubes dinámicas 163
Ejemplo 8.3.3 ¿Qué pasa si los núcleos iniciales se escogen de forma diferente? Por
ejemplo, si se escogen como núcleos iniciales los objetos 5 (29, 226) y 7 (46, 239), enton-
ces se obtiene la evolución de las clases dada en la tabla 8.6, alcanzándose también la
clasificación natural1 .
Iteración Clase Núcleos Objetos
1 1 (29, 226) 1, 2, 3, 4, 5, 9
2 (46, 239) 6, 7, 8, 10, 11, 12, 13, 14
2 1 (46,17, 150,3) 1, 2, 3, 4, 5, 6, 7, 8, 9
2 (157,4, 171,6) 10, 11, 12, 13, 14
3 1 (51,89, 176,7) 1, 2, 3, 4, 5, 6, 7, 8, 9
2 (213,8, 137) 10, 11, 12, 13, 14
Cuadro 8.6: Evolución de las clases escogiendo los objetos 5 y 7 como núcleos iniciales.
Ejemplo 8.3.4 Consideremos ahora la tabla de datos dada en la tabla 8.7, que muestra
20 puntos caracterizados por dos variables x, y.
Objeto x y
1 1 1
2 2 1
3 1.5 1.5
4 1 2
5 2 2
6 1 3
7 2 6
8 2 7
9 2 8
10 3 6
11 3 7.5
12 3.5 8.5
13 4 7
14 5 4
15 5 5
16 5.5 3.5
17 6 4
18 6 5
19 6 6
20 7 5
•12
9•
•11
8• •13
7• •10 •19
15• •18 •20
14• •17
•16
6•
4• •5
3•
1• •2
En la primera iteración, se escogen al azar tres objetos, digamos que los objetos esco-
gidos son el objeto 1 (1, 1), el objeto 6 (1, 3) y el objeto 8 (2, 7). Estos tres objetos serán
los núcleos iniciales y luego se calculan las distancias de los 20 objetos a los núcleos,
obteniéndose las distancias al cuadrado dadas en la tabla 8.8.
Objeto Distancia al núcleo 1 Distancia al núcleo 2 Distancia al núcleo 3
1 4 0 37
2 5 1 36
3 2.5 0.5 30.5
4 1 1 26
5 2 2 25
6 0 4 17
7 10 26 1
8 17 37 0
9 26 50 1
10 13 29 2
11 24.25 46.25 1.25
12 36.5 62.5 4.5
13 25 45 4
14 17 25 18
15 20 32 13
16 20.5 26.5 24.5
17 26 34 25
18 29 41 20
19 34 50 17
20 40 52 29
Al clasificar los objetos en la clase del núcleo más cercano, se obtiene la siguiente
clasificación2 :
2
Debe notarse que la distancia de los objetos 4 y 5 al núcleo de la clase 1 es igual a la distancia de cada
uno al núlceo de la clase 2, por lo que la asignación de ambos a la clase 1 es arbitraria; todo programa
del método de nubes dinámicas debe prever esta situación.
8.3 Método de nubes dinámicas 165
Objetos
Clase 1 4, 5, 6, 14, 16
Clase 2 1, 2, 3
Clase 3 7, 8, 9, 10, 11, 12, 13, 15, 17, 18, 19, 20
Para proceder a la segunda iteración, se calculan los centros de gravedad de las cla-
ses recién formadas. obteniéndose (2,9, 2,9) para la clase 1, (1,5, 1,17) para la clase 2 y
(4,13, 6,25) para la clase 3. Estos centros de gravedad son los nuevos núcleos y se calculan
las distancias de todos los objetos a estos núcleos, obteniéndose las distancias cuadráticas
dadas en la tabla 8.9.
Objetos
Clase 1 6, 16
Clase 2 1, 2, 3, 4, 5
Clase 3 7, 8, 9, 10, 11, 12, 13, 14, 15, 17, 18, 19, 20
166 Clasificación por particiones
Los centros de gravedad de las clases, para las tres iteraciones siguientes, son:
Las distancias de los objetos a los respectivos núcleos, durante esas tres iteraciones,
fueron las dadas en la tabla 8.10.
Iteración 3 Iteración 4 Iteración 5
Objeto n1 n2 n3 n1 n2 n3 n1 n2 n3
1 10.13 0.50 35.96 25.63 0.74 37.33 34.24 0.74 40.79
2 6.63 0.50 30.58 18.13 0.90 32.08 25.74 0.90 37.41
3 6.13 0.00 28.20 19.13 0.07 29.45 26.57 0.07 33.10
4 6.63 0.50 26.81 21.13 0.24 27.83 28.40 0.24 29.79
5 3.13 0.50 21.43 13.63 0.40 22.58 19.90 0.40 26.41
6 5.13 2.50 19.66 18.63 1.74 20.33 24.57 1.74 20.79
7 9.13 20.50 4.81 15.63 18.40 4.58 16.57 18.40 2.41
8 15.63 30.50 5.66 21.13 27.90 5.08 20.73 27.90 1.41
9 24.13 42.50 8.50 28.63 39.40 7.58 26.90 39.40 2.41
10 7.63 22.50 1.43 10.13 20.57 1.33 10.07 20.57 1.04
11 18.13 38.25 3.45 19.13 35.57 2.83 17.07 35.57 0.29
12 27.63 53.00 6.35 25.63 49.90 5.45 21.73 49.90 2.35
13 14.63 36.50 0.89 12.13 34.23 0.58 9.73 34.23 0.66
14 3.63 18.50 4.97 0.13 17.90 5.83 0.74 17.90 12.28
15 6.13 24.50 1.81 1.63 23.40 2.33 0.90 23.40 7.28
16 5.13 20.00 8.35 0.13 19.73 9.45 0.90 19.73 17.60
17 8.13 26.50 7.58 0.63 26.07 8.58 0.24 26.07 16.91
18 10.63 32.50 4.43 2.13 31.57 5.08 0.40 31.57 11.91
19 15.13 40.50 3.27 5.63 39.07 3.58 2.57 39.07 8.91
20 17.13 42.50 9.04 4.63 41.73 9.83 1.90 41.73 18.53
Para la sexta iteración, se tienen los núcleos (5,79, 4,64) para la clase 1, (1,42, 1,75)
para la clase 2, y (2,79, 7,14) para la clase 3. Las distancias cuadráticas de los 20 objetos
a estos núcleos son dadas por la tabla 8.11.
Ası́, se obtiene la misma clasificación que en la iteración precedente, que es precisa-
mente la clasificación “natural”.
8.3 Método de nubes dinámicas 167
Ejemplo 8.3.5 Para el ejemplo anterior, serı́a interesante saber qué pasa si la escogencia
de los núcleos iniciales es diferente de la dada. Si cada uno de los núcleos iniciales está en
una clase “natural”, entonces es bastante claro que se obtendrán las tres clases “naturales”
muy rápidamente. Ahora bien, si, como en el caso del ejemplo presentado, dos de los
núcleos están en una misma clase “natural”, entonces puede que no siempre se obtenga
la partición deseada. Este es el caso cuando se escogen como núcleos iniciales los objetos
5 (5, 5), 8 (2, 7) y 9 (2, 8).
Las distancias de los 20 objetos a estos centros son dadas por la tabla 8.12.
Objeto Distancia al núcleo 1 Distancia al núcleo 2 Distancia al núcleo 3
1 50 37 32
2 49 36 25
3 42.5 30.5 25
4 37 26 25
5 36 25 18
6 26 17 20
7 4 1 10
8 1 0 13
9 0 1 18
10 5 2 5
11 1.25 1.25 10
12 2.5 4.5 15
13 5 4 5
14 25 18 1
15 18 13 0
16 32.5 24.5 2.5
17 32 25 2
18 25 20 1
19 20 17 2
20 34 29 4
Cuadro 8.12: Distancias de los 20 objetos a los nuevos núcleos (ejemplo 5).
Objetos
Clase 1 9, 11, 12
Clase 2 6, 7, 8, 10, 13
Clase 3 1, 2, 3, 4, 5, 14, 15, 16, 17, 18, 19, 20
Las distancias de los objetos a los respectivos núcleos, durante esas tres iteraciones,
están dadas en la tabla 8.13.
8.3 Método de nubes dinámicas 169
Cuadro 8.13: Distancias de los objetos a los núcleos durante las iteraciones 2, 3 y 4.
Ejemplo 8.3.6 Otro asunto importante a considerar es el del número de clases. Hemos
dicho que el método de Nubes Dinámicas encuentra una partición de Ω en un número k
de clases, donde k es dado a priori. Ahora bien, puede suceder que este número de clases,
solicitado por el usuario del método, no sea un número “natural” de clases En efecto,
supóngase que para el ejemplo de los 20 objetos del plano el usuario no disponga (como
sucede en general) de la representación en el plano, y que pide 2 clases en lugar de tres.
Si la escogencia al azar de los núcleos iniciales es: 10 (3, 6) y 16 (5,5, 3,5), entonces
se obtiene estabilidad luego de cuatro iteraciones; la evolución de las clases se muestra en
la tabla 8.14.
Las distancias, en esas iteraciones, son las dadas por la tabla 8.15. Puede verse que en
la clasificación final el objeto 19 queda clasificado con los objetos “de arriba”, los objetos
7, 8, 9, 10, 11, 12 y 13.
170 Clasificación por particiones
Cuadro 8.15: Distancias de los 20 objetos a los núcleos en cada iteración cuando se escogen
dos clases.
Se suele recomendar analizar las formas fuertes contando el número de veces en que
ellas fueron agrupadas juntas en las particiones creadas, y ası́ formar una matriz de simi-
litudes. Cada entrada de esta matriz contendrá el número de veces que las formas fuertes
en fila y columna estuvieron juntas en las particiones estudiadas. A partir de esta ma-
triz se crea una de disimilitudes y ésta es analizada mediante una clasificación jerárquica
ascendente.
172 Clasificación por particiones
(x3 )
(x4 )
(x5 , x6 )
(x7 , x8 , x9 )
Ejercicios
1. Considere la siguiente tabla de disimilitudes d entre cinco elementos a1 , a2 , a3 , a4 , a5 :
8.4 Análisis de las formas fuertes 173
a1 a2 a3 a4 a5
a1 0 3 7 3 4
a2 3 0 4 4 1
a3 7 4 0 2 6
a4 3 4 2 0 1/2
a5 4 1 6 1/2 0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
a 0 1 0 1 1 0 0 1 0 1 1 0 1 0 0 1 1 0
b 0 0 0 0 0 0 1 0 0 1 0 0 0 1 1 0 1 1
c 0 0 1 0 0 0 1 0 0 1 1 1 1 0 1 0 0 1
d 0 1 0 1 0 1 0 0 0 0 1 0 1 1 0 0 1 0
e 1 0 1 0 0 1 0 0 0 1 0 0 0 1 0 0 0 0
f 1 0 0 1 1 1 0 1 1 0 1 0 0 1 0 1 1 0
3. Considérese los siete puntos x1 , x2 , . . . , x7 tales que sus distancias euclı́deas son:
x1 x2 x3 x4 x5 x6 x7
x1 0
x2 0,5 0
x3 0,4 0,55 0
x4 2,51 2 2,3
x5 3 2,5 2,8 0,41 0
x6 3,3 2,81 3,2 0,6 0,7 0
x7 4,4 4 4,2 4,5 1,5 1,4 0
174 Clasificación por particiones
Individuo x y
1 1 1
2 1 2
3 6 3
4 8 2
5 8 0
Individuo x1 x2 x3
1 2 4 9
2 5 6 6
3 8 8 7
4 6 5 6
5 2 5 9
6 8 9 5
7. Considérese la siguiente tabla de datos, que contiene algunas causas de muerte para
cada 100.000 habitantes en algunos paı́ses occidentales.
h
Capı́tulo 9
Análisis Discriminante
9.1. Introducción
La discriminación trata de distinguir clases existentes dentro de un conjunto de datos.
Las clases son dadas a priori por alguna variable cualitativa observada, que será llamada
variable a explicar. Además, se dispone de variables explicativas x1 , x2 , . . . , xp , que por
el momento supondremos que son cuantitavas.
Veamos algunas situaciones en que puede aparecer la discriminación:
177
178 Análisis Discriminante
portancia que esto reviste es muy grande para algunos sectores como la agricultura,
la pesca, la aviación, la previsión de emergencias, etc.
P N1 , . . . , Nk ,
Las k clases C1 , C2 , . . . , Ck dadas a priori en los individuos forman k subnubes
tales que N` = {xi |xi ∈ C` }. El centro de gravedad de la clase C` es g` = µ1` xi ∈C` pi xi ,
P
donde µ` = xi ∈C` pi es el peso de la clase C` . Se puede probar que el centro de gravedad
de los g` es g (ver ejercicios).
Se define la matriz de varianzas intra–clases como:
k
X
W = V`
`=1
donde: X
V` = pi (xi − gell )(xi − g` )t
xi ∈C`
que está formada por las varianzas entre las variables restringidas a los centros de gravedad
de las clases.
Si V es la matriz de varianzas–covarianzas total (observadas sobre todos los indivi-
duos), se tiene la importante relación de Fisher [26]:
V =W +B
En el anexo de este capı́tulo está probado este resultado para el caso de las inercias, pero
el lector puede hacer una demostración análoga para establecar la relación que damos
para el caso de las matrices de varianzas.
Se quieren construir nuevas variables en Rp , que sean combinación lineal de las varia-
bles originales xj , de tal forma que separen lo mejor posible (en proyección) a los k–grupos
existentes.
Véase que entonces buscar la separación de los centros de gravedad equivale a buscar
que, en proyección, estos centros tengan inercia máxima. Este es un problema similar al
del Análisis en Componentes Principales (A.C.P.).
Debido a la relación V = B + W , se tiene entonces que at M V M a = at M BM a +
at M W M a, es decir
at M BM a at M W M a
1= + t .
at M V M a a MV Ma
at M BM a at M W M a
Por lo tanto, la maximización de λ = at M V M a
es equivalente a la minimización de at M V M a
.
Para hacer esta minimización, se deriva vectorialmente λ respecto a a, obtiéndose que
hay un máximo si 2(at M V M a)BM a − 2(at M BM a)V M a = 0, esto es, si
V −1 Bu = λu,
Observación: : Estas reglas son muchas veces inapropiadas si las clases tienen diferentes
cardinales. En efecto, el tamaño de una clase tiene un efecto atractor cuando se usa la
distancia W −1 . Por ello, en el caso en que las clases son de cardinales muy diferentes, se
recomienda mejor usar una distancia local Mk proporcional a Vk .
cabo al mismo tiempo que se calculan las variables discriminantes. Sin embargo, aquı́ des-
cribiremos uno que se hace como etapa previa a la discriminación, llamado método de
Sebestyen.
Se requiere que el conjunto Ω de individuos sea suficientemente grande, para dividirlo
en dos: un conjunto de aprendizaje, que servirá para el cálculo de las funciones discri-
minantes, y un conjunto de test, que servirá para medir la calidad de la discriminación.
Supongamos que la muestra de test tiene m elementos.
Para aplicar el método de Sebestyen se pueden usar varios criterios:
9.6. Ejemplos
Ejemplo 9.6.1 Se tiene un conjunto de 20 reses, de los cuales 10 son de raza cebú y 10
son de raza charolais. Se dispone la observación de 3 variables cuantitativas x1 , x2 , x3 de
cada una de ellas, según se muestra en la tabla que sigue:
Res x1 x2 x3 Grupo
1 1 400 224 1(cebu)
2 1 395 229 1
3 1 395 219 1
4 1 395 224 1
5 1 400 223 1
6 1 400 224 1
7 1 400 221 1
8 1 410 233 1
9 1 402 234 1
10 1 400 223 1
11 2 395 224 2(charolais)
12 2 410 232 2
13 2 405 233 2
14 2 405 240 2
15 2 390 217 2
16 2 415 243 2
17 2 390 229 2
18 2 405 240 2
19 2 420 234 2
20 2 390 223 2
Usando como ı́ndice para selección de variables el lambda de Wilks Deet W/Det V,
entonces se selecciona primero a x3 ya que es la variable más explicativa según este ı́ndice
(da el valor mı́nimo):
V ariable |W |/|V |
x1 0,969
x2 0,821
3
x 0,262
Introduciendo x3 como variable explicativa, se calcula el lambda de Wilks para las otras
9.7 Otros métodos 185
dos variables:
V ariable |W |/|V |
x1 0,203
x2 0,167
Por lo tanto, se selecciona x2 como la segunda variable más explicativa.
pl fl (x)
P (Cl |x) = Pk
j=1 pj fj (x)
Ası́, se asignará el individuo x a la clase l tal que P (Cl |x) sea máxima. Esto constiste en
maximizar pl fl (x)
El problema de la discriminación bayesiana consiste en la estimación de las probabili-
dades fl (x). Mencionaremos someramente en qué consiste uno de los métodos más usados
para esta estimación, llamado el método de los vecinos más cercanos.
Para estimar fl (x) = P (x|Cl ), se escoge un número K y para cada x ∈ Ω, se deter-
minan los K vecinos de Ω más cercanos de x, en el sentido de alguna proximidad (una
distancia euclı́dea, por ejemplo). Entre esos K vecinos, se cuentan cuántos pertenecen a
la clase C1 (digamos n1 ), cuántos a la clase C2 (digamos n2 ), . . ., cuántos a la clase Ck
(digamos nk ). Entonces se estima fl (x) por nl /K. Este método es uno de los más usados
en discriminación bayesiana.
El método anterior es una variante de otro basado en la estimación de fl (x) mediante
bolas. Se define un radio R y alrededor de cada x ∈ Ω se toman todos los individuos de
Ω que están a una distancia de x inferior a R. De esos individuos, se cuentan cuántos
pertenecen a cada clase. La proporción de esos elementos entre el total de los que están
en la bola de centro x y radio R es una estimación de fl (x). Un inconveniente de este
procedimiento es que se debe tener una buena estimación de R, de tal forma que no se
tengan muy pocos elementos en la bola de manera que la estimación no sirva.
186 Análisis Discriminante
Finalmente, otro de los métodos bayesianos más usados consiste en suponer que las
fl (x) siguen una distribución normal. Esto implica la estimación de parámetros, la prue-
ba de hipótesis sobre los parámetros, y la verificación de la normalidad mediante algún
procedimiento.
diferencia entre las medias, si la variable a explicar tiene solo dos modalidades) para
determinar la mejor variable explicativa.
Ejercicios
1. Deduzca cuál es la matriz B de varianzas-covarianzas inter-clases para los datos del
ejemplo 1, sobre las reses cebú y charolais.
Obs x1 x2
1 0 3
2 2 1
3 4 5
4 6 9
5 8 7
6 5 2
7 7 0
8 9 4
9 11 8
10 13 6
3. En un estudio zootécnico realizado en Cuba en 1970, acerca del interés por cruzar
reses de raza charolais y cebú, se llevaron a cabo medidas de 6 variables, que repre-
sentan distintos pesos del animal. La muestra contiene 23 reses, de las cuales 12 son
charolais y 11 son cebú. Las variables son:
x1 : peso de la res viva
x2 : peso de la piel
188 Análisis Discriminante
Res x1 x2 x3 x4 x5 x6 Grupo
1 395 224 35,1 79,1 6 14,9 1
2 410 232 31,9 73,4 9,7 16,4 1
3 405 233 30,7 76,5 7,5 16,5 1
4 405 240 30,4 75,3 8,7 16 1
5 390 217 31,9 76,5 7,8 15,7 1
6 405 243 32,1 77,4 7,1 15,5 1
7 390 229 32,1 78,4 4,6 17 1
8 405 240 31,1 76,5 8,2 15,3 1
9 420 234 32,4 76 7,2 16,8 1
10 390 223 33,8 77 6,2 16,8 1
11 415 247 30,7 75,5 8,4 16,1 1
12 400 234 31,7 77,6 5,7 18,7 1
13 400 224 28,2 73,5 11 15,5 2
14 395 229 29,4 74,5 9,3 16,1 2
15 395 219 29,4 72,8 8,7 18,5 2
16 395 224 28,6 73,7 8,7 17,3 2
17 400 223 28,5 73,1 9,1 17,7 2
18 400 224 27,8 73,2 12,2 14,6 2
19 400 221 26,5 72,3 13,2 14,5 2
20 410 233 25,9 72,3 11,1 16,6 2
21 402 234 27,1 72,1 10,4 17,5 2
22 400 223 26,8 70,3 13,5 16,2 2
23 400 213 25,8 70,4 12,1 17,5 2
Se quiere obtener una función discriminante para diferenciar las dos razas.
T =B+W
Para probar este resultado, véase que, como cada individuo pertenece a una y sólo a
una clase C` , entonces podemos escribir:
k X
X
T = pi kxi − gk2
`=1 xi ∈C`
X X X
pues pi kxi −g` +g` −gk2 = pi kxi −g` k2 +µ` kg` −gk2 +2 pi (xi −g` )t M (g` −g)
xi ∈C` xi ∈C` xi ∈C`
X X X
t t
y pi (xi − g` ) M (g` − g) = ( pi xi − pi xi g` ) M (g` − g)
xi ∈C` xi ∈C` xi ∈C`
t
= (µ` g` − µ` g` ) M (g` − g) = 0.
En el capı́tulo 1, hemos presentado la regresión lineal simple como una técnica para
explicar, mediante un modelo lineal, una variable cuantitativa y mediante una variable
cuantitativa x. En el caso en que se disponga de más de una variable explicativa, se puede
plantear también un modelo lineal para trata de explicar una variable explicativa. Este
es el objetivo de la regresión lineal múltiple.
191
192 Regresión Lineal Múltiple
Figura 10.1: Proyeccion de la variable a explicar en el espacio generado por las variables
explicativas
10.1.2. Solución
Puede observarse que el vector de los errores e, es precisamente el vector diferencia
y − ŷ, por lo que es ortogonal a cualquier combinación lineal de vectores de W . Esto es,
como la métrica de pesos D define el producto interno en F = Rn , entonces se tiene:
X ⊥D y − ŷ
Denotamos X la matriz de datos que contiene a las variables explicativas xj por columm-
nas, y tal que su primera columna está formada de unos, y denotamos b el vector de
1
Por comodidad en el desarrollo, consideramos 1In el vector de “unos” como una variable explicativa,
que es la que tiene por coeficiente a la constante a en el modelo.
10.2 Calidad de la regresión 193
coeficientes de regresión:
a
b1
b=
b2
..
.
bp
Ası́, la condición de ortogonalidad es equivalente a:
Si X t DX es invertible (lo que en este contexto equivale a decir que no hay dos variables
explicativas con correlación 1) entonces la solución es:
b = (X t DX)−1 X t Dy (10.3)
El lector debe observar que hasta el momento no hemos supuesto que las variables
estén centradas. En efecto, esta hipótesis no es necesaria para obtener la solución dada
por las ecuaciones 10.3 y 10.4. Sin embargo, en el caso en que las variables estén centra-
das entonces X t DX es la matriz de varianzas-covarianzas V y X t Dy es el vector delas
covarianzas entre las xj y y.
R2 = ρ2 (y, ŷ)
En la figura 10.1 puede observarse que, en el caso de tener variables centradas, esta
correlación es dada preisamente por el coseno del ángulo entre y y ŷ, pues en el el espacio
de variables esta es la interpretación geométrica de las correlaciones.
Por otra parte, también es necesario examinar el comportamiento de los residuos res-
pecto a cada una de las variables que intervienen en el análisis. Para ello, se harán los
diagramas de dispersión de los residuos estandarizados e/σe versus cada xj y versus y. Es-
tos diagramas no deben mostrar ninguna tendencia ni ningún comportamiento anormal,
en el sentido que los puntos del diagrama deben dar la impresión de seguir un compor-
tamiento aleatorio. En el caso que el analista descubra algún comportamiento anormal,
194 Regresión Lineal Múltiple
por ejemplo que los puntos sigan una parábola o algún orden creciente o decreciente,
o bien que haya algún punto que se separe netamente de los demás (tal que el residuo
estandarizado sea mayor que 3 o menor que −3), entoces se deben examinar de cerca los
datos. Es posible que en estos casos una pequeña transformación sobre los datos resuelva
el problema, o bien que el modelo no sea lineal como se pensaba originalmente.
Las iteraciones anteriores se hacen hasta que las nuevas variables introducidas no
aporten nada nuevo a la regresión. Esto se puede evaluar con el estadı́stico de Fisher F :
e2i
P
∆
sea F̃ = rP 2
e
i
n−q−1
Ejercicios
1. Supónga que se tiene la siguiente tabla de covarianzas entre y y dos variables expli-
cativas x1 y x2 :
y x1 x2
y 1 0,7 0,3
x1 1 0,5
x2 1
Calcule los coeficientes de regresión de y en función de:
10.2 Calidad de la regresión 195
a) solamente x1
b) solamente x2
c) x1 y x2 .
2. Se quieren determinar los principales factores que influyen sobre el rendimiento del
un campo de trigo. Los factores se escogen entre los parámetros siguientes:
Encuentre los coeficientes de regresión lineal (puede usar un método paso a paso),
los residuos, la variable estimada. Además, calcule el coeficiente de determinación
R2 y haga los diagramas de residuos estandarizados versus las variables explicativas
y la variable a explicar.
La variable x5 fue añadida para chequear el método estadı́stico utilizado. Las me-
didas efectuadas sobre 17 meses fueron:
x1 x2 x3 x4 x5 y
1 58.8 7107 21 129 52 3067
2 65.2 6373 22 141 68 2828
3 70.9 6796 22 153 29 2891
4 77.4 9208 20 166 23 2994
5 79.3 14792 25 193 40 3082
6 81.0 14564 23 189 14 3898
7 71.9 11964 20 175 96 3502
8 63.9 13525 23 186 94 3060
9 54.5 12656 20 190 54 3211
10 39.5 14119 20 187 37 3286
11 44.5 16691 22 195 42 3542
12 43.6 14571 19 206 22 3125
13 56.0 13619 22 198 28 3022
14 64.7 14575 22 192 7 2922
15 73.0 14556 21 191 42 3950
16 78.9 18573 21 200 33 4488
19 79.4 15618 22 200 92 3295
Presentamos las principales técnicas de análisis multivariado de datos, cada una ubi-
cada en sus objetivos, situación y solución. Las primeras cinco son técnicas descriptivas
que generalmente se usan para reducir las dimensiones de una tabla de datos con mu-
chas observaciones. Las dos siguientes son técnicas también descriptivas de clasificación
de individuos, que tratan de obtener clases homogéneas de individuos. Finalmente, las
cuatro técnicas siguientes son previsionales, cada una adaptada a una situación y un ob-
jetivo diferente. En un contexto previsional, se dice que hay variables explicativas que son
independientes, y una o más variables a explicar, que es dependiente de las anteriores.
Situación Se tiene una tabla de datos con n individuos descritos por p variables cuan-
titativas.
Objetivo Se quieren encontrar q variables sintéticas (con q < p), que sean no correla-
cionadas y tales que contengan el máximo de varianza que se pueda extraer de la tabla
de datos original. Tales variables sintéticas servirán para hacer una descripción de las
relaciones entre los individuos entre sı́, entre las variables entre sı́, y entre los individuos
y las variables.
197
198 Guı́a breve de técnicas multivariadas de análisis de datos
Situación Se tiene una tabla de contingencia que cruza las p modalidades de una va-
riable cualitativa con las q modalidades de otra variable cualitativa.
Sin embargo, también se puede aplicar a otras tablas de datos con las siguientes ca-
racterı́sticas:
Objetivo Detectar las relaciones entre las modalidades de las dos variables cualitativas
(o entre filas y columnas de la tabla) con el fin de determinar si hay dependencia o
independencia entre ellas, y además determinar qué tipo de dependencia.
Solución Se obtienen gráficos del tipo planos principales del ACP que muestran las
posiciones relativas entre las filas y las columnas de la tabla. En el mismo plano se repre-
sentan simultáneamente las filas y las columnas.
199
En cuanto a la interpretación, la proximidad entre dos filas muestra que ambas tienen
distribuciones similares entre las columnas (idem para las columnas respecto a su distri-
bución entre las filas). La proximidad entre una fila y una columna muestra que en la
distribución de la fila, la columna muestra una importancia relativa mayor que las otras
columnas.
Situación Se tiene una tabla de contingencia generalizada (tabla de Burt) que cruza las
modalidades de varias variables cualitativas tanto en filas como en columnas. O bien, se
tiene una tabla de individuos por variables cualitativas, tal que para cada modalidad de
cada variable cualitativa hay una columna tal que si un individuo presenta la modalidad
aparece un 1 y si no aparece un 0 (tabla disyuntiva completa).
Objetivo Se quiere estudiar la relación entre las distintas modalidades de las variables
cualitativas.
Solución Se obtienen planos principales del tipo del ACP tales que en un mismo plano
se representan simultáneamente todas las modalidades que intervienen en el análisis. Cada
modalidad está representada por el punto promedio de todos los individuos que presentan
esa modalidad. La proximidad entre modalidades muestra que para los mismos individuos
las modalidades respectivas estaban presentes.
Situación Se tiene una tabla n × n que contiene las proximidades o distancias entre n
individuos.
200 Guı́a breve de técnicas multivariadas de análisis de datos
Objetivo Obtener una representación gráfica de pocas dimensiones tal que las distan-
cias entre individuos representados en los planos sean lo más parecidas a las distancias
observadas en la tabla.
Solución Se obtienen planos principales del tipo ACP que contienen puntos que re-
presentan a los n individuos. Las distancias entre los puntos son, en lo posible, lo más
parecidas a las distancias de la tabla original.
Análisis de Preferencias
El primer modelo fue propuesto en 1950 por Coombs. Luego, otros autores estudiaron
distintos métodos, como Benzécri en 1965 y Carroll en 1970.
Objetivo Se quieren describir las preferencias individuales para obtener una preferencia
general.
Solución Se obtienen planos principales del tipo del ACP tales que muestran próximos
a individuos que tienen preferencias similares y alejados a individuos con preferencias muy
diferentes.
Clasificación Jerárquica
Su origen remonta a las investigaciones taxonómicas de Lineo. En los años sesenta,
diversos autores (Sneath, Sokal, Jardine, Sibson, Johnson, Benzécri) formalizaron una
serie de métodos y propiedades.
Situación Se tiene una tabla de datos con n individuos y p variables. También se puede
tener una tabla n × n con las proximidades o distancias entre n individuos.
Objetivo Obtener varias clasificaciones de los individuos, de tal manera que las clasifi-
caciones se puedan encajar y representar mediante un árbol.
201
Solución Hay dos enfoques para la construcción del árbol: uno ascendente y otro des-
cendente.
En la construcción ascendente, se parte de los individuos y se van agregando los más
parecidos, y luego las clases más parecidas y ası́ sucesivamente, hasta agregar dos clases
cuya unión dé la población total.
En la construcción descendente, se parte de la población total y ésta se divide en dos
según la partición que mejor separe, y luego se divide de nuevo cada clase ası́ obtenida y
ası́ sucesivamente, hasta obtener los individuos.
Situación Se tiene una tabla de datos con n individuos y p variables. También se puede
tener una tabla n × n con las proximidades o distancias entre n individuos.
Solución Los diferentes métodos (nubes dinámicas, centros móviles, k-means, Isodata)
obtienen k clases que normalmente dependen de una clasificación dada a priori por el
usuario. Por ello se aconseja hacer varias corridas del método con el fin de estudiar las
clases que son estables, es decir, que a pesar de partir de diferentes particiones a priori,
se mantienen homogéneas.
Regresión Lineal
La regresión lineal es quizás el método estadı́stico más antiguo y está basado en la
regresión lineal simple. Se dice que Galton, a finales del siglo XIX, estudió el primer
problema de regresión al querer predecir la estatura de los hijos de padres altos.
Discriminación
Fisher, a mediados de los años 30, fue el primero en proponer soluciones a los métodos
de discriminación.
Objetivo Caracterizar las clases definidas por y mediante las variables explicativas xj
(usualmente, usando combinaciones lineales de ellas).
Solución Se obtiene una función llamada de discriminación, tal que se puede aplicar a
las observaciones que tenga cada individuo. Si el resultado de esa aplicación está en un
cierto intervalo, entonces se dice que la función de discriminación clasifica al individuo
correspondiente. Por ejemplo, suponiendo que y tiene sólo dos modalidades, la función
de discriminación serı́a tal que si al aplicarla a un individuo el resultado es mayor que
un valor α entonces se toma la decisión de clasificar al individuo en la clase A, y si el
resultado es menor que α entonces se toma la decisión de clasificarlo en la clase B.
Los individuos de la tabla de datos usualmente se dividen en dos grupos: uno de
aprendizaje, que se usa para calcular la función de discriminación, y otro de test, que
sirve para medir la calidad de la función de discriminación. En efecto, para el conjunto
de test se conoce a priori la clasificación mediante las modalidades de y, pero también
203
Segmentación
Se trata de un caso especial de discriminación en dos clases, tal que se representan los
resultados en forma de árbol, llamado árbol de decisión.
Situación Se tiene una tabla de datos con n individuos y p variables explicativas, cuan-
titativas o cualitativas, y una variable a explicar.
Objetivo Se quiere construir un árbol de decisión binario, tal que cada nodo se divida
en dos mediante los valores de una variable cuantitativa (la que mejor haga la división de
la población según las modalidades de la variable a explicar) o mediante las modalidades
de alguna variable cualitativa (de nuevo, la que mejor haga la división).
Solución Se obtiene un árbol de decisión, tal que al descender se obtiene cada vez una
división en dos dela población según alguna variable, la más explicativa.
Análisis de Varianza
Fue propuesto por Fisher durante los años treinta. Usualmente se usa en un experi-
mento dirigido, de tal manera que el investigador puede controlar los factores explicativos.
Solución Se obtienen valores estadı́sticos que determinan si las medias entre las distintas
poblaciones son significativamente diferentes, usando una descomposición de la varianza
total en varianza intra-clases y varianza inter-clases.
[1] Aarts E.M., Korst J. (1988) Simulated Annealing and Boltzmann Machines: A Sto-
chastic Approach to Combinatorial Optimization and Neural Computing. John Wiley
& Sons, Chichester.
[3] Adorf F., Murtagh F. (1988) “Clustering based on neural network processing”, en:
Compstat’88, IASC, Physica–Verlag, Heidelberg.
[4] Anderberg, M.R. (1973) Cluster Analysis for Applications. Academic Press, New
York.
[6] Badran, F.; Thiria, S.; Fogelman-Soulié, F. (1991) “Etude du comportement des
réseaux multicouches – comparaison avec l’analyse discriminante”, en: Induction
Symbolique et Numérique à Partir de Données, Y. Kodratoff & E. Diday (eds.),
Cépaduès, Toulouse.
[7] Ball, G.H.; Hall, D.J. (1965) “Isodata, a novel method of data analysis and classi-
fication”. Technical Report, Stanford Research Institute.
[8] Barthélemy, J.P.; Guénoche, A. (1988) Les Arbres et la Représentation des Proxi-
mités. Masson, Parı́s.
[9] Batbedat A. (1990) Les Approches Pyramidales dans la Classification Arborée. Mas-
son, Parı́s.
[11] Benzècri, J.-P. (1965) Problèmes et méthodes de la taxinomie. Cours ISUP, Paris –
Rennes.
205
206 Guı́a breve de técnicas multivariadas de análisis de datos
[12] Benzécri, J.-P. y colaboradores (1982) L’Analyse des Données. Tomo I: La Taxino-
mie. 4a. edición. Dunod, Parı́s.
[13] Benzécri, J.-P. y colaboradores (1982) L’Analyse des Données. Tomo II: Correspon-
dances. 4a edición. Dunod, Paris.
[14] Benzécri, J.P. (1985) “Démonstration de l’équivalence des résultats des algorithmes
accélérés à ceux de l’algorithme de base en CAH”, Les Cahiers de l’Analyse de
Données, Vol. X, No.3
[15] Benzécri, J.P. (1972) Sur l’analyse des tableaux binaires associés à una correspon-
dance multiple. Note multigraphiée du Laboratoire de Statistique Mathématique,
Université de Paris VI.
[16] Bastin, C.; Benzécri, J.P.; Bougarit, C.; Cazes, P. (1980) Pratique de l’Analyse des
Données. Tomo 2: Abrégé Théorique, Etudes de cas Modèle. Dunod, Paris.
[17] Benzécri, J.P. y colaboradores (1982) L’Analyse des Données. Tomo I: La Taxino-
mie; Tomo II: Correspondances, 4a edición. Dunod, Paris.
[18] Benzécri, J.P. y F. (1984) Pratique de l’Analyse des Données. Tomo 1: Analyse
des Correspondences et Classification Automatique, Exposé Elémentaire, 2a edición.
Dunod, Paris.
[19] Benzécri, J.P. y colaboradores (1981) Pratique de l’Analyse des Données. Tomo 3:
Linguistique et Lexicologie, Dunod, Paris.
[20] Benzécri, J.P. y colaboradores (1986) Pratique de l’Analyse des Données. Tomo 5:
Economie. Dunod, Paris.
[23] Bertrand, P.; Diday, E. (1990) “Une généralisation des arbres hiérarchiques: les
représentations pyramidales”, Revue de Statistique Appliquée XXXVIII (3): 53–78.
[24] Bittner, J.; Trejos, J. (1997) “Analysis of the vascular epiphytes of tree ferns in a
montane rain forest in Costa Rica”, Revista de Matemática: Teorı́a y Aplicaciones
4(2): 62–74.
[25] Bourret P., Reggia J., Samuélidès M. Réseaux Neuronaux: une Approche Connexio-
niste de l’Intelligence Artificielle. Teknéa, Toulouse.
[26] Bouroche, J.M.; Saporta, G. (1989) L’Analyse des Données. 4a. edición, Presses
Universitaires de France, Collection que sais–je?, Parı́s.
207
[29] Brossier, G. (1986) Problèmes de Representation par des Arbres. pp. 1-40
[30] Burt (1950) “The factorial analysis of qualitative data”, British Journal of Statistical
Psychology, Vol. III, No. 3: 166–185.
[31] Cailliez, F.; Pagès, J.P. (1976) Introduction à l’Analyse des Données. SMASH, Parı́s.
[32] Carpenter, G.A. (1989) “Neural network models for pattern recognition and asso-
ciative memory”, en Neural Networks, vol. 2, Pergamon Press, 138–152.
[35] Castillo, W.; González, J. (1996) Primer Seminario de Análisis de Datos. Notas de
curso, Universidad de Atacama, Chile.
[36] Castillo, W.; González, J. (1994) “Análisis de tablas múltiples de datos”, Revista
de Matemática: Teorı́a y Aplicaciones 1(1): 47–55.
[37] Castillo, W.; Rodrı́guez, O.; Trejos, J.; Chacón, B. (1996) Presentación del método
de nubes dinámicas para la clasificación de curvas de carga. Proyecto UCR-ICE,
San José, Costa Rica.
[38] Castillo, W.; Rodrı́guez, O. (1997) “Algoritmo e implementación del análisis fac-
torial de correspondencias”, Revista de Matemática: Teorı́a y Aplicaciones 4(2):
51–62.
[39] Celeux, G. (1987) “Les formes fortes”, en Ecole Modulad Méthodes de Classificacion
pour l’Analyse des Données, CCS–INRIA, Strasbourg, pp. 49–56.
[40] Castillo, W.; González, J. (2001) “Estimación de los parámetros del modelo Indscal
por el método de sobrecalentamiento simulado”, Investigación Operacional 22(1):
45–52.
[41] Celeux, G.; Diday, E.; Govaert, G.; Lechevallier, Y.; Ralambondrainy, H. (1987)
“La méthode des nuées dynamiques”, en Ecole Modulad Méthodes de Classificacion
pour l’Analyse des Données, CCS–INRIA, Strasbourg, pp. 14–36.
208 Guı́a breve de técnicas multivariadas de análisis de datos
[42] Celeux G. (editor) (1991) Discrimination sur variables continues. Collection Didac-
tique INRIA, Le Chesnay.
[43] Celeux G., Diday E., Govaert G., Lechevallier Y., Ralambondrainy H.(1989) Clas-
sification Automatique des Données: Environnement Informatique et Statistique.
Dunod, Parı́s.
[44] Celeux, G.; Nakache (1994) Analyse Discriminante sur Variables Qualitatives. Eco-
nomica, Paris.
[45] Chabanon, C.; Dubuisson, B. (1990) “Méthodes non probabilistes”, en Analyse Dis-
criminante sur Variables Continues, G. Celeux (ed.), INRIA–Collection Didactique,
Rocquencourt.
[46] Chandon, J.L.; Pinson, S. (1981) Analyse Typologique: Théorie et Applications. Mas-
son, Parı́s.
[47] Charniak, E.; McDermott, D. (1985) Introduction to Artificial Intelligence.
Addison–Wesley, Reading, Mass.
[48] Chevalier, F. (1990) “L’analyse en composantes conjointes d’une famille de triplets
indexés”, Statistique et Analyse des Données, Vol 2: 35–75.
[49] Coad, P.; Yourdon, E. (1991) Object-Oriented Analysis. Yourdon Press, Texas.
[50] Chatfield, C.; Collins, A.J. (1980) Introduction to Multivariate Analysis. Chapman
& Hall, Londres.
[51] Cox, T.F.; Cox, M.A.A. (1994) Multidimensional Scaling. Chapman & Hall, London.
[52] Davalo, E.; Naı̈m, P. (1990) Des Réseaux de Neurones. 2a edición, Eyrolles, Parı́s.
[53] Davis, L.; Steenstrup, M. (1987) “Genetic algorithms and Simulated Annealing: an
overview”, en Genetic Algorithms and Simulated Annealing, L. Davis (ed.). Pitman,
Londres.
[54] De Soete; Carrol, D.; De Sarbo (1987) “Least squares algorithms for constructing
constrained ultrametric and additive tree representations of symmetric proximity
data”, pp. 7-8.
[55] Diday, E. et coll. (1980) Optimisation en Classification Automatique. INRIA, Le
Chesnay.
[56] Diday, E.; Lemaire, J.; Pouget, J.; Testu, F. (1982) Eléments d’Analyse des Données.
Dunod, Parı́s.
[57] Diday, E. (1982) “Inversions en classification hiérarchique: application à la cons-
truction adaptative d’indices d’aggrégation”, Revue de Statistique Appliquée 31(1):
45–62.
209
[58] Diday, E. (1985) “Une représentation visuelle des classes empiétantes: les pyrami-
des”, R.A.I.R.O.–APII, 52: 475–526.
[59] Draper; Smith. Applied Regression Analysis. John Wiley & Sons, New York.
[60] Dubes, R.; Jain, A.K. (1980) “Clustering methodologies in exploratory data analy-
sis”, Advances in Computers, Vol. 19, pp. 113–228.
[61] Escofier, B.; Pagès, J. (1988) Analyses Factorielles Simples et Multiples: objectifs,
méthodes et interprétation. Dunod, Paris.
[62] Espinoza, J.L. (1996) “El algoritmo de Fisher para particionamiento óptimo” Re-
vista de Matemática: Teorı́a y Aplicaciones 3.
[63] Espinoza, J.L.; Mora, W.; Trejos, J. (1988) Clasificación automática. Tesis de licen-
ciatura, Universidad de Costa Rica.
[64] Espinoza, J.L.; Trejos, J. (1989) “Clasificación por particiones”, Revista de Ciencia
y Tecnologı́a, XIII (1–2): 129–154.
[65] Everitt, B.S. (1993) Cluster Analysis. 3a edición. Edward Arnold, London.
[66] Fénélon, J.P. (1981) Qu’est-ce que l’Analyse des Données? Lefonen, Paris.
[67] Fisher, W.D. (1958) “On grouping for maximum homogeneity”, J. Amer. Stat.
Assoc. 53.
[68] Forgy, E.W. (1965) “Cluster analysis of multivariate data: efficiency versus inter-
pretability of classifications”, Biometrics 21.
[69] Fukushima, K.; Miyake, D.; Takayuki, I (1983) “Neocognitron: a neural network mo-
del for a mechanism of visual pattern recognition”, IEEE Transactions on Systems,
Man and Cybernetics, SMC-13: 826–834.
[70] Fukushima, K. (1988) “Neural networks and visual pattern recognition”, en Systems
with Learning and Memory Abilities, J. Delacour and J,C,S, Levy (eds.), Elsevier
Science Publ. B.V. (north–Holland), Amsterdam, 365–386.
[71] Garita, N.; Poltronieri, J, (1994) Estructuras de la opinión pública en Costa Rica:
¿Estabilidad o evolución? Editorial de la Universidad de Costa Rica, San Pedro.
[73] Goldberg, D.E. (1987) “Simple genetic algorithms and the minimal, deceptive pro-
blem”, en Genetic Algorithms and Simulated Annealing, L. Davis (ed.). Pitman,
Londres.
210 Guı́a breve de técnicas multivariadas de análisis de datos
[74] Goldberg, D.E. (1989) Genetic Algorithms in Search, Optimization and Machine
Learning. Addison-Wesley, Reading-Mass.
[75] González, J.; Rodrı́guez, O. (1995) “Algoritmo e implementación del método Sta-
tis”. IX Simposio Métodos Matemáticos Aplicados a las Ciencias, J. Trejos (ed.),
Turrialba: 49–56.
[76] González, J. (1994) “Estudio evolutivo de la calidad del agua”, Memoria del II
Encuentro Centroamericano de Investigadores en Matemáticas, G. Mora (ed.), San
Ramón: 425–434.
[77] González, J.; Rodrı́guez, O. (1995) “Algoritmo e implementación del método Statis”,
en: J. Trejos (Ed.) IX Simposio de Métodos Matemáticos Aplicados a las Ciencias,
U.C.R. û I.T.C.R., Turrialba.
[79] Govaert, G. (1983) Classification Croisée. Thèse de Doctorat ès Sciences, Univer-
sité Paris VI.
[81] Gower, J. (1966) “Some distance properties of latent root and vector methods in
multivariate analysis”, Biometrika 53:325–338.
[83] Groenen, P.J.F.; Mathar, R.; Trejos, J. (2000) “Global optimization methods for
multidimensional scaling applied to mobile communications”, in W. Gaul, O. Opitz
& M. Schader (Eds.) Data Analysis. Scientific Modeling and Practical Application,
Springer, Berlin: 459–469.
[84] Grossberg S., editor (1988) Neural Networks and Natural Intelligence. The MIT
Press, Cambridge, Massachussets.
[85] Hakimi; Patrinos (1972) “The distance matrix of a graph and its tree realization”,
pp. 255-262.
[86] Hartigan (1974) Clustering Algorithms. John Wiley & Sons, Nueva York.
[88] Hertz, J.A.; Krogh, A.; Palmer, R.G. (1991) Introduction to the Theory of Neural
Computation. Addison–Wesley, Redwood City, California.
[89] Hoaglin, D.C.; Moore, D.S. (1992) Perspectives in Contemporary Statistics. Mathe-
matical Association of America, MAA Notes Nr. 21.
[90] Holland, J.H. (1975) Adaptation in Natural and Artificial Systems. University of
Michigan Press, Ann Arbor.
[92] Hopfield, J.J. (1984) “Neurons with graded response have collective computatio-
nal properties like those of two–state neurons”, Proc. of the National Academy of
Sciences 81: 3088–3092.
[93] Hush, D.R.; Horne, B.G. (1993) “Progress in supervised neural networks. What’s
new since Lippman?”, IEEE Signal Processing Magazine, January 1993: 8–39.
[94] Jambu M. (1978) Classification Automatique pour l’Analyse des Données. Tomo 1.
Dunod, Parı́s.
[96] Jardine, C.J.; Jardine, N.; Sibson, R. (1967) “The structure and construction of
taxinomic hierarchies”, Mathematical Biosciences 1: 171–179.
[97] Jardine, N.; Sibson, R. (1971) Mathematical Taxonomy. John Wiley & Sons, New
York.
[99] Kamp, Y.; Haster, M. (1990) Recursive Neural Networks for Associative Memory.
John Wiley & Sons, Chichester.
[100] Kaufman, L.; Rousseeuw, P.J. (1990) Finding Groups in Data. John Wiley & Sons,
New York.
[101] Kirkpatrick, S.; Gellat, C.D.; Vecchi, M.P. (1983) “Optimization by simulated an-
nealing”, Science 220: 671–680.
[102] Klecka, W.R. (1980) Discriminant Analysis. Sage University Paper, Series: Quanti-
tative Applications in the Social Sciences, No. 19, London.
[103] Knuth, D.E. (1981) Seminumerical Algorithms, segunda edición, volumen 2 del libro
The Art of Computer Programming. Addison-Wesley, Reading, Mass.
212 Guı́a breve de técnicas multivariadas de análisis de datos
[107] Kruskal, J.B.; Wish, M. (1978) Multidimensional Scaling. Sage Publications, Beverly
Hills CA.
[108] Laarhoven, P.J.M. van; Aarts, E.M. (1988) Simulated Annealing: Theory and Ap-
plication. Kluwer, Dordrecht.
[109] Lance, G.N.; Williams, W.T. (1967) “A general theory of classification sorting stra-
tegies. I. Hierarchical systems”, Computer Journal 9(4); “II. Clustering systems”,
Computer Journal 10(3).
[110] Lavit, Ch. (1988) Analyse Conjointe de Tableaux Quantitatifs. Masson, Paris.
[112] Lebart, L.; Morineau, A.; Fenelon, J.P. (1979) Informatique et Statistique Appli-
quées. Dunod, Paris.
[113] Lebart, L.; Morineau, A.; Tabard, N. (1982) Techniques de la Description Statisti-
que. Dunod, Paris.
[114] Lebart, L.; Morineau, A.; Warwick, K.M. (1984) Multivariate Descriptive Statistical
Analysis. John Wiley & Sons, Nueva York.
[115] Lebart, L.; Morineau, A.; Fénelon, J.-P. (1985) Tratamiento Estadı́stico de Datos.
Métodos y Programas. Marcombo, Barcelona.
[116] Lebart, L. (1992) “Les enquêtes et la statistique”, en D. Grangé & L. Lebart (Eds.)
Traitements Statistiques des Enquêtes, Dunod, Paris: 1–19.
[117] Lebart, L.; Morineau, A.; Piron, M. (1995) Statistique Exploratoire Multidimension-
nelle. Dunod, Paris.
[118] Le Cun, Y. (1985) Une Procédure d’Apprentissage pour Réseau à Seuil Assymétri-
que. Proceedings of Cognitiva 85, Parı́s, pp. 599-604.
[119] Lechevallier, Y. (1995) “Construcción eficaz de una red neuronal a partir de un árbol
de decisión”, en Memorias VII y VIII Simposio Métodos Matemáticos Aplicados a
las Ciencias, W. Castillo y J. Trejos (eds.), Editorial de la Universidad de Costa
Rica, San Pedro, pp.: 53–74.
213
[120] Lerman, I.C.; Hardouin, M.; Chantrel, T. (1980) “Analyse de la situation relative
entre deux classifications floues”, in Data Analysis and Informatics I, E. Diday et
al. (eds.), North–Holland Publ. Co., 523–552.
[121] Lerman, I.C. (1981) Classification et Analyse Ordinale des Données. Dunod, Parı́s.
[122] Lerman, I.C.; Ghazzali, N. (1990) Quoi retenir d’un arbre de classification? Un essai
de quantification d’image numérisée. Publication interne No. 568, IRISA, Rennes.
[124] Libert, G.; Roubens, M. (1983) “New experimental results in cluster validity of
fuzzy clustering algorithms”, in New Trends in Data Analysis and Applications,
J. Janssen, J.-F. Marcotorchino, J.-M. Proth (eds.), Elsevier Science Publ. B. V.
(North–Holland), Amsterdam, 205–217.
[125] Lippman, R.P. (1987) “An introduction to computing with neural nets”, IEEE-
ASSP Magazine, April 1987, pp. 4–22.
[126] McClelland, J.L.; Rumelhart, D.E. (1989) Explorations in Parallel Distribute Proces-
sing. A Handbook of Models, Programs and Exercises. The MIT Press, Cambridge,
Massachussets.
[127] McCord Nelson, M.; Illingworth, W.T. (1990) A Practical Guide to Neural Nets.
Addison–Wesley, Reading, Massachussets.
[128] McQueen, J.B. (1967) “Some methods for classification and analysis of multivariate
observations”, Proc. 5th Berkeley Symposium on Math. Statistics and Probability,
Vol. 1.
[129] Michalsky, R.S.; Diday, E. (1981) “A recent advance in data analysis: clustering
objects into classes characterized by conjunctive concepts”, Progress in Pettern Re-
cognition, L.N. Kanal & A. Rosenfeld (eds.), North–Holland Publ. Co., 33–56.
[130] Michalsky, R.S.; Carbonell, J.G.; Mitchell, T.M. (1983) Machine Learning: an Ar-
tificial Intelligence Approach. Tioga, Palo Alto, California.
[132] Minsky, M.; Papert, G. (1969) Perceptrons. The MIT Press, Cambridge, Massachus-
sets.
[135] Murtagh, F. (1984) “An empirical study of coefficients for measuring the structure
of hierarchic classifications”, in Data Analysis and Informatics III, E. Diday et al.
(eds.), North–Holland Publ. Co., 385–393.
[137] Murtagh, F. (1990) “Neural networks for forecasting and related problems: an an-
notated bibliography”.
[138] Nakache, J.P.; Chevalier, A.; Morice, V. (1981) Exercises commentés de Mathéma-
tiques pour l’Analyse Statistique des Données. Dunod, Paris.
[140] Pagès, J.P. (1989) “El Cielo y la Tierra: un enfoque constructivista del fenómeno
de la opinión en Francia”, Revista de Ciencia y Tecnologı́a 13(1–2): 11–45.
[141] Pao, Y.H. (1989) Adaptive Pattern Recognition and Neural Nets. Addison-Wesley,
Reading, Mass.
[142] Peltier, M.-A.; Dubuisson, B. (1993) “A human state detection system based on a
fuzzy approach”, ToolDiag’93 International Conference on Fault Diagnosis, Toulou-
se, 5–7 abril 1993, 645–652.
[143] Perez, J.C. (1989) De Nouvelles Voies vers l’Intelligence Artificielle. Pluri-
Disciplinarité, Auto-Organisation, Résaux Neuronaux. Masson, Paris.
[147] Poltronieri, J.; Piza, E. (1989) Estructuras de la Opinión Pública en Costa Rica.
Editorial de la Universidad de Costa Rica, San José.
[148] Press, W.H.; Flannery, B.P.; Teulolsky, S.A.; Vetterling, W.T. (1990) Numerical
Recipes (Fortran Version). The Art of Scientific Computing. Cambridge University
Press, New York.
215
[149] Reeves, C.; Steele, N (1993) “Neural networks for multivariate analysis: results of
some cross–validation studies”, en Applied Stochastic Models and Data Analysis, J.
Janssen and C.H. Skiadas (eds.), World Scientific, Singapur, 780–791.
[150] Régnier, S. (1965) “Sur quelques aspects mathématiques des problèmes de classifi-
cation automatique”, ICC Bulletin 4 & Math. Sci. Hum 82 (1983).
[151] Ripley, B. D. (1993) Statistical aspects of neural networks. Chapman & Hall, Lon-
dres.
[154] Rodrı́guez, O. (1997) “PIMAD 2.1: los algoritmos”, en: W Castillo & J. Trejos
(Eds.) X Simposio Internacional de Métodos Matemáticos Aplicados a las Ciencias,
U.C.R. û I.T.C.R., Liberia.
[155] Rodrı́guez, O. (1997) C++ para Ambiente Windows. Editorial Tecnológica de Costa
Rica, Cartago.
[156] Rodrı́guez, O.; Castillo, W. (1999) “Análisis discriminante descriptivo: teorı́a, algo-
ritmo y software”, Revista de Matemática: Teorı́a y Aplicaciones 6(1): 35–50.
[157] Rosenblatt, F. (1958) The Perceptron: a probabilistic model for information storage
and organization in the brain. En: Psychological Review, 65, pp. 386-408.
[159] Roux, M. (1985) “Représentation d’une distance par un arbre aux arêtes aditives”,
Journées d’Analyse des Données et Informatique, INRIA, Versailles.
[160] Roux, M. (1987) “Techniques of approximation for building two tree structures”, En:
Recent Developments in Clustering and Data Analysis, Proceedings of the French–
Japanese Scientific Seminar, Tokyo.
[161] Roux, M. (1993) “Classification des données d’enquêtes”, en D. Grangé & L. Lebart
(Eds.) Traitements Statistiques des Enquêtes, Dunod, Paris: 91–112.
[162] Rumelhart, D. E.; McClelland, J. L., editores (1986) Parallel distributed processing.
Vol. 1: Foundations. Vol. 2: Exploration in the microstructure of cognition. The MIT
Press, Cambridge, Massachussets.
[179] Trejos, J.; Moya, E. (1998) Introducción a la Estadı́stica Descriptiva. Editorial Sello
Latino, San José.
[181] Wasserman, P. D. (1989) Neural Computing. Theory and Practice. Van Nostrand
Reinhold, New York.
[182] White, H. (1989) “Some asymptotic results for learning in single hidden–layer feed-
forward network models”, Journ. American Statistical Society, 84 (408): 1003–1013.