Pid 00212753-5 PDF

Introducción al
análisis
multivariante
Ramon Alemany Leira
Joan Baró Llinàs
Francesc Camp Torres
PID_00212764
© FUOC • PID_00212764 Introducción al análisis multivariante
Ninguna parte de esta publicación, incluido el diseño general y la cubierta, puede ser copiada,
reproducida, almacenada o transmitida de ninguna forma, ni por ningún medio, sea éste eléctrico,
químico, mecánico, óptico, grabación, fotocopia, o cualquier otro, sin la previa autorización escrita
de los titulares del copyright.
© FUOC • PID_00212764 Introducción al análisis multivariante
Índice
Introducción............................................................................................... 5
1. Análisis de componentes principales............................................ 7

1.1. Matriz de datos y objetivos del análisis ...................................... 9
1.2. Procedimiento para la obtención de los componentes
principales ................................................................................... 11
1.3. Interpretación de los resultados .................................................. 14
1.4. Resumen ...................................................................................... 25
1.5. Ejercicios de autoevaluación ....................................................... 25
1.6. Solucionario ejercicios de autoevaluación .................................. 27
2. Análisis clúster.................................................................................... 31
2.1. Medidas de disimilitud ............................................................... 32
2.2. Algoritmo de clasificación .......................................................... 35
2.3. Presentación de los resultados .................................................... 37
2.4. Otras consideraciones ................................................................. 37
2.5. Otros métodos de análisis multivariante .................................... 44
2.6. Resumen ...................................................................................... 46
2.7. Ejercicios de autoevaluación ....................................................... 46
2.8. Solucionario ejercicios de autoevaluación .................................. 47
3. Análisis factorial................................................................................ 49
3.1. Cuándo tenemos que utilizar el análisis factorial ....................... 49
3.2. Metodología del análisis factorial ............................................... 51
3.3. Aplicaciones del análisis factorial ............................................... 61
4. Análisis discriminante...................................................................... 62
4.1. Cuándo tenemos que utilizar el análisis discriminante .............. 62
4.2. Metodología del análisis discriminante ...................................... 63
4.3. Aplicaciones del análisis discriminante ...................................... 72
Glosario........................................................................................................ 75
Bibliografía................................................................................................. 77
© FUOC • PID_00212764 5 Introducción al análisis multivariante
Introducción
Los fenómenos de naturaleza económica o social muestran gran complejidad La bolsa

debido al número de factores y de características que contienen. Cualquier
¿Os habéis planteado alguna
intento de análisis sobrepasa las posibilidades del investigador, aunque sea vez explicar el comportamien-
muy experimentado. to de la Bolsa? Una lista ilimita-
da de circunstancias y variables
describe el comportamiento.
Además, muchas de estas va-
Reunir las empresas de una actividad industrial para establecer alguna tipo- riables están interrelacionadas
y resulta difícil averiguar rela-
logía o bien para intentar explicar algún ratio de rentabilidad exige hacer el ciones causa-efecto.
recuento de una gran cantidad de características, algunas de las cuales se ob-
tienen a partir del balance de situación y otras a partir de los resultados de
explotación, de la estructura comercial, etc.; al final resulta una amalgama de
datos difícilmente interpretables por medio de un análisis simple.
No sólo la Bolsa o la estructura empresarial de un sector, sino cualquier acti-

vidad económica o de otro tipo está influida por muchos otros fenómenos
relacionados los unos con los otros; se necesitan técnicas más potentes que
las estudiadas en un curso de introducción a la estadística para poder analizar
conjuntos múltiples de datos.
De hecho, el análisis�de�la�varianza que acabamos de estudiar puede ser un

buen ejemplo de técnica multivariante porque está dedicada a cuantificar el
efecto de varios factores sobre los resultados observados; por tanto, lo tenemos
que considerar como una parte de la asignatura que está en relación con los
dos módulos.
El primer apartado está dedicado al análisis�de�componentes�principales co-

mo técnica derivada del llamado análisis factorial para la sintetización de re-
sultados múltiples, en que se retiene, de la información disponible, lo funda-
mental. Si sometemos a un grupo de estudiantes de bachillerato a una serie de
ochenta preguntas, dispondremos de mucha información para evaluar el ren-
dimiento escolar, pero esta información es difícilmente digerible; en cambio,
el análisis de componentes permite resumir gran parte de esta información,
por ejemplo en tres indicadores: capacidad de trabajo, capacidad de razona-
miento y capacidad memorística; de esta forma, el tratamiento estadístico será
mucho más ágil.
En el segundo apartado de este módulo estudiaremos el análisis�clúster o téc-

nica de formación de grupos de datos homogéneos, que permitirá elaborar
clasificaciones y tipologías de mucha utilidad en el marketing y otras aplica-
ciones de la investigación comercial: perfiles de compradores, segmentación
de mercados, competitividad entre marcas y un largo etcétera.
Para finalizar, mencionamos otros métodos de análisis multivariante que en

muchos casos tienen una base teórica común y un dominio aplicado también
común, y nos centraremos en el análisis factorial y el análisis discriminante.
1. Análisis de componentes principales
AUTORES:
Ramon�Alemany�Leira
Joan�Baró�Llinàs
COLABORACIÓN:
Elena�Rico�Gómez
Cuando obsevamos pocas variables en un colectivo de elementos, es relativa-

mente cómodo ordenar los datos y hacer grupos de comportamiento homo-
géneo. La cuestión se complica cuando el número de variables observadas es
tan grande que no permite una lectura fácil a partir de las simples representa-
ciones gráficas o de las medidas clásicas de descripción. Es entonces cuando
hay que utilizar métodos de síntesis de la gran cantidad de información dis-
ponible, reducir el número de variables y poner la información más al alcance
del analista.
Si sobre todo el censo o sobre una muestra de empresas viticultoras del Alto
Penedés calculásemos la cifra de negocio de cada una, podríamos representar
los resultados en un diagrama de puntos:
Si hubiésemos observado dos variables: cifra de negocio y beneficios, también

sería fácil su representación gráfica como una nube de puntos en un plano:
Incluso con tres variables (cifra de negocio, beneficios y gastos en publicidad)

podríamos intentar realizar una clasificación de las empresas que las agrupase
de acuerdo con estos tres criterios, sin embargo, no olvidemos que, a medida
que aumentase el número de indicadores, también aumentaría la dificultad de
describir el comportamiento de las empresas.
Es lógico pensar que este tipo de estudios es multidimensional y un análisis Análisis de componentes
exhaustivo exigiría la observación de muchas variables: costes, plantilla, in- principales
versiones, márgenes comerciales, gastos de promoción, existencias, etc. La lista El análisis de componentes
de indicadores puede ser tan larga como se quiera; cuantas más variables haya, principales presenta numero-
sas aplicaciones en el marke-
más información y, a la vez, más complicación tendrá el analista. Ahora, las ting, como pueden ser la seg-
mentación de mercados, las
técnicas clásicas de descripción ya aprendidas son insuficientes; hay que recu- tipologías de productos y de
empresas y las preferencias de
rrir a métodos que disminuyan la dimensionalidad del estudio, que lo hagan los consumidores. La meto-
más fácil y que también retengan la mayor parte de la información contenida dología del ACP es uno de los
instrumentos más valiosos en
en las variables observadas inicialmente. Uno de estos métodos es el análisis los estudios de mercado.
de�componentes�principales�(ACP).
Si después de estudiar una veintena de variables sobre las empresas viticulto-

ras del Alto Penedés fuésemos capaces de reducirlas, por ejemplo, sólo a tres
indicadores de síntesis de todas las variables observadas: dimensión de la em-
presa, productividad y análisis financiero, habríamos conseguido hacer com-
prensibles los resultados.
Las cuestiones que surgen ahora son:
1) Al pasar de las ocho variables iniciales a tres indicadores nuevos, se pierde

una parte de la información que tenemos (lógicamente, se perderá más infor-
mación cuantos menos ejes queramos utilizar).
2) La etiqueta o concepto que asociamos a los indicadores nuevos no viene

dada a priori, sino que se les atribuye un significado después de observar la re-
lación funcional entre componentes nuevos (indicadores) y las variables ini-
ciales, lo cual no siempre es fácil.
3) Una ventaja que se deriva de esta reducción de ejes es que ahora los nuevos
componentes son independientes entre sí y este hecho es importante porque
anula la posibilidad de que se sobrepongan conceptos.
Actividad
1.1. Imaginaos que queréis describir a los estudiantes matriculados en la UOC en la di-
plomatura de Empresariales. ¿Qué variables podríais utilizar? Al final saldría una lista
larguísima: edad, altura, número de calzado, ..., asignaturas elegidas, horas de estudio,
conexiones realizadas, .., nivel de renta, gastos de ocio, ..., inteligencia, agresividad, ...
Suponiendo que nos limitemos únicamente a cuestiones académicas, indicad una docena
de variables que sean objetivamente evaluables, pasad la encuesta a un grupo de compa-
ñeros y haced una lista de los resultados. Comprobad cómo una información tan amplia
sobrepasa el ojo clínico de cualquier analista, aunque sea experimentado.
¿Se da duplicidad en la información por una cierta redundancia en las preguntas? Las
correlaciones entre las variables observadas os pueden dar la respuesta. Ahora es necesario
que argumentéis la necesidad de hacer más fácil el estudio disminuyendo el número de

variables que hay que utilizar y evitando duplicidades en las cuestiones.
En este apartado del análisis de componentes principales aprenderéis:
• Cuál es el objetivo del análisis de los componentes principales: la

reducción de la dimensionalidad de los datos.
• Cuál es el procedimiento para la obtención de los componentes

principales.
• Cómo se interpretan los resultados obtenidos en el análisis.
1.1. Matriz de datos y objetivos del análisis
Se tiene una muestra (o población) de I elementos en los cuales se han medido

J variables con el objetivo de explicar un comportamiento determinado o de
agruparlos en categorías y se ha llegado a la matriz de información (Xij), con
las variables dispuestas por columnas y los elementos por filas:
X1 X2 ... Xj ... XJ
I1 X11 X12 ... X1j ... X1J
I2 X21 X22 ... X2j ... X2J
... ... ... ... ... ... ...
Ii Xi 1 Xi 2 ... Xi j ... Xi J
... ... ... ... ... ... ...
II XI 1 XI 2 ... XI j ... XI J
El análisis de componentes principales pretende reducir la dimensiona-

lidad de la matriz de datos hasta conseguir un número inferior de va-
riables nuevas (Zj) o componentes principales con las características si-
guientes:
• Los componentes principales son combinaciones lineales de las va-

riables originales.
• Los componentes principales no están en correlación entre sí.
• El número de componentes principales debe ser, a la vez, pequeño

(para que el análisis sea eficaz) y suficiente (para absorber la mayor
parte de la información de las variables iniciales).
Se trata, pues, de una técnica de condensación de datos en la que:
Nos planteamos encontrar estos componentes en una cantidad suficiente para

hacer viable el estudio, cómoda la lectura y alta la capacidad explicativa.
Después de haber realizado la actividad anterior, imaginaos qué fácil sería si

hubiese resultado que la mayor parte de la información contenida en aquellas
doce variables iniciales la pudiésemos sintetizar en dos componentes:
Z1 = tiempo dedicado a la UOC,
Z2 = capacidad del estudiante,
y que, además, éstas fuesen cuestiones independientes. Tendríamos resuelto el

problema; los estudiantes se encontrarían localizados en un sistema bivariante
de coordenadas y podrían ser clasificados con facilidad.
Sin entrar en la formalización del procedimiento, veamos cuáles serían los

pasos que se deben seguir para determinar los componentes principales y para
facilitar su lectura.
1.2. Procedimiento para la obtención de los componentes

principales
Los pasos que se deben seguir son:
1) Obtención de la matriz�de�coeficientes�de�correlación entre todas las va- Nota

riables:
De hecho, podríamos haber
trabajado con la matriz de va-
rianzas y de covarianzas; no
obstante, al fin y al cabo, una
correlación no es más que una
covarianza con variables estan-
darizadas.
2) Se calculan los valores�propios a partir de los resultados de λ en la ecuación: En los valores propios
Notad que la suma de todas

las soluciones coincide con el
número de variables observa-
das:
λ1 + λ2 + ... + λ J = J
Los valores propios están vinculados a los componentes principales que bus-
camos. El valor propio mayor λ1 se asocia al primer componente Z1, el siguien-
te λ2 a Z2, etc.
3) La dispersión total de las J variables observadas constituye la información de

que disponemos inicialmente. Puesto que trabajamos con variables tipificadas,
la suma de las varianzas será J, cifra que hemos repartido entre los nuevos
factores principales.
Así pues, el primer componente absorbe una proporción de λ1/ J de la infor-

mación inicial, los dos primeros componentes absorben una proporción de (λ1
+ λ2)/ J del total y, si tomásemos l componentes, esta proporción retenida sería:
Esta expresión se tiene que entender como la capacidad explicativa de los com-
ponentes Z1, Z2, ..., Zl, que permite determinar el número�de�componentes
principales que necesitamos para conseguir una determinada bondad en el
estudio.
Lógicamente, las J variables admiten hasta J componentes, y retienen el 100%

de la información, pero no habríamos ganado nada si hubiésemos pasado a un
nuevo sistema J-dimensional. Se trata de quedarnos con pocos componentes
y, a la vez, retener la máxima información posible.
4) Para calcular las funciones que determinan cada uno de los componentes:
hay que obtener los vectores�característicos que contienen los coeficientes

de las ecuaciones:
de manera que estén normalizados y que sean independientes de los
otros vectores :
y así sucesivamente hasta encontrar los vectores característicos de todos los

componentes principales que hayamos fijado.
Ahora, los nuevos factores resultantes son independientes:
5) Podemos proyectar�las�observaciones en un nuevo sistema de ejes sustitu-

yendo simplemente los datos iniciales –estandarizados convenientemente– en
las ecuaciones respectivas; se comprobará con facilidad que los nuevos datos
presentan un valor medio igual a cero:
Actividad
1.2. Suponemos tres ratios financieras calculadas sobre cinco cajas de ahorros:
Caja Ratio 1 (X1) Ratio 2 (X2) Ratio 3 (X3)
A 23 22 45
B 45 38 74
C 34 24 47
D 19 7 15
E 52 44 83
Calculad las correlaciones que se dan entre las tres variables y obtened los valores propios
λ1, λ2 y λ3.
Comprobad cómo el primer factor es capaz de absorber prácticamente el 98% de la in-

formación total, lo cual justifica que calculemos sólo un componente principal Z1.
Obtened el vector característico asociado a Z1; veréis que resulta la ecuación:
Z1 = 0,571X1 – 0,581X2 – 0,579X3
Proyectad las cinco cajas de ahorros sobre el nuevo eje y veréis la ordenación conseguida
(recordad que es necesario sustituir X1, X2 y X3 por los valores estandarizados).
Si hubieseis calculado los tres componentes Z2 y Z3, veríais que salen las ecuaciones si-
guientes:
Z3 = – 0,817X1 + 0,332X2 + 0,472X3
Z1 = 0,082X1 – 0,734X2 – 0,664X3
Podríais proyectar las cinco cajas en cada uno de los nuevos factores; comprobad que
ahora los resultados tienen una media de cero y que no están en correlación.
También podríamos demostrar el cumplimiento de las condiciones exigidas a los vecto-

res:
1.3. Interpretación de los resultados
Si trabajamos con menos ejes, será más fácil agrupar los resultados y clasificar-
los en categorías. Sin embargo, esto será eficaz en la medida en que sepamos
qué quieren decir estos nuevos componentes principales y, por tanto, las tipo-
logías de los diferentes grupos que salen. Resulta poco útil formar categorías
de elementos sin saber a qué criterio responden.
La interpretación de los componentes es fácil de conseguir en teoría, pero nor-

malmente es bastante difícil en la práctica. Se puede hacer una primera apro-
ximación a partir de las proyecciones conseguidas de los elementos; según si
somos más o menos conocedores de la realidad que analizamos, puede ser bas-
tante esclarecedora la posición que ocupan los elementos en cada nuevo eje.
Suponed que, estudiando las estadísticas de los municipios españoles y apli-

cando un análisis de componentes principales, Z1 tiene valores altos para: San-
tander, Barcelona, Alicante, Cádiz... y muy bajos para León, Madrid, Jaén, Al-
bacete... Empezaréis a pensar que seguramente Z1 se identifica con algún con-
cepto que mide la distancia del municipio al mar.
De forma análoga, las proyecciones sobre Z2, Z3, ... pueden ayudar a interpretar
el concepto que traducen.
De todos modos, será más definitivo el estudio de las correlaciones entre las Recordad
variables X1, X2, ..., XJ y los componentes encontrados Z1, Z2, ..., ZJ.
Cada componente es una
combinación lineal de todas
las variables, pero siempre hay
Definimos la correlación entre Xj y Zl a partir de la relación: algunas de mayor peso que-
pueden ser relevantes para eti-
quetar el componente.
Así, para las J variables y para los componentes seleccionados, tendríamos:

El signo y la magnitud de las correlaciones son fundamentales para dar

significado a los componentes; las correlaciones extremas son aquellas
que marcan la etiqueta de cada nuevo factor.
Z1 debe tener un significado estrechamente vinculado a las variables

con las que esté más relacionada: directamente cuando la correlación
sea positiva e inversamente cuando sea negativa; lógicamente, Z1 es un
factor que no tiene nada que ver con las variables que presenten corre-
lación muy baja.
Actividad
1.3. Suponemos que sobre veinticinco modelos de automóviles hemos observado quin-
ce características: velocidad máxima, capacidad del maletero, consumo de gasolina por
ciudad, etc. Esto nos ha permitido hacer un ACP a partir del cual hemos seleccionado
dos componentes Z1 y Z2 que retienen el 82,3% de la información inicial.
No disponemos de la proyección de los diferentes modelos en los nuevos ejes, pero sí

de las correlaciones entre las quince características observadas y los componentes, de las
cuales hemos seleccionado las más relevantes.
Z1 está muy correlacionada con: la cilindrada, la aceleración, el consumo de carburante

a 90 km/h y el consumo de carburante a 20 km/h.
Z2 está muy correlacionada con: la longitud del coche, la distancia entre los ejes de las
ruedas y la medida de las ruedas.
¿Qué interpretación tendríais que hacer de Z1 y Z2 que permitiese obtener una descrip-
ción fácil de los veinticinco coches observados?
Llegaréis con facilidad a la conclusión de que Z1 es un identificador de la potencia y de

las prestaciones mecánicas, y que Z2 se asocia con las dimensiones del coche.
Ejemplo
Realizamos ahora un ejemplo simulado, paso a paso, de fácil solución sin te-
ner que utilizar el soporte informático. Tenemos veintiséis municipios para
los cuales hemos calculado la distribución porcentual del voto en las últimas
elecciones al Parlamento de Cataluña:
Municipio CiU PSC PP ERC ICV Otros
1 32 37 11 6 9 5
2 42 20 8 13 12 5
Municipio CiU PSC PP ERC ICV Otros
3 27 41 12 3 7 10
4 48 32 6 8 6 1
5 33 25 20 4 12 6
... ... ... ... ... ... ...
26 53 21 4 12 9 1
Queremos hacer un ACP que ofrezca una lectura más cómoda de los resultados
de la votación.
La matriz de coeficientes de correlación entre las variables ha dado los resul-

tados siguientes:
CiU PSC PP ERC ICV Otros
CiU 1,000
PSC –0,654 1,000
PP –0,755 0,185 1,000
ERC 0,808 –0,760 –0,731 1,000
ICV –0,097 –0,671 0,452 0,264 1,000
Otros –0,918 0,521 0,628 –0,653 0,127 1
Ahora ya podemos obtener los valores propios de cada componente:
La solución de este determinante nos lleva a una ecuación de sexto grado del
tipo:
que admite seis raíces:

Si sólo retenemos un componente principal, podríamos absorber el 3,69/6 =

61,5% de toda la información; y si tomamos dos, el (3,69 + 1,776)/6 = 91,1%.
Resulta lógico que cuantos más componentes haya, se tendrá más bondad en
el análisis, pero, en cambio, la interpretación será más difícil.
Para calcular el primer componente:
Z1 = u11CiU + u12PSC + u13PP + u14ERC + u15ICV + u16Otros
tenemos que obtener el vector característico:
Si resolvemos el sistema, obtenemos:
Operaríamos de manera análoga para conseguir el segundo componente:
Z2 = u21CiU + u22PSC + u23PP + u24ERC + u25ICV + u26Otros
y obtendríamos:
Los dos componentes encontrados son:
Z1 = 0,704 CiU – 0,283 PSC + ... – 0,155 Otros (61,5% de bondad)
Z2 = 0,602 CiU – 0,791 PSC + ... – 0,136 Otros (29,6% de bondad)
sobre los cuales se proyectan las estandarizaciones de los resultados de los seis
municipios.
Así, en los nuevos ejes, las proyecciones del primer municipio son:
y para todos los municipios observados tendríamos:
Municipio Z1 Z2
1 0,11 –0,23
2 1,25 0,17
3 –1,31 –1,35
4 1,46 0,95
5 –0,85 1,21
... ... ...
26 2,17 –0,46
Podríamos comprobar que:
Caben interpretaciones de los componentes según la correlación que presen-

tan con las variables observadas; entre otros cálculos, obtendríamos:
y, para todos los casos, lo que se muestra en el siguiente cuadro de correlacio-

nes:
Z1 Z2
CiU 0,552 0,383
PSC –0,223 –0,430
PP –0,806 0,512
ERC 0,792 –0,427
ICV 0,211 –0,816
Otros –0,123 –0,074
Se podría hacer la siguiente interpretación del mismo:
Z1 = voto nacionalista,
Z2 = voto conservador,
que vuelve a situar los veintiséis municipios de acuerdo con estos dos criterios
y que permite un análisis más cómodo que el que se conseguiría con la infor-
mación inicial:
Actividades
1.4. Hemos realizado un estudio acerca de diferentes aspectos relativos a diez grandes
superficies de venta y hemos valorado de 0 a 10 las cuestiones siguientes:
• Facilidad de acceso al complejo comercial (A).

• Comodidad de aparcamiento (B).

• Bondad de los precios (C).
• Calidad de los productos (D).
• Servicio de guardería (E).
• Ofertas y promociones de artículos (F).
• Variedad de productos (G).
• Área de descanso y de ocio (H).
Hemos llegado a los siguientes resultados valorativos:
Cuadro de puntuaciones:
A B C D E F G H
1 6 9 8 7 6 7 9 6
2 7 9 5 3 7 5 4 7
3 6 8 5 3 7 4 4 6
4 5 5 7 2 4 4 3 4
5 6 7 9 9 7 8 9 5
6 8 9 9 7 7 7 8 8
7 2 1 5 6 2 4 5 3
8 7 8 3 2 6 2 3 6
9 4 3 8 6 2 9 7 4
10 5 6 7 7 4 8 8 6
Si calculáis la correlación entre todas estas características, comprobaréis que hay variables
muy correlacionadas etre sí y que, por tanto, hay mucha información redundante.
Correlaciones entre variables:
A B C D E F G H
A 1,000
B 0,941 1,000
C 0,077 0,040 1,000
D –0,136 –0,097 0,751 1,000
E 0,882 0,926 0,022 –0,052 1,000
F –0,051 –0,053 0,846 0,805 –0,132 1,000
G 0,053 0,115 0,812 0,949 0,067 0,868 1,000
H 0,903 0,894 0,073 0,000 0,792 0,064 0,18 1,000
Para simplificar los resultados de este estudio, tenéis que efectuar un análisis de los com-
ponentes principales. Veréis que podéis llegar a obtener hasta ocho valores propios (λj).
Valor�propio 3,7031 3,5150 0,3285 0,2535 0,0958 0,0608 0,0422 0,0013
Proporción 0,463 0,439 0,041 0,032 0,012 0,008 0,005 0,000

Acumulativa 0,463 0,902 0,943 0,975 0,987 0,995 1,000 1,000
Ahora tendríais que justificar que os decidís sólo por dos factores principales (Z1 y Z2) y
después tendríais que encontrar sus vectores característicos:
Variable CP1 CP2
Acceso –0,489 –0,132
Aparcamiento –0,496 –0,124
Precios –0,136 0,463
Calidad –0,072 0,496
Guardería –0,471 –0,134
Promoción –0,088 0,494
Variedad –0,169 0,490
Descanso –0,483 –0,073
Esto os tiene que permitir proyectar las diez grandes superficies del estudio en un sistema
de dos dimensiones y discutir las posiciones que ocupan según los nuevos indicadores Z1
y Z2. Os pueden ayudar las correlaciones, que calcularéis entre las ocho variables iniciales
y los componentes nuevos.
A B C D E F G H
Z1 –0,942 –0,955 –0,262 –0,138 –0,906 –0,169 –0,325 –0,929
Z2 –0,247 –0,233 0,868 0,930 –0,252 0,926 0,918 –0,136
A continuación únicamente falta identificar los conceptos que engloban tanto Z1 como
Z2.
Veréis que Z1 se asocia a aspectos complementarios y de servicios, mientras que Z2 es un

indicador de mercado.
1.5. El cuadro que se muestra a continuación recopila los resultados conseguidos por un
grupo de quince adolescentes en las pruebas atléticas siguientes:
P1: 100 metros lisos (en segundos).
P3: lanzamiento de peso (en metros).
P4: lanzamiento de disco (en metros).
P5: salto de longitud (en metros).
P6: 3.000 metros lisos (en minutos).
P7: salto de altura (en metros).
P8: 5.000 metros lisos (en minutos).
P9: triple salto (en metros).
P10: jabalina (en metros).

P1 P2 P3 P4 P5 P6
1 13,4 28,8 7,32 37,40 3,93 14,518
2 13,9 29,7 7,09 34,15 4,11 14,658
3 14,8 31,4 8,71 43,55 4,45 16,870
4 12,9 27,9 5,78 30,05 3,70 19,502
5 13,3 28,5 5,99 29,95 3,87 16,770
6 15,1 32,5 6,14 32,10 5,02 15,778
7 13,8 29,4 6,67 33,35 4,05 15,302
8 12,9 27,7 8,73 44,10 3,91 18,347
9 15,0 31,9 6,45 32,25 4,87 19,418
10 14,4 30,3 9,11 45,60 4,23 14,826
11 14,1 30,1 6,34 31,70 4,71 18,606
12 12,8 28,0 6,80 34,25 3,77 15,812
13 15,0 31,9 9,14 45,70 4,55 17,962
14 13,6 29,1 9,08 45,95 3,99 18,298
15 13,1 28,3 7,32 36,60 3,86 14,733
P7 P8 P9 P10 P11
1 1,43 21,2484 9,04 67,32 7,80
2 1,61 21,5004 9,32 61,47 8,05
3 1,60 25,4820 10,00 78,39 8,35
4 1,35 30,2196 8,50 55,18 7,55
5 1,37 25,3020 9,07 56,12 7,75
6 1,70 23,5164 10,35 56,89 8,65
7 1,55 22,6596 9,20 60,03 8,00
8 1,41 28,1406 8,92 77,23 7,55
9 1,78 30,0684 10,38 58,05 8,60
10 1,73 21,8028 9,71 79,15 8,25
11 1,76 28,6068 10,52 57,06 8,15
12 1,27 23,5776 8,70 61,65 7,50
13 1,69 27,4476 10,20 80,69 8,55
14 1,49 28,0524 9,17 82,71 7,90
15 1,36 21,6354 8,76 65,88 7,65

Para elaborar una clasificación más cómoda de los participantes, hemos decidido efec-
tuar un análisis de los componentes principales. Veréis que salen los valores propios si-
guientes:
Valor propio Proporción Acumulativa
0,7580 0,523 0,523
2,9796 0,271 0,794
1,9462 0,177 0,971
0,1850 0,017 0,988
0,0976 0,009 0,997
0,0242 0,002 0,999
0,0042 0,000 1,000
0,0024 0,000 1,000
0,0015 0,000 1,000
0,0012 0,000 1,000
0,0000 0,000 1,000
Teniendo en cuenta estos resultados, tenéis que justificar que os quedáis sólo con tres
factores principales, a los cuales corresponderán los coeficientes que vemos aquí (vectores
característicos):
Variable CP1 CP2 CP3
100 m (P1) –0,407 0,000 0,094
200 m (P2) –0,403 0,034 0,098
Lanz. de peso (P3) –0,085 –0,564 –0,057
Lanz. de disco (P4) –0,083 –0,563 –0,076
Salto de lon- –0,395 0,135 0,014

gitud (P5)
3.000 m (P6) –0,087 0,098 –0,690
Salto de altura (P7) –0,390 0,028 0,043
5.000 m (P8) –0,087 0,098 –0,690
Triple salto (P9) –0,402 0,072 –0,005
Jabalina (P10) –0,071 0,565 –0,091
50 m (P11) –0,408 0,028 0,095
Si partimos de las ecuaciones que caracterizan a los componentes, encontraremos la pro-

yección de cada atleta en los nuevos ejes (después de haber tipificado los resultados en
cada prueba):
Atleta Z1 Z2 Z3
1 1,65511 –0,47131 1,51021

Atleta Z1 Z2 Z3
2 0,25803 0,42526 1,72854
3 –2,19657 –1,63623 –0,02101
4 2,92188 1,93690 –2,22897
5 2,06382 1,64760 –0,01841
6 –3,32226 1,93981 1,48237
7 0,68917 0,78782 1,21968
8 1,95017 –1,92668 –1,84459
9 –3,51133 2,06703 –1,37375
10 –1,40265 –2,38132 1,38170
11 –1,93254 2,02394 –1,06570
12 3,17963 0,35715 0,40038
13 –3,22884 –1,94573 –0,79644
14 0,39772 –2,44456 –1,62322
15 2,47865 –0,37968 1,24922
La interpretación de los resultados exige calcular previamente la correlación entre las

variables originales y los nuevos componentes principales; se hará una mención especial
de las correlaciones más altas.
Z1 Z2 Z3
P1 –0,978 0,000 0,131
P2 –0,968 0,059 0,137
P3 –0,205 –0,973 –0,079
P4 –0,200 –0,973 –0,106
P5 –0,949 0,232 0,020
P6 –0,208 0,169 –0,963
P7 –0,937 0,048 0,059
P8 –0,208 0,169 –0,963
P9 –0,965 0,124 –0,007
P10 –0,170 –0,976 –0,127
P11 –0,979 0,049 0,133
Ahora podemos acabar el problema fácilmente, otorgando significado a los tres compo-
nentes principales que vuelven a situar a los participantes de las pruebas atléticas.
1.4. Resumen
1.5. Ejercicios de autoevaluación
Ejercicio�1
En un intento de clasificar las principales empresas aseguradoras que operan

en un país según su dimensión, se plantea la posibilidad de realizar un análisis
de componentes principales sobre cuatro variables de tamaño:
Empresa Empleados Oficinas Pólizas Primas
1 Capfre 1.858 519 2.356.856 226,9
2 Reunión 1.102 70 112.599 86,0
3 Kasser 611 58 78.028 75,1
4 Güintur 1.295 46 1.170.887 73,5
5 Xurich 1.641 94 759.179 73,4
6 Achages 854 32 763.599 64,0
7 Catalina 1.050 318 334.262 57,2
8 Ibérrica 768 60 347.717 55,4
9 Confiat 765 53 481.242 51,4
Se pide:
a) Calcular las correlaciones entre las variables para comprobar que presentan
una dependencia lineal.
b) Obtener los valores propios a partir de la resolución de | R – λ I4 | = 0 y el

porcentaje de información retenido por cada factor.
c) Calcular los coeficientes asociados al primer componente.
d) Definir la proyección de las empresas aseguradoras en este primer compo-

nente.
Ejercicio�2
A partir de una encuesta realizada en una muestra aleatoria de diez asistentes a

un concierto de rock, hemos reunido las valoraciones (de 0 a 10) de una serie
de cuestiones:
Ubicación (localización del concierto)
Tamaño (superficie de la instalación)
Accesos (facilidad de acceso)
Señalización (indicadores dentro del recinto)
Información (servicio de información)
Montaje (montaje técnico del concierto)
Vigilancia (servicios de orden)
Megafonía (megafonía dentro del recinto)
Iluminación (alumbrado de la instalación)
Temperatura (temperatura dentro del recinto)
Limpieza gr. (grado general de limpieza)
Área descanso (áreas de descanso)
Lavabos (estado general de los lavabos)
Aparcamiento (comodidad del aparcamiento)
Restauración (restaurantes y bares)
Las diferentes valoraciones se presentan en esta tabla:
Ubica- Tamaño Accesos Señaliz. Infor- Montaje Vigi- Mega-

ción mación lancia fonía
8 7 5 2 2 6 6 4
7 6 4 3 3 6 6 5
Ubica- Tamaño Accesos Señaliz. Infor- Montaje Vigi- Mega-

ción mación lancia fonía
7 7 4 2 2 6 5 4
9 8 6 5 5 9 8 6
6 5 3 2 2 7 5 4
6 5 3 5 6 9 7 7
6 6 3 1 1 5 4 4
6 5 2 4 3 8 7 6
9 8 5 5 5 9 8 7
8 7 5 2 1 6 5 4
Ilumin. Tempe- Limpieza Áreas Lavabos Aparcam. Restaur.

ratura descanso
5 5 1 2 3 3 3
6 4 2 2 3 2 2
5 2 1 4 4 1 4
8 6 3 4 4 4 4
6 3 2 3 4 1 3
8 6 4 4 5 2 3
4 2 0 2 3 1 2
7 8 3 4 5 2 4
9 2 3 5 5 4 5
5 4 1 2 3 3 2
Haced un análisis de los componentes principales e indicad:
a) Cuánto valen los valores propios asociados con los diferentes componentes
y cuál es la capacidad de información retenida.
b) Seleccionad los tres primeros componentes y obtened los vectores caracte-

rísticos.
c) Interpretad estos tres primeros componentes.
1.6. Solucionario ejercicios de autoevaluación
Ejercicio�1
Las respuestas son:
a) Las correlaciones lineales entre las variables observadas son:
Empleados Oficinas Pólizas
Oficinas 0,632
Pólizas 0,783 0,685
Primas 0,714 0,807 0,847
b) El cálculo de los valores propios y de la capacidad explicativa os tiene que

dar:
λj 3,2380 0,4044 0,2432 0,1144
%�explicado 0,8100 0,1010 0,0610 0,0290
%�acumulado 0,8100 0,9110 0,9710 1,0000
c) Los coeficientes asociados al primer componente son:
Variable CP1
Empleados –0,482
Oficinas –0,481
Pólizas –0,513
Primas –0,522
d) A partir de la ecuación:
Z1 = – 0,482 empleados – 0,481 oficinas – 0,513 pólizas – 0,522 primas
encontraréis las proyecciones de las compañías aseguradoras en el nuevo eje:
Empresa Z1
1 Capfre –4,50846
2 Reunion 0,62422
3 Kasser 1,34829
4 Güintur –0,17440
5 Xurich –0,40779
6 Achages 0,75525
7 Catalina 0,08449
Empresa Z1
8 Ibérrica 1,15666
9 Confiat 1,12174
Ejercicio�2
Las respuestas son:
a) Los valores propios, el porcentaje de información que retienen y el porcen-

taje acumulado deben dar:
Valor�propio 9,0928 3,6007 1,3327 0,5497 0,1642 0,1331
Proporción 0,606 0,240 0,089 0,037 0,011 0,009
Acumulativa 0,606 0,846 0,935 0,972 0,983 0,992
Valor�propio 0,0765 0,0330 0,0173 0,0000 0,0000 0,0000
Proporción 0,005 0,002 0,001 0,000 0,000 0,000
Acumulativa 0,997 0,999 1,000 1,000 1,000 1,000
b) Los vectores característicos de los tres primeros componentes son:
Ubicación –0,135 –0,479 0,017
Tamaño –0,079 –0,494 –0,167
Accesos –0,071 –0,499 0,096
Señalización –0,325 0,030 0,121
Información –0,306 0,055 0,078
Montaje –0,322 0,064 0,018
Vigilancia –0,319 –0,067 0,144
Megafonía –0,308 0,099 0,063
Iluminación –0,324 0,027 –0,003
Temperatura –0,140 0,179 0,589
Gr. limpieza –0,300 0,175 0,155
Área descans. –0,278 0,073 –0,434
Lavabos –0,268 0,241 –0,283
Aparcamiento –0,211 –0,355 0,252

Restaurantes –0,249 –0,053 –0,463
c) Teniendo en cuenta las correlaciones que presentan variables y componen-

tes, podemos asignar estos conceptos:
• 1.er componente: recopila aspectos funcionales e internos del recinto.
• 2.º componente: valora las cuestiones externas del recinto.
• 3.er componente: es el factor peor definido, y el que presenta una mayor

relación con la variable termperatura del recinto.
2. Análisis clúster
AUTORES:
Ramon�Alemany�Leira
Joan�Baró�Llinàs
COLABORACIÓN:
Elena�Rico�Gómez
Suponed que estamos estudiando el tipo de turrón de Alicante que se encuen-

tra en el mercado. Cada grupo que pudiésemos formar debería incluir turrones
de una calidad parecida. Sin embargo, ¿qué tenemos que hacer para encontrar
semejanzas entre las marcas de turrón? Los ingredientes utilizados en la elabo-
ración del producto: azúcar, miel, huevos, almendras, conservantes, etc., va-
rían de una marca a la otra. Tenemos que buscar las diferencias que presentan
estos ingredientes y, a partir de aquí, tiene que ser fácil encontrar productos
poco o muy parecidos que nos permitan hacer grupos de marcas homogéneas
y, por tanto, competidoras entre sí. Seguramente al final tendríamos grupos
del tipo: extra, light, etc.
Una de las posibilidades de los métodos multivariantes es agrupar elementos

buscando la máxima homogeneidad en cada grupo y, a la vez, conseguir la
máxima diferenciación entre los grupos. Como siempre, hemos observado va-
rias características en los elementos y resulta difícil establecer los grupos con
una ojeada; por tanto, hay que utilizar un procedimiento que permita evaluar
las diferencias y las coincidencias entre los datos analizados, para poder fijar
así colectivos o grupos de elementos lo más parecidos posible.
El� análisis� clúster incluye un conjunto de técnicas que persiguen el

mismo objetivo: la agrupación de elementos parecidos en diferentes
bloques o clústers.
Veamos una descripción sencilla del procedimiento. Tenemos que partir de

una matriz de información que contenga las observaciones de todas las varia-
bles sobre los diferentes elementos considerados:
Elementos X1 X2 ... XJ
1 X11 X12 ... X1 J
2 X21 X22 ... X2 J
... ... ... ... ...

Elementos X1 X2 ... XJ
I XI 1 XI 2 ... XI J
y ahora se tienen que calcular las diferencias que hay entre estos elementos.
En este apartado del análisis clúster aprenderéis:
• Qué medidas de disimilitud entre elementos se pueden definir.
• Qué algoritmos de clasificación se utilizan para agrupar elementos.
• Qué es un dendrograma y cómo se lee; también realizaremos una

breve reseña de otras técnicas multivariantes.
2.1. Medidas de disimilitud
Para obtener disimilitudes o distancias entre los elementos se pueden utilizar Otras distancias
diferentes criterios que, lógicamente, no proporcionan resultados iguales, pero
Existen otras distancias, como
que sí permiten obtener conclusiones parecidas. Mencionamos, a continua- pueden ser la de Mahalanobis,
ción, las medidas más utilizadas para calcular la disimilitud entre los elemen- la de Minkowski, la de Tcheby-
chef, etc. Tendríamos que es-
tos r y s. tudiar las propiedades y los in-
convenientes que presentan,
pero básicamente todas tienen
una misma ordenación de las
1)�Distancia�euclidiana distancias.
2)�Distancia�euclidiana�al�cuadrado
3)�Distancia�de�City-Block
Ejemplo
Suponed la observación de las variables que tenéis a continuación:

X1 = Tiendas de electrodomésticos por cada 10.000 habitantes.
X2 = Tiendas de ordenadores por cada 10.000 habitantes.
X3 = Tiendas de óptica y fotografía por cada 10.000 habitantes.
Para cuatro ciudades catalanas –Barcelona, Tarragona, Lérida y Gerona–, se ha

obtenido la siguiente matriz de datos:
X1 X2 X3
Barcelona 5,1 2,4 2,6
Gerona 8,0 5,5 3,6
Lérida 7,8 2,6 2,7
Tarragona 6,6 2,0 1,9
Si queremos calcular las disimilitudes que se dan entre estos municipios en

cuanto a infraestructura de tiendas de productos especializados, tendremos
que calcular las distancias que separan las diferentes ciudades.
1) Distancias euclidianas:
Barcelona Gerona Lérida Tarragona
Barcelona - - - -
Gerona 4,36 - - -
Lérida 2,71 3,04* - -
Tarragona 1,70 4,14 1,56 -
2) Distancias euclidianas al cuadrado:
Barcelona - - - -
Gerona 19,02* - - -
Lérida 7,34 9,26 - -
Tarragona 2,90 17,10 2,44 -

3) Distancias City-Block:
Barcelona - - - -
Gerona 7 - - -
Lérida 3 4 - -
Tarragona 2,6 6,6 2,6* -
Si efectuamos una ordenación de las distancias que separan las cuatro ciuda-
des, veremos que las ordenaciones son prácticamente coincidentes. En este
caso hay que interpretar que la distancia utilizada no afecta de manera sustan-
cial a las conclusiones que se puedan extraer.
D. euclidiana D. euclidiana al cuadrado D. City-Block
Lérida-Tarragona Lérida-Tarragona Lérida-Tarragona /

Barcelona-Tarragona
Barcelona-Tarragona Barcelona-Tarragona Barcelona-Lérida
Barcelona-Lérida Barcelona-Lérida Gerona-Lérida
Gerona-Lérida Gerona-Lérida Gerona-Tarragona
Gerona-Tarragona Gerona-Tarragona Barcelona-Gerona
Barcelona-Gerona Barcelona-Gerona
En todos los casos, Lérida-Tarragona y Barcelona-Tarragona proporcionan las

distancias más pequeñas; son las parejas de ciudades con una infraestructura
más parecida por lo que respecta a las tiendas de estos tipos de productos; y,
en cambio, Barcelona y Gerona son las ciudades más distantes en cuanto a
estos equipamientos.
Actividad
2.1. Podríais construir una matriz de información sobre diferentes aspectos que vosotros
mismos evaluéis a partir de los diarios: Avui, La Vanguardia, El Periódico, Diari Punt, ABC y
El Mundo, y podríais puntuar de 0 (totalmente en desacuerdo) a 9 (totalmente de acuerdo)
las afirmaciones siguientes:
X1 = Es sensacionalista.
X2 = Es de lectura fácil.
X3 = Es catalanista.
X4 = Incorpora mucha información.
X5 = Es serio.
X6 = Es objetivo.
X7 = Tiene buenas editoriales.
A partir de esta información, calculad las distancias de disimilitud entre los diarios y
comprobad cuáles son los más parecidos y los más diferentes.
2.2. Algoritmo de clasificación
Con las distancias calculadas tenéis que elegir un algoritmo que nos permita
clasificar los elementos en clústers. Los más rápidos y sencillos son los méto-
dos�jerárquicos (existen otros tipos), que, a su vez, pueden ser acumulativos
(se forman grupos haciendo clústers cada vez más grandes) o disminutivos
(partiendo de un solo grupo, se separan los elementos en grupos cada vez más
pequeños).
Nos centraremos en los algoritmos acumulativos: los elementos forman unos

primeros grupos; al mismo tiempo, se pueden reunir estos grupos en bloques
y éstos entre sí en otros, etc. En un proceso de varias etapas, disminuye el
número de clústers y, simultáneamente, se hacen más grandes al incorporar
subclústers de la fase anterior.
Más algoritmos
Entre los algoritmos acumulativos para la fusión de grupos, es necesario
hacer mención de diferentes métodos: Podríamos añadir más algorit-
mos, tanto acumulativos como
divisivos; en cada caso tendría-
1) Método de las distancias mínimas; es decir, máxima semejanza entre mos que discutir las propieda-
des y las desventajas que im-
los elementos o grupos más cercanos. plican. A pesar de esto, los mé-
todos a que nos hemos refe-
rido son los más fáciles desde
2) Método de las distancias máximas; es decir, cálculo de la mínima un punto de vista operativo y
distancia entre los elementos más alejados. proporcionan buenos resulta-
dos.
3) Método de las distancias medias; es decir, cálculo de la media de las

distancias entre elementos.
Con relación al ejemplo de las tiendas de productos especializados en las ciu-

dades de Barcelona, Tarragona, Lérida y Gerona, trabajando con distancias eu-
clidianas al cuadrado hemos obtenido la siguiente matriz de distancias:
Barcelona - - - -
Gerona 19,02 - - -
Lérida 7,34 9,26 - -

Tarragona 2,90 17,10 2,44 -
Si utilizamos el método�de�las�distancias�mínimas, podemos comprobar que

Lérida y Tarragona son las más parecidas y, por tanto, las primeras que empa-
rejaríamos.
mín drs = dLT = 2,44
En una segunda etapa, después de “hermanar” Lérida y Tarragona, tendremos

que calcular las distancias que separan los tres grupos resultantes: Barcelona,
Gerona y Lérida-Tarragona. Se entiende que la distancia que separa Barcelona
de la “nueva ciudad” Lérida-Tarragona es la distancia más corta entre Barcelo-
na y Lérida o Tarragona.
dB – LT = mín(dBL, dBT) = mín(7,34 , 2,90) = 2,90
Igualmente, la distancia entre Gerona y Lérida-Tarragona será:
dG – LT = mín(dGL, dGT) = mín(9,26 , 17,10) = 9,26
Así, la nueva matriz de distancias ahora es:
Barcelona Gerona Lérida-Tarragona
Barcelona - - -
Gerona 19,02 - -
Lérida-Tarragona 2,90 9,26 -
En una tercera etapa podemos incorporar un nuevo elemento al grupo ya co-

nocido. Efectivamente, Barcelona-(Lérida-Tarragona) son las tres ciudades que
presentan una distancia más corta.
mín drs = dB – LT = 2,90
Tendríamos ahora dos clústers: uno formado por los elementos Barcelona-Ta-
rragona-Lérida y el otro con un único elemento: Gerona; la distancia que los
separa es la más corta entre Gerona y las otras tres ciudades:
dG – (BLT) = mín(dG – B, dG – LT) = mín(19,02 , 9,26) = 9,26
Gerona se podría integrar en un solo clúster con el resto de los municipios con
una distancia de 9,26.
Actividad
2.2. Después de ver con detalle el método de las distancias mínimas, ya podéis utilizar
para la agregación de clústers el método de las distancias máximas; es decir, podéis in-
corporar grupos de máxima distancia a partir de los mínimos encontrados. Os sugerimos
que apliquéis este procedimiento con los datos del ejemplo anterior.
2.3. Presentación de los resultados
Para representar la estructura jerárquica de la formación de los grupos en un

análisis clúster se utiliza el dendrograma, representación gráfica que tiene
forma de árbol invertido.
De esta manera, a partir de los I elementos observados podemos encontrar

desde 1 hasta I clústers, según el número de grupos que queramos obtener.
Si el objetivo es formar K grupos homogéneos de elementos, fácilmente tienen

que resultar de una segmentación horizontal del racimo de agrupaciones.
Se supone que las desviaciones estándar (o varianzas) de los elementos den-

tro de cada clúster son menores que la desviación global de todos los datos.
No obstante, las tablas de perfiles que incorporan medidas descriptivas (bási-
camente media y desviación estándar) permiten una mayor identificación de
los diferentes clústers y, por tanto, una interpretación fácil de todo el análisis,
por qué los elementos se agrupan de una forma determinada y y qué rasgos
son los característicos de cada grupo.
2.4. Otras consideraciones
Los ejemplos que hemos presentado hasta ahora utilizan variables con escalas
similares: puntuación, porcentaje, etc., pero, a menudo, las variables se aso-
cian con conceptos muy diferentes y, en consecuencia, con medidas de obser-
vación heterogéneas.
Si, sobre diferentes modelos de motocicletas de montaña, medís variables co-

mo la potencia, el consumo, el precio, etc., tendremos en cuenta que se expre-
san en unidades diferentes y que, seguramente, alguna variable como el precio
puede distorsionar los resultados. Efectivamente, en el momento de calcular
las distancias entre las diferentes motocicletas, el precio sería la variable que
marcaría las diferencias y, por tanto, se desvirtuarían los resultados.
Existen varias soluciones para resolver este tema. De entre las más uti-
lizadas, hay que mencionar el análisis de los componentes principales
sobre todas las observaciones, técnica que homogeneiza los datos (aun-
que con el coste de perder parte de la información inicial) y que posibi-
lita un posterior análisis clúster sobre los componentes seleccionados.
Otra posibilidad sería trabajar con datos estandarizados, con lo cual eli-
minaríamos la escala de medida y así podríamos aplicar un análisis clús-
ter sobre variables que presentan un mismo valor medio y una misma
desviación estándar.
Ejemplo
A modo de ejemplo, y sin entrar en detalle, veamos cuáles serían los resulta-
dos de haber aplicado el análisis clúster a cifras compatibles y a ratios empre-
sariales de un conjunto de empresas automovilísticas que operan en el Estado.
Las diferentes escalas de medida utilizadas nos remiten a cálculos estadísticos
heterogéneos, por lo cual resulta necesario trabajar con datos estandarizados
para hacer comparables los resultados.
Consideramos, pues, veinte empresas del sector del automóvil de las cuales
hemos calculado quince indicadores diferentes a partir del análisis de balances:
variables relativas a masas patrimoniales, índices financieros y magnitudes de
tamaño.
El cuadro de la página siguiente reúne información en unidades de medida tan

diferentes como: miles de u.m., u.m., porcentajes, trabajadores, etc. El cum-
plimiento de un análisis para la formación de grupos exige estandarizar los
datos para evitar el efecto distorsionador en el cálculo de las disimilitudes de
las observaciones mayores.
Veamos esta información inicial y el resumen descriptivo de las variables em-

pleadas, algunas de las cuales han sido utilizadas en ejemplos anteriores:
Empresa Ingresos to- Capital social Recursos Inmovili- Activo total Beneficio ne- Cash-flow ne-
tales Ejer- 31/12/07 propios zado neto 31/12/07 to 31/12/07 to 31/12/07
cicio 2007 31/12/07 31/12/07
SEAT 584.446 84.000 –59.864 358.181 527.353 –151.315 –121.064

Empresa Ingresos to- Capital social Recursos Inmovili- Activo total Beneficio ne- Cash-flow ne-
tales Ejer- 31/12/07 propios zado neto 31/12/07 to 31/12/07 to 31/12/07
cicio 2007 31/12/07 31/12/07
Renault España 482.929 22.781 127.280 96.678 231.455 –855 23.377
General Motors 465.746 41.547 115.359 87.434 285.358 19.361 50.437
Ford España 353.633 21.070 94.041 51.048 175.998 –31.811 –18.472
Citroën Hispa- 305.214 5.343 74.879 41.967 125.553 –1.876 4.862

nia
Volksw.-Audi, 192.511 10 –59 68.890 117.513 –970 –943

SA
Nissan Mot. Ib. 190.324 60.789 18.870 157.255 227.755 –41.030 –25.805
Peugeot Talbot 185.379 10.500 12.001 24.385 69.607 –4.704 –700
Neum. Miche- 152.572 34.240 17.721 59.297 148.757 –20.400 –15.202

lin
Mercedes Benz 103.141 22.296 20.071 20.492 61.062 –2.538 –926
Robert Bosch 84.719 14.860 15.681 19.503 44.625 –3.704 429
Iveco Pegaso 69.841 31.365 –7.417 48.748 103.706 –28.755 –25.180
Bridg. Firesto- 58.250 9.288 6.892 30.754 53.222 –428 2.281

ne
Santana Motor 48.516 3.638 –2.081 13.587 26.516 –4.809 –1.863
Ciba-Geigy 36.522 9.150 10.577 12.536 29.094 –1.918 –1.433
Renault Vehíc. 28.500 2.000 –1.837 7.903 13.806 –3.077 –2.222

Ind.
Pirelli Neumáti- 24.537 7.500 8.467 11.025 22.028 –1.654 –683

cos
Béndix España 19.477 2.554 6.166 5.302 12.863 –297 504
John Deere 19.292 4.100 1.541 2.372 10.163 –4.146 –3.677

Ibér.
Lucas Autom. 16.998 1.362 6.469 4.506 14.500 89 1.018
Empresa Tesorería Liquididad Autonomía Solvencia Endeuda- Rotación Plantilla Facturación

miento del activo 31/12/07 por ocupado
SEAT 45,65 59,36 –24,70 89,81 –880,92 104,00 21.590 25,40
Renault Es- 101,40 132,12 98,33 222,18 181,85 208,65 13.699 35,25
paña
General Mo- 105,66 118,98 96,93 167,86 247,36 163,21 9.250 50,35
tors España
Ford España 157,88 198,59 82,80 212,16 187,15 200,93 8.997 39,31
Citroën His- 117,63 177,98 95,28 247,77 167,67 243,10 8.161 37,40
pania
Empresa Tesorería Liquididad Autonomía Solvencia Endeuda- Rotación Plantilla Facturación

miento del activo 31/12/07 por ocupado
Volkswagen– 29,34 41,10 120,63 99,19 –12.253,70 163,82 165 1.166,73

Audi, SA
Nisssan Mo- 22,90 40,09 36,35 109,03 1.206,97 83,57 7.001 27,19
tor Ibérica
Peugeot Tal- 48,89 84,12 75,76 120,85 580,01 266,32 5.205 35,62
bot España
Neumáticos 110,65 138,71 22,36 118,03 839,44 102,57 10.644 14,33

Michelin
Mercedes 46,25 107,15 86,52 148,97 304,23 168,91 2.829 36,46

Benz España
Robert 111,48 155,72 55,04 154,18 284,57 189,85 4.626 18,31

Bosch
Iveco Pegaso 47,35 76,39 –23,35 93,32 –1.398,11 67,35 4.319 16,17
Bridgestone 50,18 92,92 23,73 114,88 772,13 109,45 4.012 14,52

Firestone
Santana Mo- 24,69 46,62 –452,39 92,72 –1.274,20 182,97 2.838 17,10
tor
Ciba-Geigy 66,11 120,00 62,36 157,12 275,07 125,53 764 47,80
Renault 20,81 37,80 101,66 88,26 –751,55 206,42 1.349 21,13

Vehículos
Ind.
Pirelli Neu- 74,66 106,17 72,59 162,44 260,16 111,39 1.464 16,76
máticos
Béndix Espa- 92,76 121,74 92,68 192,07 208,62 151,42 1.120 17,39
ña
John Deere 44,70 91,76 92,15 117,87 659,35 189,82 995 19,39
Ibérica, SA
Lucas Auto- 100,32 124,19 65,01 125,98 224,16 117,23 1.366 12,44
motive, SA
Veamos en el siguiente cuadro resumen las principales medidas descriptivas

de todas las variables observadas:
Variable Media Desv. Mínimo Máximo

estándar
Ingresos totales 169.327 171.505 16.998 548.446
Capital social 19.419 21.980 10 84.000
Recursos propios 23.237 45.062 –59.864 127.280
Inmovilizado ne- 56.093 81.114 2.372 358.181

to
Activo total 115.046 127.690 10.163 527.353
Beneficio neto –14.241 34.986 –151.315 19.361

Variable Media Desv. Mínimo Máximo

estándar
Cash-flow neto –6.776 31.428 –121.064 50.437
Tesorería 7.097 3.878 2.081 15.788
Liquididad 10.358 4.556 3.780 19.859
Autonomía 3.899 12.235 –45.239 12.063
Solvencia 14.173 4.729 8.826 24.777
Endeudamiento –50.799 284.705 –12.253 120.697
Rotación del acti- 15.783 5.409 6.735 26.632

vo
Número de em- 5.519 5.369 165 21.590

pleados
Facturación/em- 8.345 25.524 1.244 116.673

pleado
Suponemos, para finalizar, que la aplicación de un sistema jerárquico de aso-

ciación entre grupos calculado sobre las distancias entre empresas automovi-
lísticas nos lleva al resultado que vemos a continuación:
Si hemos realizado el estudio para obtener seis clústers, los resultados podrían
ser:
Clúster 1: empresas muy grandes (en facturación y en empleados) con resul-

tados muy pobres:
• SEAT
Clúster 2: empresas muy grandes con un alto nivel de tesorería, de solvencia

y de cobertura:
• Renault España
• General Motors
• Ford España
• Citroën Hispania
Clúster 3: empresas grandes con poco capital y con una facturación por em-
pleado altísima:
• Volkswagen Audi
Clúster 4: empresas medias con pérdidas importantes que generan flujos ne-
gativos:
• Nissan Motor Ibérica

• Neumáticos Michelin
• Iveco Pegaso
Clúster 5: empresas medias con pocos empleados y rentabilidad baja:
• Mercedes Benz
• Peugeot Talbot España
• Robert Bosch
• Bridgestone Firestone España
• Ciba-Geigy
• Renault Vehículos Industriales
• Pirelli Neumáticos
• Béndix España
• John Deere Ibérica S.A.
• Lucas Automotive S.A.
Clúster 6: empresas en bancarrota:
• Santana Motor
donde el significado otorgado a cada clúster deriva del cálculo de medidas

descriptivas en los elementos que forman cada grupo donde se notan los rasgos
diferenciales que presentan.
Actividad
2.3. A partir de la actividad de la lección anterior, donde disponíamos de datos relativos

a las marcas conseguidas por un grupo de quince chicos en diferentes pruebas atléticas,
intentad agruparlos en conglomerados a partir del análisis clúster utilizando las distancias
euclidianas.
Veréis cómo los resultados son diferentes en función de si hacéis las agrupaciones direc-
tamente a partir de los datos originales o bien a partir de datos estandarizados.
Podéis comprobar que los clústers que resultan de trabajar con estandarizaciones son
bastante parecidos a los que saldrían si hiciésemos los grupos con los tres primeros com-
ponentes calculados en el apartado anterior.
2.5. Otros métodos de análisis multivariante
El tratamiento estadístico multidimensional no se limita a los procedimientos

mencionados hasta ahora de los modelos de regresión, de la reducción de la
dimensionalidad o de los métodos de clasificación. Hay que decir que existen
muchos otros tipos de análisis multivariante, algunos de los cuales con una
fundamentación teórica parecida y muchos otros complementarios entre sí
por lo que respecta a la descripción de datos.
Para acabar este módulo, nos limitaremos a dar noticia de otros métodos, pero
no entraremos en detalles de su contenido:
1) El análisis� factorial� clásico: fundamenta el análisis de los componentes

principales, simplifica las relaciones existentes en un fenómeno y extrae los
factores subyacentes de su estructura latente.
Si partimos del supuesto de que las asignaturas de la carrera – Contabilidad, Eco-

nomía, Estadística, etc.– presentan en su aprendizaje factores comunes del tipo
“ciencias” y “letras”, al margen de otros factores, el objetivo sería determinar
el peso de estos factores comunes en cada una de las asignaturas, de manera
que se pudiese hacer una previsión de las notas que obtendrán los estudiantes
según el nivel adquirido en “ciencias” y en “letras” durante el bachillerato.
2) El análisis� de� correspondencias es una derivación del análisis factorial Ejemplo de análisis de
aplicado a la información contenida en las tablas de contingencia; permite correspondencias
relacionar atributos o variables cuantitativas en la clasificación cruzada de los Un ejemplo típico es la elabo-
datos y pone de manifiesto las relaciones que se dan dentro de cada distribu- ración de tablas con causas de
muerte y profesiones, en las
ción marginal y dentro de la distribución conjunta. cuales se busca la interdepen-
dencia entre las dos caracterís-
ticas y las propensiones a de-
terminadas enfermedades en
3) Con el análisis�discriminante se determinan criterios que permitan dife- cada profesión.
renciar varios grupos. A partir de la obtención de ejes con poder discriminador,
se puede prever con una alta probabilidad la pertenencia de los elementos a
cada uno de los grupos. Es necesario notar la diferencia de este análisis con Ejemplo de análisis
respecto al clúster: así como en el discriminante los grupos ya están presentes discriminante
y todo el problema consiste en buscar criterios diferenciadores, en el análisis Con el análisis discriminante,
clúster, en cambio, los grupos son desconocidos. a partir de la información que
proporcionan los cuestionarios
bancarios, se puede determi-
nar a qué grupo de riesgo per-
4) El análisis�canónico tiene como objetivo explicar un conjunto de varia- tenece un cliente que solicita
un préstamo.
bles a partir de otro conjunto de variables independientes; en cierto modo, se
puede considerar una extensión del modelo lineal de una ecuación que ya he-
mos estudiado. A partir de las nuevas variables que resultan de combinar por
separado las variables endógenas y las variables exógenas, se pueden correla-
cionar ambos conjuntos de variables para explicar el comportamiento global
del modelo.
Si disponemos de los precios al detalle de los diferentes tipos de carne de ter-

nera –filete, bistec, chuleta, etc.– y del conjunto de variables explicativas para
cada tipo –color, humedad, magrez, etc.–, el análisis canónico buscará la co-
rrelación máxima entre la combinación de precios, por un lado, y la combi-
nación de variables exógenas, por el otro, para describir el comportamiento
global del mercado al detalle de la carne de ternera.
5) Para no alargar la lista, acabamos con los escalogramas�multidimensiona-

les –muy utilizados en estudios de mercado– para reproducir preferencias y
percepciones subjetivas en algún espacio multidimensional.
A partir de valoraciones subjetivas que responden a semejanzas percibidas con

relación a un grupo de objetos, se reconstruyen mapas de preferencias entre
productos. En un nivel de aplicación diferente, es como si rehiciésemos el
mapa de un país disponiendo tan sólo de las distancias que los encuestados
piensan que hay entre las ciudades.
2.6. Resumen
2.7. Ejercicios de autoevaluación
Ejercicio�1
Hemos observado el contenido de varias características en cinco marcas de

yogur:
GR materias grasas (g)
CA calcio (g)
PH acidez (mg)
EN energía (Kcal)
HC hidratos de carbono (g)
Hemos observado los siguientes resultados de valores originales y estandari-

zados:
Marcas GR CA PH EN HC
1 Masbury 2,20 144 4,8 66 6
2 Catlesa 1,81 236 3,7 36 3
3 Pandone 1,79 240 3,8 40 4

Marcas GR CA PH EN HC
4 Tuplait 2,25 141 4,4 69 5
5 Alarisa 1,70 230 3,6 32 4
6 Sucradi 2,31 139 4,5 70 6
Marcas GRtipif CAtipif PHtipif ENtipif HCtipif
1 Masbury 0,70016 –0,85903 1,34231 0,77118 1,10096
2 Catlesa –0,73701 0,92362 –0,87250 –0,90126 –1,37620
3 Pandone –0,81071 1,00112 –0,67116 –0,67827 –0,55048
4 Tuplait 0,88441 –0,91716 0,53693 0,93843 0,27524
5 Alarisa –1,14236 0,80736 –1,07385 –1,12425 –0,55048
6 Sucradi 1,10551 –0,95591 0,73827 0,99417 1,10096
A partir de los datos estandarizados, tenéis que:
a) Encontrar la matriz de distancias euclidianas al cuadrado.
b) Obtener el dendrograma que resulta de utilizar el método de las distancias

mínimas.
2.8. Solucionario ejercicios de autoevaluación
Ejercicio�1
Las respuestas son:
a) Matriz de distancias:
1 2 3 4 5 6
1 0,000000 19,082134 14,62514 1,395772 18,329548 0,588292
2 19,082134 0,000000 0,783523 14,115657 0,949913 19,251144
3 14,625140 0,783523 0,000000 11,308208 0,508605 15,012712
4 1,395772 14,115657 11,308208 0,000000 14,612825 0,775855
5 18,329548 0,949913 0,508605 14,612825 0,000000 18,660860
6 0,588292 19,251144 15,012712 0,775855 18,660860 0,000000
b) Dendrograma
3. Análisis factorial
AUTOR:
Francesc�Camp�Torres
3.1. Cuándo tenemos que utilizar el análisis factorial
El análisis factorial forma parte del conjunto de métodos de análisis

multivariable cuyo objetivo consiste en estudiar las relaciones de inter-
dependencia que se producen entre un conjunto de variables o indivi-
duos.
Se utiliza cuando queremos resumir la información que contiene una matriz

de datos individuos/variables, tal como se muestra en el ejemplo, reemplazan-
do las variables iniciales por un número menor de variables compuestas o fac-
tores, y perdiendo el mínimo posible de la totalidad de la información que
contienen las variables iniciales.
Ejemplo de matriz de datos individuos por variables
En una encuesta realizada a una muestra de 1.000 estudiantes, se les pidió que valoraran
en una escala de 1 a 6, en la cual 1 significaba “nada deseable” y 6 “totalmente deseable”,
lo deseable que les parecía una serie de veinte características referentes al comportamien-
to de sus profesores. Las características son las siguientes:
V1 Tratan a todos los estudiantes aproximadamente igual.
V2 Incitan a los estudiantes a preguntar.
V3 Próximos, cercanos a los estudiantes.
V4 Muestran interés por los problemas de los estudiantes.
V5 Poseen un carácter agradable.
V6 Dan explicaciones que provocan un gran interés.
V7 Utilizan métodos propios para facilitar la instrucción.
V8 Visten con gusto, van limpios y aseados.
V9 Son puntuales.
V10 Son tranquilos, tienen control de sí mismos.
V11 Parecen seguros de sí mismos.
V12 Son ordenados en sus explicaciones.
V13 Encaran el lado bueno de las cosas.
V14 Desarrollan la asignatura con un sentido crítico.
V15 Tienen respuestas ingeniosas y completas.

V16 Dan explicaciones adaptadas a la realidad.
V17 Son tolerantes con el error de los estudiantes.
V18 Saben apreciar los esfuerzos del estudiante.
V19 Tienen buena dicción, son plenamente audibles.
V20 Saben controlar una situación de nerviosismo.
La matriz de resultados obtenidos fue la siguiente:
En el ejemplo anterior, ¿es necesario guardar los 20.000 valores que hemos
obtenido o bien podemos sintetizar (resumir) toda esta información en una,
dos o tres variables compuestas? ¿No hay una relación determinada entre las
variables iniciales y, por lo tanto, no podemos eliminar algunas que tan sólo
aportan una información marginal y poco interesante? Si hay una relación de
interdependencia sistemática en el conjunto de las variables, ¿no puede ser
debida originalmente a algunos factores más fundamentales (latentes)? ¿No
podemos considerar las variables originales como simples índices de estos fac-
tores fundamentales?
Es a este tipo de preguntas al que pretende responder el análisis factorial; co-

mo es lógico, no hay una respuesta única a preguntas de este tipo y, por lo
tanto, se ha propuesto una gran cantidad de definiciones. Eso nos lleva a con-
siderar el análisis factorial no como un método único, sino como una familia
de métodos.
El objetivo principal del análisis factorial consiste en identificar la es-

tructura de las relaciones entre variables o entre individuos.
Si el objetivo de la investigación consiste en sintetizar las variables, el análisis

recibe el nombre de análisis�factorial�tipo�R. En cambio, si el objetivo consiste
en buscar los factores en el espacio de los individuos, lo cual permite agrupar
a los individuos que tienen comportamientos análogos en relación con las
variables sobre las cuales se lleva a cabo el análisis, el análisis recibe el nombre
de análisis�factorial�tipo�Q.
A continuación, nos centraremos en el análisis factorial tipo R, por el hecho

de que se trata del más utilizado en investigación comercial.
3.2. Metodología del análisis factorial
El proceso metodológico del análisis factorial consta de seis etapas:
Etapa�1:�diseño�del�análisis�factorial
El diseño del análisis hace referencia al tipo de variables que hay que utilizar
y a las escalas de medida en las cuales deben ser medidas.
1) Las variables que se utilizan en el análisis deben ser comparables; corremos

el riesgo de que los factores obtenidos no tengan ningún sentido en caso de
que se introduzcan al mismo tiempo en el análisis variables socioeconómicas,
variables de actitudes, variables de comportamiento, etc.
2) Si las escalas sobre las cuales se han medido las variables son muy diferentes,
hay que normalizarlas, ya que, como veremos, la varianza de cada variable
interviene en el análisis y las variables que presenten una mayor varianza ten-
drían unas ventajas determinadas. Normalizar las variables equivale a centrar-
las y a reducirlas. Si Xp es la variable inicial, la variable normalizada será:
donde es la media de la variable y sp su desviación típica.
3) Por último, las variables introducidas deben medirse en escalas cuantitati-

vas, es decir, métricas o de intervalo, las cuales no son precisamente las más
abundantes en investigación de mercados.
Etapa�2:�obtención�de�la�matriz�de�correlaciones
A partir de la matriz de datos inicial, obtenemos la matriz de correlaciones

entre variables.
Ejemplo
En nuestro ejemplo, a partir de la matriz de datos inicial expuesta más arriba, donde cada
una de las filas de la matriz indica la valoración de cada estudiante sobre cada una de
las veinte características propuestas, obtenemos la matriz de correlaciones entre variables
siguiente:
Matriz de correlaciones entre variables.
Etapa�3:�extracción�de�los�factores
El paso siguiente consiste en obtener, a partir de la matriz de correlaciones,

los factores que identifiquen la estructura subyacente de las relaciones entre
las variables iniciales. Con esta finalidad, el método más utilizado en investi-
gación comercial es el análisis�factorial�de�componentes�principales.
Esta técnica puede resumirse como un método en el que se transforman las

variables originales en unas nuevas variables que son una combinación lineal
de las variables iniciales y que, además, no están correlacionadas. Estas nuevas
variables se llaman factores o componentes�principales.
El método busca restituir la máxima cantidad de información posible conte-

nida en las variables iniciales en un número mínimo de factores. La medida
de la cantidad de información restituida por cada componente principal es la
varianza. Por este motivo, los factores se obtienen según la varianza restituida
por cada uno. Así, el componente principal que se obtiene en primer lugar es
el que restituye la mayor proporción de la varianza contenida en la matriz de
correlaciones; el segundo factor es el que, de la varianza restante, restituye el
mayor porcentaje, y así sucesivamente hasta llegar al último factor, que resti-
tuye la menor cantidad de varianza inicial.
Si tenemos:
• P variables iniciales p = 1, ..., P,
• I individuos i = 1, ..., I,
podemos extraer K factores; siendo K = min (P, I) – 1.
Los factores extraídos tienen que cumplir las tres condiciones siguientes:
1)�Linealidad: cada factor es una combinación lineal de las variables iniciales.
Fk = ak1X1 + ak2X2 + ... + akpXp
donde:
Fk = el k-ésimo factor;
akp = el coeficiente de la variable Xp en el factor Fk;
Xp = los valores de la variable p tomados por los I individuos.
2)�Independencia: los factores no están correlacionados entre sí.
3)�Varianza�restituida�por�cada�factor: el primer factor restituye la propor-

ción más alta de varianza contenida en la matriz de correlaciones; el segundo
factor, la segunda; el tercero, la tercera; el cuarto, la cuarta, y así sucesivamente.
Ejemplo
En la tabla que viene a continuación se presentan los estadísticos iniciales obtenidos en

nuestro ejemplo. El valor propio λk indica la cantidad de varianza restituida por el factor
k. Cuanto más valor tiene λk, más es alto el nivel explicativo del factor asociado.
Estadísticos iniciales.
A partir de estos valores podemos calcular el porcentaje de varianza restituida

por cada factor aplicando la fórmula siguiente:
Ejemplo
En nuestro ejemplo, el primer factor resume el 51,6% de la varianza total; el segundo,

el 28,7%; el tercero, el 7%, y el décimo factor, el 0,1%. Con los dos primeros factores
el análisis restituye el 80,3% de la información contenida en la matriz de correlaciones
expuesta.
En cuanto a la comunalidad, indica la proporción de varianza de cada variable

explicada por los factores seleccionados. Al trabajar inicialmente con todos los
factores, la comunalidad de cada variable es máxima, es decir, igual a 1.
Etapa�4:�determinación�del�número�de�factores�que�hay�que�conservar Nota
En nuestro ejemplo selecciona-

Hay una gran cantidad de reglas y criterios para determinar cuál es el número ríamos los cuatro primeros fac-
de ejes factoriales que hay que conservar. La mayor parte de los programas tores.
de ordenador más conocidos suele aplicar el denominado criterio�de�Kaiser,

según el cual sólo se conservan los factores cuyos valores propios, λk, son más
altos que la unidad. Los criterios más utilizados pueden agruparse en dos mé-
todos generales:
1)�Reglas�basadas�en�la�restitución�mínima
En este caso, lo que hace el investigador es fijar a priori un nivel correspon-

diente al porcentaje mínimo de varianza que quiere restituir y conservar para
el análisis el número de ejes necesario para alcanzar este nivel.
Por ejemplo, sabemos que el porcentaje de varianza explicada por los dos pri-
meros factores es el siguiente:
En el caso de que esta cantidad alcance el nivel fijado, tenemos que conservar
únicamente estos dos primeros factores; en el caso contrario, introduciremos
en el análisis el tercer factor y así sucesivamente hasta alcanzar el nivel fijado.
Por ejemplo, supongamos que el nivel fijado sea, en porcentaje, el 90%; es

preciso conservar, pues, para el análisis el número de factores que haga que:
Nota
En nuestro ejemplo selecciona-

ríamos los cuatro primeros fac-
tores.
2)�Reglas�basadas�en�la�información�restituida�por�cada�factor
Las tres reglas que se exponen a continuación, basadas en la cantidad de infor-

mación restituida por cada factor, son reglas empíricas obtenidas después de
numerosos análisis; no tienen, como es lógico, ninguna demostración teórica,
pero se basan en el sentido común.
a)�Primera�regla�empírica. Únicamente es preciso conservar para el análisis

aquellos factores que restituyan una proporción de la varianza superior a dos
veces la cantidad 100/ P; P es el número de variables iniciales introducidas en
el análisis.
Esta regla proviene del hecho de que si la nube de puntos no tiene ninguna
dirección privilegiada (esfera, por ejemplo), los valores difieren muy poco y la
varianza restituida por el primer factor sería, más o menos:
o bien el porcentaje 100/ P, donde P es el número de variables iniciales; des-

pués, todos los valores propios serían aproximadamente iguales.
Ejemplo
En nuestro ejemplo seleccionaríamos los dos primeros factores:
b)� Segunda� regla� empírica. Se trata de construir una curva en la cual los
puntos sean los siguientes:
• en abscisas, los números de los factores;
• en ordenadas, el porcentaje de varianza que restituye cada uno de los fac-

tores o el valor propio asociado a cada factor.
Hay que determinar el primer punto de inflexión de la curva y conservar aque-

llos factores cuyo número de orden esté situado antes del punto de inflexión,
tal como se expone en el gráfico que viene a continuación. En nuestro ejem-
plo, el cambio de concavidad se produce a partir del tercer factor. Conserva-
ríamos, por tanto, los dos primeros factores.
c)�Tercera�regla�empírica. También se denomina regla de interpretación, y es la

regla más utilizada en investigación de mercados, ya que tiene en cuenta la fa-
cilidad de interpretación y la operatividad de los factores extraídos. Selecciona
el número de factores necesarios para cumplir los dos criterios siguientes:
• La solución debe ser fácilmente interpretable, es decir, tiene que comuni-

car de forma tan fiel como sea posible la configuración inicial de variables.
• Los factores tienen que ser operativos, es decir, de fácil utilización como
variables relevo en estudios o análisis posteriores.
Ejemplo
En nuestro ejemplo, decidimos inicialmente conservar los dos primeros factores, con
lo que conservamos el 80,3% de la información inicial, tal como se expone en la tabla
siguiente:
Solución con los dos primeros factores.
Evidentemente, la decisión final depende de la facilidad de interpretación de

los factores y de la calidad de la información conservada.
Un primer resultado que indica la calidad de la representación de la in-

formación en los dos factores seleccionados es la comunalidad. La co-
munalidad expresa la proporción de varianza de una variable explicada
por los factores seleccionados. Concretamente, indica el porcentaje de
información de cada variable que estamos perdiendo al trabajar en un
espacio determinado.
Una comunalidad elevada (próxima a 1) implica una correlación elevada con

al� menos� uno de los factores seleccionados; en cambio, una comunalidad
baja implica una correlación baja con todos los factores seleccionados. Estas
variables están correlacionadas con otros factores.
Ejemplo
En nuestro ejemplo, teniendo en cuenta los dos primeros factores, la mayoría de las va-
riables está bien representada, tal como podéis ver en el gráfico anterior, a excepción de
las siguientes:
Etapa�5:�rotación�de�los�factores�conservados
Como hemos expuesto más arriba, los ejes factoriales pueden considerarse las
“dimensiones latentes” del problema, y describirlas (interpretarlas) nos con-
duce a comprender las dimensiones fundamentales del fenómeno que es ob-
jeto de estudio.
Para interpretar de forma correctamente estas dimensiones, necesitamos saber

cuáles son las variables que contribuyen más a la formación de cada factor.
Con esta finalidad, utilizaremos como indicador los coeficientes�de�correla-
ción�entre�las�variables�iniciales�y�los�factores que en la fase anterior haya-
mos decidido conservar para proseguir el análisis. Las variables con los coefi-
cientes de correlación más altos con un factor son las que contribuyen más a
la formación de este factor.
La matriz que contiene los coeficientes de correlación entre las variables ini-
ciales y los factores se suele denominar matriz factorial inicial o matriz factorial
no rotada.
Aunque esta matriz indica las relaciones entre los factores y las variables ini-
ciales, raramente estas últimas pueden interpretarse con facilidad, ya que sue-
le suceder que algunas variables iniciales están altamente correlacionadas con
varios factores. Ejemplo de matriz factorial no rotada.
Ejemplo
En nuestro ejemplo, las variables V4 y V14 tienen correlaciones bastante elevadas en

ambos factores.
Para solucionar este problema, suele efectuarse lo que se denomina una rota-
ción�de�los�factores, que consiste en transformar la matriz factorial inicial en
una matriz factorial rotada de interpretación más fácil. Se trata de que cada
factor tenga coeficientes de correlación significativos con tan sólo algunas de

las variables iniciales, y que cada variable inicial tenga coeficientes de correla-
ción significativos con tan sólo algunos factores, si es posible sólo con uno.
Hay dos tipos de rotaciones:
1) Las rotaciones oblicuas, que son las que eliminan la propiedad de indepen-
dencia de los factores.
2) Las rotaciones ortogonales, que son las que la mantienen.
En investigación comercial, suelen aplicarse las rotaciones ortogonales, dada

la complejidad en la interpretación de resultados de las rotaciones oblicuas.
Dentro de las rotaciones ortogonales, uno de los algoritmos más utilizados es

el algoritmo VARIMAX. Este algoritmo intenta, para cada factor, maximizar la
correlación de algunas variables, las más próximas a –1 o +1, y minimizar la
correlación del resto de las variables.
Ejemplo
En nuestro ejemplo, si aplicamos una rotación VARIMAX a la matriz factorial no rotada,

obtenemos el resultado expuesto a continuación. Efectivamente, observamos que las va-
riables con coeficientes de correlación próximos a 1 en el factor 1 presentan coeficientes
de correlación próximos a 0 en el factor 2, y las variables con coeficientes de correlación
próximos a 1 en el factor 2 presentan coeficientes de correlación próximos a 0 en el fac-
tor 1.
Ejemplo de matriz factorial rotada.

Al efectuar una rotación, hay que tener en cuenta que el total de la informa-
ción restituida (en nuestro ejemplo, el 80%) permanece constante, pero varía
la información restituida por cada uno de los factores; por eso, si hay que co-
nocerla, tiene que recalcularse. Si llamamos bpk al peso de la variable p en el
factor k rotado, el porcentaje de varianza explicada por este factor es:
donde P es el número de variables, y K, el número de factores que contiene

la matriz factorial.
Ejemplo
En nuestro ejemplo, la varianza explicada por cada uno de los factores, antes y después
de efectuar la rotación, es:
Antes de rotar Después de rotar
Factor 1 51.6 44. 6
Factor 2 28.7 35.7
Factor 1 + 2 80.3 80.3
Etapa�6:�interpretación�de�la�matriz�factorial�rotada�y�representación�de
los�resultados
El objetivo de la interpretación de la matriz factorial rotada consiste en identi-

ficar cada una de las dimensiones latentes extraídas. Se efectúa eligiendo para
cada factor las variables iniciales que tengan unas correlaciones con el factor
que sean las más elevadas (próximas a +1 ó a –1).
Ejemplo
En nuestro caso, para cada factor las variables más correlacionadas son:
Factor 1
V15 Respuestas ingeniosas y completas 0.99312
V11 Parece seguro de sí mismo 0.98688
V14 Docto en la materia. Desarrolla la asigna- 0.98011

tura con sentido crítico
V19 Buena dicción, plenamente audible 0.95817
V20 Sabe controlar la situación con facilidad, 0.95562

sin nerviosismo
Factor 2
V18 Sabe apreciar los esfuerzos realizados por 0.97943

el estudiante
V17 Es tolerante con los errores de los estu- 0.97748

diantes
V1 Trata a todos los estudiantes aproximada- 0.93613

mente igual
V4 Muestra interés por los problemas y las 0.92972

necesidades de los estudiantes
V3 Próximo, cercano a los estudiantes 0.91928
V5 Posee un carácter agradable 0.91325
A la vista de las variables que constituyen cada uno de los factores, vemos que el factor 1
tiene relación con aspectos referentes a la calidad docente de los profesores, y el factor 2,
con aspectos referentes a la calidad humana de los profesores. De esta manera, podríamos
bautizar el factor 1 como “buen profesor” y el factor 2 como “buena persona”.
3.3. Aplicaciones del análisis factorial
Las principales aplicaciones del análisis factorial son las siguientes:
1)�Utilización�de�los�resultados�del�análisis�factorial�de�componentes�prin-
cipales�como�“variables-relevo”. Los resultados de un análisis factorial pue-
den utilizarse como fase previa de cálculo antes de aplicar otros métodos. Por
ejemplo, dado que los factores obtenidos son independientes, podemos utili-
zarlos como variables nuevas, y evitar dificultades en el caso de que haya una
correlación estrecha entre las variables iniciales, que es uno de los problemas
más comunes en análisis como regresión múltiple, análisis tipológico o análi-
sis discriminante.
2)�Selección�de�variables. Este tipo de análisis permite seleccionar, de entre

un conjunto importante de variables, cuáles son las que más intervienen en la
descripción del fenómeno estudiado, y posibilita que conservemos para análi-
sis posteriores únicamente aquellas variables iniciales que estén estrechamen-
te correlacionadas con los factores que hemos considerado más importantes.
3)�Detección�de�conglomerados. Si efectuamos un análisis factorial de tipo

Q, que recordamos que consiste en buscar los factores en el espacio de los
individuos, podemos agrupar a los individuos en función de comportamientos
análogos en relación con las variables sobre las cuales se lleva a término el
análisis, utilizando por ejemplo un algoritmo de clasificación no jerárquico.
4. Análisis discriminante
AUTOR:
Francesc�Camp�Torres
4.1. Cuándo tenemos que utilizar el análisis discriminante
Para resolver muchos problemas de marketing, es preciso investigar las diferen-

cias entre grupos para conocer las características distintivas de los individuos
de cada grupo, identificarlas y utilizarlas para asignar a otros individuos cuya
pertenencia a alguno de estos grupos desconocemos.
El análisis multivariable nos ofrece una serie de técnicas, tanto explicativas co-
mo descriptivas, para investigar las diferencias entre grupos. Entre las técnicas
explicativas, se encuentra el análisis discriminante. El análisis discriminante
permite conseguir dos objetivos:
1) Determinar qué variables, de entre las seleccionadas previamente, explican

mejor la pertenencia de un individuo a un grupo determinado. Por ejemplo,
aporta respuestas a las preguntas siguientes:
• ¿Cuáles son las características demográficas diferenciadoras entre los clien-

tes habituales y los ocasionales de una cadena de supermercados?
• ¿Es diferente el estilo de vida de los compradores de productos de alimen-

tación sensibles al precio del estilo de vida de los que son sensibles a la
marca?
• ¿En qué se diferencian los consumidores que han respondido de una ma-
nera positiva a una campaña de marketing directo de los que no lo han
hecho?
2) Determinar el grupo al cual pertenece un individuo pendiente de clasifica-

ción a partir de la respuesta/valor que toma en la serie de variables selecciona-
das previamente. Por ejemplo:
• ¿Qué marca de coches comprará un nuevo comprador?
• ¿En qué grupo de consumo de un producto (elevado, medio o bajo) se

sitúan los individuos que se acaban de incorporar al mercado?
• ¿Cuál es el riesgo (el límite de crédito) que puede darse a un cliente ban-
cario?
Ejemplo
En un estudio cuyo objetivo consistía en determinar las características diferenciadoras

entre las familias que suelen ir de vacaciones y las familias que suelen hacerlo poco o
no van nunca de vacaciones, se obtuvo información sobre 300 familias. En la variable
V1 se clasificaron las familias entrevistadas en función de si fueron de vacaciones en los
últimos dos años (valor 1) o no lo hicieron en los últimos dos años (valor 2). El resto de
las variables del estudio fueron las siguientes:
V2 Ingresos anuales del hogar (en millones de u.m.).
V3 Actitud hacia los viajes (en una escala de nueve puntos en la cual 1 significaba una
actitud muy negativa con respecto a los viajes, y 9, una actitud muy positiva).
V4 Importancia dada al hecho de pasar las vacaciones con la familia (en una escala de
nueve puntos en la cual 1 significaba poco importante, y 9, muy importante).
V5 Tamaño del hogar (en número de individuos).
V6 Edad del principal responsable del hogar (en años).
Matriz de datos.
La aplicación de un análisis discriminante a este ejemplo permite conocer si las familias

que fueron de vacaciones tienen un perfil diferente de las familias que no lo hicieron y
cuáles de las variables V2 a V6 diferencian más a los dos grupos.
4.2. Metodología del análisis discriminante
El proceso metodológico del análisis discriminante consta de cinco etapas:

Etapa�1:�diseño�del�análisis
El análisis discriminante es un método de análisis explicativo que permite es-

tudiar las relaciones entre una variable dependiente nominal (pertenencia a
uno de los grupos) y un conjunto de variables independientes cuantitativas,
que en investigación comercial suelen ser características socioeconómicas o
sociodemográficas, hábitos de compra o de consumo, actitudes, etc. de los in-
dividuos analizados.
Ejemplo
En nuestro ejemplo, la variable dependiente del modelo discriminante es el grupo de

pertenencia de las familias, es decir, el grupo 1 si fueron de vacaciones en los últimos años
o el grupo 2 si no fueron de vacaciones en los últimos años. Las variables independientes
del modelo son las variables V2 a V6.
Para contestar al conjunto de preguntas que se han expuesto más arriba, el

análisis discriminante se centra en cubrir los aspectos que vienen a continua-
ción:
1) Obtener unas funciones discriminantes que discriminen entre los grupos,

es decir, entre las categorías de la variable dependiente (etapa 3).
2) Detectar, a partir de las variables independientes utilizadas, si hay diferen-

cias significativas entre los grupos de la variable dependiente (etapa 4).
3) Clasificar a los individuos en uno de los grupos basándonos en los valores

tomados en las variables independientes y en las funciones discriminantes
obtenidas, y evaluar la precisión de la clasificación (etapa 5).
Etapa�2:�análisis�de�las�variables�explicativas
Aunque no forme parte del procedimiento específico del cálculo del análisis
discriminante, antes de iniciar la estimación de las funciones discriminantes
conviene analizar con detalle las variables explicativas que intervienen en el
modelo. Con esta finalidad obtenemos dos tipos de información:
1) Obtenemos para cada variable sus valores medios y sus desviaciones típicas
dentro de cada grupo.
Ejemplo
En nuestro ejemplo, los dos grupos se diferencian mucho más en cuanto a ingresos anua-
les (V2) que en el resto de las variables. El grupo de las familias que han ido de vacacio-
nes (grupo 1) es el que tiene los ingresos anuales del hogar más elevados. También se
observan unas diferencias determinadas entre los grupos en la importancia concedida a
las vacaciones en familia (V4). Si bien las diferencias en la edad media del responsable
principal del hogar (V6) pueden parecer considerables respecto del resto de las variables,
la desviación típica elevada de esta variable hace que sea poco determinante.
Valores medios y desviaciones típicas.
2) Hay un conjunto de parámetros estadísticos que nos permite determinar si

cada una de las variables explicativas, de manera aislada, diferencia de forma
significativa los grupos de la variable que hay que explicar:
a)�La�lambda�de�Wilks. Indica en qué medida los valores tomados por una

variable explicativa son diferentes en cada uno de los grupos de la variable que
hay que explicar. Su rango de variación va de 0 a 1. Valores altos de λ (próximos
a 1) indican que la medida de la variable explicativa correspondiente es igual
en cada grupo. En cambio, valores bajos de λ (próximos a 0) indican que la
media es diferente.
Ejemplo
En nuestro caso, sólo las variables “Nivel de ingresos en el hogar” (V2) y “Tamaño del
hogar” obtienen valores muy diferentes en los dos grupos.
b)� El� estadístico� F. Se calcula a partir de un Anova, en el cual la variable

dependiente del modelo discriminante es la variable categórica independiente
del modelo Anova. Cada variable independiente del modelo discriminante se
utiliza como una variable dependiente en dicho modelo. El estadístico F indica
también el grado de influencia de cada variable explicativa por separado sobre
la variable que hay que explicar.
Ejemplo
En nuestro ejemplo, las variables con más poder diferenciador son nuevamente el nivel
de ingresos del hogar (V2), el tamaño del hogar (V5) y en menor medida la importancia
concedida a las vacaciones en familia (V4). Los estadísticos F asociados a estas variables
tienen un nivel de significación inferior al 5%. En cambio, la actitud hacia los viajes (V3)
y la edad del responsable principal del hogar (V6) no son diferentes en los dos grupos.
Los estadísticos expuestos indican que hay unas determinadas diferencias entre los dos
grupos de familias en algunas de las variables explicativas; pero debemos preguntarnos:
• ¿Se diferencian realmente las familias que han ido de vacaciones en los últimos dos
años de las que no lo han hecho?
• ¿Cuáles son las variables que mejor diferencian a los dos tipos de familias?
• ¿Cuál es el perfil de cada tipo de familia?
La utilización del análisis discriminante permite contestar a estas preguntas.
Lambda de Wilks y estadístico F.
Etapa�3:�estimación�de�las�funciones�discriminantes
El análisis discriminante estima unas funciones discriminantes en dos fases:
1)�Obtención�de�la�ecuación�asociada�a�cada�función�discriminante. En
general, si la variable que hay que explicar es de m grupos, el análisis discri-
minante calcula m-1 funciones discriminantes.
Ejemplo
Dado que en nuestro ejemplo la variable que hay que explicar es de dos grupos, obtene-
mos sólo una función discriminante.
La estimación de las funciones discriminantes se lleva a cabo reduciendo las

variables explicativas iniciales a unas cuantas variables nuevas, combinaciones
lineales de las primeras. Los valores tomados por estas variables nuevas se lla-
man puntuaciones�discriminantes. Cada individuo obtiene una puntuación
discriminante en cada una de las funciones discriminantes.
Si llamamos Zi a la puntuación discriminante asociada al individuo i (i = 1...

n) en una función discriminante cualquiera, Zi será una combinación lineal
de las variables explicativas iniciales Xp (p = 1... P):
donde bp es el coeficiente discriminante o peso asociado a la variable Xp.
Los coeficientes discriminados o pesos bp se estiman teniendo en cuenta que

las puntuaciones discriminantes de los individuos de un grupo sean tan dife-
rentes como sea posible de las puntuaciones discriminantes entre grupos. Esto
ocurre cuando las variaciones de las puntuaciones discriminantes entre gru-
pos, es decir, la suma de cuadrados intergrupos (SCinterg), son superiores a las
variaciones de las puntuaciones discriminantes dentro de cada grupo, es decir,
la suma de cuadrados intragrupos (SCintrag), o, lo que es lo mismo, cuando el
ratio SCinterg/ SCintrag sea el máximo.
La estimación de los coeficientes bp se lleva a cabo maximizando el ratio SCin-

terg/ SCintrag.
Ejemplo
A continuación obtenemos la estimación de los coeficientes bp asociados a la función

discriminante de nuestro ejemplo:
Estimación de los coeficientes bp de la función discriminante.
Así, la ecuación lineal asociada a la función discriminante es la siguiente:
Zi = 7,98 + 0,85V2i + 0,05V3i + 0,12V4i + 0,43V5i + 0,02V6i
i = 1, ..., 300
2)� Determinación� del� nivel� explicativo� de� cada� función� discriminante.

Antes de interpretar las funciones discriminantes, tenemos que asegurarnos
de que su nivel explicativo es elevado, es decir, de que ayudan realmente a
diferenciar los grupos de población analizados. Con esta finalidad, se utilizan
los parámetros estadísticos siguientes:
a)�El�valor�propio�µ (eigenvalue) asociado a cada función discriminante.
No olvidemos que las funciones discriminantes se obtienen maximizando este

ratio; así, valores propios elevados implican funciones discriminantes con un
poder explicativo elevado.
b)�El�porcentaje�de�varianza�entre�grupos explicada por cada función discri-

minante. Se calcula en función del valor propio asociado a cada función dis-
criminante. Si µk es el valor propio asociado a la función discriminante Dk, el
porcentaje de varianza entre grupos (SCinterg) explicada por Dk es el siguiente:
donde K es el número total de funciones discriminantes.

c)�La�correlación�canónica. Es una medida de la asociación entre cada fun-

ción discriminante y la variable que hay que explicar. El cuadrado de la co-
rrelación canónica indica el porcentaje de la varianza total de la variable de-
pendiente (SCT), que se explica por la función discriminante correspondiente,
donde SCT = SCinterg + SCintrag.
Ejemplo
En nuestro ejemplo, el cálculo de los tres primeros parámetros se presenta en el cuadro

siguiente:
Parámetros determinados del nivel explicativo de cada función discriminante.
El valor propio asociado a la función discriminante es de 1,7862. Por el hecho de ser

la única función discriminante, explica el 100% de la varianza entre grupos (SCinterg).
La correlación canónica es de 0,8007. El cuadrado de esta correlación, (0,8007)2 = 0,64,
indica que el 64% de la varianza total de la variable dependiente (SCT) se explica por la
función discriminante.
Etapa�4:�interpretación�de�las�funciones�discriminantes
En primer lugar, debemos analizar�la�importancia�relativa�de�cada�variable

explicativa en la diferenciación de los grupos. Si todas las variables explicati-
vas tienen el mismo rango de variación, los coeficientes iniciales bp indican el
peso de cada variable explicativa en la diferenciación de los grupos. En cam-
bio, si los rangos de variación de las variables explicativas son diferentes, caso
habitual en investigación comercial, hay que utilizar los coeficientes bp nor-
malizados, es decir, estimados a partir de las variables iniciales normalizadas.
Ejemplo
En nuestro ejemplo, nos encontramos en la segunda situación, dado que las variables
independientes se han medido en millones de u.m. (V2), en escalas de intervalo (V3, V4),
en número de individuos (V5) y en años (V6).
Las variables con coeficientes elevados, tanto positivos como negativos, son
las que contribuyen más al poder discriminador de las funciones.
Otra manera de determinar la importancia relativa de cada variable explica-

tiva consiste en analizar las correlaciones entre cada variable y las funciones
discriminantes. Estas correlaciones representan el porcentaje de la varianza de
cada variable que está explicada por cada función discriminante. Correlacio-
nes elevadas, tanto positivas como negativas, indican niveles explicativos ele-
vados para las variables explicativas correspondientes. Un coeficiente bp ele-
vado indica una correlación elevada y viceversa.
Ejemplo
A continuación presentamos los coeficientes bp normalizados, y las correlaciones entre las

variables explicativas y la función discriminante en nuestro caso. En los dos indicadores,
la variable “Ingresos anuales del hogar” (V2) es la más importante a la hora de discriminar
entre los dos grupos de familias, seguida del “Tamaño del hogar” (V5) y la “Importancia
dada a las vacaciones en familia” (V4).
Coeficientes bp estandarizados y correlaciones entre cada variable y la función discriminante.
A partir de estos resultados, podemos representar de forma gráfica la función

discriminante obtenida, teniendo en cuenta los aspectos siguientes:
1) Sólo se posicionan en la función discriminante las variables con correlacio-

nes o coeficientes normalizados elevados.
2) Si la correlación de una variable explicativa con la función discriminante

es positiva, valores altos de la variable en cuestión implican puntuaciones dis-
criminantes (Zi) altas en la función discriminante. En este caso, situamos los
valores altos de la variable en la parte positiva de la función, es decir, a la
derecha, y los valores bajos en la parte negativa, es decir, a la izquierda. En
cambio, si la correlación es negativa, unos valores altos de la variable implican
unas puntuaciones discriminantes bajas y unos valores bajos implican unas
puntuaciones elevadas. En este caso, los valores altos de la variable se sitúan
en la parte negativa de la función, y los valores bajos, en la parte positiva.
Ejemplo
En nuestro ejemplo, las correlaciones más altas (V2 y V5) son positivas, y obtenemos la
representación siguiente:
El paso siguiente consiste en determinar las características diferenciadoras de Puntuación discriminante

cada grupo. Con esta finalidad, el análisis calcula la puntuación discriminante media
media de cada grupo. Se obtienen sustituyendo en la función discriminante La puntuación discriminante

cada variable explicativa por su valor medio dentro del grupo: media también se denomina
centroide del grupo. En el caso
de nuestro ejemplo, Z1 y Z2.
Centroides de cada grupo.
Posicionando estos dos valores en la función discriminante, podemos definir

el perfil medio de cada grupo.
Ejemplo
En nuestro ejemplo, las familias del grupo 1 (familias que han ido de vacaciones en los
dos últimos años) disponen de unos ingresos anuales más elevados y son más numerosas.
En cambio, las del grupo 2 (familias que no han ido de vacaciones en los dos últimos
años) tienen ingresos anuales más bajos y son menos numerosas.
Etapa�5:�validación�de�las�funciones�discriminantes
El proceso se lleva a cabo de la manera siguiente:
1) Cada individuo obtiene una puntuación discriminante Zi al multiplicar los

coeficientes no estandarizados bp de la función discriminante por los valores
tomados en las variables explicativas correspondientes.
2) Cada individuo está asignado a uno de los grupos basándose en su puntua-

ción discriminante y en una regla de asignación adecuada. En el caso de una
variable que hay que explicar de dos grupos, un individuo está asignado al
grupo cuya puntuación discriminante media (centroide) sea más próxima a su
puntuación discriminante.
3) Si, una vez asignados, todos los individuos se vuelven a clasificar en su gru-
po inicial de pertenencia, obtenemos el 100% de individuos bien clasificados
y podemos concluir que la función discriminante encontrada explica la tota-
lidad de las diferencias entre grupos. En la práctica, difícilmente suele ser así;
podría considerarse un porcentaje razonable de individuos bien clasificados
aquel que es superior en un 25% al que se obtendría clasificando de forma co-
rrecta a los individuos al azar. Por ejemplo, cuando los grupos analizados son
del mismo tamaño, el porcentaje de individuos correctamente clasificados al
azar es de un individuo por número de grupos. En el caso de dos grupos, el
porcentaje de individuos correctamente clasificados tendría que ser superior
al 62,5% (50% = 50% × 0,25). Los grupos nuevos resultantes del proceso de
asignación suelen llamarse grupos�predichos.
4) Los resultados del proceso de asignación se presentan en una matriz de cla-

sificación obtenida a partir del cruce entre los grupos iniciales de pertenencia
de los individuos y los grupos resultantes de la aplicación de las funciones dis-
criminantes (grupos predichos). Esta matriz indica el porcentaje de individuos
clasificados correctamente una vez efectuada la asignación.
Ejemplo
En nuestro ejemplo, todos los individuos del grupo 2 vuelven a su grupo inicial y se
reasignan a partir de la función discriminante. En cambio, 30 individuos del grupo 1 se
clasifican en el grupo 2, con lo que el porcentaje de individuos clasificados correctamente
en este grupo es del 80%. El porcentaje total de individuos correctamente clasificados es
del 90%. Este porcentaje se obtiene sumando los casos bien clasificados y dividiendo por
el número total de casos.
Podemos considerar válida la función discriminante.
Resultados del proceso de asignación.
La extensión del análisis discriminante a una variable que hay que explicar de
más de dos grupos incluye las mismas etapas.
4.3. Aplicaciones del análisis discriminante
Las aplicaciones habituales del análisis discriminante en investigación comer-

cial son las siguientes:
1) Determinar cuáles son las variables que explican mejor la pertenencia de

un individuo a un grupo determinado a priori. Por ejemplo, permite contestar
a las preguntas siguientes:
• ¿Cuáles son las variables fundamentales que explican el consumo de una

marca o de otra?
• ¿Hay diferencias entre innovadores y tradicionales de acuerdo con sus per-

files?
2) Determinar con una finalidad predictiva el grupo al cual pertenece un in-

dividuo pendiente de clasificación, ya sea porque durante la entrevista no ha
manifestado su grupo de pertenencia o porque es un individuo que no forma
parte de la muestra analizada: comprador nuevo de un producto, consumidor
nuevo, etc.
Ejemplo
Consideremos a un grupo de consumidores que consumen exclusivamente una de las

tres marcas siguientes: A, B o C Para cada uno de estos consumidores se dispone de una
información sobre determinadas características (variables de actitud, socioeconómicas,
etc.). Lo que nos permite el análisis discriminante es:
1. Encontrar, en una primera fase, cuáles son las variables fundamentales para explicar
el consumo de una marca o de otra.
2. Con posterioridad, mediante el estudio de los valores que toman estas variables para
un consumidor nuevo, el análisis discriminante predecirá, por medio de un proceso de
asignación idéntico al que se ha utilizado en la validación de las funciones discriminan-
tes (podéis consultar la etapa 5), la marca que comprará o bien la marca que tiene más
probabilidades de comprar.
Los ejemplos de aplicación con finalidad predictiva del análisis discriminante

abundan en investigación comercial, y pueden señalarse los siguientes: prede-
cir el riesgo (límite de crédito) que puede darse a un cliente en función de su
perfil socioeconómico, predecir la marca que comprará un comprador nuevo,
etc.
Glosario
algoritmo de clasificación Procedimiento de clasificación de los elementos en clústers
a partir de distancias calculadas. Nos centramos en los métodos jerárquicos de tipo acumu-
lativo.
análisis canónico Análisis de modelos multiecuacionales.
análisis clúster Técnica de agrupación de elementos en conglomerados que presenten una

homogeneidad interna.
análisis de correlación Análisis de la posible relación de linealidad entre dos variables

aleatorias. Análisis del tipo simétrico en que se quiere medir una relación de interdependen-
cia (X <–> Y).
análisis de correspondencias Análisis que busca la interdependencia entre dos clasifi-

caciones en una tabla de contingencia.
análisis de regresión lineal Análisis de la posible relación de dependencia lineal entre

dos variables aleatorias. Análisis de tipo asimétrico en que la dirección de la relación (X –
> Y) es fundamental.
análisis de regresión lineal múltiple Análisis de regresión lineal en el cual la variable

explicada (Y) se supone que lo es por un conjunto de K variables independientes (Xi).
análisis de los componentes principales Técnica de reducción de la dimensionalidad

del estudio mediante la retención de una parte de la información inicial.
análisis discriminante Análisis que permite diferenciar la pertenencia a grupos predefi-

nidos.
análisis factorial clásico Análisis que extrae factores subyacentes de la estructura de las
observaciones.
coeficiente de determinación Coeficiente que mide la bondad del ajuste lineal a los
datos; también mide lo que representa la variación explicada por la regresión (SCR) sobre la
variación total (SCT).
dendrograma Representación gráfica de la estructura jerárquica de la formación de los

grupos.
dispersión de los estimadores Dispersión que refleja su eficacia; cuanto más pequeña sea
esta variabilidad en torno a su valor esperado, más eficientes serán los estimadores. La medida
habitual de esta dispersión se realiza mediante el cálculo del error estándar del parámetro
estimado.
escalograma multidimensional Escalograma que reproduce percepciones subyacentes

en mapas multidimensionales.
estimadores mínimos-cuadráticos ordinarios Estimadores de los K parámetros β i de

la ecuación del MRLM que han sido obtenidos mediante el criterio de minimización de la
suma de los residuos del ajuste al cuadrado.
estimador de la varianza de la perturbación La estimación de la varianza de la per-

turbación aleatoria β2 es SCE / n – K.
interpretación de los factores Interpretación que se realiza a partir de la proyección de

los elementos en el nuevo sistema de ejes y de la correlación que presentan los componentes
y las variables.
medida de disimilitud o de distancia Medida que da la desigualdad entre los elementos

observados. Consideramos los criterios de distancia euclidiana, de distancia euclidiana al
cuadrado, de City-Block, etc.
métodos de fusión de grupos Criterios de agregación de clústers; distinguimos entre el

método de las distancias mínimas, el de las distancias máximas y el de las distancias medias.
modelo de regresión Instrumento estadístico para llevar a cabo un análisis de regresión

de tipo inferencial y para contrastar y cuantificar una relación de dependencia lineal entre
dos variables. En concreto, se trata de una ecuación de regresión y de una serie de hipótesis
sobre los diferentes elementos (parámetros y variables) que la componen.
modelo de regresión lineal múltiple Modelo que comprende una ecuación de regre-
sión y unas hipótesis sobre los diferentes componentes: las K variables explicativas que se
supone que son fijas, la variable dependiente y el término de perturbación son aleatorios, y
los parámetros del modelo son β i y β2.
tablas de perfiles Tablas que proporcionan medidas descriptivas de cada clúster para con-
seguir una mejor lectura del análisis.
término de perturbación Variable aleatoria que reúne la desviación entre el valor obser-
vado (Yi) y el valor esperado (α + β Xi) de la variable que se tiene que explicar (Y); incorpora
errores de medida en las variables del modelo, factores aleatorios no incluidos en la parte
sistemática del modelo, preferencias individuales, etc.
valores propios Soluciones a la ecuación | R – λ I | = 0 que determinan la capacidad expli-

cativa de los componentes principales.
vectores característicos Vectores que contienen los coeficientes de las relaciones entre
los componentes y las variables.
Bibliografía
Abascal, E.; Grande, I. (1989). Métodos multivariantes para la investigación comercial. Barce-
lona: Ariel Economía.
Manual aplicado que incluye contenidos de los apartados 2 (“Análisis de componentes prin-
cipales”) y 3 (“Análisis clúster”) del módulo “Análisis múltiple de datos” con numerosos
ejemplos de aplicación a la investigación de mercados.
Canavos, G.C. (1990). Probabilidad y estadística. Aplicaciones y métodos. Méjico: McGraw

Hill.
Manual teoricopráctico de nivel medio, con un buen desarrollo formal de los métodos esta-
dísticos. Reúne, de manera extensa, los contenidos del módulo “Cálculo de probabilidades y
ampliaciones de inferencia estadística” y los del apartado “El modelo de regresión múltiple”
del módulo “Análisis múltiple de datos”.
Martín Guzmán, P.; Martín Pliego, F.J. (1985). Curso básico de estadística económica.
Madrid: Editorial AC.
Manual de introducción a la materia que incluye los contenidos del módulo “Índices y series”
y, parcialmente, los del módulo “Análisis múltiple de datos”.
Martín Pliego, F.J. (1994). Introducción a la estadística económica y empresarial. Madrid:

Editorial AC.
Manual teoricopráctico con una extensa colección de problemas resueltos de estadística eco-
nómica. Incluye los contenidos del módulo “Índices y series” y, parcialmente, los contenidos
de los otros dos módulos.

Pid 00212753-5 PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Pid 00212753-5 PDF

Cargado por

Copyright:

Formatos disponibles

Introducción al

1. Análisis de componentes principales............................................ 7

Los fenómenos de naturaleza económica o social muestran gran complejidad La bolsa

No sólo la Bolsa o la estructura empresarial de un sector, sino cualquier acti-

De hecho, el análisis�de�la�varianza que acabamos de estudiar puede ser un

El primer apartado está dedicado al análisis�de�componentes�principales co-

En el segundo apartado de este módulo estudiaremos el análisis�clúster o téc-

Para finalizar, mencionamos otros métodos de análisis multivariante que en

1. Análisis de componentes principales

Cuando obsevamos pocas variables en un colectivo de elementos, es relativa-

Si hubiésemos observado dos variables: cifra de negocio y beneficios, también

Incluso con tres variables (cifra de negocio, beneficios y gastos en publicidad)

Si después de estudiar una veintena de variables sobre las empresas viticulto-

Las cuestiones que surgen ahora son:

1) Al pasar de las ocho variables iniciales a tres indicadores nuevos, se pierde

2) La etiqueta o concepto que asociamos a los indicadores nuevos no viene

que argumentéis la necesidad de hacer más fácil el estudio disminuyendo el número de

En este apartado del análisis de componentes principales aprenderéis:

• Cuál es el objetivo del análisis de los componentes principales: la

• Cuál es el procedimiento para la obtención de los componentes

• Cómo se interpretan los resultados obtenidos en el análisis.

1.1. Matriz de datos y objetivos del análisis

Se tiene una muestra (o población) de I elementos en los cuales se han medido

I1 X11 X12 ... X1j ... X1J

I2 X21 X22 ... X2j ... X2J

... ... ... ... ... ... ...

... ... ... ... ... ... ...

El análisis de componentes principales pretende reducir la dimensiona-

• Los componentes principales son combinaciones lineales de las va-

• Los componentes principales no están en correlación entre sí.

• El número de componentes principales debe ser, a la vez, pequeño

Se trata, pues, de una técnica de condensación de datos en la que:

Nos planteamos encontrar estos componentes en una cantidad suficiente para

Después de haber realizado la actividad anterior, imaginaos qué fácil sería si

Z1 = tiempo dedicado a la UOC,

Z2 = capacidad del estudiante,

y que, además, éstas fuesen cuestiones independientes. Tendríamos resuelto el

Sin entrar en la formalización del procedimiento, veamos cuáles serían los

1.2. Procedimiento para la obtención de los componentes

Los pasos que se deben seguir son:

1) Obtención de la matriz�de�coeficientes�de�correlación entre todas las va- Nota

Notad que la suma de todas

3) La dispersión total de las J variables observadas constituye la información de

Así pues, el primer componente absorbe una proporción de λ1/ J de la infor-

Lógicamente, las J variables admiten hasta J componentes, y retienen el 100%

hay que obtener los vectores�característicos que contienen los coeficientes

de manera que estén normalizados y que sean independientes de los

y así sucesivamente hasta encontrar los vectores característicos de todos los

Ahora, los nuevos factores resultantes son independientes:

5) Podemos proyectar�las�observaciones en un nuevo sistema de ejes sustitu-

Caja Ratio 1 (X1) Ratio 2 (X2) Ratio 3 (X3)

Comprobad cómo el primer factor es capaz de absorber prácticamente el 98% de la in-

Obtened el vector característico asociado a Z1; veréis que resulta la ecuación:

Z1 = 0,571X1 – 0,581X2 – 0,579X3

Z3 = – 0,817X1 + 0,332X2 + 0,472X3

Z1 = 0,082X1 – 0,734X2 – 0,664X3

También podríamos demostrar el cumplimiento de las condiciones exigidas a los vecto-

1.3. Interpretación de los resultados

La interpretación de los componentes es fácil de conseguir en teoría, pero nor-

Suponed que, estudiando las estadísticas de los municipios españoles y apli-

Así, para las J variables y para los componentes seleccionados, tendríamos:

El signo y la magnitud de las correlaciones son fundamentales para dar

Z1 debe tener un significado estrechamente vinculado a las variables