Está en la página 1de 78

Introducción al

análisis
multivariante
Ramon Alemany Leira
Joan Baró Llinàs
Francesc Camp Torres
PID_00212764
© FUOC • PID_00212764 Introducción al análisis multivariante

Ninguna parte de esta publicación, incluido el diseño general y la cubierta, puede ser copiada,
reproducida, almacenada o transmitida de ninguna forma, ni por ningún medio, sea éste eléctrico,
químico, mecánico, óptico, grabación, fotocopia, o cualquier otro, sin la previa autorización escrita
de los titulares del copyright.
© FUOC • PID_00212764 Introducción al análisis multivariante

Índice

Introducción............................................................................................... 5

1. Análisis de componentes principales............................................ 7


1.1. Matriz de datos y objetivos del análisis ...................................... 9
1.2. Procedimiento para la obtención de los componentes
principales ................................................................................... 11
1.3. Interpretación de los resultados .................................................. 14
1.4. Resumen ...................................................................................... 25
1.5. Ejercicios de autoevaluación ....................................................... 25
1.6. Solucionario ejercicios de autoevaluación .................................. 27

2. Análisis clúster.................................................................................... 31
2.1. Medidas de disimilitud ............................................................... 32
2.2. Algoritmo de clasificación .......................................................... 35
2.3. Presentación de los resultados .................................................... 37
2.4. Otras consideraciones ................................................................. 37
2.5. Otros métodos de análisis multivariante .................................... 44
2.6. Resumen ...................................................................................... 46
2.7. Ejercicios de autoevaluación ....................................................... 46
2.8. Solucionario ejercicios de autoevaluación .................................. 47

3. Análisis factorial................................................................................ 49
3.1. Cuándo tenemos que utilizar el análisis factorial ....................... 49
3.2. Metodología del análisis factorial ............................................... 51
3.3. Aplicaciones del análisis factorial ............................................... 61

4. Análisis discriminante...................................................................... 62
4.1. Cuándo tenemos que utilizar el análisis discriminante .............. 62
4.2. Metodología del análisis discriminante ...................................... 63
4.3. Aplicaciones del análisis discriminante ...................................... 72

Glosario........................................................................................................ 75

Bibliografía................................................................................................. 77
© FUOC • PID_00212764 5 Introducción al análisis multivariante

Introducción

Los fenómenos de naturaleza económica o social muestran gran complejidad La bolsa


debido al número de factores y de características que contienen. Cualquier
¿Os habéis planteado alguna
intento de análisis sobrepasa las posibilidades del investigador, aunque sea vez explicar el comportamien-
muy experimentado. to de la Bolsa? Una lista ilimita-
da de circunstancias y variables
describe el comportamiento.
Además, muchas de estas va-
Reunir las empresas de una actividad industrial para establecer alguna tipo- riables están interrelacionadas
y resulta difícil averiguar rela-
logía o bien para intentar explicar algún ratio de rentabilidad exige hacer el ciones causa-efecto.
recuento de una gran cantidad de características, algunas de las cuales se ob-
tienen a partir del balance de situación y otras a partir de los resultados de
explotación, de la estructura comercial, etc.; al final resulta una amalgama de
datos difícilmente interpretables por medio de un análisis simple.

No sólo la Bolsa o la estructura empresarial de un sector, sino cualquier acti-


vidad económica o de otro tipo está influida por muchos otros fenómenos
relacionados los unos con los otros; se necesitan técnicas más potentes que
las estudiadas en un curso de introducción a la estadística para poder analizar
conjuntos múltiples de datos.

De hecho, el análisis�de�la�varianza que acabamos de estudiar puede ser un


buen ejemplo de técnica multivariante porque está dedicada a cuantificar el
efecto de varios factores sobre los resultados observados; por tanto, lo tenemos
que considerar como una parte de la asignatura que está en relación con los
dos módulos.

El primer apartado está dedicado al análisis�de�componentes�principales co-


mo técnica derivada del llamado análisis factorial para la sintetización de re-
sultados múltiples, en que se retiene, de la información disponible, lo funda-
mental. Si sometemos a un grupo de estudiantes de bachillerato a una serie de
ochenta preguntas, dispondremos de mucha información para evaluar el ren-
dimiento escolar, pero esta información es difícilmente digerible; en cambio,
el análisis de componentes permite resumir gran parte de esta información,
por ejemplo en tres indicadores: capacidad de trabajo, capacidad de razona-
miento y capacidad memorística; de esta forma, el tratamiento estadístico será
mucho más ágil.

En el segundo apartado de este módulo estudiaremos el análisis�clúster o téc-


nica de formación de grupos de datos homogéneos, que permitirá elaborar
clasificaciones y tipologías de mucha utilidad en el marketing y otras aplica-
ciones de la investigación comercial: perfiles de compradores, segmentación
de mercados, competitividad entre marcas y un largo etcétera.
© FUOC • PID_00212764 6 Introducción al análisis multivariante

Para finalizar, mencionamos otros métodos de análisis multivariante que en


muchos casos tienen una base teórica común y un dominio aplicado también
común, y nos centraremos en el análisis factorial y el análisis discriminante.
© FUOC • PID_00212764 7 Introducción al análisis multivariante

1. Análisis de componentes principales

AUTORES:
Ramon�Alemany�Leira
Joan�Baró�Llinàs

COLABORACIÓN:
Elena�Rico�Gómez

Cuando obsevamos pocas variables en un colectivo de elementos, es relativa-


mente cómodo ordenar los datos y hacer grupos de comportamiento homo-
géneo. La cuestión se complica cuando el número de variables observadas es
tan grande que no permite una lectura fácil a partir de las simples representa-
ciones gráficas o de las medidas clásicas de descripción. Es entonces cuando
hay que utilizar métodos de síntesis de la gran cantidad de información dis-
ponible, reducir el número de variables y poner la información más al alcance
del analista.

Si sobre todo el censo o sobre una muestra de empresas viticultoras del Alto
Penedés calculásemos la cifra de negocio de cada una, podríamos representar
los resultados en un diagrama de puntos:

Si hubiésemos observado dos variables: cifra de negocio y beneficios, también


sería fácil su representación gráfica como una nube de puntos en un plano:
© FUOC • PID_00212764 8 Introducción al análisis multivariante

Incluso con tres variables (cifra de negocio, beneficios y gastos en publicidad)


podríamos intentar realizar una clasificación de las empresas que las agrupase
de acuerdo con estos tres criterios, sin embargo, no olvidemos que, a medida
que aumentase el número de indicadores, también aumentaría la dificultad de
describir el comportamiento de las empresas.

Es lógico pensar que este tipo de estudios es multidimensional y un análisis Análisis de componentes
exhaustivo exigiría la observación de muchas variables: costes, plantilla, in- principales

versiones, márgenes comerciales, gastos de promoción, existencias, etc. La lista El análisis de componentes
de indicadores puede ser tan larga como se quiera; cuantas más variables haya, principales presenta numero-
sas aplicaciones en el marke-
más información y, a la vez, más complicación tendrá el analista. Ahora, las ting, como pueden ser la seg-
mentación de mercados, las
técnicas clásicas de descripción ya aprendidas son insuficientes; hay que recu- tipologías de productos y de
empresas y las preferencias de
rrir a métodos que disminuyan la dimensionalidad del estudio, que lo hagan los consumidores. La meto-
más fácil y que también retengan la mayor parte de la información contenida dología del ACP es uno de los
instrumentos más valiosos en
en las variables observadas inicialmente. Uno de estos métodos es el análisis los estudios de mercado.
de�componentes�principales�(ACP).

Si después de estudiar una veintena de variables sobre las empresas viticulto-


ras del Alto Penedés fuésemos capaces de reducirlas, por ejemplo, sólo a tres
indicadores de síntesis de todas las variables observadas: dimensión de la em-
presa, productividad y análisis financiero, habríamos conseguido hacer com-
prensibles los resultados.

Las cuestiones que surgen ahora son:

1) Al pasar de las ocho variables iniciales a tres indicadores nuevos, se pierde


una parte de la información que tenemos (lógicamente, se perderá más infor-
mación cuantos menos ejes queramos utilizar).

2) La etiqueta o concepto que asociamos a los indicadores nuevos no viene


dada a priori, sino que se les atribuye un significado después de observar la re-
lación funcional entre componentes nuevos (indicadores) y las variables ini-
ciales, lo cual no siempre es fácil.

3) Una ventaja que se deriva de esta reducción de ejes es que ahora los nuevos
componentes son independientes entre sí y este hecho es importante porque
anula la posibilidad de que se sobrepongan conceptos.

Actividad

1.1. Imaginaos que queréis describir a los estudiantes matriculados en la UOC en la di-
plomatura de Empresariales. ¿Qué variables podríais utilizar? Al final saldría una lista
larguísima: edad, altura, número de calzado, ..., asignaturas elegidas, horas de estudio,
conexiones realizadas, .., nivel de renta, gastos de ocio, ..., inteligencia, agresividad, ...

Suponiendo que nos limitemos únicamente a cuestiones académicas, indicad una docena
de variables que sean objetivamente evaluables, pasad la encuesta a un grupo de compa-
ñeros y haced una lista de los resultados. Comprobad cómo una información tan amplia
sobrepasa el ojo clínico de cualquier analista, aunque sea experimentado.

¿Se da duplicidad en la información por una cierta redundancia en las preguntas? Las
correlaciones entre las variables observadas os pueden dar la respuesta. Ahora es necesario
© FUOC • PID_00212764 9 Introducción al análisis multivariante

que argumentéis la necesidad de hacer más fácil el estudio disminuyendo el número de


variables que hay que utilizar y evitando duplicidades en las cuestiones.

En este apartado del análisis de componentes principales aprenderéis:

• Cuál es el objetivo del análisis de los componentes principales: la


reducción de la dimensionalidad de los datos.

• Cuál es el procedimiento para la obtención de los componentes


principales.

• Cómo se interpretan los resultados obtenidos en el análisis.

1.1. Matriz de datos y objetivos del análisis

Se tiene una muestra (o población) de I elementos en los cuales se han medido


J variables con el objetivo de explicar un comportamiento determinado o de
agruparlos en categorías y se ha llegado a la matriz de información (Xij), con
las variables dispuestas por columnas y los elementos por filas:

X1 X2 ... Xj ... XJ

I1 X11 X12 ... X1j ... X1J

I2 X21 X22 ... X2j ... X2J

... ... ... ... ... ... ...

Ii Xi 1 Xi 2 ... Xi j ... Xi J

... ... ... ... ... ... ...

II XI 1 XI 2 ... XI j ... XI J
© FUOC • PID_00212764 10 Introducción al análisis multivariante

El análisis de componentes principales pretende reducir la dimensiona-


lidad de la matriz de datos hasta conseguir un número inferior de va-
riables nuevas (Zj) o componentes principales con las características si-
guientes:

• Los componentes principales son combinaciones lineales de las va-


riables originales.

• Los componentes principales no están en correlación entre sí.

• El número de componentes principales debe ser, a la vez, pequeño


(para que el análisis sea eficaz) y suficiente (para absorber la mayor
parte de la información de las variables iniciales).

Se trata, pues, de una técnica de condensación de datos en la que:

Nos planteamos encontrar estos componentes en una cantidad suficiente para


hacer viable el estudio, cómoda la lectura y alta la capacidad explicativa.

Después de haber realizado la actividad anterior, imaginaos qué fácil sería si


hubiese resultado que la mayor parte de la información contenida en aquellas
doce variables iniciales la pudiésemos sintetizar en dos componentes:

Z1 = tiempo dedicado a la UOC,

Z2 = capacidad del estudiante,

y que, además, éstas fuesen cuestiones independientes. Tendríamos resuelto el


problema; los estudiantes se encontrarían localizados en un sistema bivariante
de coordenadas y podrían ser clasificados con facilidad.
© FUOC • PID_00212764 11 Introducción al análisis multivariante

Sin entrar en la formalización del procedimiento, veamos cuáles serían los


pasos que se deben seguir para determinar los componentes principales y para
facilitar su lectura.

1.2. Procedimiento para la obtención de los componentes


principales

Los pasos que se deben seguir son:

1) Obtención de la matriz�de�coeficientes�de�correlación entre todas las va- Nota


riables:
De hecho, podríamos haber
trabajado con la matriz de va-
rianzas y de covarianzas; no
obstante, al fin y al cabo, una
correlación no es más que una
covarianza con variables estan-
darizadas.

2) Se calculan los valores�propios a partir de los resultados de λ en la ecuación: En los valores propios

Notad que la suma de todas


las soluciones coincide con el
número de variables observa-
das:
λ1 + λ2 + ... + λ J = J
Los valores propios están vinculados a los componentes principales que bus-
camos. El valor propio mayor λ1 se asocia al primer componente Z1, el siguien-
te λ2 a Z2, etc.

3) La dispersión total de las J variables observadas constituye la información de


que disponemos inicialmente. Puesto que trabajamos con variables tipificadas,
la suma de las varianzas será J, cifra que hemos repartido entre los nuevos
factores principales.
© FUOC • PID_00212764 12 Introducción al análisis multivariante

Así pues, el primer componente absorbe una proporción de λ1/ J de la infor-


mación inicial, los dos primeros componentes absorben una proporción de (λ1
+ λ2)/ J del total y, si tomásemos l componentes, esta proporción retenida sería:

Esta expresión se tiene que entender como la capacidad explicativa de los com-
ponentes Z1, Z2, ..., Zl, que permite determinar el número�de�componentes
principales que necesitamos para conseguir una determinada bondad en el
estudio.

Lógicamente, las J variables admiten hasta J componentes, y retienen el 100%


de la información, pero no habríamos ganado nada si hubiésemos pasado a un
nuevo sistema J-dimensional. Se trata de quedarnos con pocos componentes
y, a la vez, retener la máxima información posible.

4) Para calcular las funciones que determinan cada uno de los componentes:

hay que obtener los vectores�característicos que contienen los coeficientes


de las ecuaciones:

de manera que estén normalizados y que sean independientes de los

otros vectores :

y así sucesivamente hasta encontrar los vectores característicos de todos los


componentes principales que hayamos fijado.
© FUOC • PID_00212764 13 Introducción al análisis multivariante

Ahora, los nuevos factores resultantes son independientes:

5) Podemos proyectar�las�observaciones en un nuevo sistema de ejes sustitu-


yendo simplemente los datos iniciales –estandarizados convenientemente– en
las ecuaciones respectivas; se comprobará con facilidad que los nuevos datos
presentan un valor medio igual a cero:

Actividad

1.2. Suponemos tres ratios financieras calculadas sobre cinco cajas de ahorros:

Caja Ratio 1 (X1) Ratio 2 (X2) Ratio 3 (X3)

A 23 22 45

B 45 38 74

C 34 24 47

D 19 7 15

E 52 44 83

Calculad las correlaciones que se dan entre las tres variables y obtened los valores propios
λ1, λ2 y λ3.

Comprobad cómo el primer factor es capaz de absorber prácticamente el 98% de la in-


formación total, lo cual justifica que calculemos sólo un componente principal Z1.

Obtened el vector característico asociado a Z1; veréis que resulta la ecuación:

Z1 = 0,571X1 – 0,581X2 – 0,579X3

Proyectad las cinco cajas de ahorros sobre el nuevo eje y veréis la ordenación conseguida
(recordad que es necesario sustituir X1, X2 y X3 por los valores estandarizados).

Si hubieseis calculado los tres componentes Z2 y Z3, veríais que salen las ecuaciones si-
guientes:

Z3 = – 0,817X1 + 0,332X2 + 0,472X3

Z1 = 0,082X1 – 0,734X2 – 0,664X3

Podríais proyectar las cinco cajas en cada uno de los nuevos factores; comprobad que
ahora los resultados tienen una media de cero y que no están en correlación.

También podríamos demostrar el cumplimiento de las condiciones exigidas a los vecto-


res:
© FUOC • PID_00212764 14 Introducción al análisis multivariante

1.3. Interpretación de los resultados

Si trabajamos con menos ejes, será más fácil agrupar los resultados y clasificar-
los en categorías. Sin embargo, esto será eficaz en la medida en que sepamos
qué quieren decir estos nuevos componentes principales y, por tanto, las tipo-
logías de los diferentes grupos que salen. Resulta poco útil formar categorías
de elementos sin saber a qué criterio responden.

La interpretación de los componentes es fácil de conseguir en teoría, pero nor-


malmente es bastante difícil en la práctica. Se puede hacer una primera apro-
ximación a partir de las proyecciones conseguidas de los elementos; según si
somos más o menos conocedores de la realidad que analizamos, puede ser bas-
tante esclarecedora la posición que ocupan los elementos en cada nuevo eje.

Suponed que, estudiando las estadísticas de los municipios españoles y apli-


cando un análisis de componentes principales, Z1 tiene valores altos para: San-
tander, Barcelona, Alicante, Cádiz... y muy bajos para León, Madrid, Jaén, Al-
bacete... Empezaréis a pensar que seguramente Z1 se identifica con algún con-
cepto que mide la distancia del municipio al mar.

De forma análoga, las proyecciones sobre Z2, Z3, ... pueden ayudar a interpretar
el concepto que traducen.

De todos modos, será más definitivo el estudio de las correlaciones entre las Recordad
variables X1, X2, ..., XJ y los componentes encontrados Z1, Z2, ..., ZJ.
Cada componente es una
combinación lineal de todas
las variables, pero siempre hay
Definimos la correlación entre Xj y Zl a partir de la relación: algunas de mayor peso que-
pueden ser relevantes para eti-
quetar el componente.

Así, para las J variables y para los componentes seleccionados, tendríamos:


© FUOC • PID_00212764 15 Introducción al análisis multivariante

El signo y la magnitud de las correlaciones son fundamentales para dar


significado a los componentes; las correlaciones extremas son aquellas
que marcan la etiqueta de cada nuevo factor.

Z1 debe tener un significado estrechamente vinculado a las variables


con las que esté más relacionada: directamente cuando la correlación
sea positiva e inversamente cuando sea negativa; lógicamente, Z1 es un
factor que no tiene nada que ver con las variables que presenten corre-
lación muy baja.

Actividad

1.3. Suponemos que sobre veinticinco modelos de automóviles hemos observado quin-
ce características: velocidad máxima, capacidad del maletero, consumo de gasolina por
ciudad, etc. Esto nos ha permitido hacer un ACP a partir del cual hemos seleccionado
dos componentes Z1 y Z2 que retienen el 82,3% de la información inicial.

No disponemos de la proyección de los diferentes modelos en los nuevos ejes, pero sí


de las correlaciones entre las quince características observadas y los componentes, de las
cuales hemos seleccionado las más relevantes.

Z1 está muy correlacionada con: la cilindrada, la aceleración, el consumo de carburante


a 90 km/h y el consumo de carburante a 20 km/h.

Z2 está muy correlacionada con: la longitud del coche, la distancia entre los ejes de las
ruedas y la medida de las ruedas.

¿Qué interpretación tendríais que hacer de Z1 y Z2 que permitiese obtener una descrip-
ción fácil de los veinticinco coches observados?

Llegaréis con facilidad a la conclusión de que Z1 es un identificador de la potencia y de


las prestaciones mecánicas, y que Z2 se asocia con las dimensiones del coche.

Ejemplo

Realizamos ahora un ejemplo simulado, paso a paso, de fácil solución sin te-
ner que utilizar el soporte informático. Tenemos veintiséis municipios para
los cuales hemos calculado la distribución porcentual del voto en las últimas
elecciones al Parlamento de Cataluña:

Municipio CiU PSC PP ERC ICV Otros

1 32 37 11 6 9 5

2 42 20 8 13 12 5
© FUOC • PID_00212764 16 Introducción al análisis multivariante

Municipio CiU PSC PP ERC ICV Otros

3 27 41 12 3 7 10

4 48 32 6 8 6 1

5 33 25 20 4 12 6

... ... ... ... ... ... ...

26 53 21 4 12 9 1

Queremos hacer un ACP que ofrezca una lectura más cómoda de los resultados
de la votación.

La matriz de coeficientes de correlación entre las variables ha dado los resul-


tados siguientes:

CiU PSC PP ERC ICV Otros

CiU 1,000

PSC –0,654 1,000

PP –0,755 0,185 1,000

ERC 0,808 –0,760 –0,731 1,000

ICV –0,097 –0,671 0,452 0,264 1,000

Otros –0,918 0,521 0,628 –0,653 0,127 1

Ahora ya podemos obtener los valores propios de cada componente:

La solución de este determinante nos lleva a una ecuación de sexto grado del
tipo:

que admite seis raíces:


© FUOC • PID_00212764 17 Introducción al análisis multivariante

Si sólo retenemos un componente principal, podríamos absorber el 3,69/6 =


61,5% de toda la información; y si tomamos dos, el (3,69 + 1,776)/6 = 91,1%.
Resulta lógico que cuantos más componentes haya, se tendrá más bondad en
el análisis, pero, en cambio, la interpretación será más difícil.

Para calcular el primer componente:

Z1 = u11CiU + u12PSC + u13PP + u14ERC + u15ICV + u16Otros

tenemos que obtener el vector característico:

Si resolvemos el sistema, obtenemos:

Operaríamos de manera análoga para conseguir el segundo componente:

Z2 = u21CiU + u22PSC + u23PP + u24ERC + u25ICV + u26Otros

y obtendríamos:
© FUOC • PID_00212764 18 Introducción al análisis multivariante

Los dos componentes encontrados son:

Z1 = 0,704 CiU – 0,283 PSC + ... – 0,155 Otros (61,5% de bondad)

Z2 = 0,602 CiU – 0,791 PSC + ... – 0,136 Otros (29,6% de bondad)

sobre los cuales se proyectan las estandarizaciones de los resultados de los seis
municipios.

Así, en los nuevos ejes, las proyecciones del primer municipio son:

y para todos los municipios observados tendríamos:

Municipio Z1 Z2

1 0,11 –0,23

2 1,25 0,17

3 –1,31 –1,35

4 1,46 0,95

5 –0,85 1,21

... ... ...

26 2,17 –0,46

Podríamos comprobar que:

Caben interpretaciones de los componentes según la correlación que presen-


tan con las variables observadas; entre otros cálculos, obtendríamos:
© FUOC • PID_00212764 19 Introducción al análisis multivariante

y, para todos los casos, lo que se muestra en el siguiente cuadro de correlacio-


nes:

Z1 Z2

CiU 0,552 0,383

PSC –0,223 –0,430

PP –0,806 0,512

ERC 0,792 –0,427

ICV 0,211 –0,816

Otros –0,123 –0,074

Se podría hacer la siguiente interpretación del mismo:

Z1 = voto nacionalista,

Z2 = voto conservador,

que vuelve a situar los veintiséis municipios de acuerdo con estos dos criterios
y que permite un análisis más cómodo que el que se conseguiría con la infor-
mación inicial:

Actividades

1.4. Hemos realizado un estudio acerca de diferentes aspectos relativos a diez grandes
superficies de venta y hemos valorado de 0 a 10 las cuestiones siguientes:

• Facilidad de acceso al complejo comercial (A).


© FUOC • PID_00212764 20 Introducción al análisis multivariante

• Comodidad de aparcamiento (B).


• Bondad de los precios (C).
• Calidad de los productos (D).
• Servicio de guardería (E).
• Ofertas y promociones de artículos (F).
• Variedad de productos (G).
• Área de descanso y de ocio (H).

Hemos llegado a los siguientes resultados valorativos:

Cuadro de puntuaciones:

A B C D E F G H

1 6 9 8 7 6 7 9 6

2 7 9 5 3 7 5 4 7

3 6 8 5 3 7 4 4 6

4 5 5 7 2 4 4 3 4

5 6 7 9 9 7 8 9 5

6 8 9 9 7 7 7 8 8

7 2 1 5 6 2 4 5 3

8 7 8 3 2 6 2 3 6

9 4 3 8 6 2 9 7 4

10 5 6 7 7 4 8 8 6

Si calculáis la correlación entre todas estas características, comprobaréis que hay variables
muy correlacionadas etre sí y que, por tanto, hay mucha información redundante.

Correlaciones entre variables:

A B C D E F G H

A 1,000

B 0,941 1,000

C 0,077 0,040 1,000

D –0,136 –0,097 0,751 1,000

E 0,882 0,926 0,022 –0,052 1,000

F –0,051 –0,053 0,846 0,805 –0,132 1,000

G 0,053 0,115 0,812 0,949 0,067 0,868 1,000

H 0,903 0,894 0,073 0,000 0,792 0,064 0,18 1,000

Para simplificar los resultados de este estudio, tenéis que efectuar un análisis de los com-
ponentes principales. Veréis que podéis llegar a obtener hasta ocho valores propios (λj).

Valor�propio 3,7031 3,5150 0,3285 0,2535 0,0958 0,0608 0,0422 0,0013

Proporción 0,463 0,439 0,041 0,032 0,012 0,008 0,005 0,000


© FUOC • PID_00212764 21 Introducción al análisis multivariante

Acumulativa 0,463 0,902 0,943 0,975 0,987 0,995 1,000 1,000

Ahora tendríais que justificar que os decidís sólo por dos factores principales (Z1 y Z2) y
después tendríais que encontrar sus vectores característicos:

Variable CP1 CP2

Acceso –0,489 –0,132

Aparcamiento –0,496 –0,124

Precios –0,136 0,463

Calidad –0,072 0,496

Guardería –0,471 –0,134

Promoción –0,088 0,494

Variedad –0,169 0,490

Descanso –0,483 –0,073

Esto os tiene que permitir proyectar las diez grandes superficies del estudio en un sistema
de dos dimensiones y discutir las posiciones que ocupan según los nuevos indicadores Z1
y Z2. Os pueden ayudar las correlaciones, que calcularéis entre las ocho variables iniciales
y los componentes nuevos.

A B C D E F G H

Z1 –0,942 –0,955 –0,262 –0,138 –0,906 –0,169 –0,325 –0,929

Z2 –0,247 –0,233 0,868 0,930 –0,252 0,926 0,918 –0,136

A continuación únicamente falta identificar los conceptos que engloban tanto Z1 como
Z2.

Veréis que Z1 se asocia a aspectos complementarios y de servicios, mientras que Z2 es un


indicador de mercado.

1.5. El cuadro que se muestra a continuación recopila los resultados conseguidos por un
grupo de quince adolescentes en las pruebas atléticas siguientes:

P1: 100 metros lisos (en segundos).

P2: 200 metros lisos (en segundos).

P3: lanzamiento de peso (en metros).

P4: lanzamiento de disco (en metros).

P5: salto de longitud (en metros).

P6: 3.000 metros lisos (en minutos).

P7: salto de altura (en metros).

P8: 5.000 metros lisos (en minutos).

P9: triple salto (en metros).

P10: jabalina (en metros).

P11: 50 metros lisos (en segundos).


© FUOC • PID_00212764 22 Introducción al análisis multivariante

P1 P2 P3 P4 P5 P6

1 13,4 28,8 7,32 37,40 3,93 14,518

2 13,9 29,7 7,09 34,15 4,11 14,658

3 14,8 31,4 8,71 43,55 4,45 16,870

4 12,9 27,9 5,78 30,05 3,70 19,502

5 13,3 28,5 5,99 29,95 3,87 16,770

6 15,1 32,5 6,14 32,10 5,02 15,778

7 13,8 29,4 6,67 33,35 4,05 15,302

8 12,9 27,7 8,73 44,10 3,91 18,347

9 15,0 31,9 6,45 32,25 4,87 19,418

10 14,4 30,3 9,11 45,60 4,23 14,826

11 14,1 30,1 6,34 31,70 4,71 18,606

12 12,8 28,0 6,80 34,25 3,77 15,812

13 15,0 31,9 9,14 45,70 4,55 17,962

14 13,6 29,1 9,08 45,95 3,99 18,298

15 13,1 28,3 7,32 36,60 3,86 14,733

P7 P8 P9 P10 P11

1 1,43 21,2484 9,04 67,32 7,80

2 1,61 21,5004 9,32 61,47 8,05

3 1,60 25,4820 10,00 78,39 8,35

4 1,35 30,2196 8,50 55,18 7,55

5 1,37 25,3020 9,07 56,12 7,75

6 1,70 23,5164 10,35 56,89 8,65

7 1,55 22,6596 9,20 60,03 8,00

8 1,41 28,1406 8,92 77,23 7,55

9 1,78 30,0684 10,38 58,05 8,60

10 1,73 21,8028 9,71 79,15 8,25

11 1,76 28,6068 10,52 57,06 8,15

12 1,27 23,5776 8,70 61,65 7,50

13 1,69 27,4476 10,20 80,69 8,55

14 1,49 28,0524 9,17 82,71 7,90

15 1,36 21,6354 8,76 65,88 7,65


© FUOC • PID_00212764 23 Introducción al análisis multivariante

Para elaborar una clasificación más cómoda de los participantes, hemos decidido efec-
tuar un análisis de los componentes principales. Veréis que salen los valores propios si-
guientes:

Valor propio Proporción Acumulativa

0,7580 0,523 0,523

2,9796 0,271 0,794

1,9462 0,177 0,971

0,1850 0,017 0,988

0,0976 0,009 0,997

0,0242 0,002 0,999

0,0042 0,000 1,000

0,0024 0,000 1,000

0,0015 0,000 1,000

0,0012 0,000 1,000

0,0000 0,000 1,000

Teniendo en cuenta estos resultados, tenéis que justificar que os quedáis sólo con tres
factores principales, a los cuales corresponderán los coeficientes que vemos aquí (vectores
característicos):

Variable CP1 CP2 CP3

100 m (P1) –0,407 0,000 0,094

200 m (P2) –0,403 0,034 0,098

Lanz. de peso (P3) –0,085 –0,564 –0,057

Lanz. de disco (P4) –0,083 –0,563 –0,076

Salto de lon- –0,395 0,135 0,014


gitud (P5)

3.000 m (P6) –0,087 0,098 –0,690

Salto de altura (P7) –0,390 0,028 0,043

5.000 m (P8) –0,087 0,098 –0,690

Triple salto (P9) –0,402 0,072 –0,005

Jabalina (P10) –0,071 0,565 –0,091

50 m (P11) –0,408 0,028 0,095

Si partimos de las ecuaciones que caracterizan a los componentes, encontraremos la pro-


yección de cada atleta en los nuevos ejes (después de haber tipificado los resultados en
cada prueba):

Atleta Z1 Z2 Z3

1 1,65511 –0,47131 1,51021


© FUOC • PID_00212764 24 Introducción al análisis multivariante

Atleta Z1 Z2 Z3

2 0,25803 0,42526 1,72854

3 –2,19657 –1,63623 –0,02101

4 2,92188 1,93690 –2,22897

5 2,06382 1,64760 –0,01841

6 –3,32226 1,93981 1,48237

7 0,68917 0,78782 1,21968

8 1,95017 –1,92668 –1,84459

9 –3,51133 2,06703 –1,37375

10 –1,40265 –2,38132 1,38170

11 –1,93254 2,02394 –1,06570

12 3,17963 0,35715 0,40038

13 –3,22884 –1,94573 –0,79644

14 0,39772 –2,44456 –1,62322

15 2,47865 –0,37968 1,24922

La interpretación de los resultados exige calcular previamente la correlación entre las


variables originales y los nuevos componentes principales; se hará una mención especial
de las correlaciones más altas.

Z1 Z2 Z3

P1 –0,978 0,000 0,131

P2 –0,968 0,059 0,137

P3 –0,205 –0,973 –0,079

P4 –0,200 –0,973 –0,106

P5 –0,949 0,232 0,020

P6 –0,208 0,169 –0,963

P7 –0,937 0,048 0,059

P8 –0,208 0,169 –0,963

P9 –0,965 0,124 –0,007

P10 –0,170 –0,976 –0,127

P11 –0,979 0,049 0,133

Ahora podemos acabar el problema fácilmente, otorgando significado a los tres compo-
nentes principales que vuelven a situar a los participantes de las pruebas atléticas.
© FUOC • PID_00212764 25 Introducción al análisis multivariante

1.4. Resumen

1.5. Ejercicios de autoevaluación

Ejercicio�1

En un intento de clasificar las principales empresas aseguradoras que operan


en un país según su dimensión, se plantea la posibilidad de realizar un análisis
de componentes principales sobre cuatro variables de tamaño:

Empresa Empleados Oficinas Pólizas Primas

1 Capfre 1.858 519 2.356.856 226,9

2 Reunión 1.102 70 112.599 86,0

3 Kasser 611 58 78.028 75,1

4 Güintur 1.295 46 1.170.887 73,5

5 Xurich 1.641 94 759.179 73,4

6 Achages 854 32 763.599 64,0

7 Catalina 1.050 318 334.262 57,2

8 Ibérrica 768 60 347.717 55,4

9 Confiat 765 53 481.242 51,4

Se pide:
© FUOC • PID_00212764 26 Introducción al análisis multivariante

a) Calcular las correlaciones entre las variables para comprobar que presentan
una dependencia lineal.

b) Obtener los valores propios a partir de la resolución de | R – λ I4 | = 0 y el


porcentaje de información retenido por cada factor.

c) Calcular los coeficientes asociados al primer componente.

d) Definir la proyección de las empresas aseguradoras en este primer compo-


nente.

Ejercicio�2

A partir de una encuesta realizada en una muestra aleatoria de diez asistentes a


un concierto de rock, hemos reunido las valoraciones (de 0 a 10) de una serie
de cuestiones:

Ubicación (localización del concierto)

Tamaño (superficie de la instalación)

Accesos (facilidad de acceso)

Señalización (indicadores dentro del recinto)

Información (servicio de información)

Montaje (montaje técnico del concierto)

Vigilancia (servicios de orden)

Megafonía (megafonía dentro del recinto)

Iluminación (alumbrado de la instalación)

Temperatura (temperatura dentro del recinto)

Limpieza gr. (grado general de limpieza)

Área descanso (áreas de descanso)

Lavabos (estado general de los lavabos)

Aparcamiento (comodidad del aparcamiento)

Restauración (restaurantes y bares)

Las diferentes valoraciones se presentan en esta tabla:

Ubica- Tamaño Accesos Señaliz. Infor- Montaje Vigi- Mega-


ción mación lancia fonía

8 7 5 2 2 6 6 4

7 6 4 3 3 6 6 5
© FUOC • PID_00212764 27 Introducción al análisis multivariante

Ubica- Tamaño Accesos Señaliz. Infor- Montaje Vigi- Mega-


ción mación lancia fonía

7 7 4 2 2 6 5 4

9 8 6 5 5 9 8 6

6 5 3 2 2 7 5 4

6 5 3 5 6 9 7 7

6 6 3 1 1 5 4 4

6 5 2 4 3 8 7 6

9 8 5 5 5 9 8 7

8 7 5 2 1 6 5 4

Ilumin. Tempe- Limpieza Áreas Lavabos Aparcam. Restaur.


ratura descanso

5 5 1 2 3 3 3

6 4 2 2 3 2 2

5 2 1 4 4 1 4

8 6 3 4 4 4 4

6 3 2 3 4 1 3

8 6 4 4 5 2 3

4 2 0 2 3 1 2

7 8 3 4 5 2 4

9 2 3 5 5 4 5

5 4 1 2 3 3 2

Haced un análisis de los componentes principales e indicad:

a) Cuánto valen los valores propios asociados con los diferentes componentes
y cuál es la capacidad de información retenida.

b) Seleccionad los tres primeros componentes y obtened los vectores caracte-


rísticos.

c) Interpretad estos tres primeros componentes.

1.6. Solucionario ejercicios de autoevaluación

Ejercicio�1
© FUOC • PID_00212764 28 Introducción al análisis multivariante

Las respuestas son:

a) Las correlaciones lineales entre las variables observadas son:

Empleados Oficinas Pólizas

Oficinas 0,632

Pólizas 0,783 0,685

Primas 0,714 0,807 0,847

b) El cálculo de los valores propios y de la capacidad explicativa os tiene que


dar:

λj 3,2380 0,4044 0,2432 0,1144

%�explicado 0,8100 0,1010 0,0610 0,0290

%�acumulado 0,8100 0,9110 0,9710 1,0000

c) Los coeficientes asociados al primer componente son:

Variable CP1

Empleados –0,482

Oficinas –0,481

Pólizas –0,513

Primas –0,522

d) A partir de la ecuación:

Z1 = – 0,482 empleados – 0,481 oficinas – 0,513 pólizas – 0,522 primas

encontraréis las proyecciones de las compañías aseguradoras en el nuevo eje:

Empresa Z1

1 Capfre –4,50846

2 Reunion 0,62422

3 Kasser 1,34829

4 Güintur –0,17440

5 Xurich –0,40779

6 Achages 0,75525

7 Catalina 0,08449
© FUOC • PID_00212764 29 Introducción al análisis multivariante

Empresa Z1

8 Ibérrica 1,15666

9 Confiat 1,12174

Ejercicio�2

Las respuestas son:

a) Los valores propios, el porcentaje de información que retienen y el porcen-


taje acumulado deben dar:

Valor�propio 9,0928 3,6007 1,3327 0,5497 0,1642 0,1331

Proporción 0,606 0,240 0,089 0,037 0,011 0,009

Acumulativa 0,606 0,846 0,935 0,972 0,983 0,992

Valor�propio 0,0765 0,0330 0,0173 0,0000 0,0000 0,0000

Proporción 0,005 0,002 0,001 0,000 0,000 0,000

Acumulativa 0,997 0,999 1,000 1,000 1,000 1,000

b) Los vectores característicos de los tres primeros componentes son:

Variable CP1 CP2 CP3

Ubicación –0,135 –0,479 0,017

Tamaño –0,079 –0,494 –0,167

Accesos –0,071 –0,499 0,096

Señalización –0,325 0,030 0,121

Información –0,306 0,055 0,078

Montaje –0,322 0,064 0,018

Vigilancia –0,319 –0,067 0,144

Megafonía –0,308 0,099 0,063

Iluminación –0,324 0,027 –0,003

Temperatura –0,140 0,179 0,589

Gr. limpieza –0,300 0,175 0,155

Área descans. –0,278 0,073 –0,434

Lavabos –0,268 0,241 –0,283

Aparcamiento –0,211 –0,355 0,252


© FUOC • PID_00212764 30 Introducción al análisis multivariante

Variable CP1 CP2 CP3

Restaurantes –0,249 –0,053 –0,463

c) Teniendo en cuenta las correlaciones que presentan variables y componen-


tes, podemos asignar estos conceptos:

• 1.er componente: recopila aspectos funcionales e internos del recinto.

• 2.º componente: valora las cuestiones externas del recinto.

• 3.er componente: es el factor peor definido, y el que presenta una mayor


relación con la variable termperatura del recinto.
© FUOC • PID_00212764 31 Introducción al análisis multivariante

2. Análisis clúster

AUTORES:
Ramon�Alemany�Leira
Joan�Baró�Llinàs

COLABORACIÓN:
Elena�Rico�Gómez

Suponed que estamos estudiando el tipo de turrón de Alicante que se encuen-


tra en el mercado. Cada grupo que pudiésemos formar debería incluir turrones
de una calidad parecida. Sin embargo, ¿qué tenemos que hacer para encontrar
semejanzas entre las marcas de turrón? Los ingredientes utilizados en la elabo-
ración del producto: azúcar, miel, huevos, almendras, conservantes, etc., va-
rían de una marca a la otra. Tenemos que buscar las diferencias que presentan
estos ingredientes y, a partir de aquí, tiene que ser fácil encontrar productos
poco o muy parecidos que nos permitan hacer grupos de marcas homogéneas
y, por tanto, competidoras entre sí. Seguramente al final tendríamos grupos
del tipo: extra, light, etc.

Una de las posibilidades de los métodos multivariantes es agrupar elementos


buscando la máxima homogeneidad en cada grupo y, a la vez, conseguir la
máxima diferenciación entre los grupos. Como siempre, hemos observado va-
rias características en los elementos y resulta difícil establecer los grupos con
una ojeada; por tanto, hay que utilizar un procedimiento que permita evaluar
las diferencias y las coincidencias entre los datos analizados, para poder fijar
así colectivos o grupos de elementos lo más parecidos posible.

El� análisis� clúster incluye un conjunto de técnicas que persiguen el


mismo objetivo: la agrupación de elementos parecidos en diferentes
bloques o clústers.

Veamos una descripción sencilla del procedimiento. Tenemos que partir de


una matriz de información que contenga las observaciones de todas las varia-
bles sobre los diferentes elementos considerados:

Elementos X1 X2 ... XJ

1 X11 X12 ... X1 J

2 X21 X22 ... X2 J

... ... ... ... ...


© FUOC • PID_00212764 32 Introducción al análisis multivariante

Elementos X1 X2 ... XJ

I XI 1 XI 2 ... XI J

y ahora se tienen que calcular las diferencias que hay entre estos elementos.

En este apartado del análisis clúster aprenderéis:

• Qué medidas de disimilitud entre elementos se pueden definir.

• Qué algoritmos de clasificación se utilizan para agrupar elementos.

• Qué es un dendrograma y cómo se lee; también realizaremos una


breve reseña de otras técnicas multivariantes.

2.1. Medidas de disimilitud

Para obtener disimilitudes o distancias entre los elementos se pueden utilizar Otras distancias
diferentes criterios que, lógicamente, no proporcionan resultados iguales, pero
Existen otras distancias, como
que sí permiten obtener conclusiones parecidas. Mencionamos, a continua- pueden ser la de Mahalanobis,
ción, las medidas más utilizadas para calcular la disimilitud entre los elemen- la de Minkowski, la de Tcheby-
chef, etc. Tendríamos que es-
tos r y s. tudiar las propiedades y los in-
convenientes que presentan,
pero básicamente todas tienen
una misma ordenación de las
1)�Distancia�euclidiana distancias.

2)�Distancia�euclidiana�al�cuadrado

3)�Distancia�de�City-Block

Ejemplo

Suponed la observación de las variables que tenéis a continuación:


© FUOC • PID_00212764 33 Introducción al análisis multivariante

X1 = Tiendas de electrodomésticos por cada 10.000 habitantes.

X2 = Tiendas de ordenadores por cada 10.000 habitantes.

X3 = Tiendas de óptica y fotografía por cada 10.000 habitantes.

Para cuatro ciudades catalanas –Barcelona, Tarragona, Lérida y Gerona–, se ha


obtenido la siguiente matriz de datos:

X1 X2 X3

Barcelona 5,1 2,4 2,6

Gerona 8,0 5,5 3,6

Lérida 7,8 2,6 2,7

Tarragona 6,6 2,0 1,9

Si queremos calcular las disimilitudes que se dan entre estos municipios en


cuanto a infraestructura de tiendas de productos especializados, tendremos
que calcular las distancias que separan las diferentes ciudades.

1) Distancias euclidianas:

Barcelona Gerona Lérida Tarragona

Barcelona - - - -

Gerona 4,36 - - -

Lérida 2,71 3,04* - -

Tarragona 1,70 4,14 1,56 -

2) Distancias euclidianas al cuadrado:

Barcelona Gerona Lérida Tarragona

Barcelona - - - -

Gerona 19,02* - - -

Lérida 7,34 9,26 - -

Tarragona 2,90 17,10 2,44 -


© FUOC • PID_00212764 34 Introducción al análisis multivariante

3) Distancias City-Block:

Barcelona Gerona Lérida Tarragona

Barcelona - - - -

Gerona 7 - - -

Lérida 3 4 - -

Tarragona 2,6 6,6 2,6* -

Si efectuamos una ordenación de las distancias que separan las cuatro ciuda-
des, veremos que las ordenaciones son prácticamente coincidentes. En este
caso hay que interpretar que la distancia utilizada no afecta de manera sustan-
cial a las conclusiones que se puedan extraer.

D. euclidiana D. euclidiana al cuadrado D. City-Block

Lérida-Tarragona Lérida-Tarragona Lérida-Tarragona /


Barcelona-Tarragona

Barcelona-Tarragona Barcelona-Tarragona Barcelona-Lérida

Barcelona-Lérida Barcelona-Lérida Gerona-Lérida

Gerona-Lérida Gerona-Lérida Gerona-Tarragona

Gerona-Tarragona Gerona-Tarragona Barcelona-Gerona

Barcelona-Gerona Barcelona-Gerona

En todos los casos, Lérida-Tarragona y Barcelona-Tarragona proporcionan las


distancias más pequeñas; son las parejas de ciudades con una infraestructura
más parecida por lo que respecta a las tiendas de estos tipos de productos; y,
en cambio, Barcelona y Gerona son las ciudades más distantes en cuanto a
estos equipamientos.

Actividad

2.1. Podríais construir una matriz de información sobre diferentes aspectos que vosotros
mismos evaluéis a partir de los diarios: Avui, La Vanguardia, El Periódico, Diari Punt, ABC y
El Mundo, y podríais puntuar de 0 (totalmente en desacuerdo) a 9 (totalmente de acuerdo)
las afirmaciones siguientes:

X1 = Es sensacionalista.

X2 = Es de lectura fácil.
© FUOC • PID_00212764 35 Introducción al análisis multivariante

X3 = Es catalanista.

X4 = Incorpora mucha información.

X5 = Es serio.

X6 = Es objetivo.

X7 = Tiene buenas editoriales.

A partir de esta información, calculad las distancias de disimilitud entre los diarios y
comprobad cuáles son los más parecidos y los más diferentes.

2.2. Algoritmo de clasificación

Con las distancias calculadas tenéis que elegir un algoritmo que nos permita
clasificar los elementos en clústers. Los más rápidos y sencillos son los méto-
dos�jerárquicos (existen otros tipos), que, a su vez, pueden ser acumulativos
(se forman grupos haciendo clústers cada vez más grandes) o disminutivos
(partiendo de un solo grupo, se separan los elementos en grupos cada vez más
pequeños).

Nos centraremos en los algoritmos acumulativos: los elementos forman unos


primeros grupos; al mismo tiempo, se pueden reunir estos grupos en bloques
y éstos entre sí en otros, etc. En un proceso de varias etapas, disminuye el
número de clústers y, simultáneamente, se hacen más grandes al incorporar
subclústers de la fase anterior.

Más algoritmos
Entre los algoritmos acumulativos para la fusión de grupos, es necesario
hacer mención de diferentes métodos: Podríamos añadir más algorit-
mos, tanto acumulativos como
divisivos; en cada caso tendría-
1) Método de las distancias mínimas; es decir, máxima semejanza entre mos que discutir las propieda-
des y las desventajas que im-
los elementos o grupos más cercanos. plican. A pesar de esto, los mé-
todos a que nos hemos refe-
rido son los más fáciles desde
2) Método de las distancias máximas; es decir, cálculo de la mínima un punto de vista operativo y
distancia entre los elementos más alejados. proporcionan buenos resulta-
dos.

3) Método de las distancias medias; es decir, cálculo de la media de las


distancias entre elementos.

Con relación al ejemplo de las tiendas de productos especializados en las ciu-


dades de Barcelona, Tarragona, Lérida y Gerona, trabajando con distancias eu-
clidianas al cuadrado hemos obtenido la siguiente matriz de distancias:

Barcelona Gerona Lérida Tarragona

Barcelona - - - -

Gerona 19,02 - - -

Lérida 7,34 9,26 - -


© FUOC • PID_00212764 36 Introducción al análisis multivariante

Barcelona Gerona Lérida Tarragona

Tarragona 2,90 17,10 2,44 -

Si utilizamos el método�de�las�distancias�mínimas, podemos comprobar que


Lérida y Tarragona son las más parecidas y, por tanto, las primeras que empa-
rejaríamos.

mín drs = dLT = 2,44

En una segunda etapa, después de “hermanar” Lérida y Tarragona, tendremos


que calcular las distancias que separan los tres grupos resultantes: Barcelona,
Gerona y Lérida-Tarragona. Se entiende que la distancia que separa Barcelona
de la “nueva ciudad” Lérida-Tarragona es la distancia más corta entre Barcelo-
na y Lérida o Tarragona.

dB – LT = mín(dBL, dBT) = mín(7,34 , 2,90) = 2,90

Igualmente, la distancia entre Gerona y Lérida-Tarragona será:

dG – LT = mín(dGL, dGT) = mín(9,26 , 17,10) = 9,26

Así, la nueva matriz de distancias ahora es:

Barcelona Gerona Lérida-Tarragona

Barcelona - - -

Gerona 19,02 - -

Lérida-Tarragona 2,90 9,26 -

En una tercera etapa podemos incorporar un nuevo elemento al grupo ya co-


nocido. Efectivamente, Barcelona-(Lérida-Tarragona) son las tres ciudades que
presentan una distancia más corta.

mín drs = dB – LT = 2,90

Tendríamos ahora dos clústers: uno formado por los elementos Barcelona-Ta-
rragona-Lérida y el otro con un único elemento: Gerona; la distancia que los
separa es la más corta entre Gerona y las otras tres ciudades:

dG – (BLT) = mín(dG – B, dG – LT) = mín(19,02 , 9,26) = 9,26

Gerona se podría integrar en un solo clúster con el resto de los municipios con
una distancia de 9,26.
© FUOC • PID_00212764 37 Introducción al análisis multivariante

Actividad

2.2. Después de ver con detalle el método de las distancias mínimas, ya podéis utilizar
para la agregación de clústers el método de las distancias máximas; es decir, podéis in-
corporar grupos de máxima distancia a partir de los mínimos encontrados. Os sugerimos
que apliquéis este procedimiento con los datos del ejemplo anterior.

2.3. Presentación de los resultados

Para representar la estructura jerárquica de la formación de los grupos en un


análisis clúster se utiliza el dendrograma, representación gráfica que tiene
forma de árbol invertido.

De esta manera, a partir de los I elementos observados podemos encontrar


desde 1 hasta I clústers, según el número de grupos que queramos obtener.

Si el objetivo es formar K grupos homogéneos de elementos, fácilmente tienen


que resultar de una segmentación horizontal del racimo de agrupaciones.

Se supone que las desviaciones estándar (o varianzas) de los elementos den-


tro de cada clúster son menores que la desviación global de todos los datos.
No obstante, las tablas de perfiles que incorporan medidas descriptivas (bási-
camente media y desviación estándar) permiten una mayor identificación de
los diferentes clústers y, por tanto, una interpretación fácil de todo el análisis,
por qué los elementos se agrupan de una forma determinada y y qué rasgos
son los característicos de cada grupo.

2.4. Otras consideraciones

Los ejemplos que hemos presentado hasta ahora utilizan variables con escalas
similares: puntuación, porcentaje, etc., pero, a menudo, las variables se aso-
cian con conceptos muy diferentes y, en consecuencia, con medidas de obser-
vación heterogéneas.
© FUOC • PID_00212764 38 Introducción al análisis multivariante

Si, sobre diferentes modelos de motocicletas de montaña, medís variables co-


mo la potencia, el consumo, el precio, etc., tendremos en cuenta que se expre-
san en unidades diferentes y que, seguramente, alguna variable como el precio
puede distorsionar los resultados. Efectivamente, en el momento de calcular
las distancias entre las diferentes motocicletas, el precio sería la variable que
marcaría las diferencias y, por tanto, se desvirtuarían los resultados.

Existen varias soluciones para resolver este tema. De entre las más uti-
lizadas, hay que mencionar el análisis de los componentes principales
sobre todas las observaciones, técnica que homogeneiza los datos (aun-
que con el coste de perder parte de la información inicial) y que posibi-
lita un posterior análisis clúster sobre los componentes seleccionados.

Otra posibilidad sería trabajar con datos estandarizados, con lo cual eli-
minaríamos la escala de medida y así podríamos aplicar un análisis clús-
ter sobre variables que presentan un mismo valor medio y una misma
desviación estándar.

Ejemplo

A modo de ejemplo, y sin entrar en detalle, veamos cuáles serían los resulta-
dos de haber aplicado el análisis clúster a cifras compatibles y a ratios empre-
sariales de un conjunto de empresas automovilísticas que operan en el Estado.
Las diferentes escalas de medida utilizadas nos remiten a cálculos estadísticos
heterogéneos, por lo cual resulta necesario trabajar con datos estandarizados
para hacer comparables los resultados.

Consideramos, pues, veinte empresas del sector del automóvil de las cuales
hemos calculado quince indicadores diferentes a partir del análisis de balances:
variables relativas a masas patrimoniales, índices financieros y magnitudes de
tamaño.

El cuadro de la página siguiente reúne información en unidades de medida tan


diferentes como: miles de u.m., u.m., porcentajes, trabajadores, etc. El cum-
plimiento de un análisis para la formación de grupos exige estandarizar los
datos para evitar el efecto distorsionador en el cálculo de las disimilitudes de
las observaciones mayores.

Veamos esta información inicial y el resumen descriptivo de las variables em-


pleadas, algunas de las cuales han sido utilizadas en ejemplos anteriores:

Empresa Ingresos to- Capital social Recursos Inmovili- Activo total Beneficio ne- Cash-flow ne-
tales Ejer- 31/12/07 propios zado neto 31/12/07 to 31/12/07 to 31/12/07
cicio 2007 31/12/07 31/12/07

SEAT 584.446 84.000 –59.864 358.181 527.353 –151.315 –121.064


© FUOC • PID_00212764 39 Introducción al análisis multivariante

Empresa Ingresos to- Capital social Recursos Inmovili- Activo total Beneficio ne- Cash-flow ne-
tales Ejer- 31/12/07 propios zado neto 31/12/07 to 31/12/07 to 31/12/07
cicio 2007 31/12/07 31/12/07

Renault España 482.929 22.781 127.280 96.678 231.455 –855 23.377

General Motors 465.746 41.547 115.359 87.434 285.358 19.361 50.437

Ford España 353.633 21.070 94.041 51.048 175.998 –31.811 –18.472

Citroën Hispa- 305.214 5.343 74.879 41.967 125.553 –1.876 4.862


nia

Volksw.-Audi, 192.511 10 –59 68.890 117.513 –970 –943


SA

Nissan Mot. Ib. 190.324 60.789 18.870 157.255 227.755 –41.030 –25.805

Peugeot Talbot 185.379 10.500 12.001 24.385 69.607 –4.704 –700

Neum. Miche- 152.572 34.240 17.721 59.297 148.757 –20.400 –15.202


lin

Mercedes Benz 103.141 22.296 20.071 20.492 61.062 –2.538 –926

Robert Bosch 84.719 14.860 15.681 19.503 44.625 –3.704 429

Iveco Pegaso 69.841 31.365 –7.417 48.748 103.706 –28.755 –25.180

Bridg. Firesto- 58.250 9.288 6.892 30.754 53.222 –428 2.281


ne

Santana Motor 48.516 3.638 –2.081 13.587 26.516 –4.809 –1.863

Ciba-Geigy 36.522 9.150 10.577 12.536 29.094 –1.918 –1.433

Renault Vehíc. 28.500 2.000 –1.837 7.903 13.806 –3.077 –2.222


Ind.

Pirelli Neumáti- 24.537 7.500 8.467 11.025 22.028 –1.654 –683


cos

Béndix España 19.477 2.554 6.166 5.302 12.863 –297 504

John Deere 19.292 4.100 1.541 2.372 10.163 –4.146 –3.677


Ibér.

Lucas Autom. 16.998 1.362 6.469 4.506 14.500 89 1.018

Empresa Tesorería Liquididad Autonomía Solvencia Endeuda- Rotación Plantilla Facturación


miento del activo 31/12/07 por ocupado

SEAT 45,65 59,36 –24,70 89,81 –880,92 104,00 21.590 25,40

Renault Es- 101,40 132,12 98,33 222,18 181,85 208,65 13.699 35,25
paña

General Mo- 105,66 118,98 96,93 167,86 247,36 163,21 9.250 50,35
tors España

Ford España 157,88 198,59 82,80 212,16 187,15 200,93 8.997 39,31

Citroën His- 117,63 177,98 95,28 247,77 167,67 243,10 8.161 37,40
pania
© FUOC • PID_00212764 40 Introducción al análisis multivariante

Empresa Tesorería Liquididad Autonomía Solvencia Endeuda- Rotación Plantilla Facturación


miento del activo 31/12/07 por ocupado

Volkswagen– 29,34 41,10 120,63 99,19 –12.253,70 163,82 165 1.166,73


Audi, SA

Nisssan Mo- 22,90 40,09 36,35 109,03 1.206,97 83,57 7.001 27,19
tor Ibérica

Peugeot Tal- 48,89 84,12 75,76 120,85 580,01 266,32 5.205 35,62
bot España

Neumáticos 110,65 138,71 22,36 118,03 839,44 102,57 10.644 14,33


Michelin

Mercedes 46,25 107,15 86,52 148,97 304,23 168,91 2.829 36,46


Benz España

Robert 111,48 155,72 55,04 154,18 284,57 189,85 4.626 18,31


Bosch

Iveco Pegaso 47,35 76,39 –23,35 93,32 –1.398,11 67,35 4.319 16,17

Bridgestone 50,18 92,92 23,73 114,88 772,13 109,45 4.012 14,52


Firestone

Santana Mo- 24,69 46,62 –452,39 92,72 –1.274,20 182,97 2.838 17,10
tor

Ciba-Geigy 66,11 120,00 62,36 157,12 275,07 125,53 764 47,80

Renault 20,81 37,80 101,66 88,26 –751,55 206,42 1.349 21,13


Vehículos
Ind.

Pirelli Neu- 74,66 106,17 72,59 162,44 260,16 111,39 1.464 16,76
máticos

Béndix Espa- 92,76 121,74 92,68 192,07 208,62 151,42 1.120 17,39
ña

John Deere 44,70 91,76 92,15 117,87 659,35 189,82 995 19,39
Ibérica, SA

Lucas Auto- 100,32 124,19 65,01 125,98 224,16 117,23 1.366 12,44
motive, SA

Veamos en el siguiente cuadro resumen las principales medidas descriptivas


de todas las variables observadas:

Variable Media Desv. Mínimo Máximo


estándar

Ingresos totales 169.327 171.505 16.998 548.446

Capital social 19.419 21.980 10 84.000

Recursos propios 23.237 45.062 –59.864 127.280

Inmovilizado ne- 56.093 81.114 2.372 358.181


to

Activo total 115.046 127.690 10.163 527.353

Beneficio neto –14.241 34.986 –151.315 19.361


© FUOC • PID_00212764 41 Introducción al análisis multivariante

Variable Media Desv. Mínimo Máximo


estándar

Cash-flow neto –6.776 31.428 –121.064 50.437

Tesorería 7.097 3.878 2.081 15.788

Liquididad 10.358 4.556 3.780 19.859

Autonomía 3.899 12.235 –45.239 12.063

Solvencia 14.173 4.729 8.826 24.777

Endeudamiento –50.799 284.705 –12.253 120.697

Rotación del acti- 15.783 5.409 6.735 26.632


vo

Número de em- 5.519 5.369 165 21.590


pleados

Facturación/em- 8.345 25.524 1.244 116.673


pleado

Suponemos, para finalizar, que la aplicación de un sistema jerárquico de aso-


ciación entre grupos calculado sobre las distancias entre empresas automovi-
lísticas nos lleva al resultado que vemos a continuación:

Si hemos realizado el estudio para obtener seis clústers, los resultados podrían
ser:

Clúster 1: empresas muy grandes (en facturación y en empleados) con resul-


tados muy pobres:

• SEAT
© FUOC • PID_00212764 42 Introducción al análisis multivariante

Clúster 2: empresas muy grandes con un alto nivel de tesorería, de solvencia


y de cobertura:

• Renault España
• General Motors
• Ford España
• Citroën Hispania

Clúster 3: empresas grandes con poco capital y con una facturación por em-
pleado altísima:

• Volkswagen Audi

Clúster 4: empresas medias con pérdidas importantes que generan flujos ne-
gativos:

• Nissan Motor Ibérica


• Neumáticos Michelin
• Iveco Pegaso

Clúster 5: empresas medias con pocos empleados y rentabilidad baja:

• Mercedes Benz
• Peugeot Talbot España
• Robert Bosch
• Bridgestone Firestone España
• Ciba-Geigy
• Renault Vehículos Industriales
• Pirelli Neumáticos
• Béndix España
• John Deere Ibérica S.A.
• Lucas Automotive S.A.

Clúster 6: empresas en bancarrota:

• Santana Motor

donde el significado otorgado a cada clúster deriva del cálculo de medidas


descriptivas en los elementos que forman cada grupo donde se notan los rasgos
diferenciales que presentan.

Actividad

2.3. A partir de la actividad de la lección anterior, donde disponíamos de datos relativos


a las marcas conseguidas por un grupo de quince chicos en diferentes pruebas atléticas,
intentad agruparlos en conglomerados a partir del análisis clúster utilizando las distancias
euclidianas.
© FUOC • PID_00212764 43 Introducción al análisis multivariante

Veréis cómo los resultados son diferentes en función de si hacéis las agrupaciones direc-
tamente a partir de los datos originales o bien a partir de datos estandarizados.

Podéis comprobar que los clústers que resultan de trabajar con estandarizaciones son
bastante parecidos a los que saldrían si hiciésemos los grupos con los tres primeros com-
ponentes calculados en el apartado anterior.
© FUOC • PID_00212764 44 Introducción al análisis multivariante

2.5. Otros métodos de análisis multivariante

El tratamiento estadístico multidimensional no se limita a los procedimientos


mencionados hasta ahora de los modelos de regresión, de la reducción de la
dimensionalidad o de los métodos de clasificación. Hay que decir que existen
muchos otros tipos de análisis multivariante, algunos de los cuales con una
fundamentación teórica parecida y muchos otros complementarios entre sí
por lo que respecta a la descripción de datos.

Para acabar este módulo, nos limitaremos a dar noticia de otros métodos, pero
no entraremos en detalles de su contenido:

1) El análisis� factorial� clásico: fundamenta el análisis de los componentes


principales, simplifica las relaciones existentes en un fenómeno y extrae los
factores subyacentes de su estructura latente.

Si partimos del supuesto de que las asignaturas de la carrera – Contabilidad, Eco-


nomía, Estadística, etc.– presentan en su aprendizaje factores comunes del tipo
“ciencias” y “letras”, al margen de otros factores, el objetivo sería determinar
el peso de estos factores comunes en cada una de las asignaturas, de manera
que se pudiese hacer una previsión de las notas que obtendrán los estudiantes
según el nivel adquirido en “ciencias” y en “letras” durante el bachillerato.

2) El análisis� de� correspondencias es una derivación del análisis factorial Ejemplo de análisis de
aplicado a la información contenida en las tablas de contingencia; permite correspondencias

relacionar atributos o variables cuantitativas en la clasificación cruzada de los Un ejemplo típico es la elabo-
datos y pone de manifiesto las relaciones que se dan dentro de cada distribu- ración de tablas con causas de
muerte y profesiones, en las
ción marginal y dentro de la distribución conjunta. cuales se busca la interdepen-
dencia entre las dos caracterís-
ticas y las propensiones a de-
terminadas enfermedades en
3) Con el análisis�discriminante se determinan criterios que permitan dife- cada profesión.
renciar varios grupos. A partir de la obtención de ejes con poder discriminador,
se puede prever con una alta probabilidad la pertenencia de los elementos a
© FUOC • PID_00212764 45 Introducción al análisis multivariante

cada uno de los grupos. Es necesario notar la diferencia de este análisis con Ejemplo de análisis
respecto al clúster: así como en el discriminante los grupos ya están presentes discriminante

y todo el problema consiste en buscar criterios diferenciadores, en el análisis Con el análisis discriminante,
clúster, en cambio, los grupos son desconocidos. a partir de la información que
proporcionan los cuestionarios
bancarios, se puede determi-
nar a qué grupo de riesgo per-
4) El análisis�canónico tiene como objetivo explicar un conjunto de varia- tenece un cliente que solicita
un préstamo.
bles a partir de otro conjunto de variables independientes; en cierto modo, se
puede considerar una extensión del modelo lineal de una ecuación que ya he-
mos estudiado. A partir de las nuevas variables que resultan de combinar por
separado las variables endógenas y las variables exógenas, se pueden correla-
cionar ambos conjuntos de variables para explicar el comportamiento global
del modelo.

Si disponemos de los precios al detalle de los diferentes tipos de carne de ter-


nera –filete, bistec, chuleta, etc.– y del conjunto de variables explicativas para
cada tipo –color, humedad, magrez, etc.–, el análisis canónico buscará la co-
rrelación máxima entre la combinación de precios, por un lado, y la combi-
nación de variables exógenas, por el otro, para describir el comportamiento
global del mercado al detalle de la carne de ternera.

5) Para no alargar la lista, acabamos con los escalogramas�multidimensiona-


les –muy utilizados en estudios de mercado– para reproducir preferencias y
percepciones subjetivas en algún espacio multidimensional.

A partir de valoraciones subjetivas que responden a semejanzas percibidas con


relación a un grupo de objetos, se reconstruyen mapas de preferencias entre
productos. En un nivel de aplicación diferente, es como si rehiciésemos el
mapa de un país disponiendo tan sólo de las distancias que los encuestados
piensan que hay entre las ciudades.
© FUOC • PID_00212764 46 Introducción al análisis multivariante

2.6. Resumen

2.7. Ejercicios de autoevaluación

Ejercicio�1

Hemos observado el contenido de varias características en cinco marcas de


yogur:

GR materias grasas (g)

CA calcio (g)

PH acidez (mg)

EN energía (Kcal)

HC hidratos de carbono (g)

Hemos observado los siguientes resultados de valores originales y estandari-


zados:

Marcas GR CA PH EN HC

1 Masbury 2,20 144 4,8 66 6

2 Catlesa 1,81 236 3,7 36 3

3 Pandone 1,79 240 3,8 40 4


© FUOC • PID_00212764 47 Introducción al análisis multivariante

Marcas GR CA PH EN HC

4 Tuplait 2,25 141 4,4 69 5

5 Alarisa 1,70 230 3,6 32 4

6 Sucradi 2,31 139 4,5 70 6

Marcas GRtipif CAtipif PHtipif ENtipif HCtipif

1 Masbury 0,70016 –0,85903 1,34231 0,77118 1,10096

2 Catlesa –0,73701 0,92362 –0,87250 –0,90126 –1,37620

3 Pandone –0,81071 1,00112 –0,67116 –0,67827 –0,55048

4 Tuplait 0,88441 –0,91716 0,53693 0,93843 0,27524

5 Alarisa –1,14236 0,80736 –1,07385 –1,12425 –0,55048

6 Sucradi 1,10551 –0,95591 0,73827 0,99417 1,10096

A partir de los datos estandarizados, tenéis que:

a) Encontrar la matriz de distancias euclidianas al cuadrado.

b) Obtener el dendrograma que resulta de utilizar el método de las distancias


mínimas.

2.8. Solucionario ejercicios de autoevaluación

Ejercicio�1

Las respuestas son:

a) Matriz de distancias:

1 2 3 4 5 6

1 0,000000 19,082134 14,62514 1,395772 18,329548 0,588292

2 19,082134 0,000000 0,783523 14,115657 0,949913 19,251144

3 14,625140 0,783523 0,000000 11,308208 0,508605 15,012712

4 1,395772 14,115657 11,308208 0,000000 14,612825 0,775855

5 18,329548 0,949913 0,508605 14,612825 0,000000 18,660860

6 0,588292 19,251144 15,012712 0,775855 18,660860 0,000000

b) Dendrograma
© FUOC • PID_00212764 48 Introducción al análisis multivariante
© FUOC • PID_00212764 49 Introducción al análisis multivariante

3. Análisis factorial

AUTOR:
Francesc�Camp�Torres

3.1. Cuándo tenemos que utilizar el análisis factorial

El análisis factorial forma parte del conjunto de métodos de análisis


multivariable cuyo objetivo consiste en estudiar las relaciones de inter-
dependencia que se producen entre un conjunto de variables o indivi-
duos.

Se utiliza cuando queremos resumir la información que contiene una matriz


de datos individuos/variables, tal como se muestra en el ejemplo, reemplazan-
do las variables iniciales por un número menor de variables compuestas o fac-
tores, y perdiendo el mínimo posible de la totalidad de la información que
contienen las variables iniciales.

Ejemplo de matriz de datos individuos por variables

En una encuesta realizada a una muestra de 1.000 estudiantes, se les pidió que valoraran
en una escala de 1 a 6, en la cual 1 significaba “nada deseable” y 6 “totalmente deseable”,
lo deseable que les parecía una serie de veinte características referentes al comportamien-
to de sus profesores. Las características son las siguientes:

V1 Tratan a todos los estudiantes aproximadamente igual.

V2 Incitan a los estudiantes a preguntar.

V3 Próximos, cercanos a los estudiantes.

V4 Muestran interés por los problemas de los estudiantes.

V5 Poseen un carácter agradable.

V6 Dan explicaciones que provocan un gran interés.

V7 Utilizan métodos propios para facilitar la instrucción.

V8 Visten con gusto, van limpios y aseados.

V9 Son puntuales.

V10 Son tranquilos, tienen control de sí mismos.

V11 Parecen seguros de sí mismos.

V12 Son ordenados en sus explicaciones.

V13 Encaran el lado bueno de las cosas.

V14 Desarrollan la asignatura con un sentido crítico.

V15 Tienen respuestas ingeniosas y completas.


© FUOC • PID_00212764 50 Introducción al análisis multivariante

V16 Dan explicaciones adaptadas a la realidad.

V17 Son tolerantes con el error de los estudiantes.

V18 Saben apreciar los esfuerzos del estudiante.

V19 Tienen buena dicción, son plenamente audibles.

V20 Saben controlar una situación de nerviosismo.

La matriz de resultados obtenidos fue la siguiente:

En el ejemplo anterior, ¿es necesario guardar los 20.000 valores que hemos
obtenido o bien podemos sintetizar (resumir) toda esta información en una,
dos o tres variables compuestas? ¿No hay una relación determinada entre las
variables iniciales y, por lo tanto, no podemos eliminar algunas que tan sólo
aportan una información marginal y poco interesante? Si hay una relación de
interdependencia sistemática en el conjunto de las variables, ¿no puede ser
debida originalmente a algunos factores más fundamentales (latentes)? ¿No
podemos considerar las variables originales como simples índices de estos fac-
tores fundamentales?

Es a este tipo de preguntas al que pretende responder el análisis factorial; co-


mo es lógico, no hay una respuesta única a preguntas de este tipo y, por lo
tanto, se ha propuesto una gran cantidad de definiciones. Eso nos lleva a con-
siderar el análisis factorial no como un método único, sino como una familia
de métodos.

El objetivo principal del análisis factorial consiste en identificar la es-


tructura de las relaciones entre variables o entre individuos.

Si el objetivo de la investigación consiste en sintetizar las variables, el análisis


recibe el nombre de análisis�factorial�tipo�R. En cambio, si el objetivo consiste
en buscar los factores en el espacio de los individuos, lo cual permite agrupar
a los individuos que tienen comportamientos análogos en relación con las
variables sobre las cuales se lleva a cabo el análisis, el análisis recibe el nombre
de análisis�factorial�tipo�Q.
© FUOC • PID_00212764 51 Introducción al análisis multivariante

A continuación, nos centraremos en el análisis factorial tipo R, por el hecho


de que se trata del más utilizado en investigación comercial.

3.2. Metodología del análisis factorial

El proceso metodológico del análisis factorial consta de seis etapas:

Etapa�1:�diseño�del�análisis�factorial

El diseño del análisis hace referencia al tipo de variables que hay que utilizar
y a las escalas de medida en las cuales deben ser medidas.

1) Las variables que se utilizan en el análisis deben ser comparables; corremos


el riesgo de que los factores obtenidos no tengan ningún sentido en caso de
que se introduzcan al mismo tiempo en el análisis variables socioeconómicas,
variables de actitudes, variables de comportamiento, etc.

2) Si las escalas sobre las cuales se han medido las variables son muy diferentes,
hay que normalizarlas, ya que, como veremos, la varianza de cada variable
interviene en el análisis y las variables que presenten una mayor varianza ten-
drían unas ventajas determinadas. Normalizar las variables equivale a centrar-
las y a reducirlas. Si Xp es la variable inicial, la variable normalizada será:
© FUOC • PID_00212764 52 Introducción al análisis multivariante

donde es la media de la variable y sp su desviación típica.

3) Por último, las variables introducidas deben medirse en escalas cuantitati-


vas, es decir, métricas o de intervalo, las cuales no son precisamente las más
abundantes en investigación de mercados.

Etapa�2:�obtención�de�la�matriz�de�correlaciones

A partir de la matriz de datos inicial, obtenemos la matriz de correlaciones


entre variables.

Ejemplo

En nuestro ejemplo, a partir de la matriz de datos inicial expuesta más arriba, donde cada
una de las filas de la matriz indica la valoración de cada estudiante sobre cada una de
las veinte características propuestas, obtenemos la matriz de correlaciones entre variables
siguiente:

Matriz de correlaciones entre variables.

Etapa�3:�extracción�de�los�factores

El paso siguiente consiste en obtener, a partir de la matriz de correlaciones,


los factores que identifiquen la estructura subyacente de las relaciones entre
las variables iniciales. Con esta finalidad, el método más utilizado en investi-
gación comercial es el análisis�factorial�de�componentes�principales.
© FUOC • PID_00212764 53 Introducción al análisis multivariante

Esta técnica puede resumirse como un método en el que se transforman las


variables originales en unas nuevas variables que son una combinación lineal
de las variables iniciales y que, además, no están correlacionadas. Estas nuevas
variables se llaman factores o componentes�principales.

El método busca restituir la máxima cantidad de información posible conte-


nida en las variables iniciales en un número mínimo de factores. La medida
de la cantidad de información restituida por cada componente principal es la
varianza. Por este motivo, los factores se obtienen según la varianza restituida
por cada uno. Así, el componente principal que se obtiene en primer lugar es
el que restituye la mayor proporción de la varianza contenida en la matriz de
correlaciones; el segundo factor es el que, de la varianza restante, restituye el
mayor porcentaje, y así sucesivamente hasta llegar al último factor, que resti-
tuye la menor cantidad de varianza inicial.

Si tenemos:

• P variables iniciales p = 1, ..., P,

• I individuos i = 1, ..., I,

podemos extraer K factores; siendo K = min (P, I) – 1.

Los factores extraídos tienen que cumplir las tres condiciones siguientes:

1)�Linealidad: cada factor es una combinación lineal de las variables iniciales.

Fk = ak1X1 + ak2X2 + ... + akpXp

donde:

Fk = el k-ésimo factor;

akp = el coeficiente de la variable Xp en el factor Fk;

Xp = los valores de la variable p tomados por los I individuos.

2)�Independencia: los factores no están correlacionados entre sí.

3)�Varianza�restituida�por�cada�factor: el primer factor restituye la propor-


ción más alta de varianza contenida en la matriz de correlaciones; el segundo
factor, la segunda; el tercero, la tercera; el cuarto, la cuarta, y así sucesivamente.
© FUOC • PID_00212764 54 Introducción al análisis multivariante

Ejemplo

En la tabla que viene a continuación se presentan los estadísticos iniciales obtenidos en


nuestro ejemplo. El valor propio λk indica la cantidad de varianza restituida por el factor
k. Cuanto más valor tiene λk, más es alto el nivel explicativo del factor asociado.

Estadísticos iniciales.

A partir de estos valores podemos calcular el porcentaje de varianza restituida


por cada factor aplicando la fórmula siguiente:

Ejemplo

En nuestro ejemplo, el primer factor resume el 51,6% de la varianza total; el segundo,


el 28,7%; el tercero, el 7%, y el décimo factor, el 0,1%. Con los dos primeros factores
el análisis restituye el 80,3% de la información contenida en la matriz de correlaciones
expuesta.

En cuanto a la comunalidad, indica la proporción de varianza de cada variable


explicada por los factores seleccionados. Al trabajar inicialmente con todos los
factores, la comunalidad de cada variable es máxima, es decir, igual a 1.

Etapa�4:�determinación�del�número�de�factores�que�hay�que�conservar Nota

En nuestro ejemplo selecciona-


Hay una gran cantidad de reglas y criterios para determinar cuál es el número ríamos los cuatro primeros fac-
de ejes factoriales que hay que conservar. La mayor parte de los programas tores.

de ordenador más conocidos suele aplicar el denominado criterio�de�Kaiser,


© FUOC • PID_00212764 55 Introducción al análisis multivariante

según el cual sólo se conservan los factores cuyos valores propios, λk, son más
altos que la unidad. Los criterios más utilizados pueden agruparse en dos mé-
todos generales:

1)�Reglas�basadas�en�la�restitución�mínima

En este caso, lo que hace el investigador es fijar a priori un nivel correspon-


diente al porcentaje mínimo de varianza que quiere restituir y conservar para
el análisis el número de ejes necesario para alcanzar este nivel.

Por ejemplo, sabemos que el porcentaje de varianza explicada por los dos pri-
meros factores es el siguiente:

En el caso de que esta cantidad alcance el nivel fijado, tenemos que conservar
únicamente estos dos primeros factores; en el caso contrario, introduciremos
en el análisis el tercer factor y así sucesivamente hasta alcanzar el nivel fijado.

Por ejemplo, supongamos que el nivel fijado sea, en porcentaje, el 90%; es


preciso conservar, pues, para el análisis el número de factores que haga que:

Nota

En nuestro ejemplo selecciona-


ríamos los cuatro primeros fac-
tores.

2)�Reglas�basadas�en�la�información�restituida�por�cada�factor

Las tres reglas que se exponen a continuación, basadas en la cantidad de infor-


mación restituida por cada factor, son reglas empíricas obtenidas después de
numerosos análisis; no tienen, como es lógico, ninguna demostración teórica,
pero se basan en el sentido común.

a)�Primera�regla�empírica. Únicamente es preciso conservar para el análisis


aquellos factores que restituyan una proporción de la varianza superior a dos
veces la cantidad 100/ P; P es el número de variables iniciales introducidas en
el análisis.

Esta regla proviene del hecho de que si la nube de puntos no tiene ninguna
dirección privilegiada (esfera, por ejemplo), los valores difieren muy poco y la
varianza restituida por el primer factor sería, más o menos:
© FUOC • PID_00212764 56 Introducción al análisis multivariante

o bien el porcentaje 100/ P, donde P es el número de variables iniciales; des-


pués, todos los valores propios serían aproximadamente iguales.

Ejemplo

En nuestro ejemplo seleccionaríamos los dos primeros factores:

b)� Segunda� regla� empírica. Se trata de construir una curva en la cual los
puntos sean los siguientes:

• en abscisas, los números de los factores;

• en ordenadas, el porcentaje de varianza que restituye cada uno de los fac-


tores o el valor propio asociado a cada factor.

Hay que determinar el primer punto de inflexión de la curva y conservar aque-


llos factores cuyo número de orden esté situado antes del punto de inflexión,
tal como se expone en el gráfico que viene a continuación. En nuestro ejem-
plo, el cambio de concavidad se produce a partir del tercer factor. Conserva-
ríamos, por tanto, los dos primeros factores.
© FUOC • PID_00212764 57 Introducción al análisis multivariante

c)�Tercera�regla�empírica. También se denomina regla de interpretación, y es la


regla más utilizada en investigación de mercados, ya que tiene en cuenta la fa-
cilidad de interpretación y la operatividad de los factores extraídos. Selecciona
el número de factores necesarios para cumplir los dos criterios siguientes:

• La solución debe ser fácilmente interpretable, es decir, tiene que comuni-


car de forma tan fiel como sea posible la configuración inicial de variables.

• Los factores tienen que ser operativos, es decir, de fácil utilización como
variables relevo en estudios o análisis posteriores.

Ejemplo

En nuestro ejemplo, decidimos inicialmente conservar los dos primeros factores, con
lo que conservamos el 80,3% de la información inicial, tal como se expone en la tabla
siguiente:

Solución con los dos primeros factores.

Evidentemente, la decisión final depende de la facilidad de interpretación de


los factores y de la calidad de la información conservada.

Un primer resultado que indica la calidad de la representación de la in-


formación en los dos factores seleccionados es la comunalidad. La co-
munalidad expresa la proporción de varianza de una variable explicada
por los factores seleccionados. Concretamente, indica el porcentaje de
información de cada variable que estamos perdiendo al trabajar en un
espacio determinado.
© FUOC • PID_00212764 58 Introducción al análisis multivariante

Una comunalidad elevada (próxima a 1) implica una correlación elevada con


al� menos� uno de los factores seleccionados; en cambio, una comunalidad
baja implica una correlación baja con todos los factores seleccionados. Estas
variables están correlacionadas con otros factores.

Ejemplo

En nuestro ejemplo, teniendo en cuenta los dos primeros factores, la mayoría de las va-
riables está bien representada, tal como podéis ver en el gráfico anterior, a excepción de
las siguientes:

Etapa�5:�rotación�de�los�factores�conservados

Como hemos expuesto más arriba, los ejes factoriales pueden considerarse las
“dimensiones latentes” del problema, y describirlas (interpretarlas) nos con-
duce a comprender las dimensiones fundamentales del fenómeno que es ob-
jeto de estudio.

Para interpretar de forma correctamente estas dimensiones, necesitamos saber


cuáles son las variables que contribuyen más a la formación de cada factor.
Con esta finalidad, utilizaremos como indicador los coeficientes�de�correla-
ción�entre�las�variables�iniciales�y�los�factores que en la fase anterior haya-
mos decidido conservar para proseguir el análisis. Las variables con los coefi-
cientes de correlación más altos con un factor son las que contribuyen más a
la formación de este factor.

La matriz que contiene los coeficientes de correlación entre las variables ini-
ciales y los factores se suele denominar matriz factorial inicial o matriz factorial
no rotada.

Aunque esta matriz indica las relaciones entre los factores y las variables ini-
ciales, raramente estas últimas pueden interpretarse con facilidad, ya que sue-
le suceder que algunas variables iniciales están altamente correlacionadas con
varios factores. Ejemplo de matriz factorial no rotada.

Ejemplo

En nuestro ejemplo, las variables V4 y V14 tienen correlaciones bastante elevadas en


ambos factores.

Para solucionar este problema, suele efectuarse lo que se denomina una rota-
ción�de�los�factores, que consiste en transformar la matriz factorial inicial en
una matriz factorial rotada de interpretación más fácil. Se trata de que cada
© FUOC • PID_00212764 59 Introducción al análisis multivariante

factor tenga coeficientes de correlación significativos con tan sólo algunas de


las variables iniciales, y que cada variable inicial tenga coeficientes de correla-
ción significativos con tan sólo algunos factores, si es posible sólo con uno.

Hay dos tipos de rotaciones:

1) Las rotaciones oblicuas, que son las que eliminan la propiedad de indepen-
dencia de los factores.

2) Las rotaciones ortogonales, que son las que la mantienen.

En investigación comercial, suelen aplicarse las rotaciones ortogonales, dada


la complejidad en la interpretación de resultados de las rotaciones oblicuas.

Dentro de las rotaciones ortogonales, uno de los algoritmos más utilizados es


el algoritmo VARIMAX. Este algoritmo intenta, para cada factor, maximizar la
correlación de algunas variables, las más próximas a –1 o +1, y minimizar la
correlación del resto de las variables.

Ejemplo

En nuestro ejemplo, si aplicamos una rotación VARIMAX a la matriz factorial no rotada,


obtenemos el resultado expuesto a continuación. Efectivamente, observamos que las va-
riables con coeficientes de correlación próximos a 1 en el factor 1 presentan coeficientes
de correlación próximos a 0 en el factor 2, y las variables con coeficientes de correlación
próximos a 1 en el factor 2 presentan coeficientes de correlación próximos a 0 en el fac-
tor 1.

Ejemplo de matriz factorial rotada.


© FUOC • PID_00212764 60 Introducción al análisis multivariante

Al efectuar una rotación, hay que tener en cuenta que el total de la informa-
ción restituida (en nuestro ejemplo, el 80%) permanece constante, pero varía
la información restituida por cada uno de los factores; por eso, si hay que co-
nocerla, tiene que recalcularse. Si llamamos bpk al peso de la variable p en el
factor k rotado, el porcentaje de varianza explicada por este factor es:

donde P es el número de variables, y K, el número de factores que contiene


la matriz factorial.

Ejemplo

En nuestro ejemplo, la varianza explicada por cada uno de los factores, antes y después
de efectuar la rotación, es:

Antes de rotar Después de rotar

Factor 1 51.6 44. 6

Factor 2 28.7 35.7

Factor 1 + 2 80.3 80.3

Etapa�6:�interpretación�de�la�matriz�factorial�rotada�y�representación�de
los�resultados

El objetivo de la interpretación de la matriz factorial rotada consiste en identi-


ficar cada una de las dimensiones latentes extraídas. Se efectúa eligiendo para
cada factor las variables iniciales que tengan unas correlaciones con el factor
que sean las más elevadas (próximas a +1 ó a –1).

Ejemplo

En nuestro caso, para cada factor las variables más correlacionadas son:

Factor 1

V15 Respuestas ingeniosas y completas 0.99312

V11 Parece seguro de sí mismo 0.98688

V14 Docto en la materia. Desarrolla la asigna- 0.98011


tura con sentido crítico

V19 Buena dicción, plenamente audible 0.95817

V20 Sabe controlar la situación con facilidad, 0.95562


sin nerviosismo
© FUOC • PID_00212764 61 Introducción al análisis multivariante

Factor 2

V18 Sabe apreciar los esfuerzos realizados por 0.97943


el estudiante

V17 Es tolerante con los errores de los estu- 0.97748


diantes

V1 Trata a todos los estudiantes aproximada- 0.93613


mente igual

V4 Muestra interés por los problemas y las 0.92972


necesidades de los estudiantes

V3 Próximo, cercano a los estudiantes 0.91928

V5 Posee un carácter agradable 0.91325

A la vista de las variables que constituyen cada uno de los factores, vemos que el factor 1
tiene relación con aspectos referentes a la calidad docente de los profesores, y el factor 2,
con aspectos referentes a la calidad humana de los profesores. De esta manera, podríamos
bautizar el factor 1 como “buen profesor” y el factor 2 como “buena persona”.

3.3. Aplicaciones del análisis factorial

Las principales aplicaciones del análisis factorial son las siguientes:

1)�Utilización�de�los�resultados�del�análisis�factorial�de�componentes�prin-
cipales�como�“variables-relevo”. Los resultados de un análisis factorial pue-
den utilizarse como fase previa de cálculo antes de aplicar otros métodos. Por
ejemplo, dado que los factores obtenidos son independientes, podemos utili-
zarlos como variables nuevas, y evitar dificultades en el caso de que haya una
correlación estrecha entre las variables iniciales, que es uno de los problemas
más comunes en análisis como regresión múltiple, análisis tipológico o análi-
sis discriminante.

2)�Selección�de�variables. Este tipo de análisis permite seleccionar, de entre


un conjunto importante de variables, cuáles son las que más intervienen en la
descripción del fenómeno estudiado, y posibilita que conservemos para análi-
sis posteriores únicamente aquellas variables iniciales que estén estrechamen-
te correlacionadas con los factores que hemos considerado más importantes.

3)�Detección�de�conglomerados. Si efectuamos un análisis factorial de tipo


Q, que recordamos que consiste en buscar los factores en el espacio de los
individuos, podemos agrupar a los individuos en función de comportamientos
análogos en relación con las variables sobre las cuales se lleva a término el
análisis, utilizando por ejemplo un algoritmo de clasificación no jerárquico.
© FUOC • PID_00212764 62 Introducción al análisis multivariante

4. Análisis discriminante

AUTOR:
Francesc�Camp�Torres

4.1. Cuándo tenemos que utilizar el análisis discriminante

Para resolver muchos problemas de marketing, es preciso investigar las diferen-


cias entre grupos para conocer las características distintivas de los individuos
de cada grupo, identificarlas y utilizarlas para asignar a otros individuos cuya
pertenencia a alguno de estos grupos desconocemos.

El análisis multivariable nos ofrece una serie de técnicas, tanto explicativas co-
mo descriptivas, para investigar las diferencias entre grupos. Entre las técnicas
explicativas, se encuentra el análisis discriminante. El análisis discriminante
permite conseguir dos objetivos:

1) Determinar qué variables, de entre las seleccionadas previamente, explican


mejor la pertenencia de un individuo a un grupo determinado. Por ejemplo,
aporta respuestas a las preguntas siguientes:

• ¿Cuáles son las características demográficas diferenciadoras entre los clien-


tes habituales y los ocasionales de una cadena de supermercados?

• ¿Es diferente el estilo de vida de los compradores de productos de alimen-


tación sensibles al precio del estilo de vida de los que son sensibles a la
marca?

• ¿En qué se diferencian los consumidores que han respondido de una ma-
nera positiva a una campaña de marketing directo de los que no lo han
hecho?

2) Determinar el grupo al cual pertenece un individuo pendiente de clasifica-


ción a partir de la respuesta/valor que toma en la serie de variables selecciona-
das previamente. Por ejemplo:

• ¿Qué marca de coches comprará un nuevo comprador?

• ¿En qué grupo de consumo de un producto (elevado, medio o bajo) se


sitúan los individuos que se acaban de incorporar al mercado?

• ¿Cuál es el riesgo (el límite de crédito) que puede darse a un cliente ban-
cario?
© FUOC • PID_00212764 63 Introducción al análisis multivariante

Ejemplo

En un estudio cuyo objetivo consistía en determinar las características diferenciadoras


entre las familias que suelen ir de vacaciones y las familias que suelen hacerlo poco o
no van nunca de vacaciones, se obtuvo información sobre 300 familias. En la variable
V1 se clasificaron las familias entrevistadas en función de si fueron de vacaciones en los
últimos dos años (valor 1) o no lo hicieron en los últimos dos años (valor 2). El resto de
las variables del estudio fueron las siguientes:

V2 Ingresos anuales del hogar (en millones de u.m.).

V3 Actitud hacia los viajes (en una escala de nueve puntos en la cual 1 significaba una
actitud muy negativa con respecto a los viajes, y 9, una actitud muy positiva).

V4 Importancia dada al hecho de pasar las vacaciones con la familia (en una escala de
nueve puntos en la cual 1 significaba poco importante, y 9, muy importante).

V5 Tamaño del hogar (en número de individuos).

V6 Edad del principal responsable del hogar (en años).

Matriz de datos.

La aplicación de un análisis discriminante a este ejemplo permite conocer si las familias


que fueron de vacaciones tienen un perfil diferente de las familias que no lo hicieron y
cuáles de las variables V2 a V6 diferencian más a los dos grupos.

4.2. Metodología del análisis discriminante

El proceso metodológico del análisis discriminante consta de cinco etapas:


© FUOC • PID_00212764 64 Introducción al análisis multivariante

Etapa�1:�diseño�del�análisis

El análisis discriminante es un método de análisis explicativo que permite es-


tudiar las relaciones entre una variable dependiente nominal (pertenencia a
uno de los grupos) y un conjunto de variables independientes cuantitativas,
que en investigación comercial suelen ser características socioeconómicas o
sociodemográficas, hábitos de compra o de consumo, actitudes, etc. de los in-
dividuos analizados.

Ejemplo

En nuestro ejemplo, la variable dependiente del modelo discriminante es el grupo de


pertenencia de las familias, es decir, el grupo 1 si fueron de vacaciones en los últimos años
o el grupo 2 si no fueron de vacaciones en los últimos años. Las variables independientes
del modelo son las variables V2 a V6.

Para contestar al conjunto de preguntas que se han expuesto más arriba, el


análisis discriminante se centra en cubrir los aspectos que vienen a continua-
ción:
© FUOC • PID_00212764 65 Introducción al análisis multivariante

1) Obtener unas funciones discriminantes que discriminen entre los grupos,


es decir, entre las categorías de la variable dependiente (etapa 3).

2) Detectar, a partir de las variables independientes utilizadas, si hay diferen-


cias significativas entre los grupos de la variable dependiente (etapa 4).

3) Clasificar a los individuos en uno de los grupos basándonos en los valores


tomados en las variables independientes y en las funciones discriminantes
obtenidas, y evaluar la precisión de la clasificación (etapa 5).

Etapa�2:�análisis�de�las�variables�explicativas

Aunque no forme parte del procedimiento específico del cálculo del análisis
discriminante, antes de iniciar la estimación de las funciones discriminantes
conviene analizar con detalle las variables explicativas que intervienen en el
modelo. Con esta finalidad obtenemos dos tipos de información:

1) Obtenemos para cada variable sus valores medios y sus desviaciones típicas
dentro de cada grupo.

Ejemplo

En nuestro ejemplo, los dos grupos se diferencian mucho más en cuanto a ingresos anua-
les (V2) que en el resto de las variables. El grupo de las familias que han ido de vacacio-
nes (grupo 1) es el que tiene los ingresos anuales del hogar más elevados. También se
observan unas diferencias determinadas entre los grupos en la importancia concedida a
las vacaciones en familia (V4). Si bien las diferencias en la edad media del responsable
principal del hogar (V6) pueden parecer considerables respecto del resto de las variables,
la desviación típica elevada de esta variable hace que sea poco determinante.

Valores medios y desviaciones típicas.

2) Hay un conjunto de parámetros estadísticos que nos permite determinar si


cada una de las variables explicativas, de manera aislada, diferencia de forma
significativa los grupos de la variable que hay que explicar:
© FUOC • PID_00212764 66 Introducción al análisis multivariante

a)�La�lambda�de�Wilks. Indica en qué medida los valores tomados por una


variable explicativa son diferentes en cada uno de los grupos de la variable que
hay que explicar. Su rango de variación va de 0 a 1. Valores altos de λ (próximos
a 1) indican que la medida de la variable explicativa correspondiente es igual
en cada grupo. En cambio, valores bajos de λ (próximos a 0) indican que la
media es diferente.

Ejemplo

En nuestro caso, sólo las variables “Nivel de ingresos en el hogar” (V2) y “Tamaño del
hogar” obtienen valores muy diferentes en los dos grupos.

b)� El� estadístico� F. Se calcula a partir de un Anova, en el cual la variable


dependiente del modelo discriminante es la variable categórica independiente
del modelo Anova. Cada variable independiente del modelo discriminante se
utiliza como una variable dependiente en dicho modelo. El estadístico F indica
también el grado de influencia de cada variable explicativa por separado sobre
la variable que hay que explicar.

Ejemplo

En nuestro ejemplo, las variables con más poder diferenciador son nuevamente el nivel
de ingresos del hogar (V2), el tamaño del hogar (V5) y en menor medida la importancia
concedida a las vacaciones en familia (V4). Los estadísticos F asociados a estas variables
tienen un nivel de significación inferior al 5%. En cambio, la actitud hacia los viajes (V3)
y la edad del responsable principal del hogar (V6) no son diferentes en los dos grupos.

Los estadísticos expuestos indican que hay unas determinadas diferencias entre los dos
grupos de familias en algunas de las variables explicativas; pero debemos preguntarnos:

• ¿Se diferencian realmente las familias que han ido de vacaciones en los últimos dos
años de las que no lo han hecho?

• ¿Cuáles son las variables que mejor diferencian a los dos tipos de familias?

• ¿Cuál es el perfil de cada tipo de familia?

La utilización del análisis discriminante permite contestar a estas preguntas.

Lambda de Wilks y estadístico F.

Etapa�3:�estimación�de�las�funciones�discriminantes
© FUOC • PID_00212764 67 Introducción al análisis multivariante

El análisis discriminante estima unas funciones discriminantes en dos fases:

1)�Obtención�de�la�ecuación�asociada�a�cada�función�discriminante. En
general, si la variable que hay que explicar es de m grupos, el análisis discri-
minante calcula m-1 funciones discriminantes.

Ejemplo

Dado que en nuestro ejemplo la variable que hay que explicar es de dos grupos, obtene-
mos sólo una función discriminante.

La estimación de las funciones discriminantes se lleva a cabo reduciendo las


variables explicativas iniciales a unas cuantas variables nuevas, combinaciones
lineales de las primeras. Los valores tomados por estas variables nuevas se lla-
man puntuaciones�discriminantes. Cada individuo obtiene una puntuación
discriminante en cada una de las funciones discriminantes.

Si llamamos Zi a la puntuación discriminante asociada al individuo i (i = 1...


n) en una función discriminante cualquiera, Zi será una combinación lineal
de las variables explicativas iniciales Xp (p = 1... P):

donde bp es el coeficiente discriminante o peso asociado a la variable Xp.

Los coeficientes discriminados o pesos bp se estiman teniendo en cuenta que


las puntuaciones discriminantes de los individuos de un grupo sean tan dife-
rentes como sea posible de las puntuaciones discriminantes entre grupos. Esto
ocurre cuando las variaciones de las puntuaciones discriminantes entre gru-
pos, es decir, la suma de cuadrados intergrupos (SCinterg), son superiores a las
variaciones de las puntuaciones discriminantes dentro de cada grupo, es decir,
la suma de cuadrados intragrupos (SCintrag), o, lo que es lo mismo, cuando el
ratio SCinterg/ SCintrag sea el máximo.

La estimación de los coeficientes bp se lleva a cabo maximizando el ratio SCin-


terg/ SCintrag.

Ejemplo

A continuación obtenemos la estimación de los coeficientes bp asociados a la función


discriminante de nuestro ejemplo:
© FUOC • PID_00212764 68 Introducción al análisis multivariante

Estimación de los coeficientes bp de la función discriminante.

Así, la ecuación lineal asociada a la función discriminante es la siguiente:

Zi = 7,98 + 0,85V2i + 0,05V3i + 0,12V4i + 0,43V5i + 0,02V6i

i = 1, ..., 300

2)� Determinación� del� nivel� explicativo� de� cada� función� discriminante.


Antes de interpretar las funciones discriminantes, tenemos que asegurarnos
de que su nivel explicativo es elevado, es decir, de que ayudan realmente a
diferenciar los grupos de población analizados. Con esta finalidad, se utilizan
los parámetros estadísticos siguientes:

a)�El�valor�propio�µ (eigenvalue) asociado a cada función discriminante.

No olvidemos que las funciones discriminantes se obtienen maximizando este


ratio; así, valores propios elevados implican funciones discriminantes con un
poder explicativo elevado.

b)�El�porcentaje�de�varianza�entre�grupos explicada por cada función discri-


minante. Se calcula en función del valor propio asociado a cada función dis-
criminante. Si µk es el valor propio asociado a la función discriminante Dk, el
porcentaje de varianza entre grupos (SCinterg) explicada por Dk es el siguiente:

donde K es el número total de funciones discriminantes.


© FUOC • PID_00212764 69 Introducción al análisis multivariante

c)�La�correlación�canónica. Es una medida de la asociación entre cada fun-


ción discriminante y la variable que hay que explicar. El cuadrado de la co-
rrelación canónica indica el porcentaje de la varianza total de la variable de-
pendiente (SCT), que se explica por la función discriminante correspondiente,
donde SCT = SCinterg + SCintrag.

Ejemplo

En nuestro ejemplo, el cálculo de los tres primeros parámetros se presenta en el cuadro


siguiente:

Parámetros determinados del nivel explicativo de cada función discriminante.

El valor propio asociado a la función discriminante es de 1,7862. Por el hecho de ser


la única función discriminante, explica el 100% de la varianza entre grupos (SCinterg).
La correlación canónica es de 0,8007. El cuadrado de esta correlación, (0,8007)2 = 0,64,
indica que el 64% de la varianza total de la variable dependiente (SCT) se explica por la
función discriminante.

Etapa�4:�interpretación�de�las�funciones�discriminantes

En primer lugar, debemos analizar�la�importancia�relativa�de�cada�variable


explicativa en la diferenciación de los grupos. Si todas las variables explicati-
vas tienen el mismo rango de variación, los coeficientes iniciales bp indican el
peso de cada variable explicativa en la diferenciación de los grupos. En cam-
bio, si los rangos de variación de las variables explicativas son diferentes, caso
habitual en investigación comercial, hay que utilizar los coeficientes bp nor-
malizados, es decir, estimados a partir de las variables iniciales normalizadas.

Ejemplo

En nuestro ejemplo, nos encontramos en la segunda situación, dado que las variables
independientes se han medido en millones de u.m. (V2), en escalas de intervalo (V3, V4),
en número de individuos (V5) y en años (V6).

Las variables con coeficientes elevados, tanto positivos como negativos, son
las que contribuyen más al poder discriminador de las funciones.

Otra manera de determinar la importancia relativa de cada variable explica-


tiva consiste en analizar las correlaciones entre cada variable y las funciones
discriminantes. Estas correlaciones representan el porcentaje de la varianza de
cada variable que está explicada por cada función discriminante. Correlacio-
nes elevadas, tanto positivas como negativas, indican niveles explicativos ele-
vados para las variables explicativas correspondientes. Un coeficiente bp ele-
vado indica una correlación elevada y viceversa.
© FUOC • PID_00212764 70 Introducción al análisis multivariante

Ejemplo

A continuación presentamos los coeficientes bp normalizados, y las correlaciones entre las


variables explicativas y la función discriminante en nuestro caso. En los dos indicadores,
la variable “Ingresos anuales del hogar” (V2) es la más importante a la hora de discriminar
entre los dos grupos de familias, seguida del “Tamaño del hogar” (V5) y la “Importancia
dada a las vacaciones en familia” (V4).

Coeficientes bp estandarizados y correlaciones entre cada variable y la función discriminante.

A partir de estos resultados, podemos representar de forma gráfica la función


discriminante obtenida, teniendo en cuenta los aspectos siguientes:

1) Sólo se posicionan en la función discriminante las variables con correlacio-


nes o coeficientes normalizados elevados.

2) Si la correlación de una variable explicativa con la función discriminante


es positiva, valores altos de la variable en cuestión implican puntuaciones dis-
criminantes (Zi) altas en la función discriminante. En este caso, situamos los
valores altos de la variable en la parte positiva de la función, es decir, a la
derecha, y los valores bajos en la parte negativa, es decir, a la izquierda. En
cambio, si la correlación es negativa, unos valores altos de la variable implican
unas puntuaciones discriminantes bajas y unos valores bajos implican unas
puntuaciones elevadas. En este caso, los valores altos de la variable se sitúan
en la parte negativa de la función, y los valores bajos, en la parte positiva.

Ejemplo

En nuestro ejemplo, las correlaciones más altas (V2 y V5) son positivas, y obtenemos la
representación siguiente:

El paso siguiente consiste en determinar las características diferenciadoras de Puntuación discriminante


cada grupo. Con esta finalidad, el análisis calcula la puntuación discriminante media

media de cada grupo. Se obtienen sustituyendo en la función discriminante La puntuación discriminante


cada variable explicativa por su valor medio dentro del grupo: media también se denomina
centroide del grupo. En el caso
de nuestro ejemplo, Z1 y Z2.
© FUOC • PID_00212764 71 Introducción al análisis multivariante

Centroides de cada grupo.

Posicionando estos dos valores en la función discriminante, podemos definir


el perfil medio de cada grupo.

Ejemplo

En nuestro ejemplo, las familias del grupo 1 (familias que han ido de vacaciones en los
dos últimos años) disponen de unos ingresos anuales más elevados y son más numerosas.
En cambio, las del grupo 2 (familias que no han ido de vacaciones en los dos últimos
años) tienen ingresos anuales más bajos y son menos numerosas.

Etapa�5:�validación�de�las�funciones�discriminantes

El proceso se lleva a cabo de la manera siguiente:

1) Cada individuo obtiene una puntuación discriminante Zi al multiplicar los


coeficientes no estandarizados bp de la función discriminante por los valores
tomados en las variables explicativas correspondientes.

2) Cada individuo está asignado a uno de los grupos basándose en su puntua-


ción discriminante y en una regla de asignación adecuada. En el caso de una
variable que hay que explicar de dos grupos, un individuo está asignado al
grupo cuya puntuación discriminante media (centroide) sea más próxima a su
puntuación discriminante.

3) Si, una vez asignados, todos los individuos se vuelven a clasificar en su gru-
po inicial de pertenencia, obtenemos el 100% de individuos bien clasificados
y podemos concluir que la función discriminante encontrada explica la tota-
lidad de las diferencias entre grupos. En la práctica, difícilmente suele ser así;
podría considerarse un porcentaje razonable de individuos bien clasificados
aquel que es superior en un 25% al que se obtendría clasificando de forma co-
rrecta a los individuos al azar. Por ejemplo, cuando los grupos analizados son
del mismo tamaño, el porcentaje de individuos correctamente clasificados al
azar es de un individuo por número de grupos. En el caso de dos grupos, el
porcentaje de individuos correctamente clasificados tendría que ser superior
al 62,5% (50% = 50% × 0,25). Los grupos nuevos resultantes del proceso de
asignación suelen llamarse grupos�predichos.
© FUOC • PID_00212764 72 Introducción al análisis multivariante

4) Los resultados del proceso de asignación se presentan en una matriz de cla-


sificación obtenida a partir del cruce entre los grupos iniciales de pertenencia
de los individuos y los grupos resultantes de la aplicación de las funciones dis-
criminantes (grupos predichos). Esta matriz indica el porcentaje de individuos
clasificados correctamente una vez efectuada la asignación.

Ejemplo

En nuestro ejemplo, todos los individuos del grupo 2 vuelven a su grupo inicial y se
reasignan a partir de la función discriminante. En cambio, 30 individuos del grupo 1 se
clasifican en el grupo 2, con lo que el porcentaje de individuos clasificados correctamente
en este grupo es del 80%. El porcentaje total de individuos correctamente clasificados es
del 90%. Este porcentaje se obtiene sumando los casos bien clasificados y dividiendo por
el número total de casos.

Podemos considerar válida la función discriminante.

Resultados del proceso de asignación.

La extensión del análisis discriminante a una variable que hay que explicar de
más de dos grupos incluye las mismas etapas.

4.3. Aplicaciones del análisis discriminante

Las aplicaciones habituales del análisis discriminante en investigación comer-


cial son las siguientes:

1) Determinar cuáles son las variables que explican mejor la pertenencia de


un individuo a un grupo determinado a priori. Por ejemplo, permite contestar
a las preguntas siguientes:

• ¿Cuáles son las variables fundamentales que explican el consumo de una


marca o de otra?

• ¿Hay diferencias entre innovadores y tradicionales de acuerdo con sus per-


files?
© FUOC • PID_00212764 73 Introducción al análisis multivariante

2) Determinar con una finalidad predictiva el grupo al cual pertenece un in-


dividuo pendiente de clasificación, ya sea porque durante la entrevista no ha
manifestado su grupo de pertenencia o porque es un individuo que no forma
parte de la muestra analizada: comprador nuevo de un producto, consumidor
nuevo, etc.

Ejemplo

Consideremos a un grupo de consumidores que consumen exclusivamente una de las


tres marcas siguientes: A, B o C Para cada uno de estos consumidores se dispone de una
información sobre determinadas características (variables de actitud, socioeconómicas,
etc.). Lo que nos permite el análisis discriminante es:

1. Encontrar, en una primera fase, cuáles son las variables fundamentales para explicar
el consumo de una marca o de otra.

2. Con posterioridad, mediante el estudio de los valores que toman estas variables para
un consumidor nuevo, el análisis discriminante predecirá, por medio de un proceso de
asignación idéntico al que se ha utilizado en la validación de las funciones discriminan-
tes (podéis consultar la etapa 5), la marca que comprará o bien la marca que tiene más
probabilidades de comprar.

Los ejemplos de aplicación con finalidad predictiva del análisis discriminante


abundan en investigación comercial, y pueden señalarse los siguientes: prede-
cir el riesgo (límite de crédito) que puede darse a un cliente en función de su
perfil socioeconómico, predecir la marca que comprará un comprador nuevo,
etc.
© FUOC • PID_00212764 75 Introducción al análisis multivariante

Glosario
algoritmo de clasificación  Procedimiento de clasificación de los elementos en clústers
a partir de distancias calculadas. Nos centramos en los métodos jerárquicos de tipo acumu-
lativo.

análisis canónico  Análisis de modelos multiecuacionales.

análisis clúster  Técnica de agrupación de elementos en conglomerados que presenten una


homogeneidad interna.

análisis de correlación  Análisis de la posible relación de linealidad entre dos variables


aleatorias. Análisis del tipo simétrico en que se quiere medir una relación de interdependen-
cia (X <–> Y).

análisis de correspondencias  Análisis que busca la interdependencia entre dos clasifi-


caciones en una tabla de contingencia.

análisis de regresión lineal  Análisis de la posible relación de dependencia lineal entre


dos variables aleatorias. Análisis de tipo asimétrico en que la dirección de la relación (X –
> Y) es fundamental.

análisis de regresión lineal múltiple  Análisis de regresión lineal en el cual la variable


explicada (Y) se supone que lo es por un conjunto de K variables independientes (Xi).

análisis de los componentes principales  Técnica de reducción de la dimensionalidad


del estudio mediante la retención de una parte de la información inicial.

análisis discriminante  Análisis que permite diferenciar la pertenencia a grupos predefi-


nidos.

análisis factorial clásico  Análisis que extrae factores subyacentes de la estructura de las
observaciones.

coeficiente de determinación  Coeficiente que mide la bondad del ajuste lineal a los
datos; también mide lo que representa la variación explicada por la regresión (SCR) sobre la
variación total (SCT).

dendrograma  Representación gráfica de la estructura jerárquica de la formación de los


grupos.

dispersión de los estimadores  Dispersión que refleja su eficacia; cuanto más pequeña sea
esta variabilidad en torno a su valor esperado, más eficientes serán los estimadores. La medida
habitual de esta dispersión se realiza mediante el cálculo del error estándar del parámetro
estimado.

escalograma multidimensional  Escalograma que reproduce percepciones subyacentes


en mapas multidimensionales.

estimadores mínimos-cuadráticos ordinarios  Estimadores de los K parámetros β i de


la ecuación del MRLM que han sido obtenidos mediante el criterio de minimización de la
suma de los residuos del ajuste al cuadrado.

estimador de la varianza de la perturbación  La estimación de la varianza de la per-


turbación aleatoria β2 es SCE / n – K.

interpretación de los factores  Interpretación que se realiza a partir de la proyección de


los elementos en el nuevo sistema de ejes y de la correlación que presentan los componentes
y las variables.

medida de disimilitud o de distancia  Medida que da la desigualdad entre los elementos


observados. Consideramos los criterios de distancia euclidiana, de distancia euclidiana al
cuadrado, de City-Block, etc.

métodos de fusión de grupos  Criterios de agregación de clústers; distinguimos entre el


método de las distancias mínimas, el de las distancias máximas y el de las distancias medias.

modelo de regresión  Instrumento estadístico para llevar a cabo un análisis de regresión


de tipo inferencial y para contrastar y cuantificar una relación de dependencia lineal entre
© FUOC • PID_00212764 76 Introducción al análisis multivariante

dos variables. En concreto, se trata de una ecuación de regresión y de una serie de hipótesis
sobre los diferentes elementos (parámetros y variables) que la componen.

modelo de regresión lineal múltiple  Modelo que comprende una ecuación de regre-
sión y unas hipótesis sobre los diferentes componentes: las K variables explicativas que se
supone que son fijas, la variable dependiente y el término de perturbación son aleatorios, y
los parámetros del modelo son β i y β2.

tablas de perfiles  Tablas que proporcionan medidas descriptivas de cada clúster para con-
seguir una mejor lectura del análisis.

término de perturbación  Variable aleatoria que reúne la desviación entre el valor obser-
vado (Yi) y el valor esperado (α + β Xi) de la variable que se tiene que explicar (Y); incorpora
errores de medida en las variables del modelo, factores aleatorios no incluidos en la parte
sistemática del modelo, preferencias individuales, etc.

valores propios  Soluciones a la ecuación | R – λ I | = 0 que determinan la capacidad expli-


cativa de los componentes principales.

vectores característicos  Vectores que contienen los coeficientes de las relaciones entre
los componentes y las variables.
© FUOC • PID_00212764 77 Introducción al análisis multivariante

Bibliografía
Abascal, E.; Grande, I. (1989). Métodos multivariantes para la investigación comercial. Barce-
lona: Ariel Economía.

Manual aplicado que incluye contenidos de los apartados 2 (“Análisis de componentes prin-
cipales”) y 3 (“Análisis clúster”) del módulo “Análisis múltiple de datos” con numerosos
ejemplos de aplicación a la investigación de mercados.

Canavos, G.C. (1990). Probabilidad y estadística. Aplicaciones y métodos. Méjico: McGraw


Hill.

Manual teoricopráctico de nivel medio, con un buen desarrollo formal de los métodos esta-
dísticos. Reúne, de manera extensa, los contenidos del módulo “Cálculo de probabilidades y
ampliaciones de inferencia estadística” y los del apartado “El modelo de regresión múltiple”
del módulo “Análisis múltiple de datos”.

Martín Guzmán, P.; Martín Pliego, F.J. (1985). Curso básico de estadística económica.
Madrid: Editorial AC.

Manual de introducción a la materia que incluye los contenidos del módulo “Índices y series”
y, parcialmente, los del módulo “Análisis múltiple de datos”.

Martín Pliego, F.J. (1994). Introducción a la estadística económica y empresarial. Madrid:


Editorial AC.

Manual teoricopráctico con una extensa colección de problemas resueltos de estadística eco-
nómica. Incluye los contenidos del módulo “Índices y series” y, parcialmente, los contenidos
de los otros dos módulos.

También podría gustarte