Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Pid 00212753-5 PDF
Pid 00212753-5 PDF
análisis
multivariante
Ramon Alemany Leira
Joan Baró Llinàs
Francesc Camp Torres
PID_00212764
© FUOC • PID_00212764 Introducción al análisis multivariante
Ninguna parte de esta publicación, incluido el diseño general y la cubierta, puede ser copiada,
reproducida, almacenada o transmitida de ninguna forma, ni por ningún medio, sea éste eléctrico,
químico, mecánico, óptico, grabación, fotocopia, o cualquier otro, sin la previa autorización escrita
de los titulares del copyright.
© FUOC • PID_00212764 Introducción al análisis multivariante
Índice
Introducción............................................................................................... 5
2. Análisis clúster.................................................................................... 31
2.1. Medidas de disimilitud ............................................................... 32
2.2. Algoritmo de clasificación .......................................................... 35
2.3. Presentación de los resultados .................................................... 37
2.4. Otras consideraciones ................................................................. 37
2.5. Otros métodos de análisis multivariante .................................... 44
2.6. Resumen ...................................................................................... 46
2.7. Ejercicios de autoevaluación ....................................................... 46
2.8. Solucionario ejercicios de autoevaluación .................................. 47
3. Análisis factorial................................................................................ 49
3.1. Cuándo tenemos que utilizar el análisis factorial ....................... 49
3.2. Metodología del análisis factorial ............................................... 51
3.3. Aplicaciones del análisis factorial ............................................... 61
4. Análisis discriminante...................................................................... 62
4.1. Cuándo tenemos que utilizar el análisis discriminante .............. 62
4.2. Metodología del análisis discriminante ...................................... 63
4.3. Aplicaciones del análisis discriminante ...................................... 72
Glosario........................................................................................................ 75
Bibliografía................................................................................................. 77
© FUOC • PID_00212764 5 Introducción al análisis multivariante
Introducción
AUTORES:
Ramon�Alemany�Leira
Joan�Baró�Llinàs
COLABORACIÓN:
Elena�Rico�Gómez
Si sobre todo el censo o sobre una muestra de empresas viticultoras del Alto
Penedés calculásemos la cifra de negocio de cada una, podríamos representar
los resultados en un diagrama de puntos:
Es lógico pensar que este tipo de estudios es multidimensional y un análisis Análisis de componentes
exhaustivo exigiría la observación de muchas variables: costes, plantilla, in- principales
versiones, márgenes comerciales, gastos de promoción, existencias, etc. La lista El análisis de componentes
de indicadores puede ser tan larga como se quiera; cuantas más variables haya, principales presenta numero-
sas aplicaciones en el marke-
más información y, a la vez, más complicación tendrá el analista. Ahora, las ting, como pueden ser la seg-
mentación de mercados, las
técnicas clásicas de descripción ya aprendidas son insuficientes; hay que recu- tipologías de productos y de
empresas y las preferencias de
rrir a métodos que disminuyan la dimensionalidad del estudio, que lo hagan los consumidores. La meto-
más fácil y que también retengan la mayor parte de la información contenida dología del ACP es uno de los
instrumentos más valiosos en
en las variables observadas inicialmente. Uno de estos métodos es el análisis los estudios de mercado.
de�componentes�principales�(ACP).
3) Una ventaja que se deriva de esta reducción de ejes es que ahora los nuevos
componentes son independientes entre sí y este hecho es importante porque
anula la posibilidad de que se sobrepongan conceptos.
Actividad
1.1. Imaginaos que queréis describir a los estudiantes matriculados en la UOC en la di-
plomatura de Empresariales. ¿Qué variables podríais utilizar? Al final saldría una lista
larguísima: edad, altura, número de calzado, ..., asignaturas elegidas, horas de estudio,
conexiones realizadas, .., nivel de renta, gastos de ocio, ..., inteligencia, agresividad, ...
Suponiendo que nos limitemos únicamente a cuestiones académicas, indicad una docena
de variables que sean objetivamente evaluables, pasad la encuesta a un grupo de compa-
ñeros y haced una lista de los resultados. Comprobad cómo una información tan amplia
sobrepasa el ojo clínico de cualquier analista, aunque sea experimentado.
¿Se da duplicidad en la información por una cierta redundancia en las preguntas? Las
correlaciones entre las variables observadas os pueden dar la respuesta. Ahora es necesario
© FUOC • PID_00212764 9 Introducción al análisis multivariante
X1 X2 ... Xj ... XJ
Ii Xi 1 Xi 2 ... Xi j ... Xi J
II XI 1 XI 2 ... XI j ... XI J
© FUOC • PID_00212764 10 Introducción al análisis multivariante
2) Se calculan los valores�propios a partir de los resultados de λ en la ecuación: En los valores propios
Esta expresión se tiene que entender como la capacidad explicativa de los com-
ponentes Z1, Z2, ..., Zl, que permite determinar el número�de�componentes
principales que necesitamos para conseguir una determinada bondad en el
estudio.
4) Para calcular las funciones que determinan cada uno de los componentes:
otros vectores :
Actividad
1.2. Suponemos tres ratios financieras calculadas sobre cinco cajas de ahorros:
A 23 22 45
B 45 38 74
C 34 24 47
D 19 7 15
E 52 44 83
Calculad las correlaciones que se dan entre las tres variables y obtened los valores propios
λ1, λ2 y λ3.
Proyectad las cinco cajas de ahorros sobre el nuevo eje y veréis la ordenación conseguida
(recordad que es necesario sustituir X1, X2 y X3 por los valores estandarizados).
Si hubieseis calculado los tres componentes Z2 y Z3, veríais que salen las ecuaciones si-
guientes:
Podríais proyectar las cinco cajas en cada uno de los nuevos factores; comprobad que
ahora los resultados tienen una media de cero y que no están en correlación.
Si trabajamos con menos ejes, será más fácil agrupar los resultados y clasificar-
los en categorías. Sin embargo, esto será eficaz en la medida en que sepamos
qué quieren decir estos nuevos componentes principales y, por tanto, las tipo-
logías de los diferentes grupos que salen. Resulta poco útil formar categorías
de elementos sin saber a qué criterio responden.
De forma análoga, las proyecciones sobre Z2, Z3, ... pueden ayudar a interpretar
el concepto que traducen.
De todos modos, será más definitivo el estudio de las correlaciones entre las Recordad
variables X1, X2, ..., XJ y los componentes encontrados Z1, Z2, ..., ZJ.
Cada componente es una
combinación lineal de todas
las variables, pero siempre hay
Definimos la correlación entre Xj y Zl a partir de la relación: algunas de mayor peso que-
pueden ser relevantes para eti-
quetar el componente.
Actividad
1.3. Suponemos que sobre veinticinco modelos de automóviles hemos observado quin-
ce características: velocidad máxima, capacidad del maletero, consumo de gasolina por
ciudad, etc. Esto nos ha permitido hacer un ACP a partir del cual hemos seleccionado
dos componentes Z1 y Z2 que retienen el 82,3% de la información inicial.
Z2 está muy correlacionada con: la longitud del coche, la distancia entre los ejes de las
ruedas y la medida de las ruedas.
¿Qué interpretación tendríais que hacer de Z1 y Z2 que permitiese obtener una descrip-
ción fácil de los veinticinco coches observados?
Ejemplo
Realizamos ahora un ejemplo simulado, paso a paso, de fácil solución sin te-
ner que utilizar el soporte informático. Tenemos veintiséis municipios para
los cuales hemos calculado la distribución porcentual del voto en las últimas
elecciones al Parlamento de Cataluña:
1 32 37 11 6 9 5
2 42 20 8 13 12 5
© FUOC • PID_00212764 16 Introducción al análisis multivariante
3 27 41 12 3 7 10
4 48 32 6 8 6 1
5 33 25 20 4 12 6
26 53 21 4 12 9 1
Queremos hacer un ACP que ofrezca una lectura más cómoda de los resultados
de la votación.
CiU 1,000
La solución de este determinante nos lleva a una ecuación de sexto grado del
tipo:
y obtendríamos:
© FUOC • PID_00212764 18 Introducción al análisis multivariante
sobre los cuales se proyectan las estandarizaciones de los resultados de los seis
municipios.
Así, en los nuevos ejes, las proyecciones del primer municipio son:
Municipio Z1 Z2
1 0,11 –0,23
2 1,25 0,17
3 –1,31 –1,35
4 1,46 0,95
5 –0,85 1,21
26 2,17 –0,46
Z1 Z2
PP –0,806 0,512
Z1 = voto nacionalista,
Z2 = voto conservador,
que vuelve a situar los veintiséis municipios de acuerdo con estos dos criterios
y que permite un análisis más cómodo que el que se conseguiría con la infor-
mación inicial:
Actividades
1.4. Hemos realizado un estudio acerca de diferentes aspectos relativos a diez grandes
superficies de venta y hemos valorado de 0 a 10 las cuestiones siguientes:
Cuadro de puntuaciones:
A B C D E F G H
1 6 9 8 7 6 7 9 6
2 7 9 5 3 7 5 4 7
3 6 8 5 3 7 4 4 6
4 5 5 7 2 4 4 3 4
5 6 7 9 9 7 8 9 5
6 8 9 9 7 7 7 8 8
7 2 1 5 6 2 4 5 3
8 7 8 3 2 6 2 3 6
9 4 3 8 6 2 9 7 4
10 5 6 7 7 4 8 8 6
Si calculáis la correlación entre todas estas características, comprobaréis que hay variables
muy correlacionadas etre sí y que, por tanto, hay mucha información redundante.
A B C D E F G H
A 1,000
B 0,941 1,000
Para simplificar los resultados de este estudio, tenéis que efectuar un análisis de los com-
ponentes principales. Veréis que podéis llegar a obtener hasta ocho valores propios (λj).
Ahora tendríais que justificar que os decidís sólo por dos factores principales (Z1 y Z2) y
después tendríais que encontrar sus vectores característicos:
Esto os tiene que permitir proyectar las diez grandes superficies del estudio en un sistema
de dos dimensiones y discutir las posiciones que ocupan según los nuevos indicadores Z1
y Z2. Os pueden ayudar las correlaciones, que calcularéis entre las ocho variables iniciales
y los componentes nuevos.
A B C D E F G H
A continuación únicamente falta identificar los conceptos que engloban tanto Z1 como
Z2.
1.5. El cuadro que se muestra a continuación recopila los resultados conseguidos por un
grupo de quince adolescentes en las pruebas atléticas siguientes:
P1 P2 P3 P4 P5 P6
P7 P8 P9 P10 P11
Para elaborar una clasificación más cómoda de los participantes, hemos decidido efec-
tuar un análisis de los componentes principales. Veréis que salen los valores propios si-
guientes:
Teniendo en cuenta estos resultados, tenéis que justificar que os quedáis sólo con tres
factores principales, a los cuales corresponderán los coeficientes que vemos aquí (vectores
característicos):
Atleta Z1 Z2 Z3
Atleta Z1 Z2 Z3
Z1 Z2 Z3
Ahora podemos acabar el problema fácilmente, otorgando significado a los tres compo-
nentes principales que vuelven a situar a los participantes de las pruebas atléticas.
© FUOC • PID_00212764 25 Introducción al análisis multivariante
1.4. Resumen
Ejercicio�1
Se pide:
© FUOC • PID_00212764 26 Introducción al análisis multivariante
a) Calcular las correlaciones entre las variables para comprobar que presentan
una dependencia lineal.
Ejercicio�2
8 7 5 2 2 6 6 4
7 6 4 3 3 6 6 5
© FUOC • PID_00212764 27 Introducción al análisis multivariante
7 7 4 2 2 6 5 4
9 8 6 5 5 9 8 6
6 5 3 2 2 7 5 4
6 5 3 5 6 9 7 7
6 6 3 1 1 5 4 4
6 5 2 4 3 8 7 6
9 8 5 5 5 9 8 7
8 7 5 2 1 6 5 4
5 5 1 2 3 3 3
6 4 2 2 3 2 2
5 2 1 4 4 1 4
8 6 3 4 4 4 4
6 3 2 3 4 1 3
8 6 4 4 5 2 3
4 2 0 2 3 1 2
7 8 3 4 5 2 4
9 2 3 5 5 4 5
5 4 1 2 3 3 2
a) Cuánto valen los valores propios asociados con los diferentes componentes
y cuál es la capacidad de información retenida.
Ejercicio�1
© FUOC • PID_00212764 28 Introducción al análisis multivariante
Oficinas 0,632
Variable CP1
Empleados –0,482
Oficinas –0,481
Pólizas –0,513
Primas –0,522
d) A partir de la ecuación:
Empresa Z1
1 Capfre –4,50846
2 Reunion 0,62422
3 Kasser 1,34829
4 Güintur –0,17440
5 Xurich –0,40779
6 Achages 0,75525
7 Catalina 0,08449
© FUOC • PID_00212764 29 Introducción al análisis multivariante
Empresa Z1
8 Ibérrica 1,15666
9 Confiat 1,12174
Ejercicio�2
2. Análisis clúster
AUTORES:
Ramon�Alemany�Leira
Joan�Baró�Llinàs
COLABORACIÓN:
Elena�Rico�Gómez
Elementos X1 X2 ... XJ
Elementos X1 X2 ... XJ
I XI 1 XI 2 ... XI J
y ahora se tienen que calcular las diferencias que hay entre estos elementos.
Para obtener disimilitudes o distancias entre los elementos se pueden utilizar Otras distancias
diferentes criterios que, lógicamente, no proporcionan resultados iguales, pero
Existen otras distancias, como
que sí permiten obtener conclusiones parecidas. Mencionamos, a continua- pueden ser la de Mahalanobis,
ción, las medidas más utilizadas para calcular la disimilitud entre los elemen- la de Minkowski, la de Tcheby-
chef, etc. Tendríamos que es-
tos r y s. tudiar las propiedades y los in-
convenientes que presentan,
pero básicamente todas tienen
una misma ordenación de las
1)�Distancia�euclidiana distancias.
2)�Distancia�euclidiana�al�cuadrado
3)�Distancia�de�City-Block
Ejemplo
X1 X2 X3
1) Distancias euclidianas:
Barcelona - - - -
Gerona 4,36 - - -
Barcelona - - - -
Gerona 19,02* - - -
3) Distancias City-Block:
Barcelona - - - -
Gerona 7 - - -
Lérida 3 4 - -
Si efectuamos una ordenación de las distancias que separan las cuatro ciuda-
des, veremos que las ordenaciones son prácticamente coincidentes. En este
caso hay que interpretar que la distancia utilizada no afecta de manera sustan-
cial a las conclusiones que se puedan extraer.
Barcelona-Gerona Barcelona-Gerona
Actividad
2.1. Podríais construir una matriz de información sobre diferentes aspectos que vosotros
mismos evaluéis a partir de los diarios: Avui, La Vanguardia, El Periódico, Diari Punt, ABC y
El Mundo, y podríais puntuar de 0 (totalmente en desacuerdo) a 9 (totalmente de acuerdo)
las afirmaciones siguientes:
X1 = Es sensacionalista.
X2 = Es de lectura fácil.
© FUOC • PID_00212764 35 Introducción al análisis multivariante
X3 = Es catalanista.
X5 = Es serio.
X6 = Es objetivo.
A partir de esta información, calculad las distancias de disimilitud entre los diarios y
comprobad cuáles son los más parecidos y los más diferentes.
Con las distancias calculadas tenéis que elegir un algoritmo que nos permita
clasificar los elementos en clústers. Los más rápidos y sencillos son los méto-
dos�jerárquicos (existen otros tipos), que, a su vez, pueden ser acumulativos
(se forman grupos haciendo clústers cada vez más grandes) o disminutivos
(partiendo de un solo grupo, se separan los elementos en grupos cada vez más
pequeños).
Más algoritmos
Entre los algoritmos acumulativos para la fusión de grupos, es necesario
hacer mención de diferentes métodos: Podríamos añadir más algorit-
mos, tanto acumulativos como
divisivos; en cada caso tendría-
1) Método de las distancias mínimas; es decir, máxima semejanza entre mos que discutir las propieda-
des y las desventajas que im-
los elementos o grupos más cercanos. plican. A pesar de esto, los mé-
todos a que nos hemos refe-
rido son los más fáciles desde
2) Método de las distancias máximas; es decir, cálculo de la mínima un punto de vista operativo y
distancia entre los elementos más alejados. proporcionan buenos resulta-
dos.
Barcelona - - - -
Gerona 19,02 - - -
Barcelona - - -
Gerona 19,02 - -
Tendríamos ahora dos clústers: uno formado por los elementos Barcelona-Ta-
rragona-Lérida y el otro con un único elemento: Gerona; la distancia que los
separa es la más corta entre Gerona y las otras tres ciudades:
Gerona se podría integrar en un solo clúster con el resto de los municipios con
una distancia de 9,26.
© FUOC • PID_00212764 37 Introducción al análisis multivariante
Actividad
2.2. Después de ver con detalle el método de las distancias mínimas, ya podéis utilizar
para la agregación de clústers el método de las distancias máximas; es decir, podéis in-
corporar grupos de máxima distancia a partir de los mínimos encontrados. Os sugerimos
que apliquéis este procedimiento con los datos del ejemplo anterior.
Los ejemplos que hemos presentado hasta ahora utilizan variables con escalas
similares: puntuación, porcentaje, etc., pero, a menudo, las variables se aso-
cian con conceptos muy diferentes y, en consecuencia, con medidas de obser-
vación heterogéneas.
© FUOC • PID_00212764 38 Introducción al análisis multivariante
Existen varias soluciones para resolver este tema. De entre las más uti-
lizadas, hay que mencionar el análisis de los componentes principales
sobre todas las observaciones, técnica que homogeneiza los datos (aun-
que con el coste de perder parte de la información inicial) y que posibi-
lita un posterior análisis clúster sobre los componentes seleccionados.
Otra posibilidad sería trabajar con datos estandarizados, con lo cual eli-
minaríamos la escala de medida y así podríamos aplicar un análisis clús-
ter sobre variables que presentan un mismo valor medio y una misma
desviación estándar.
Ejemplo
A modo de ejemplo, y sin entrar en detalle, veamos cuáles serían los resulta-
dos de haber aplicado el análisis clúster a cifras compatibles y a ratios empre-
sariales de un conjunto de empresas automovilísticas que operan en el Estado.
Las diferentes escalas de medida utilizadas nos remiten a cálculos estadísticos
heterogéneos, por lo cual resulta necesario trabajar con datos estandarizados
para hacer comparables los resultados.
Consideramos, pues, veinte empresas del sector del automóvil de las cuales
hemos calculado quince indicadores diferentes a partir del análisis de balances:
variables relativas a masas patrimoniales, índices financieros y magnitudes de
tamaño.
Empresa Ingresos to- Capital social Recursos Inmovili- Activo total Beneficio ne- Cash-flow ne-
tales Ejer- 31/12/07 propios zado neto 31/12/07 to 31/12/07 to 31/12/07
cicio 2007 31/12/07 31/12/07
Empresa Ingresos to- Capital social Recursos Inmovili- Activo total Beneficio ne- Cash-flow ne-
tales Ejer- 31/12/07 propios zado neto 31/12/07 to 31/12/07 to 31/12/07
cicio 2007 31/12/07 31/12/07
Nissan Mot. Ib. 190.324 60.789 18.870 157.255 227.755 –41.030 –25.805
Renault Es- 101,40 132,12 98,33 222,18 181,85 208,65 13.699 35,25
paña
General Mo- 105,66 118,98 96,93 167,86 247,36 163,21 9.250 50,35
tors España
Ford España 157,88 198,59 82,80 212,16 187,15 200,93 8.997 39,31
Citroën His- 117,63 177,98 95,28 247,77 167,67 243,10 8.161 37,40
pania
© FUOC • PID_00212764 40 Introducción al análisis multivariante
Nisssan Mo- 22,90 40,09 36,35 109,03 1.206,97 83,57 7.001 27,19
tor Ibérica
Peugeot Tal- 48,89 84,12 75,76 120,85 580,01 266,32 5.205 35,62
bot España
Iveco Pegaso 47,35 76,39 –23,35 93,32 –1.398,11 67,35 4.319 16,17
Santana Mo- 24,69 46,62 –452,39 92,72 –1.274,20 182,97 2.838 17,10
tor
Pirelli Neu- 74,66 106,17 72,59 162,44 260,16 111,39 1.464 16,76
máticos
Béndix Espa- 92,76 121,74 92,68 192,07 208,62 151,42 1.120 17,39
ña
John Deere 44,70 91,76 92,15 117,87 659,35 189,82 995 19,39
Ibérica, SA
Lucas Auto- 100,32 124,19 65,01 125,98 224,16 117,23 1.366 12,44
motive, SA
Si hemos realizado el estudio para obtener seis clústers, los resultados podrían
ser:
• SEAT
© FUOC • PID_00212764 42 Introducción al análisis multivariante
• Renault España
• General Motors
• Ford España
• Citroën Hispania
Clúster 3: empresas grandes con poco capital y con una facturación por em-
pleado altísima:
• Volkswagen Audi
Clúster 4: empresas medias con pérdidas importantes que generan flujos ne-
gativos:
• Mercedes Benz
• Peugeot Talbot España
• Robert Bosch
• Bridgestone Firestone España
• Ciba-Geigy
• Renault Vehículos Industriales
• Pirelli Neumáticos
• Béndix España
• John Deere Ibérica S.A.
• Lucas Automotive S.A.
• Santana Motor
Actividad
Veréis cómo los resultados son diferentes en función de si hacéis las agrupaciones direc-
tamente a partir de los datos originales o bien a partir de datos estandarizados.
Podéis comprobar que los clústers que resultan de trabajar con estandarizaciones son
bastante parecidos a los que saldrían si hiciésemos los grupos con los tres primeros com-
ponentes calculados en el apartado anterior.
© FUOC • PID_00212764 44 Introducción al análisis multivariante
Para acabar este módulo, nos limitaremos a dar noticia de otros métodos, pero
no entraremos en detalles de su contenido:
2) El análisis� de� correspondencias es una derivación del análisis factorial Ejemplo de análisis de
aplicado a la información contenida en las tablas de contingencia; permite correspondencias
relacionar atributos o variables cuantitativas en la clasificación cruzada de los Un ejemplo típico es la elabo-
datos y pone de manifiesto las relaciones que se dan dentro de cada distribu- ración de tablas con causas de
muerte y profesiones, en las
ción marginal y dentro de la distribución conjunta. cuales se busca la interdepen-
dencia entre las dos caracterís-
ticas y las propensiones a de-
terminadas enfermedades en
3) Con el análisis�discriminante se determinan criterios que permitan dife- cada profesión.
renciar varios grupos. A partir de la obtención de ejes con poder discriminador,
se puede prever con una alta probabilidad la pertenencia de los elementos a
© FUOC • PID_00212764 45 Introducción al análisis multivariante
cada uno de los grupos. Es necesario notar la diferencia de este análisis con Ejemplo de análisis
respecto al clúster: así como en el discriminante los grupos ya están presentes discriminante
y todo el problema consiste en buscar criterios diferenciadores, en el análisis Con el análisis discriminante,
clúster, en cambio, los grupos son desconocidos. a partir de la información que
proporcionan los cuestionarios
bancarios, se puede determi-
nar a qué grupo de riesgo per-
4) El análisis�canónico tiene como objetivo explicar un conjunto de varia- tenece un cliente que solicita
un préstamo.
bles a partir de otro conjunto de variables independientes; en cierto modo, se
puede considerar una extensión del modelo lineal de una ecuación que ya he-
mos estudiado. A partir de las nuevas variables que resultan de combinar por
separado las variables endógenas y las variables exógenas, se pueden correla-
cionar ambos conjuntos de variables para explicar el comportamiento global
del modelo.
2.6. Resumen
Ejercicio�1
CA calcio (g)
PH acidez (mg)
EN energía (Kcal)
Marcas GR CA PH EN HC
Marcas GR CA PH EN HC
Ejercicio�1
a) Matriz de distancias:
1 2 3 4 5 6
b) Dendrograma
© FUOC • PID_00212764 48 Introducción al análisis multivariante
© FUOC • PID_00212764 49 Introducción al análisis multivariante
3. Análisis factorial
AUTOR:
Francesc�Camp�Torres
En una encuesta realizada a una muestra de 1.000 estudiantes, se les pidió que valoraran
en una escala de 1 a 6, en la cual 1 significaba “nada deseable” y 6 “totalmente deseable”,
lo deseable que les parecía una serie de veinte características referentes al comportamien-
to de sus profesores. Las características son las siguientes:
V9 Son puntuales.
En el ejemplo anterior, ¿es necesario guardar los 20.000 valores que hemos
obtenido o bien podemos sintetizar (resumir) toda esta información en una,
dos o tres variables compuestas? ¿No hay una relación determinada entre las
variables iniciales y, por lo tanto, no podemos eliminar algunas que tan sólo
aportan una información marginal y poco interesante? Si hay una relación de
interdependencia sistemática en el conjunto de las variables, ¿no puede ser
debida originalmente a algunos factores más fundamentales (latentes)? ¿No
podemos considerar las variables originales como simples índices de estos fac-
tores fundamentales?
Etapa�1:�diseño�del�análisis�factorial
El diseño del análisis hace referencia al tipo de variables que hay que utilizar
y a las escalas de medida en las cuales deben ser medidas.
2) Si las escalas sobre las cuales se han medido las variables son muy diferentes,
hay que normalizarlas, ya que, como veremos, la varianza de cada variable
interviene en el análisis y las variables que presenten una mayor varianza ten-
drían unas ventajas determinadas. Normalizar las variables equivale a centrar-
las y a reducirlas. Si Xp es la variable inicial, la variable normalizada será:
© FUOC • PID_00212764 52 Introducción al análisis multivariante
Etapa�2:�obtención�de�la�matriz�de�correlaciones
Ejemplo
En nuestro ejemplo, a partir de la matriz de datos inicial expuesta más arriba, donde cada
una de las filas de la matriz indica la valoración de cada estudiante sobre cada una de
las veinte características propuestas, obtenemos la matriz de correlaciones entre variables
siguiente:
Etapa�3:�extracción�de�los�factores
Si tenemos:
• I individuos i = 1, ..., I,
Los factores extraídos tienen que cumplir las tres condiciones siguientes:
donde:
Fk = el k-ésimo factor;
Ejemplo
Estadísticos iniciales.
Ejemplo
Etapa�4:�determinación�del�número�de�factores�que�hay�que�conservar Nota
según el cual sólo se conservan los factores cuyos valores propios, λk, son más
altos que la unidad. Los criterios más utilizados pueden agruparse en dos mé-
todos generales:
1)�Reglas�basadas�en�la�restitución�mínima
Por ejemplo, sabemos que el porcentaje de varianza explicada por los dos pri-
meros factores es el siguiente:
En el caso de que esta cantidad alcance el nivel fijado, tenemos que conservar
únicamente estos dos primeros factores; en el caso contrario, introduciremos
en el análisis el tercer factor y así sucesivamente hasta alcanzar el nivel fijado.
Nota
2)�Reglas�basadas�en�la�información�restituida�por�cada�factor
Esta regla proviene del hecho de que si la nube de puntos no tiene ninguna
dirección privilegiada (esfera, por ejemplo), los valores difieren muy poco y la
varianza restituida por el primer factor sería, más o menos:
© FUOC • PID_00212764 56 Introducción al análisis multivariante
Ejemplo
b)� Segunda� regla� empírica. Se trata de construir una curva en la cual los
puntos sean los siguientes:
• Los factores tienen que ser operativos, es decir, de fácil utilización como
variables relevo en estudios o análisis posteriores.
Ejemplo
En nuestro ejemplo, decidimos inicialmente conservar los dos primeros factores, con
lo que conservamos el 80,3% de la información inicial, tal como se expone en la tabla
siguiente:
Ejemplo
En nuestro ejemplo, teniendo en cuenta los dos primeros factores, la mayoría de las va-
riables está bien representada, tal como podéis ver en el gráfico anterior, a excepción de
las siguientes:
Etapa�5:�rotación�de�los�factores�conservados
Como hemos expuesto más arriba, los ejes factoriales pueden considerarse las
“dimensiones latentes” del problema, y describirlas (interpretarlas) nos con-
duce a comprender las dimensiones fundamentales del fenómeno que es ob-
jeto de estudio.
La matriz que contiene los coeficientes de correlación entre las variables ini-
ciales y los factores se suele denominar matriz factorial inicial o matriz factorial
no rotada.
Aunque esta matriz indica las relaciones entre los factores y las variables ini-
ciales, raramente estas últimas pueden interpretarse con facilidad, ya que sue-
le suceder que algunas variables iniciales están altamente correlacionadas con
varios factores. Ejemplo de matriz factorial no rotada.
Ejemplo
Para solucionar este problema, suele efectuarse lo que se denomina una rota-
ción�de�los�factores, que consiste en transformar la matriz factorial inicial en
una matriz factorial rotada de interpretación más fácil. Se trata de que cada
© FUOC • PID_00212764 59 Introducción al análisis multivariante
1) Las rotaciones oblicuas, que son las que eliminan la propiedad de indepen-
dencia de los factores.
Ejemplo
Al efectuar una rotación, hay que tener en cuenta que el total de la informa-
ción restituida (en nuestro ejemplo, el 80%) permanece constante, pero varía
la información restituida por cada uno de los factores; por eso, si hay que co-
nocerla, tiene que recalcularse. Si llamamos bpk al peso de la variable p en el
factor k rotado, el porcentaje de varianza explicada por este factor es:
Ejemplo
En nuestro ejemplo, la varianza explicada por cada uno de los factores, antes y después
de efectuar la rotación, es:
Etapa�6:�interpretación�de�la�matriz�factorial�rotada�y�representación�de
los�resultados
Ejemplo
En nuestro caso, para cada factor las variables más correlacionadas son:
Factor 1
Factor 2
A la vista de las variables que constituyen cada uno de los factores, vemos que el factor 1
tiene relación con aspectos referentes a la calidad docente de los profesores, y el factor 2,
con aspectos referentes a la calidad humana de los profesores. De esta manera, podríamos
bautizar el factor 1 como “buen profesor” y el factor 2 como “buena persona”.
1)�Utilización�de�los�resultados�del�análisis�factorial�de�componentes�prin-
cipales�como�“variables-relevo”. Los resultados de un análisis factorial pue-
den utilizarse como fase previa de cálculo antes de aplicar otros métodos. Por
ejemplo, dado que los factores obtenidos son independientes, podemos utili-
zarlos como variables nuevas, y evitar dificultades en el caso de que haya una
correlación estrecha entre las variables iniciales, que es uno de los problemas
más comunes en análisis como regresión múltiple, análisis tipológico o análi-
sis discriminante.
4. Análisis discriminante
AUTOR:
Francesc�Camp�Torres
El análisis multivariable nos ofrece una serie de técnicas, tanto explicativas co-
mo descriptivas, para investigar las diferencias entre grupos. Entre las técnicas
explicativas, se encuentra el análisis discriminante. El análisis discriminante
permite conseguir dos objetivos:
• ¿En qué se diferencian los consumidores que han respondido de una ma-
nera positiva a una campaña de marketing directo de los que no lo han
hecho?
• ¿Cuál es el riesgo (el límite de crédito) que puede darse a un cliente ban-
cario?
© FUOC • PID_00212764 63 Introducción al análisis multivariante
Ejemplo
V3 Actitud hacia los viajes (en una escala de nueve puntos en la cual 1 significaba una
actitud muy negativa con respecto a los viajes, y 9, una actitud muy positiva).
V4 Importancia dada al hecho de pasar las vacaciones con la familia (en una escala de
nueve puntos en la cual 1 significaba poco importante, y 9, muy importante).
Matriz de datos.
Etapa�1:�diseño�del�análisis
Ejemplo
Etapa�2:�análisis�de�las�variables�explicativas
Aunque no forme parte del procedimiento específico del cálculo del análisis
discriminante, antes de iniciar la estimación de las funciones discriminantes
conviene analizar con detalle las variables explicativas que intervienen en el
modelo. Con esta finalidad obtenemos dos tipos de información:
1) Obtenemos para cada variable sus valores medios y sus desviaciones típicas
dentro de cada grupo.
Ejemplo
En nuestro ejemplo, los dos grupos se diferencian mucho más en cuanto a ingresos anua-
les (V2) que en el resto de las variables. El grupo de las familias que han ido de vacacio-
nes (grupo 1) es el que tiene los ingresos anuales del hogar más elevados. También se
observan unas diferencias determinadas entre los grupos en la importancia concedida a
las vacaciones en familia (V4). Si bien las diferencias en la edad media del responsable
principal del hogar (V6) pueden parecer considerables respecto del resto de las variables,
la desviación típica elevada de esta variable hace que sea poco determinante.
Ejemplo
En nuestro caso, sólo las variables “Nivel de ingresos en el hogar” (V2) y “Tamaño del
hogar” obtienen valores muy diferentes en los dos grupos.
Ejemplo
En nuestro ejemplo, las variables con más poder diferenciador son nuevamente el nivel
de ingresos del hogar (V2), el tamaño del hogar (V5) y en menor medida la importancia
concedida a las vacaciones en familia (V4). Los estadísticos F asociados a estas variables
tienen un nivel de significación inferior al 5%. En cambio, la actitud hacia los viajes (V3)
y la edad del responsable principal del hogar (V6) no son diferentes en los dos grupos.
Los estadísticos expuestos indican que hay unas determinadas diferencias entre los dos
grupos de familias en algunas de las variables explicativas; pero debemos preguntarnos:
• ¿Se diferencian realmente las familias que han ido de vacaciones en los últimos dos
años de las que no lo han hecho?
• ¿Cuáles son las variables que mejor diferencian a los dos tipos de familias?
Etapa�3:�estimación�de�las�funciones�discriminantes
© FUOC • PID_00212764 67 Introducción al análisis multivariante
1)�Obtención�de�la�ecuación�asociada�a�cada�función�discriminante. En
general, si la variable que hay que explicar es de m grupos, el análisis discri-
minante calcula m-1 funciones discriminantes.
Ejemplo
Dado que en nuestro ejemplo la variable que hay que explicar es de dos grupos, obtene-
mos sólo una función discriminante.
Ejemplo
i = 1, ..., 300
Ejemplo
Etapa�4:�interpretación�de�las�funciones�discriminantes
Ejemplo
En nuestro ejemplo, nos encontramos en la segunda situación, dado que las variables
independientes se han medido en millones de u.m. (V2), en escalas de intervalo (V3, V4),
en número de individuos (V5) y en años (V6).
Las variables con coeficientes elevados, tanto positivos como negativos, son
las que contribuyen más al poder discriminador de las funciones.
Ejemplo
Ejemplo
En nuestro ejemplo, las correlaciones más altas (V2 y V5) son positivas, y obtenemos la
representación siguiente:
Ejemplo
En nuestro ejemplo, las familias del grupo 1 (familias que han ido de vacaciones en los
dos últimos años) disponen de unos ingresos anuales más elevados y son más numerosas.
En cambio, las del grupo 2 (familias que no han ido de vacaciones en los dos últimos
años) tienen ingresos anuales más bajos y son menos numerosas.
Etapa�5:�validación�de�las�funciones�discriminantes
3) Si, una vez asignados, todos los individuos se vuelven a clasificar en su gru-
po inicial de pertenencia, obtenemos el 100% de individuos bien clasificados
y podemos concluir que la función discriminante encontrada explica la tota-
lidad de las diferencias entre grupos. En la práctica, difícilmente suele ser así;
podría considerarse un porcentaje razonable de individuos bien clasificados
aquel que es superior en un 25% al que se obtendría clasificando de forma co-
rrecta a los individuos al azar. Por ejemplo, cuando los grupos analizados son
del mismo tamaño, el porcentaje de individuos correctamente clasificados al
azar es de un individuo por número de grupos. En el caso de dos grupos, el
porcentaje de individuos correctamente clasificados tendría que ser superior
al 62,5% (50% = 50% × 0,25). Los grupos nuevos resultantes del proceso de
asignación suelen llamarse grupos�predichos.
© FUOC • PID_00212764 72 Introducción al análisis multivariante
Ejemplo
En nuestro ejemplo, todos los individuos del grupo 2 vuelven a su grupo inicial y se
reasignan a partir de la función discriminante. En cambio, 30 individuos del grupo 1 se
clasifican en el grupo 2, con lo que el porcentaje de individuos clasificados correctamente
en este grupo es del 80%. El porcentaje total de individuos correctamente clasificados es
del 90%. Este porcentaje se obtiene sumando los casos bien clasificados y dividiendo por
el número total de casos.
La extensión del análisis discriminante a una variable que hay que explicar de
más de dos grupos incluye las mismas etapas.
Ejemplo
1. Encontrar, en una primera fase, cuáles son las variables fundamentales para explicar
el consumo de una marca o de otra.
2. Con posterioridad, mediante el estudio de los valores que toman estas variables para
un consumidor nuevo, el análisis discriminante predecirá, por medio de un proceso de
asignación idéntico al que se ha utilizado en la validación de las funciones discriminan-
tes (podéis consultar la etapa 5), la marca que comprará o bien la marca que tiene más
probabilidades de comprar.
Glosario
algoritmo de clasificación Procedimiento de clasificación de los elementos en clústers
a partir de distancias calculadas. Nos centramos en los métodos jerárquicos de tipo acumu-
lativo.
análisis factorial clásico Análisis que extrae factores subyacentes de la estructura de las
observaciones.
coeficiente de determinación Coeficiente que mide la bondad del ajuste lineal a los
datos; también mide lo que representa la variación explicada por la regresión (SCR) sobre la
variación total (SCT).
dispersión de los estimadores Dispersión que refleja su eficacia; cuanto más pequeña sea
esta variabilidad en torno a su valor esperado, más eficientes serán los estimadores. La medida
habitual de esta dispersión se realiza mediante el cálculo del error estándar del parámetro
estimado.
dos variables. En concreto, se trata de una ecuación de regresión y de una serie de hipótesis
sobre los diferentes elementos (parámetros y variables) que la componen.
modelo de regresión lineal múltiple Modelo que comprende una ecuación de regre-
sión y unas hipótesis sobre los diferentes componentes: las K variables explicativas que se
supone que son fijas, la variable dependiente y el término de perturbación son aleatorios, y
los parámetros del modelo son β i y β2.
tablas de perfiles Tablas que proporcionan medidas descriptivas de cada clúster para con-
seguir una mejor lectura del análisis.
término de perturbación Variable aleatoria que reúne la desviación entre el valor obser-
vado (Yi) y el valor esperado (α + β Xi) de la variable que se tiene que explicar (Y); incorpora
errores de medida en las variables del modelo, factores aleatorios no incluidos en la parte
sistemática del modelo, preferencias individuales, etc.
vectores característicos Vectores que contienen los coeficientes de las relaciones entre
los componentes y las variables.
© FUOC • PID_00212764 77 Introducción al análisis multivariante
Bibliografía
Abascal, E.; Grande, I. (1989). Métodos multivariantes para la investigación comercial. Barce-
lona: Ariel Economía.
Manual aplicado que incluye contenidos de los apartados 2 (“Análisis de componentes prin-
cipales”) y 3 (“Análisis clúster”) del módulo “Análisis múltiple de datos” con numerosos
ejemplos de aplicación a la investigación de mercados.
Manual teoricopráctico de nivel medio, con un buen desarrollo formal de los métodos esta-
dísticos. Reúne, de manera extensa, los contenidos del módulo “Cálculo de probabilidades y
ampliaciones de inferencia estadística” y los del apartado “El modelo de regresión múltiple”
del módulo “Análisis múltiple de datos”.
Martín Guzmán, P.; Martín Pliego, F.J. (1985). Curso básico de estadística económica.
Madrid: Editorial AC.
Manual de introducción a la materia que incluye los contenidos del módulo “Índices y series”
y, parcialmente, los del módulo “Análisis múltiple de datos”.
Manual teoricopráctico con una extensa colección de problemas resueltos de estadística eco-
nómica. Incluye los contenidos del módulo “Índices y series” y, parcialmente, los contenidos
de los otros dos módulos.