Está en la página 1de 71

Análisis Estadı́stico de Datos

Parte III: Temas 4, 5 y 6

Grado en Marketing e Investigación de Mercados

Sergio Martı́nez Puertas e Isabel Marı́a Ortiz Rodrı́guez

Departamento de Matemáticas

Universidad de Almerı́a
Índice

4. Análisis Factorial 3
4.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
4.2. Hipótesis sobre el modelo factorial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
4.3. Contrastes y medidas en el modelo factorial . . . . . . . . . . . . . . . . . . . . . . . . 7
4.3.1. Medidas previas a la extracción de factores . . . . . . . . . . . . . . . . . . . . 7
4.3.2. Medidas posteriores a la extracción de factores . . . . . . . . . . . . . . . . . . 8
4.4. Obtención de las cargas factoriales y factores . . . . . . . . . . . . . . . . . . . . . . . 9
4.5. Interpretación de los factores obtenidos y rotación de los factores . . . . . . . . . . . . 19
4.6. Ejemplo 4.1 con R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
4.7. Ejercicios Propuestos de Análisis Factorial . . . . . . . . . . . . . . . . . . . . . . . . . 26

5. Análisis de Correspondencias 29
5.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
5.2. Perfiles fila y Perfiles columna . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
5.3. Masas y Centros de Gravedad de los Perfiles . . . . . . . . . . . . . . . . . . . . . . . . 39
5.4. Inercia de los Perfiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
5.5. Análisis de Correspondencias Simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
5.6. Ejemplo 5.1 con R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
5.7. Ejercicios Propuestos de Análisis de Correspondencias . . . . . . . . . . . . . . . . . . 51

6. Análisis Conjunto 55
6.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
6.2. Elementos de un Análisis Conjunto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

1
ANÁLISIS ESTADÍSTICO DE DATOS

6.3. Pasos para realizar un Análisis Conjunto . . . . . . . . . . . . . . . . . . . . . . . . . . 57


6.4. Paso 1: Generación de un diseño ortogonal . . . . . . . . . . . . . . . . . . . . . . . . . 58
6.5. Paso 2: Presentación de un diseño . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
6.6. Paso 3: Fichero de los datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
6.7. Paso 4: Análisis de los datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
6.8. Ejemplo 6.1 con R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
6.9. Ejercicios Propuestos de Análisis Conjunto . . . . . . . . . . . . . . . . . . . . . . . . 69

Sergio Martı́nez Puertas, Isabel Marı́a Ortiz Rodrı́guez 2


Tema 4

Análisis Factorial

El Análisis Factorial es una técnica multivariante de reducción de la dimensión que se aplica a variables
numéricas (cuantitativas).

Si disponemos de una muestra de individuos y observamos muchas variables, es presumible que una
parte de la información recogida pueda ser redundante o excesiva. El objetivo que se pretende con la
aplicación del Análisis Factorial es emplear las variables originales en construir unas pocas variables
nuevas que representen a las variables originales lo mejor posible, es decir, a partir de un número
elevado de variables construimos unas pocas variable nuevas que contengan la mayor parte de la
información suministrada por las variables originales.

Otras técnicas de reducción de la dimensión son el Análisis de Componentes Principales (para variables
cuantitativas) y el Análisis de Correspondencias (para variables cualitativas).

El Análisis de Componentes Principales y el Análisis Factorial se aplican a datos numéricos, pero


mientras el primero se centra en las varianzas de las variables, el segundo trabaja con las correlaciones.

En este tema estudiaremos el Análisis Factorial y en el siguiente, el Análisis de Correspondencias.

4.1. Introducción

El objetivo del Análisis Factorial es explicar un conjunto observado de variables cuantitativas, por
un pequeño número de variables latentes (factores). De modo general, si diponemos de P variables
numéricas X1 , X2 , . . . , XP observadas en N individuos, el Análisis Factorial trata de explicar dichas
variables por medio de K variables latentes (no directamente observables) F1 , F2 , . . . , FK llamadas
factores y donde K es menor que P . Más concretamente, el Análisis Factorial consiste en encontrar
K factores F1 , F2 , . . . , FK que expliquen suficientemente a las variables de partida X1 , X2 , . . . , XP ,
perdiendo el mı́nimo de información y de manera que los nuevos factores F1 , F2 , . . . , FK sean fácilmente

3
ANÁLISIS ESTADÍSTICO DE DATOS

interpretables, además el número de factores K no puede ser elevado.

En consecuencia, el Análisis Factorial se emplea cuando disponemos de un número elevado de variables


cuantitativas y su objetivo es obtener un número menor de variables llamadas factores, que expliquen
lo mejor posible a las variables originales y por tanto el Análisis Factorial es una técnica multivariante
de reducción de la dimensión.

Figura 4.1: Esquema General Análisis Factorial

Para mayor comodidad, supondremos que las variables originales X1 , X2 , . . . , XP son variables tipifi-
cadas, es decir, tienen media 0 y varianza 1:

x̄1 = x̄2 = · · · = x̄P = 0 (1.1)


S12 = S22 = · · · = SP2 = 1 (1.2)

Al realizar el Análisis Factorial con SPSS se puede indicar que trabaje con las variables tipificadas.

El esquema general del Análisis Factorial viene dado por:



X1 = l11 · F1 + l12 · F2 + · · · + l1K · FK + e1 





X2 = l21 · F1 + l22 · F2 + · · · + l2K · FK + e2 (1.3)
.. 
.




XP = lP 1 · F1 + lP 2 · F2 + · · · + lP K · FK + eP

donde X1 , X2 , . . . , XP son las variables originales, F1 , F2 , . . . , FK son los factores comunes que
tenemos que obtener, las variables e1 , e2 , . . . , eP se denominan factores únicos porque cada uno está
relacionado con una variable original. Los coeficientes lij son constantes que debemos calcular y que
reciben el nombre de cargas factoriales o saturaciones.

Según este modelo, cada una de las P variables observadas X1 , X2 , . . . , XP son combinación de lineal
de los K factores comunes F1 , F2 , . . . , FK y de un factor único para cada variable. Ası́ pues, todas
las variables originales están influenciadas por todos los factores comunes, mientras que para cada
variable existe un factor único que es especı́fico para esa variable.

Sergio Martı́nez Puertas, Isabel Marı́a Ortiz Rodrı́guez 4


ANÁLISIS ESTADÍSTICO DE DATOS

Si retomamos el modelo factorial dado en (1.3), el objetivo es obtener las cargas factoriales lij y
los factores F1 , F2 , . . . , FK , que al no ser directamente observables, será necesario estimarlos. Para
alcanzar este objetivo, debemos plantear las siguientes cuestiones:

1. Establecer hipótesis sobre el modelo factorial.


Para poder aplicar las técnicas estadı́sticas en el modelo factorial, es necesario formular hipótesis
estadı́sticas sobre los factores comunes F1 , F2 , . . . , FK y sobre los factores únicos e1 , e2 , . . . , eP .

2. Realizar contrastes y obtener medidas para establecer la adecuación de los datos al


modelo factorial.
En el modelo factorial pueden realizarse varios tipos de contrastes y calcular varios tipos de
medidas con las que se pretende analizar la conveniencia o no de aplicar el Análisis Factorial a
un conjunto de variables observadas.

3. Obtener las cargas factoriales lij y los factores comunes F1 , F2 , . . . , FK .


Una vez determinado si es adecuado aplicar el modelo factorial a un conjunto de variables, el
siguiente paso es obtener las cargas factoriales lij y a continuación los factores F1 , F2 , . . . , FK .

4. Interpretación de los factores obtenidos y rotación de factores.


Cuando dispongamos de las cargas factoriales y los factores comunes, habrá que interpretar
correctamente dichos factores mediante su relación con las variables orginales. Si la interpretación
de los factores no es sencilla, podemos realizar una rotación para mejorar los resultados.

Veamos a continuación cada una de estas cuestiones.

4.2. Hipótesis sobre el modelo factorial

Como comentamos anteriormente, es necesario establecer hipótesis sobre los factores comunes F1 ,
F2 ,. . . , FK y sobre los factores únicos e1 , e2 , . . . , eP , para poder aplicar las herramientas estadı́sticas
necesarias.

Hipótesis sobre los factores comunes

Los factores comunes F1 , F2 , . . . , FK son variables tipificadas, es decir tienen media igual a cero
y varianza igual a uno.

Los factores comunes F1 , F2 , . . . , FK son variables incorreladas, es decir el coeficiente de corre-


lación entre dos factores distintos Fi y Fj vale 0

Correlación(Fi , Fj ) = 0 i 6= j

Sergio Martı́nez Puertas, Isabel Marı́a Ortiz Rodrı́guez 5


ANÁLISIS ESTADÍSTICO DE DATOS

Hipótesis sobre los factores únicos

Los factores únicos e1 , e2 , . . . , eP son variables cuya media vale cero.

Los factores únicos e1 , e2 , . . . , eP son variables cuya varianza puede no valer 1. A la varianza de
un factor único ej la denotaremos de la siguiente manera:

V ar(ej ) = ωj2

Los factores únicos e1 , e2 , . . . , eP son variables incorreladas, es decir:

Correlación(ei , ej ) = 0 i 6= j

Los factores comunes F1 , F2 , . . . , FK y los factores únicos e1 , e2 , . . . , eP están incorrelados y por


tanto:
Correlación(Fi , ej ) = 0

Consecuencias de las hipótesis

Debido a las hipótesis formuladas y puesto que hemos supuesto que las variables originales X1 ,
X2 ,. . . ,XP están tipificadas, tenemos que la varianza de cada variable original Xi se puede descom-
poner en dos términos:
V ar(X1 ) = 1 = h21 + ω12 





2 2

V ar(X2 ) = 1 = h2 + ω2 (2.4)
.. 
.




2 2 
V ar(XP ) = 1 = hP + ωP
Los valores h1 , h2 , . . . , hP reciben el nombre de comunalidades y cada uno nos proporciona la parte
de varianza de la correspondiente variable que es explicada por los factores comunes F1 , F2 , . . . , FK .

Los valores ω12 , ω22 , . . . , ωP2 reciben el nombre de especificidades y cada uno nos proporciona la parte
de la varianza de la correspondiente variable que es debida al factor único correspondiente y que no
es explicada por los factores comunes.

Otra consecuencia derivada de las hipótesis consiste en que el coeficiente de correlación entre cada
par de variables originales se puede calcular a partir de las cargas factoriales o saturaciones lij . Ası́,
el coeficiente de correlación de dos variables Xh y Xm viene dado por:

Rhm = lh1 · lm1 + lh2 · lm2 + · · · + lhK · lmK (2.5)

donde lh1 , lh2 , . . . , lhK son las cargas factoriales de la variable Xh y lm1 , lm2 , . . . , lmK son las cargas
factoriales de la variable Xm .

Sergio Martı́nez Puertas, Isabel Marı́a Ortiz Rodrı́guez 6


ANÁLISIS ESTADÍSTICO DE DATOS

4.3. Contrastes y medidas en el modelo factorial

Los contrastes y medidas asociadas al Análisis Factorial, que se examinarán en este apartado, se han
agrupado en dos bloques, según se apliquen previamente a la extracción de factores o que se apliquen
después de obtener los factores. Las medidas y contrastes incluidos en el primer bloque sirven para
analizar la pertinencia de la aplicación del Análisis Factorial a un conjunto de variables observadas,
mientras que las medidas y contrastes del segundo bloque sirven para analizar si el modelo factorial
obtenido se ajusta de manera adecuada a las variables observadas.

4.3.1. Medidas previas a la extracción de factores

Para estudiar la conveniencia o no de aplicar el Análisis Factorial a un conjunto de variables observadas,


podemos realizar varios tipos de contrastes y calcular diversas medidas, de las cuales estudiaremos las
siguientes:

Contraste de esfericidad de Barlett

Medida de Kaiser-Meyer-Olkin (Medida KMO)

Matriz Anti-Imagen

Contraste de esfericidad de Barlett

Una de las condiciones previas para poder aplicar el Análisis Factorial es que las variables originales
deben estar correlacionadas entre sı́. Si las variables originales no lo estuvieran (es decir, están inco-
rreladas), no existirı́an factores comunes y por tanto no tendrı́a sentido aplicar el Análisis Factorial.
Esta cuestión suele probarse utilizando el contraste de esfericidad de Barlett.

El contraste de esfericidad de Barlett se basa en la matriz de correlaciones de las variables originales


X1 , X2 , . . . , XP . Si el determinante de la matriz de correlaciones es igual a 1, las variables originales
están incorreladas y no es adecuado aplicar el Análisis Factorial, mientras que si el determinante es
distinto de 1, las variables están correlacionadas entre sı́. Las hipótesis del contraste de Barlett son las
siguientes:

H0 : Determinate Matriz correlaciones igual a 1 (Variables Incorreladas)
Contraste Barlett
H1 : Determinate Matriz correlaciones distinto a 1 (Variables Correladas)

Como sabemos, el contraste debe ir acompañado de un nivel de significación α, de manera que si


el p-valor del contraste (Sig.) es inferior al nivel de significación, se rechaza H0 en favor de H1 . Para
la aplicación del Análisis Factorial nos interesa rechazar H0 .

Sergio Martı́nez Puertas, Isabel Marı́a Ortiz Rodrı́guez 7


ANÁLISIS ESTADÍSTICO DE DATOS

Medida de Kaiser-Meyer-Olkin (Medida KMO)

Kaiser, Meyer y Olkin definen una medida de adecuación de las variables al Análisis Factorial basada
en los coeficientes de correlación entre cada par de variables y los coeficientes de correlación parcial.

El rango de variación de la medida KMO se sitúa entre 0 y 1. En el caso de que las variables originales
X1 , X2 , . . . , XP se adapten de manera adecuada al Análisis Factorial, la medida KMO será proxima
a la unidad. Valores por debajo de 0.5 no serán aceptables, es decir las variables son inadecuadas al
modelo factorial. Cuanto más cerca de 1 esté el valor de la medida KMO, mejor es la adecuación de
las variables a un modelo factorial.

Matriz Anti-Imagen

Otra medida de adecuación de las variables al Análisis Factorial es la matriz de correlaciones anti-
imagen, formada por los coeficientes de correlación parcial entre cada par de variables cambiada de
signo. Los elementos de la diagonal de esta matriz son similares al estadı́stico KMO e interesa que
estén cercanos a la unidad.

4.3.2. Medidas posteriores a la extracción de factores

Para analizar si el modelo factorial obtenido es adecuado y se ajusta bien a los datos observados,
podemos aplicar las siguientes medidas y contrastes:

Matriz de correlación reproducida.

Contraste de la bondad de ajuste. (Sólo para los métodos máxima verosimilitud y mı́nimos
cuadrados generalizados)

Matriz de correlación reproducida

Una vez calculado el modelo factorial y estimados los valores de las cargas factoriales lij con la ecuación
(2.5), podemos reproducir las correlaciones entre las variables originales. A la matriz formada por los
coeficientes de correlación reproducidos mediante las cargas factoriales se le denomina matriz de
correlación reproducida. Si el modelo factorial obtenido es adecuado, entonces las diferencias entre
los coeficientes de correlación observados de las variables originales y los coeficientes de correlación
reproducidos deben ser pequeñas. Ası́ una manera de medir si los datos se ajustan de manera adecuada
al modelo factorial obtenido consiste en calcular las diferencias entre las correlaciones observadas y
las reproducidas. Si existe un porcentaje elevado de diferencias superiores a una cantidad pequeña
prefijada (por ejemplo 0.05), esto será indicativo de que el modelo factorial obtenido no es adecuado.

Sergio Martı́nez Puertas, Isabel Marı́a Ortiz Rodrı́guez 8


ANÁLISIS ESTADÍSTICO DE DATOS

Contraste de la bondad de ajuste

Se puede realizar un contraste de la bondad de ajuste del modelo factorial a los datos en el caso de que
el método empleado haya sido el de máxima verosimilitud o el de mı́nimos cuadrados generalizados y
bajo el supuesto de que los datos proceden de poblaciones normales. Las hipótesis de este contraste
son las siguientes:

H0 : K factores son suficientes para explicar los datos
Contraste Bondad de Ajuste
H1 : K factores no son suficientes para explicar los datos

El contraste debe ir acompañado de un nivel de significación α, de manera que si la significación del


contraste (Sig.) es inferior al nivel de significación, se rechaza H0 en favor de H1 .

4.4. Obtención de las cargas factoriales y factores

Una vez descritos los contrastes y las medidas para la adecuación de los datos al Análisis Factorial, el
siguiente paso consiste en obtener las cargas factoriales lij y los factores F1 , F2 , . . . , FK . Si recordamos
el esquema general del modelo factorial dado en (1.3), las variables originales X1 , X2 , . . . , XP son
combinación lineal de los factores comunes F1 , F2 , . . . , FK más un factor único, las cargas factoriales
lij son los coeficientes de las combinaciones lineales. Por tanto, debemos obtener tanto las cargas
factoriales lij como los factores F1 , F2 , . . . , FK . Los factores comunes no se pueden obtener a partir de
las variables originales, es decir no son variables directamente observables y será necesario estimarlos.

Existen diversos métodos para obtener las cargas factoriales y para obtener los factores, pero nosotros
sólo enumeraremos los métodos incluidos en el programa SPSS.

Métodos para obtener las cargas factoriales

Los métodos incluidos en SPSS para obtener las cargas factoriales lij son:

Componentes principales.

Mı́nimos cuadrados no ponderados.

Mı́nimos cuadrados generalizados.

Máxima verosimilitud.

Factorización de ejes principales.

Factorización alfa.

Factorización de imágenes.

Sergio Martı́nez Puertas, Isabel Marı́a Ortiz Rodrı́guez 9


ANÁLISIS ESTADÍSTICO DE DATOS

Para poder aplicar los métodos de Mı́nimos cuadrados generalizados y de Máxima verosimilitud se
necesita cumplir la siguiente condición:

(P − K)2 ≥ P + K

donde P es el número de variables y K el número de factores que deseamos extraer.

Métodos para estimar los factores comunes

Los métodos para estimar los factores comunes F1 , F2 , . . . , FK son:

Método de regresión.

Método de Bartlett.

Método de Anderson-Rubin

Para realizar un Análisis Factorial con SPSS, debemos emplear el menú Analizar/Reducción de
dimensiones/Factor.

Ejemplo 4.1 En este ejemplo vamos a realizar un Análisis Factorial con los datos del archivo “TEL-
CO”, que contiene varias variables sobre el uso de servicios de telecomunicaciones que una determinada
empresa proporciona a sus clientes. En concreto, vamos a incluir en el análisis las variables compren-
didas desde “Larga distancia en el último mes” hasta “Inalámbrico en el último mes” y las variables
comprendidas desde “Lı́neas múltiples” hasta “Facturación electrónica”. Para ello, accedemos al menú
Analizar/Reducción de dimensiones/Factor (Figura 4.2) y pasamos al cuadro “Variables” las
variables anteriormente mencionadas.

Figura 4.2: Menú Análisis Factorial

Sergio Martı́nez Puertas, Isabel Marı́a Ortiz Rodrı́guez 10


ANÁLISIS ESTADÍSTICO DE DATOS

A continuación si pulsamos el botón “Descriptivos”, en el campo “Estadı́stico” debe estar marcada


la opción “Solución inicial” y en el campo “Matriz de correlaciones” debemos marcar las opciones
“KMO y prueba de esfericidad de Bartlett”, “Reproducida” y “Anti-imagen” (Figura 4.3).

Figura 4.3: Menú Análisis Factorial: Descriptivos

En el botón “Extracción” del menú de la Figura 4.2, en el campo “Método” podemos seleccionar el
método que emplearemos para el cálculo de las cargas factoriales lij , señalaremos, por ejemplo, el
método “Factorización de ejes principales”. En el campo “Analizar” elegiremos “Matriz de correlacio-
nes” (esta opción sirve para tipificar las variables originales). En el campo “Extraer” seleccionaremos
la opción “Número de factores” y podemos, por ejemplo, extraer 3 factores (Figura 4.4).

Figura 4.4: Menú Análisis Factorial: Extracción

Sergio Martı́nez Puertas, Isabel Marı́a Ortiz Rodrı́guez 11


ANÁLISIS ESTADÍSTICO DE DATOS

Si accedemos al botón “Puntuaciones” del menú de la Figura 4.2, debemos marcar las opciones “Guar-
dar como variables” y en el campo “Método” podemos seleccionar el método para estimar los factores
comunes, por ejemplo seleccionaremos “Bartlett” y finalmente marcaremos la opción “Mostrar matriz
de coeficientes de las punt. factoriales” (Figura 4.5).

Figura 4.5: Menú Análisis Factorial: Puntuaciones

El botón “Rotación” del menú de la Figura 4.2, de momento no vamos a emplearlo ya que sirve para
intentar mejorar la interpretación de los factores extraı́dos si fuese necesario. Finalmente ejecutamos
el proceso y obtenemos los resultados.

En primer lugar, comentaremos las pruebas para contrastar la adecuación de los datos al Análisis
Factorial, que aparecen en la tabla “KMO y prueba de Bartlett” (Figura 4.6).

Figura 4.6: Medida KMO y prueba de Bartlett

En dicha tabla, podemos observar cómo la medida KMO vale 0.888 y por tanto próxima a la unidad,
ası́ tenemos que según esta medida los datos son adecuados para el Análisis Factorial. A continuación
comentaremos los resultados de la prueba de esfericidad de Barlett, en donde obtenemos el estadı́stico
de contraste, los grados de libertad y el p-valor (Sig.). Nosotros debemos fijarnos en este último valor
que es nulo. Si establecemos un nivel de significación α = 0.05 está claro que Sig. es inferior a α y
por tanto rechazamos la hipótesis H0 del contraste de Barlett y según la hipótesis H1 las variables
originales están correladas, lo que es adecuado para poder aplicar el Análisis Factorial.

Sergio Martı́nez Puertas, Isabel Marı́a Ortiz Rodrı́guez 12


ANÁLISIS ESTADÍSTICO DE DATOS

Otra prueba de adecuación de los datos es la matriz anti-imagen. Esta matriz está dividida en dos
bloques de los cuales nos interesa el segundo, llamado “Correlación anti-imagen”, dado en la Figura
4.7.

Figura 4.7: Matriz anti-imagen

En esta matriz debemos fijarnos en la diagonal principal (es decir en los valores con un asterisco).
Dichos valores deben encontrarse cercanos a la unidad considerándose inaceptable que la mayorı́a de
ellos estén por debajo de 0.5. Si nos fijamos en nuestros resultados, todos los valores están cercanos a
la unidad excepto el que corresponde a la variable “Larga distancia en el último mes”, que sin embargo
sı́ se encuentra por encima de 0.5, con lo que no es un valor problemático. De este modo, las pruebas
de adecuación de datos al Análisis Factorial son satisfactorias y resulta conveniente aplicar el Análisis
Factorial a los datos observados.

El siguiente resultado es la tabla “Comunalidades” (Figura 4.8), la cual viene dividida en dos columnas.
La columna “Inicial” proporciona la parte de varianza de cada variable explicada por el resto de
variables. Ası́, por ejemplo 0.297 es la parte de la varianza de la variable “Larga distancia en el último
mes” explicada por el resto de variables.

Figura 4.8: Comunalidades

Sergio Martı́nez Puertas, Isabel Marı́a Ortiz Rodrı́guez 13


ANÁLISIS ESTADÍSTICO DE DATOS

La segunda columna de Figura 4.8, “Extracción”, nos proporciona estimaciones de las comunalidades
h2i , que aparecen en la ecuación (2.4), es decir nos proporciona la parte de varianza de cada variable
explicada por los 3 factores comunes extraı́dos. De este modo, por ejemplo, la comunalidad de la
variable “Larga distancia en el último mes” vale 0.748, es decir la parte de varianza de la variable
“Larga distancia en el último mes” explicada por los 3 factores comunes es 0.748. Es recomendable
que estos valores sean elevados y cercanos a la unidad, ya que valores pequeños indicarı́an que las
variables no se ajustan bien con el Análisis Factorial.

En nuestro Ejemplo, las comunalidades obtenidas en la columna extracción son aceptables, aunque
quizás las comunalidades más bajas que corresponden a las variables “Tarjeta de llamada en el último
mes” y “Lı́neas múltiples” indican que estas variables no están tan bien representadas como el resto
de variables en los factores extraı́dos.

A continuación pasamos a la tabla “Variaza total explicada” (Figura 4.9), en la cual debemos fijarnos
en la subtabla “Suma de las saturaciones al cuadrado de la extracción” en donde podemos consultar
el porcentaje de varianza total explicado por cada factor (columna % de la varianza) y el porcentaje
de varianza total acumulado por los factores (columna % acumulado).

Figura 4.9: Varianza total explicada

Ası́, podemos ver que el primer factor explica un 31.864 %, el segundo factor un 16.409 % y el tercero
un 7.519 %. En cuanto al porcentaje acumulado, tenemos que el primer factor explica el 31.864 %, los
dos primeros factores un 48.273 % y los tres factores explican conjuntamente un 55.972 %, que no es
un porcentaje excesivamente alto, lo que nos puede hacer pensar que podrı́amos extraer algún factor
más ya que hay mucha varianza no explicada por los tres factores.

Sergio Martı́nez Puertas, Isabel Marı́a Ortiz Rodrı́guez 14


ANÁLISIS ESTADÍSTICO DE DATOS

En la Figura 4.10 tenemos la matriz factorial. Esta tabla, en este caso sı́ nos proporciona las cargas
factoriales lij de la ecuación (1.3), con lo que el modelo factorial obtenido viene dado por:

Z Larga distancia último mes = 0.146 · F1 − 0.254 · F2 + 0.814 · F3 + e1

Z Llamadas gratuitas último mes = 0.652 · F1 − 0.373 · F2 + 0.020 · F3 + e2


.. .. ..
. . .
Z Facturación electrónica = 0.250 · F1 + 0.652 · F2 − 0.035 · F3 + e14

donde las variables Z Larga distancia último mes, Z Llamadas gratuitas último mes, . . ., son las
variables tipificadas de las variables originales. La razón de que en las expresiones anteriores aparezcan
las variables tipificadas y no las variables originales se debe a que en el menú “Extracción” de la Figura
4.4 seleccionamos la opción “Matriz de correlaciones” y por tanto el SPSS trabaja con las variables
tipificadas en lugar de las originales.

Figura 4.10: Matriz factorial

Sergio Martı́nez Puertas, Isabel Marı́a Ortiz Rodrı́guez 15


ANÁLISIS ESTADÍSTICO DE DATOS

El siguiente paso, una vez obtenido el modelo factorial, consiste en analizar si dicho modelo factorial
se ajusta de manera adecuada a los datos. Para ello, vamos a analizar la matriz de correlaciones
reproducidas que aparece en la tabla “Correlaciones reproducidas” (Figura 4.11).

Figura 4.11: Matriz de correlaciones reproducidas

La tabla de la Figura 4.11 se encuentra dividida en dos bloques. El primer bloque, denominado
“Correlación reproducida”, contiene las correlaciones reproducidas de las variables originales y puesto
que la correlación entre una variable y ella misma es la varianza de dicha variable, la diagonal principal
de esta tabla coincide con las comunalidades de las variables (Figura 4.8). Ası́ la diagonal principal
de la matriz de correlaciones reproducidas nos proporciona la parte de la varianza de cada variable
explicada mediante los factores comunes.

Sergio Martı́nez Puertas, Isabel Marı́a Ortiz Rodrı́guez 16


ANÁLISIS ESTADÍSTICO DE DATOS

El segundo bloque de la tabla “Correlaciones reproducidas”, denominado “Residuo”, nos proporciona


la diferencia entre el verdadero coeficiente de correlación y el coeficiente de correlación reproducido
(Figura 4.12). De esta manera no es necesario calcular los verdaderos coeficientes de correlación y
calcular las diferencias con los coeficientes de correlación reproducidos, ya que el programa SPSS nos
proporciona dichas diferencias. Si la mayorı́a de valores de la matriz “Residual” son inferior en valor
absoluto a 0.05, el modelo factorial se ajusta de manera adecuada a los datos, en caso contrario el
modelo factorial es inadecuado.

Figura 4.12: Matriz de correlaciones reproducidas: Residual

Podemos observar que la mayorı́a de diferencias son inferiores a 0.05. Más concretamente, en la parte
inferior de la tabla podemos observar que sólo existe un valor residual superior a 0.05 y representa el
1 % de los valores, que es un porcentaje muy bajo, con lo que el modelo factorial obtenido se ajusta
de manera adecuada a los datos observados.

Sergio Martı́nez Puertas, Isabel Marı́a Ortiz Rodrı́guez 17


ANÁLISIS ESTADÍSTICO DE DATOS

Pasamos, a continuación, a la “Matriz de coeficiente de puntuación factorial” de la Figura 4.13, que


sirve para obtener las expresiones con las que se han estimado los tres factores, concretamente tenemos
que si denotamos por:

Z1 = Z Larga distancia último mes

Z2 = Z Llamadas gratuitas último mes

.. ..
. .

Z14 = Z Facturación electrónica

las expresiones de los factores son:

F1 = 0.054 · Z1 + 0.136 · Z2 + · · · + 0.040 · Z14

F2 = −0.134 · Z1 − 0.156 · Z2 + · · · + 0.224 · Z14

F3 = 0.969 · Z1 + 0.001 · Z2 + · · · − 0.003 · Z14

Figura 4.13: Matriz de coeficientes para el cálculo de las puntuaciones factoriales

Sergio Martı́nez Puertas, Isabel Marı́a Ortiz Rodrı́guez 18


ANÁLISIS ESTADÍSTICO DE DATOS

Una vez obtenidas las expresiones de los tres factores F1 , F2 y F3 , si volvemos a la “Vista de datos”
tenemos tres nuevas variables denominadas FAC1 1, FAC2 1 y FAC3 1 que contienen los valores de
los tres factores extraı́dos (Figura 4.14).

Figura 4.14: Vista de datos

4.5. Interpretación de los factores obtenidos y rotación de los factores

Ahora debemos interpretar los factores obtenidos y para ello debemos analizar la relación de los fac-
tores comunes F1 , F2 , . . . , FK con las variables originales X1 , X2 , . . . , XP , mediante los coeficientes
de correlación entre los factores y las variables. La tabla “Matriz factorial” (Figura 4.10) además de
proporcionarnos las cargas factoriales, también nos proporcionan los coeficientes de correlación entre
factores y variables, siempre y cuando estemos trabajando con variables tipificadas, es decir las cargas
factoriales coinciden con los coeficientes de correlación si se han tipificado las variables originales.
Puesto que en el Ejemplo 4.1 sı́ trabajamos con variables tipificadas, la tabla de la Figura 4.10 nos
proporciona los coeficientes de correlación entre factores y variables. Ası́ podemos observar, por ejem-
plo, que la primera variable “Larga distancia en el último mes” está muy asociada de forma positiva
con el tercer factor, ya que el coeficiente de correlación vale 0.814 y los coeficientes de correlación con
los otros dos factores son muy bajos.

En cuanto a la variable “Llamadas gratuitas en el último mes” podemos observar que con el factor
que más está relacionado es con el primero, al igual que las variables “Inalámbrico en el último mes”,
“Mensajes de voz”, “Servicio busca”, “Identificador de llamadas”, “Llamada en espera”, “Desvı́o de
llamadas” y “Llamada a 3”, todas ellas asociadas de forma positiva con el primer factor.

El segundo factor está asociado claramente de forma positiva con las variables “Equipos en el último
mes”, “Internet” y “Facturación electrónica”.

Por otro lado, el resto de variables no está claro con qué factor podemos asociarlas ya que presentan
coeficientes de correlación similares con los tres factores. Para solucionar esta cuestión nos podemos

Sergio Martı́nez Puertas, Isabel Marı́a Ortiz Rodrı́guez 19


ANÁLISIS ESTADÍSTICO DE DATOS

proponer realizar una rotación de los factores. Para ello, volvemos a acceder al menú Analizar/Re-
ducción de dimensiones/Factor (Figura 4.2) y pulsamos el botón “Rotación” para acceder a la
ventana de la Figura 4.15. En dicha ventana vamos a seleccionar la opción “Varimax” en el campo
“Método”. En el campo “Mostrar” debemos señalar la opción “Solución rotada” y la opción “Gráficos
de cargas”.

Figura 4.15: Menú Análisis Factorial: Rotación

Al ejecutar el proceso, obtenemos nuevamente los mismos resultados anteriormente comentados (comu-
nalidades, varianza total explicada, etc). Aquı́ solamente comentaremos los nuevos resultados obtenidos
a partir de la rotación. Más concretamente vamos a analizar la tabla “Matriz de factores rotados” de
la Figura 4.16.

Figura 4.16: Matriz de factores rotados

Sergio Martı́nez Puertas, Isabel Marı́a Ortiz Rodrı́guez 20


ANÁLISIS ESTADÍSTICO DE DATOS

Para interpretar la matriz de factores también es útil eliminar los valores muy pequeños, incluso
ordenarlos de mayor a menor. Para eso nos vamos al menú “Opciones” de la Figura 4.2 y seleccionamos
las opciones “Ordenados por tamaño” y “Suprimir pequeños coeficientes” (Figura 4.17) y obtendremos
la matriz de la Figura 4.18.

Figura 4.17: Menú Análisi factorial: Opciones

Figura 4.18: Matriz de factores rotados simplificada

Sergio Martı́nez Puertas, Isabel Marı́a Ortiz Rodrı́guez 21


ANÁLISIS ESTADÍSTICO DE DATOS

En dichas tablas (Figuras 4.16 y 4.18) podemos observar que el primer factor rotado está muy asociado
de forma positiva con las variables “Llamadas gratuitas en el último mes”, “Identificador de llamadas”,
“Llamada en espera”, “Desvı́o de llamadas” y “Llamada a 3”. Además estas variables presentan poca
correlación con los otros dos factores. Si nos fijamos en estas variables (todas ellas referidas a servicios
extras) podemos llegar a la conclusión de que el primer factor representa los “Servicios Extras”
proporcionados por la compañı́a.

El segundo factor está muy relacionado positivamente con las variables “Equipos en el último mes”,
“Internet” y “Facturación electrónica”. De este modo, podemos identificar el segundo factor como un
factor de “Servicios Tecnologı́a”. Finalmente, el tercer factor sigue estando muy relacionado con la
variable “Larga distancia en el último mes”, con lo que podemos considerarlo como un factor de “Ser-
vicios de Larga distancia”. De este modo, la rotación ha sido útil para mejorar la interpretación
de los factores.

Por último, el resto de variables no está claro con qué factor agruparlas pero podemos dar una inter-
pretación. Por ejemplo, las variables “Inalámbrico en el último mes”, “Mensajes de voz” y “Servicio
busca” presentan una correlación similar con el primer y segundo factor. Esto lo podemos interpretar
de la siguiente manera, dichas variables pueden considerarse como los servicios que enlazan “Servicios
Extras” y “Servicios de Tecnologı́a”, es decir esto nos sugiere que los clientes que contratan servicios
extras pueden estar más predispuestos a contratar ofertas de servicios inalámbricos que a contratar
servicios de Internet.

La variable “Tarjeta de llamada en el último mes” presenta correlación similar con el primer y tercer
factor y por tanto sirve para enlazar “Servicios Extras” con “Servicios de larga distancia”. La variable
“Lı́neas múltiples” presenta correlación similar con el segundo y tercer factor, ası́ constituye un enlace
entre los grupos “Servicios de Tecnologı́a” y “Servicios de Larga distancia”.

La información proporcionada por la “Matriz de factores rotados” puede analizarse gráficamente me-
diante los gráficos de saturaciones tridimensionales y bidimensionales (Figura 4.19).

Sergio Martı́nez Puertas, Isabel Marı́a Ortiz Rodrı́guez 22


ANÁLISIS ESTADÍSTICO DE DATOS

Figura 4.19: Gráficos de Saturaciones

Sergio Martı́nez Puertas, Isabel Marı́a Ortiz Rodrı́guez 23


ANÁLISIS ESTADÍSTICO DE DATOS

4.6. Ejemplo 4.1 con R

Cargar el fichero de datos TELCO.SAV y aplicar el análisis factorial a las variables comprendidas
desde Larga distancia en el último mes hasta Inalámbrico en el último mes y desde Lı́neas múltiples
hasta Facturación electrónica.

En el Listado 13 tenemos las órdenes básicas del análisis. El listado completo está en el fichero
Tema4anFactorial.R.
1 # S e l e c c i o n a m o s l a s v a r i a b l e s que nos d i c e e l problema para h a c e r e l a n a l i s i s
2 # d e s d e l a v a r i a b l e numero 16 h a s t a l a 20 y d e s d e l a 26 a l a 34
3 d a t o s <− data . frame (TELCO[ 1 6 : 2 0 ] ,TELCO[ 2 6 : 3 4 ] )
4 # Cargamos l o s p a q u e t e s psy , c o r r p l o t y psych que t i e n e n muchas o p c i o n e s para A n a l i s i s
Factorial
5 i n s t a l l . p a c k a g e s ( ” psy ” )
6 l i b r a r y ( psy )
7 i n s t a l l . packages ( ” c o r r p l o t ” )
8 library ( corrplot )
9 i n s t a l l . p a c k a g e s ( ” psych ” )
10 l i b r a r y ( psych )
11 # C a l c u l o y g r a f i c o de l a s c o r r e l a c i o n e s e n t r e v a r i a b l e s
12 r <− c o r ( d a t o s )
13 c o r r p l o t ( c o r ( d a t o s ) , o r d e r = ” h c l u s t ” , t l . c o l= ’ b l a c k ’ , t l . cex =1)
14 # C o n t r a s t e de e s f e r i c i d a d de B a r t l e t t
15 c o r t e s t . b a r t l e t t ( datos )
16 # Medida KMO
17 KMO( d a t o s )
18 # Analisis Factorial
19 # Metodos para e x t r a e r f a c t o r e s : m i n r e s ( minimos c u a d r a d o s ) , w l s ( minimos c u a d r a d o s
ponderados ) , ml ( maxima v e r o s i m i l i t u d ) , pa ( e j e s p r i n c i p a l e s )
20 a n a l i s i s <− f a c t a n a l ( datos , f a c t o r s = 3 , r o t a t i o n = ” none ” , fm = ”pa ” )
21 p r i n t ( a n a l i s i s , d i g i t s =2 , c u t o f f =.3 , s o r t=TRUE)
22 # R o t a c i o n de l o s f a c t o r e s . Metodos : varimax , quartimax , promax , o b l i m i n
23 r o t a c i o n <− f a c t a n a l ( datos , f a c t o r s = 3 , r o t a t i o n = ” varimax ” , fm = ” pa ” , s c o r e s = ”
Bartlett ”)
24 p r i n t ( r o t a c i o n , d i g i t s =2, c u t o f f =.3 , s o r t=TRUE)
25 # G r a f i c o de l o s a u t o v a l o r e s para d e t e r m i n a r e l numero de f a c t o r e s a e x t r a e r
26 s c r e e . p l o t ( datos , type = ’R ’ )
Listado 4.1: Análisis Factorial

En la Figura 4.20 tenemos el gráfico de autovalores o sedimentación.

Sergio Martı́nez Puertas, Isabel Marı́a Ortiz Rodrı́guez 24


ANÁLISIS ESTADÍSTICO DE DATOS

Figura 4.20: Gráfico de autovalores del Ejemplo 4.1

Sergio Martı́nez Puertas, Isabel Marı́a Ortiz Rodrı́guez 25


ANÁLISIS ESTADÍSTICO DE DATOS

4.7. Ejercicios Propuestos de Análisis Factorial

1. Abrir el archivo “Bankloan” que contiene información de 24 clientes de una oficina bancaria
donde se consideran 7 variables. En concreto, las 7 variables son “Edad”, “Empleo”= Años con
la empresa actual, “Dirección”= Años en la dirección actual, “Ingresos”= Ingresos familiares
(en miles), “Deudaingr”= Tasa de deuda sobre ingresos (por cien), “Deudacred”= Deuda de la
tarjeta de crédito (en miles) y “Deudaotro”= Otras deudas (en miles). Se pide:

a) Obtener medidas de adecuación de los datos al modelo factorial.


b) Emplear el método de mı́nimos cuadrados no ponderados para extraer 3 factores. Analizar
el porcentaje de varianza total explicado con dichos factores y analizar qué variables son
las mejor representadas.
c) Obtener la expresión numérica de los factores extraı́dos mediante el método de regresión.
Guardar los factores obtenidos en el fichero de datos.
d ) Obtener la expresión numérica del modelo factorial y determinar si dicho modelo reproduce
de forma adecuada las correlaciones de las variables originales.
e) Realizar una interpretación numérica y gráfica de los factores obtenidos. Realizar una ro-
tación Quartimax si fuese necesario.

2. Cargar el archivo “EPS” que proporcionan los valores de 9 variables para las provincias españolas
correspondientes al gasto en diferentes sectores de las familias españolas. Dichas variables son
X1 = “Alimentación”, X2 = “Vestido y calzado”, X3 = “Vivienda”, X4 = “Mobiliario domésti-
co”, X5 = “Gastos sanitarios”, X6 = “Transporte”, X7 = “Enseñanza y cultura”, X8 = “Turismo
y ocio” y X9 = “Otros gastos”.

a) Calcular medidas de adecuación de los datos al modelo factorial.


b) Extraer tres factores mediante el método de máxima verosimilitud. Guardar los factores
obtenidos en el archivo de datos mediante el método de Anderson-Rubin.
c) Analizar la varianza total explicada y las comunalidades.
d ) Obtener la expresión del modelo factorial y analizar si tres factores son suficientes para
explicar las variables originales.
e) Realizar una rotación Quartimax e interpretar los resultados obtenidos.

3. Abrir el archivo “Autos” que contiene 9 variables con información de 28 modelos de coches. Se
pide:

a) Calcular medidas de adecuación de los datos al modelo factorial.


b) Extraer tres factores mediante el método de factorización de ejes principales analizando el
porcentaje de variabilidad explicada y las comunalidades de cada variable.
c) Obtener la expresión de los tres factores extraı́dos y guardar dichos factores en el archivo
de datos mediante el método de Anderson-Rubin.

Sergio Martı́nez Puertas, Isabel Marı́a Ortiz Rodrı́guez 26


ANÁLISIS ESTADÍSTICO DE DATOS

d ) Obtener la expresión numérica del modelo factorial obtenido y determinar si el modelo


reproduce de forma adecuada las correlaciones de las variables originales.

4. El fichero MART.sav contiene las valoraciones de 100 jefes de compras de las empresas que
adquieren los productos de la fábrica MART.
Realizar un análisis factorial empleando el método de Mı́nimos cuadrados no ponderados, una
rotación Varimax y quedaros con los factores cuyo autovalor sea mayor que 1.

a) Analizar las medidas de adecuación de los datos al modelo factorial.


b) Analizar el porcentaje de varianza total explicado por los factores y las variables mejor
representadas.
c) Copiar la matriz de factores rotados y el gráfico de saturaciones: interpretar los factores
obtenidos.

5. El fichero encuesta.sav contiene las respuestas dadas por 260 clientes a una encuesta sobre
la satisfacción con los servicios y productos suministrados por una fábrica. La satisfacción se
expresa en una escala de 0 (insatisfecho) a 7 (muy satisfecho) y la Puntuacion con un valor de 0
a 100. Realizar un análisis factorial con las variables Durabilidad, Funcionalidad, Disponibilidad,
Proveedor, Publicidad, Mantenimiento y Calidad. Utilizar el método de Mı́nimos cuadrados no
ponderados, rotación Varimax y extacción de factores método de regresión.

a) Analizar las medidas de adecuación de los datos al modelo factorial.


b) Analizar el porcentaje de varianza total explicado por los factores.
c) Expresión numérica de los factores extraı́dos.
d ) Copiar la matriz de factores rotados. Interpretar los factores obtenidos.

6. El fichero Comunidades.xlsx contiene los datos de un estudio en el que se caracterizan las


comunidades y ciudades autónomas españolas en el año 2012. Realizar un análisis factorial con
las variables Población 2012, Población extranjeros, Crecimiento, Extensión, Paro, Cuota Mer-
cado, Teléfonos, Banda Ancha, Vehı́culos, Oficinas e Industria. Utilizar el método de Mı́nimos
cuadrados no ponderados, sin rotar y extacción de factores método de regresión.

a) Analizar las medidas de adecuación de los datos al modelo factorial.


b) Explicar con cuántos factores nos quedamos.
c) Expresión numérica de los factores extraı́dos.
d ) Copiar e interpretar la matriz factorial.
e) Calcular e interpretar la correlación entre los factores.

Sergio Martı́nez Puertas, Isabel Marı́a Ortiz Rodrı́guez 27


ANÁLISIS ESTADÍSTICO DE DATOS

Resultados:

1. a) KMO=0.587, Sig. Bartlett=0.000, Matriz anti-imagen: diagonal desde 0.366 hasta 0.898. b)
F1: 48.227 %, F2: 26.839 %, F3: 5.958 %. Variables mejor representadas: Edad, Ingresos y Tasa
de deuda. c) Por ejemplo, F1 = 0.754Z1 − 0.023Z2 . . . d) Por ejemplo, Z1 = 0.918F1 − 0.283F2 +
0.324F3 + e1 . Sı́, correlaciones reproducidas-Residual: solo 1 residuo > 0.05. e) F1 relacionado
con Edad, Años en la empresa, Años en la dirección e Ingresos. F2 con Tasa de deuda, Deuda y
Otras deudas. F3 no es necesario. Aunque rotemos se llega a la misma solución.

2. a) KMO=0.910, Sig. Bartlett=0.000, Matriz anti-imagen: diagonal ≥ 0.859. b) Por ejemplo, en


la pantalla de datos vemos que para Almerı́a F1 = 0.16896, F2 = −0.21822 y F3 = 1.01235. c)
Entre los 3 factores explican un 73.032 % de la variabilidad. Las comunalidades van de 0.449 a
0.999. d) Por ejemplo, Z1 = 0.536F1 + 0.272F2 + 0.297F3 + e1 . Prueba de bondad de ajuste Sig.
= 0.845. e) F1 explica todas las variables.

3. a) KMO=0.827, Sig. Bartlett=0.000, Matriz anti-imagen: diagonal ≥ 0.71.b) Entre los 3 factores
explican un 86.117 % de la variabilidad. Las comunalidades son ≥ 0.681. c) Por ejemplo, F1 =
0.099Z1 + 0.053Z2 . . . d) Por ejemplo, Z1 = 0.778F1 − 0.54F2 − 0.052F3 + e1 . El valor absoluto
de las correlaciones reproducidas-residuos < 0.05.

4. a) KMO=0.665, Sig. Bartlett=0.000, Matriz anti-imagen: diagonal ≥ 0.532. b) 58.683 %. Las


variables mejor representadas son las de imagen. c) Por ejemplo, la primera fila tiene valores
-0.693 y 0.133. En el gráfico de saturaciones vemos que el Factor 1 diferencia entre Rapidez y
Flexibilidad de precios (lado izquierdo) y Nivel de precios y calidad (lado derecho). El Factor 2
está relacionado con las dos variables de imagen.

5. a) KMO=0.807, Sig. Bartlett=0.000, Matriz anti-imagen: diagonal ≥ 0.705.b) 59.554 % c) Por


ejemplo, F1 = 0.215Z1 +0.390Z2 . . . d) Por ejemplo, la primera fila tiene valores 0.686 y 0.184. El
Factor 2 está relacionado con Publicidad y Mantenimiento, el Factor 1 con el resto de variables.

6. a) KMO=0.652, Sig. Bartlett=0.000, Matriz anti-imagen: diagonal con 3 valores pequeños 0.182,
0.384 y 0.109. b) Nos quedamos con 3 factores que tienen autovalor > 1 y explican un 89.079 %
de la varianza. c) Por ejemplo, F1 = −17.069Z1 + 0.102Z2 . . . d) Por ejemplo, la primera fila
tiene valores 0.994, 0.063 y 0.041, por tanto Z1 = 0.994F1 + 0.063F2 + 0.041F3 + e1 . F2 está
relacionado con las variables Crecimiento y Paro, F3 con extensión y F1 con todas las demás
variables. e) A partir de los factores guardados que aparecen en la “Vista de datos” nos vamos
a Analizar/Correlaciones/Bivariadas y obtenemos los coeficientes de correlación -0.047, 0.181 y
-0.206.

Sergio Martı́nez Puertas, Isabel Marı́a Ortiz Rodrı́guez 28


Tema 5

Análisis de Correspondencias

El Análisis de Correspondencias es un método estadı́stico multivariante de reducción de la dimensión


que se aplica a variables cualitativas, es decir, variables cuyos valores son categorı́as. Más concre-
tamente, esta técnica estadı́stica pretende representar en un espacio reducido las posibles relaciones
existentes entre las categorı́as de dos o más variables cualitativas, cuya posterior interpretación per-
mitirá un estudio más simple del problema investigado.

El Análisis de Correspondencias puede aplicarse cuando disponemos sólo de dos variables cualitativas,
cada una de las cuales puede presentar varias categorı́as, o bien se puede aplicar cuando disponemos
de más de dos variables cualitativas. De este modo tenemos:

Análisis de Correspondencias Simple: sólo disponemos de dos variables cualitativas.

Análisis de Correspondencias Múltiple: disponemos de más de dos variables cualitativas.

En este tema solo vamos a desarrollar el Análisis de Correspondencias Simple.

5.1. Introducción

El Análisis de Correspondencias Simple es una técnica de reducción de la dimensión que se aplica


cuando disponemos de dos variables cualitativas, cada una de las cuales presenta varias categorı́as y
cuyo objetivo es analizar las relaciones existentes entre las distintas categorı́as de las dos variables
cualitativas estudiadas.

En el Tema 1 se vio cómo construir una tabla de contingencia a partir de dos variables. Esta tabla
resume los valores distintos de las variables y contiene en su interior las frecuencias conjuntas, es decir
el número de veces que se ha observado cada combinación de valores de las variables. Sobre estas
tablas se desarrolla el Análisis de Correspondencias.

En la asignatura Estadı́tica Avanzada se estudió el test de independencia de la chi-cuadrado para

29
ANÁLISIS ESTADÍSTICO DE DATOS

datos en una tabla de contingencia. Esta prueba sirve para contrastar si la relación entre dos variables
cualitativas es significativa o no, pero en caso afirmativo no aclara qué categorı́as de las dos variables
son las que presentan relaciones. Si con el test de independencia se ha obtenido que hay relación entre
las variables, el Análisis de Correspondencias Simple permite extraer conclusiones sobre las posibles
relaciones entre las categorı́as de las dos variables estudiadas y medir similitudes entre ellas.

De forma general, en el esquema del Análisis de Correspondencias Simple disponemos de dos variables
cualitativas que denotaremos por X e Y , de manera que:

X tiene n categorı́as distintas.


Y tiene p categorı́as distintas.

Las variables X e Y se observan en N individuos y la información obtenida se ordena en una tabla de


doble entrada donde las categorı́as de la variable X serán las filas y las denotaremos por “categorı́as
fila” y las categorı́as de la variable Y serán las columnas, llamadas “categorı́as columna”. Ası́ obtenemos
una tabla de doble entrada con n categorı́as fila y p categorı́as columna (Figura 5.1).

X/Y y1 y2 ... yp
x1 n11 n12 ... n1p
x2 n21 n22 ... n2p
..
.
xn nn1 nn2 ... nnp
N

Tabla 5.1: Tabla de doble entrada

5.2. Perfiles fila y Perfiles columna

A partir de la tabla de doble entrada se van a construir p (tantas como columnas) variables cuan-
titativas ficticias que representarán a las categorı́as fila. De este modo, obtendremos n puntos de p
coordenadas cada uno, llamados Perfiles fila. De igual manera se construyen n (tantas como filas)
variables cuantitativas ficticias que representarán a las categorı́as columna, de manera que tendremos
p puntos de n coordenadas llamados Perfiles columna.

Una vez que hemos obtenido variables cuantitativas ficticias, el Análisis de Correspondencias consiste
en reducir la dimensión de los “Perfiles fila” y de los “Perfiles columna”. Ahora bien, los “Perfiles
fila” tienen dimensión p y los “Perfiles columna” dimensión n, con lo que su dimensión no coincide
necesariamente, pero debemos reducir tanto los “Perfiles fila” como los “Perfiles columna” a una
dimensión común.

Además, debemos tener en cuenta que la dimensión máxima a la que podemos reducir los “Perfiles
fila” y los “Perfiles columna” sale de la siguiente expresión
Dimensión Máxima = Mı́nimo(n − 1, p − 1) (2.1)

Sergio Martı́nez Puertas, Isabel Marı́a Ortiz Rodrı́guez 30


ANÁLISIS ESTADÍSTICO DE DATOS

Ejemplo 5.1 En un estudio se han recogido datos de 3892 hoteles referentes a dos variables cualita-
tivas:

X=Ingresos en miles de euros.

Y =Categorı́a del hotel.

Las frecuencias observadas se ordenaron en una tabla de doble entrada (Tabla 5.2).

Ingresos/Categorı́a 1∗ 2∗ 3∗ 4∗ y 5∗
< 10 327 133 9 3
10 − 20 253 169 25 2
20 − 50 289 324 196 5
50 − 100 124 257 277 31
100 − 500 71 234 677 260
> 500 4 7 55 160

Tabla 5.2: Tabla de doble entrada correspondiente a los 3892 hoteles

Si observamos la Tabla 5.2, la variable X presenta n = 6 categorı́as y la variable Y presenta p = 4


categorı́as. El Análisis de Correspondencias consiste en obtener p = 4 variables cuantitativas ficticias
que representen a las n = 6 categorı́as de la variable X (categorı́as fila), obteniendo ası́ n = 6
puntos de dimensión p = 4 llamados “Perfiles fila” y obtener n = 6 variables cuantitativas ficticias
que representen a las p = 4 categorı́as de Y (categorı́as columna), obteniendo ası́ p = 4 puntos de
dimensión n = 6 llamados “Perfiles columna”.

Los “Perfiles fila” tienen dimensión p = 4 y los “Perfiles columna” tienen dimensión n = 6, es decir la
dimensión no coincide, pero al aplicar el Análisis de Correspondencias debemos reducir a una misma
dimensión común.

La dimensión máxima a la que podemos reducir es, según la ecuación (2.1):

Dimensión Máxima = Mı́nimo(n − 1, p − 1) = Mı́nimo(5, 3) = 3

por tanto, podemos reducir a dimensión 1, 2 o 3.

Hasta el momento hemos comentado que el Análisis de Correspondencias se basa en crear variables
cuantitativas ficticias llamadas “Perfiles fila” y “Perfiles columna”, a partir de una tabla de doble
entrada, para posteriormente reducir estas variables, pero no hemos visto cómo se obtienen dichos
“Perfiles fila” y “Perfiles columna”. Para ello, vamos a realizar un Análisis de Correspondencias con
el programa SPSS y con los resultados explicaremos mejor cómo se obtienen los perfiles.

Para realizar un Análisis de Correspondencias con SPSS debemos emplear el menú:

Analizar/Reducción de dimensiones/Análisis de correspondencias.

Sergio Martı́nez Puertas, Isabel Marı́a Ortiz Rodrı́guez 31


ANÁLISIS ESTADÍSTICO DE DATOS

Ejemplo 5.2 Volvemos a considerar la tabla de doble entrada del Ejemplo 5.1 donde se recogı́an
datos sobre ingresos y categorı́as de hoteles. Queremos realizar un Análisis de Correspondencias con
SPSS, lo primero es introducir los datos de la Tabla 5.2.

Para ello, debemos ir a la “Vista de variables” y definir tres variables de tipo numérico “Ingresos”,
“Categorı́a” y “N” (Figura 5.1).

Figura 5.1: Vista de variables

A continuación, en la variable “Ingresos” pinchamos en la casilla “Valores” y accederemos al menú de


la Figura 5.2. En dicho menú, en el campo “Valor” debemos introducir 1 y en el campo “Etiqueta”
introducimos “< 10” y pulsamos el botón “Añadir”. Una vez añadido, en el campo “Valor” introdu-
cimos 2 y en “Etiqueta” debemos introducir “10-20” y añadimos pulsando el botón “Añadir” y ası́
sucesivamente hasta tener los 6 valores añadidos.

Figura 5.2: Etiquetas de valor de la variable “Ingresos”

Sergio Martı́nez Puertas, Isabel Marı́a Ortiz Rodrı́guez 32


ANÁLISIS ESTADÍSTICO DE DATOS

Una vez hecho esto, debemos repetirlo con la variable “Categorı́a”, es decir, pinchamos el campo
“Valores” de dicha variable e introducimos consecutivamente los valores 1, 2, 3 y 4 y las etiquetas 1∗ ,
2∗ , 3∗ y 4∗ y5∗ , respectivamente (Figura 5.3).

Figura 5.3: Etiquetas de valor de la variable “Categorı́a”

El siguiente paso es volver a la “Vista de datos” e introducir de forma correcta los datos. Para ello,
hay que introducir todos los pares, que en nuestro caso son 24 pares. Ası́ en la primera fila, en la
columna “Ingresos” debemos introducir “< 10”, en la columna “Categorı́a” introducimos “1∗ ” y en la
columna “N” debemos introducir la frecuencia observada, que es 327. En la segunda fila introducimos
en la columna “Ingresos” el valor “< 10”, en la columna “Categorı́a” el valor “2? ” y en la columna
“N” la frecuencia 133 y ası́ sucesivamente hasta el último par (Figura 5.4).

Figura 5.4: Vista de datos

Sergio Martı́nez Puertas, Isabel Marı́a Ortiz Rodrı́guez 33


ANÁLISIS ESTADÍSTICO DE DATOS

A continuación, antes de ejecutar el Análisis de Correspondencias, debemos indicar a SPSS que la


columna “N” nos indica las frecuencias, esto se hace mediante el menú Datos/Ponderar casos y
seleccionamos la variable “N” como variable de ponderación (Figura 5.5).

Figura 5.5: Ponderar casos

Con los datos ya ponderados, accedemos al menú Analizar/Reducción de dimensiones/Análisis


de correspondencias y en la nueva ventana (Figura 5.6) debemos pasar al campo “Fila” la variable
“Ingresos”, para después pulsar el botón “Definir rango” y acceder a la ventana de la Figura 5.7, donde
en “Valor mı́nimo” ponemos 1 y en “Valor máximo” ponemos 6, ya que la variable “Ingresos” tiene 6
categorı́as. Para finalizar pulsamos “Actualizar” y después en “Continuar” para volver al menú de la
Figura 5.6. Ahora, pasamos la variable “Categorı́a” al campo “Columna”, pulsamos “Definir rango”
y puesto que la variable “Categorı́a” tiene cuatro valores como “Valor mı́nimo” ponemos 1 y como
“Valor máximo” un 4, pulsando después “Continuar” para volver al menú de la Figura 5.6.

Figura 5.6: Menú Análisis de Correspondencias

Sergio Martı́nez Puertas, Isabel Marı́a Ortiz Rodrı́guez 34


ANÁLISIS ESTADÍSTICO DE DATOS

Figura 5.7: Definir rango de filas

Una vez definidos los rangos de las variables cualitativas, debemos pulsar el botón “Modelo” del menú
de la Figura 5.6 para acceder a un nuevo menú (Figura 5.8).

Figura 5.8: Menú Análisis de Correspondencias: Modelo

En el campo “Dimensiones en la solución” podemos seleccionar la dimensión a la que queremos reducir


los “Perfiles fila” y los “Perfiles columna”, teniendo en cuenta que como máximo podemos elegir el
valor:
Dimensión Máxima = Mı́nimo(n − 1, p − 1) = Mı́nimo(5, 3) = 3

Ası́, en el campo “Dimensiones en la solución” podemos elegir los valores 1, 2 o 3. Normalmente,


en el Análisis de Correspondencias suele elegirse 2 dimensiones por comodidad, pero más adelante

Sergio Martı́nez Puertas, Isabel Marı́a Ortiz Rodrı́guez 35


ANÁLISIS ESTADÍSTICO DE DATOS

estudiaremos si con dos dimensiones es suficiente o no. De este modo, pondremos un 2 en el citado
campo. En el resto de campos dejamos marcadas las opciones por defecto y pulsamos “Continuar”.

De vuelta en el menú de la Figura 5.6, en esta ocasión pulsaremos el botón “Estadı́sticos” y accedemos
al menú de la Figura 5.9.

Figura 5.9: Menú Análisis de Correspondencias: Estadı́sticos

En este menú disponemos de varias opciones:

“Tabla de correspondencias”: sirve para mostrar en pantalla la tabla de doble entrada. Esta
opción suele estar marcada por defecto, si no lo está, debemos marcarla.

“Inspección de los puntos de fila” e “Inspección de los puntos de columna”: deben también estar
marcadas. Más adelante, explicaremos mejor para qué sirven estas opciones.

“Perfiles de fila” y “Perfiles de columna”: sirven para mostrar en los resultados los “Perfiles fila”
y los “Perfiles columna” respectivamente. Vamos a marcar estas opciones para explicar mejor en
qué consiste un Análisis de Correspondencias.

Finalmente, si pulsamos “Continuar”, volvemos al menú principal del Análisis de Correspondencias


(Figura 5.6), en donde ahora pulsaremos el botón “Gráficos” para acceder a un nuevo menú (Figura
5.10) en la que debe estar marcada la opción “Diagrama de dispersión biespacial”.

Sergio Martı́nez Puertas, Isabel Marı́a Ortiz Rodrı́guez 36


ANÁLISIS ESTADÍSTICO DE DATOS

Figura 5.10: Menú Análisis de Correspondencias: Gráficos

Por último, si ejecutamos el proceso, obtenemos los resultados del Análisis de Correspondencias que
vamos a ir explicando detalladamente. En primer lugar, podemos observar la tabla de doble entrada
(Figura 5.11).

Figura 5.11: Tabla de doble entrada correspondiente a los 3892 hoteles

A partir de esta tabla de doble entrada, como hemos comentado anteriormente se van a construir
p = 4 variables cuantitativas que representan a las categorı́as fila. Estas variables aparecen en las
tablas “Perfiles de fila” (Figura 5.12).

Sergio Martı́nez Puertas, Isabel Marı́a Ortiz Rodrı́guez 37


ANÁLISIS ESTADÍSTICO DE DATOS

Figura 5.12: Tabla Perfiles de fila

Concretamente, cada fila de la Figura 5.12 es un punto que tiene p = 4 coordenadas. Ası́ disponemos
de n = 6 puntos de p = 4 coordenadas cada uno, que reciben el nombre de “Perfiles fila” y que
representan a las categorı́as fila, es decir, a las categorı́as de la variable “Ingresos”.

Los “Perfiles fila” se construyen de la siguiente manera. Si nos fijamos en la primera fila de la tabla de
doble entrada (Figura 5.11) que corresponde a la categorı́a “< 10”, el total de esta fila aparece en la
columna “Margen activo” y vale 472. Si dividimos los valores de la primera fila entre el total de dicha
fila obtenemos:
327 133 9 3
= 0.693, = 0.282, = 0.019, = 0.006
472 472 472 472
Estos valores coinciden precisamente con la primera fila de la tabla “Perfiles fila” de la Figura 5.12. Ası́,
los “Perfiles fila” se obtienen dividiendo cada fila de la tabla de doble entrada por su correspondiente
total. De este modo, si dividimos la segunda fila de la tabla de la Figura 5.11 por su total 449 obtenemos
la segunda fila de valores de la tabla “Perfiles fila” (Figura 5.12) y ası́ sucesivamente vamos dividiendo
cada fila por su total y obtenemos todos los “Perfiles fila”.

Los “Perfiles fila” nos proporcionan la probabilidad de que aparezca una determinada categorı́a de
la segunda variable Y sabiendo qué categorı́a de la primera variable X ha aparecido. Por ejemplo, el
valor 0.693 proporciona la probabilidad de escoger un hotel de “1∗ ” sabiendo que los ingresos del hotel
corresponden a la categorı́a “< 10”. El valor 0.282 es la probabilidad de escoger un hotel de categorı́a
“2∗ ” sabiendo que sus ingresos corresponden a la categorı́a “< 10” y ası́ con el resto de valores.

De igual forma a lo hecho con las filas de la tabla de doble entrada, podemos construir variables
cuantitativas que representen a las categorı́as columna. Estas variables aparecen en la tabla “Perfiles
columna” (Figura 5.13).

Sergio Martı́nez Puertas, Isabel Marı́a Ortiz Rodrı́guez 38


ANÁLISIS ESTADÍSTICO DE DATOS

Figura 5.13: Tabla Perfiles de columna

De forma más concreta, cada columna de la Figura 5.13 es un punto que tiene n = 6 coordenadas.
Por tanto disponemos de p = 4 puntos de n = 6 coordenadas cada uno, que reciben el nombre de
“Perfiles columna” y que representan a las categorı́as columna, es decir, a las categorı́as de la variable
“Categorı́a”.

Los “Perfiles columna” se obtienen dividiendo cada columna de la tabla de doble entrada (Figura 5.11)
por el total correspondiente de cada columna que aparece en la fila “Margen activo”. De este modo, si
dividimos la primera columna de la tabla de la Figura 5.11 por su correspondiente total 1068 obtenemos
la primera columna de valores de la tabla “Perfiles columna” (Figura 5.13) y ası́ sucesivamente si vamos
dividiendo cada columna por su total, obtenemos todos los “Perfiles columna”.

Los “Perfiles columna” nos proporcionan la probabilidad de que aparezca una determinada categorı́a
de la primera variable X sabiendo qué categorı́a de la segunda variable Y ha aparecido. Por ejemplo, el
valor 0.306 proporciona la probabilidad de escoger un hotel con ingresos dentro de la categorı́a “< 10”
sabiendo que la categorı́a del hotel es “1∗ ”. El valor 0.237 es la probabilidad de escoger un hotel con
ingresos dentro de la categorı́a “10-20” sabiendo que el hotel tiene una categorı́a “1∗ ” y ası́ con el resto
de valores.

5.3. Masas y Centros de Gravedad de los Perfiles

Como hemos comentado anteriormente, los “Perfiles fila” forman una nube de n = 6 puntos de p = 4
coordenadas y los “Perfiles columna” forman una nube de p = 4 puntos de n = 6 coordenadas. Ahora
bien, cada uno de estos puntos tienen distinto peso o ponderación en el conjunto de datos.

Definición 5.3.1 Peso, masa o ponderación de un Perfil Fila

Se define la masa, peso o ponderación de un perfil fila como el número de datos totales de una fila
dividido por el número total de datos.

Sergio Martı́nez Puertas, Isabel Marı́a Ortiz Rodrı́guez 39


ANÁLISIS ESTADÍSTICO DE DATOS

En nuestro Ejemplo, el total de datos de cada fila viene en la columna “Margen activo” de la Figura
5.11 y el total de datos N = 3892 es el último valor de dicha columna. Para obtener las masas de los
“Perfiles fila” debemos dividir dicha columna por el último valor N = 3892, pero esto no es necesario
ya que dichas masas o pesos aparecen calculados en la columna “Margen activo” de la tabla “Perfiles
de columna” (Figura 5.13). Esta columna con las masas de los “Perfiles fila”, podemos incorporarla a
la tabla de “Perfiles de fila” de la Figura 5.12 borrando la columna “Margen activo” (donde todos los
valores son iguales a 1) e incluyendo las masas de cada fila (Figura 5.14).

Figura 5.14: Tabla Perfiles de fila con Masas de los perfiles

De igual manera, podemos definir las masas o pesos de los “Perfiles columna”.

Definición 5.3.2 Peso, masa o ponderación de un Perfil Columna

Se define la masa, peso o ponderación de un perfil columna como el número de datos totales de una
columna dividido por el número total de datos.

En nuestro Ejemplo, el total de datos de cada columna viene en la fila “Margen activo” de la Figura
5.11 y el total de datos N = 3892 es el último valor de dicha fila. Para obtener las masas de los
“Perfiles columna” debemos dividir dicha fila por el último valor N = 3892, pero esto no es necesario
ya que dichas masas o pesos aparecen calculados en la fila “Margen activo” de la tabla “Perfiles de
fila” (Figura 5.12). Esta fila con las masas de los “Perfiles columna”, podemos incorporarla a la tabla
de “Perfiles de columna” de la Figura 5.12 borrando la fila “Margen activo” (donde todos los valores
son iguales a 1) e incluyendo las masas de cada columna (Figura 5.15).

Sergio Martı́nez Puertas, Isabel Marı́a Ortiz Rodrı́guez 40


ANÁLISIS ESTADÍSTICO DE DATOS

Figura 5.15: Tabla Perfiles de columna con Masas de los perfiles

Una vez establecido el concepto de masa o peso, tanto de los “Perfiles fila” como de los “Perfiles
columna”, a continuación vamos a definir el concepto de centro de gravedad de los “Perfiles fila” y de
los “Perfiles columna”.

Definición 5.3.3 Centro de gravedad de los Perfiles fila

Se llama centro de gravedad de los “Perfiles fila” y lo denotamos por GF al vector que se obtiene
como media de los “Perfiles fila” ponderados por sus masas, esto es:

GF = Perfil fila 1 · Masa fila 1 + · · · + Perfil fila n · Masa fila n (3.2)

En nuestro caso, disponemos de n = 6 perfiles fila y por tanto el centro de gravedad GF se obtiene
multiplicando cada fila de la Figura 5.14 por su correspondiente masa y a continuación sumarı́amos
todas las columnas para obtener el centro de gravedad, pero esto no es necesario ya que precisamente
en la tabla de la Figura 5.14 ya aparece calculado el centro de gravedad en la última fila “Masa” y
cuyo encabezado podemos cambiar por “Centro gravedad fila” (Figura 5.16).

Figura 5.16: Tabla Perfiles de fila con Centro de gravedad

Sergio Martı́nez Puertas, Isabel Marı́a Ortiz Rodrı́guez 41


ANÁLISIS ESTADÍSTICO DE DATOS

Si observamos con detalle, podemos ver que el centro de gravedad GF de los “Perfiles fila” coincide
con las masas de los “Perfiles columna”.

Definición 5.3.4 Centro de gravedad de los Perfiles columna

Se llama centro de gravedad de los “Perfiles columna” y lo denotamos por GC al vector que se
obtiene como media de los “Perfiles columna” ponderados por sus masas, esto es:
GC = Perfil columna 1 · Masa columna 1 + · · · + Perfil columna p · Masa columna p (3.3)

En el Ejemplo de los hoteles, disponemos de p = 4 perfiles columna y en consecuencia para obtener el


centro de gravedad GC tenemos que multiplicar cada columna de la Figura 5.15 por su correspondiente
masa y a continuación tenemos que sumar todas las filas de la tabla. Estos calculos no son necesarios,
ya que el centro de gravedad GC aparece calculado en la tabla de la Figura 5.14, en la fila “Masa”
cuyo encabezado podemos sustituir por “Centro gravedad columna” (Figura 5.17). Es fácil ver que el
centro de gravedad GC coincide con las masas de los “Perfiles fila”.

Figura 5.17: Tabla Perfiles de columna con Centro de gravedad

5.4. Inercia de los Perfiles

Otro concepto importante, que vamos a definir a continuación, es el concepto de inercia debido a un
perfil fila e inercia total de los perfiles fila.

Definición 5.4.1 Inercia de un perfil fila

Se llama inercia de un perfil fila al producto del peso del perfil fila por la distancia chi-cuadrado
del perfil fila a su centro de gravedad GF . A la suma total de las inercias de los perfiles fila se le llama
inercia total de los perfiles fila y es una medida de la dispersión de la nube de puntos que forman los
perfiles fila.

La fórmula de la distancia chi-cuadrado no se introducirá, ya que no es necesaria debido a que el


programa SPSS nos proporciona las inercias de cada uno de los “Perfiles fila” en la tabla “Puntos de
fila generales” (Figura 5.18).

Sergio Martı́nez Puertas, Isabel Marı́a Ortiz Rodrı́guez 42


ANÁLISIS ESTADÍSTICO DE DATOS

Figura 5.18: Tabla Puntos de fila generales

En la columna “Inercia” podemos ver, por ejemplo, que la inercia del perfil fila correspondiente a
“< 10” vale 0.124, la inercia del perfil fila “10-20” vale 0.076, etc. La suma de todas las inercias de
los “Perfiles fila” vale 0.601 y como hemos comentado anteriormente es una medida de la dispersión
de la nube de puntos que forman los n = 6 “Perfiles fila”. Además la tabla “Puntos de fila generales”
nos proporciona una columna con las masas o pesos de los “Perfiles fila” y otra serie de columnas que
comentaremos más adelante.

Definición 5.4.2 Inercia de un perfil columna

Se llama inercia de un perfil columna al producto del peso del perfil columna por la distancia chi-
cuadrado del perfil columna a su centro de gravedad GC . A la suma total de las inercias de los perfiles
columna se le llama inercia total de los perfiles columna y es una medida de la dispersión de la nube
de puntos que forman los perfiles columna.

Las inercias de los “Perfiles columna” aparecen en la tabla “Puntos de columna generales” (Figura
5.19).

Figura 5.19: Tabla puntos de columna generales

Sergio Martı́nez Puertas, Isabel Marı́a Ortiz Rodrı́guez 43


ANÁLISIS ESTADÍSTICO DE DATOS

En la columna “Inercia” podemos observar, por ejemplo, que la inercia del perfil columna “1∗ ” es igual
a 0.192, la del perfil “2∗ ” es igual a 0.041, etc. La suma de todas las inercias de los “Perfiles columna”
es igual a 0.601 que coincide con la inercia total de los “Perfiles fila”. Estas dos cantidades siempre
coinciden, es decir, la inercia total de los “Perfiles fila” coincide con la inercia total de los “Perfiles
columna”.

5.5. Análisis de Correspondencias Simple

Una vez introducidos estos conceptos, podemos abordar en qué consiste el Análisis de Correspon-
dencias. Un Análisis de Correspondencias consiste en reducir la dimensión de los “Perfiles fila” y los
“Perfiles columna”, de manera que la inercia tanto de los “Perfiles fila” como de los “Perfiles columna”
esté lo mejor representada posible. Concretamente, en nuestro ejemplo, vamos a reducir los “Perfiles
fila” de p = 4 coordenadas a 2 coordenadas y los “Perfiles columna” de n = 6 coordenadas a 2 coor-
denadas, de manera que la inercia de los perfiles esté lo mejor representada posible. Recordemos que
la dimensión a la que reducimos (en nuestro caso, dimensión 2) tiene que ser común.

Ası́, los “Perfiles fila” pasan de estar representados por p = 4 variables, a estar representados por
dos nuevas variables y de igual forma los “Perfiles columna” pasan de estar representados por n = 6
variables, para estar representados por dos nuevas variables. Estas dos nuevas variables que representan
tanto a los “Perfiles fila” como a los “Perfiles columna” reciben el nombre de “Ejes factoriales”.

Recordemos que el número máximo de ejes factoriales a los que podemos reducir los “Perfiles fila” y
los “Perfiles columna”, es decir el número máximo de ejes factoriales que podemos extraer, viene dado
por la expresión (2.1). En nuestro ejemplo, vimos que el número máximo de ejes que podemos extraer
es 3, pero elegimos extraer sólo 2 ejes factoriales. De cualquier modo, la tabla “Resumen” (Figura
5.20) proporciona información sobre los 3 ejes factoriales que podemos extraer.

Figura 5.20: Tabla Resumen

Sergio Martı́nez Puertas, Isabel Marı́a Ortiz Rodrı́guez 44


ANÁLISIS ESTADÍSTICO DE DATOS

La tabla “Resumen” de la Figura 5.20 nos proporciona, en primer lugar, el resultado del contraste
chi-cuadrado para la independencia, cuyas hipótesis son


H0 : X e Y son independientes
Contraste Chi cuadrado
H1 : X e Y no son independientes

El estadı́stico de contraste, columna “Chi-cuadrado”, vale 2337.62 y el p-valor del contraste “Sig.” es
0.00. De este modo, para cualquier nivel de significación α rechazamos H0 , es decir, las variables X =
“Ingresos” e Y = “Categorı́a” no son variables independientes. Esta cuestión es muy importante, ya
que nos quedamos con H0 , las variables serı́an independientes y no tendrı́an nada en común, en este
caso no tendrı́a sentido realizar el Análisis de Correspondencias, porque no existirı́an relaciones entre
las distintas categorı́as de X e Y .

En nuestro caso, rechazamos H0 , por tanto, existen relaciones entre X e Y y tiene sentido realizar un
Análisis de Correspondencias.

Hay que tener cuidado con el resultado del test chi-cuadrado porque éste es un test para muestras
grandes. Si nuestra muestra es pequeña podemos tener muchas frecuencias esperadas menores que
5 y el resultado no serı́a fiable. La tabla “Resumen” de la Figura 5.20 no nos avisa en caso de
haber frecuencias esperadas pequeñas, tendremos que irnos al procedimiento Analizar/Estadı́sticos
descriptivos/Tablas cruzadas/Chi-cuadrado para tener más detalles.

La tabla “Resumen” de la Figura 5.20 también proporciona una columna con los valores singulares de
los ejes factoriales, que definimos a continuación.

Definición 5.5.1 Valor singular o propio de un eje factorial

Se define el valor propio de un eje factorial como la varianza ponderada de los valores de dicho eje
factorial.

En la Figura 5.20, dentro de la columna “Valor singular”, disponemos de los valores de los tres ejes
factoriales que podemos calcular. Ası́, el primer eje presenta un valor singular igual a 0.672, el segundo
eje tiene un valor singular igual a 0.369 y el del último eje factorial es 0.112.

Definición 5.5.2 Inercia de un eje factorial

Se define la inercia de un eje factorial como el cuadrado del valor propio del eje factorial.

En la tabla “Resumen” (Figura 5.20) podemos ver las inercias de cada uno de los ejes factoriales en
la columna “Inercia”. Las inercias de cada uno de los ejes son 0.452, 0.136 y 0.013, respectivamente.
La suma de las inercias de todos los ejes factoriales es igual a 0.601 y se llama inercia total de los ejes
y siempre coincide con las inercias totales de los perfiles fila y los perfiles columna.

Sergio Martı́nez Puertas, Isabel Marı́a Ortiz Rodrı́guez 45


ANÁLISIS ESTADÍSTICO DE DATOS

Definición 5.5.3 Proporción de Inercia explicada

Se define la proporción de inercia explicada por un eje factorial como la inercia del eje dividida
por la inercia total.

Definición 5.5.4 Proporción de Inercia acumulada por los h primeros ejes factoriales

Se define la proporción de inercia acumulada por los h primeros ejes factoriales como la suma de
las inercias de los h ejes factoriales dividida por la inercia total.

La tabla “Resumen” (Figura 5.20) incluye las proporciones de inercia explicada y acumulada en las
subcolumnas “Contabilizado para” y “Acumulado” de la columna “Proporción de inercia”. En ellas
podemos ver, que la proporción de inercia explicada por el primer eje factorial es 0.753 (es decir el
primer eje factorial explica un 75.3 % de la inercia total). El segundo eje factorial explica una proporción
de inercia igual a 0.226 y el tercer eje tan solo un 0.021 (únicamente el 2.1 %), lo que justifica nuestra
decisión de solo extraer los dos primeros ejes ya que el tercero aporta muy poco. También podemos
observar en la subcolumna “Acumulada”, que los dos primeros ejes factoriales explican el 97.9 % de
la inercia total, que es un porcentaje bastante alto.

Acabamos de ver que los dos primeros ejes factoriales explican conjuntamente un porcentaje muy alto
de inercia total, con lo que la representación conjunta de las categorı́as de la variable “Ingresos” y de
la variable “Categorı́a”, realizada por medio de los dos primeros ejes factoriales, es bastante adecuada.

También es interesante determinar qué categorı́as de las dos variables estudiadas están mejor represen-
tadas de manera individual y cuáles de estas categorı́as son las que más inercia han aportado a los ejes
factoriales. Para ello, sólo debemos consultar la columna “Contribución” de las tablas “Puntos de fila
generales” y “Puntos de columna generales” (Figuras 5.18 y 5.19). En las dos tablas, dicha columna
se encuentra dividida en dos columnas denominadas “De los puntos a la inercia de la dimensión” y
“De la dimensión en la inercia del punto”. Ambas columnas se encuentran a su vez divididas en varias
subcolumnas correspondientes a los distintos ejes factoriales.

La columna “De los puntos en la inercia de la dimensión” sirve para determinar qué categorı́as son
las que más inercia producen en el correspondiente eje factorial. Ası́ si nos fijamos en la columna “De
los puntos a la inercia de la dimensión” de la tabla “Puntos de fila generales” (Figura 5.18) podemos
comprobar que la categorı́a de la variable “Ingresos” que más aporta a la inercia del primer eje factorial
es “100-500”, ya que el 27.7 % de la inercia del primer eje factorial es produida por dicha categorı́a.
También podemos mencionar las categorı́as “> 500” y “< 10” que producen respectivamente el 27.5 %
y el 21.8 % de la inercia del primer eje factorial. En cuanto al segundo eje factorial, podemos decir
claramente que la categorı́a que más inercia aporta al segundo eje es “> 500” que produce el 53.5 %
de la inercia de dicho eje.

Una interpretación similar podemos hacer con las categorı́as de la variable “Categorı́a” si nos fijamos
en la columna “De los puntos en la inercia de dimensión” de la tabla “Puntos de columna generales”
(Figura 5.19). Las categorı́as que más inercia aportan al primer eje factorial son “4∗ y5∗ ” y “1∗ ” que
producen respectivamente el 41.6 % y el 36.7 %. En cuanto al segundo eje, tenemos las categorı́as
“4∗ y5∗ ” y “3∗ ” que producen respectivamente el 44.2 % y el 33.4 % de la inercia del segundo eje.

Sergio Martı́nez Puertas, Isabel Marı́a Ortiz Rodrı́guez 46


ANÁLISIS ESTADÍSTICO DE DATOS

Por otro lado, la columna “De la dimensión en la inercia del punto” sirve para determinar qué por-
centaje de inercia de cada categorı́a es explicado por cada uno de los ejes factoriales y determinar
qué categorı́as son las que mejor representadas están en el Análisis de Correspondencias. Si observa-
mos dicha columna en la tabla “Examen de los puntos de fila” (Figura 5.18) podemos observar que
las categorı́as de la variable “Ingresos” mejor representadas por el primer eje factorial son “10-20” y
“100-500” con un porcentaje de inercia explicado respectivamente de 90.8 % y 89.7 % y la peor repre-
sentada la categorı́a “50-100” con un 0 %. Respecto al segundo eje, la categorı́a mejor representada es
“50-100” con un 91.6 % de inercia explicada. En la columna “Total” podemos observar el porcentaje
de inercia explicada por los dos ejes factoriales conjuntamente para cada una de las categorı́as, donde
podemos comprobar que todas las categorı́as de la variable “Ingresos” están muy bien representadas
con porcentajes superiores al 90 %.

De igual manera, si nos fijamos en la columna “De la dimensión en la inercia del punto” de la tabla
“Puntos de columna generales” (Figura 5.19) podemos comprobar que las categorı́as mejor represen-
tadas de la variable “Categorı́a” en el primer eje son “1∗ ” y “4∗ y5∗ ” con porcentajes del 86.5 % y
75.7 % respectivamente. En el segundo eje las mejor representadas son “3∗ ” y “4∗ y5∗ ” presentando
respectivamente los porcentajes 38.0 % y 24.2 %. Al igual que con la variable “Ingresos”, en la columna
“Total” podemos comprobar que todas las categorı́as de la variable “Categorı́a” están representadas
de manera adecuada por los dos ejes factoriales calculados. De este modo, los dos ejes representan
de manera adecuada tanto las categorı́as de la variable “Ingresos” como las categorı́as de la variable
“Categorı́a”.

Como comentamos anteriormente, los ejes factoriales son variables numéricas que resumen a los “Perfi-
les fila” y los “Perfiles columna”. En concreto, hemos extraı́do dos ejes factoriales, es decir dos variables
cuyos valores podemos consultar en las tablas “Puntos de fila generales” y “Puntos de columna gene-
rales” (Figuras 5.18 y 5.19). En dichas tablas disponemos de una columna denominada “Puntuación
en la dimensión” dividida en dos subcolumnas correspondientes a los dos ejes factoriales obtenidos.
Ası́, en la tabla “Puntos de fila generales” podemos observar las puntuaciones de las categorı́as de
la variable “Ingresos” en cada uno de los ejes factoriales y por ejemplo la categorı́a “< 10” toma los
valores (−1.100, 0.701) en los dos ejes factoriales.

En la tabla “Puntos de columna generales” podemos consultar los valores que los ejes factoriales
toman en las categorı́as de la variable “Categorı́a”. Por ejemplo, la categorı́a “1∗ ” toma los valores
(−0.949, 0.483) en los ejes factoriales.

Con los valores que toman las categorı́as fila (categorı́as de la variable “Ingresos”) y las categorı́as
columna (categorı́as de la variable “Categorı́a”) en los dos ejes factoriales podemos realizar el diagrama
de dispersión biespacial (Figura 5.21) con el que podemos sacar conclusiones de las posibles relaciones
entre las categorı́as de las dos variables estudiadas.

Sergio Martı́nez Puertas, Isabel Marı́a Ortiz Rodrı́guez 47


ANÁLISIS ESTADÍSTICO DE DATOS

Figura 5.21: Diagrama de dispersión biespacial

Ası́ podemos observar que con respecto a las categorı́as de la variable “Ingresos”, el primer eje factorial
viene generado por la posición de las categorı́as “< 10” y “10-20”, que se sitúan en el extremo negativo
y que contribuyen al 37 % de la inercia explicada para el primer eje, frente a las categorı́as “100-500”
y “> 500” situadas en el extremo positivo y que aportan el 55.2 % de la inercia del eje. De igual
manera, con respecto a las categorı́as de la variable “Categorı́a”, el 42.5 % de la inercia procede de las
categorı́as “1∗ ” y “2∗ ”, situadas en el extremo negativo frente a las categorı́as “3∗ ” y “4∗ y5∗ ” situadas
en el extremo positivo y que contribuyen conjuntamente con un 57.5 % de la inercia del eje. Con ello,
podemos identificar el primer eje factorial como un eje que separa las categorı́as más bajas de las
categorı́as más altas tanto para variable “Ingresos” como de la variable “Categorı́a”.

Con respecto al segundo eje factorial, podemos ver que se anteponen las categorı́as “< 10”, “10-20” y
“> 500” en la parte positiva, explicando un 74.4 % de la inercia del eje, frente a “20-50”, “50-100” y
“100-500” en la parte negativa explicando un 25.4 %. En cuanto a las categorı́as columna, observamos
que las categorı́as “2∗ ”y “3∗ ” se sitúan en la parte negativa explicando un 38.5 % frente a las categorı́as
“1∗ ” y “4∗ y5∗ ” en la parte positiva, explicando un 61.6 % de la inercia. De este modo, tenemos que el
segundo eje separa las categorı́as extremas de una variable de las categorı́as intermedias, tanto para
la variable “Ingresos” como para la variable “Categorı́a”.

Una vez analizados los ejes y el diagrama de dispersión biespacial, podemos extraer conclusiones sobre

Sergio Martı́nez Puertas, Isabel Marı́a Ortiz Rodrı́guez 48


ANÁLISIS ESTADÍSTICO DE DATOS

las posibles relaciones entre las categorı́as de las variables “Ingresos” y “Categorı́a”. Ası́ podemos
establecer que la categorı́a “> 500” relativa a la variable “Ingresos” está muy relacionada con la
categorı́a “4∗ y5∗ ”. La categorı́a “1∗ ” está muy relacionada con las dos categorı́as inferiores de la variable
“Ingresos”, esto es, con las categorı́as “< 10” y “10-20”. La categorı́a “2∗ ” está muy relacionada con
la categorı́a “20-50” aunque también estarı́a relacionada con la categorı́a “50-100”.

Por último la categorı́a “3∗ ” presenta relación con las categorı́as “50-100” y “100-500”.

De aquı́ tenemos una conclusión lógica y es que a mayor número de estrellas del hotel, mayores son
sus ingresos.

5.6. Ejemplo 5.1 con R

En el Listado 14 tenemos las órdenes básicas del análisis. El listado completo está en el fichero
Tema5correspondencias.R.
1 # I n t r o d u c i m o s l o s d a t o s por columnas , i n c l u i d o s l o s nombres de l a s f i l a s
2 Nombres <− c ( ”<10” , ”10−20” , ”20−50” , ”50−100” , ”100−500” , ”>500” )
3 e s t r e l l a 1 <− c ( 3 2 7 , 2 5 3 , 2 8 9 , 1 2 4 , 7 1 , 4 )
4 e s t r e l l a 2 <− c ( 1 3 3 , 1 6 9 , 3 2 4 , 2 5 7 , 2 3 4 , 7 )
5 e s t r e l l a 3 <− c ( 9 , 2 5 , 1 9 6 , 2 7 7 , 6 7 7 , 5 5 )
6 e s t r e l l a 4 5 <− c ( 3 , 2 , 5 , 3 1 , 2 6 0 , 1 6 0 )
7 # Creamos e l f i c h e r o de d a t o s
8 d a t o s <− data . frame ( e s t r e l l a 1 , e s t r e l l a 2 , e s t r e l l a 3 , e s t r e l l a 4 5 )
9 rownames ( d a t o s )<−Nombres
10 # V i s u a l i z a r l o s datos
11 datos
12 # I n s t a l a m o s e l pa qu et e ca
13 i n s t a l l . p a c k a g e s ( ” ca ” )
14 l i b r a r y ( ca )
15 # Test c h i −cuadrado de i n d e p e n d e n c i a
16 chisq . t e s t ( datos )
17 # A n a l i s i s de c o r r e s p o n d e n c i a s
18 a n a l i s i s <− ca ( datos , graph = FALSE)
19 analisis
20 # Diagrama de d i s p e r s i o n b i e s p a c i a l
21 p l o t ( ca ( d a t o s ) )
Listado 5.1: Análisis de Correspondencias

En la Figura 5.22 tenemos el gráfico de dispersión biespacial.

Sergio Martı́nez Puertas, Isabel Marı́a Ortiz Rodrı́guez 49


ANÁLISIS ESTADÍSTICO DE DATOS

Figura 5.22: Gráfico de dispersión biespacial del Ejemplo 5.1

Sergio Martı́nez Puertas, Isabel Marı́a Ortiz Rodrı́guez 50


ANÁLISIS ESTADÍSTICO DE DATOS

5.7. Ejercicios Propuestos de Análisis de Correspondencias

1. La siguiente tabla proporciona información sobre el número de licencias federadas, según deporte
y comunidad autónoma:

Comunidad Autónoma \ Deporte Atletismo Baloncesto Ciclismo Fútbol


Andalucı́a 5302 75555 10953 106014
Cataluña 26148 66779 19849 97334
C.Valenciana 7011 21182 5034 74503
C.Madrid 30877 33161 5350 62009
Paı́s Vasco 2152 29745 3394 32234

Introducir los datos en SPSS de manera adecuada. Realizar un Análisis de Correspondencias sim-
ple analizando las tablas “Resumen”, “Puntos de fila generales”, “Puntos de columna generales”
y el “Diagrama de dispersión biespacial” para estudiar posibles relaciones entre la Comunidad
Autónoma y el tipo de deporte.

2. Se considera la siguiente tabla de contingencia, que muestra la distribución de los hábitos de


tabaco para 5 niveles de categorı́a laboral de los empleados de una empresa

Grupo de Personal \ Tabaquismo Nada Poco Medio Mucho


Directores Sr 4 2 3 2
Directores Jr 4 3 7 4
Empleados Sr 25 10 12 4
Empleados Jr 18 24 33 13
Secretarias 10 6 7 2

Analizar las posibles relaciones entre los grupos de personal y tabaquismo.

3. Se le pregunta a un grupo de clientes por las caracterı́sticas de 9 empresas. Cada cliente tiene
que asociar a cada empresa las caracterı́sticas que cree que posee, dentro de un grupo de 7
caracterı́sticas. Los resultados aparecen en la siguiente tabla:

E1 E2 E3 E4 E5 E6 E7 E8 E9
1=Precios 16 17 18 19 16 45 15 19 18
2=Marcas 8 15 18 17 27 20 2 14 53
3=Rapidez de entrega 20 20 23 21 29 20 18 19 25
4=Información 11 13 12 17 20 16 15 10 44
5=Trato del personal 28 25 25 22 30 26 24 22 26
6=Condiciones de pago 21 21 20 24 27 22 18 21 24
7=Facilidad de acceso 21 21 21 23 26 15 16 18 21

Obtener la tabla de contingencia en pantalla. Realizar el Análisis de Correspondencias y deter-


minar: dos caracterı́sticas que tengan perfiles parecidos, dos empresas que tengan las mismas
caracterı́sticas y un atributo que esté muy asociado a una empresa.

Sergio Martı́nez Puertas, Isabel Marı́a Ortiz Rodrı́guez 51


ANÁLISIS ESTADÍSTICO DE DATOS

4. Se considera la siguiente tabla, que proporciona información sobre la edad de una persona y la
marca deportiva favorita

Categorı́a Edad \ Marca Nike Adidas Reebok Puma


Menos de 31 3 3 0 0
31-45 5 2 1 4
46-60 1 3 7 1
Más de 60 4 2 4 0

a) Obtener la tabla de contingencia en pantalla.


b) Analizar las tablas “Resumen”, “Puntos de fila generales” y “Puntos de columna generales”.
c) Interpretar el “Diagrama de dispersión biespacial” e indicar las relaciones entre los distintos
niveles de edad y las diferentes marcas.

5. La siguiente tabla contiene el número de niños (en miles) de 10 a 15 años, que según las encuestas
del INE han hecho uso de Tecnologı́as de la Información y Comunicación en los últimos 3 meses,
en 2014.

Uso de ordenador Uso de Internet Disponen de teléfono móvil


10 años 414 408 109
11 años 426 408 186
12 años 431 422 294
13 años 416 405 345
14 años 414 406 371
15 años 430 434 408

Comprobar si es adecuado realizar un análisis de correspondencias y en caso afirmativo analizar


las posibles relaciones entre las edades y la tecnologı́a usada.

6. La siguiente tabla contiene el número de empresas (en miles) según los Sectores de Actividad y
los Tramos de Ocupación (Encuesta Anual de Comercio, 2014).

Sectores/Tramos Menos de 2 De 2 a 4 De 5 a 9 De 10 a 19 Más de 19


Venta de vehı́culos de motor 6 3 0.7 2.1 0.6
Mantenimiento de vehı́culos de motor 15 20 5 1.3 1.2
Comercio de repuestos 2.3 2.7 1.1 1.4 0.5
Venta y reparación de motocicletas 1.5 0.2 0.2 1.02 0.08

Comprobar si es adecuado realizar un análisis de correspondencias y en caso afirmativo analizar


las posibles relaciones entre los Sectores de Actividad y los Tramos de Ocupación. (Tenéis que
trabajar con los datos en unidades, no en miles).

Sergio Martı́nez Puertas, Isabel Marı́a Ortiz Rodrı́guez 52


ANÁLISIS ESTADÍSTICO DE DATOS

7. Se ha realizado una encuesta en la que se ha preguntado por el estado civil y el tema que más
preocupa al encuestado, obteniendo la siguiente tabla de frecuencias.

Estado Civil/Preocupación Dinero Vida afectiva Polı́tica Salud


Soltero 26 111 59 105
Casado 32 166 97 348
Otro 5 13 82 72

a) ¿A cuántas personas se ha preguntado?


b) Entre los casados ¿qué proporción tiene como mayor preocupación la salud?
c) ¿La preocupación es independiente del estado civil?
d ) Analizar las posibles relaciones entre el Estado civil y la Preocupación.

Resultados:

1. Algunos comentarios: Tabla “Resumen”: Chi-cuadrado=66269.797, Sig.=0.000, por tanto no


son independientes Comunidad y Deporte.
Tabla “Puntos de fila generales”: C. Madrid es la que tiene más inercia y produce un 57 % de
inercia en el eje 1. C. Valenciana produce un 76.3 % de inercia en el eje 2. Por otro lado, el 96.6 %
de la inercia de Andalucı́a es explicado por el eje 1. . .
Tabla “Puntos de columna generales”: Atletismo es el que más inercia tiene (0.056) y produce
un 87.1 % en el eje 1. Baloncesto y fútbol producen un 45.5 % de inercia en el eje 2. El 99.3 %
de la inercia de Atletismo es explicado por el eje 1, el 86.4 % de la inercia de fútbol es explicado
por el eje 2 . . .
Fútbol está relacionado con C. Valenciana. Atletismo con C. Madrid. Ciclismo y Baloncesto con
Cataluña, Paı́s Vasco y Andalucı́a.

2. Sig.=0.172 en el test Chi-cuadrado de independencia, por tanto Grupo de personal y Tabaquis-


mo son independientes y no tendrı́a sentido buscar relaciones entre sus categorı́as mediante el
análisis de correspondencias. Sin embargo, vemos que en la tabla hay frecuencias con valores
bajos, si hacemos este mismo test chi-cuadrado a través del menú Analizar/Estadı́sticos des-
criptivos/Tablas cruzadas, aquı́ sı́ nos advierten que un 35 % de las casillas tienen un recuento
esperado menor que 5. Por tanto, puesto que el resultado del chi-cuadrado no es fiable, haremos
el análisis de correspondencias a ver si se detecta alguna relación.
En el diagrama de dispersión biespacial podemos ver que los Directores (Jr y Sr) están relacio-
nados con Mucho tabaquismo, Empleados Jr con Poco y Medio, Empleados Sr con Nada y los
Secretarios están entre Nada, Poco y Medio.

3. Rapidez de entrega, Trato de personal y Condiciones de pago tienen perfiles parecidos. E1 y E7


tienen las mismas caracterı́sticas, otro grupo lo forman E2, E3 y E4. Marcas está muy asociado
a E9 y Precios a E6.

Sergio Martı́nez Puertas, Isabel Marı́a Ortiz Rodrı́guez 53


ANÁLISIS ESTADÍSTICO DE DATOS

4. a) Vemos que las frecuencias son bajas, si hacemos el Chi-cuadrado comprobamos que todas
las frecuencias esperadas son menores que 5. b) Algunos resultados: Chi-cuadrado Sig. = 0.028.
Edad 31-45 produce un 45.4 % de inercia en el factor 1. El factor 1 explica un 86.1 % de la inercia
de Edad 46-60. Reebok tiene la mayor inercia 0.181 y produce un 57.9 % de inercia en el factor
1. El factor 1 explica el 92.1 % de la inercia de Reebok. c) Menos de 31: ninguna relación con
Reebok y Puma, se decantan por Nike y Adidas. Edad 31-45: Puma y Nike. Edad 46-60: Reebok.
Más de 60: no les gusta nada Puma, prefieren las otras 3 marcas.

5. Chi-cuadrado Sig.=0.000, por tanto, las variables no son independientes. El Móvil está relacio-
nado con las edades mayores de 13 a 15 años. Internet y Ordenador con 11 y 12 años. De 12
a 15 años usan las 3 tecnologı́as. Los de 10 y 11 años son los menos relacionados con el Móvil,
aunque usan las otras tecnologı́as.

6. Si trabajamos con los datos en miles: Chi-cuadrado Sig.=0.696, lo cual indicarı́a que Sectores y
Tramos son variables independientes y no habrı́a que realizar el Análisis de Correspondencias.
Sin embargo, al observar los datos vemos que los valores son muy pequeños, no serı́a válido el
resultado del Chi-cuadrado. Si trabajamos con los datos en unidades: Chi-cuadrado Sig. = 0.000.
Relaciones: Venta de vehı́culos con Menos de 2; Mantenimiento de vehı́culos con De 2 a 4;
Comercio de repuestos con De 5 a 9 y Más de 19; Venta de motos con De 10 a 19.

7. a) 1116 b) 54.1 % c) No son independientes, Sig.=0.000 d) Solteros se preocupan por Dinero y


Vida afectiva, Casados por Salud y Otro se preocupa por Polı́tica.

Sergio Martı́nez Puertas, Isabel Marı́a Ortiz Rodrı́guez 54


Tema 6

Análisis Conjunto

6.1. Introducción

En el diseño de nuevos productos es necesario investigar qué caracterı́sticas del producto son más
importantes para los consumidores. El Análisis Conjunto se utiliza para determinar el mejor diseño
de un producto a partir de un conjunto de atributos de ese producto que valoran los encuestados.

Por ejemplo, para un nuevo gel de baño se pueden valorar caracterı́sticas como el color (azul o blanco),
aroma (suave o fuerte), precio (1.4 e o 1.8 e),... Si solo hubiese que elegir según el precio, el más bajo
resultarı́a preferible. La cuestión es ¿qué combinación de cualidades del gel considera más adecuada el
consumidor? Por ejemplo, se prefiere el gel azul con aroma suave de 1.6 e o el gel blanco con aroma
fuerte de 1.4 e. En total tendremos 2 × 2 × 2 = 8 combinaciones posibles de caracterı́sticas del gel, es
decir, 8 tipos de geles (Tabla 6.1).

Gel Color Aroma Precio


1 azul suave 1.4 e
2 azul suave 1.8 e
3 azul fuerte 1.4 e
4 azul fuerte 1.8 e
5 blanco suave 1.4 e
6 blanco suave 1.8 e
7 blanco fuerte 1.4 e
8 blanco fuerte 1.8 e

Tabla 6.1: Distintos tipos de geles de baño

Se utilizan los términos atributo o factor para referirse a una caracterı́stica del producto. A cada
uno de los valores que puede tener el factor se le denomina nivel. Por ejemplo, “color” serı́a un factor
y “blanco, azul” son sus niveles.

Las preferencias de los encuestados dependerán de los atributos que consideren más importantes para

55
ANÁLISIS ESTADÍSTICO DE DATOS

ese producto. Si un producto puede presentarse con muchos atributos diferentes y cada uno de ellos
con varios niveles, el número de productos distintos entre los que tendrán que elegir los encuestados
será muy grande, siendo difı́cil para el encuestado establecer sus preferencias. Mediante el Análisis
Conjunto se puede seleccionar un subconjunto de productos que posteriormente se le
presentan al consumidor para que ordene según su preferencia. Con este subconjunto será
suficiente para determinar tanto la importancia relativa de cada atributo como los niveles de mayor
preferencia de cada atributo. Si por alguna razón el producto que más se prefiere no es viable, por
ejemplo, por su coste, se puede saber cuál es la siguiente alternativa más preferida. Si cuenta con
información adicional sobre los encuestados, como información demográfica, se pueden identificar los
segmentos de mercado donde se puede introducir el producto.

Por tanto, para identificar las mejores cualidades del producto se selecciona una muestra de con-
sumidores actuales o potenciales. A cada individuo de la muestra se le solicita su preferencia por un
conjunto de productos diferentes, resultantes de la combinación de los atributos en estudio a diferentes
niveles.

6.2. Elementos de un Análisis Conjunto

Los elementos de un Análisis Conjunto son:

Enfoque de perfil completo


En el Análisis Conjunto se utiliza el enfoque de perfil completo (full-profile), donde los encuesta-
dos clasifican, ordenan o puntúan un conjunto de perfiles o tarjetas en función de la preferencia.
Cada perfil describe un servicio o producto completo y consta de una combinación diferente de
niveles de factores para todos los factores (atributos) de interés.
También está el procedimiento de dos atributos a la vez (trade-off), en este caso solo se van pre-
sentando al entrevistado dos de los factores y sus niveles, el encuestado ordena las combinaciones
posibles de menos a más preferidas.

Matriz ortogonal
Si hay varios factores en juego y cada uno está compuesto por más de un par de niveles, el
número total de perfiles resultantes de todas las combinaciones posibles de niveles se aumenta
demasiado para permitir que los encuestados sean capaces de clasificar o puntuar todos ellos de
una manera que tenga sentido. Para resolver este problema, el enfoque de perfil completo utiliza
lo que se denomina un diseño factorial fraccional, que presenta una fracción adecuada de
todas las posibles combinaciones de niveles de los factores. El conjunto resultante, denominado
matriz ortogonal, está diseñado para recoger los efectos principales de cada nivel de factor. Se
desprecian las interacciones entre los niveles de un factor con los niveles de otro factor.
La matriz ortogonal suele utilizarse como punto de partida de un Análisis Conjunto. También
permite generar combinaciones de niveles de factores que se conocen como casos reservados, que
son evaluados por los sujetos pero no se utilizan para generar el modelo de preferencias. En su
lugar, se utilizan como comprobación de la validez del modelo.

Sergio Martı́nez Puertas, Isabel Marı́a Ortiz Rodrı́guez 56


ANÁLISIS ESTADÍSTICO DE DATOS

El estı́mulo experimental
Cada conjunto de los niveles de los factores de un diseño ortogonal representa una versión
diferente del producto que se está estudiando y se debe presentar a los sujetos en forma de un
perfil de producto concreto. Esto ayuda al encuestado a concentrarse únicamente en el único
producto que se desea evaluar en ese momento. Los estı́mulos deben normalizarse, asegurándose
de que todos los perfiles presentan un aspecto fı́sico similar, excepto en lo que respecta a las
diferentes combinaciones de caracterı́sticas.

Recopilación de los datos


Se tiene que elegir un conjunto de personas (clientes) que valorarán los diferentes perfiles. A
cada cliente se le presentan los perfiles para que nos den sus preferencias (datos para analizar).
Se pueden utilizar tres métodos de registro de datos:

1. SEQUENCE: Los sujetos ordenan los perfiles según la preferencia.


2. RANK: Los sujetos asignan un rango a cada perfil desde el 1 al número total de perfiles.
3. SCORE: Los sujetos asignan una puntuación de preferencia a cada perfil (por ejemplo un
valor entre 0 y 100).

Para el posterior análisis de los datos habrá que tener en cuenta la forma de registro que se ha
utilizado.

Análisis de los datos


El análisis de los datos se realiza con el procedimiento CONJOINT que sólo está disponible
con la sintaxis de comandos de SPSS, pero no es accesible desde los menús del programa. Los
resultados que se obtienen son las utilidades, denominadas contribuciones parciales, para cada
uno de los niveles del factor. Estas puntuaciones de utilidad proporcionan una medida cuan-
titativa de la preferencia para cada nivel del factor, donde los valores mayores corresponden
a una preferencia más alta. Las contribuciones parciales se expresan en una unidad común, lo
que permite añadirlas conjuntamente para obtener la utilidad total, o la preferencia global, de
cualquier combinación de los niveles de los factores. Ası́, las contribuciones parciales constituyen
un modelo para predecir la preferencia de cualquier perfil de producto, incluidos los perfiles que
se denominan casos de simulación, que no se presentan realmente durante el experimento.
El Análisis Conjunto genera un modelo individualizado para cada encuestado. El modelo general
para toda la muestra resulta de la agregación de los modelos de todos los individuos que la
componen.

6.3. Pasos para realizar un Análisis Conjunto

Los pasos para realizar un Análisis Conjunto son:

1. Generar el diseño (conjunto de productos según los factores considerados y sus niveles): se crea
el fichero de diseño.

Sergio Martı́nez Puertas, Isabel Marı́a Ortiz Rodrı́guez 57


ANÁLISIS ESTADÍSTICO DE DATOS

2. Presentar el diseño: fichas con los tipos de productos generados en el paso anterior, estas fichas
pueden servir para recoger los datos de los encuestados.

3. Recoger los datos: una vez preguntados los encuestados por sus preferencias se crea el fichero de
datos con las respuestas (hay 3 formas de registrar los datos: SEQUENCE, RANK y SCORE).

4. Realizar el análisis de los datos recogidos (Análisis Conjunto).

Veamos a continuación cada uno de estos pasos con más detalle.

6.4. Paso 1: Generación de un diseño ortogonal

Para generar un diseño ortogonal se elige en el menú de SPSS: Datos/Diseño ortogonal/Generar...


Este procedimiento genera un archivo de datos que contiene un diseño ortogonal de efectos principales
que permite contrastar estadı́sticamente varios factores sin contrastar cada combinación de niveles del
factor.

Ejemplo 6.1 Una nueva compañı́a aérea de bajo coste está interesada en determinar la importancia
relativa de distintos factores en su oferta para clientes potenciales. El precio es claramente un factor
fundamental, pero ¿qué ocurre con el resto de factores, como el tamaño del asiento, el número de
escalas y el hecho de que se incluya o no una bebida o aperitivo?

La posibilidad de realizar una encuesta para clasificar los perfiles de producto que representen todas las
combinaciones de factores, resulta poco razonable dado el gran número de perfiles. El procedimiento
Generar diseño ortogonal nos da un conjunto reducido de perfiles del producto, lo suficientemen-
te pequeño como para incluirse en una encuesta y lo suficientemente grande como para evaluar la
importancia relativa de cada factor.

Para generar un diseño ortogonal se elige en el menú de SPSS: Datos/Diseño ortogonal/Generar...


(Figura 6.1).

Sergio Martı́nez Puertas, Isabel Marı́a Ortiz Rodrı́guez 58


ANÁLISIS ESTADÍSTICO DE DATOS

Figura 6.1: Menú Generar diseño ortogonal

En primer lugar se definen los factores o caracterı́sticas del producto (Figura 6.2) y los distintos niveles
que pueden tener (Figura 6.3):

Factor 1: Comodidad (1=estrecho, 2=espacioso).

Factor 2: Precio (1=225 e, 2=800 e).

Factor 3: Duración (1=2 horas, 2=5 horas).

Se introduce el “nombre del factor” y opcionalmente una “etiqueta” en el menú de la Figura 6.1. A
continuación se pulsa “Añadir”.

Figura 6.2: Introducir factores en Generar diseño ortogonal

Sergio Martı́nez Puertas, Isabel Marı́a Ortiz Rodrı́guez 59


ANÁLISIS ESTADÍSTICO DE DATOS

Para definir los valores para cada factor, se selecciona el factor en Figura 6.2 y al pulsar “Definir
valores” habrá que rellenar el menú de (Figura 6.3).

Figura 6.3: Menú Generar diseño: Definir los valores de los factores

Introducimos los 3 factores y sus diferentes niveles. Tedremos el menú relleno como aparece en la
Figura 6.4.

Figura 6.4: Menú Generar diseño ortogonal, con los factores incluidos

La opción “Archivo de datos” permite controlar el destino del diseño ortogonal. Se puede guardar el
diseño en un nuevo conjunto de datos en la sesión actual o en un archivo de datos externo.

Guardaremos el diseño generado en el fichero planVuelos.sav.

Sergio Martı́nez Puertas, Isabel Marı́a Ortiz Rodrı́guez 60


ANÁLISIS ESTADÍSTICO DE DATOS

La opción “Restablecer semilla de aleatorizacion” de la Figura 6.1 restablece la semilla de aleatorizacion


al valor especı́fico. La semilla puede ser un valor entero comprendido entre 0 y 2.000.000.000. En una
sesión, se utiliza una semilla distinta cada vez que se genera un conjunto de números aleatorios, lo que
da lugar a diferentes resultados. Si se desea duplicar los mismos números aleatorios, se debe establecer
el valor de la semilla antes de generar el primer diseño y restablecer la semilla al mismo valor cada
vez que se genere el diseño.

Por último, se puede pulsar en “Opciones” para especificar el mı́nimo número de casos del diseño
ortogonal. Si no se especifica este mı́nimo, el programa generará el número de casos mı́nimo necesario.
También pueden definirse casos reservados que serán evaluados por los sujetos pero no se analizarán
para calcular las utilidades, servirán para comprobar los resultados (Figura 6.5).

Figura 6.5: Menú Generar diseño ortogonal: Opciones

En la vista de datos abrimos el fichero planVuelos.sav y tendremos la tabla de la Figura 6.6. Cada vez
que se genere el diseño se obtendrá una tabla distinta si no fijamos la semilla de aleatorización.

Figura 6.6: Tabla con los perfiles a analizar (fichero planVuelos.sav)

Sergio Martı́nez Puertas, Isabel Marı́a Ortiz Rodrı́guez 61


ANÁLISIS ESTADÍSTICO DE DATOS

6.5. Paso 2: Presentación de un diseño

El procedimiento Datos/Diseño ortogonal/Mostrar... permite imprimir un diseño experimental


(Figura 6.7).

Figura 6.7: Menú Mostrar el diseño ortogonal

Se puede imprimir el diseño en un formato de lista de borrador (Figura 6.8) o como perfiles a mo-
do de tarjetas (Figura 6.9) que se pueden presentar a los sujetos del estudio para que nos den sus
preferencias. Este procedimiento puede mostrar diseños creados con el procedimiento Generar diseño
ortogonal o cualquier diseño mostrado en un conjunto de datos activo. Se pueden incluir tı́tulos para
los encabezados y pies de los perfiles.

Figura 6.8: Lista de perfiles que formarán las tarjetas

Sergio Martı́nez Puertas, Isabel Marı́a Ortiz Rodrı́guez 62


ANÁLISIS ESTADÍSTICO DE DATOS

Figura 6.9: Tarjetas con los perfiles

6.6. Paso 3: Fichero de los datos

Las preferencias de cada encuestado (datos para el análisis) pueden registrarse de tres formas: SE-
QUENCE, RANK o SCORE.

SEQUENCE: Se pide al encuestado que ordene los perfiles del más preferido al menos preferido.
Los datos se registran en el fichero secuencialmente de manera que cada punto de datos del
archivo de datos es un número de perfil, comenzando por el perfil más preferido y terminando
por el perfil menos preferido.
En el fichero de datos tendremos una fila por encuestado. La primera columna “PREF1” con-
tendrá el número del perfil más preferido por el encuestado, en la segunda columna “PREF2”
se introduce el segundo perfil más preferido ası́ hasta la última columna que tiene el perfil que
menos gusta. Si hay n perfiles, la última columna será la “PREFn”.

RANK: Se solicita al encuestado que asigne un rango a cada perfil, es decir un valor entre 1 y
n, donde n es el número de perfiles.
En el fichero de datos tendremos una fila por encuestado. Las columnas del fichero de datos se
denotan por “RANK1”, “RANK2”, . . ., “RANKn”. Para un individuo se registra en la columna
“RANK1” el rango que ha asignado al perfil 1, en la segunda columna “RANK2” el rango que
ha asignado al perfil 2, y ası́ sucesivamente hasta el rango del último perfil.

SCORE: Se pide a los sujetos que asignen un número a cada perfil, por ejemplo un valor entre
1 y 100. Una puntuación mayor implica una preferencia mayor.

Sergio Martı́nez Puertas, Isabel Marı́a Ortiz Rodrı́guez 63


ANÁLISIS ESTADÍSTICO DE DATOS

En el fichero de datos tendremos una fila por encuestado. Las columnas del fichero de datos
se denotan por “SCORE1”, “SCORE2”, . . ., “SCOREn”. Para un individuo se registra en la
columna “SCORE1” la puntuación que asigna al perfil 1, en la segunda columna “SCORE2” la
puntuación que asigna al perfil 2, y ası́ sucesivamente hasta la puntuación del último perfil.

Siguiendo con el ejemplo, se le pregunta a 1 cliente por sus preferencias respecto a los vuelos. Si usamos
el método RANK, tiene asignar un rango a cada perfil, es decir un valor desde 1 a 8, el valor 1 se
asignará al más preferido. Estas son sus respuestas:

Figura 6.10: Preferencias de 1 cliente

Si nos fijamos en las preferencias de este cliente, vemos que el valor 1 se ha asignado a RANK2, es
decir, el perfil número 2 es el más preferido y corresponde a un asiento espacioso, viaje barato y corto.
Al que menos le gusta le ha asignado un valor 8 y es RANK7, por tanto el perfil número 7 es el menos
preferido y corresponde a un viaje en asiento estrecho, caro y largo.

Estos datos se guardan en el fichero de datos datosVuelos.sav.

Por el momento hemos creado dos ficheros planVuelos.sav (con los perfiles) y datosVuelos.sav con las
preferencias de los clientes. Nos falta un tercer fichero que aparecerá en la próxima sección.

Sergio Martı́nez Puertas, Isabel Marı́a Ortiz Rodrı́guez 64


ANÁLISIS ESTADÍSTICO DE DATOS

6.7. Paso 4: Análisis de los datos

Para realizar un Análisis Conjunto hay que utilizar el comando CONJOINT en una ventana de
sintaxis (no hay ningún procedimiento en el menú de SPSS para hacer este análisis). Se siguen los
siguientes pasos:

1. Se necesitan dos ficheros: el del diseño que denotaremos por “planVuelos.sav” y el de los datos
recogidos “datosVuelos.sav”.

2. También hay que saber la forma en la que se han registrado los datos: SEQUENCE, RANK o
SCORE. Supongamos que hemos usado RANK y que hay n = 8 perfiles.

3. Elegir en los menús: Archivo/Nuevo/Sintaxis...

4. Escribir las órdenes en la ventana de sintaxis (Figura 6.11).

Figura 6.11: Órdenes en la ventana de sintaxis para realizar un Análisis Conjunto

5. Resaltar el comando en la ventana de sintaxis y pulsar en el botón “Ejecutar” (el triángulo verde
que apunta hacia la derecha en la barra de herramientas del Editor de sintaxis).

6. En la primera columna del fichero de datos podemos tener la identificación del encuestado, si
denotamos por “Cliente” a esta columna, en la sintaxis tendremos que añadir una lı́nea adicional
con esta información: /SUBJECT=Cliente.

Sergio Martı́nez Puertas, Isabel Marı́a Ortiz Rodrı́guez 65


ANÁLISIS ESTADÍSTICO DE DATOS

Para el ejemplo uno de los resultados que se obtiene es la tabla de utilidades (Figura 6.12) y las
gráficas de cada factor (Figura 6.13). Mayores valores de utilidad indican una mayor preferencia. Por
tanto, a partir de los datos del cliente se obtiene que se prefieren los vuelos con asientos espaciosos,
baratos y cortos, con una utilidad de 0.25 + 2 + 1 + 4.5 = 7.75. También podemos calcular la utilidad
de cualquier otro perfil, por ejemplo, la utilidad del perfil (asientos espaciosos, caro y vuelo corto)
serı́a: 0.25 − 2 + 1 + 4.5 = 3.75.

Figura 6.12: Tabla de utilidades

, ,

Figura 6.13: Utilidad de cada nivel de los factores

También se obtienen gráficos como el de importancia (Figura 6.14) que nos muestra la importancia
relativa de cada factor. Vemos que lo que más valoran los clientes es el precio.

Figura 6.14: Gráfico de Importancias

Sergio Martı́nez Puertas, Isabel Marı́a Ortiz Rodrı́guez 66


ANÁLISIS ESTADÍSTICO DE DATOS

6.8. Ejemplo 6.1 con R

Una compañı́a aérea está interesada en determinar la importancia relativa de los factores “tamaño
del asiento”, “precio” y “duración del vuelo”, en su oferta a nuevos clientes.

En el Listado 15 tenemos las órdenes del análisis (fichero Tema6analisisConjunto.R).


1 # C a r a c t e r i s t i c a s d e l producto ( f a c t o r e s ) y n i v e l e s
2 C a r a c t e r i s t i c a s <− c ( ”Comodidad” , ” P r e c i o ” , ” Duracion ” )
3 N i v e l e s <− l i s t ( )
4 N i v e l e s [ [ 1 ] ] <− c ( ” e s t r e c h o ” , ” e s p a c i o s o ” )
5 N i v e l e s [ [ 2 ] ] <− c ( ” 225 e u r o s ” , ” 800 e u r o s ” )
6 N i v e l e s [ [ 3 ] ] <− c ( ” 2 h o r a s ” , ” 5 h o r a s ” )
7 Niveles
8 # Todos l o s p e r f i l e s p o s i b l e s
9 p e r f i l e s <− expand . g r i d ( Comodidad=N i v e l e s [ [ 1 ] ] , P r e c i o=N i v e l e s [ [ 2 ] ] , Duracion=N i v e l e s
[[3]])
10 perfiles
11 # Cargar e l p aq ue te c o n j o i n t
12 i n s t a l l . packages ( ” c o n j o i n t ” )
13 library ( conjoint )
14 # Datos : Se p r e g u n t a a 1 c l i e n t e s u s p r e f e r e n c i a s
15 # Se r e g i s t r a n de t i p o SCORE ( dando v a l o r e s mas a l t o s a l a s mas p r e f e r i d a s ) o de t i p o
RANK ( a s i g n a n d o un rango a cada p e r f i l , e l rango 1 s e r i a para e l mas p r e f e r i d o )
16 # Usamos RANK en e s t e e j e m p l o
17 CLIENTE1 <− c ( 2 , 1 , 6 , 5 , 3 , 4 , 8 , 7 )
18 r e s p u e s t a s <− data . frame (CLIENTE1)
19 respuestas
20 # A n a l i s i s c o n j u n t o con orden c o n j o i n t ( y , x , z , y . type )
21 # y=r e s p u e s t a s de l o s c l i e n t e s
22 # x=c o n j u n t o de p e r f i l e s s e l e c c i o n a d o s
23 # z=nombre de l o s n i v e l e s de cada f a c t o r
24 # y . t ype=forma de r e g i s t r o de l a s p r e f e r e n c i a s : ” s c o r e ” ( por d e f e c t o ) y ” rank ”
25 C o n j o i n t ( r e s p u e s t a s , p e r f i l e s , u n l i s t ( N i v e l e s ) , y . type=” rank ” )
Listado 6.1: Análisis de Correspondencias

En las Figuras 6.15 y 6.16 tenemos los gráficos de las importancias de cada nivel de los factores y
el de la importancia de cada factor.

Sergio Martı́nez Puertas, Isabel Marı́a Ortiz Rodrı́guez 67


ANÁLISIS ESTADÍSTICO DE DATOS

Figura 6.15: Resultados del Ejemplo 6.1

Figura 6.16: Importancia de cada factor del Ejemplo 6.1

Sergio Martı́nez Puertas, Isabel Marı́a Ortiz Rodrı́guez 68


ANÁLISIS ESTADÍSTICO DE DATOS

6.9. Ejercicios Propuestos de Análisis Conjunto

1. Se ha realizado un Análisis Conjunto para conocer las preferencias de un grupo de estudiantes


por el diseño de un lápiz. A partir de los resultados que se muestran a continuación, indicar: el
número de perfiles seleccionados, el método de registro de los datos, el lápiz que menos gusta a
los estudiante y su utilidad, y la caracterı́stica que más valoran.

2. Para el ejemplo de alfombras que se explica en el fichero “EjemploAlfombras.pdf”:

a) Generar el diseño (aparece en el fichero “carpet.sav”).


b) Abrir el fichero de datos “carpet prefs.sav”.
c) Analizar los datos con el fichero de sintaxis “conjoint.sps” (cuidado en poner bien los di-
rectorios donde están situados los ficheros).

Sergio Martı́nez Puertas, Isabel Marı́a Ortiz Rodrı́guez 69


ANÁLISIS ESTADÍSTICO DE DATOS

3. Se trata de estudiar las preferencias de los alumnos sobre un curso:

DURACION (duración del curso en horas): 1=“< 30”, 2=“30 o más horas”
HORASDIA (horas diarias): 1=“Menos de 5 horas”, 2=“5 horas o más”
PRACTICAS (incluir prácticas): 0=“No”, 1=“Sı́”

Generar un diseño, introducir unos datos de preferencias de 4 alumnos con el método SCORE y
realizar el análisis conjunto.

Resultados:

1. 8 perfiles. Método SEQUENCE. El lápiz que menos gusta es redondo, blanco, blando y con goma, su
utilidad es −0.162 − 0.255 − 0.074 − 0.059 + 4.593 = 4.043. Lo que más valoran es el color del lápiz.

Sergio Martı́nez Puertas, Isabel Marı́a Ortiz Rodrı́guez 70

También podría gustarte