Está en la página 1de 19

Anlisis de Componentes

Principales

Mtodos Estadsticos en Ordenador


Grado en Relaciones Laborales y Recursos Humanos

Introduccin: ACP y AF
ANLISIS MULTIVARIANTE

Sintetizar grandes cantidades de datos


Eliminar informacin redundante
Conservar mxima informacin
Descubrir factores subyacentes en los datos
REDUCCIN DE DATOS

Anlisis de Componentes
Principales (ACP)

Representar un conjunto de
variables observadas mediante
un nmero pequeo de nuevas
variables construidas como
combinaciones lineales de las
originales, denominadas
componentes principales.
Pearson (1901)
Hottelling (1933)

Anlisis FACTORIAL (AF)

Descubrir las relaciones


existentes entre diversas
variables y expresarlas en
trminos de unas pocas variables
aleatorias subyacentes y no
observables, llamadas factores.

Pearson (1901)
Spearman (1904)

ACP como caso particular de AF


Objetivo:
En trminos generales el anlisis de componentes principales busca
unas pocas combinaciones lineales de las variables, a las que se
denominan componentes principales, que permitan resumir los datos,
procurando que en el proceso se pierda la menos informacin posible.

Caractersticas deseables:
REDUCCIN DE LA DIMENSIONALIDAD. Se pretende que el
nmero de componentes principales sea menor que el de variables
originales.
ORTOGONALIDAD.
independientes.

Es

decir,

que

sean

estadsticamente

SIGNIFICATIVIDAD. Las nuevas variables, a pesar de estar en un


nmero ms reducido, deben explicar la mayor proporcin posible de la
variabilidad total.
INTERPRETABILIDAD. Las nuevas variables pueden tener una
interpretacin clara (objetivo del AF ms que del ACP)

ACP y AF en la prctica
Campos de aplicacin:
El ACP es una herramienta muy til como un paso previo que permite
la reduccin de la dimensin, y por consiguiente puede simplificar
posteriores anlisis estadsticos al aplicarlos sobre las componentes
principales (por ejemplo para un anlisis de regresin).
Economa, educacin, empresa, poltica, agricultura, antropologa,
arqueologa, biometra, ecologa, geografa, geologa, industria,
lingustica, medicina, metereologa, psicologa, sociologa, veterinaria,
etc..

Tipo de datos:
Variables cuantitativas con medidas de tipo escala.

Ejemplos:
1.

Qu actitudes subyacentes hacen que las personas respondan a


preguntas de una encuesta poltica de la manera que lo hacen? El AF
puede poner al descubierto dichas relaciones y expresarlas en trminos de
unas nuevas cantidades que no eran observables directamente.

2.

Qu factores influyen a la hora de comprar un vehculo? El AF permite


extraer unos pocos factores que representan la relacin observada entre
las respuestas a las distintas preguntas.

Un ejemplo ilustrativo
Qu factores influyen en el individuo a la hora de comprar un vehculo?

Se dise un cuestionario con 10 items (precio, financiacin, consumo,


combustible, prestaciones, modernidad, aerodinmica, seguridad,
confort, capacidad). Se pas el cuestionario a una muestra de clientes.

Se observ que existan relaciones entre las puntuaciones que daban a


los distintos items.

Se intent expresar esas relaciones en trminos de nuevos


factores.

Se descubrieron dos factores:


Factor 1: representando los items precio, financiacin, consumo,
combustible, prestaciones, modernidad, aerodinmica.
Factor 2: representando los items seguridad, confort, capacidad.

Resultado: se gan en interpretabilidad y adems se consigui una


reduccin de la dimensionalidad.

Un ejemplo ilustrativo
Qu factores influyen en el individuo a la hora de comprar un vehculo?

1.0

confort
seguridad
capacidad

Factor 2

.5

financiacin
precio

0.0

prestaciones
modernidad

consumo combustible

aerodinmica
-.5

-1.0
-1.0

-.5

0.0

Factor 1

.5

1.0

Qu resultados vamos a obtener desde SPSS?

Contrastes y medidas para valorar la existencia de interrelaciones entre


las variables (KMO y prueba de esfericidad de Bartlett)

Mtodos para decidir cuntos factores/componentes extraemos:

Regla de Kaiser (mtodo automtico)

Porcentaje de varianza total explicada

Grfico de sedimentacin o scree plot

Una medida del poder explicativo de cada factor/componente:


comunalidad

Una medida de asociacin entre los factores/componentes y cada


una de las variables originales: matriz de factores/componentes

Grfico de las variables en el espacio de factores/componentes

Valores de los factores/componentes en cada individuo: puntuaciones

Ejemplo paso a paso


El problema y los datos: Una empresa especializada en el diseo de
automviles de turismo desea estudiar cules son los deseos del
pblico que compra automviles. Para ello disea una encuesta con 10
preguntas donde se le pide a cada uno de los 20 encuestados que
valores de 1 a 5 si una caracterstica es o no muy importante. Los
encuestados debern contestar con un 5 si la caracterstica es muy
importante, un 4 si es importante, un 3 si tiene regular importancia, un
2 si es poco importante y un 1 si no es nada importante. Las 10
caractersticas a valorar (V1 a V10) son: precio, financiacin, consumo,
combustible, seguridad, confort, capacidad, prestaciones, modernidad
y aerodinmica.
El fichero coches_AF.sav recoge los datos. Realizar un anlisis
factorial (mtodo de componentes principales) que permita extraer un
nmero reducido de factores que resuman correctamente la
informacin que contienen los datos. Interpretar en la medida de lo
posible dichos factores.
OBJETIVO: Descubrir las relaciones existentes entre las 10
variables y expresarlas en trminos de un reducido nmero de
factores (componentes principales).

Realizamos un estudio de anlisis factorial con las diez


variables por el mtodo de la componentes principales
Analizar / Reduccin de dimensiones / Factor

En este caso, dado que


todas las variables
estn medidas en las
mismas unidades, no
es necesario tipificar las
variables previamente

Analizamos la medida KMO y el test de esfericidad de Bartlett


para comprobar la utilidad y adecuacin del AF (ACP)

La medida KMO evala si las correlaciones entre las variables son altas.
Vara entre 0 y 1 y cuanto ms cerca est de 1 ms adecuado ser el AF.
-Si KMO es mayor o igual que 0.9 las correlaciones son muy altas
-Si KMO est entre 0.8 y 0.9 son notables
-Si KMO est entre 0.7 y 0.8 son medianas
El test de Bartlett contrasta la hiptesis nula no tiene sentido aplicar el
AF. Un p-valor (sig.) inferior al 5% conducira a rechazar dicha hiptesis
nula al 5%.
Tanto KMO como Bartlett nos llevan a la conclusin de que el AF (ACP)
tiene sentido y que las correlaciones entre las variables son medianas

Decidimos cuntas componentes principales es adecuado


extraer (varianza total explicada)

Por defecto se han considerado 2 componentes principales (factores)


El programa ha considerado como criterio la regla de Kaiser (de forma
automtica elige las componentes con autovalor mayor que 1).
Interpretacin: concluimos el porcentaje de la varianza total que queda
explicado por cada componente y el porcentaje de la varianza total que
queda explicado por las 2 componentes extradas.

Interpretacin de los resultados (porcentaje de varianza explicada


por cada posible componente principal y por las 2 componentes extradas)

% de varianza explicada por cada componente (poder explicativo de las componentes)


Componente 1: 57.011%
Componente 2: 20.692%
Componente 3: 7.205%
Etc.

Porcentaje de la variabilidad total que queda explicada por las dos componentes
extradas: 77.703%

Grfico de sedimentacin o scree plot: complemento grfico


a la tabla de la varianza total explicada

Permite valorar qu nmero de componente principales es adecuado extraer.


Se localiza el nmero de componentes donde la curva empieza a descender
ms lentamente. En este caso estara localizado entre 2 y 3 componentes.

Comprobamos si las variables originales quedan bien


representadas considerando las dos componentes
principales: tabla de comunalidades

La columna Extraccin muestra la proporcin en que cada variable


queda representada por las dos componentes extradas. Sera deseable
que todas la variables quedaran bien representadas.
Podemos observar que Precio queda representada en un 78.1%,
Financiacin en un 85.7% y as sucesivamente. La que menos
representada est es Capacidad, solo en un 52.8% (se podra considerar
extraer 3 componentes en lugar de 2).

Asociamos las variables originales a cada una de las


componentes extradas: matriz y grfico de componentes

En la matriz de componentes cada variable original se asocia con las


componentes extradas (valores correspondientes en la matriz). Por ejemplo
podemos leer que Precio estara altamente asociada a la componente 1 (en
un (0.878)^2*100 % = 77.08%) y levemente con la componente 2 (en un
(0.099)^2*100 % = 0.98%) y as sucesivamente.
La asociacin est menos clara para variables como Seguridad que presenta
niveles de asociacin muy altos en ambas componentes. Algo similar (aunque menos
notable) ocurre con Aerodinmica y Capacidad. Esto tambin se puede observar
en el grfico (estas variables estn cerca de las diagonales).

Rotamos los factores para ver si se simplifica la


estructura (rotacin Varimax)

Probamos con varios tipos de rotacin y vemos si alguno permite corregir el


problema con las variables Seguridad, Aerodinmica y Capacidad.

Analizamos la solucin final y nos preguntamos si las


componentes extradas tienen alguna interpretacin

Se ha extrado dos componentes principales (o factores):


Componente 1 (Economicidad) que englobaba los items precio,
financiacin, consumo, combustible, prestaciones, modernidad,
aerodinmica.
Componente 2 (Utilidad) que englobaba seguridad, confort y capacidad.

Calculamos las puntuaciones factoriales (valores de los


individuos en cada componente)

Ejercicio propuesto
Utilizando el fichero de datos mundo2.sav, realizar un anlisis
de componentes principales con las variables znac_def,
zmortinf, zfertil, zinc_pob, ztasa_na, zurbana, zalfabet, zcaloria,
zlog_pib, zpib_cap, zpoblac y zdensida.
En el anlisis se pueden seguir los pasos realizados en el
ejemplo anterior. Y a partir de los resultados que proporciona
SPSS se pide responder a las siguientes cuestiones:
1.
Cuntas componentes es adecuado extraer? Cul es el
poder explicativo de cada componente extrada?Qu
porcentaje de la varianza total queda explicado por todas
las componentes que se han extrado?
2.
Asociar las variables originales con las componentes
extradas.

También podría gustarte