Está en la página 1de 6

Estadstica i Anlisi de Dades (curs 2001-2002) Francesc Carmona

Un ejemplo de ACP paso a paso


Para ilustrar el procedimiento de clculo, partamos de un ejemplo en el que disponemos de la valoracin media que han hecho los encuestados sobre siete marcas de coche, con arreglo a tres caractersticas. En un estudio real hubiramos considerado no slo tres sino diez o veinte caractersticas, ya que el ACP tiene ventajas cuando la dimensin de la tabla que se pretende analizar es muy grande. La siguiente tabla recoge las valoraciones medias que han concedido los encuestados a cada una de las marcas en las tres caractersticas consideradas. As la marca A tiene una calificacin media de 2 en la caracterstica elegante, de 3 en comodidad y 6 en deportivo. Marca A B C D E F Caractersticas Elegancia Comodidad 2 3 3 2 4 5 5 5 8 9 9 7 Deportivo 6 4 4 4 6 7

El objetivo del estudio es poner de relieve los factores que diferencian al mximo las marcas entre s, determinar las marcas que el conjunto de encuestados considera semejantes y conocer las caractersticas causantes de este parecido o las que diferencian. Se trata de obtener un mapa sobre el cual se posicionan las marcas y caractersticas, permitiendo ver las relaciones entre ellas. Antes de aplicar el ACP debe comprobarse si es necesario, es decir, si la correlacin entre las variables analizadas es lo suficientemente grande como para justificar la factorizacin de la matriz de coeficientes de correlacin. Esta comprobacin puede hacerse mediante el test de Bartlett (1950), que parte de la hiptesis nula de que la matriz de coeficientes de correlacin no es significativamente distinta de la matriz identidad. Bartlett calcula un estadstico basado en el valor del determinante de la matriz de coeficientes de correlacin del siguiente modo:
[n 1 (2k + 5) / 6]ln R ~ (2k 2 k ) / 2

en el que k es el nmero de variables de la matriz y n es el tamao de la muestra.


Matriz de correlaciones Elegancia 1,000 ,892 ,585 Comodidad ,892 1,000 ,519 Deportivo ,585 ,519 1,000

Correlacin

Elegancia Comodidad Deportivo

Estadstica i Anlisi de Dades (curs 2001-2002) Francesc Carmona


KMO y prueba de Bartlett Medida de adecuacin muestral de Kaiser-Meyer-Olkin. Prueba de esfericidad de Bartlett Chi-cuadrado aproximado gl Sig. ,632 6,341 3 ,096

El siguiente paso consiste en la obtencin de los valores y vectores propios de la matriz de covarianzas muestral o de la matriz de coeficientes de correlacin que se obtienen a partir de la matriz de datos. La eleccin de una u otra matriz para realizar el ACP es una cuestin controvertida. En este caso vamos a utilizar la matriz de correlaciones.
Varianza total explicada Sumas de las saturaciones al cuadrado de la extraccin % de la varianza Total % acumulado 2,345 78,157 78,157 ,551 18,358 96,515

Componente 1 2 3

Autovalores iniciales % de la varianza Total % acumulado 2,345 78,157 78,157 ,551 18,358 96,515 ,105 3,485 100,000

Mtodo de extraccin: Anlisis de Componentes principales.

La varianza asociada a cada factor viene expresada por su valor propio o raz caracterstica de la matriz de coeficientes de correlacin (en este caso) o de la matriz de covarianzas. Como los factores no son directamente observables, su denominacin es, en cierto modo, subjetiva, aunque se basa en las cargas de los factores con las variables originales. La carga del factor es la correlacin existente entre una variable original y un factor, obtenido por combinacin lineal de las variables originales. La determinacin del nmero de factores a retener es, en parte, arbitraria y queda a juicio del investigador. Un criterio es retener los factores con valor propio superior a 1. En este caso nos inclinamos por retener los dos primeros ya que explican un 96,52% de la varianza y permiten una representacin grfica en dos dimensiones.
Comunalidades Elegancia Comodidad Deportivo Inicial 1,000 1,000 1,000 Extraccin ,944 ,952 ,999

Mtodo de extraccin: Anlisis de Componentes principales.

La comunalidad es un valor que se obtiene en el anlisis factorial, para cada una de las variables originales, sumando los cuadrados de las correlaciones o cargas de los factores retenidos con la variable para la que se calcula y que expresa la proporcin de varianza de la variable extrada o explicada con m factores, donde m es el nmero de factores retenidos. Si m es igual al nmero total de variables la comunalidad ser igual a 1.

Estadstica i Anlisi de Dades (curs 2001-2002) Francesc Carmona

CARGAS DE LOS FACTORES: ELEGANC COMOD DEPORT 0,9476 0,9249 0,7690 0,2150 0,3107 -0,6387 -0,2361 0,2193 0,0272

COMUNALIDAD ----------1,0000 1,0000 1,0000

Grfico de componentes
1,0 deportivo ,5

0,0 elegancia comodidad

Componente 2

-,5

-1,0 -1,0 -,5 0,0 ,5 1,0

Componente 1

a Matriz de componentes

Elegancia Comodidad Deportivo

Componente 1 2 ,948 -,215 ,925 -,311 ,769 ,639

Mtodo de extraccin: Anlisis de componentes principales. a. 2 componentes extrados


Matriz de coeficientes para el clculo de las puntuaciones en las componentes Componente 1 2 ,404 -,390 ,394 -,564 ,328 1,160

Elegancia Comodidad Deportivo

Mtodo de extraccin: Anlisis de componentes principales. Puntuaciones de componentes.

Estadstica i Anlisi de Dades (curs 2001-2002) Francesc Carmona


2,0 A 1,5

REGR factor score 2 for analysis

1
1,0 F ,5

0,0

-,5 C -1,0 -1,5 -1,0 -,5 D 0,0 ,5 1,0

1,5

REGR factor score 1 for analysis

La nube de puntos-individuos est centrada en el origen, puesto que hemos centrado los datos iniciales. No ocurre lo mismo con la nube de variables. Los puntos variables pueden, como en este caso, estar situados todos en el mismo lado, por ejemplo, F1 > 0 . Esto se debe a que las caractersticas estn correlacionadas positivamente, y cuando un individuo (marca) toma valores altos en una caracterstica, tambin los obtiene altos en las otras. Se observa que las coordenadas de los puntos-variables son inferiores en valor absoluto a 1. Ello obedece a que las variables han sido tipificadas, con lo cual su distancia al origen es la unidad, y al proyectarlas sobre los ejes se puede producir una contraccin y acercarse al origen, pero nunca un alejamiento. El factor es una variable artificial que se obtiene como combinacin lineal de las tres caractersticas consideradas. Cada una de las marcas toma un valor en esta variable, su proyeccin. La coordenada de un punto variable sobre el factor es el coeficiente de correlacin de ste (variable artificial) con la variable. As, corr(elegancia, F1 ) = 0,95 , corr(comodidad, F1 ) = 0,92 , corr(deportivo, F1 ) = 0,77 . El factor se interpreta en funcin de las variables ms correlacionadas con l. En consecuencia, este factor combina la elegancia y la comodidad, opone las marcas que toman valores altos en estas caractersticas a aquellas que toman valores bajos. Es un factor que podramos llamar de prestigio. De izquierda a derecha ordena las marcas de menor a mayor prestigio. Se observa en este ejemplo un fenmeno frecuente en el ACP. El primer factor es un factor de tamao o talla. Opone los individuos que toman valores altos en todas las caractersticas correlacionadas positivamente con l, a los que toman valores bajos. El segundo eje est muy correlacionado con la caracterstica deportivo. Opone las marcas que la poseen a las que no. La representacin simultnea de las dos nubes de puntos sobre el plano formado por los dos primeros ejes facilita la interpretacin. En el primer cuadrante F1 > 0 , luego se caracteriza por elegancia y comodidad; adems F2 > 0 , por tanto, se caracteriza por ser deportivo. En consecuencia, la marca F situada en este cuadrante posee las tres caractersticas estudiadas, y en este sentido ser la mejor.

Estadstica i Anlisi de Dades (curs 2001-2002) Francesc Carmona

En el cuarto cuadrante F1 > 0 , la marca situada en l, E, se caracteriza por la elegancia y la comodidad, pero no es deportiva. En el tercer cuadrante se sitan C y D, que son semejantes, pero no se caracterizan por ninguna de estas variables. Toman valores muy bajos para todas las caractersticas consideradas, y son las peores. En el segundo cuadrante se sita la marca A, que si bien no es elegante ni cmoda, s es deportiva F2 > 0 . Con el fin de facilitar la interpretacin del significado de los factores seleccionados se suele llevar a cabo una rotacin de los ejes factoriales. Uno de los mtodos ms corrientes es el varimax, desarrollado por Kaiser (1958), que efecta una rotacin ortogonal de los ejes factoriales. El objetivo de la rotacin varimax es conseguir que la correlacin de cada una de las variables sea lo ms prxima a 1 con slo uno de los factores y prxima a cero con todos los dems.
a Matriz de componentes

Elegancia Comodidad Deportivo

Componente 1 2 ,948 -,215 ,925 -,311 ,769 ,639

Mtodo de extraccin: Anlisis de componentes principales. a. 2 componentes extrados


a Matriz de componentes rotados

Elegancia Comodidad Deportivo

Componente 1 2 ,911 ,339 ,944 ,246 ,294 ,955

Mtodo de extraccin: Anlisis de componentes principales. Mtodo de rotacin: Normalizacin Varimax con Kaiser. a. La rotacin ha convergido en 3 iteraciones.

Matriz de transformacin de las componentes Componente 1 2 1 ,837 -,547 2 ,547 ,837

Mtodo de extraccin: Anlisis de componentes principales. Mtodo de rotacin: Normalizacin Varimax con Kaiser.

Estadstica i Anlisi de Dades (curs 2001-2002) Francesc Carmona

Grfico de componentes en espacio rotado


1,0 deportivo

,5 elegancia comodidad

0,0

Componente 2

-,5

-1,0 -1,0 -,5 0,0 ,5 1,0

Componente 1

Matriz de coeficientes para el clculo de las puntuaciones en las componentes Componente 1 2 ,552 -,106 ,639 -,256 -,360 1,150

Elegancia Comodidad Deportivo

Mtodo de extraccin: Anlisis de componentes principales. Mtodo de rotacin: Normalizacin Varimax con Kaiser. Puntuaciones de componentes.

Comentario ste es un estudio comparativo de las marcas, no evaluativo. Pueden ser todas muy buenas o muy malas, pero el estudio determina nicamente las diferencias entre ellas, no el valor; ste se aprecia estudiando los valores iniciales.
Bibliografa

ABASCAL, ELENA y GRANDE, ILDEFONSO, Mtodos multivariantes para la investigacin comercial, Ariel Economa, Barcelona, 1989. SANTESMASES, MIGUEL, Diseo y anlisis de encuestas en investigacin social y de mercados, Ed. Pirmide, Madrid, 1997.

También podría gustarte