Está en la página 1de 10

ANALISIS DE COMPONENTES PRINCIPALES (ACP)

CONCEPTOS PREVIOS

● El método de componentes principales tiene por objeto transformar un conjunto de variables, a


las que denominaremos VARIABLES ORIGINALES, en un nuevo conjunto de variables a las que
denominaremos COMPONENTES PRINCIPALES. Estas últimas se caracterizan por estar
INCORRELACIONADAS entre sí.

● En muchos casos el investigador se enfrenta a una situación, en la que para analizar un


fenómeno dispone de INFORMACIÓN RELATIVA A UN GRAN NÚMERO DE VARIABLES que están
CORRELACIONADAS entre sí , en mayor o menor grado. Estas correlaciones son como un “velo”
que impide evaluar adecuadamente el papel que juega cada variable en el fenómeno estudiado.

● El análisis de componentes principales permite obtener un nuevo conjunto de variables,


las COMPONENTES PRINCIPALES, que están INCORRELACIONADAS entre sí y que además pueden
ordenarse según la información que llevan incorporada.

● Como MEDIDA DE LA INFORMACIÓN de una COMPONENTE se utiliza su VARIANZA. Es decir que


cuanto mayor sea la varianza de una componente, mayor será la información que dicha
componente recoge. Por esta razón, se selecciona como primera componente aquella que tenga
mayor varianza.

● En general, la EXTRACCIÓN DE LAS COMPONENTES PRINCIPALES se realiza sobre las VARIABLES


TIPIFICADAS para evitar problemas de escala.

● Si las p VARIABLES ORIGINALES ESTÁN TIPIFICADAS, LA SUMA DE SUS VARIANZAS SERÁ IGUAL A P ,
ya que la varianza de una variable tipificada es por definición igual a 1.

● Es importante destacar que EL NÚMERO INICIAL DE COMPONENTES PRINCIPALES ES IGUAL AL


NÚMERO DE VARIABLES ORIGINALES, siendo la suma de sus varianzas igual a la suma de las
varianzas de las variables originales.

● Conviene insistir, no obstante, en que la DIFERENCIA ESENCIAL entre las VARIABLES ORIGINALES
y las COMPONENTES PRINCIPALES, es que estas últimas están INCORRELACIONADAS entre sí. En
el caso de que las variables originales estuvieran muy poco correlacionadas, carecería de
sentido la utilización de la técnica de componentes principales.

● En el caso de que las VARIABLES ORIGINALES estuvieran muy CORRELACIONADAS, la mayor


parte de su variabilidad se puede explicar con muy pocas COMPONENTES PRINCIPALES.

● Es importante destacar que las COMPONENTES PRINCIPALES se expresan como una


COMBINACIÓN LINEAL de las VARIABLES ORIGINALES.

● Desde un punto de vista de su aplicación, las COMPONENTES PRINCIPALES pueden interpretarse


como un MÉTODO DE REDUCCIÓN, es decir como un método que permite reducir el número de
variables que inicialmente se han considerado en el análisis.

● Entenderemos por COMUNALIDAD la parte de la varianza poblacional de una variable Xi


debida a factores comunes, frente a ESPECIFICIDAD, que será la parte de dicha varianza debida a
factores específicos.

Los PASOS para la obtención de las COMPONENTES PRINCIPALES, en el caso de dos variables
son:

1. Se obtiene la MATRIZ DE VARIANZAS-COVARIANZAS de las variables originales, que, dado que


dichas variables están tipificadas coincidirá con la MATRIZ DE CORRELACIONES.

2. La primera componente principal, se obtiene maximizando su varianza, sujeta a determinadas


restricciones, por ello, la primera componente tendrá una varianza mayor que la de cualquier
variable original.

• Si las variables están tipificadas, la varianza de la primera componente será mayor que 1.

3. Se calculan los autovalores de la matriz de varianzas-covarianzas o de la matriz de


correlaciones, si los datos están tipificados, así como los autovectores asociados a dichos
autovalores.

• La VARIANZA de cada COMPONENTE es igual al AUTOVALOR asociado a ella.

• En el caso de sólo 2 componentes, la varianza de la primera componente principal, es igual


a la varianza de una de las variables, más el coeficiente de correlación entre ambas variables.

• La varianza de la 2ª componente será el resto hasta 2.

4. Si existen sólo 2 variables originales habrá dos autovalores y dos autovectores asociados:

• Los autovectores deben colocarse en columna.

• Por otra parte, dichos autovectores deben cumplir la condición:

• Cuando las variables están tipificadas, los autovectores que se obtienen, independientemente
del valor que tengan los autovalores son siempre:

• Los AUTOVECTORES de una MATRIZ SIMÉTRICA son siempre ORTOGONALES (Perpendiculares)

• Las componentes de los autovectores u1 y u2 son los coeficientes que deben aplicarse a cada
una de las variables originales, para obtener las componentes principales. Es decir:
5. En el análisis de componentes principales es importante conocer la correlación de cada variable
original, con cada una de las componentes principales.

• El COEFICIENTE DE CORRELACIÓN rhj entre la componente principal h-ésima y la variable original j-


ésima viene dado por:

• A estos COEFICIENTES DE CORRELACIÓN se les llama “CARGAS FACTORIALES”.

• A la matriz formada por las cargas factoriales se le denomina “MATRIZ FACTORIAL” o en el SPSS
“MATRIZ DE COMPONENTES”.

• Una vez calculados los autovectores, es posible obtener los valores o PUNTUACIONES DE CADA
COMPONENTE PRINCIPAL PARA LAS DISTINTAS OBSERVACIONES DE LAS VARIABLES ORIGINALES .

• En el programa SPSS, estas puntuaciones o SCORES, que son los valores de una componente
para cada observación de las variables originales, aparecen en forma tipificada.

• Para tipificar una componente, basta dividir dicha componente por la raíz cuadrada de su
autovalor asociado.

• Recuerde que la VARIANZA de una COMPONENTE es su AUTOVALOR, de ahí que la desviación


típica de una componente sea la raíz cuadrada de dicho autovalor.

Es decir:

Por tanto el COEFICIENTE DE PONDERACIÓN DE LA VARIABLE J EN LA COMPONENTE H viene dado


por:

• A la matriz formada por estos coeficientes se le llama en SPSS como:

”MATRIZ DE COEFICIENTES PARA EL CÁLCULO DE LAS PUNTUACIONES DE LOS FACTORES”.

►NOTA IMPORTANTE
Si las variables iniciales están tipificadas, la proporción de la variabilidad total de las variables
originales captada por una componente, viene dada por el autovalor asociado a dicha
componente dividida por el número de variables originales.

CONCEPTOS CLAVE

● Las COMPONENTES PRINCIPALES son COMBINACIONES LINEALES de las VARIABLES ORIGINALES.

● Los COEFICIENTES de dichas combinaciones lineales son las COMPONENTES de los


AUTOVECTORES asociados a los AUTOVALORES obtenidos de la matriz de varianzas-covarianzas.

● La PRIMERA COMPONENTE PRINCIPAL está asociada al MAYOR AUTOVALOR de dicha matriz.

● La VARIANZA de cada componente es igual a su AUTOVALOR asociado.

● En el caso de que las variables estén tipificadas la proporción de la variabilidad total de las
variables originales captada por una componente es igual al autovalor correspondiente a
dicha componente dividido por el número de variables originales.

● La CORRELACIÓN entre una COMPONENTE y una VARIABLE ORIGINAL se determina multiplicando


la raíz del autovalor por la componente del autovector asociado, si las variables están tipificadas.

►GENERALIZACIÓN AL CASO DE MÁS DE DOS VARIABLES ORIGINALES

• Supongamos que disponemos de “p” VARIABLES ORIGINALES:

Consideremos además que disponemos de una muestra de tamaño “n”.

Supongamos por último que las variables originales están tipificadas.

• La primera componente principal, al igual que las demás, se expresa como combinación lineal de
las variables originales, es decir:

• Para el conjunto de las “n” observaciones muestrales la ecuación anterior, correspondiente a la


primera componente, se puede expresar matricialmente en la forma:
Abreviadamente puede escribirse en la forma:

• Si las VARIABLES ORIGINALES están TIPIFICADAS, coincide la MATRIZ DE VARIANZAS-COVARIANZAS,


con la MATRIZ DE CORRELACIONES de dichas variables.

• El AUTOVECTOR asociado al MAYOR AUTOVALOR de la MATRIZ DE VARIANZAS-COVARIANZAS, nos


proporciona las PONDERACIONES que se aplican a las VARIABLES ORIGINALES para obtener la
PRIMERA COMPONENTE PRINCIPAL.

• Una COMPONENTE PRINCIPAL genérica expresada en FORMA MATRICIAL sería:

• Todos los autovectores uh deben cumplir que la suma de los cuadrados de sus componentes
valga 1. Habitualmente se dice que los AUTOVECTORES están NORMALIZADOS.

• Todos los AUTOVECTORES deben ser ORTOGONALES entre sí, por tanto su producto escalar debe
ser cero.

Es esencial tener en cuenta que:

● VARIANZA DE LA COMPONENTE PRINCIPAL H-ÉSIMA:

● TRAZA DE LA MATRIZ DE VARIANZAS-COVARIANZAS (V)

● PROPORCIÓN DE LA COMPONENTE PRINCIPAL H-ÉSIMA EN LA VARIABILIDAD TOTAL:


►Nota

• La matriz de varianzas covarianzas coincide con la matriz de correlaciones, si las variables están
tipificadas. En tal caso:

Y tendremos:

● PROPORCIÓN DE LA COMPONENTE PRINCIPAL H-ÉSIMA EN LA VARIABILIDAD TOTAL (CON VARIABLES


TIPIFICADAS)

● CORRELACIÓN ENTRE LA VARIABLE ORIGINAL XJ Y LA COMPONENTE PRINCIPAL ZH

● CORRELACIÓN ENTRE LA VARIABLE ORIGINAL XJ TIPIFICADA Y LA COMPONENTE PRINCIPAL ZH


►NOTA:

La “MATRIZ FACTORIAL” que ofrece el programa SPSS está formada por dichos coeficientes de
correlación.

►PUNTUACIONES SIN TIPIFICAR Y TIPIFICADAS

• Una vez calculados los coeficientes uhj podemos obtener las puntuaciones , es decir los
VALORES de las COMPONENTES PRINCIPALES correspondientes a cada observación de las
VARIABLES ORIGINALES, mediante la siguiente relación:

• Si deseamos obtener las PUNTUACIONES TIPIFICADAS, basta dividir la componente por la raíz de
su autovalor, es decir:

• SPSS proporciona las PUNTUACIONES TIPIFICADAS y la matriz formada por dichas puntuaciones
tipificadas recibe el nombre de: “MATRIZ DE COEFICIENTES PARA EL CÁLCULO DE LAS
PUNTUACIONES DE LAS COMPONENTES”

►CÁLCULO DEL NÚMERO DE COMPONENTES PRINCIPALES A RETENER

Recuérdese que inicialmente tenemos tantas componentes principales como variables originales,
pero de la totalidad de dichas componentes, ¿Cuántas de ellas hemos de retener?

Consideraremos los siguientes criterios para determinar el número de componentes principales a


retener:

● Criterio de la MEDIA ARITMÉTICA

● Criterio del CONTRASTE DE AUTOVALORES NO RETENIDOS

● Criterio basado en el “GRÁFICO DE SEDIMENTACIÓN”

● CRITERIO DE LA MEDIA ARITMÉTICA


Se retienen aquellas componentes principales cuyo autovalor excede de la media de los
autovalores, es decir aquellas en las que:

► Nota

En el caso de que las VARIABLES estén TIPIFICADAS la media de los autovalores vale 1, por lo
que se retendrán aquellas componentes en las que su AUTOVALOR sea MAYOR de 1.

● CONTRASTE SOBRE LOS AUTOVALORES NO RETENIDOS

Si hemos retenido “m” componentes principales y consecuentemente disponemos de “m”


autovalores, debemos contrastar la hipótesis nula de que los restantes “p-m” autovalores son 0.

Es decir:

El contraste de esta hipótesis nula se realiza mediante un contraste derivado del “CONTRASTE
DE ESFERICIDAD DE BARLETT”, proporcionado por el propio programa SPSS.

Si se rechaza la hipótesis nula, significa que existe algún autovalor de los no retenidos, que sí
es significativamente distinto de 0.

En tal caso, la decisión correcta sería retener una componente más y aplicar de nuevo el
contraste hasta que realmente todos los autovalores no retenidos sean no significativos.

El ESTADÍSTICO DEL CONTRASTE es:

● GRÁFICO DE SEDIMENTACIÓN

El gráfico de sedimentación se obtiene representando en ordenadas los AUTOVALORES y en


abcisas el número de la COMPONENTE PRINCIPAL, en orden decreciente.
Uniendo todos los puntos se obtiene una figura semejante al perfil de una montaña, con una
fuerte pendiente hasta llegar a la base, formada por una meseta con una leve inclinación. Es en
esta meseta donde “SEDIMENTAN “todas las piedras que caen por la falda de la montaña, de ahí
que se le llame gráfico de sedimentación.

►SE RETENDRÁN TODAS AQUELLAS COMPONENTES PREVIAS A LA MESETA DE SEDIMENTACIÓN .

►RETENCIÓN DE VARIABLES

• Dado que hemos retenido un nº dado de componentes, ¿Qué debemos hacer si alguna de las
variables originales está débilmente correlacionada con todas las componentes retenidas?

• En tal caso, debe eliminarse dicha variable del conjunto de variables originales, dado que no
estaría representada por las componentes retenidas.

• En el caso de que dicha variable fuese muy relevante en el estudio a realizar, no deberíamos
eliminarla, sino retener componentes adicionales, caso de que alguna de ellas estuviese
correlacionada de forma importante con la variable a eliminar.
GERONIMO FORTEZA

También podría gustarte