Está en la página 1de 33

Análisis de Componentes

Principales
Dr. Samuel Pérez
Temario
• Introducción
• ¿Qué es el ACP?
• Donde utilizar
• Cuando usar
• ACP vs AF (Análisis Factorial)
• Pasos para un ACP
• Ejemplo

2
Introducción
En muchas ocasiones, cuando se realiza investigaciones,
se incorpora demasiadas variables, que no todas son
importantes ni aportan para explicar determinados
fenómenos. Es conveniente entonces reducir(asociarlas)
las variables y representarlas a través de unas pocas ‘sub-
variables’ (dimensiones), a esta técnica multivariante se
le conoce como Análisis de Componentes Principales-
ACP.

3
Propósito
El objetivo es identificar a partir de un conjunto
de p variables, otro subconjunto de k variables (k
< p) no directamente observables, denominadas
componentes principales, tal que:
• k sea un número pequeño
• Se pierda la menor cantidad posible de
información
• La solución obtenida sea interpretable.
Las nuevas variables serán combinaciones
lineales de las anteriores y que estén
incorreladas (cov(x,y)=0), y se van construyendo
según el orden de importancia en cuanto a la
variabilidad total que recogen de la muestra.

4
¿Qués es el ACP?
Es una técnica estadística multivariante, que permite
reducir la dimensionalidad de un conjunto de datos
cuantitativos, creando variables nuevas (llamadas
componentes), las cuales son ortogonales entre sí y
capturan la varianza de los datos de Componentes
Principales-ACP.

5
Análisis Componentes Principales vs
Análisis Factorial
Análisis Factorial se utiliza para explorar y
comprender las relaciones subyacentes entre un
conjunto de variables observadas, es decir, busca
entender porque las variables están relacionadas y
como se agrupan en variables subyacentes
El Análisis de Componentes Principales no busca
comprender la relaciones subyacentes entre
variables originales, ni tiene en cuenta las
interpretaciones de los factores resultante, sólo
toma un conjunto de variables correlacionadas y
las transforma en un conjunto más pequeño,
denominado componentes principales.

6
Cuando usar ACP
• Se tenga muchas variables.
• Exista altas correlaciones entre variables
• Se desea conocer alguna estructura que no
se observa en los datos.

7
Variables y el ACP
Variables continuas
Correlación de Pearson o Spearman

Variables categóricas
• Correlación tetracórica
• Puede considerarse el análisis de
correspondencia

Variables ordinales
Correlación policórica

8
Datos para el ACP

Variables continuas estandarizadas

Matriz de correlaciones

Matriz de varianzas y covarianzas

9
Donde usar ACP

• No se distinguen entre variables independientes y


dependientes.
• Se desea una visualización de datos de alta
dimensionalidad en una, dos o tres dimensiones
• Preprocesamiento para otros análisis, como:
Clustering, Regresión, Clasificación.

10
Pasos del ACP
Se debe realizar:
• Estandarización de los datos
• Análisis de la matriz de correlaciones
• Creación de los Componentes Principales
• Selección de los CP’s

11
Estandarización de los datos
Emplear la estandarización, cuando las unidades
de medida de las diferentes variables son
distintas (peso, talla, ingreso mensual, número
de amigos, etc.)

12
Matriz de correlaciones
Muestra las correlaciones entre las variables cuantitativas,
no interesa la escala de medición, pues previamente los
estandariza. Si la determinante de esta matriz es cerca a
cero(0), es pertinente hacer el ACP.

13
Determinante de la matriz de correlaciones
Se utiliza para evaluar la multicolinealidad entre
las variables, si es cero (0) o cercano es
procedente hacer el ACP, la matriz es singular, lo
que se tendría multicolinealidad entre las
variables.

14
Kaiser‐Meyer‐Olkin (Coeficiente KMO)
Mide la proporción de la varianza común entre
las variables en relación a la varianza total, para
aplicar ACP, el KMO debe ser mayor a 0.6.

15
Prueba de esfericidad de Bartlett
Evalúa si es conveniente aplicar el ACP de las variables
estudiadas. Esta comprobación puede hacerse con:

-[n-1-(2p+5)/6]*ln|R| ~ χ2(p2-p)/2,/2.
La hipótesis nula (Ho) es que la matriz de coeficientes de
correlación no es significativa.
Ho: ρij=0
Si Sig. (p-valor) < 0.05 rechazamos H0 => se puede aplicar
el ACP.

El test de Bartlett tiene otro un gran inconveniente. Tiende a ser


estadísticamente significativo cuando el tamaño muestral crece.
Algunos autores advierten que únicamente se utilice cuando la razón
n/k sea menor que 5.
16
Varianza total explicada
La suma de la columna “Total” debe ser igual al número de
variables, en este caso es 8 (se debe considerar los que son
superiores a 1). El “% de varianza” señala el % de aporte
del componente señalado, en este caso el 1º componente
aporta el 55.579%, el segundo componente aporta
17.312%, entre los 2 aportan 72.891%, mientras que el
aporte de los demás es bajísimo.

17
Comunalidades
En la columna “Extracción-2, se señala el % de
explicación o aporte de la variable al considerar la
cantidad de componentes obtenidas al final, puede ser
1, 2 o más, la variable que tiene el valor más bajo es
candidata a ser retirada, a no ser que se aumente la
cantidad de componentes y hacer un nuevo ACP.

18
Matriz de componentes
Señala cantidad de “componentes” adecuados y dentro de
ellas, si el signo es positivo significa que la mayoría de sus
datos están por encima de su promedio, valores negativos
representa que la mayoría están por debajo del promedio al
considerar el mencionado “componente”. Para mejor
apreciación es recomendable hacer un diagrama de
dispersión con estos componentes. Los puntos cercanos,
significa alta correlación entre esas variables.

19
Grafico de sedimentación
La interpretación es similar a la varianza total
explicada. A mayor pendiente, más aporte, como
muestra la figura.

20
Características de los componentes
Deben ser ortogonales, es decir la correlación es nula (r=0), la
columna “FAC2_1” se obtiene armando un modelo con los
coeficientes de la primera componente, previa estandarización
de la variable original. De forma similar “FAC1_2”

21
Ejemplo
Se tiene las notas de 10 estudiantes (calificación
en base 10 ptos). Los datos son:

22
Usando SPSS

23
Matriz de correlaciones

Las correlaciones más altas que se tienen son:


a) Entre “matemáticas” y “ciencias”
b) Entre “historia” e “ingles”
c) La “Determinante” es cercano a cero, lo que nos
está señalando que existe variables colineales

24
Prueba de KMO y Bartlett

Lo ideal es que KMO > 0.6, ya que este señala lo


adecuado que es la muestra para emplear el ACP.
El valor de “sig” de Bartlett prueba Ho: “la matriz de
correlaciones no son correlacionadas”, sin embargo
este valor es cero (0), entonces rechazamos Ho, lo
que señala que existe correlaciones y podemos
aplicar el ACP. 25
Las Comunalidades
Teniendo en cuenta
los 2 CP’s, cada
curso sería
explicado el %
señalado.
“matemática” sería
explicado en un
92.2%, ….

Los 2 componentes
explican el 90.43% de los
datos 26
Gráfico de sedimentación
De las 7 variables, se extrae sólo 2 componentes,
ya que están por encima de la línea con valor 1, lo
que confirma lo encontrado en la tabla de
comunalidades.

27
Matriz de Componentes
• Al 1° componente están altamente correlacionados
de forma positiva “matemáticas” y “ciencias” y
negativamente “educación física”.
• Al 2° componente están correlacionas “inglés” e
“historia”.

28
Gráfico de Componentes
Muestra como se asocian los cursos.

29
Puntuaciones factoriales
El SPSS añade dos columnas a la base de datos.

30
Gráfico de puntuaciones factoriales
...

31
Diagrama de dispersión de los componentes
Muestra como se asocia y contribuyen cada
unidad en la construcción de los componentes.

32

También podría gustarte