Está en la página 1de 15

Análisis de componentes principales.

Es una técnica multivariada exploratoria que consiste en extraer una


cantidad pequeña de variables latentes que permiten interpretar de manera
más fácil un número grande de variables independientes.

El ACP es una técnica un poco difícil de realizar y de entender,


pero sin duda es una de las más efectivas (por no decir la más efectiva) en
cuanto a la reducción de grandes cantidad de datos, para la interpretación
fácil de cierto fenómeno o proceso que se quiera corroborar, al ser una
técnica altamente robusta estadísticamente no sufre por la falta de
condiciones básicas que otras técnicas si padecen, en todo caso para su
realización solo se debe cumplir:

 Las variables de entrada deben estar por lo menos un poco


correlacionadas
 La escala puede ser cuantitativa o cualitativa siempre y cuando sea
del tipo ordinal.
Para poder entender efectivamente esta técnica que de primera vista
les parecerá complicada, el lector debe dominar ciertas materias:

 Correlación de Pearson
 Regresión múltiple
 Notación Matricial
 Derivadas parciales
 Multiplicadores de Lagrange
 Gerencia optima del proceso (Aplicación apropiada de la técnica
experimental).
.
El ACP se fundamenta es extraer variables nuevas a las que
llamaremos componentes principales a partir de muchas variables
independientes (Variables originales), de la siguiente manera:

CP1 = C1* X1 + C2* X2 +... + Ck * Xk y en notación matricial lo


esquematizaremos así

𝐶𝑃1 𝐶11 𝐶12 … 𝐶𝐾 𝑋1…𝑘


𝐶𝑃2 = 𝐶21 𝐶22 … 𝐶𝐾 ∗ 𝑋2…𝑘
𝐶𝑃3 𝐶31 𝐶32 … 𝐶𝐾 𝑋3…𝑘

Como resultado se obtiene que:

 Las variables latentes son ortogonales


 Cada una explica el mayor porcentaje de la varianza
 Las variables latentes son combinaciones lineales de las originales
 Se reduce la dimensión del problema

El primer CP se obtiene de forma que maximice la varianza, en


general tiene una varianza mayor que cualquier variable original.

1 ′ 1
𝑉𝑎𝑟(𝑌1 ) = 𝑦1 𝑦1 = 𝑣1′ 𝑋 1 𝑋𝑣1 = 𝑣1′ 𝑆 𝑣1
𝑛 𝑛

Donde S es la matriz de covarianza y v es el vector de coeficientes.

Donde v1’.v1 = 1 (Esta restricción se hace para que la maximización


de la varianza tenga solución)

Se puede observar que la incógnita es precisamente v1 (el vector


desconocido que nos da la combinación lineal óptima).
Se trata de buscar el máximo de:

𝐿(𝑣1 ) = 𝑣1′ 𝑆 𝑣1
Con la restricción de:

𝑣1′ 𝑣1 = 1

Introduciendo el multiplicador de Lagrange, se trata de buscar el


máximo de:

𝐿(𝑣1 ) = 𝑣1′ 𝑆 𝑣1 -λ (v’v-1)

Derivando e igualando a cero, para buscar el máximo:

𝜕𝐿(𝑣1 )
= 2𝑆𝑣1 − 2λ𝑣1 = 0
𝜕𝑣1

Entonces se obtienen que:

𝑆𝑣1 = λ𝑣1

Por consiguiente la Var (Xv1) = 𝑣1′ 𝑆𝑣1 = 𝑣1′ λ𝑣1 = λ

El segundo componente principal se calcula de la misma forma, con


la restricción de que sea ortogonal con el primer componente.

1 ′′ 1
𝐶𝑜𝑣(𝑌1 𝑌2 ) = 𝑦2 𝑦1 = 𝑣2′ 𝑋 ′ 𝑋𝑣1 = 𝑣2′ 𝑆𝑣1 = 𝑣2′ λ1 𝑣1 = 0
𝑛 𝑛
Introduciendo el multiplicador de Lagrange, se trata de buscar el
máximo de:

𝐿(𝑣2 ) = 𝑣2′ 𝑆 𝑣2 + 𝑣1′ 𝑆 𝑣1 -λ (𝑣2′ 𝑣2 -1)-λ(𝑣1′ 𝑣1 − 1)

Derivando e igualando a cero, para buscar el máximo del sistema:

𝜕𝐿(𝑣2 )
= 2𝑆𝑣2 − 2λ𝑣2 = 0
𝜕𝑣2
𝜕𝐿(𝑣1 )
= 2𝑆𝑣1 − 2λ𝑣1 = 0
𝜕𝑣1
Lo que significa que:

S𝑣2 = λ𝑣2

Entonces los componentes principales (Y) se pueden expresar como


el producto de una matriz formada por los auto vectores, multiplicada por
el vector x que contiene las variables originales, es decir, es la forma
canonica de la matriz de varianzas y covarianzas o de correlacion, sus
vectores y valores propios están en la diagonal principal, y fuera de ella hay
valores nulos (0)con esto se garantiza la completa ortogonalidad del
sistema y en forma matricial es: Y=Ax entonces Var (y1) = λ1 Var (y2) =
λ2· · ·Var (yk) = λk .Entonces el porcentaje de variabilidad que recoge cada
componente depende del vector X es decir:

∑ Var(Yi) = ∑ λ𝑖 = 𝑇𝑟𝑎𝑧𝑎 (Λ) Ya que la matriz Λ es


ortogonal(diagonal)

Donde Λ es una matriz creada de λk Entonces:

Traza (Λ) = traza (Σ) =ΣVar (xi)


Es decir, la suma de las varianzas de las variables originales y la
suma de las varianzas de las componentes son iguales, entonces de esta
manera se consigue saber el % de variación que recoge cada componente
principal:

∑𝑚𝑖=1 λ
𝑝
∑𝑖=1 𝑉𝑎𝑟(𝑥𝑖 )
Si es se multiplica por 100 tendremos el %.

Entonces la primera componente recogerá el mayor % de la


varianza, el segundo otro % y así sucesivamente, en la práctica se usan
generalmente 2 o 3 componentes que recogen la mayor parte de la
información y el resto quedan descartados.

Una vez obtenidos los CP que resultan de la matriz de correlación o


varianza-covarianza se debe comprobar que las correlaciones entre las
variables son distintas de cero de modo significativo. Se comprueba si el
determinante de la matriz es distinto de uno, es decir, si la matriz de
correlaciones es distinta de la matriz identidad.

La prueba de esfericidad de Bartlett realiza el contraste:

Ho: |R| = 1 vs H1: |R| ≠ 1

Se basa en una prueba que sigue la distribución Chi-cuadrado donde


valores altos llevan a rechazar Ho, así, la prueba de esfericidad de Bartlett
contrasta si la matriz de correlaciones es una matriz identidad, en otras
palabras nos indican si las variables de entrada están correlacionadas
significativamente:

1
𝑋 2 = −(𝑛 − 1) − . (2. 𝑣 + 5). 𝐿𝑔𝑛 |𝑅|(𝑑𝑒𝑡𝑒𝑟𝑚𝑖𝑛𝑎𝑛𝑡𝑒 𝑚𝑎𝑡𝑟𝑖𝑧 𝑑𝑒 𝑐𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖𝑜𝑛)
6
Una vez rechazada la hipótesis nula los CP pueden ser usados como
coeficientes de regresión múltiple para explicar cualquier proceso o
fenómeno que se quiera corroborar.

Para entender mejor esta gran técnica estadística se darán algunos


usos en el área de las ciencias agropecuarias:

 Un avicultor podría mediante análisis de componentes principales


proyectar todas las variables relacionadas con la calidad del huevo,
a fin de determinar la participación de cada variable dentro del
factor respuesta y poder comprender mejor lo que sucede con los
aspectos que intervienen en la calidad del huevo, el avicultor podría
escoger como variables la edad de la gallina, peso, cantidad de
alimento suministrada, tipo de manejo del galpón, estado de salud
del animal, condiciones ambientales del galpón, numero de gallinas
por jaula con el fin de explicar de una manera segura la calidad del
huevo y poder mejorar algunos aspectos de la granja.

 El porcicultor podría mediante el análisis de componentes


principales proyectar las variables relacionadas con el aumento de
peso en 6 meses de los lechones, podría escoger el tipo de alimento
suministrado, la cantidad de alimento suministrado, la cantidad de
lechones por corrales, la salud de los lechones, el tipo de manejo
que se implementa en la piara etc…
 El ganadero podría mediante el análisis de componentes principales
proyectar las variables relacionadas con la producción de leche,
podría escoger la edad de la vaca, peso, cantidad de alimento
suministrada, tipo de alimento suministrado, cantidad de pasto
ofrecida en los potreros, calidad del pasto ofrecida en los potreros,
condiciones agroecológicas, salud del animal, tipo de manejo
utilizado en la finca etc…

Estas técnicas fueron inicialmente desarrolladas por Pearson a


finales del siglo XIX y posteriormente fueron estudiadas por Hotelling en
los años 30 del siglo XX. Sin embargo, hasta la aparición de los
ordenadores no se empezaron a popularizar, con el ejemplo que veremos se
verá su gran utilidad, con lo que el lector interesado pueda aplicarla en el
mejoramiento productivo de las diferentes ramas de la agroindustria.

Ejemplo de aplicación: Se busca interpretar de una manera fácil la


correlación entre las variables que están ligadas a la producción de queso
en 10 fincas del estado Zulia:

 Reproducción
 Producción Láctea por animal
 Tecnología
 Administración
 Infraestructura
 Capital
 Hectáreas
La escala de todas las variables se midió de manera ordinal de la
siguiente manera: 0= Nada, 1=algo, 2=Bastante, 3=Mucho
La matriz de datos es:

Fincas Reproducción Producción Tecnología Administración Infraestructura Capital Hectáreas

1 3 3 1 3 0 3 1
2 1 0 3 0 3 0 3
3 2 2 1 2 1 2 1
4 0 0 0 0 0 0 0
5 0 1 0 0 2 0 1
6 1 0 1 0 2 1 2
7 2 2 1 3 1 2 2
8 1 0 3 0 3 0 3
9 0 1 0 0 2 0 1
10 1 0 0 1 0 0 2

Los resultados arrojados por el SPSS son:


En la matriz de correlación se encuentran todas las posibles
combinaciones entre las variables y su valor P.

KMO y prueba de Bartlett


Medida de adecuación muestral de ,527
Kaiser-Meyer-Olkin.
Prueba de Chi-cuadrado 75,472
esfericidad de aproximado
Bartlett Gl 21
Sig. ,000

Como la prueba de Bartlett= 0 y 0<0.05 se rechaza la hipótesis nula


y concluimos que la matriz de correlación no es igual a 1.

En este cuadro se muestran los 7 componentes principales creados,


donde el primero expresa un % de la varianza del 56.524%, el segundo de
un 32.546 y el tercero de 6.604.
Se puede apreciar que los 2 primeros componentes son los que
explican la mayor cantidad de varianza de las variables independientes por
lo tanto son lo que usaremos en este caso y el resto quedan descartados.

Entre el primer y el segundo componente explican la varianza de las


variables en un 89.073% por lo tanto confirmamos que se pueden crear
coeficientes a partir de ellos.

Matriz de covarianza de los


componentes principales
Componen
te 1 2
1 1,000 ,000
2 ,000 1,000

Se puede apreciar que no hay covarianza entre los componentes 1 y


2 por lo tanto son ortogonales.
Matriz de componentes rotados
Componente
1 2
Reproducción del ,960 ,218
ganado
Producción láctea ,876 -,242
Nivel técnico de la ,155 ,933
finca
Gerencia optima de ,971 -,167
la finca
Infraestructura de -,441 ,763
calidad
Tamaño de la finca -,077 ,923
Capital ,967 -,075

Esta matriz nos indica que el componente 1 está fuertemente


correlacionado con las variables reproducción, producción, administración,
capital y el componente 2 está relacionado más fuertemente con el tamaño
de la finca, infraestructura y tecnología.
Entonces tenemos:

 CP1= Reproducción, Producción, Administración, Capital


 CP2= Tamaño, infraestructura y tecnología
 CP1 Y CP2= Explican un 89.073% de la varianza total.
Tengamos en cuenta que al empezar este ejemplo comenzamos
trabajando con 7 variables pero terminamos con 2, que explican un gran %
en la variación de todas, ya que ninguna de las variables tuvieron una
relación baja, con los componentes principales podemos asumir que todas
las variables están fuertemente relacionadas con los CP.
Una vez realizado el análisis el SPSS muestra valores de las
componentes principales que podemos usar para el análisis de correlación o
regresión con la variable dependiente:

Donde FAC1 y FAC2 son respectivamente los valores de los CP,


una representación más detallada es:
La matriz de correlación entre los CP y las variables independientes
muestra:

Entonces se corrobora nuevamente que:

 CP1= Reproducción, Producción, Administración, Capital


 CP2= Tamaño, infraestructura y tecnología
 CP1 y CP2 son ortogonales.
 CP1 y CP2= Explican un 89.073% de la varianza total.

Entonces se entiende que:

Las variables reproducción, producción, administración y capital


están relacionadas pero son independientes del tamaño de la finca, la
infraestructura y la tecnología, entonces por ejemplo cuando el nivel de
producción láctea baje el tamaño de la finca, infraestructura y la tecnología
no se verán afectadas, de modo contrario la reproducción la administración
y el capital si se verán afectadas, esto se explicara mejor de la siguiente
manera:

Variable respuesta Primer componente Segundo componente


(Producción de principal. principal.
queso)  Reproducción  Tamaño,
Se conoce de  Producción  Infraestructura
antemano que todas  Administración  Tecnología
las variables del  Capital
estudio están
relacionadas con
esta.
Por ejemplo: Si la reproducción baja la producción de leche se verá
afectada, de igual manera la producción de queso (debido a que esta
variable está relacionada con todas las demás), pero la infraestructura no
será afectada de ninguna manera, gracias al ACP el productor sabe que al
fallar la reproducción afectara de manera significativa el capital, la
producción láctea e incluso la forma de administración:

Esta información brindada por el ACP, permite que el productor


pueda tomar decisiones de manera que si una variable es afectada, se
conoce cuales también lo estarán y de esa manera poder tomar previsiones
y no hacer gastos innecesarios, de tal forma que se pueda mantener una
óptima producción de queso.
Nota: El ACP gana protagonismo
cuando se tienen muchas variables
independientes 10, 20 ,30….etc.

También podría gustarte