Está en la página 1de 3

ANALISIS MULTIVARIADO

ANALISIS DE COMPONENTES PRINCIPALES

El anlisis de componentes principales (ACP), es una tcnica


estadstica de vieja data ya que fue propuesta a principios del siglo
pasado por Karl Pearson como parte del anlisis de factores. Sin
embargo la complejidad de los clculos retrasaron su desarrollo hasta
la aparicin de los computadores y su utilizacin en la segunda mitad
del siglo XX. El relativamente reciente florecimiento de los mtodos
basados en componentes principales hace que ellos sean poco
utilizados por una gran cantidad de investigadores no especialistas en
estadstica.
El propsito de estas notas es divulgar la naturaleza del ACP y
mostrar algunas de sus posibles aplicaciones.
Podra decirse que el objetivo principal que persigue el ACP es la
representacin de las medidas numricas de varias variables en un
espacio de pocas dimensiones donde nuestros sentidos puedan
percibir relaciones que de otra manera permaneceran ocultas en
dimensiones superiores. Dicha representacin debe ser tal que al
desechar dimensiones superiores (generalmente de la tercera o
cuarta en adelante) la prdida de informacin sea mnima. Un smil
podra ilustrar la idea: imaginemos una gran lmina rectangular
(objeto de tres dimensiones) de por ejemplo, 3m de larga, 2m de
ancha y 4 cm de espesor. Para efectos prcticos, dicha lmina puede
ser considerara como un objeto plano (de dos dimensiones) de 3m de
largo por 2m de ancho. Al realizar esta reduccin de dimensionalidad
se pierde cierta cantidad de informacin ya que, por ejemplo, puntos
opuestos situados en las dos caras de la lmina aparecern
confundidos en un solo. Se pierden las distancias perpendiculares a
las caras. Sin embargo, la prdida de informacin se ve ampliamente
compensada con la simplificacin realizada, ya que muchas
relaciones, como la vecindad entre puntos, es ms evidente cuando
stos se dibujan sobre un plano que cuando se hace mediante una
figura tridimensional que necesariamente debe ser dibujada en
perspectiva.
Lo anterior, aunque sugiere que el ACP es una tcnica descriptiva, no
niega la posibilidad de que tambin pueda ser utilizado con fines de
inferencia. Por otra parte, las aplicaciones del ACP son numerosas y

ANALISIS MULTIVARIADO

entre ellas podemos citar la clasificacin de individuos, la


comparacin de poblaciones, la estratificacin multivariada, etc.
El anlisis de componentes principales es una tcnica utilizada
para reducir la dimensionalidad de un conjunto de datos.
Intuitivamente la tcnica sirve para hallar las causas de la variabilidad
de un conjunto de datos y ordenarlas por importancia.
Tcnicamente, el ACP busca la proyeccin segn la cual los datos
queden mejor representados en trminos de mnimos cuadrados. El
ACP se emplea sobre todo en anlisis exploratorio de datos y para
construir modelos predictivos. El ACP comporta el clculo de la
descomposicin en autovalores de la matriz de covarianza,
normalmente tras centrar los datos en la media de cada atributo.

El ACP construye una transformacin lineal que escoge un nuevo


sistema de coordenadas para el conjunto original de datos en el cual
la varianza de mayor tamao del conjunto de datos es capturada en
el primer eje (llamado el Primer Componente Principal), la segunda
varianza ms grande es el segundo eje, y as sucesivamente. Para
construir esta transformacin lineal debe construirse primero la
matriz de covarianza o matriz de coeficientes de correlacin. Debido a
la simetra de esta matriz existe una base completa de vectores
propios de la misma. La transformacin que lleva de las antiguas
coordenadas a las coordenadas de la nueva base es precisamente la
transformacin lineal necesaria para reducir la dimensionalidad de
datos. Adems las coordenadas en la nueva base dan la composicin
en factores subyacentes de los datos iniciales.
Una de las ventajas del ACP para reducir la dimensionalidad de un
grupo de datos, es que retiene aquellas caractersticas del conjunto
de datos que contribuyen ms a su varianza, manteniendo un orden
de bajo nivel de los componentes principales e ignorando los de alto
nivel. El objetivo es que esos componentes de bajo orden a veces
contienen el "ms importante" aspecto de esa informacin.
La aplicacin del ACP est limitada por varios supuestos

Asuncin de linealidad: Se asume que los datos observados son


combinacin lineal de una cierta base.

ANALISIS MULTIVARIADO

Importancia estadstica de la media y la covarianza: el ACP


utiliza los vectores propios de la matriz de covarianzas y slo
encuentra las direcciones de ejes en el espacio de variables
considerando que los datos se distribuyen de manera gaussina.

Conclusiones
1. El ACP es una tcnica que transforma ciertas variables en otras
incorrelacionadas, de media cero, que pueden escribirse como
combinaciones lineales de las primeras y que se llaman factores
o componentes principales, las cuales pueden ordenarse por la
magnitud de su varianza la cual est dada por un valor propio
de la matriz (en la prctica de )
2. Las primeras r componentes principales bastan para describir
en alto porcentaje la variabilidad total de las variables
originales. Con frecuencia r vale 2 o 3, siendo el primero de
ellos el caso ms deseable.
3. Cuando el porcentaje de variabilidad explicado por dos
componentes principales es alto (70%?) se puede realizar una
representacin grfica de las variables originales y de los
individuos de la muestra (mapas perceptales) que muestran
algunas relaciones de correlacin o semejanza entre ellos .
4. Aunque todas las variables originales entran en la composicin

de cada componente principal, algunas son ms importantes


que otras. Estas, las ms importantes, determinan la naturaleza
de cada componente