Está en la página 1de 1

En estadstica, el anlisis de componentes principales (en espaol ACP, en ingls, PCA)

es una tcnica utilizada para reducir la dimensionalidad de un conjunto de datos.


Intuitivamente la tcnica sirve para hallar las causas de la variabilidad de un co
njunto de datos y ordenarlas por importancia.
Tcnicamente, el ACP busca la proyeccin segn la cual los datos queden mejor represen
tados en trminos de mnimos cuadrados. El ACP se emplea sobre todo en anlisis explor
atorio de datos y para construir modelos predictivos. El ACP comporta el clculo d
e la descomposicin en autovalores de la matriz de covarianza, normalmente tras ce
ntrar los datos en la media de cada atributo.
ndice [ocultar]
1 Fundamento
2 Matemticas del ACP
2.1 Mtodo basado en correlaciones
2.2 Mtodo basado en las covarianzas
2.3 Limitaciones
3 Ejemplos
4 Referencia
4.1 Enlaces externos
Fundamento[editar]
El ACP construye una transformacin lineal que escoge un nuevo sistema de coordena
das para el conjunto original de datos en el cual la varianza de mayor tamao del
conjunto de datos es capturada en el primer eje (llamado el Primer Componente Pr
incipal), la segunda varianza ms grande es el segundo eje, y as sucesivamente. Par
a construir esta transformacin lineal debe construirse primero la matriz de covar
ianza o matriz de coeficientes de correlacin. Debido a la simetra de esta matriz e
xiste una base completa de vectores propios de la misma. La transformacin que lle
va de las antiguas coordenadas a las coordenadas de la nueva base es precisament
e la transformacin lineal necesaria para reducir la dimensionalidad de datos. Ade
ms las coordenadas en la nueva base dan la composicin en factores subyacentes de l
os datos iniciales.
Una de las ventajas del ACP para reducir la dimensionalidad de un grupo de datos
, es que retiene aquellas caractersticas del conjunto de datos que contribuyen ms
a su varianza, manteniendo un orden de bajo nivel de los componentes principales
e ignorando los de alto nivel. El objetivo es que esos componentes de bajo orde
n a veces contienen el aspecto "ms importante" de esa informacin.
Matemticas del ACP[editar]
Supongamos que existe una muestra con n individuos para cada uno de los cuales s
e han medido m variables (aleatorias) F_j.\; El ACP permite encontrar un nmero de
factores subyacentes p < m que explican aproximadamente el valor de las m varia
bles para cada individuo. El hecho de que existan estos p factores subyacentes p
uede interpretarse como una reduccin de la dimensionalidad de los datos: donde an
tes necesitabamos m valores para caracterizar a cada individuo ahora nos bastan
p valores. Cada uno de los p encontrados se llama componente principal, de ah el
nombre del mtodo.
Existen dos formas bsicas de aplicar el ACP:
Mtodo basado en la matriz de correlacin, cuando los datos no son dimensionalmente
homogneos o el orden de magnitud de las variables aleatorias medidas no es el mis
mo.
Mtodo basado en la matriz de covarianzas, que se usa cuando los datos son dimensi
onalmente homogneos y presentan valores medios similares.
Mtodo basado en correlaciones[editar]
El mtodo parte de la matriz de correlaciones, consideremos el valor de cada una d
e las m variables aleatorias F_j\,. Para cada uno de los n individuos tomemos el
valor de estas variables y escribamos el conjunto de datos en forma de matriz:

También podría gustarte