Análisis de Componentes Principales

24/7/2019 Análisis de componentes principales - Wikipedia, la enciclopedia libre
Análisis de componentes principales

En estadística, el análisis de componentes principales (en español ACP, en inglés, PCA) es una técnica utilizada para
describir un conjunto de datos en términos de nuevas variables ("componentes") no correlacionadas. Los componentes se ordenan
por la cantidad de varianza original que describen, por lo que la técnica es útil para reducir la dimensionalidad de un conjunto de
datos.
Técnicamente, el ACP busca la proyección según la cual los datos queden mejor representados en términos de mínimos cuadrados.
Esta convierte un conjunto de observaciones de variables posiblemente correlacionadas en un conjunto de valores de variables sin
correlación lineal llamadas componentes principales.
El ACP se emplea sobre todo en análisis exploratorio de datos y para construir modelos predictivos. El ACP comporta el cálculo de
la descomposición en autovalores de la matriz de covarianza, normalmente tras centrar los datos en la media de cada atributo.
Debe diferenciarse del análisis factorial con el que tiene similaridades formales y en el cual puede ser utilizado como un método de ACP de una distribución normal
aproximación para la extracción de factores. multivariante centrada en (1,3) con
desviación estándar 3 en la
dirección aproximada (0,866, 0,5) y
desviación estándar 1 en la
Índice dirección perpendicular a la anterior.
Los vectores muestran los
Fundamento
autovectores de la matriz de
Matemáticas del ACP correlación escalados mediante la
Método basado en correlaciones raíz cuadrada del correspondiente
Método basado en las covarianzas autovalor, y desplazados para que
Limitaciones su origen coincidan con la media
Ejemplos estadística.
Referencia
Enlaces externos
Fundamento
https://es.wikipedia.org/wiki/Análisis_de_componentes_principales 1/5
El ACP construye una transformación lineal que escoge un nuevo sistema de coordenadas para el conjunto original de datos en el cual la varianza de mayor tamaño del
conjunto de datos es capturada en el primer eje (llamado el Primer Componente Principal), la segunda varianza más grande es el segundo eje, y así sucesivamente. Para
construir esta transformación lineal debe construirse primero la matriz de covarianza o matriz de coeficientes de correlación. Debido a la simetría de esta matriz existe una
base completa de vectores propios de la misma. La transformación que lleva de las antiguas coordenadas a las coordenadas de la nueva base es precisamente la
transformación lineal necesaria para reducir la dimensionalidad de datos. Además las coordenadas en la nueva base dan la composición en factores subyacentes de los datos
iniciales.
El ACP es particularmente útil para reducir la dimensionalidad de un grupo de datos. Los primeros componentes principales describen la mayor parte de la varianza de los
datos (más cuanto más correlacionadas estuvieran las variables originales). Estos componentes de bajo orden a veces contienen el aspecto "más importante" de la
información, y los demás componentes se pueden ignorar. Existen diferentes técnicas para estimar el número de componentes principales que son relevantes; la técnica más
apropiada dependerá de la estructura de correlaciones en los datos originales.1
Matemáticas del ACP

Supongamos que existe una muestra con n individuos para cada uno de los cuales se han medido m variables (aleatorias) El ACP permite encontrar un número de
factores subyacentes p < m que explican aproximadamente el valor de las m variables para cada individuo. El hecho de que existan estos p factores subyacentes puede
interpretarse como una reducción de la dimensionalidad de los datos: donde antes necesitabamos m valores para caracterizar a cada individuo ahora nos bastan p valores.
Cada uno de los p encontrados se llama componente principal, de ahí el nombre del método.
Existen dos formas básicas de aplicar el ACP:
1. Método basado en la matriz de correlación, cuando los datos no son dimensionalmente homogéneos o el orden de magnitud de las variables aleatorias medidas no es el
mismo.
2. Método basado en la matriz de covarianzas, que se usa cuando los datos son dimensionalmente homogéneos y presentan valores medios similares.
Método basado en correlaciones

El método parte de la matriz de correlaciones, consideremos el valor de cada una de las m variables aleatorias . Para cada uno de los n individuos tomemos el valor de estas
variables y escribamos el conjunto de datos en forma de matriz:
Obsérvese que cada conjunto
puede considerarse una muestra aleatoria para la variable . A partir de los datos correspondientes a las m variables aleatorias, puede construirse la matriz de
correlación muestral, que viene definida por:
Puesto que la matriz de correlaciones es simétrica entonces resulta diagonalizable y sus valores propios verifican:
Debido a la propiedad anterior estos m valores propios reciben el nombre de pesos de cada uno de los m componentes principales. Los factores principales identificados
matemáticamente se representan por la base de vectores propios de la matriz . Está claro que cada una de las variables puede ser expresada como combinación lineal de los
vectores propios o componentes principales.
Método basado en las covarianzas

El objetivo es transformar un conjunto dado de datos X de dimensión n x m a otro conjunto de datos Y de menor dimensión n x l con la menor perdida de información útil
posible utilizando para ello la matriz de covarianza.
Se parte de un conjunto n de muestras cada una de las cuales tiene m variables que las describen y el objetivo es que, cada una de esas muestras, se describa con solo I
variables, donde l < m. Además, el número de componentes principales l tiene que ser inferior a la menor de las dimensiones de X.
Los datos para el análisis tienen que estar centrados a media 0 (restándoles la media de cada columna) y/o autoescalados(centrados a media 0 y dividiendo cada columna por
su desviación estándar).
Los vectores son conocidos como scores y contienen la información de cómo las muestras están relacionadas unas con otras además, tienen la propiedad de ser ortogonales.
Los vectores se llaman loadings e informan de la relación existente entre las variables y tienen la cualidad de ser ortonormales. Al coger menos componentes principales
que variables y debido al error de ajuste del modelo con los datos, se produce un error que se acumula en la matriz .
El PCA se basa en la descomposición en vectores propios de la matriz de covarianza. La cual se calcula con la siguiente ecuación:
Donde es el valor propio asociado al vector propio . Por último,
Esta ecuación la podemos entender como que son las proyecciones de X en , donde los valores propios miden la cantidad de varianza capturada, es decir, la información
que representan cada uno de los componentes principales. La cantidad de información que captura cada componente principal va disminuyendo según su número es decir, el
componente principal número uno representa más información que el dos y así sucesivamente.
Limitaciones
La aplicación del ACP está limitada por varios supuestos2
Suposición de linealidad: Se asume que los datos observados son combinación lineal de una cierta base.
Ejemplos
Un conjunto de datos puede describir la altura y el peso de 100 niños entre 2 y 15 años. Ambas variables están, obviamente, correlacionadas (los niños de más edad
son más altos y pesan más). El análisis de componentes principales describe los datos en términos de dos nuevas variables. El primer componente se puede interpretar
como "tamaño" o "edad" y recoge la mayor parte de la varianza de los datos originales. El segundo componente describe variabilidad en los datos que no está
correlacionada en absoluto con el primer componente principal "tamaño", y (probablemente) sea difícil de interpretar. Si el objetivo es reducir la dimensionalidad de los
datos, se puede descartar este segundo componente principal. Lo mismo aplica si el conjunto de datos contiene un número mayor de variables que se pueden
interpretar como medidas aproximadas de "tamaño". Por ejemplo, longitud del fémur, longitud de los brazos, peso, altura, etc. Un conjunto de datos de este tipo podría
describirse generalmente con un único componente principal que se podría interpretar como "tamaño" o "edad".
Un análisis consideró las calificaciones escolares n = 15 estudiantes en m = materias (lengua, matemáticas, física, inglés, filosofía, historia, química, gimnasia). Los dos
primeros componentes principales explicaban juntos el 82,1% de la varianza. El primero de ellos parecía fuertemente correlacionado con las materias de humanidades
(lengua, inglés, filosofía, historia) mientras que el segundo aparecía relacionado con las materias de ciencias (matemáticas, física, química). Así parece que existe un
conjunto de habilidades cognitivas relacionadas con las humanidades y un segundo relacionado con las ciencias, estos dos conjuntos de habilidades son
estadísticamente independientes por lo que un alumno puede puntuar alto en sólo uno de ellos, en los dos o en ninguno.3
Una análisis de 11 indicadores socieconómicos de 96 países, reveló que los resultados podían explicarse en alto grado a partir de sólo dos componentes principales, el
primero de ellos tenía que ver con el nivel de PIB total del país y el segundo con el índice de ruralidad.4
Referencia
1. Peres-Neto, Pedro R.; Jackson, Donald A.; Somers, Keith M. «How many principal components? stopping rules for determining the number of non-trivial axes revisited»
(https://doi.org/10.1016/j.csda.2004.06.015). Computational Statistics & Data Analysis 49 (4): 974-997. doi:10.1016/j.csda.2004.06.015 (http://dx.doi.org/10.1016%2Fj.csda.2004.06.01
5). Consultado el 22 de abril de 2018.
2. Jonathon Shlens.A Tutorial on Principal Component Analysis. (http://www.cs.otago.ac.nz/cosc453/student_tutorials/principal_components.pdf)
3. Ejemplos de PCA (www.uoc.edu) (http://www.uoc.edu/in3/emath/docs/Componentes_principales.pdf)
Archivado (http://web.archive.org/web/20091229050509/http://www.uoc.edu/in3/emath/docs/Componentes_principales.pdf) el 29 de diciembre de 2009 en la Wayback

Machine.
4. Universidad Carlos III de Madrid (http://halweb.uc3m.es/esp/Personal/personas/agrane/ficheros_docencia/MULTIVARIANT/slides_comp_reducido.pdf)
Enlaces externos
Matemáticas del ACP y ejemplos (Universidad Carlos III de Madrid) (http://halweb.uc3m.es/esp/Personal/personas/agrane/ficheros_docencia/MULTIVARIANT/slides_co
mp_reducido.pdf)
PCA ACP (http://numerentur.org/pca-kpca/)
Obtenido de «https://es.wikipedia.org/w/index.php?title=Análisis_de_componentes_principales&oldid=117217432»
Esta página se editó por última vez el 6 jul 2019 a las 21:56.
El texto está disponible bajo la Licencia Creative Commons Atribución Compartir Igual 3.0; pueden aplicarse cláusulas adicionales. Al usar este sitio, usted acepta nuestros
términos de uso y nuestra política de privacidad.
Wikipedia® es una marca registrada de la Fundación Wikimedia, Inc., una organización sin ánimo de lucro.

Análisis de Componentes Principales

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Análisis de Componentes Principales

Cargado por

Copyright:

Formatos disponibles

24/7/2019 Análisis de componentes principales - Wikipedia, la enciclopedia libre

Análisis de componentes principales

Matemáticas del ACP

Existen dos formas básicas de aplicar el ACP:

Método basado en correlaciones

Obsérvese que cada conjunto

Método basado en las covarianzas

Donde es el valor propio asociado al vector propio . Por último,

Archivado (http://web.archive.org/web/20091229050509/http://www.uoc.edu/in3/emath/docs/Componentes_principales.pdf) el 29 de diciembre de 2009 en la Wayback

PCA ACP (http://numerentur.org/pca-kpca/)

También podría gustarte