Está en la página 1de 30

Componentes

Principales

A E DARGHAN
¿Por qué utilizar el análisis de componentes principales?

El principal objetivo del análisis de componentes principales es revelar la estructura oculta en una
información conjunto. Al hacerlo, podemos ser capaces de:

• Identificar cómo las diferentes variables trabajan juntas para crear la dinámica del
sistema
• reducir la dimensionalidad de los datos
• Disminuir la redundancia en los datos
• filtrar parte del ruido en los datos
• Comprimir los datos
• preparar los datos para un análisis posterior utilizando otras técnicas
A E DARGHAN
Conjunto modelo de datos
Imagine que se nos da una caja negra, y sabemos que dentro hay una cierta cantidad de
fuentes de luz que emiten algún patrón de luz a lo largo del tiempo .
No podemos abrir la caja para ver las fuentes de luz, pero tenemos la
capacidad para grabar a través de sensores en los bordes de la caja. (Ver figura )
Nuestro objetivo es utilizar los datos recopilados de los sensores
para reconstruir lo que está sucediendo en la caja.

¿Cuántas fuentes de luz hay en la caja? ¿Dónde están ubicadas?¿ Qué patrón
de luz emite cada una? Aunque este es, tal vez, un ejemplo artificial,
no es del todo diferente de la situación de la interpretación de datos EEG,
en la que la actividad cerebral local juega el papel de las fuentes de luz,
el cráneo, la caja negra y los electrodos, las grabadoras.

A E DARGHAN
Conjunto modelo de datos

Figura 1. Dos fuentes de luz dentro de una caja con grabadoras en la esquina. 
La cantidad de luz que alcanza el sensor se supone que decae exponencialmente con la
distancia de la fuente de luz al sensor, de modo que el sensor A está influenciado predominantemente
por la fuente de luz roja, mientras que el sensor B está influenciado
predominantemente por la fuente de luz amarilla. Suponemos además que la cantidad de luz
registrada en cada sensor es una simple suma de las cantidades de luz que lo alcanzan desde cada
fuente.

Veremos cómo PCA nos ayuda a responder,


o no, a las preguntas anteriores.

A E DARGHAN
Conjunto modelo de datos
Para empezar, supongamos que podemos controlar el contenido de la caja negra para que
podamos ver cómo se verán nuestros datos.
Supongamos que tenemos cuatro sensores, uno en cada esquina de la caja. Introducimos las
coordenadas en la caja para que tengamos cada ubicación: A(0,0), B(0,1), C (1,1) y D (1,0).
Por ahora, asumiremos que solo tenemos dos fuentes de luz, la primera ubicada en (.3, .8) y su
intensidad de luz varía en un patrón de onda sinusoidal; la segunda está en (.5, .2) y varía en un
patrón de onda coseno con un período diferente.

A E DARGHAN
Conjunto modelo de datos
Suponemos que la cantidad de luz que capta cada sensor decae exponencialmente con la
distancia desde la fuente de luz al sensor.
También asumimos que las luces se combinan linealmente, es decir, los sensores registran una
simple suma de la cantidad de luz que reciben de cada fuente, aunque probablemente de una
manera ruidosa.

A E DARGHAN
Conjunto modelo de datos
Veamos los datos recopilados.
Un diagrama de dispersión de los datos (Figura 2a) muestra que existe una correlación bastante fuerte entre
todos los pares de variables.
Esto no debería ser sorprendente, ya que sabemos que los cuatro grabadores están grabando esencialmente
los mismos datos, solo con diferentes pesos.
Confirmamos esto al verificar la matriz de correlación (ver Figura 2b). Tenga en cuenta que, si bien todas las
correlaciones son fuertes, la correlación entre A y D es la más fuerte, seguida de cerca por la correlación
entre B y C.
Mirando la figura 1 debe aclararse el motivo:
A y D reciben mucha información de la luz roja (en (.5, .2)) y están menos impactadas por la luz amarilla (en
(.3, .8)), mientras que B y C tienen el patrón opuesto.
La grabación de D es esencialmente una copia del grabado desde A, haciendo que nuestros datos sean
redundantes. Esto debería ayudarnos a entender ...

A E DARGHAN
Conjunto modelo de datos

A E DARGHAN
Principio 1 del PCA: En general, la alta correlación entre las variables es un signo revelador
de
alta redundancia en los datos.

Una supuesto del PCA es que tenemos un nivel razonablemente alto de relación en la señal.

A E DARGHAN
Principio 2 del PCA: las dinámicas más importantes son las que tienen la mayor varianza.

Antes de trabajar con PCA, querrá preguntarse si cree este principio para sus datos.
Para muchos conjuntos de datos está bien, pero vale la pena pensar antes lo que significa
pequeños componentes de varianza.

A E DARGHAN
¿Cómo trabaja el PCA?.

Ahora hemos establecido los dos principios en los que se basa PCA.
El plan para PCA es tomar nuestros datos y reescribirlos en términos de nuevas variables para que
nuestros "nuevos datos" tengan toda la información de los datos originales, pero con redundancia
eliminada y organizados de tal manera que las variables más importantes se enumeren primero.
¿Cómo podemos eliminar ¿redundancia? Dado que la alta correlación es una marca de alta
redundancia, los nuevos datos deberían tenerla baja, o incluso mejor, correlación cero entre pares
de variables distintas.
Para ordenar las nuevas variables en términos de importancia, las enumeraremos en orden
descendente de varianza.

A E DARGHAN
¿Cómo trabaja el PCA?.

Supongamos que tenemos una matriz de datos, X


Nuestro objetivo es encontrar una matriz P tal que la matriz de covarianza de PX sea diagonal
y las entradas en la diagonal están en orden descendente. Si hacemos esto, PX será nuestra
nueva información; l
Las nuevas variables serán combinaciones lineales de las variables originales cuyos pesos son
dados por P.
Para ver esto, deberíamos elegir P, pero necesitaremos algunos resultados del álgebra lineal

A E DARGHAN
¿Cómo trabaja el PCA?.

A E DARGHAN
¿Cómo trabaja el PCA?.

A E DARGHAN
¿Cómo trabaja el PCA?.

A E DARGHAN
¿Cómo trabaja el PCA?.
Ahora mostramos cómo podemos elegir P para que la matriz de covarianza para PX sea diagonal,
por
lo que P=E’

 
= PSP’
=(1/n-1)PX’(I-(1/n)11’)XP’
Si estandarizamos X podemos escribir la nueva matriz como X *

=(1/n-1)PX’*X*P’

=(1/n-1)PEDE’P’=( 1/n-1) PP’DPP’= (1/n-1)D

  A E DARGHAN
¡En efecto! Nuestro objetivo era encontrar una matriz P tal que la matriz de
covarianza de PX sea diagonal, y lo hemos logrado.
Haciendo PCA en R

plot(pr)
Esto aplica el método de trazado predeterminado para los objetos de la clase pr, que traza las
varianzas de cada componente principal frente al número de componentes. Al decidir
ya sea para reducir la dimensionalidad de un conjunto de datos, buscamos un fuerte descenso en los
componentes principales. Aquí parece que deberíamos mantener los primeros dos componentes y
descartar los otros dos.
Haciendo PCA en R

plot(pr)
Esto aplica el método de trazado predeterminado para los objetos de la clase pr, que traza las
varianzas de cada componente principal frente al número de componentes. Al decidir
ya sea para reducir la dimensionalidad de un conjunto de datos, buscamos un fuerte descenso en los
componentes principales. Aquí parece que deberíamos mantener los primeros dos componentes y
descartar los otros dos.

Eso es genial, ya que sabemos que había, de hecho, dos luces . En lugar de usar el método de trazado
predeterminado, prefiero usar el comando barplot (pr $ sdev / pr $ sdev [1]), porque ayuda a descubrir
cómo descartar los componentes que no se quieren,
Haciendo PCA en R
La mala noticia es que los nuevos datos no son una réplica perfecta de las fuentes de señal reales.

La buena noticia es que es mejor que los datos grabados en sensores.

En los datos grabados, los cuatro sensores muestran cinco picos, pero en la señal real, la luz del seno tiene 5
picos, pero el coseno tiene solo cuatro. Los datos del primer componente principal tienen cinco picos y de
apariencia de la onda sinusoidal.
El segundo componente principal tiene solo cuatro picos, así que parece ser una mejor representación de la
onda del coseno que cualquiera de los datos grabados.

Con los nuevos datos explicar porqué NO podemos devolvernos para reconstruir los componentes en variables
originales.

Obtenga la matriz de correlaciones de las variables originales y los dos componentes extraídos
Obtenga el screeplot del tipo líneas (gráfico de sedimentación)

Mejore el código de modo que las etiquetas del eje x solo sean enteros y que la línea
asociadas a los componentes que se extraigan (70 al 90% de la varianza explicada)
Aparezca de un color diferente al resto del tramo.(ej: azul hasta 2 y rojo el resto)
Biplot
Los Biplots son un método gráfico para mostrar
simultáneamente las variables y unidades de
muestreo.
Un biplot del PCA muestra los puntajes(scores)
de los componentes y las cargas de las variables
obtenidas por PCA en dos o tres dimensiones.
Los cálculos se basan en la descomposición valor
singular de los datos (centrados y posiblemente
escalados) de la matriz X.
Las flechas que representan las variables se
pueden convertir en ejes calibrados análogos a
los diagramas de dispersión ordinarios. (Ejes
calibrados: las p variables están representadas
por p ejes no ortogonales, conocidos como ejes
del biplot)
Los ejes de biplot se utilizan exactamente de la
misma manera que los ejes cartesianos.
Componentes Principales Vía descomposición Singular
El análisis de componentes principales (PCA) generalmente se explica mediante una descomposición propia
de la matriz de covarianzas. Sin embargo, también se puede realizar a través de la descomposición de valores
singulares (SVD) de la matriz de datos X. ¿Cómo funciona? ¿Cuál es la conexión entre estos dos enfoques?
¿Cuál es la relación entre SVD y PCA?

Sea X la matriz de datos de dimensión n × p, donde n es el número de muestras y p es el número de variables.


Supongamos que está centrada, es decir, los medios de columna se han restado y ahora son iguales a cero.

Entonces la matriz de covarianza C de dimensión p × p viene dada por C = X’X /(n-1). Es una matriz simétrica
y por lo tanto puede ser diagonalizada.
C = VLV’

donde V es una matriz de autovectores (cada columna es un vector propio) y L es una matriz diagonal con
valores propios λi en orden decreciente en la diagonal. Los autovectores se llaman ejes principales o
direcciones principales de los datos. Las proyecciones de los datos sobre los ejes principales se llaman
componentes principales, también conocidos como puntuaciones de PC; estos se pueden ver como variables
nuevas y transformadas. El j-ésimo componente principal está dado por la j-ésima columna de XV. Las
coordenadas del punto de datos i-ésimo en el nuevo espacio para PC están dadas por la i-ésima fila de XV.
Componentes Principales Vía descomposición Singular
Si ahora realizamos la descomposición de valores singulares de X, obtenemos una descomposición
X = USV’,
donde S es la matriz diagonal de valores singulares si. Desde aquí uno puede ver fácilmente que

lo que significa que los vectores singular derechos V son direcciones principales y que los valores singulares
están relacionados con los valores propios de la matriz de covarianza a través de

Los componentes principales son dados por


El ANOVA-PCA combina las ventajas estadísticas del ANOVA con las ventajas de PCA para estudiar la
covariación.
El enfoque puede ser considerado una implementación multivariante del ANOVA.

La matriz de datos se descompone en matrices aditivas que caracterizan a los factores individuales del
experimento y el error residual.
Todas estas matrices tienen la misma dimensionalidad y siguen el modelo lineal general (GLM).

ANOVA-PCA permite la comparación de las medias para cualquier factor contra el error experimental residual.
Esta herramienta da una figura visual rápida que muestra si las medias (es decir, niveles
para un factor) difieren significativamente con respecto a la reproducibilidad
de la medida.
ANOVA-PCA también puede permitir que los factores sean comparados entre sí.

Esta técnica se mencionó por primera vez en 2004.


Modelo de dos factores
Estimando parámetros

En ANOVA, la varianza de cada factor se compara con el error residual para que pueda evaluarse su significación.
En el enfoque ANOVA-PCA, el error residual se combina con cada factor y se somete al PCA.
En un experimento que involucra la teledetección, la reflectancia espectral de tres especies de
plántulas de año de edad se midieron en varias longitudes de onda durante la temporada de crecimiento.
Las plántulas se cultivaron con dos niveles diferentes de nutrientes: el nivel óptimo y un nivel subóptimo),
Las especies de plántulas utilizadas fueron (SS), (JL) y (LP).

También podría gustarte