Está en la página 1de 3

Análisis de Componentes Principales

-Richard Chacón Hurtado, 2140359 ,Juan Sebastián Estupiñán Arenas, 2140214,Jersson David Castro
Galvis, 2154545

I. Marco teórico Finalmente, se puede reducir la dimensión de los datos resultantes


en el nuevo espacio eliminando las componentes principales que
El análisis de componentes principales es una metodología presenten una menor varianza, es decir, que aporten menos
desarrollada en 1901 por Karl Pearson, la cual permite obtener información. La base matemática que se utiliza para desarrollar el
información acerca de la interdependencia entre las variables PCA es el álgebra lineal. Veremos como el PCA está íntimamente
analizadas, es decir, permite hallar asociaciones entre las variables relacionado con la técnica algebraica de la descomposición en
disponibles y reducir el número de estas para facilitar su análisis. valores singulares (“Singular Value Decomposition”, SVD).
El PCA busca la estructuración de un conjunto de datos Además, la compresión de cómo están relacionados el PCA y la
multivariado mediante la reducción del número de variables SVD ayudará al mejor entendimiento de las posibles aplicaciones
originales a un conjunto más pequeño de estas, las cuales son de este método.
combinaciones lineales de aquellas que recogen la mayor parte de
la variabilidad del conjunto inicial de variables. El PCA tiene dos propiedades muy importantes que hacen de este
método de reducción de la dimensionalidad tan popular :
Una de las principales ventajas de esta metodología es que no parte 1. Las componentes principales obtienen secuencialmente la
de ninguna distribución de probabilidad para su análisis y dentro máxima variabilidad o varianza de X, por lo que se garantiza la
de los objetivos del análisis están: mínima pérdida de información (en el sentido de error de
- Generar nuevas variables que expresen información acerca del reconstrucción).
conjunto de datos 2. Las componentes principales obtenidas son ortogonales entre
- Reducir la dimensión del espacio en el que están contenidos los sí, facilitando su posterior procesado, ya que pueden tratarse
datos. independientemente.
-Eliminar (si es posible) las variables que aportan poca
información al estudio del problema. Los datos de entrada estarán dispuestos en una matriz X ∊ Ɍm x
-Facilitar la interpretación de la información contenida en los n, donde m es el número de variables de entrada y n es el número
datos de observaciones. Mientras que los datos proyectados estarán en
-Determinación de unos pocos factores (componentes principales) una matriz Y ∊ Ɍp x n, con p variables salida y n observaciones,
que retengan la mayor variabilidad contenida en los datos. donde el número de variables de salida es menor que el de entrada
(p<m).
Las nuevas variables generadas cumplen con las características de Cada vector Xi = [x1, x2, …, xm]^(T 1) contendrá todas las
independencia (bajo el supuesto de normalidad) y no correlación. variables de entrada asociadas a una observación i e Yi = [y1, y2,
La técnica del análisis de componentes principales consiste en …, yp] ^T contendrá las variables de salida.
analizar un conjunto de datos de entrada, el cual contiene
diferentes observaciones descritas por múltiples variables
independientes o dependientes y cuyas relaciones entre sí no
tienen por qué conocerse. Como ya se ha dicho anteriormente el
objetivo principal es reducir la dimensión del conjunto de datos de
entrada intentado mantener la mayor cantidad de información
posible para poder analizarlos de forma más fácil y que en etapas
posteriores, como clasificadores o regresores, se puedan
simplificar los criterios de decisión.

El PCA realiza en primer lugar una transformación lineal de los


La tarea del PCA es encontrar una matriz que transforme
datos en un nuevo sistema de coordenadas ortogonales. Los
linealmente el espacio de los datos de entrada en X en otra matriz
vectores de proyección de los datos en el nuevo espacio son las
Y con un número menor de variables. Este proceso se realiza
direcciones de máxima varianza de los datos de entrada. Mientras
mediante una combinación lineal de las variables originales de
que las nuevas variables resultantes de proyectar los datos de
modo que se proyecten sobre las direcciones de máxima varianza
entrada sobre los vectores de proyección se llamarán componentes
de los datos, y se conserve así la máxima cantidad de información.
principales (“Principal Componente”, PC). En este nuevo sistema
Estas direcciones de máxima varianza estarán definidas por los p
de coordenadas las componentes principales están ordenadas
vectores de proyección, Uk, que se encontrarán en las columnas
automáticamente según la varianza de la proyección de datos, es
de U.
decir, según la cantidad de información que contengan.
II. EJERCICIO EN MATLAB

Teniendo la imagen inicial, y queriendo comprobar el método de


PCA, descomponiendo la imagen inicial, hallando los
componentes principales, en dos imágenes separando los colores

Para ello tuvimos que convertir la imagen inicial a una matriz, con
el comando imread, como vemos en la siguiente imagen.

Análisis del color verde.

Imagen Original.

Para el método de PCA, necesitamos encontrar la matriz de


covarianza y luego encontrar los eigenvalores o valores propios y
vectores propios de esa matriz , que hallamos con la función que
definimos Valores, logrando que la mayor variabilidad de las
entradas quede contenida en los primeros eigenvectores, a este Análisis Color Magenta.
conjunto de vectores se les llama vectores principales.

Descomponemos la imagen, dados sus componentes principales


eliminando así las variables que aportan poca información

Teniendo así una transformación de nuestras variables originales,


pero con menos variables y mayor facilidad a la hora de interpretar
los datos, podemos ver que la matriz resultante, al separarla por
color, obtenemos la imagen inicial pero seccionada en sus dos
colores.

A continuación, veremos la descomposición de la imagen en sus


componentes para este caso serán los componentes de color
magenta y los de color verde.

Es un código y problema particular y funciona para la imagen


especificada al no usar un clasificador como el bayesiano.
Descomposición por colores.
III. CONCLUSIONES

• El análisis de componentes principales es una


metodología muy poderosa que permite además de
reducir dimensiones, generar índices que aplicados en
áreas como las ciencias sociales son muy útiles.
• PCA como método de extracción de características
facilita los cálculos y operaciones al eliminar variables
que no aportan nada al resultado que se está queriendo
encontrar.
• Al usar PCA para la descomposición de imágenes en
colores, comprobamos que el análisis de componentes
principales nos permite reducir la dimensión de la imagen
para así facilitarnos los cálculos a la hora de separarlas
por color.

También podría gustarte