Está en la página 1de 40

ANLISIS DE

COMPONENTES
PRINCIPALES

MSc. CHRISTIAN JACINTO H.

Anlisis Multivariado
Es el conjunto de mtodos estadsticos cuya

finalidad es analizar simultneamente


conjuntos de datos multivariantes en el
sentido de que hay varias variables medidas
para cada individuo objeto estudiado.
Su razn de ser radica en un mejor
entendimiento del fenmeno objeto de
estudio obteniendo informacin que los
mtodos estadsticos univariantes y
bivariantes son incapaces de conseguir.

Clasificacin en el Anlisis
Multivariado

Preprocesamiento de
Datos
Los datos faltantes no ingresan en el

tratamiento de datos. Deben ser


reemplazados por el promedio o en el peor de
los casos por el generado por un nmero
aleatorio en el rango considerado de la
columna o fila.
Las variables de los datos que estn
altamente correlacionados, o son redundantes
o constantes pueden ser eliminadas.

Centrado y Autoescalado
Para eliminar las diferencias entre las caractersticas

de cada variable (diferencia de los valores absolutos, y


rangos variables):
*
k
ik
ik

x =x -x

Centrado a la media:

xik -xk (min)


x =
xk (max)-xk (min)
Escalado en el rango:
*
ik

xik -x k
x =
sk
*
ik

Autoescalado:

Centrado y Autoescalado

Datos originales

Datos centrados

Datos autoescalados

Matriz de VarianzaCovarianza y la Matriz de


Correlacin
La transformacin de los datos originales a un nuevo

sistema de coordenadas requiere la formacin de una


matriz de datos que es derivado de las relaciones que
se encuentran entre las variables. Esta deriva de la
matriz de varianza-covarianza y de la matriz de
correlacin.
Las varianzas y covarianzasn se obtienen
de:
2
1

Varianza

sij2 =

x -x

n-1
ij

i=1

Covarianza

1 n
cov(j,k)=
xij -x j

n-1 i=1

ik

-x k

Matriz de VarianzaCovarianza y la Matriz de


Correlacin
La matriz de Covarianza:

s112

C=

cov(1,2) L

2
cov(2,1)
s22
L
M
M
O
cov(p,1) cov(p,2) L

cov(1,p)

cov(2,p)
M

2
s pp

La matriz de covarianza es usada en casos donde las

medidas de las variables son comparables. Si las


medidas son ampliamente diferentes, se pueden
escalar o utilizar la matriz de correlacin.

Matriz de VarianzaCovarianza y la Matriz de


Correlacin
Para la matriz de correlacin, se requiere el

coeficiente de correlacin:

x -x x
n

cov(j,k)
rij =
=
s j sk

ij

ik

-x k

i=1

x -x x

ij

i=1

i=1

L
L
O
L

ik -x k

La matriz de correlacin:

1 r12
r
1
12

R=
M M

r1p r2p

r1p
r2p

1/2

Anlisis de Componentes
Principales (ACP)
El ACP permite reducir la dimensionalidad de los datos,

transformando el conjunto de p variables originales en otro


conjunto de p variables incorrelacionadas, llamadas
componentes principales.
El ACP es adecuado para grupos de datos con variables
correlacionadas tal como sucede a menudo con los datos de
origen qumico.
En el ACP existe la opcin de usar la matriz de correlaciones
o bien, la matriz de covarianzas. En la primera opcin se le
est dando la misma importancia a todas y a cada una de
las variables. La segunda opcin se puede utilizar cuando
todas las variables tengan las mismas unidades de medida.

Interpretacin del ACP

Interpretacin del ACP

ancho

largo

Interpretacin del ACP


PC2

PC1

ancho
Primer componente:
Tamao = largo + ancho

largo

centroide

Otro ejemplo con 3


variables en 28
muestras
Variables: X1, X2, X3
Muestras: a - z

INTERPRETACIN
MATEMTICA
Se tiene la siguiente matriz de variables manifiestas:

x11

x21

X
xi1

x
n1

x12
x22

xi 2

xn 2

x1 j
x2 j

xij

xnj

x1m

xim

xnm

INTERPRETACIN
MATEMTICA
El objetivo del anlisis de componentes principales se

describe como la resolucin de las combinaciones


lineales:
ui1=xi1a11+xi2 a12 +L +xim a1m

ui2 =xi1a21+xi2 a22 +L +xim a2m


....................................................
uim =xi1am1+xi2 am2 +L +xim amm
Donde uip son los componentes principales, y aij el peso

que ejerce la variable manifiesta sobre el componente


principal.
Upuede
= X A representar de la
En forma matricial se
siguiente manera:

INTERPRETACIN
MATEMTICA
El anlisis de componentes principales se reduce a

calcular los coeficientes apj de forma que se satisfagan


las condiciones siguientes:
El primer componente principal debe retener la mxima

varianza de los datos, la segunda componente debe


retener la siguiente mxima varianza, y as
sucesivamente.
Cada componente debe ser normalizada y ortogonales
(no correlacionadas) entre s de los nuevos ejes.

Esta transformacin se realiza con los valores propios.

INTERPRETACIN
MATEMTICA
La transformacin con valores propios para A, y siguiendo

las condiciones antes mencionadas llega a ser:


A=V
Donde V es la matriz cuadrada m x m de las cargas,
constituida por m vectores, uno por cada variable
manifiesta: v1, v2..., vj ..., vm (columnas de V), y tambin
por m vectores transpuestos ortonormales, uno por cada
componente principal (filas de V).
es una matriz diagonal cuadrada de dimensiones m x m,
que contiene los autovalores, varianzas explicadas o
pesos dem los componentes. La traza de la matriz es la
varianza
datos.
Con:
1 > 2 > 3 > . > m.
tr()= totalde los

p=1

%=
La varianza explicada est dada por:

p
tr()

100

INTERPRETACIN
MATEMTICA
El sistema de ecuaciones puede quedar de la siguiente

manera:
U=XV
Un ejemplo para tres variable manifiestas:
u11 u12 u13
x11 x12 x13

0
0
1

= x
u 21 u 22 u 23
x
x

23
21
22
x 0 2 0

u31 u32 u33


x31 x32 x33

0
0

u 41 u 42 u 43
x
x
x
41 42 43

v11 v12
v
21 v22
v31 v32

v13

v23
v33

INTERPRETACIN
MATEMTICA
La transformacin final de las variables

manifiestas queda:

X = U VT

INTERPRETACIN
MATEMTICA
X es la matriz n x m de las variables manifiestas.
U es la matriz n x m de las puntuaciones de los m

componentes principales, que son vectores


ortonormales, y que a la vez representan los pesos de
los n objetos sobre los nuevos componentes.
VT es la matriz cuadrada m x m de las cargas,
constituida por m vectores transpuestos ortonormales,
uno por cada componente principal. Representa las
contribuciones de las m variables manifiestas a la
construccin de ese componente.
es una matriz diagonal cuadrada (todos los
elementos distintos de la diagonal son cero) de
dimensiones m x m, que contiene los autovalores,
varianzas explicadas o "pesos" de los componentes.

INTERPRETACIN
MATEMTICA
La matriz se obtiene de la matriz de varianzas-

covarianzas:
s12
s 22
L

L
L
L

s1j
s2 j
L

L
L
L

s i1
L

s
m1

si 2

s ij

L
sm 2

L
L

L
smj

L
L

VX

s11

s 21
L

s1m

L
L

s im
L

smm

11

22

ij

mm

Seleccin del Nmero


ptimo de Componentes
Principales
Es conveniente disponer de criterios objetivos que

indiquen cuantos vectores son realmente necesarios.


Los criterios son:
Por el porcentaje satisfactorio de varianza explicada

acumulada, tal como por ejemplo, 60 o 70 %.


Del estudio grfico de los autovalores, o de la varianza
explicada acumulada y residual. Los componentes
ptimos se muestran en la zona de cada brusca con la
otra donde la cada es gradual.
Mediante el estudio grfico de cocientes de autovalores
sucesivos. El componente principal es igual nmero de
orden del autovalor que figura como denominador
cuando se produce el primer pico.

Seleccin del
Nmero ptimo de
Componentes
Principales

Grficos de cocientes de autovalores

Grfico de sedimentacin

Anlisis
Grfico del
ACP
Los diagrama de

puntuaciones (o de
scores) muestra la
proyeccin lineal de los
objetos sobre los
componentes
principales. Adems
muestra las
correlaciones que existen
entre ellas.
El diagrama de cargas
muestra las
correlaciones e
importancia de las

Diagrama doble (biplot)


El diagrama doble

(biplot) se obtiene
superponiendo los
diagramas de
puntuaciones y cargas
para un mismo plano.
El diagrama doble
informa sobre las
relaciones entre los
objetos y los grupos
formados por las
variables manifiestas, y
por ello permite extraer
conclusiones acerca de
las relaciones entre los
objetos y las variables

24

Ejemplo Imgenes
Datos:Imgenesdeunacara(300x250pixels)
codificadosenunaescaladegrisesde0a256.

103104106106123120114111127134125132125123139137147
98103113116114114111109118123127129129129132142149
103101106108108113123120116116118123134137134144144
116114113114111116132129125120123129129129139139142
104108111113113114120120120120125127125127139142149
108109111108104111118116123127132134137137137149142
106108109108103109120120129134134134142142144147144
101103100103106109123125129134134134142142144139157
100100100104109113123125127129137139142144142142157
97100106109114116125129132129134137142142147149147
97100109111116118127132137134127129137142142152139
101104109113114118114116127129129132142154152166178
103108109109118120120123137134147147166178160152154
103106109111118125129132149144152149142142132123108
108113123129139147142139125113101978382838387
1131161231271321341251149789838275777989104
116127132125103978378777988941031011009294
11812511810888847778838585898487826967
10897848487878275636065564344413728
8379777469675449383525273029282727
7877746759544438242128323836363631

24

Ejemplo Imgenes

Ejemplo Imgenes (3)

Compresin

10componentes:300*10+250*10=5500
Factordecompresin:13.64
Calidadmuybaja

15componentes:300*15+250*15=8250
Factordecompresin:9
CalidadBaja
Tamaooriginal:
300*250=75000

25componentes:300*25+250*25=14050
Factordecompresin:5.34
Calidadmedia
25componentes:300*40+250*40=22000
Factordecompresin:3.41
Calidadalta

Ejemplo 1
Para investigar un crimen se ha recuperados un cabello en

la escena del crimen para asignarlo a un sujeto. Aparte de


las de las investigaciones morfolgicas el cabello es
analizado para los elementos cobre, manganeso, cloro,
bromo y yodo en ppm. Para comparar se dispuso del
contenido elemental de tres muestras de cabello de tres
sospechosos.
Cabello

Cu

Mn

Cl

Br

9.2

0.3

1730

12

3.6

12.4

0.39

930

50

2.3

7.2

0.32

2750

65.3

3.4

10.2

0.36

1500

3.4

5.3

10.1

0.5

1040

39.2

1.9

6.5

0.2

2490

90

4.6

5.6

0.29

2940

88

5.6

11.8

0.42

867

43.1

1.5

8.5

0.25

1620

5.2

6.2

Ejemplo 2
El siguiente cuadro muestra las calificaciones

medias dadas por un panel de expertos


catadores que han examinado una serie de
muestras de zumos de melocotn.
Los cdigos G1 a G4 se refieren a 4
variedades de fruta y de T1 se refiere el
recogido al comienzo de la temporada y T3 al
final de la misma.

Datos de la evaluacin
sensorial de 12 zumos de
melocotn.
MUESTRA

COLOR

TRANSPARENCIA

OLOR

DULCE

ACIDO

VISCOSIDAD

PULPA

G1-T1

3.43

6.83

3.95

9.14

3.50

2.67

2.81

G2-T1

3.69

6.28

5.89

5.69

5.23

3.31

3.98

G3-T1

3.89

6.18

6.67

4.14

6.17

4.08

5.03

G4-T1

4.04

6.01

7.92

3.31

7.59

5.13

6.18

G1-T2

6.17

5.78

3.72

9.58

3.27

4.14

4.42

G2-T2

6.37

5.08

5.78

6.69

5.18

5.75

5.78

G3-T2

6.43

4.67

6.96

5.07

6.70

6.47

6.19

G4-T2

6.69

4.37

7.51

3.98

7.70

7.22

7.75

G1-T3

8.44

3.91

3.83

8.78

3.38

6.19

6.28

G2-T3

8.75

3.78

5.99

5.39

5.80

7.89

7.44

G3-T3

9.00

3.46

6.44

3.81

6.24

8.53

7.89

G4-T3

9.79

3.18

7.79

2.97

7.38

8.94

8.33

Ejemplo 3
Este estudio implica un cromatograma

obtenido en cromatografa lquida de HPLC


con deteccin de arreglo de diodos (HPLCDAD) muestra 30 puntos en el tiempo (cada
uno a intervalos de 1 s) y 28 longitudes de
onda de aproximadamente 4,8 nm intervalos
tal como se presentan en la Tabla 1. Las
absorbancias se presentan en UA (unidades
de absorbancia). Hacer un estudio del
solapamiento de picos del cromatograma

También podría gustarte