Está en la página 1de 46

Visualizacin y Extraccin de

Caractersticas mediante
Componentes Principales
Tema 5
T
e
m
a

5
.

C
o
m
p
o
n
e
n
t
e
s

P
r
i
n
c
i
p
a
l
e
s
Mtodos de Visualizacin de
Datos
T
e
m
a

5
.

C
o
m
p
o
n
e
n
t
e
s

P
r
i
n
c
i
p
a
l
e
s
FL: Forma de su letra
APP: Aspecto
AA: Capacidad acadmica
LA: Amabilidad
SC: Confianza
LC: Lucidez
HON: Honestidad
SMS: Su arte de vender
EXP: Experiencia
DRV: Empuje
AMB: Ambicin
GSP: Capacidad para captar
conceptos
POT: potencial
KJ: Entusiasmo para
trabajar en grupo
SUIT: Conveniencia
Escala del 0 al 10, donde 0 es muy
insatisfactorio y 10 muy satisfactorio
48 individuos
Ejemplo: Solicitantes de un empleo
T
e
m
a

5
.

C
o
m
p
o
n
e
n
t
e
s

P
r
i
n
c
i
p
a
l
e
s
Visualizacin de datos
Caras de Chernoff
Se asocia una variable a cada caracterstica de la
cara: altura del ojo, ancho del ojo, tamao del iris,
longitud de la nariz, ancho de la nariz, ancho de las
cejas, inclinacin de las cejas, longitud de las orejas,
longitud de la boca, etc.
Utilidad: identificacin de outliers, agrupar elementos.
T
e
m
a

5
.

C
o
m
p
o
n
e
n
t
e
s

P
r
i
n
c
i
p
a
l
e
s
Caras de Chernoff
Ejemplo de los
solicitantes de un
empleo
T
e
m
a

5
.

C
o
m
p
o
n
e
n
t
e
s

P
r
i
n
c
i
p
a
l
e
s
VIRTUDES LIMITANTES
Excelente para
clasificacin
Vuelve amigable el
tedioso anlisis de
tablas
Condensa numerosas
variables en una
imagen bidimensional
La asignacin subjetiva de
caractersticas faciales a las
variables afecta la
clasificacin
Slo permite analizar un
nmero finito de
observaciones
Caras de Chernoff
T
e
m
a

5
.

C
o
m
p
o
n
e
n
t
e
s

P
r
i
n
c
i
p
a
l
e
s
Visualizacin de datos
Grficos de estrellas y rayos
Se construyen al representar la distancia a la que se
encuentra cada variable de cero sobre rayos o ejes
que irradian de un punto central.
Se tiene un rayo para cada variable de respuesta;
por ejemplo, los vectores de datos de cinco
dimensiones necesitarn cinco rayos o ejes.
Identificacin de outliers, agrupacin
T
e
m
a

5
.

C
o
m
p
o
n
e
n
t
e
s

P
r
i
n
c
i
p
a
l
e
s
Grficos de estrellas y rayos
Ejemplo de los solicitantes de un empleo
Quines parecen ser los mejores candidatos para otorgarles el empleo?
T
e
m
a

5
.

C
o
m
p
o
n
e
n
t
e
s

P
r
i
n
c
i
p
a
l
e
s
EXTRACTORES DE
CARACTERSTICAS
NECESIDAD
COMPLEJIDAD CRECIENTE DE LOS
PROBLEMAS DE CLASIFICACIN DEBIDO AL
AUMENTO DE :
NMERO n DE OBSERVACIONES
DIMENSIN p DEL ESPACIO DE VARIABLES
T
e
m
a

5
.

C
o
m
p
o
n
e
n
t
e
s

P
r
i
n
c
i
p
a
l
e
s
OBJETIVO:
HALLAR UNA TRANSFORMACIN DEL
ESPACIO DE DIMENSIN p DE LAS VARIABLES
ASOCIADAS A CADA OBSERVACIN EN UN
ESPACIO DE DIMENSIN INFERIOR, (ESPACIO
DE LAS CARACTERSTICAS), QUE RETENGA LO
ESENCIAL DE LA INFORMACIN NECESARIA
PARA EL PROCESO DE CLASIFICACIN
T
e
m
a

5
.

C
o
m
p
o
n
e
n
t
e
s

P
r
i
n
c
i
p
a
l
e
s
MS PRECISAMENTE:
QUE EL PROCESO CLASIFICADOR DE LAS
OBSERVACIONES EN EL ESPACIO DE LA
TOTALIDAD DE LAS VARIABLES Y EN EL
ESPACIO DE LAS CARACTERSTICAS CONDUZ-
CA A UNA DIVISIN DE LAS OBSERVACIO-
NES EN LAS MISMAS CLASES O CON DIFE-
RENCIAS INSIGNIFICANTES.
T
e
m
a

5
.

C
o
m
p
o
n
e
n
t
e
s

P
r
i
n
c
i
p
a
l
e
s
POR QU EXTRAER
CARACTERSTICAS
REDUCIR LA COMPLEJIDAD COMPUTACIONAL
LOS MTODOS ESTADSTICOS DE ESTIMACIN SE
VUELVEN MS CONFIABLES EN EL ESPACIO DE
DIMENSIN REDUCIDA
PARA PERMITIR UNA VISUALIZACIN GRFICA DE LAS
CLASES (DIMENSIN A LO SUMO 3)
T
e
m
a

5
.

C
o
m
p
o
n
e
n
t
e
s

P
r
i
n
c
i
p
a
l
e
s
EXTRACTORES BSICOS
ANLISIS DE COMPONENTES PRINCIPALES
ESCALAMIENTO MULTIDIMENSIONAL
MAPAS AUTOORGANIZATIVOS
REDES NEURONALES
T
e
m
a

5
.

C
o
m
p
o
n
e
n
t
e
s

P
r
i
n
c
i
p
a
l
e
s
COMPONENTES PRINCIPALES
ORIGEN
* PEARSON (1901)
* HOTELLING(1933)
SOPORTE MATEMTICO
* DESCOMPOSICIN ESPECTRAL DE MATRICES
* VALORES Y VECTORES PROPIOS
AUGE COMO CONSECUENCIA DEL DESARROLLO DEL
COMPUTADOR
T
e
m
a

5
.

C
o
m
p
o
n
e
n
t
e
s

P
r
i
n
c
i
p
a
l
e
s
CONSISTE EN LA TRANSFORMACIN DEL ESPACIO DE VARIABLES
ORIGINALES R
p
EN UN NUEVO ESPACIO R
q
, CON q<p, DE MODO QUE
CIERTAS PROPIEDADES DE LA ESTRUCTURA DE LOS DATOS SEAN
PRESERVADAS
EXTRAER CARACTERSTICAS RELEVANTES DE LOS DATOS.
VISUALIZAR LOS DATOS MEDIANTE SU REDUCCIN A UNA
DIMENSINA LO SUMO 3.
ESTE PROCESO PERMITE:
Objetivo Principal: Reducir dimensionalidad
T
e
m
a

5
.

C
o
m
p
o
n
e
n
t
e
s

P
r
i
n
c
i
p
a
l
e
s
MTODOS DE PROYECCIN
LOS MTODOS PARA REDUCIR LA DIMENSIN, p, DE LOS DATOS, A
UNA DIMENSIN INFERIOR, q, PUEDEN CONCEBIRSE COMO UNA
PROYECCIN DE UN ESPACIO R
p
SOBRE OTRO ESPACIO R
q
.
q << p
En lo posible
q=2 o q=3
T
e
m
a

5
.

C
o
m
p
o
n
e
n
t
e
s

P
r
i
n
c
i
p
a
l
e
s
DEFINICIN
DADO UN CONJUNTO DE DATOS p-DIMENSIONAL DE VARIABLES
X1,.......,Xp, OBTENER UN CONJUNTO DE VARIABLES Z1,....,Zq
LLAMADAS COMPONENTES PRINCIPALES, q<p TAL QUE:
SEAN COMBINACIONES LINEALES DEL CONJUNTO ORIGINAL
SEAN LINEALMENTE INDEPENDIENTES
Z1 REPRESENTE LA MEJOR APROXIMACIN CON UNA SOLA VARIABLE A
LA DATA ORIGINAL
Z2 LA MEJOR ENTRE AQUELLAS DIRECIONES ORTOGONALES A Z1, Y
AS SUCESIVAMENTE ...
T
e
m
a

5
.

C
o
m
p
o
n
e
n
t
e
s

P
r
i
n
c
i
p
a
l
e
s
E =
Matriz de Covarianza
Traza(E)= o
2
(Y
1
) + + o
2
(Y
n
)
T
e
m
a

5
.

C
o
m
p
o
n
e
n
t
e
s

P
r
i
n
c
i
p
a
l
e
s
VECTORES Y VALORES PROPIOS
DEFINICIN
PARA COMPONENTES PRINCIPALES LA MATRIZ, A, ES LA DE
COVARIANZA (la de momentos o la de correlacin).
MATRIZ DE
COVARIANZA
MUESTRAL
, x = VALOR PROPIO Y VECTOR PROPIO DE UNA MATRIZ A si
Ax = x
T
e
m
a

5
.

C
o
m
p
o
n
e
n
t
e
s

P
r
i
n
c
i
p
a
l
e
s
Los valores propios o (eigenvalores) son las races de la
ecuacin polinomial definida por:
0 = I A
Nota: Si una matriz es simtrica, sus valores propios
(1,2,..,p) siempre sern nmeros reales.
Vectores y valores propios
Definicin
T
e
m
a

5
.

C
o
m
p
o
n
e
n
t
e
s

P
r
i
n
c
i
p
a
l
e
s
Cada valor propio tiene un vector no cero
correspondiente a (una columna de nmeros)
llamado vector propio (o eigenvector) que satisface
la ecuacin matricial:
a a = E
Definicin
Debido a que tiene p valores propios, tendr p vectores propios
(a1,a2,,ap).
Propiedad
=
+ + + = = E
p
i
p i
traza
1
2 1
.... ) (
La traza de la matriz de covarianza mide la variacin total
de las variables
T
e
m
a

5
.

C
o
m
p
o
n
e
n
t
e
s

P
r
i
n
c
i
p
a
l
e
s
Matriz de Covarianza
Obtener vectores y valores propios
Ordenar vectores propios (a1, a2, , ap) y valores
propios (1, 2,.., p ) de acuerdo a estos ltimos :
p
> > > > ...
3 2 1
Varianza de la j-sima componente a
j
es
j
.
T
e
m
a

5
.

C
o
m
p
o
n
e
n
t
e
s

P
r
i
n
c
i
p
a
l
e
s
T
e
m
a

5
.

C
o
m
p
o
n
e
n
t
e
s

P
r
i
n
c
i
p
a
l
e
s
Variables que tienen fuertes relaciones con
las componentes principales:
Aquellas que tienen elementos en el vector
propio mayores en valor absoluto que las
otras variables en el mismo vector propio.
T
e
m
a

5
.

C
o
m
p
o
n
e
n
t
e
s

P
r
i
n
c
i
p
a
l
e
s
T
e
m
a

5
.

C
o
m
p
o
n
e
n
t
e
s

P
r
i
n
c
i
p
a
l
e
s
Las componentes principales tienen como caracterstica
que son vectores ortonormales, es decir:
a
i
a
i
=1 y a
i
a
j
=0 i j
1
0
0
0
0
1
Por ejemplo,
b
1
=
b
2
=
Son vectores ortonormales
T
e
m
a

5
.

C
o
m
p
o
n
e
n
t
e
s

P
r
i
n
c
i
p
a
l
e
s
T
e
m
a

5
.

C
o
m
p
o
n
e
n
t
e
s

P
r
i
n
c
i
p
a
l
e
s
Primera componente como combinacin lineal de x1 y x2
T
e
m
a

5
.

C
o
m
p
o
n
e
n
t
e
s

P
r
i
n
c
i
p
a
l
e
s
Cada valor j representa la varianza de los datos
proyectada sobre la componente principal
Obsrvese aqu
que 1 >> 2 ya que
es mayor la
variabilidad sobre la
primera componente
T
e
m
a

5
.

C
o
m
p
o
n
e
n
t
e
s

P
r
i
n
c
i
p
a
l
e
s
Calificaciones de los Componentes Principales (Scores)
Sea x
r
: vector de variables medidas para la r-sima
observacin
Vector (calificacin) de la j-sima componente principal,
para la r-sima observacin es:
y
rj
= a
j
(x
r
- ) para j=1,2,,p y r=1,2,n
T
e
m
a

5
.

C
o
m
p
o
n
e
n
t
e
s

P
r
i
n
c
i
p
a
l
e
s
y
rj
= a
j
(x
r
-)
y
11
?
T
e
m
a

5
.

C
o
m
p
o
n
e
n
t
e
s

P
r
i
n
c
i
p
a
l
e
s
0.149
0.132
0.029
.
.
.
6
7
2
5
.
.
.
10
6
7.08
7.08
6.14
.
.
.
5.958

-
=
0.149(6-6)+0.132(7- 7.08) + 0.030(2-7.083) + +0.274(10-5.958)
= 4.304
y
11
=
Valor del elemento r (solicitante 1) en la
componente principal j (primera componente)
Solicitante 1
Componente 1
T
e
m
a

5
.

C
o
m
p
o
n
e
n
t
e
s

P
r
i
n
c
i
p
a
l
e
s
4.3
T
e
m
a

5
.

C
o
m
p
o
n
e
n
t
e
s

P
r
i
n
c
i
p
a
l
e
s
T
e
m
a

5
.

C
o
m
p
o
n
e
n
t
e
s

P
r
i
n
c
i
p
a
l
e
s
CUNTAS COMPONENTES ?
PUESTO QUE LA VARIANZA TOTAL, ES LA SUMA DE LAS
VARIANZAS SOBRE CADA COMPONENTE:
0
2 1
1
> > > =

=
p
p
j
j VAR
SE TOMAN SUFICIENTES j QUE EXPLIQUEN UN ALTO % DE LA
VARIANZA TOTAL
UN CRITERIO ALTERNATIVO ES CONSIDERAR los j QUE SEAN
MAYOR QUE EL PROMEDIO DE VARIANZA POR COMPONENTE:
p
VAR
j
>
T
e
m
a

5
.

C
o
m
p
o
n
e
n
t
e
s

P
r
i
n
c
i
p
a
l
e
s
8 8/20 - 0.40 8/20 = 0.40
6 6/20 - 0.30 14/20 = 0.70
3 3/20 - 0.15 17/20 = 0.85
2 2/20 - 0.10 19/20 = 0.95
1 1/20 - 0.05 20/20 = 1.00
C1
C2
C3
C4
C5
20
20/5 = 4 => Se seleccionan los lambda >= 4
CUNTAS COMPONENTES ?
p
VAR
j
>
Valor propio % individual % acumulado
T
e
m
a

5
.

C
o
m
p
o
n
e
n
t
e
s

P
r
i
n
c
i
p
a
l
e
s
LA PRUEBA DEL BASTN ROTO
LOS CRITERIOS ANTERIORES TIENEN LA DEBILIDAD DE QUE SE
ESPERA QUE LOS PRIMEROS VALORES PROPIOS SEAN
SUPERIOR AL PROMEDIO SIN QUE ESTO IMPLIQUE UN
SIGNIFICADO ESPECIAL.
POR AZAR SE QUIEBRA UN BASTN EN p PARTES, CUL ES EL
VALOR ESPERADO DE LOS TROZOS DEL BASTN?
p j 1 ) (
0
1 1
s s =

=
+
j p
k
k j p j
L E
E(L1) > E(L2) > E(L3)
T
e
m
a

5
.

C
o
m
p
o
n
e
n
t
e
s

P
r
i
n
c
i
p
a
l
e
s
Supongamos n=4, tenemos:
0625 . 0
4
1
4
1
) (
1458 . 0
3
1
4
1
4
1
) (
2708 . 0
2
1
3
1
4
1
4
1
) (
5208 . 0 1
2
1
3
1
4
1
4
1
) (
4
3
2
1
=
|
.
|

\
|
=
=
|
.
|

\
|
+ =
=
|
.
|

\
|
+ + =
=
|
.
|

\
|
+ + + =
L E
L E
L E
L E
52.08
79.16
93.74
100
Porcentaje Acumulado
T
e
m
a

5
.

C
o
m
p
o
n
e
n
t
e
s

P
r
i
n
c
i
p
a
l
e
s
Las m primeras componentes son significativas si explican
mayor varianza que los m primeros valores medios del
modelo del bastn roto. Se considera que las dems
componentes descomponen la varianza residual al azar.
Por ejemplo, si la dimensin es 4 los valores esperados de los
trozos son:
0.5208 0.2708 0.1458 0.0625
52.08 79.16 93.74 100 % Acumulado
Si los valores propios obtenidos son (en %):
0.65; 0.18; 0.09; 0.08
Cules componentes se seleccionaran?
T
e
m
a

5
.

C
o
m
p
o
n
e
n
t
e
s

P
r
i
n
c
i
p
a
l
e
s
T
e
m
a

5
.

C
o
m
p
o
n
e
n
t
e
s

P
r
i
n
c
i
p
a
l
e
s
T
e
m
a

5
.

C
o
m
p
o
n
e
n
t
e
s

P
r
i
n
c
i
p
a
l
e
s
ESTUDIO DE LA DISTRIBUCIN DE LA
FUERZA LABORAL EMPLEADA (%) EN 9
DIFERENTES SECTORES ECONMICOS EN
26 PAISES DE EUROPA
OBJETIVO:
REDUCCIN DE LADIMENSIONALIDAD DE
LOS DATOS CON EL PROPSITO DE AISLAR GRUPOS DE
PAISES CON SIMILAR DISTRIBUCIN DEL EMPLEO
YAYUDAR A LA COMPRENSIN DE LA RELACIN
ENTRE LOS PAISES
T
e
m
a

5
.

C
o
m
p
o
n
e
n
t
e
s

P
r
i
n
c
i
p
a
l
e
s
PAIS AGRO MINE MANU ENER CONST SER_IND FINA SOCIAL TR_COMU
BELG 3.3 0.9 27.6 0.9 8.2 19.1 6.2 26.6 7.2
DINA 9.2 0.1 21.8 0.6 8.3 14.6 6.5 32.2 7.1
FRAN 10.8 0.8 27.5 0.9 8.9 16.8 6.0 22.6 5.7
WALE 6.7 1.3 35.8 0.9 7.3 14.4 5.0 22.3 6.1
IRLA 23.2 1.0 20.7 1.3 7.5 16.8 2.8 20.8 6.1
ITAL 15.9 0.6 27.6 0.5 10.0 18.1 1.6 20.1 5.7
LUXE 7.7 3.1 30.8 0.8 9.2 18.5 4.6 19.2 6.2
HOLA 6.3 0.1 22.5 1.0 9.9 18.0 6.8 28.5 6.8
INGL 2.7 1.4 30.2 1.4 6.9 16.9 5.7 28.3 6.4
AUST 12.7 1.1 30.2 1.4 9.0 16.8 4.9 16.8 7.0
FINL 13.0 0.4 25.9 1.3 7.4 14.7 5.5 24.3 7.6
GREC 41.4 0.6 17.6 0.6 8.1 11.5 2.4 11.0 6.7
NORU 9.0 0.5 22.4 0.8 8.6 16.9 4.7 27.6 9.4
PORT 27.8 0.3 24.5 0.6 8.4 13.9 2.7 16.7 5.7
ESPA 22.9 0.8 28.5 0.7 11.5 9.7 8.5 11.8 5.5
SUEC 6.1 0.4 25.9 0.8 7.2 14.4 6.0 32.4 6.8
SUIZ 7.7 0.2 37.8 0.8 9.5 17.5 5.3 15.4 5.7
TURK 66.8 0.7 7.9 0.1 2.8 5.2 1.1 11.9 3.2
BULG 23.6 1.9 32.3 0.6 7.9 8.0 0.7 18.2 6.7
CHEK 16.5 2.9 35.5 1.2 8.7 9.2 0.9 17.9 7.0
EALE 4.2 2.9 41.2 1.3 7.6 11.2 1.2 22.1 8.4
HUNG 21.7 3.1 29.6 1.9 8.2 9.4 0.9 17.2 8.0
POLO 31.1 2.5 25.7 0.9 8.4 7.5 0.9 16.1 6.9
RUMA 34.7 2.1 30.1 0.6 8.7 5.9 1.3 11.7 5.0
USSR 23.7 1.4 25.8 0.6 9.2 6.1 0.5 23.6 9.3
YUGO 48.7 1.5 16.8 1.1 4.9 6.4 11.3 5.3 4.0
Fuente: Euromonitor(1979)
TABLA DE DATOS EN %
T
e
m
a

5
.

C
o
m
p
o
n
e
n
t
e
s

P
r
i
n
c
i
p
a
l
e
s
PRIN1 PRIN2
AGRO -.524072 0.053465
MINE -.001726 0.618020
MANU 0.347880 0.354503
ENER 0.255479 0.261699
CONST 0.325827 0.050426
SER_IND 0.377426 -.352022
FINA 0.073925 -.452389
SOCIAL 0.387558 -.220970
TR_COMU 0.367117 0.202703
CONTRASTES
ENTRE LOS
SECTORES DE
OCUPACIN
COMPONENTES PRINCIPALES
Eigenvalue Difference Proportion Cumulative
PRIN1 3.48258 1.34997 0.386953 0.38695
PRIN2 2.13261 1.03443 0.236957 0.62391
PRIN3 1.09818 0.10331 0.122020 0.74593
PRIN4 0.99487 0.45132 0.110541 0.85647
PRIN5 0.54354 0.15683 0.060394 0.91686
PRIN6 0.38671 0.16198 0.042968 0.95983
PRIN7 0.22473 0.08803 0.024970 0.98480
PRIN8 0.13669 0.13661 0.015188 0.99999
PRIN9 0.00009 . 0.000010 1.00000
PRIN1 3.48258 1.34997 0.386953 0.38695
PRIN2 2.13261 1.03443 0.236957 0.62391
PRIN3 1.09818 0.10331 0.122020 0.74593
PRIN4 0.99487 0.45132 0.110541 0.85647
PRIN5 0.54354 0.15683 0.060394 0.91686
PRIN6 0.38671 0.16198 0.042968 0.95983
PRIN7 0.22473 0.08803 0.024970 0.98480
PRIN8 0.13669 0.13661 0.015188 0.99999
PRIN9 0.00009 . 0.000010 1.00000
T
e
m
a

5
.

C
o
m
p
o
n
e
n
t
e
s

P
r
i
n
c
i
p
a
l
e
s
ESPACIO DE 2 COMPONENTES
COMPONENTES PRINCIPALES
T
e
m
a

5
.

C
o
m
p
o
n
e
n
t
e
s

P
r
i
n
c
i
p
a
l
e
s
Eigenfaces

También podría gustarte