Está en la página 1de 40

MSc. CHRISTIAN JACINTO H.

Anlisis Multivariado
Es el conjunto de mtodos estadsticos cuya finalidad
es analizar simultneamente conjuntos de datos
multivariantes en el sentido de que hay varias variables
medidas para cada individuo objeto estudiado.
Su razn de ser radica en un mejor entendimiento del
fenmeno objeto de estudio obteniendo informacin
que los mtodos estadsticos univariantes y bivariantes
son incapaces de conseguir.
Clasificacin en el Anlisis
Multivariado
TECNICA OBJETIVO

Tcnicas de reconocimiento de patrones no supervisado

Anlisis de clster, Mapeo no lineal, anlisis de
componentes principales
Encontrar relaciones y semejanzas
( grupos o clases) en los datos

Tcnicas de reconocimiento de patrones supervisado

Anlisis multivariado de la varianza (MANOVA), anlisis
discriminante, K-vecinos prximos (kNN), maquina de
aprendizaje lineal, clasificacin de Bayes, SIMCA,
clasificacin UNEQ
Demarcacin cuantitativa de las clases
a priori, relacin entre propiedades de
clases y variables

Mtodos factoriales

Anlisis de factores, anlisis de componentes principales,
anlisis de correlacin cannica
Encontrar factores o relaciones entre
las variables y/o objetos
cuantitativamente

Correlaciones y regresiones

Regresin lineal mltiple, regresin de componentes
principales, regresin en mnimos cuadrados (PLS)
Descripcin cuantitativa de las
relaciones entre las variables


Preprocesamiento de Datos
Los datos faltantes no ingresan en el tratamiento de
datos. Deben ser reemplazados por el promedio o en
el peor de los casos por el generado por un nmero
aleatorio en el rango considerado de la columna o fila.
Las variables de los datos que estn altamente
correlacionados, o son redundantes o constantes
pueden ser eliminadas.
Centrado y Autoescalado
Para eliminar las diferencias entre las caractersticas de cada
variable (diferencia de los valores absolutos, y rangos variables):

Centrado a la media:


Escalado en el rango:



Autoescalado:

*
k
ik ik
x =x -x
k
*
ik
ik
k
x -x
x =
s
*
ik k
ik
k k
x -x (min)
x =
x (max)-x (min)
Centrado y Autoescalado
Datos originales Datos centrados Datos autoescalados
Matriz de Varianza-Covarianza y la
Matriz de Correlacin
La transformacin de los datos originales a un nuevo sistema de
coordenadas requiere la formacin de una matriz de datos que es
derivado de las relaciones que se encuentran entre las variables.
Esta deriva de la matriz de varianza-covarianza y de la matriz de
correlacin.
Las varianzas y covarianzas se obtienen de:
( )
n
2
2
j
ij ij
i=1
1
s = x -x
n-1

( )( )
n
j k
ij ik
i=1
1
cov(j,k)= x -x x -x
n-1

Varianza
Covarianza
Matriz de Varianza-Covarianza y la
Matriz de Correlacin
La matriz de Covarianza:





La matriz de covarianza es usada en casos donde las medidas de
las variables son comparables. Si las medidas son ampliamente
diferentes, se pueden escalar o utilizar la matriz de correlacin.
2
11
2
22
2
pp
s cov(1,2) cov(1,p)
cov(2,1) s cov(2,p)
C=
cov(p,1) cov(p,2) s
(
(
(
(
(
(

Matriz de Varianza-Covarianza y la
Matriz de Correlacin
Para la matriz de correlacin, se requiere el coeficiente de
correlacin:




La matriz de correlacin:
( )( )
( ) ( )
n
j k
ij ik
i=1
ij 1/2
n n
2 2
j k
j k
ij ik
i=1 i=1
x -x x -x
cov(j,k)
r = =
s s
x -x x -x
(
(


12 1p
12 2p
1p 2p
1 r r
r 1 r
R=
r r 1
(
(
(
(
(
(

Anlisis de Componentes
Principales (ACP)
El ACP permite reducir la dimensionalidad de los datos, transformando
el conjunto de p variables originales en otro conjunto de p variables
incorrelacionadas, llamadas componentes principales.
El ACP es adecuado para grupos de datos con variables correlacionadas
tal como sucede a menudo con los datos de origen qumico.
En el ACP existe la opcin de usar la matriz de correlaciones o bien, la
matriz de covarianzas. En la primera opcin se le est dando la misma
importancia a todas y a cada una de las variables. La segunda opcin se
puede utilizar cuando todas las variables tengan las mismas unidades
de medida.

Interpretacin del ACP
largo
ancho
Interpretacin del ACP
largo
ancho
Interpretacin del ACP
PC1
PC2
Primer componente:
Tamao = largo + ancho
centroide
Otro ejemplo con 3 variables
en 28 muestras
Variables: X1, X2, X3
Muestras: a - z
INTERPRETACIN MATEMTICA
Se tiene la siguiente matriz de variables manifiestas:







|
|
|
|
|
|
|
|
.
|

\
|
=
nm nj n n
im ij i i
j
m j
x x x x
x x x x
x x x
x x x x






2 1
2 1
2 22 21
1 1 12 11
X
INTERPRETACIN MATEMTICA
El objetivo del anlisis de componentes principales se describe
como la resolucin de las combinaciones lineales:





Donde u
ip
son los componentes principales, y a
ij
el peso que
ejerce la variable manifiesta sobre el componente principal.
En forma matricial se puede representar de la siguiente manera:
i1 i1 11 i2 12 im 1m
i2 i1 21 i2 22 im 2m
im i1 m1 i2 m2 im mm
u =x a +x a + +x a
u =x a +x a + +x a
....................................................
u =x a +x a + +x a
U = X A
INTERPRETACIN MATEMTICA
El anlisis de componentes principales se reduce a calcular los
coeficientes a
pj
de forma que se satisfagan las condiciones
siguientes:
El primer componente principal debe retener la mxima varianza de
los datos, la segunda componente debe retener la siguiente mxima
varianza, y as sucesivamente.
Cada componente debe ser normalizada y ortogonales (no
correlacionadas) entre s de los nuevos ejes.
Esta transformacin se realiza con los valores propios.
INTERPRETACIN MATEMTICA
La transformacin con valores propios para A, y siguiendo las
condiciones antes mencionadas llega a ser:
A = V A
Donde V es la matriz cuadrada m x m de las cargas, constituida por m
vectores, uno por cada variable manifiesta: v1, v2..., vj ..., vm (columnas
de V), y tambin por m vectores transpuestos ortonormales, uno por
cada componente principal (filas de V).
A es una matriz diagonal cuadrada de dimensiones m x m, que
contiene los autovalores, varianzas explicadas o pesos de los
componentes. La traza de la matriz A es la varianza total de los datos.



La varianza explicada est dada por:
m
p
p=1
tr()=

Con:
1
>
2
>
3
> . >
m
.
p

%= 100
tr()
INTERPRETACIN MATEMTICA
El sistema de ecuaciones puede quedar de la siguiente manera:
U A = X V
Un ejemplo para tres variable manifiestas:
(
(
(

(
(
(
(

3
2
1
43
33
23
13
42
32
22
12
41
31
21
11
0
0
0
0
0
0

x
u
u
u
u
u
u
u
u
u
u
u
u
(
(
(

(
(
(
(

33
23
13
32
22
12
31
21
11
43
33
23
13
42
32
22
12
41
31
21
11
v
v
v
v
v
v
v
v
v
x
x
x
x
x
x
x
x
x
x
x
x
x
=
INTERPRETACIN MATEMTICA
La transformacin final de las variables manifiestas
queda:
X = U A V
T
INTERPRETACIN MATEMTICA
X es la matriz n x m de las variables manifiestas.
U es la matriz n x m de las puntuaciones de los m componentes
principales, que son vectores ortonormales, y que a la vez
representan los pesos de los n objetos sobre los nuevos
componentes.
V
T
es la matriz cuadrada m x m de las cargas, constituida por m
vectores transpuestos ortonormales, uno por cada componente
principal. Representa las contribuciones de las m variables
manifiestas a la construccin de ese componente.
A es una matriz diagonal cuadrada (todos los elementos
distintos de la diagonal son cero) de dimensiones m x m, que
contiene los autovalores, varianzas explicadas o "pesos" de los
componentes.
INTERPRETACIN MATEMTICA
La matriz A se obtiene de la matriz de varianzas-covarianzas:
11 12 1 1
21 22 2
1 2
1 2
j m
j
X
i i ij im
m m mj mm
s s s s
s s s
V
s s s s
s s s s
| |
|
|
|
= |
|
|
|
|
\ .
|
|
|
|
|
|
|
|
.
|

\
|
= A
mm
ij







0 0 0
0 0 0
0 0
0 0 0
22
11
Seleccin del Nmero ptimo de
Componentes Principales
Es conveniente disponer de criterios objetivos que indiquen
cuantos vectores son realmente necesarios. Los criterios son:
Por el porcentaje satisfactorio de varianza explicada acumulada, tal
como por ejemplo, 60 o 70 %.
Del estudio grfico de los autovalores, o de la varianza explicada
acumulada y residual. Los componentes ptimos se muestran en
la zona de cada brusca con la otra donde la cada es gradual.
Mediante el estudio grfico de cocientes de autovalores sucesivos.
El componente principal es igual nmero de orden del autovalor
que figura como denominador cuando se produce el primer pico.
Seleccin del Nmero
ptimo de Componentes
Principales
Grficos de cocientes de autovalores
Grfico de sedimentacin
Anlisis Grfico
del ACP
Los diagrama de
puntuaciones (o de scores)
muestra la proyeccin lineal
de los objetos sobre los
componentes principales.
Adems muestra las
correlaciones que existen
entre ellas.
El diagrama de cargas
muestra las correlaciones e
importancia de las variables
caractersticas sobre los
componentes principales.

Diagrama doble (biplot)
El diagrama doble (biplot) se
obtiene superponiendo los
diagramas de puntuaciones y
cargas para un mismo plano.
El diagrama doble informa
sobre las relaciones entre los
objetos y los grupos formados
por las variables manifiestas,
y por ello permite extraer
conclusiones acerca de las
relaciones entre los objetos y
las variables fundamentales.
24
Ejemplo Imgenes
103 104 106 106 123 120 114 111 127 134 125 132 125 123 139 137 147 154 160
98 103 113 116 114 114 111 109 118 123 127 129 129 129 132 142 149 154 160
103 101 106 108 108 113 123 120 116 116 118 123 134 137 134 144 144 147 152
116 114 113 114 111 116 132 129 125 120 123 129 129 129 139 139 142 142 147
104 108 111 113 113 114 120 120 120 120 125 127 125 127 139 142 149 152 149
108 109 111 108 104 111 118 116 123 127 132 134 137 137 137 149 142 144 157
106 108 109 108 103 109 120 120 129 134 134 134 142 142 144 147 144 152 157
101 103 100 103 106 109 123 125 129 134 134 134 142 142 144 139 157 160 157
100 100 100 104 109 113 123 125 127 129 137 139 142 144 142 142 157 160 154
97 100 106 109 114 116 125 129 132 129 134 137 142 142 147 149 147 147 160
97 100 109 111 116 118 127 132 137 134 127 129 137 142 142 152 139 144 160
101 104 109 113 114 118 114 116 127 129 129 132 142 154 152 166 178 182 182
103 108 109 109 118 120 120 123 137 134 147 147 166 178 160 152 154 163 188
103 106 109 111 118 125 129 132 149 144 152 149 142 142 132 123 108 111 116
108 113 123 129 139 147 142 139 125 113 101 97 83 82 83 83 87 87 88
113 116 123 127 132 134 125 114 97 89 83 82 75 77 79 89 104 104 100
116 127 132 125 103 97 83 78 77 79 88 94 103 101 100 92 94 104 87
118 125 118 108 88 84 77 78 83 85 85 89 84 87 82 69 67 69 63
108 97 84 84 87 87 82 75 63 60 65 56 43 44 41 37 28 27 31
83 79 77 74 69 67 54 49 38 35 25 27 30 29 28 27 27 27 21
78 77 74 67 59 54 44 38 24 21 28 32 38 36 36 36 31 28 21
Datos: Imgenes de una cara (300x250 pixels)
codificados en una escala de grises de 0 a 256.
24
Ejemplo Imgenes
Ejemplo Imgenes (3)
Compresin
Tamao original:
300*250 = 75000
10 componentes: 300*10+250*10=5500
Factor de compresin :13.64
Calidad muy baja
15 componentes: 300*15+250*15 = 8250
Factor de compresin : 9
Calidad Baja
25 componentes: 300*25+250*25 = 14050
Factor de compresin : 5.34
Calidad media
25 componentes: 300*40+250*40 = 22000
Factor de compresin : 3.41
Calidad alta
Ejemplo 1
Para investigar un crimen se ha recuperados un cabello en la escena del
crimen para asignarlo a un sujeto. Aparte de las de las investigaciones
morfolgicas el cabello es analizado para los elementos cobre,
manganeso, cloro, bromo y yodo en ppm. Para comparar se dispuso del
contenido elemental de tres muestras de cabello de tres sospechosos.
Cabello Cu Mn Cl Br I
1 9.2 0.3 1730 12 3.6
2 12.4 0.39 930 50 2.3
3 7.2 0.32 2750 65.3 3.4
4 10.2 0.36 1500 3.4 5.3
5 10.1 0.5 1040 39.2 1.9
6 6.5 0.2 2490 90 4.6
7 5.6 0.29 2940 88 5.6
8 11.8 0.42 867 43.1 1.5
9 8.5 0.25 1620 5.2 6.2
Ejemplo 2
El siguiente cuadro muestra las calificaciones medias
dadas por un panel de expertos catadores que han
examinado una serie de muestras de zumos de
melocotn.
Los cdigos G1 a G4 se refieren a 4 variedades de fruta
y de T1 se refiere el recogido al comienzo de la
temporada y T3 al final de la misma.
Datos de la evaluacin sensorial
de 12 zumos de melocotn.
MUESTRA COLOR TRANSPARENCIA OLOR DULCE ACIDO VISCOSIDAD PULPA
G1-T1 3.43 6.83 3.95 9.14 3.50 2.67 2.81
G2-T1 3.69 6.28 5.89 5.69 5.23 3.31 3.98
G3-T1 3.89 6.18 6.67 4.14 6.17 4.08 5.03
G4-T1 4.04 6.01 7.92 3.31 7.59 5.13 6.18
G1-T2 6.17 5.78 3.72 9.58 3.27 4.14 4.42
G2-T2 6.37 5.08 5.78 6.69 5.18 5.75 5.78
G3-T2 6.43 4.67 6.96 5.07 6.70 6.47 6.19
G4-T2 6.69 4.37 7.51 3.98 7.70 7.22 7.75
G1-T3 8.44 3.91 3.83 8.78 3.38 6.19 6.28
G2-T3 8.75 3.78 5.99 5.39 5.80 7.89 7.44
G3-T3 9.00 3.46 6.44 3.81 6.24 8.53 7.89
G4-T3 9.79 3.18 7.79 2.97 7.38 8.94 8.33
Ejemplo 3
Este estudio implica un cromatograma obtenido en
cromatografa lquida de HPLC con deteccin de
arreglo de diodos (HPLC-DAD) muestra 30 puntos en
el tiempo (cada uno a intervalos de 1 s) y 28 longitudes
de onda de aproximadamente 4,8 nm intervalos tal
como se presentan en la Tabla 1. Las absorbancias se
presentan en UA (unidades de absorbancia). Hacer un
estudio del solapamiento de picos del cromatograma