Multivariate Analysis Primer

Anlisis Multivariado
Introduccin
En la actualidad es comn que un experimento produzca grandes cantidades de datos. Con los
instrumentos de medida modernos es fcil determinar los valores de varias variables por cada muestra
bajo anlisis. A stos se los denomina datos multivariados. El experimentador entonces enfrenta la
tarea de extraer la informacin relevante contenida en tales datos; en principio, el objetivo trazado
parece muy difcil de completar. Afortunadamente, el analista puede hacer uso de un arsenal de
mtodos matemticos y estadsticos agrupados bajo la etiqueta de anlisis multivariado que le
permiten elucidar la informacin til presente en grandes listas de datos y en consecuencia describir los
fenmenos asociados con el sistema bajo anlisis. El anlisis multivariado aprovecha la potencia de los
computadores y el desarrollo de sofisticado software amigable con el usuario para procesar la
informacin de todas las variables de manera simultnea.
En general, en anlisis multivariado un conjunto de datos est constituido por n muestras u objetos
descritos por p variables, los cuales pueden ser datos experimentales de cualquier tipo. Este conjunto se
organiza en una matriz de dimensiones np (n filas, p columnas) donde cada fila representa una de las
muestras y cada columna contiene los valores de una de las variables.

Figura 1. Estructura de un conjunto de datos multivariados
Cuando se han medido solamente dos variables es posible representar grficamente las muestras en un
plano bidimensional mediante puntos cuyas coordenadas son dadas por los valores de las dos variables
para cada muestra. Este grfico es muy til para encontrar pautas y relaciones entre las muestras.
En el caso de 3 variables la representacin grfica resulta ms difcil, pero an posible con la ayuda de
un computador. En el caso de trabajar con 4 o ms variables la representacin grfica ya no es viable.
Aqu es donde los mtodos del anlisis multivariado asisten al experimentador a establecer aquellas
pautas y relaciones que tan fcilmente se observan mediante la inspeccin visual de los grficos en dos
o tres dimensiones.
A continuacin se describirn los mtodos de anlisis multivariado ms comnmente utilizados para
ilustrar sus propsitos y su potencia. Para mostrar la filosofa de los mtodos se emplearn conjuntos de
datos sencillos y se efectuarn algunas aplicaciones prcticas.
Algunos conceptos bsicos de matrices
Puesto que en anlisis multivariado se manipulan matrices se considera importante revisar brevemente
algunos conceptos bsicos de stas.
Una matriz es un arreglo rectangular de n filas y p columnas; es decir una tabla. Si el nmero de filas
es igual al nmero de columnas (n = p) esta matriz se llama cuadrada.
Los elementos de una matriz se identifican asignando suscritos a las filas y columnas. As, para la matriz
A sus elementos son a
ij
. Por ejemplo, a
32
identifica el elemento en la fila 3 y columna 2 de la matriz.
La diagonal que se extiende del extremo superior izquierdo al inferior derecho de una matriz cuadrada
se llama principal. Los elementos de esta diagonal son los elementos principales o elementos diagonales.
La suma de estos elementos se denomina traza de la matriz.

Figura 2. Ejemplo de una matriz cuadrada, su diagonal o principal y el clculo de la traza.
Una matriz con una sola fila se llama vector fila. Igualmente, una matriz con una sola columna se llama
vector columna. Una matriz nula es aquella cuyos elementos son todos cero.
Una matriz cuyos elementos fuera de la diagonal son ceros es una matriz diagonal. Si todos los
elementos de una matriz diagonal son iguales, sta es una matriz escalar. Si todos los elementos de
una matriz escalar son 1 sta es una matriz identidad.
Una matriz traspuesta A
T
se obtiene convirtiendo sus filas en columnas y viceversa.

Figura 3. Ejemplos de vector fila, vector columna, matriz nula, matriz diagonal, matriz escalar, matriz
identidad y matriz traspuesta.
A continuacin se enuncian las reglas para adicin, sustraccin, multiplicacin y divisin entre matrices :
Adicin : Z = A + B; z
ij
= a
ij
+ b
ij

Sustraccin : Z = A - B; z
ij
= a
ij
- b
ij

Multiplicacin: Z = A*B, si # columnas en A = # filas en B; z
ij
= a
i1
* b
1j
+ a
i2
* b
2j
+ a
i3
* b
3j
+ ... a
im
*
b
nj

Las reglas para multiplicacin y divisin de una matriz por un escalar son ms simples y se pueden
enunciar como sigue:
Al multiplicar la matriz A por un escalar c, se obtiene la matriz Z cuyos elementos son z
ij
= c*a
ij
.
Anlogamente, al dividir la matriz A para un escalar c se obtiene z
ij
= (1/c)*a
ij
.

Figura 4. Ejemplos de operaciones de suma de matrices, resta de matrices, multiplicacin de una matriz
por un escalar, divisin de una matriz para un escalar y multiplicacin de dos matrices.

Pretratamiento de los datos
Antes de analizar los datos frecuentemente es conveniente y en ocasiones indispensable modificar
los datos originales aplicando oportunas transformaciones con el propsito de enfatizar la informacin
contenida en los datos eliminando informacin sucia producto de rdenes de magnitud muy
diferentes en los valores de ciertas variables. Tales transformaciones de los datos originales se conocen
como pretratamiento.
La tcnica ms popular de pretratamiento de los datos es el Autoscaling. Este procedimiento remueve
cualquier peso inadvertido que puede surgir de usar unidades arbitrarias en ciertas variables. El
autoscaling realiza dos operaciones simultneas sobre cada dato, le resta la media de su columna y este
resultado lo divide para la desviacin estndar de esa columna.
,]
i
=
x
i,]
-x
]

s
]
(1)
Luego de aplicado el autoscaling, las variables transformadas tienen media igual a cero y desviacin
estndar igual a 1. Esta caracterstica comn garantiza que todas las variables sean representadas en
una escala comn a todas y as tengan la misma importancia previamente a su anlisis.
Ejercicio de muestra No. 1
Aplique autoscaling sobre los datos se muestran a continuacin:

Muestra No. P Ni
1 3555 0,328
2 3535 0,425
3 3294 0,263
4 1682 0,859
5 1593 1,560
6 1554 1,013
7 3066 0,256

X
]
2611 0,672
]
951,76 0,4932

Procedimiento
1. Se calcula la media aritmtica de cada variable (columna ) de la matriz de datos, como sigue:
P
=
SSSS +SSSS +S294 + Su66
7
= 2611

N
=
u,S28 +u,42S +u,26S + u,2S6
7
= u,672

2. Se calcula la desviacin estndar de cada variable:
3.
s
P
=
_
(SSSS 2611)
2
+(SSSS 2611)
2
+(S294 2611)
2
+ +(Su66 2611)
2

7 1
= 9S1,76

s
N
=
_
(u.S28 u.672)
2
+(u.42S u.672)
2
+(u.26S u.672)
2
+ +(u.2S6 u.672)
2

7 1
= u,49S2u

4. Se calculan los datos autoescalados usando la ecuacin (1). Por ejemplo,

1,1
i
=
3555 -2611
952.75
= u,99

1,2
i
=
0,328 -0,672
0,4932
= u,7u
Etc.

De aqu se obtiene la matriz de datos autoescalados:
Muestra No. P Ni
1 0,99 -0,70
2 0,97 -0,50
3 0,72 -0,83
4 -0,98 0,38
5 -1,07 1,80
6 -1,11 0,69
7 0,48 -0,84

X
]
0 0
]
1 1

Now, your turn guys!
Ejercicio de prctica No. 1
Ejecute una operacin de autoscaling sobre la matriz de datos que aparece a continuacin:
Muestra No. X
1
X
2
X
3

1 10 0,23 2420
2 5,8 0,68 1548
3 7,6 0,16 942
4 9 0,91 3000

Anlisis Inicial
Como un primer paso es til calcular los parmetros estadsticos univariados (medias, desviaciones
estndar, etc.) de los datos. Adems, puesto que se dispone de dos o ms variables se puede determinar
la matriz de correlacin, C, de las variables. sta es una matriz de dimensiones p p cuyos elementos
son los coeficientes de correlacin, r
,]
, de cada pareja de variables y se calcula mediante la siguiente
ecuacin:
=
1
n-1
(X
1
X) (2)
Donde X es la matriz de datos autoescalados y los valores de r
,]
tienen la siguiente propiedad:
1 < r
,]
< +1
Un anlisis de esta matriz permite estudiar el grado de asociacin entre parejas de variables y
determinar la presencia o no de variables redundantes (que contienen informacin similar). Parejas de
variables con coeficiente de correlacin, r
,]
_1 estn fuertemente correlacionadas y por tanto
contienen la misma informacin. Contrariamente, aquellas parejas con coeficiente de correlacin
r
,]
u no estn correlacionadas.
Ejercicio de muestra No. 2
Los siguientes datos proporcionan la concentracin (en mg/kg) de cuatro elementos encontrados en
muestras de arroz. El arroz era de uno de los dos tipos: limpio (L) o sucio (S), perteneca a una de las dos
variedades (A o B) y haba crecido en la estacin hmeda (H) o en la estacin seca (E).
Muestra Variedad Tipo Estacion P K Ni Mo
1 A S E 3555 2581 0.328 0.535
2 A S E 3535 2421 0.425 0.538
3 A S E 3294 2274 0.263 0.509
4 A L E 1682 1017 0.859 0.494
5 A L E 1593 1032 1.56 0.498
6 A L E 1554 984 1.013 0.478
7 B S E 3593 2791 0.301 0.771
8 B S E 3467 2833 0.384 0.407
9 B L E 2003 1690 0.216 0.728
10 B L E 1323 1327 0.924 0.393
11 A S H 3066 1961 0.256 0.481
12 A L H 1478 813 0.974 0.486
13 B S H 3629 2846 1.131 0.357
14 B S H 3256 2431 0.39 0.644
15 B L H 2041 1796 0.803 0.321
16 B L H 1745 1383 0.324 0.619

Calcule la matriz de correlacin. Qu pares de variables aparecen fuertemente correlacionadas? Qu
variable o variables muestran poca correlacin entre s?
PROCEDIMIENTO
Usando un paquete de software especializado (SCAN) se realiza el autoscaling de los datos y luego se
calcula su matriz de correlacin.
La matriz de datos autoescalados es:
Muestra # Var. Tipo Est. P K Ni Mo
1 A S E 1.08220 0.95604 -0.75845 0.15109
2 A S E 1.06064 0.73587 -0.51837 0.17518
3 A S E 0.80091 0.53358 -0.91933 -0.05773
4 A L E -0.93643 -1.19617 0.55581 -0.17820
5 A L E -1.03235 -1.17553 2.29083 -0.14607
6 A L E -1.07438 -1.24158 0.93697 -0.30670
7 B S E 1.12315 1.24502 -0.82528 2.04649
8 B S E 0.98736 1.30282 -0.61985 -0.87692
9 B L E -0.59047 -0.27006 -1.03566 1.70114
10 B L E -1.32335 -0.76958 0.71669 -0.98936
11 A S H 0.55518 0.10286 -0.93666 -0.28260
12 A L H -1.15629 -1.47689 0.84044 -0.24245
13 B S H 1.16195 1.32070 1.22902 -1.27849
14 B S H 0.75995 0.74963 -0.60500 1.02651
15 B L H -0.54952 -0.12419 0.41720 -1.56762
16 B L H -0.86853 -0.69252 -0.76835 0.82572
La matriz de correlacin, C, es la siguiente
P K Ni Mo
P 1.000
K 0.954 1.000
Ni -0.531 -0.528 1.000
Mo 0.150 0.117 -0.527 1.000

* En rojo ndices de correlacin altos
** En azul ndices de correlacin bajos
Las variable P y K estn fuertemente correlacionadas entre s (r = 0.954)
Las parejas de variables P/Mo y K/Mo no manifiestan correlaciones importantes (valores de r muy
pequeos)
Ejercicio de prctica No. 2
La siguiente tabla proporciona la concentracin en g/L de sacarosa, glucosa y sorbitol en zumos de
manzana de 3 marcas diferentes: A, B y C.

Muestra No. Marca Sacarosa Glucosa Fructosa Sorbitol
1 A 20 6 40 4.3
2 A 27 11 49 2.9
3 A 26 10 47 2.5
4 A 34 5 47 2.9
5 A 29 16 40 7.2
6 B 6 26 49 3.8
7 B 10 22 47 3.5
8 B 14 21 51 6.3
9 B 10 20 49 3.2
10 B 8 19 49 3.5
11 C 8 17 55 5.3
12 C 7 21 59 3.3
13 C 15 20 68 4.9
14 C 14 19 74 5.6
15 C 9 15 57 5.4

Calcule la matriz de correlacin. Qu pares de variables aparecen fuertemente correlacionadas? Qu
variable o variables muestran poca correlacin entre s?
Anlisis de Componentes Principales
Un problema que aparece cuando se analiza datos multivariados es que la alta dimensionalidad de los
datos dificulta el reconocimiento de pautas y relaciones entre las muestras o entre las variables. El
anlisis de componentes principales (PCA) es una tcnica que permite reducir la dimensionalidad de un
conjunto de datos y retener la informacin significativa que ste contiene en un menor nmero de
dimensiones. Sin cambiar la estructura de los datos, PCA encuentra o calcula nuevas variables
denominadas componentes principales, PC1, PC2, PCp, las cuales son combinaciones lineales de las
variables originales, x
1
, x
2
, , x
j
, para describir a las muestras.
1 = o
1,1
1
+ o
1,2
2
+ o
1,3
3
+ + o
1,]
]

2 = o
2,1
1
+ o
2,2
2
+ o
2,3
3
+ + o
2,]
]

Etc.
El nmero de componentes principales generado es igual al nmero de variables originales, pero estas
nuevas variables no estn correlacionadas entre s (cada una lleva contiene informacin propia y nica)
y se disponen en un orden jerrquico en cuanto a la informacin que explican. PC1 explica la mayor
cantidad de informacin contenida en los datos, PC2 a su vez explica la mayor cantidad de la
informacin no explicada por PC1, PC3 explica la mayor cantidad de informacin no explicada por PC1 y
PC2, y as sucesivamente. Frecuentemente, se requieren unas pocas componentes (las 2 3 primeras)
para retener la informacin relevante de los datos y caracterizar el sistema bajo anlisis. Idealmente, al
estar la informacin til contenida en las dos o tres primeras componentes, las restantes contienen
informacin redundante y ruido, por lo que pueden ser descartadas.

Figura 2. Direccin en la que se seleccionan las componentes principales. La primera componente
principal (PC1) se escoge en la direccin de mayor varianza de los datos, la segunda (PC2) en la direccin
de mayor varianza residual.

Los grficos, tanto de las muestras como de las variables, sobre las primeras componentes principales
son extremadamente tiles para visualizar la estructura de los datos y reconocer patrones de
comportamiento.
Matemticamente, el anlisis de componentes principales consiste en la rotacin de las variables
originales para generar las componentes principales mediante la siguiente multiplicacin de matrices:
= X (3)
Donde,
X = matriz de dimensiones (n, p) que contienen los datos autoescalados.
V = matriz de dimensiones (p, p) cuyos elementos v
m,j
se denominan loadings y son los coeficientes
de las combinaciones lineales de las variables originales que constituyen las componentes principales.
U = matriz resultante, de dimensiones (n, p), cuyos elementos u
i,j
se denominan scores y son las
nuevas coordenadas de las muestras en el sistema de las componentes principales.
Un elemento de la matriz de scores se calcula as:
,]
= _
,m

m,]
p
m=1
(4)
Los loadings representan la contribucin relativa de las variables originales a las componentes
principales. Mientras ms alto sea el valor del loading de cierta variable en una componente principal,
mayor es la relacin de esa variable con la componente principal. Los vectores columna de la matriz V
son los autovectores de la matriz de correlacin de los datos autoescalados, C, calculada con la ecuacin
(2). Los vectores columna de la matriz V se encuentran solucionando la siguiente ecuacin:
( zI) = u (5)
Donde es un escalar e I es el vector columna identidad. La ecuacin (5) tiene una solucin significativa
cuando:
| zI| = u (6)
La solucin de la ecuacin (6) proporciona las races de , llamadas autovalores. stos cuantifican la
informacin explicada por cada componente principal. Las races de se reemplazan nuevamente en la
ecuacin (5) para obtener los vectores columna de V.
Ejercicio de Muestra No. 3
Realice un anlisis de componentes principales de los datos del ejercicio de muestra No. 2. Obtenga
grficos de scores y de loadings sobre las dos primeras componentes principales. Es posible detectar
agrupamientos de muestras?, y si es as, qu caracterstica resulta importante al determinar la
pertenencia a un grupo?
PROCEDIMIENTO
Utilizando el software SCAN se calculan las componentes principales de los datos en cuestin. stas se
muestran en la siguiente tabla:
Tabla II. Composicin de las componentes principales. Los valores que aparecen en las columnas
corresponden a los loadings de las variables originales sobre cada componente principal. Las mayores
contribuciones de las variables originales en las diferentes componentes principales se indican en
negrillas.
Loading PC1 PC2 PC3 PC4
P 0.577 0.340 -0.239 0.703
K 0.572 0.366 -0.186 -0.710
Ni -0.509 0.357 -0.783 -0.021
Mo 0.283 -0.789 -0.544 -0.035

Tabla III. Autovalores, varianza (informacin) individual y varianza (informacin) acumulada por las
componentes principales.
Componente PC1 PC2 PC3 PC4
Autovalor 2.4884 1.1201 0.3464 0.0451
Varianza Individual (%) 62.2 28.0 8.7 1.1
Varianza Acumulada(%) 62.2 90.2 98.9 100.0

Los grficos de loadings y scores se muestran a continuacin:

Figura 3. Grfico de loadings de las variables originales sobre las componentes principales PC1/PC2. Se
observa que las variables K y P son fuertemente correlacionadas.

Figura 4. Grficos de scores, o proyeccin de las muestras sobre las dos primeras componentes.
De la inspeccin de la Figura 4 se observa que las muestras se disponen en 3 grupos, a saber: Un
primer grupo muy bien definido que contiene las muestras 4, 5, 6, 10, 12 y 15; un segundo grupo
0.5 0.0 -0.5
0.2
-0.3
-0.8
first component
s
e
c
o
n
d

c
o
m
p
o
n
e
n
t
Principal Components Loading Plot
Mo
Ni K
P
2.5 1.5 0.5 -0.5 -1.5 -2.5
2
1
0
-1
-2
first component
s
e
c
o
n
d

c
o
m
p
o
n
e
n
t
16
15
14
13
12
11
10
9
8
7
6
5
4
3
2 1
Principal Components Score Plot
ligeramente ms disperso incluye a las muestras 1, 2, 3, 7, 8, , 11, 13 y 14; y un tercer grupo muy
pequeo integrado por las muestras 9 y 16. A continuacin se listan los grupos junto con sus
caractersticas:
Grupo Uno
Muestras Caractersticas
4 ALE
5 ALE
6 ALE
10 BLE
12 ALH
15 BLH

Grupo Dos
1 ASE
2 ASE
3 ASE
7 BSE
8 BSE
11 ASH
13 BSH
14 BSH
Grupo Tres
9 BLE
16 BLH
Al analizar los tres grupos se evidencia que la caracterstica que permite establecer tales agrupamientos
es el tipo de arroz, el grupo uno contiene solamente muestras de arroz de tipo L (limpio), el grupo dos
contiene solamente muestras de arroz tipo S (sucio) y el grupo tres contiene muestras de arroz de tipo L
(limpio) y de la variedad B.
Ejercicio de Prctica No. 3
Realice un anlisis de componentes principales de los datos de zumo de manzana. Obtenga grficos de
scores y de loadings. Forman las marcas grupos diferenciados?
Anlisis de Agrupamientos (Clustering)
Los mtodos de clustering buscan identificar agrupamientos de objetos o de variables en el conjunto de
datos. Los grficos de proyeccin sobre las componentes principales frecuentemente se pueden usar
como mtodos de clustering visual con excelentes resultados, pero es oportuno recordar que aquellos
muestran slo una parte de la informacin contenida en los datos.
Los mtodos de clustering trabajan directamente sobre el espacio multidimensional de los datos, y por
ende emplean toda la informacin presente en la matriz de datos. El concepto bsico del anlisis de
agrupamientos es la similaridad. Los objetos (o las variables) son agrupados de acuerdo a su cercana
(similaridad) se asume que los objetos similares tienen propiedades comunes un autoscaling de los
datos es fundamental para obtener una respuesta vlida a partir de estos mtodos.
Las mtricas de similaridad se basan en la distancia entre los objetos. La ms utilizada es la distancia
euclidiana:
,]
= _(
,k
],k
)
2
p
k=1
_
1
2
,

Donde d
i,j
es la distancia euclidiana entre los objetos i e j.
Existen muchos mtodos de clustering, los ms populares son los de tipo jerrquico aglomerativo. En
stos, cada una de las n muestras se considera inicialmente como un agrupamiento individual. Los
agrupamientos se van combinando progresivamente usando la mtrica de similaridad para formar
agrupamientos cada vez ms grandes hasta que se obtiene un solo agrupamiento que contiene todas las
muestras. El resultado grfico de este procedimiento es un diagrama con apariencia de rbol, en el cual
se puede visualizar la formacin progresiva de los agrupamientos. El eje vertical del dendograma
muestra la similaridad o distancia entre las muestras, las cuales se representan sobre el eje horizontal.
La persona que ejecuta el anlisis decide el nivel de similaridad al que corta el diagrama para obtener
un determinado nmero de agrupamientos. Las Figuras 5 y 6 muestran la proyeccin de un conjunto de
datos bidimensional y su dendograma, respectivamente. En el dendograma se pueden evidenciar los
grupos que se observan visualmente.
Conjunto de datos

Muestra # X Y
1 1 1
2 1 3
3 2 2
4 5 6
5 6 4
6 5 5

Figura 5. Proyeccin de las muestras sobre las variables originales X e Y.

Figura 6. Dendograma del conjunto de datos detallado anteriormente.
Ejercicio de Muestra No. 4
Realice un anlisis de agrupamientos de los datos del ejercicio de muestra No. 2. Se detectan
agrupamientos de muestras? Cul caracterstica resulta importante al determinar la pertenencia a un
grupo?
PROCEDIMIENTO
Usando el software SCAN se ejecuta un clustering jerrquico de los datos en cuestin. El dendograma
obtenido se muestra a continuacin:

Figura 7. Dendograma del conjunto de datos bajo anlisis
En el dendograma, cortado al 25% de similaridad, se observan dos grandes grupos bien definidos y otro
sumamente pequeo. El grupo verde que incluye a las muestras 4, 5, 6, 10, 12 y 15; y el grupo rojo que
incluye a las muestras 1, 2, 3, 7, 8, 11, 13 y 14. Las muestras 9 y 16 forman el pequeo grupo azul,
relativamente prximo al grupo rojo.
Nuevamente se verifica que la caracterstica que determina esta separacin en grupos es el tipo de arroz
(limpio o sucio). El grupo rojo contiene muestras de arroz sucio exclusivamente; el grupo verde contiene
muestras de arroz limpio exclusivamente; y el grupo azul contiene dos muestras de arroz limpio de la
variedad B.

Ejercicio de Prctica No. 4
Realice un anlisis de agrupamientos de los datos de zumo de manzana. Inspeccione el dendograma
obtenido y establezca si las 3 marcas pueden ser diferenciadas.
Mtodos de Clasificacin
Los mtodos de clasificacin consisten en una serie de tcnicas en las cuales un conocimiento previo
acerca de la membreca de categora de un conjunto de objetos se utiliza para desarrollar un modelo de
clasificacin. El propsito de la regla es usualmente predecir la membreca de categora de nuevos
objetos. En ocasiones el objetivo es solamente probar la hiptesis de clasificacin evaluando al
desempao de la regla sobre un conjunto de datos.

Cuando se emplean tcnicas de clasificacin la matriz de los de datos se divide en dos porciones, el
training set conjunto de objetos de identidad conocida con los cuales se desarrolla la regla de
clasificacin, y el evaluation set, conjunto de objetos con iguales caractersticas que el anterior que se
utiliza para verificar el desempeo de la regla comparando las predicciones de categora con las
clasificaciones reales. Un test set es un grupo de datos de objetos cuyas categoras verdaderas son
desconocidas.
El parmetro estadstico que nos da una idea respecto a la bondad de un modelo de clasificacin es su
capacidad de clasificacin que es el porcentaje de objetos del training set correctamente asignados por
el mtodo.
Mtodo k-NN
La tcnica k-NN es un mtodo de clasificacin no paramtrico muy recomendado por su simplicidad. En
este mtodo un objeto de identidad desconocida es asignado a la categora ms representada en los K
objetos ms prximos a l del training set en el espacio p-dimensional. Computacionalmente, KNN es
muy simple por cada objeto a clasificar se calculan las distancias de esta respecto a todos los dems
objetos, y se toman en consideracin los K objetos ms cercanos, el objeto en examen se clasifica en la
categora ms repetida en los K vecinos.

Figura 8. Estrategia del mtodo k NN. (a) Un objeto de identidad desconocida (x) debe ser asignado a
una de las dos categoras mostradas analizando los k objetos de categora conocida ms prximos a l.
(b) En el ejemplo, con k =3, el objeto desconocido es asignado a la clase tipificada por los rectngulo
azules.
Hay algunos factores que determinan el grado de eficacia del mtodo; el valor de K (generalmente
impar, de 1 a 5) el tipo de pretratamiento utilizado, la mtrica empleada en el clculo de las distancias, y
el modo en que se efecta la asignacin de categora
Respecto al valor K seleccionado, es aconsejable realizar varias pruebas con diferentes valores de K. El
valor ptimo ser aquel que produzca la mejor capacidad de clasificacin, valores impares son
preferidos para evitar eventuales incertidumbres en la clasificacin.

Bibliografa
1. Miller, James & Miller Jane. (2002). Estadstica y Quimiometra para Qumica Analtica, 4
ta

edicin. Prentice Hall, Madrid
2. Hair, Joseph F., Jr., Rolph E. Anderson, Ronald L. Tatham, and William C. Black. (1998).
Multivariate Data Analysis, 5
th
edition. Upper Saddle River, New Jersey: Prentice-Hall,
Incorporated.
3. Todeschini, Roberto (1998). Introduzione alla Chemiometria, Edises, Napoli

Apndice
Ejercicio de Aplicacin de Anlisis Multivariado
ESTUDIO DE LOS HBITOS DE CONSUMO DE ALIMENTOS EN EUROPA USANDO
TCNICAS DE ANLISIS MULTIVARIADO.
Introduccin
Este trabajo es un estudio de los hbitos alimenticios en 16 pases de Europa con el propsito de
identificar tendencias y comportamientos similares. Se utilizaron datos del porcentaje de hogares que
consumen de modo cotidiano 12 alimentos comunes (caf molido, caf instantneo, t, patatas,
pescado congelado, vegetales congelados, manzanas, naranjas, ajo, mantequilla, aceite de oliva y
yogurt).
Los Datos
Los datos fueron organizados en una matriz de 16 filas (objetos) y 12 columnas (variables), la cual se
incluye a continuacin.
Tabla1. Datos usados en el estudio

Los Mtodos
Para extraer la informacin relevante contenida en los datos se usaron los mtodos de anlisis
multivariado conocidos como anlisis de agrupamientos (clustering) y anlisis de componentes
principales (PCA). stos, son potentes herramientas estadsticas que permiten proyectar conjuntos de
datos multivariados en dos o tres dimensiones para su inspeccin visual reteniendo la mayor cantidad
de informacin posible; identificar grupos de muestras o variables con comportamiento similar; y
reducir el nmero de variables que caracterizan un sistema dado (1,2).
El anlisis de componentes principales genera un set de nuevas variables no correlacionadas (PCs), las
cuales son combinaciones lineales de las variables originales. De los resultados de este anlisis fue
posible identificar las variables originales que contribuyen en mayor proporcin a cada PC (inspeccin de
loadings) , y proyectar el conjunto de datos multidimensional en dos dimensiones (grfico PC1 vs. PC2 )
con la menor prdida de informacin posible (3). Un anlisis de agrupamientos jerrquico de las
muestras y las variables permiti detectar las muestras con comportamiento similar y descartar aquellas
variables originales que contienen informacin redundante (4).
RESULTADOS Y DISCUSIN
A continuacin se incluye la matriz de correlacin de los datos autoescalados. En sta se observa que no
existen parejas de variables altamente correlacionadas (la nica pareja de variables que manifiesta una
moderada correlacin es vegetales congelados / pescado congelado con r = 0.905).

Las tablas 2 y 3 presentan los resultados del anlisis de componentes principales. Se incluyen las tres
primeras componentes las cuales, en conjunto, retienen el 72 % de la informacin original contenida en
los datos.
Tabla 2. Autovalores, porcentaje de varianza explicada, y porcentaje acumulado de las tres primeras
componentes.

Tabla 3. Pesos relativos de las variables originales en las tres primeras componentes principales. Las
contribuciones ms importantes se presentan en negrillas.

La inspeccin de la tabla 3 revela que las variables originales ms importantes en PC1 son, en su orden,
consumo de ajo y aceite de Oliva. Las variables originales ms importantes en PC2 son consumo de caf
instantneo, yogurt, y manzanas; en tanto que las variables originales ms importantes en PC3 son
consumo de caf molido y naranjas.
La figura 1 presenta la proyeccin de los objetos en las dos primeras componentes principales, en ella se
evidencian algunos agrupamientos. Puesto que la proyeccin conserva el 55.41% de la informacin
contenida en los datos se debe tener la precaucin de no considerar definitivos los agrupamientos
observados sino como una pauta o tendencia de similitud, slo el clustering proporcionar resultados
concluyentes a este respecto.

Figura 1. Proyeccin de los objetos en el plano PC1/PC2. En el grfico se visualiza el 55.41% de la
informacin total de los datos.
La figura 2, presenta el dendograma producto del clustering de los objetos, cortado al 50% de similitud.

Figura 2. Dendograma obtenido del clustering de los objetos. La lnea gris indica el nivel de similitud del
50 %.

Este grfico evidencia que los objetos se distribuyen en cuatro grupos en virtud de su cercana en el
espacio multidimensional. Tales grupos que aparecen de izquierda a derecha son como sigue:
Grupo uno = Alemania, Blgica, Francia, Luxemburgo y Suiza
Grupo dos = Italia, Espaa, Portugal y Austria
Grupo tres = Suecia, Dinamarca, Noruega y Finlandia
Grupo cuatro = Inglaterra e Irlanda.
Un solo objeto aparece aislado en el dendograma, Holanda, el cual tiene un comportamiento diferente
al de los grupos observados, pero manifiesta una mayor afinidad con el grupo tres.
Se deduce que los grupos observados reflejan la cercana geogrfica de estos pases y su similitud en
costumbres y tradiciones.
La figura 3 muestra el dendograma generado por el clustering de las variables cortado al 50% de
similitud.

Figura 3. Dendograma obtenido del clustering de las variables. La lnea azul indica el nivel de similitud
del 50 %.

En l se distinguen 3 grupos de variables, que son los siguientes:
Grupo 1: Caf molido, manzanas, naranjas, t y mantequilla
Grupo 2: Caf instantneo, yogurt, patatas, pescado congelado y vegetales congelados
Grupo 3: Aceite de oliva y ajo
El resultado del clustering de las variable puede se utilizado para seleccionar un subset de variables
suficientes para caracterizar el sistema bajo estudio tomando, por ejemplo, una o dos variables
representativas de cada agrupamiento y as reducir el tiempo y costos del anlisis. El subset propuesto
podra ser el siguiente: caf molido, t, yogurt, pescado congelado, y aceite de oliva.
CONCLUSIONES
En este estudio se ha efectuado un anlisis de los hbitos alimenticios de un conjunto de pases de
Europa usando mtodos de anlisis multivariado. Los resultados del anlisis muestran que los 16 pases
considerados en el estudio se dividen en cuatro grupos, al interior de los cuales se refleja la similitud de
cultura, tradiciones, historia y la proximidad geogrfica de los mismos. Esto se observa de mejor modo
en la figura 4.

Figura 4. Mapa de Europa en el cual se indican los grupos detectados en la etapa de clustering de los
pases.

REFERENCIAS
1. Otto, M. (1999) Chemometrics, Statistics and Computer Applications in Analytical
Chemistry,Editorial Wiley-VCH, Weinheim (Alemania)
2. Miller, J. N. y Miller, J, C. (2002) Estadstica y Quimiometra para Qumica Analtica, Editorial
Pearson Educacin, Madrid (Espaa)
3. Sharaf, M., Illman, M.L. y Kowalski, B.R. (1986) Chemometrics, Editorial Wiley, New York (USA)
4. Cazar, R, (2003) An Exercise on Chemometrics for a Quantitative Analysis Course, Journal of
Chemical Education, Vol. 80, No. 9. American Chemical Society, New Rochelle, NY (USA), 1026
1029

Multivariate Analysis Primer

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Multivariate Analysis Primer

Cargado por

Copyright:

Formatos disponibles

Anlisis Multivariado

También podría gustarte