Está en la página 1de 16

ANALISIS

MULTIVARIADOS
(Definiciones
Dr. Roberto Mercado
Hernndez,
Laboratorio de Estadstica,
Mxico

ANALISIS MULTIVARIADOS
(Definiciones)
Es la relacin (funcin) entre ms de dos variables, donde una de ellas se asume
como dependiente de las dems. Es el grado de asociacin entre ms de dos
variables, donde no hay una variable dependiente de las otras.
Es una tcnica para estudiar las asociaciones entre dos conjuntos de variables.
Correlacin
Ccorrelacionar simultaneamente varias variables dependientes y varias var. independientes
cannica
Consiste en la extraccin de relaciones entre categoras y define similaridades o
Correspondencia
disimilaridades entre ellas, lo que permitir su agrupamiento si se detecta que se
(A F C)
corresponden.

Regresin y
Correlacin

Componentes
principales
RMH

Es una tcnica estadstica de sntesis de la informacin, o reduccin de la


dimensin (nmero de variables). Es decir, ante un banco de datos con muchas
variables, el objetivo ser reducirlas a un menor nmero, perdiendo la menor
cantidad de informacin posible. Los nuevos componentes principales o factores
sern una combinacin lineal de las variables originales, y adems sern
independientes entre s.

Anlisis Cluster

Es un conjunto de tcnicas que se utilizan para clasificar los objetos o casos en


grupos relativamente homogneos llamados conglomerados (clusters). Los objetos
en cada grupo (conglomerado) tienden a ser similares entre s (alta homogeneidad
interna, dentro del cluster) y diferentes a los objetos de los otros grupos (alta
heterogeneidad externa, ente clusters)

Anlisis
Discriminante

Es una tcnica multivariante de clasificacin de individuos, en la que se


presupone la existencia de dos o ms grupos bien definidos a priori (por ejemplo,
ejemplares de la misma especie en dos localidades diferentes, clientes solventes
y no solventes; votantes de uno u otro partido; compradores y no compradores
de un producto; etc)

ANALISIS MULTIVARIADOS
(Condiciones)
Regresin

Correspondencias
(A F C)

Componentes
principales
(ACP)
RMH

Anlisis Cluster
(AC)

Anlisis
Discriminante

En la relacin de las variables independientes (todas con distribucin normal), con


la variable dependiente (tambin normal), se establece un error.
En este anlisis se ordenan los datos en una tabla disyuntiva completa (Z) que
consta de un conjunto de individuos I=1,2,n (filas), unconjunto de variables o
caracteres cualitativos JI, , JK,, JQ (columnas) y un conjunto de modalidades
excluyentes 1, , mk para cada carcter cualitativo.
Los nicos requerimientos previos para la aplicacin del ACP son:
a) Continuidad en las variables.
b) El nmero n de individuos o elementos observados debe ser mayor que el
nmero p de variables originales.
Por otra parte, el ACP tiene la ventaja de no exigir supuestos tales como la
normalidad u homoscedasticidad.
El AC es un objetivo metodolgico para cuantificar las caractersticas de un conjunto
de observaciones. Por ello, tiene fuertes propiedades matemticas, pero no
fundamentos estadsticos. Los requisitos de normalidad, linealidad y homocedasticidad
(tan relevantes en otras tcnicas), tienen poca consistencia en el AC.
Es una tcnica estadstica de la rama del anlisis multivariante, en la cual la
variable dependiente es indicadora y no numrica como en el anlisis de
regresin. El modelo se construye basado en un set de observaciones para las
cuales se conocen las clases. Este set de observaciones es algunas veces
conocido como el training set.

ANALISIS MULTIVARIADOS (a considerar)


Regresin
Correlacin
Correspondencias
(A F C)

Componentes
Principales

Es importante analizar la magnitud, sigo y significancia de los coeficientes.


Su valor indica el grado de asociacin entre las variables.
Es centrado y el centro de gravedad de las modalidades de una variable coincide
con el del conjunto J, y con el origen, las modalidades de cada variable estn
centradas en torno al origen, no pudiendo tener todas el mismo signo.
Un aspecto clave en ACP es la interpretacin de los factores, ya que sta no
viene dada a priori, sino que ser deducida tras observar la relacin de los
factores con las variables iniciales (habr, pues, que estudiar tanto el signo
como la magnitud de las correlaciones).

No jerrquicos

Asignan los casos a grupos diferenciados que el propio


anlisis configura, sin que unos dependan de otros.

Jerrquicos

Aqullos que configuran grupos con estructura


arborescente, de forma que clusters de niveles ms bajos
van siendo englobados en otros de niveles superiores.

RMH

Anlisis Cluster

Explicar

La pertenencia de cada caso del archivo patrn a uno u otro


grupo, en funcin de las variables de su perfil, para comprobar
su pertenencia.

Predecir

A qu grupo ms probable habr de pertenecer un nuevo


individuo del que nicamente se conoce su perfil de variables.

Anlisis
Discriminante

ANALISIS MULTIVARIADOS
(Ecuaciones)

Regresin
Regresin mltiple

Y = a0 + a1X1 + a2X2 + . + apXp +


Correspondencias
(Inercia = variacin explicada)

Inercia debida a la modalidad J

1
k.j
I(j) 1
Q
n

Inercia debida a una variable

1
I(J k ) m k 1
Q

Inercia total

j
1
Q

Componentes principales
RMH

Primer componente principal

Z1i = u1iX1i + u2iX2i + . + u1pXpi

Anlisis Cluster
Frmula de Lance y Williams Dk(ij) = iDki + jDkj + Dij + Dki - Dkj
Anlisis Discriminante
Funcin discriminante de Fisher

D1i = u1iX1 + u2iX2 + . + ukiXk

EJEMPLO DE REGRESION Y CORRELACION MULTIPLE


1
2
3
4
5
6
7
8
9
10
11
12
13
14
Total

PESO
51.4
72.0
53.2
83.2
57.4
66.5
98.3
74.8
92.2
97.9
88.1
94.8
62.8
81.6
14

L.
PICO
.2
1.9
.2
10.7
6.8
10.6
9.6
6.3
10.8
9.6
10.5
20.5
.4
2.3
14

L.
ALA
17.8
29.4
17.0
30.2
15.3
17.6
35.6
28.2
34.7
35.8
29.6
26.3
22.3
37.9
14

AREA
ALA
24.6
20.7
18.5
10.6
8.9
11.1
10.6
8.8
11.9
10.8
11.7
6.7
26.5
20.0
14

L.
COLA
18.9
8.0
22.6
7.1
27.3
20.8
5.6
13.1
5.9
5.5
7.8
10.0
14.3
.5
14

Statistics

N
Mean
Std. Error of Mean
Std. Deviation
Skewness
Kurtosis
Minimum
Maximum

(Constant)
L. PICO
L. ALA
AREA ALA
L. COLA

B
-30.137
2.070
2.582
.636
1.106

Std. Error
37.528
.456
.740
.460
.765

L.
PICO
14
7.171
1.543
5.774
.613
.606
.2
20.5

L. ALA
14
26.98
2.078
7.777
-.216
-1.385
15.3
37.9

AREA
ALA
14
14.386
1.699
6.358
.811
-.737
6.7
26.5

L.
COLA
14
11.957
2.086
7.807
.632
-.554
.5
27.3

RMH
Model Summary

Unstandardized
Coefficients
Model
1

PESO
14
76.729
4.428
16.567
-.185
-1.392
51.4
98.3

t
-.803
4.537
3.490
1.382
1.446

Sig.
.443
.001
.007
.200
.182

Model
1

R
.988a

R Square
.976

Adjusted
R Square
.965

a.

ANOVAb

Variables no
significativas

Model
1

a.

Regression
Residual
Total

Sum of
Squares
3480.994
86.854
3567.849

df
4
9
13

Mean Square
870.249
9.650

F
90.177

Sig.
.000a

EJEMPLO DE CORRELACION CANONICA


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Total

LOCALIDAD
1.00
1.00
1.00
1.00
1.00
2.00
2.00
2.00
2.00
2.00
3.00
3.00
3.00
3.00
3.00
15

PESO
51.4
72.0
53.2
83.2
57.4
66.5
98.3
74.8
92.2
97.9
88.1
94.8
62.8
81.6
80.0
15

L.
PICO
.2
1.9
.2
10.7
6.8
10.6
9.6
6.3
10.8
9.6
10.5
20.5
.4
2.3
3.5
15

L.
ALA
17.8
29.4
17.0
30.2
15.3
17.6
35.6
28.2
34.7
35.8
29.6
26.3
22.3
37.9
35.0
15

AREA
ALA
24.6
20.7
18.5
10.6
8.9
10.1
10.6
8.8
9.9
10.8
11.7
25.0
26.5
20.0
24.0
15

L.
COLA
18.9
8.0
22.6
7.1
27.3
20.8
5.6
13.1
5.9
5.5
7.8
10.0
14.3
.5
1.3
15

Variables in the Analysis

RMH
Step
1
2

L. ALA
L. ALA
AREA ALA

Min. D
Squared

Tolerance
1.000

F to Remove
30.725

.974

27.028

.846

.974

5.191

1.115

Between
Groups
1.00 and
3.00
2.00 and
3.00

The canonical correlation measures the association between


the discriminant scores and the groups.
Eigenvalues
Function
1
2

Eigenvalue % of Variance
5.125a
84.5
a
.942
15.5

Cumulative %
84.5
100.0

Canonical
Correlation
.915
.697

a. First 2 canonical discriminant functions were used in the


analysis.

EJEMPLO DE CORRSPONDENCIAS

Frecuencias de pupas y larvas de dos especies


Resultados del anlisis de correspondenc
encontradas en cadveres en dos localidades.
Cadver

Localidad
A
RMH
Localidad
B

Especie 1

Especie 2

Pupas

Larvas

Pupas

Larvas

M.
Natural

50

315

24

4012

M. P.
Asesinato

40

459

M.
Natural

41

147

14

1594

M. P.
Asesinato

11

124

X2 = 19.11 gl = 9 p < 0.05

Coordenada
1

Coordenada
2

Hileras
Loc. 1 M. natural (1)
Loc. 1 M.P. asesinato (2)
Loc. 2 M. natural (3)
Loc. 2 M.P. asesinato (4)

- 0.037
0.043
0.070
0.104

- 0.002
0.052
- 0.008
- 0.032

Columnas
Sp. 1 pupas (5)
Sp. 1 larvas (6)
Sp. 2 pupas (7)
Sp. 2 larvas (8)

0.350
0.060
0.202
- 0.012

- 0.045
- 0.001
0.180
0.000

Categoras

Inercia total = 0.0028


Los primeros dos eigenvalues comprenden e
95.5% de la inercia

0.2
7

RMH

Coordenada 2

0.05

0.01
3
8

0.0

-0.001

6
1

-0.002
-0.01

0.0

0.1

0.2

Coordenada 1

0.3

0.4

EJEMPLO DE COMPONENTES PRINCIPALES


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Total

RMH

LOCALIDAD
1.00
1.00
1.00
1.00
1.00
2.00
2.00
2.00
2.00
2.00
3.00
3.00
3.00
3.00
3.00
15

PESO
51.4
72.0
53.2
83.2
57.4
66.5
98.3
74.8
92.2
97.9
88.1
94.8
62.8
81.6
80.0
15

L.
PICO
.2
1.9
.2
10.7
6.8
10.6
9.6
6.3
10.8
9.6
10.5
20.5
.4
2.3
3.5
15

L.
ALA
17.8
29.4
17.0
30.2
15.3
17.6
35.6
28.2
34.7
35.8
29.6
26.3
22.3
37.9
35.0
15

AREA
ALA
24.6
20.7
18.5
10.6
8.9
10.1
10.6
8.8
9.9
10.8
11.7
25.0
26.5
20.0
24.0
15

L.
COLA
18.9
8.0
22.6
7.1
27.3
20.8
5.6
13.1
5.9
5.5
7.8
10.0
14.3
.5
1.3
15

Communalities

PESO
L. PICO
L. ALA
AREA ALA
L. COLA

Raw
Initial
Extraction
255.560
248.866
31.854
12.302
91.089
53.030
46.546
3.810
64.164
42.513

Extraction Method: Principal Component Analysis.


Total Variance Explained
a

Raw

Component
1
2
3
4
5

Total
360.520
59.237
47.924
18.715
2.816

Initial Eigenvalues
% of Variance Cumulative %
73.694
73.694
12.109
85.803
9.796
95.599
3.825
99.424
.576
100.000

Extraction Method: Principal Component Analysis.


a. When analyzing a covariance matrix, the initial eigenvalues are
the same across the raw and rescaled solution.
Component Matrixa

PESO
L. PICO
L. ALA
AREA ALA
L. COLA

Raw
Component
1
15.775
3.507
7.282
-1.952
-6.520

Rescaled
Component
1
.987
.621
.763
-.286
-.814

Extraction Method: Principal Component Analysis.


a. 1 components extracted.

EJEMPLO DE COMPONENTES PRINCIPALES (Localidad 1)


Communalitiesa

b
Total Variance Explained
a

Raw

Component
1
2
3
4
5

Total
264.433
67.821
1.898
.407
-1.85E-14

Initial Eigenvalues
% of Variance Cumulative %
79.039
79.039
20.272
99.311
.567
99.878
.122
100.000
-5.519E-15
100.000

PESO
L. PICO
L. ALA
AREA ALA
L. COLA

Raw
Initial
Extraction
187.508
187.364
21.503
20.122
.668
.119
44.923
44.779
79.957
79.870

Extraction Method: Principal Component Analysis.


a. Only cases for which LOCALIDAD = 1 are
used in the analysis phase. a,b
Component Matrix

Extraction Method: Principal Component Analysis.


a. When analyzing a covariance matrix, the initial eigenvalues are
the same across the raw and rescaled solution.
b. Only cases for which LOCALIDAD = 1 are used in the analysis
phase.

Raw
Component

RMH

PESO
L. PICO
L. ALA
AREA ALA
L. COLA

1
13.674
3.222
-.237
-2.503
-7.794

2
-.617
-3.122
.251
6.206
-4.372

Rescaled
Component
1
.999
.695
-.290
-.373
-.872

2
-.045
-.673
.307
.926
-.489

Extraction Method: Principal Component Analysis.


a. 2 components extracted.
Rotated Component Matrixa,b
b. Only cases for which LOCALIDAD = 1 are used in the
analysis phase. Raw
Rescaled
Component
Component
1
2
1
2
PESO
6.800
11.880
.497
.868
L. PICO
4.249
1.438
.916
.310
L. ALA
-.332
-.096
-.406
-.118
AREA ALA
-6.664
.611
-.994
.091
L. COLA
.326
-8.931
.036
-.999
Extraction Method: Principal Component Analysis.
Rotation Method: Varimax with Kaiser Normalization.
a. Rotation converged in 3 iterations.
b. Only cases for which LOCALIDAD = 1 are used in the

Rotated Component Matrixa,b


Raw
Component
PESO
L. PICO
L. ALA
AREA ALA
L. COLA

1
6.800
4.249
-.332
-6.664
.326

2
11.880
1.438
-.096
.611
-8.931

Rescaled
Component
1

.497
.916
-.406
-.994
.036

.868
.310
-.118
.091
-.999

Extraction Method: Principal Component Analysis.


Rotation Method: Varimax with Kaiser Normalization.
a. Rotation converged in 3 iterations.
b. Only cases for which LOCALIDAD = 1 are used in the
analysis phase.

RMH
% of Variance = 94.84 in Component 1

Localidad 2

l. pico

Localidad 3

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Total

EJEMPLO DE ANALISIS CLUSTER

RMH

LOCALIDAD
1.00
1.00
1.00
1.00
1.00
2.00
2.00
2.00
2.00
2.00
3.00
3.00
3.00
3.00
3.00
15

PESO
51.4
72.0
53.2
83.2
57.4
66.5
98.3
74.8
92.2
97.9
88.1
94.8
62.8
81.6
80.0
15

L.
PICO
.2
1.9
.2
10.7
6.8
10.6
9.6
6.3
10.8
9.6
10.5
20.5
.4
2.3
3.5
15

Proximity Matrix

Case
LOCALIDAD
PESO
L. PICO
L. ALA
AREA ALA
L. COLA

LOCALIDAD
.476
.261
.677
.296
-.528

PESO
.476
.681
.656
-.282
-.781

AREA
ALA
24.6
20.7
18.5
10.6
8.9
10.1
10.6
8.8
9.9
10.8
11.7
25.0
26.5
20.0
24.0
15

L.
COLA
18.9
8.0
22.6
7.1
27.3
20.8
5.6
13.1
5.9
5.5
7.8
10.0
14.3
.5
1.3
15

Agglomeration Schedule

Matrix File Input


L. PICO
L. ALA
.261
.677
.681
.656
.266
.266
-.361
-.242
-.177
-.607

C A S E
Label
Num

L.
ALA
17.8
29.4
17.0
30.2
15.3
17.6
35.6
28.2
34.7
35.8
29.6
26.3
22.3
37.9
35.0
15

AREA ALA
.296
-.282
-.361
-.242
-.100

L. COLA
-.528
-.781
-.177
-.607
-.100

Stage
1
2
3
4
5

Cluster Combined
Cluster 1
Cluster 2
2
3
1
4
1
2
5
6
1
5

Coefficients
.681
.677
.415
-.100
-.335

0
5
10
15
20
25
+---------+---------+---------+---------+---------+

Peso

L. Pico

Loc.

L. Ala

A. Ala

L. Cola

Stage Cluster First


Appears
Cluster 1
Cluster 2
0
0
0
0
2
1
0
0
3
4

EJEMPLO DE ANALISIS DISCRIMINANTE

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Total

LOCALIDAD
1.00
1.00
1.00
1.00
1.00
2.00
2.00
2.00
2.00
2.00
3.00
3.00
3.00
3.00
3.00
15

PESO
51.4
72.0
53.2
83.2
57.4
66.5
98.3
74.8
92.2
97.9
88.1
94.8
62.8
81.6
80.0
15

L.
PICO
.2
1.9
.2
10.7
6.8
10.6
9.6
6.3
10.8
9.6
10.5
20.5
.4
2.3
3.5
15

L.
ALA
17.8
29.4
17.0
30.2
15.3
17.6
35.6
28.2
34.7
35.8
29.6
26.3
22.3
37.9
35.0
15

AREA
ALA
24.6
20.7
18.5
10.6
8.9
10.1
10.6
8.8
9.9
10.8
11.7
25.0
26.5
20.0
24.0
15

RMH

L.
COLA
18.9
8.0
22.6
7.1
27.3
20.8
5.6
13.1
5.9
5.5
7.8
10.0
14.3
.5
1.3
15

Min. D Squared

Step
1
2

Entered

Statistic

L. ALA

1.115

AREA ALA

5.323

Between
Groups
2.00 and
3.00
2.00 and
3.00

df1

df2

Sig.

2.788

12.000

.121

6.100

11.000

1.650E-02

At each step, the variable that maximizes the Mahalanobis distance between the two closest
groups is entered.

Eigenvalues
Function
1
2

Eigenvalue % of Variance
5.125a
84.5
.942a
15.5

Cumulative %
84.5
100.0

Canonical
Correlation
.915
.697

a. First 2 canonical discriminant functions were used in the


analysis.

Structure Matrix

Standardized Canonical Discriminant Function Coefficients

1
1.005
.032

Function
1

Function
L. ALA
AREA ALA

Exact F
Statistic

2
.130
1.013

L. ALA
L. COLAa
AREA ALA
L. PICOa
PESOa

.999*
-.561*
-.129
-.301
.247

2
-.032
-.083
.992*
-.405*
-.258*

Pooled within-groups correlations between discriminating


variables and standardized canonical discriminant functions
Variables ordered by absolute size of correlation within function.
*. Largest absolute correlation between each variable and
any discriminant function
a. This variable not used in the analysis.

Highest Group

Case Number
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

Original

RMH

Actual Group
1
1
1
1
1
2
2
2
2
2
3
3
3
3
3

Predicted
Group
1
1
1
1
1
2
2
2
2
2
2**
3
3
3
3

P(D>d | G=g)
p
df
.300
.687
.939
.454
.324
.394
.962
.715
1.000
.943
.480
.555
.131
.183
.409

2
2
2
2
2
2
2
2
2
2
2
2
2
2
2

Discriminant Scores

P(G=g | D=d)
.996
.997
1.000
1.000
1.000
.836
.931
.977
.939
.928
.753
.987
.874
.680
.946

Squared
Mahalanobis
Distance to
Centroid
2.405
.752
.126
1.578
2.255
1.862
.077
.670
.001
.118
1.468
1.178
4.072
3.397
1.786

Function 1
-2.742
-2.525
-2.876
-3.119
-2.768
.543
2.138
2.705
1.916
2.187
.698
-.015
-.970
2.751
2.077

Function 2
1.304
.576
.103
-1.462
-1.746
-1.084
-.780
-1.055
-.944
-.735
-.753
1.736
1.903
1.124
1.813

**. Misclassified case

Canonical Discriminant Functions


2

Classification Resultsa
3

Original

LOCALIDAD
Group Centroids

Function 2

2
-1

3
2

-2

1
-4

-3

Function 1

Count

-2

-1

LOCALIDAD
1.00
2.00
3.00
1.00
2.00
3.00

Predicted Group Membership


1.00
2.00
3.00
5
0
0
0
5
0
0
1
4
100.0
.0
.0
.0
100.0
.0
.0
20.0
80.0

a. 93.3% of original grouped cases correctly classified.

Total
5
5
5
100.0
100.0
100.0

LITERATURA

Everitt, B. S. and Graham Dunn, 2001. Applied Multivariate data Analysis,


Edt. ARNOLD

Gnanadesikan, R., 1997. Methods for Statistical Data Analysis of


Multivariate Observations, JOHN WILEY & SONS, INC.

Johnson R. A. and Dean W. Wichern, 2002. Applied Multivariate Statistical


Analysis, PRENTICE HALL.

Kachigan, S. K., 1991. Multivariate Statistical Analysis, RADIUS PRESS, NY.

Hair J. F., R. E. Anderson, R. L. Tatham y W. C. Black, 1999. PRENTICE HALL.

Kleinbaum, D. G., L. L. Kupper, K. E. Muller and A. Nizam, 1998. Applied


Regression Analysis and Other Multivariate Methods, DUXBURY PRESS.

También podría gustarte