Está en la página 1de 39

Cap. 3.

Aspectos del Anlisis Multivariado

CAPITULO 3
ASPECTOS DEL ANLISIS MULTIVARIADO
1.1. Introduccin.
Los ltimos aos han sido testigos de un desarrollo espectacular de las tcnicas de
Anlisis Estadstico Multivariante. La aplicacin de estas tcnicas, cuyos
fundamentos tericos son conocidos en algunos casos desde hace tiempo, se haba
visto hasta hace poco limitada por sus exigencias de medios de clculo. Superado
este obstculo con la generalizacin de las computadores, los mtodos multivariantes
constituyen hoy en da una fructfera tcnica de anlisis en reas como la sociologa,
la investigacin econmica, la medicina, la biologa, etc. . .
Desde un punto de vista puramente estadstico y de forma algo restrictiva el Anlisis
Multivariante puede definirse como el conjunto de tcnicas cuyo objetivo es el
anlisis descriptivo y/o la realizacin de inferencias a partir de datos de naturaleza
multivariante, es decir en los que cada observacin est constituida por los valores de
varias variables interrelacionadas.
Pese a su carcter tautolgico esta definicin contiene ciertos matices que conviene
resaltar. As cuando la referencia expresa anlisis descriptivo, pretende resaltar la
importancia en el contexto multivariante de este tipo de enfoque frente a los ms
clsicos de naturaleza Inferencial.
Igualmente la mencin del carcter interrelacionado de las variables estudiadas hace
hincapi en el aspecto esencial del A.M. En efecto si las variables fueran
independientes podran estudiarse por separado mediante las tcnicas univariantes
clsicas; el A.M. explota las relaciones existentes entre las mismas para lograr un
anlisis ms rico y profundo de la realidad subyacente en los datos observados.
Desde un punto de vista prctico las tcnicas de A.M. permiten el anlisis de
situaciones en que se disponen de observaciones sobre varios individuos u

Cap. 3. Aspectos del Anlisis Multivariado

objetos pertenecientes a uno o ms grupos, estando constituida cada observacin


por los valores de varias caractersticas o variables.

1.2. Organizacin de los datos. Daremos simplemente un recordatorio y poco


riguroso los conceptos bsicos que utilizaremos en la asignatura.
Arreglo.- Los datos multivariantes surgen de una investigacin de un fenmeno
social o fisco, seleccionado de un nmero p 1 de variables o caractersticas a
analizar. Los valores de estas variables son todas registradas de cada distintos tem,
individuo o ensayo experimental.
Usaremos la notacin xij para indicar el valor particular de la i-sima variable que es
observada en el i-simo individuo o ensayo.
Si tenemos n medidas de p variables, estas pueden representarse como sigue:
Individuo 1
Variable 1:
Variable 2:
.
.
.
Variable i:
.
.
.
Variable p:

Individuo 2

x11
x21
.
.
.
xi1
.
.
.
xp1

x12
x22
.
.
.
xi2
.
.
.
xp2

...
...

Individuo j

...

Individuo n

x1j
x2j

x1n
x2n
.
.
.
xin
.
.
.
xpn

.
.
.
...

xij
.
.
.

...

xpj

o como un arreglo rectangular, llamado X, de p filas y n columnas:


x11
x21
X=

x12
x22

...

x1j
x2j

...
...

x1n
x2n

.
.
.

.
.
.

.
.
.

.
.
.

xi1

xi2

xij

.
.
.

.
.
.

.
.
.

.
.
.

xp1

xp2

xpj

xpn

...

xin

Con el arreglo de los datos nos facilicita su exposicin y permite clculos de manera
ordenada y eficiente.

Cap. 3. Aspectos del Anlisis Multivariado

Nociones de Estadstica Descriptiva Multivariante.


En de la informacin contenida en los datos se pueden calcular ciertos nmeros de
resumen, conocidos como medidas Estadsticas descriptivas. Por ejemplo, la media
aritmtica es una estadstica descriptiva que proporciona una medida de localizacin;
esto es, un valor central para un conjunto de datos. La distancia media cuadrtica de
cada nmero de su media proporciona una medida de dispersin, o variacin, en los
datos.
Podemos relacionar con ms frecuencia las estadsticas descriptiva: medida de
locacin, de variacin y asociacin lineal.

La media muestral puede ser calculada a partir de n medidas sobre cada una
de las p variables. En general, existirn p medias muestrales:
n

xi

x
j1

ij

i = 1, 2, ..., p

(1.1)

El vector de medias es dado por :

x1

x2
X .
.
xp

(1.2)

Una medida de dispersin es dada por la varianza muestral. En general, para


el caso de p variables, tenemos :
n

s i2

(x
j1

ij

xi )2

i = 1, 2, ..., p.

(1.3)

Cap. 3. Aspectos del Anlisis Multivariado

En un arreglo se ubica a la varianza muestral a lo largo de la diagonal. En esta


situacin, introduciremos la denotacin s ii para denotar la misma varianza s i2 ,
calculada de las medidas sobre la i-sima variable. Es decir, si2 sii .
La covarianza muestral

sik

1 n
( xij x i )( x kj x k )
n j 1

i = 1, 2, ..., p ,

k = 1, 2, ..., p

(1.4)

mide la asociacin entre las variables i y k. Se nota que la covarianza se reduce a la


varianza muestral cuando i = k. Sin embargo sik s ki para todo i y k.
La matriz de varianzas-covarianzas es
s11
s21

s12
s22

.
.
.

S=

. . . s1p
. . . s2p

.
.
.

sp1

.
.

.
.
.

. . .

spp

sp2

(1.5)
pxp

La ultima estadstica considerada aqu el coeficiente de correlacin muestral

(o coeficiente de correlacin momento producto de Pearson). Esto mide la asociacin


lineal entre dos variables, independiente de las unidades de medida. El coeficiente de
correlacin muestral, para variables i y k, es definido como:
n

rik

sik
sii s kk

(x
j 1

(x
j 1

ij

ij

x i )( x kj x k )

xi )

i = 1, 2, ..., p , k = 1, 2, ..., p

(x
j 1

kj

xk )

(1.6)
Aunque los signos de la correlacin muestral y la covarianza muestral son el
mismo, la correlacin es fcil de interpretar, debido a que su magnitud es
restringida. El valor del coeficiente de correlacin muestra, r, puede estar entre
1 y +1.

Cap. 3. Aspectos del Anlisis Multivariado

La matriz de correlacin muestral es:

R=

1
r21

r12
1

.
.
.

.
.
.

rp1

rp2

. . .
. . .

r1p
r2p

.
.
.

.
.

. . .

(1.7)

1
pxp

Ejemplo 1. Dada las medidas de las variables X1, X2, X3. Encuentre las medidas
estadsticas descriptivas: X , S y R.
X1:

X2: 12

4 10

X3 : 3

Solucin.
92658
a) Tenemos que: x 1
, x 2 8 y x 3 2 . Entonces X
5

6
8

2

b) Las varianzas respectivas son:


s12 6 ,

s 22 8 ,

s 32 2 , s12 4 , s13 1.4 y s 23 1.2 . Luego la matriz

varianzas- covarianzas resulta,

6
4

4
8

1.4

1.2

c) La matriz de correlacin resultante es

1. 4
1.2
2

Cap. 3. Aspectos del Anlisis Multivariado

R 0.577
0.404

6
0.577
1
0.3

0.404
0.3
1

1.3. Distancia.
Muchas tcnicas estadsticas multivariante estn basados sobre conceptos similares
de distancia. Generalmente, estas medidas de distancia pueden ser divididos en dos
tipos: distancia Euclidiana y distancia de Mahalanobis.
Si consideramos el punto P = (x1, x2) en el plano, la distancia Euclidiana, d(O, P),
de P al origen O = (0,0), segn el teorema de Pitgoras es,

d (O, P )

x12 x 22

(1.8)

En general, si el punto P tiene p coordenadas, esto es, P = (x1, x2, ..., xp), la distancia
euclidiana de P al origen O = (0, 0, ..., 0) es

d (O , P )

x12 x 22 ... x 2p

(1.9)

La distancia Euclidiana entre dos observaciones multivariantes arbitrarios P y Q


con coordenadas P = (x1, x2, ..., xp) y Q = (y1, y2, ..., yp) es dado por

d ( P, Q )

( x1 y1 ) 2 ( x 2 y 2 ) 2 ... ( x p y p ) 2

(1.10)

En la distancia Euclidiana, cada coordenada contribuye igualmente a su clculo.


Cuando las coordenadas representan medidas que estn sujetas a fluctuaciones
aleatorias de diferentes magnitud, es frecuentemente deseable ponderar coordenadas
sujetas a grande variaciones con menor peso que aquellas que no tienen alta
variacin.

Cap. 3. Aspectos del Anlisis Multivariado

Para proceder a esto, se divide cada coordenada por la desviacin estndar muestral.
As una distancia del punto P = (x1, x2) al origen O = (0,0), llamada distancia
Euclidiana estandarizada, es dada por

d ( P, O ) (

x1 2
x
) ( 2 )2
s11
s 22

x12 x 22

s11 s 22

(1.11)

Comparando las expresiones (8) con (11), vemos que la diferencia entre las dos
expresiones es debido a las ponderaciones k1 = 1/s11 y k2 = 1/s22 afectadas a x12 y x 22
en (11). En casos donde las ponderaciones son las mismas, es conveniente ignorar el
divisor comn y usar la formula de la distancia Euclidiana. En otras palabras, si la
variabilidad en los direccin de x1 es la misma como la variabilidad en la direccin
de x2 y los valores de x1 varan independiente de los valores de x 2, la distancia
Euclidiana es apropiada.

Ejemplo 2. Un conjunto de pares de mediciones (x 1, x2) sobre dos variables produce

x 1 x 2 0 , s11 = 4 y s22 = 1. suponga que las mediciones de x1 estn


incorrelacionadas con las mediciones de x2, es decir, las mediciones dentro de un par
varan independientemente uno de otros. Puesto que las varianzas muestrales son
desiguales, se mede la distancia cuadrtica de un punto arbitrario P = (x1, x2) al
origen O = (0,0) por

d 2 ( P, O )

x12 x 22

4
1

Todos los puntos (x1, x2) tienen una distancia constante 1 desde el origen, que
satisfacen la ecuacin:
x12 x 22

1
4
1

Un grafico de la ecuacin x12 / 4 x12 / 1 1 es una elipse centrada en (0, 0), cuyo eje
mayor esta en el eje coordenadas x1 y cuyo eje menor esta comprendido en el eje de

Cap. 3. Aspectos del Anlisis Multivariado

coordenada x2. La mitad de la longitud de estos ejes mayor y menor son

42 y

1 1 , respectivamente. La elipse de distancia unitaria es representada en la Figura

1.1. Todos los puntos sobre la elipse tienen la misma distancia Euclidiana
estandarizada desde el origen, en este caso, una distancia de 1 desde el origen.
La expresin (11) puede ser generalizada para calcular la distancia Euclidiana
estandarizada desde un punto arbitrario P = (x1, x2) a un punto fijo Q = (y1, y2). Si
suponemos que las variables coordenadas varan independiente uno de otro, la
distancia desde P a Q es dado por:

d ( P, Q )

( x1 y1 ) 2 ( x 2 y 2 ) 2

s11
s 22

(1.12)

x2
1

.P

-2

-1

Figura 1.1. Elipse de distancia unitaria.


Sean los puntos P y Q que tienen p coordenadas, tal que P = (x1, x2, ..., xp) y
Q = (y1, y2, ..., yp). Supngase que Q es un punto fijo y variables coordenadas varan
independientemente uno de otro. Sea s11, s22, ..., spp varianzas muestrales construidas
de n medidas sobre x1, x2, ..., xp , respectivamente. La distancia Euclidiana
estandarizada de P a Q es,

d ( P, Q )

(x p y p )2
( x1 y1 ) 2 ( x 2 y 2 ) 2


s11
s 22
s pp

(1.13)

Cap. 3. Aspectos del Anlisis Multivariado

Todos los puntos P se encuentran a una distancia cuadrada constante desde Q sobre
una hyperelipsoide centrada en Q. Notamos que si s11 = s22 = = spp, la formula de
la distancia Euclidiana en (10) es apropiada.

Distancia de Mahalanobis. El concepto de distancia Euclidiana, es insuficiente


cuando examinamos observaciones correlacionadas. Una medida estadstica de
distancia entre dos puntos que no solo incluye la distancia entre las variables
individuales, si que tambin toma en cuenta la estructura de correlacin en cada
vector, es la medida de distancia de Mahalanobis, dada en los siguientes ejemplos:
d 2 (X, Y) (X Y) S 1 (X Y)
D 2 (X, ) (X ) S 1 ( X )

(1.14)

2 ( X, ) ( X ) 1 (X )

Ejemplo 3. Dada la matriz de covarianzas de las variables x1, x2 y x3,


63.37
S 5.286

35.159

5.286
0.873
3.703

35.159
3.703
21.65

Adems se tiene: x 1 19.32 , x 2 1.51 y x 3 9.76 ,


Hallar la distancia del vector X = (19,1,10) al origen y a el vector
a) Euclidiana
b) Euclidiana estandarizada
c)de Mahalanobis.
Solucin.
a) Distancia Euclidiana.
De X = (19,1,10) al origen O = (0, 0)

X:

Cap. 3. Aspectos del Anlisis Multivariado


d ( X , O)

( x1 0) 2 ( x 2 0) 2 ( x3 0) 2

(19 0) 2 (1 0) 2 (10 0) 2

462 21.494

De X = (19,1,10) a
d ( X , x)

10

( x1 x 1 ) 2 ( x 2 x 2 ) 2 ( x3 x 3 ) 2

(19 19.32) 2 (1 1.51) 2 (10 9.76) 2

0.4201 0.648

b) Distancia Euclidiana Estandarizada.


De X = (19,1,10) al origen O = (0, 0)

d ( X , Q)

(x p y p )2
( x1 y1 ) 2 ( x 2 y 2 ) 2


s11
s 22
s pp

d ( X , O)

(19 0) 2 (1 0) 2
(10 0) 2


3.385
63.37
0.873
21.65

Entonces,

De X = (19,1,10) a

. Se tiene: d(X, X) 0.55

c) Distancia de Mahalanobis.
De X = (19,1,10) al origen O = (0, 0)
d 2 ( X , Y ) (X Y ) S 1 (X Y )

19
0


2
D ( X , O) 1 0
10
0

5.171

1
15.858

20.536 - 11.12

15.858
134.538
- 48.809

- 11.12

- 48.809
27.38

19
0


1 0
10
0

Cap. 3. Aspectos del Anlisis Multivariado

19

0.252

10 0.772
- 0.541

11
0.772
6.551
- 2.377

- 0.541 19

- 2.377 1 = 6.814
1.333 10

Luego la distancia de Mahalanobis es: d(X, O) = 2.61


De X = (19,1,10) a

. Resulta: D(X, X) 1.633

1.4. lgebra de Matrices y vectores aleatorios.


Hemos visto, en las secciones anteriores que los datos multivariantes pueden ser
mostrados como un arreglo de nmeros. En general, un arreglo rectangular de
nmeros, con p filas y n columnas es llamado una matriz de dimensin p x n. El
estudio de los mtodos multivariantes es grandemente facilitado por el uso de lgebra
de matrices.

1.4.1. Conceptos bsicos.

Vectores.
Un arreglo x de n nmeros reales x1, x2, ..., xn es llamado un vector y se escribe
como:
x1
x
2
x .

.
x n

x x1 , x 2 , . . . , x n

(1.15)

En la figura 1.2, se ilustra la representacin geomtricamente del vector x 1, 3, 2


.

Cap. 3. Aspectos del Anlisis Multivariado

12

Figura 1.2. El vector x 1, 3, 2 .

Definimos el vector cx como:


cx 1
cx
2

cx .

.
cx n

(1.16)

Esto es, cx es el vector obtenido multiplicando cada elemento de x por c.[ver figura
1.3(a)]. As mismo, en la figura 1.3 (b), se representa la suma de dos vectores x y y.
2

x2 + y2
2x
2x2

x2
x

x2

x+y

x
y2
x1

2x1

x1

y
y1

x 1 + y1 1

-x
a) Multiplicacin de un vector por una constante

Figura 1.3. Multiplicacin escalar y vector suma.


La longitud de un vector x x 1 , x 2 , . . . , x n con n componentes, es

definido
por:

b) suma de dos vectores.

Cap. 3. Aspectos del Anlisis Multivariado


Lx

13

x 12 x 22 x 2n

(1.17)

La multiplicacin de un vector x por un escalar c, cambia la longitud. De la

ecuacin (17), tenemos:

L cx

c 2 x 12 c 2 x 22 c 2 x 2n c

x 12 x 22 x 2n c L x

(1.18)

Otro concepto geomtrico es el ngulo de dos vectores. Consideremos dos

vectores en un plano y el ngulo, , entre ellos, como en la figura 1.4. En la figura


1.4, puede ser representado como la diferencia entre los ngulos 1 y 2 formado
por dos vectores y las primeras coordenadas de los ejes. Por definicin, tenemos:

cos 1

x1
Lx

y1
Ly

cos 2

sen 1

x2
Lx

sen 2

y2
Ly

y cos cos( 2 1 ) cos( 2 )cos(1 ) sen( 2 )sen(1 )


El ngulo especificado entre los vectores x x 1 , x 2 y y y1 , y 2 es
especificado por :
y1

L
y

cos cos( 2 1 )

x1

Lx

y2

L
y

x2

Lx

(1.19)

es conveniente introducir el producto inercia de dos vectores. Para el caso de n = 2, el


producto inercia de x y y es: xy x1 y1 x 2 y 2 . Con esta definicin y la ecuacin
(19) resulta:
cos

xy

LxLy

xy
, donde L x
xx y y

xx

Cap. 3. Aspectos del Anlisis Multivariado

cos

14

x 1 y1 x 2 y 2
LxLy

y
y2

x
x2

1
1

y1

x1

Figura 1.4. El ngulo entre x x 1 , x 2 y y y1 , y 2 .

Para un nmero arbitrario de dimensin n, el producto inercia de x y y es dado por:

x y x 1 y1 x 2 y 2 x n y n

(1.20)

Entonces el arreglo para vectores de n componentes es dado por:


cos

donde L x Longitud de x

x y

LxLy

x y
x x y y

(1.21)

xx

Ocurre cos 0 si slo si x y 0 , se dice que x y y son perpendiculares cuando


xy 0 .

Un par de vectores x y y de igual dimensin , se dice que son linealmente

dependiente si existen constantes c1 y c2 (ambos diferentes de cero), tal que:


c1 x c 2 y 0

Un conjunto de vectores x1, x2, . . . , xk se dicen que son linealmente dependiente si


existen constantes c1, c2, . . . , ck, no todos cero, tal que:
c1 x 1 c 2 x 2 c k x k 0

(1.22)

Linealmente dependiente implica que al menos un vector en el conjunto, puede ser


escrito como una combinacin lineal de otros vectores. Vectores de la misma
dimensin que no son linealmente dependientes, se dicen que son linealmente
dependiente.

Cap. 3. Aspectos del Anlisis Multivariado

15

Ejemplo 1. Dado los vectores x 1, 3, 2 y y - 2, 1, - 1 . Determinar la


longitud de x, la longitud de y y el ngulo entre x y y. Adems, verificar que la
longitud de 3x es tres veces la longitud de x.
Solucin.
a) Tenemos que:
xx = 12 + 32 + 22 =14 , y = (-2)2 + 12 + (-1)2 = 6 y xy = 1(-2) + 3(1) + 2(-1) = -1.
- Por lo tanto, las longitudes de los vectores x y y son respectivamente:
L x xx 14 3.742

Ly

cos

- Por otro lado, tenemos que:

y y

6 2.449

x y
-1

0.1091
L x L y 3.742 2.449

Entonces el ngulo entre x y y es = 96.26.

b)

Finalmente,

L 3x

3 2 9 2 6 2 126 3 14 3Lx .

L 3x 3L x

Ejemplo 2. Consideremos el conjunto de vectores:


1
x 1 2
1

1
x 2 0
1

1
x 3 2
1

Escribiendo :
c1 x 1 c 2 x 2 c 3 x 3 0

Entonces:

Se

comprueba

que

Cap. 3. Aspectos del Anlisis Multivariado

16

1
1
1
0

c1 2 c 2 0 c 3 2 0
1
1
1
0

c1 + c2 + c3 = 0
2c1 +

- 2c3 = 0

c1 c2 + c3 = 0
Se observa que este sistema de ecuaciones tiene una nica solucin : c1= c2 = c3 = 0.
Como no se puede encontrar tres constantes c 1, c2 y c3 , no todos cero, tal que se
c1 x 1 c 2 x 2 c 3 x 3 0 ,

cumpla

los vectores x1, x2 y x3 son linealmente

independientes.

Matrices.
Una matriz es un arreglo rectangular de nmeros reales o funciones que toman
valores sobre los nmeros reales. Se denota un arreglo arbitrario de m filas y k
columnas por:
a11
a21

a12
a22

.
A=

.
.

. . . a1n
. . . a2n
.

.
.

(1.23)
.

ap1

ap2

. . .

apn
pxn

Sea las matrices A y B, ambos de dimensin m x k con elementos arbitrarios

aij y bij, i=1, 2, ..., m, j = 1, 2, ..., k , respectivamente. La suma de la matrices A y B es


una matriz C de orden m x k, C = A + B, tal que los elementos arbitrarios de C, cij, es
dado por
cij = aij + bij

i = 1, 2, ..., m

j = 1, 2, , k.

(1.24)

Sea c un escalar arbitrario y una matriz A ={aij}. Entonces cA = Ac = B =

{bij} donde bij = caij = aijc, i = 1, 2, ..., m, j = 1, 2, , k.

Consideremos una matriz Am x k con elementos arbitrarios aij , i = 1, 2, ..., m

Cap. 3. Aspectos del Anlisis Multivariado

17

j = 1, 2, , k . La transpuesta de la matriz A, denota por A , es la matriz de orden


k.x.m con elementos aji , j =1, 2, ..., k, i = 1, 2, ..., m. Es decir, la Transpuesta de A es
obtenida de A intercambiando las filas y columnas.

Sea A una matriz cuadrada k x k . Se dice que la matriz A es simtrica,

si A = A. Esto es, A es simtrica si aij = aji , i = 1, 2, ..., k , j = 1, 2, , k.


Son Ejemplos de matrices simtricas:

3
5

a
c

5
2

c
b
g
d

e
g
c
a

f
d
a

El producto A m x n x B n x k es una matriz Cm x k cuyos elementos cij es dado por


n

cij ail blj


l 1

i =1, 2, ..., m, j = 1, 2, ..., k.

(1.25)

El determinante de una matriz cuadrada k x k A ={aij}, denotada por A , es

un escalar :
A = a11
A

1j

si k =1

A 1j ( 1)1 j

si k > 1

j1

(1.26)
donde A1j es la matriz de orden (k-1)x(k-1) obtenida eliminando la primera fila y la jsima columna de A.

Una matriz A es no singular si A (k x k) x (kx1) = 0.(kx1), entonces implica x(kx1) = 0.(kx1).

Si una matriz resulta ser no singular, es llamado singular. Equivalentemente, una


matriz cuadrada es no singular si su rango es igual al nmero de filas (o columnas.

Cap. 3. Aspectos del Anlisis Multivariado

18

Note que Ax = x1a1 + x2a2 + + xkak , donde ai es la i-sima columna de A, tal que la
condicin de no singularidad es justo la condicin de que las columnas de A son
linealmente independiente.

Si existe una matriz B tal que B (k x k) A (kx1) = A (k x k) B (k x 1) = I(k x k), entonces

B es llamado la inversa de A y es denotado por A-1.


Una condicin tcnica de que la inversa existe, es que las k columnas a1, a2,, ak de
A son linealmente independiente. Esto es, si existe A-1 es equivalente a
c1a1 + c2a2 + + ckak = 0 , s solo s c1 = c2 = = ck = 0

(1.27)

Una matriz cuadrada A se dice que es ortogonal si sus filas, consideradas

como vectores, son mutuamente perpendiculares y longitud unitaria; es decir,


A A=I. Una matriz A es ortogonal s y slo s A-1 = A.
Para una matriz ortogonal, A A = AA = I, as las columnas son tambin
mutuamente perpendiculares y tienen longitud unitaria.
Un ejemplo de una matriz ortogonal es:

2
1

A 2
1
2
1

2
1

2
1

2
1

2
1

2
1

2
1

1
2
1

2
1
2
1

2

Se nota que las filas de la matriz A son mutuamente perpendiculares y longitud


unitaria. Adems se observa que A = A , tambin se verifica que A A = I =A A = A
A, Es decir:

Cap. 3. Aspectos del Anlisis Multivariado

2
1

2
1

2
1

2
1

2
1

2
1

2
1

2
1

2
1

2
1
2
1

2

2
1
2

19
1

2
1

2
1

2
1

2
1

2
1

2
1

2
1

2
1
2
1

2
1

2
1

1
0

0
1

2
1

Sea A(k x k) una matriz cuadrada y sea I(k x k) la matriz identidad. Entonces los

escalares 1, 2, ..., k satisfacen la ecuacin polinomial A - I = 0 son llamados los


eigenvalores ( valores propios o races caractersticas) de una matriz A. La ecuacin
A - I = 0 (como funcin de ) es llamado la ecuacin caracterstica.
1
1

Por ejemplo, sea la matriz A

Entonces: A I 1

0
3

3
0

(1 )(3 ) 0

Entonces se tiene dos races, 1 = 1 y 2 = 3. Los eigenvalores de la matriz A son 1 y


3.

Sea A (k x k) y es un eigenvalor de A. Si x(k x 1) es vector no cero ( x(k x 1) 0(k x 1) )

tal que

Ax = x.

(1.28)

Entonces se dice que x es un eigenvector ( vector propio o vector caracterstico) de la


matriz A asociada con los eigenvalores .
1

En el ejemplo anterior, los eigenvalores de la matriz A


1

0
son 1 = 1 y 2 = 3.
3

Los eigenvectores asociados con estos eigenvalores pueden ser determinados,


resolviendo las siguientes ecuaciones:
1
1

0 x 1
x1
3 x 1 x ,
2
2

A x = 1 x

Cap. 3. Aspectos del Anlisis Multivariado

1
1

0
3

20

x1
x1
x 3 x ,
2
2

A x = 2 x

De la primera expresin, tenemos:


x1 = x1
x1 + 3x2 = x2 , o sea x1 = -2x2
Existe varias soluciones para x1 y x2. Haciendo x2 = 1 (valor arbitrario) da x1 = -2 y
2
es un eigenvector correspondiente al eigenvalor 1.
1

entonces: x

Por otro, de la segunda expresin,

x1 = 3x1
x1 + 3x2 = 3x2

implica x1 = 0

y x2 = 1 (arbitrario), y entonces x

es eigenvector

correspondiente al eigenvalor 3.

1.5. Matrices Definidas Positivas.


En esta seccin se considera formas cuadrticas que son siempre no negativos y la
asociacin de matrices definidas positivas. Resultados que involucran formas
cuadrticas y matrices simtricas son, en muchos casos, una consecuencia directa de
la expansin de matrices simtricas conocidas como Descomposicin espectral.
La descomposicin espectral de una matriz simtrica de orden k x k es dado por

A 1 e 1 e1 2 e 2 e 2 1 e k e k

(kxk)

(kx1) (kx1)

(kx1) (kx1)

(kx1) (kx1)

(1.29)

donde 1, 2, . . . , kson valores propios de A y e1, e2, . . ., ek los asociados vectores


propios normalizados. As eiei = 1, i= 1, 2, ..., k y eiej = 0, i j.

Cap. 3. Aspectos del Anlisis Multivariado

21

Ejemplo. Consideremos la matriz simtrica


4

13
A 4
2

2
10

13
2

Los valores propios obtenidos de la ecuacin caracterstica A - I = 0 son 1 = 9,


2 = 9 y 3 = 18. Los correspondientes vectores propios e1, e2, y e3 son las soluciones
(normalizadas) de la ecuacin Aei = iei para i = 1, 2, 3. As, Ae1 = 1e1
4
13
2

13
4

2
Es decir

2
2
10

e11
e11
e 9 e
21
21
e31
e31

13e11 4e21 + 2e31 = 9e11


-4e11 + 13e21 2e11

de donde tenemos:

2e31 = 9e11

2e21 + 10e31 = 9e11

4e11 4e21 + 2e31 = 0


-4e11 + 4e21 - 2e31 = 0
2e11 2e21 + e31 = 0

Las dos primeras ecuaciones resultan redundantes seleccionado e11 = 1 y e21 = 1,


resulta e31 = 0.

El vector propio normalizado

2
2
2
1 1 0

, puesto que la suma de

12

2
2
2
1 1 0

e1

2
2
2
1 1 0

cuadrados de sus elementos es la unidad.

Verificar que

e2 1 18

1/ 18

4/ 18

normalizado para 2 = 9, y que e3 2/3

2 /3

es tambin un vector propio


1/3

es vector valor normalizado

correspondiente para el valor vector 3 = 18. Adems, eiej = 0, i j.

Cap. 3. Aspectos del Anlisis Multivariado

22

Entonces la descomposicin espectral de la matriz A es:


A 1e 1e 1 2 e 2 e 2 3e 3 e3

Si una matriz es simtrica y si todos sus eigenvalores son positivos, se dice


que la matriz es una matriz definida positiva.

Si una matriz simtrica tiene eigenvalores no negativos y si por lo menos uno


de sus eigenvalores es igual a cero, entonces se dice que la matriz es una
matriz semidefinida positiva.

1.6. Vectores y Matrices aleatorias.


Un vector aleatorio es un vector cuyos elementos son variables aleatorias.
Similarmente, una matriz aleatoria es una matriz cuyos elementos son variables
aleatorias. El valor esperado de una matriz aleatoria (o vector) es la matriz que
consiste de valores esperados en cada uno de sus elementos.
Sea X = {Xij} una matriz aleatoria de orden p x n. El valor esperado de X, denotado
por E(X), la matriz aleatoria de orden p x n (si existe).

E(X) =

E(X11)
E(X21)
.
.
.
E(Xp1)

E(X12)
E(X22)
.
.
.
E(Xp2)

. . . E(X1n)
. . . E(X2n)
.
.
.
.
.
.
. . . E(Xpn)

(1.30)
pxn

donde para cada elemento de la matriz,

x f (x )dx si X es una v.a continua con funcin


ij ij ij ij ij

E(X ij )

de densidad deprobabilidad fij (x ij )

xijpij(xij) si Xij es una v.a discreta con funcion


xij

de probabil dad pij(xij)

Ejemplo 1. Supngase p = 2 y n = 1 y considere el vector aleatorio X X 1 , X 2 .


Sea la variable aleatoria discreta X1 que tiene la siguiente funcin de probabilidad:

Cap. 3. Aspectos del Anlisis Multivariado

x1
p1(x1)

-1
0.3

23

0
0.3

1
0.4

x 1 p1 (x 1 ) ( 1)(0.3) 0(0.3) 1(0.4) 0.1


Entonces E(X 1 )
x
1

Similarmente, sea la variable aleatoria discreta X2 con la siguiente funcin de


probabilidad:
x2
p2(x2)

0
0.8

1
0.2

x 2 p 2 (x 2 ) (0)(0.8) 1(0.2) 0.2


Entonces E(X 2 )
x
1

Luego,
E( X 1 )
0.1

0.2
E ( X 2 )

E ( X)

Sea X y Y son dos matrices aleatorias de la misma dimensin y sean A y B


matrices conformadas por constantes, entonces:
E( X Y ) E( X) E(Y )

E( AXB) AE( X)B

1.7. Vector de medias y Matrices de covarianzas.


Sea X = {Xi}un vector aleatorio (px1). Cada elemento de X es una variable aleatoria
con su respectiva distribucin de probabilidad. Las medias marginales, i y varianzas,
i2 , son definidos como i E ( X i ) y i2 E ( X i i ) 2 ,i=1, 2,

. . .

p,

respectivamente. Especficamente,

x f (x )dx si X es una v.a continua con funcin


ii i i i

de densidad de probabilidad fi (xi )

xipi (x i ) siXi es una v.a discreta con funcion


x i

de probabilidad pi (xi )

2
(x i - i) fi (xi )dxi si Xi es una v.a continua con funcin

de densidad deprobabilidad fi (xi )


2
i

(x i - i)2 pi (xi) si Xi es una v.a discreta con funcin

xi

de probabilidad pi (xi )

(1.31)

Cap. 3. Aspectos del Anlisis Multivariado

24

El comportamiento de algn par de variables aleatorias, tales como Xi y Xk es


descrito por su funcin de probabilidad conjunta y una medida de la asociacin lineal
entre ellos proporcionado por la covarianza ij donde
ij E(X i i )(X k k )

si Xi , X k son variables aleatorias continuas


(x i - i )(xk - k ) fik (x i, x k )dxidx k con funcin de densidad conjunta fik (xi , xk ).

(x - )(x - )p (x ,x )
Xi xk i i k k ik i k

si Xi , Xk son variables aleatorias discretas

(1.32)

con probabilidad conjunta pij(xi , x k )

y i y k , i, k =1,2,...,p, son las medias marginales. Cuando i = k , la covarianza se


convierte en la varianza marginal.
De manera general, el comportamiento colectivo de las p variables aleatorias
X1, X2, ..., Xp, o, equivalentemente, el vector aleatorio X =[X1, X2, ..., Xp] es descrito
por una funcin de densidad de probabilidad conjunta f(x 1, x2, ..., xp) = f(x). Como
veremos ms adelante, f(x) puede frecuentemente ser la funcin de densidad normal
multivariante.
La probabilidad conjunta P X i x i y X k x k puede escribirse como el producto de
las correspondientes probabilidades marginales, es decir,

P X i x i y X k x k P X i x i P X k x k

(1.33)

para todos los pares de valores x1, xk, entonces Xi y Xk se dice que son
estadsticamente independientes.
Cuando Xi y Xk son variables aleatorias continuas con densidad conjunta f ik(xi, xk) y
funcin de densidad marginal fi(xi) y fk(xk), la condicin de independencia produce
f ik (x i , x k ) f i (x i )f k (x k ) para todo los pares (xi, xk).

Las p variables aleatorias continuas X1, X2, . . . , Xp son estadsticamente


independientes si la densidad conjunta es factorizada como:
f 1, 2, ,,, p (x i , x 2 , . . . , x p ) f 1 (x 1 )f 2 (x 2 ) f p (x p )

(1.34)

Cap. 3. Aspectos del Anlisis Multivariado

25

La independencia estadstica tiene una importante implicacin en la covarianza. Si


Cov(x i , x k ) 0 si X1 y Xk son independientes.

(1.35)

la media y covarianza de un vector aleatorio X de orden (px1) pueden ser expresado


como matrices. As tenemos,
E X 1
E( X )
2

E ( X)

1

2

. .

E ( X p ) p

(1.36)

X1 1

X2 2

. X1 1 , X 2 2 , . . . , X p p
E(X )(X ) E

Xp p

E(X1 1 ) 2
E(X 2 2 )(X1 1 )
.
.
E(X p p )(X1 1 )

E(X 1 1 )(X 2 2 )
E(X 2 2 ) 2
.
.
E(X p p )(X 2 2 )

.
.

.
.

.
.

1p
2p
.

.
pp

E(X 1 1 )(X p p )

E(X 2 2 )(X p p )

E(X p p ) 2

o
11

21
Cov( X) .

.
p1

12
22
.
.
p2

.
.
.
.

.
.

(1.37)

Ejemplo 1. Encontrar la matriz de covarianza para las dos variables aleatorias X1 y


X2, con funcin de probabilidad conjunta, p12(x1, x2) es representado en la siguiente
tabla.
x2
x1

p1(x1)

Cap. 3. Aspectos del Anlisis Multivariado

26

-1
0
1

0.24
0.16
0.40

0.06
0.14
0.00

p2(x2)

0.80

0.20

0.30
0.30
0.40

Solucin.
Ud. Puede comprobar que 1 E(X1 ) 0.1

2 E(X 2 ) 0.2 . Adems,

tenemos:
11 E(X 1 1 ) 2 (x 1 0.1) 2 p1 (x 1 )
x1

( 1 0.1) (0.3) (0 0.1) 2 (0.3) (1 0.1) 2 (0.4) 0.69


2

22 E(X 2 2 ) 2 (x 2 0.2) 2 p 2 (x 2 ) 0.16


x 2

12 E(X1 1 )(X 2 2 )

(x

1
pares (x1 , x 2 )

0.1) 2 (x 2 - 1 )p12 (x 1 , x 2 )

( 1 0.1)(0 - 0.2)(0.24) (-1 0.1)(1 - 0.2)(0.06) (1 0.1)(1 - 0.2)(0.0)


0.08

21 E(X 2 2 )(X 1 1 ) E(X 1 1 )(X 2 2 ) 12 0.08

Entonces con X = [X1 , X2]


E(X1 ) 1 0.1

E(X 2 ) 2 0.2

E ( X)

E(X1 1 ) 2
E(X )(X )
E(X 2 2 )(X1 1 )
11
21

12 0.69

22 - 0.08

- 0.08
0.16

E(X1 1 )(X 2 2 )

E(X 1 1 ) 2

Cap. 3. Aspectos del Anlisis Multivariado

27

Es frecuentemente informativo separar la informacin contenida en las varianzas, ii


del contenido en medidas de asociacin y, en particular, la medida de asociacin
conocida como el coeficiente de correlacin poblacional, ik. El coeficiente de
correlacin ik es definido en trminos de la covarianza ij y varianzas ii y kk como
ik

ik

(1.38)

ii kk

El coeficiente de correlacin mide la cantidad de asociacin lineal entre las variables


Xi y Xk .
La matriz de correlacin poblacional es una matriz simtrica de orden (p x p),
donde

11

12

11 11

11 22

12

22


11 22

1p

11 pp
1

12
.

.
1p

12
1
.
.
2p

22 22
.
.
2p

.
.
.
.

.
.
.

22 pp
.
.
.

1p

11 pp
2p

22 pp

pp

pp pp

1p
2p
.

.
1

(1.39)

y sea la matriz desviacin estndar V1/2 de orden (p x p), dada por


11

0
1/2
V .

.
0

0
22
.
.
0

.
.
.
.

.
.
.
.

0
.

.
pp

(1.40)

Cap. 3. Aspectos del Anlisis Multivariado

28

Entonces se verifica que:


V1/2 V1/2 =

(1.41)

= (V1/2 )-1 (V1/2 )-1

(1.42)

Particin de la matriz de covarianza


Se puede particionar las p caractersticas contenida en el vector aleatorio X de orden
px1, por instante, en dos grupos de tamao q y p-q, respectivamente. Por ejemplo
escribimos
X1
.

1
.

.
X
q

X
X q 1
.

.
X p

.
(1)
q
(2)
E( X)
q 1
.

.
p

X (1)
( 2)
X

(1.46)
Multiplicando las matrices,

(1)

(1) X (2) (2)

X1 1

X2 2

X q 1 q 1 , X q 2 q 2 ,..., X p p

X q q

Cap. 3. Aspectos del Anlisis Multivariado

(X1 1 )(X q 1 q 1 )
(X )(X )
2
q 1
q 1
2
.

(X q q )(X q 1 q 1 )

29

(X1 1 )(X q 2 q 2 )

(X1 1 )(X p p )

(X 2 2 )(X q 2 q 2 )
.

(X 2 2 )(X p p )

(X q q )(X q 2 q 2 )

(X q q )(X q q )

tomando valor esperado a la matriz X (1) (1) X (2) (2) , resulta:

E(X )( X )

1, q 1

2, q 1

(1)

(1)

(2)

(2)

1, q 2

2, q 2

q, q 1

q, q 2

1 p

2 p

12

(1.47)

q p

que considera todas la covarianzas, ij , i = 1, 2, ..., q, j = q + 1, q + 2, ..., p , entre una


componente de X(1) y una componente de X(2).
Haciendo uso de la particin dada en la ecuacin (36), se verifica que:

(X (1) (1) ) (X (1) (1) )

(q x 1)

( X )(X )

(X (1) (1) ) (X (2) (2) )

(1 x q)

(q x 1)

(1 x ( p - q))

(2)
(2)
(1)
(1)
(X(p - q) x1) ) (X (1x q) )

Como

(X (2) (2) ) (X (2) (2) )

((p - q ) x 1)

(1 x (p - q))

consecuencia resulta:

p-q

(1.48)

11 12
E(X )(X ) p-q
(pxp)
21 22 (p x p)
q

11

q1

q 1, 1

p 1

1 q

q q
q 1, q

pq

1, q 1

q, q 1
q 1, q 1

p, q 1

1 p

q p

q 1, p

p p

Cap. 3. Aspectos del Anlisis Multivariado

Note que

30

12 21 . La matriz de covarianza de X

(1)

es 11, de los X(2) es 22, y

de los elementos de X(1) y X(2) es 12 ( o 21).

Particin del vector de medias muestral y de la matriz de covarianza


muestral.
El vector de medias muestral y la matriz de covarianza muestral puede ser
particionado, de la forma:

x1

xq

x (1)
(2)
x

x q 1

( p x 1)

(1.49)


xp

y
s11

sq1
S
(p x 1)
s q 1, 1

s p 1

s1 q

sq q
s q 1, q

sp q

p-q

S11 S12
p -q
S 21 S 22 (p x p)
q

s1, q 1

s q, q 1
s q 1, q 1

s p, q 1

s1 p

sq p

s q 1, p

s p p

(1.50)

Cap. 3. Aspectos del Anlisis Multivariado

31

1.8.- La varianza Generalizada.


Con una simple variable, la varianza simple es frecuentemente usado para describir
la cantidad de variacin en las mediciones de la variable. Cuando p variables son
observadas sobre cada elemento, la variacin es expresado por la matriz muestral de
varianza covarianza
s11
s
12
S

s1p

s12

s 22

s 2p

s1p

s 2p

1 n
s ik
(x ij x i )(x kj x k )


n 1 j1

s pp

La matriz de covarianza muestral contiene p varianzas y

1
p ( p 1) diferentes
2

covarianzas. Algunas veces es deseable asignar un simple valor numrico para la


variacin expresada por S. Una eleccin de un valor es el determinante de S, que es
llamada varianza muestral generalizada.
Varianza muestral generalizada = S(1.51)

La varianza muestral generalizada proporciona una manera de escribir la informacin


sobre todas las varianzas y covarianzas con un solo nmero.

La matriz de covarianza muestral de las variables estandarizadas es R, la


matriz de correlacin muestral. Se define:

Varianza muestral generalizada de las variables estandarizadas = R(1.52)

Las cantidades S y R se encuentran relacionadas por:


S( = s11s22 spp)R(1.53)

Ejemplo. Dada la siguiente matriz de varianzas - covarianzas muestral,

Cap. 3. Aspectos del Anlisis Multivariado


4
S 3
1

32
3
9
2

1
2
1

Se pide verificar la relacin dada en (43), cuando p = 3.

1.9.- Grficos de datos multivariantes.


El uso de las tcnicas multivariantes supone una mayor carga a la hora de entender,
evaluar e interpretar los resultados mas complejos. En estas tareas, la ayuda proviene
de la comprensin de las caractersticas bsicas de los datos y de sus relaciones
subyacentes. Cuando se considera un anlisis univariante, el nivel de comprensin es
muy simple. Pero a medida que se introduce en los mas complejos anlisis
multivariantes, la necesidad y el nivel de comprensin aumentan considerablemente.
En la mayora de las veces, las presentaciones grficas de los datos son ms
informativas que su impresin en grandes conjuntos. Existen varias razones para
considerar las presentaciones grficas de datos multivariantes, dos de las ms
importantes son: a) ayuda a localizar e identificar anormalidades que podran
existir en los datos y b) ayuda a verificar las hiptesis que pueden requerirse para
sean vlidos ciertos anlisis estadsticos.
Adems de las dos razones ms importantes, mencionadas anteriormente, los
grficos de datos multivariantes, con frecuencia son tiles para ayudar a verificar y
validar los resultados de los mtodos de agrupacin.
La aparicin y la difusin del uso de programas estadsticos ha llevado a una mejora
del acceso a tales mtodos. La mayora de los programas estadsticos tienen mdulos

Cap. 3. Aspectos del Anlisis Multivariado

33

particularmente comprensivos de tcnicas grficas preparadas para el examen de los


datos que se ven mejoradas muchas veces con medidas estadsticas ms detalladas de
la descripcin de los datos. Ilustraremos algunas de las tcnicas usadas de forma ms
comn en las relaciones bivariantes, diferencias por grupos e incluso perfiles
multivariantes.
En esta seccin proporcionaremos algunos de los mtodos grficos bsicos que
existen para ayudar a la obtencin de una comprensin bsica de las caractersticas
de los datos, particularmente en un sentido Multivariante.

Anlisis de relacin entre variables.

El examen de la distribucin de una variable es esencial, pero muchas veces se esta


interesado en examinar las relaciones entre dos o ms variables. El mtodo ms
popular de anlisis de las relaciones bivariantes es el grfico de dispersin. Se
presenta una variable en el eje horizontal y la otra en el vertical. Las variables
pueden ser valores observados, valores esperados o incluso residuos. Los puntos del
grfico representan los correspondientes valores conjuntos de las variables para
cualquier caso dado. El patrn de los puntos representan la relacin entre las
variables. Cuando los se organizan a lo largo de una lnea recta, tenemos una relacin
lineal de correlacin. Un conjunto de puntos curvados puede indicar una relacin no
lineal, que se puede tratar de varias formas. O puede que no existan patrones, slo un
conjunto de puntos aparentemente aleatorios (en este caso, no hay relacin).
Un grfico que se ajusta particularmente a las tcnicas multivariantes es la matriz
del grfico de dispersin. La Figura 1.5 presenta los grficos de dispersin de un
conjunto de variables de la base de datos del ejemplo que aparece en Dallas E.
Johnson (ejemplo 2.1, pagina 40). Cuarenta y ocho individuos que haban presentado
solicitud de trabajo a una empresa fueron entrevistados y clasificados en relacin con
15 criterios. Estos aspirantes se clasificaron segn la forma de su letra en la solicitud

Cap. 3. Aspectos del Anlisis Multivariado

34

(FL), su aspecto (APP), su capacidad acadmica (AA), su amabilidad (LA), su


autoconfianza (SC), su lucidez (LC), su honestidad (HON), su arte de vender (SMS),
su experiencia (EXP), su empuje (DRV), su ambicin (AMB), su capacidad para
captar conceptos (GSP), su potencial (POT), su entusiasmo para trabajar en grupo
(KJ) y su conveniencia (SUIT). Adems, cada criterio se evalu en una escala que va
del 0 al 10, con 0 como una calificacin muy insatisfactoria y con 10 como una
calificacin muy alta. El resultado de la evaluacin de cada uno de estos individuos,
se muestra en la tabla N 1 (ver anexo). En la Figura 1.5.se representa el grfico de
dispersin para todas las combinaciones de variables en la porcin inferior y superior
de la matriz. Las diagonales contienen los histogramas de las variables. Con el
software Estadstico Statistica 6.0, se construyo la matriz de dispersin, mediante
ventana Graphs, matriz plots.

Cap. 3. Aspectos del Anlisis Multivariado

35

Matrix Plot (SOLICITANTES 15v*48c)


FL

APP

AA

LA

SC

LC

HON

SMS

EXP

DRV

AMB

GSP

POT

KJ

SUIT

Cap. 3. Aspectos del Anlisis Multivariado

36

Caras de Chernoff.
En 1973, Chernoff sugiri utilizar caras para representar datos multivariantes. Una
caracterstica facial diferente se asocian con variables diferentes. As, por ejemplo,
una variable se podra asociar con el ancho vertical del ojo, la segunda con el ancho
horizontal, la tercera con el tamao del iris y las otras se podran asociar con el
espaciamiento de los ojos, la altura de los ojos, la longitud de la nariz, el ancho de la
nariz, la longitud de las cejas, el ancho de las orejas, la el ancho de las orejas, la
altura de las orejas, la longitud de la parte media de la boca, la abertura de la boca, la
sonrisa, etc. La figura 1.6 muestra un conjunto de caras de Chernoff para cada uno de
los 48 solicitantes de trabajo (ver Dallas Jonson, tabla 2.1, pagina 42). Las caras
fueron elaboradas por el programa Statistica 6.0, mediante:
Graphs stats Icon Graphs Graph Type Chernoff Faces.
Caras de Chernoff

(SOLICITANTES 15v*48c)

#1

#2

#3

#4

#5

#6

#7

#8

#9

#10

#11

#12

#13

#14

#15

#16

#17

#18

#19

#20

#21

#22

#23

#24

#25

#26

#27

#28

#29

#30

#31

#32

#33

#34

#35

#36

#37

#38

#39

#40

#41

#42

#43

#44

#45

#46

#47

#48

face/w = FL
ear/lev = APP
halfface/h = AA
upface/ecc = LA
loface/ecc = SC
nose/l = LC
mouth/cent = HON
mouth/curv = SMS
mouth/l = EXP
eyes/h = DRV
eyes/sep = AMB
eyes/slant = GSP
eyes/ecc = POT
eyes/l = KJ
pupils/pos = SUIT

Fgura 1.6. Grficas de caras para los datos de solicitantes, usando las 15 respuestas.

Cap. 3. Aspectos del Anlisis Multivariado

37

Las caras de Chernoff son tambin muy tiles para validar los resultados de los
programas de agrupacin, con los que se intenta dividir las unidades experimentales
de un conjunto de datos en subgrupos, llamados agrupamientos, de manera que los
individuos dentro de un agrupamiento sean semejantes entre s, y los que estn en
agrupamientos diferentes no lo sean. Mediante las caras de Chernoff para los
individuos dentro de un agrupamiento deben ser semejantes entre s, y las caras para
aquellos que se encuentran en agrupamientos diferentes no deben serlo. Se puede
notar la semejanza entre las de Chernoff para los solicitantes 7 y 8, 10 y 11, y 22, 23
y 24.

Grfico de estrella.
Este tipo de grfico, se construyen al representar la distancia a la que se encuentra
cada variable de cero sobre rayos o ejes que irradian de un punto central. Se tiene un
rayo para cada variable respuesta; por ejemplo, los vectores de datos en cinco
dimensiones requeriran cinco rayos o ejes. Para cada ejes, cada uno de stos
formara un ngulo de 72 con los ejes adyacentes.
En la figura 1.7 se muestra la identificacin de los ejes de cinco variables X 1, X2, X3,
X4 y X5. Se ha trazado X1 a lo largo del eje que apunta hacia el norte (es decir, el eje
que apunta directamente hacia arriba). Las otras variables se han representado sobre
los otros ejes en el orden del sentido del movimiento de las manecillas del reloj.

X1
X2
X5

X4

Figura 1.7. Ejes de una grfica de estrella.

X3

Cap. 3. Aspectos del Anlisis Multivariado

38

En la figura 1.8 se muestran las grficas de estrella para los individuos del conjunto
de solicitantes (ejemplo ilustrativo) , usando las 15 variables originales.
Las grficas de estrellas tambin son tiles para identificar datos outliers
multivariantes que estn en un conjunto y tambin para la validacin de los
resultados de los programas de agrupacin. Existen solicitantes en la figura 1.8 que
parezcan ser datos outliers?.- Qu se puede decir acerca de los solicitantes 41 y
42?.- Qu acerca de los solicitantes 28 y 29?.-

Grficos de estrella (

SOLICITANTES 15v*48c)

#1

#2

#3

#4

#5

#6

#7

#8

#9

#10

#11

#12

#13

#14

#15

#16

#17

#18

#19

#20

#21

#22

#23

#24

#25

#26

#27

#28

#29

#30

#31

#32

#33

#34

#35

#36

#37

#38

#39

#40

#41

#42

#43

#44

#45

#46

#47

#48

Figura 1.8. Grfica de estrellas para los datos de solicitantes, usando las 15 respuestas.

Para los datos de los solicitantes, las grficas de estrellas tienen otra interesante
interpretacin. A los patrones de la empresa les gustara ofrecer empleo a personas
con valores elevados para las 15 variables. Estas personas se manifestaran en la
grfica de estrella con los polgonos con las reas ms grandes. Examinando la figura
1.8 parecera indicar que los solicitantes 7 y 8 son los dos mejores en este grupo.

Cap. 3. Aspectos del Anlisis Multivariado

39

Grfico de perfiles.
En este tipo de representacin grafica multivariante, se obtuvo mediante el grafico
Statistica. En la figura 1.9, se representa los perfiles de los valores de 48 solicitantes
sobre siete variables del ejemplo que se viene considerando. El objetivo de los
perfiles multivariante es representar los datos de tal forma que permitan identificar
fcilmente las similitudes y las diferencias.

Grficos de Perfiles (

SOLICITANTES 15v*48c)

#1

#2

#3

#4

#5

#6

#7

#8

#9

#10

#11

#12

#13

#14

#15

#16

#17

#18

#19

#20

#21

#22

#23

#24

#25

#26

#27

#28

#29

#30

#31

#32

#33

#34

#35

#36

#37

#38

#39

#40

#41

#42

#43

#44

#45

#46

#47

#48

Figura 1.9. Perfiles multivariantes.

Resumen.
No hay que entender las representaciones grficas de esta seccin como un sustituto
de las medidas de diagnostico estadstico discutido en este texto y en el siguiente
texto (Anlisis Estadstico Multivariante parte II ). Pero proporcionan una forma
alternativa de desarrollar un perspectiva del carcter de los datos y las interrelaciones
que existen, incluso si son multivariantes en su naturaleza.

También podría gustarte