Está en la página 1de 39

Cap. 1.

Aspectos del Anlisis Multivariado 1

CAPITULO 1

ASPECTOS DEL ANLISIS MULTIVARIADO

1.1. Introduccin.

Los ltimos aos han sido testigos de un desarrollo espectacular de las tcnicas de
Anlisis Estadstico Multivariante. La aplicacin de estas tcnicas, cuyos
fundamentos tericos son conocidos en algunos casos desde hace tiempo, se haba
visto hasta hace poco limitada por sus exigencias de medios de clculo. Superado
este obstculo con la generalizacin de las computadores, los mtodos multivariantes
constituyen hoy en da una fructfera tcnica de anlisis en reas como la sociologa,
la investigacin econmica, la medicina, la biologa, etc. . .

Desde un punto de vista puramente estadstico y de forma algo restrictiva el Anlisis


Multivariante puede definirse como el conjunto de tcnicas cuyo objetivo es el
anlisis descriptivo y/o la realizacin de inferencias a partir de datos de naturaleza
multivariante, es decir en los que cada observacin est constituida por los valores de
varias variables interrelacionadas.

Pese a su carcter tautolgico esta definicin contiene ciertos matices que conviene
resaltar. As cuando la referencia expresa anlisis descriptivo, pretende resaltar la
importancia en el contexto multivariante de este tipo de enfoque frente a los ms
clsicos de naturaleza Inferencial.

Igualmente la mencin del carcter interrelacionado de las variables estudiadas hace


hincapi en el aspecto esencial del A.M. En efecto si las variables fueran
independientes podran estudiarse por separado mediante las tcnicas univariantes
clsicas; el A.M. explota las relaciones existentes entre las mismas para lograr un
anlisis ms rico y profundo de la realidad subyacente en los datos observados.

Desde un punto de vista prctico las tcnicas de A.M. permiten el anlisis de


situaciones en que se disponen de observaciones sobre varios individuos u
Cap. 1. Aspectos del Anlisis Multivariado 2

objetos pertenecientes a uno o ms grupos, estando constituida cada observacin


por los valores de varias caractersticas o variables.

1.2. Organizacin de los datos. Daremos simplemente un recordatorio y poco


riguroso los conceptos bsicos que utilizaremos en la asignatura.

Arreglo.- Los datos multivariantes surgen de una investigacin de un fenmeno


social o fisco, seleccionado de un nmero p 1 de variables o caractersticas a
analizar. Los valores de estas variables son todas registradas de cada distintos tem,
individuo o ensayo experimental.

Usaremos la notacin xij para indicar el valor particular de la i-sima variable que es
observada en el i-simo individuo o ensayo.

Si tenemos n medidas de p variables, estas pueden representarse como sigue:

Individuo 1 Individuo 2 ... Individuo j ... Individuo n

Variable 1: x11 x12 ... x1j x1n


Variable 2: x21 x22 x2j x2n
. . . . .
. . . . .
. . . . .
Variable i: xi1 xi2 ... xij xin
. . . . .
. . . . .
. . . . .
Variable p: xp1 xp2 ... xpj xpn
o como un arreglo rectangular, llamado X, de p filas y n columnas:

x11 x12 ... x1j ... x1n


x21 x22 x2j ... x2n
. . . .
. . . .
X= . . . .
xi1 xi2 xij ... xin
. . . .
. . . .
. . . .
xp1 xp2 xpj xpn

Con el arreglo de los datos nos facilicita su exposicin y permite clculos de manera
ordenada y eficiente.
Cap. 1. Aspectos del Anlisis Multivariado 3

Nociones de Estadstica Descriptiva Multivariante.

En de la informacin contenida en los datos se pueden calcular ciertos nmeros de


resumen, conocidos como medidas Estadsticas descriptivas. Por ejemplo, la media
aritmtica es una estadstica descriptiva que proporciona una medida de localizacin;
esto es, un valor central para un conjunto de datos. La distancia media cuadrtica de
cada nmero de su media proporciona una medida de dispersin, o variacin, en los
datos.

Podemos relacionar con ms frecuencia las estadsticas descriptivas: medida de


locacin, de variacin y asociacin lineal.

La media muestral puede ser calculada a partir de n medidas sobre cada una
de las p variables. En general, existirn p medias muestrales:

x
j 1
ij
i = 1, 2, ..., p (1.1)
xi
n

El vector de medias es dado por :

x1

x2
X . (1.2)
.
xp

Una medida de dispersin es dada por la varianza muestral. En general, para


el caso de p variables, tenemos :

(xj 1
ij xi )2
i = 1, 2, ..., p. (1.3)
si2
n
Cap. 1. Aspectos del Anlisis Multivariado 4

En un arreglo se ubica a la varianza muestral a lo largo de la diagonal. En esta

situacin, introduciremos la denotacin s ii para denotar la misma varianza s i2 ,

calculada de las medidas sobre la i-sima variable. Es decir, si2 sii .

La covarianza muestral

1 n
sik ( xij x i )( x kj x k )
n j 1
i = 1, 2, ..., p , k = 1, 2, ..., p (1.4)

mide la asociacin entre las variables i y k. Se nota que la covarianza se reduce a la


varianza muestral cuando i = k. Sin embargo sik s ki para todo i y k.
La matriz de varianzas-covarianzas es

s11 s12 . . . s1p


s21 s22 . . . s2p
. . . .
S= . . . . (1.5)
. . . .
sp1 sp2 . . . spp
pxp

La ultima estadstica considerada aqu el coeficiente de correlacin muestral


(o coeficiente de correlacin momento producto de Pearson). Esto mide la asociacin
lineal entre dos variables, independiente de las unidades de medida. El coeficiente de
correlacin muestral, para variables i y k, es definido como:

sik
(x
j 1
ij x i )( x kj x k )
rik i = 1, 2, ..., p , k = 1, 2, ..., p
sii s kk n n

(x
j 1
ij xi ) 2
(x
j 1
kj xk ) 2

(1.6)
Aunque los signos de la correlacin muestral y la covarianza muestral son el
mismo, la correlacin es fcil de interpretar, debido a que su magnitud es
restringida. El valor del coeficiente de correlacin muestra, r, puede estar entre
1 y +1.
Cap. 1. Aspectos del Anlisis Multivariado 5

La matriz de correlacin muestral es:

1 r12 . . . r1p
r21 1 . . . r2p
. . . .
R= . . . . (1.7)
. . . .
rp1 rp2 . . . 1
pxp

Ejemplo 1. Dada las medidas de las variables X1, X2, X3. Encuentre las medidas
estadsticas descriptivas: X , S y R.

X1: 9 2 6 5 8

X2: 12 8 6 4 10

X3 : 3 4 0 2 1

Solucin.

6
92658 8
a) Tenemos que: x 1 , x 2 8 y x 3 2 . Entonces X
5 2

b) Las varianzas respectivas son:

s12 6 , s 22 8 , s 32 2 , s12 4 , s13 1.4 y s 23 1.2 . Luego la matriz

varianzas- covarianzas resulta,

6 4 1. 4
S 4 8 1.2
1.4 1.2 2

c) La matriz de correlacin resultante es


Cap. 1. Aspectos del Anlisis Multivariado 6

1 0.577 0.404

R 0.577 1 0.3
0.404 0.3 1

1.3. Distancia.
Muchas tcnicas estadsticas multivariante estn basados sobre conceptos similares
de distancia. Generalmente, estas medidas de distancia pueden ser divididos en dos
tipos: distancia Euclidiana y distancia de Mahalanobis.

Si consideramos el punto P = (x1, x2) en el plano, la distancia Euclidiana, d(O, P),


de P al origen O = (0,0), segn el teorema de Pitgoras es,

d (O, P ) x12 x 22 (1.8)

En general, si el punto P tiene p coordenadas, esto es, P = (x1, x2, ..., xp), la distancia
euclidiana de P al origen O = (0, 0, ..., 0) es

d (O , P ) x12 x 22 ... x 2p (1.9)

La distancia Euclidiana entre dos observaciones multivariantes arbitrarios P y Q


con coordenadas P = (x1, x2, ..., xp) y Q = (y1, y2, ..., yp) es dado por

d ( P, Q ) ( x1 y1 ) 2 ( x 2 y 2 ) 2 ... ( x p y p ) 2 (1.10)

En la distancia Euclidiana, cada coordenada contribuye igualmente a su clculo.


Cuando las coordenadas representan medidas que estn sujetas a fluctuaciones
aleatorias de diferentes magnitud, es frecuentemente deseable ponderar coordenadas
sujetas a grande variaciones con menor peso que aquellas que no tienen alta
variacin.
Cap. 1. Aspectos del Anlisis Multivariado 7

Para proceder a esto, se divide cada coordenada por la desviacin estndar muestral.
As una distancia del punto P = (x1, x2) al origen O = (0,0), llamada distancia
Euclidiana estandarizada, es dada por

x1 2 x x12 x 22
d ( P, O ) ( ) ( 2 )2 (1.11)
s11 s 22 s11 s 22

Comparando las expresiones (8) con (11), vemos que la diferencia entre las dos

expresiones es debido a las ponderaciones k1 = 1/s11 y k2 = 1/s22 afectadas a x12 y x 22


en (11). En casos donde las ponderaciones son las mismas, es conveniente ignorar el
divisor comn y usar la formula de la distancia Euclidiana. En otras palabras, si la
variabilidad en los direccin de x1 es la misma como la variabilidad en la direccin
de x2 y los valores de x1 varan independiente de los valores de x 2, la distancia
Euclidiana es apropiada.

Ejemplo 2. Un conjunto de pares de mediciones (x 1, x2) sobre dos variables produce


x 1 x 2 0 , s11 = 4 y s22 = 1. suponga que las mediciones de x1 estn
incorrelacionadas con las mediciones de x2, es decir, las mediciones dentro de un par
varan independientemente uno de otros. Puesto que las varianzas muestrales son
desiguales, se mede la distancia cuadrtica de un punto arbitrario P = (x1, x2) al
origen O = (0,0) por

x12 x 22
d 2 ( P, O )
4 1

Todos los puntos (x1, x2) tienen una distancia constante 1 desde el origen, que
satisfacen la ecuacin:
x12 x 22
1
4 1

Un grafico de la ecuacin x12 / 4 x12 / 1 1 es una elipse centrada en (0, 0), cuyo eje
mayor esta en el eje coordenadas x1 y cuyo eje menor esta comprendido en el eje de
Cap. 1. Aspectos del Anlisis Multivariado 8

coordenada x2. La mitad de la longitud de estos ejes mayor y menor son 42 y

1 1 , respectivamente. La elipse de distancia unitaria es representada en la Figura

1.1. Todos los puntos sobre la elipse tienen la misma distancia Euclidiana
estandarizada desde el origen, en este caso, una distancia de 1 desde el origen.

La expresin (11) puede ser generalizada para calcular la distancia Euclidiana


estandarizada desde un punto arbitrario P = (x1, x2) a un punto fijo Q = (y1, y2). Si
suponemos que las variables coordenadas varan independiente uno de otro, la
distancia desde P a Q es dado por:

( x1 y1 ) 2 ( x 2 y 2 ) 2
d ( P, Q ) (1.12)
s11 s 22

x2
1
.P

-2 2

-1

Figura 1.1. Elipse de distancia unitaria.

Sean los puntos P y Q que tienen p coordenadas, tal que P = (x1, x2, ..., xp) y
Q = (y1, y2, ..., yp). Supngase que Q es un punto fijo y variables coordenadas varan
independientemente uno de otro. Sea s11, s22, ..., spp varianzas muestrales construidas
de n medidas sobre x1, x2, ..., xp , respectivamente. La distancia Euclidiana
estandarizada de P a Q es,

( x1 y1 ) 2 ( x 2 y 2 ) 2 (x p y p )2
d ( P, Q ) (1.13)
s11 s 22 s pp
Cap. 1. Aspectos del Anlisis Multivariado 9

Todos los puntos P se encuentran a una distancia cuadrada constante desde Q sobre
una hyperelipsoide centrada en Q. Notamos que si s11 = s22 = = spp, la formula de
la distancia Euclidiana en (10) es apropiada.

Distancia de Mahalanobis. El concepto de distancia Euclidiana, es insuficiente


cuando examinamos observaciones correlacionadas. Una medida estadstica de
distancia entre dos puntos que no solo incluye la distancia entre las variables
individuales, si que tambin toma en cuenta la estructura de correlacin en cada
vector, es la medida de distancia de Mahalanobis, dada en los siguientes ejemplos:

d 2 (X, Y) (X Y) S 1 (X Y)

D 2 (X, ) (X ) S 1 ( X ) (1.14)
2 ( X, ) ( X ) 1 (X )

Ejemplo 3. Dada la matriz de covarianzas de las variables x1, x2 y x3,

63.37 5.286 35.159


S 5.286
0.873 3.703

35.159 3.703 21.65

Adems se tiene: x 1 19.32 , x 2 1.51 y x 3 9.76 ,


Hallar la distancia del vector X = (19,1,10) al origen y a el vector X:

a) Euclidiana
b) Euclidiana estandarizada
c)de Mahalanobis.
Solucin.

a) Distancia Euclidiana.

De X = (19,1,10) al origen O = (0, 0)


Cap. 1. Aspectos del Anlisis Multivariado 10

d ( X , O) ( x1 0) 2 ( x 2 0) 2 ( x3 0) 2 (19 0) 2 (1 0) 2 (10 0) 2
462 21.494

De X = (19,1,10) a x
.

d ( X , x) ( x1 x 1 ) 2 ( x 2 x 2 ) 2 ( x3 x 3 ) 2 (19 19.32) 2 (1 1.51) 2 (10 9.76) 2


0.4201 0.648

b) Distancia Euclidiana Estandarizada.

De X = (19,1,10) al origen O = (0, 0)

( x1 y1 ) 2 ( x 2 y 2 ) 2 (x p y p )2
d ( X , Q)
s11 s 22 s pp

Entonces,

(19 0) 2 (1 0) 2 (10 0) 2
d ( X , O) 3.385
63.37 0.873 21.65

De X = (19,1,10) a x
. Se tiene: d(X, X) 0.55

c) Distancia de Mahalanobis.

De X = (19,1,10) al origen O = (0, 0)

d 2 ( X , Y ) (X Y ) S 1 (X Y )


19 0 5.171 15.858 - 11.12 19 0
1
D ( X , O) 1 0
2
15.858 134.538 - 48.809 1 0
10 0 20.536 - 11.12 - 48.809 27.38 10 0

Cap. 1. Aspectos del Anlisis Multivariado 11

0.252 0.772 - 0.541 19



19 1 10 0.772 6.551 - 2.377 1 = 6.814
- 0.541 - 2.377 1.333 10

Luego la distancia de Mahalanobis es: d(X, O) = 2.61

De X = (19,1,10) a x
. Resulta: D(X, X) 1.633

1.4. lgebra de Matrices y vectores aleatorios.


Hemos visto, en las secciones anteriores que los datos multivariantes pueden ser
mostrados como un arreglo de nmeros. En general, un arreglo rectangular de
nmeros, con p filas y n columnas es llamado una matriz de dimensin p x n. El
estudio de los mtodos multivariantes es grandemente facilitado por el uso de lgebra
de matrices.

1.4.1. Conceptos bsicos.

Vectores.
Un arreglo x de n nmeros reales x1, x2, ..., xn es llamado un vector y se escribe
como:
x1
x
2
x . o x x1 , x 2 , . . . , x n (1.15)

.
x n

En la figura 1.2, se ilustra la representacin geomtricamente del vector x 1, 3, 2


.
Cap. 1. Aspectos del Anlisis Multivariado 12

Figura 1.2. El vector x 1, 3, 2 .

Definimos el vector cx como:


cx 1
cx
2

cx . (1.16)

.
cx n

Esto es, cx es el vector obtenido multiplicando cada elemento de x por c.[ver figura
1.3(a)]. As mismo, en la figura 1.3 (b), se representa la suma de dos vectores x y y.

2 2

x2 + y2
2x
2x2 x2
x x+y
x2 x
y2 y
x1 2x1 1 x1 y1 x 1 + y1 1

-x
a) Multiplicacin de un vector por una constante b) suma de dos vectores.

Figura 1.3. Multiplicacin escalar y vector suma.



La longitud de un vector x x 1 , x 2 , . . . , x n con n componentes, es
definido
por:
Cap. 1. Aspectos del Anlisis Multivariado 13

Lx x 12 x 22 x 2n (1.17)

La multiplicacin de un vector x por un escalar c, cambia la longitud. De la


ecuacin (17), tenemos:

L cx c 2 x 12 c 2 x 22 c 2 x 2n c x 12 x 22 x 2n c L x (1.18)

Otro concepto geomtrico es el ngulo de dos vectores. Consideremos dos


vectores en un plano y el ngulo, , entre ellos, como en la figura 1.4. En la figura
1.4, puede ser representado como la diferencia entre los ngulos 1 y 2 formado
por dos vectores y las primeras coordenadas de los ejes. Por definicin, tenemos:

x1 y1 x2 y2
cos 1 cos 2 sen 1 sen 2
Lx Ly Lx Ly

y cos cos( 2 1 ) cos( 2 )cos(1 ) sen( 2 )sen(1 )

El ngulo especificado entre los vectores x x 1 , x 2 y y y1 , y 2 es


especificado por :
y1 x1 y2 x2
cos cos( 2 1 ) (1.19)
L L
y Lx y Lx

es conveniente introducir el producto inercia de dos vectores. Para el caso de n = 2, el

producto inercia de x y y es: xy x1 y1 x 2 y 2 . Con esta definicin y la ecuacin


(19) resulta:
xy xy
cos , donde L x xx
LxLy xx y y

2
Cap. 1. Aspectos del Anlisis Multivariado 14

x 1 y1 x 2 y 2
cos
LxLy
y
y2
x
x2

2 1
1
y1 x1


Figura 1.4. El ngulo entre x x 1 , x 2 y y y1 , y 2 .

Para un nmero arbitrario de dimensin n, el producto inercia de x y y es dado por:

x y x 1 y1 x 2 y 2 x n y n (1.20)

Entonces el arreglo para vectores de n componentes es dado por:

x y x y
cos (1.21)
LxLy x x y y

donde L x Longitud de x xx

Ocurre cos 0 si slo si x y 0 , se dice que x y y son perpendiculares cuando


xy 0 .

Un par de vectores x y y de igual dimensin , se dice que son linealmente


dependiente si existen constantes c1 y c2 (ambos diferentes de cero), tal que:

c1 x c 2 y 0

Un conjunto de vectores x1, x2, . . . , xk se dicen que son linealmente dependiente si


existen constantes c1, c2, . . . , ck, no todos cero, tal que:

c1 x 1 c 2 x 2 c k x k 0 (1.22)

Linealmente dependiente implica que al menos un vector en el conjunto, puede ser


escrito como una combinacin lineal de otros vectores. Vectores de la misma
dimensin que no son linealmente dependientes, se dicen que son linealmente
dependiente.
Cap. 1. Aspectos del Anlisis Multivariado 15

Ejemplo 1. Dado los vectores x 1, 3, 2 y y - 2, 1, - 1 . Determinar la


longitud de x, la longitud de y y el ngulo entre x y y. Adems, verificar que la
longitud de 3x es tres veces la longitud de x.

Solucin.

a) Tenemos que:
xx = 12 + 32 + 22 =14 , y = (-2)2 + 12 + (-1)2 = 6 y xy = 1(-2) + 3(1) + 2(-1) = -1.

- Por lo tanto, las longitudes de los vectores x y y son respectivamente:

L x xx 14 3.742 Ly y y 6 2.449

x y -1
- Por otro lado, tenemos que: cos 0.1091
L x L y 3.742 2.449

Entonces el ngulo entre x y y es = 96.26.

b) Finalmente, L 3x 3 2 9 2 6 2 126 3 14 3Lx . Se comprueba que

L 3x 3L x

Ejemplo 2. Consideremos el conjunto de vectores:


1 1 1
x 1 2 x 2 0 x 3 2
1 1 1

Escribiendo :
c1 x 1 c 2 x 2 c 3 x 3 0

Entonces:
Cap. 1. Aspectos del Anlisis Multivariado 16

1 1 1 0
c1 2 c 2 0 c 3 2 0

1 1 1 0

c1 + c2 + c3 = 0
2c1 + - 2c3 = 0
c1 c2 + c3 = 0

Se observa que este sistema de ecuaciones tiene una nica solucin : c1= c2 = c3 = 0.
Como no se puede encontrar tres constantes c 1, c2 y c3 , no todos cero, tal que se
cumpla c1 x 1 c 2 x 2 c 3 x 3 0 , los vectores x1, x2 y x3 son linealmente
independientes.

Matrices.
Una matriz es un arreglo rectangular de nmeros reales o funciones que toman
valores sobre los nmeros reales. Se denota un arreglo arbitrario de m filas y k
columnas por:

a11 a12 . . . a1n


a21 a22 . . . a2n
. . . .
A= . . . .
(1.23)
. . . .
ap1 ap2 . . . apn
pxn

Sea las matrices A y B, ambos de dimensin m x k con elementos arbitrarios


aij y bij, i=1, 2, ..., m, j = 1, 2, ..., k , respectivamente. La suma de la matrices A y B es
una matriz C de orden m x k, C = A + B, tal que los elementos arbitrarios de C, cij, es
dado por
cij = aij + bij i = 1, 2, ..., m j = 1, 2, , k. (1.24)

Sea c un escalar arbitrario y una matriz A ={aij}. Entonces cA = Ac = B =


{bij} donde bij = caij = aijc, i = 1, 2, ..., m, j = 1, 2, , k.
Consideremos una matriz Am x k con elementos arbitrarios aij , i = 1, 2, ..., m
Cap. 1. Aspectos del Anlisis Multivariado 17

j = 1, 2, , k . La transpuesta de la matriz A, denota por A , es la matriz de orden


k.x.m con elementos aji , j =1, 2, ..., k, i = 1, 2, ..., m. Es decir, la Transpuesta de A es
obtenida de A intercambiando las filas y columnas.

Sea A una matriz cuadrada k x k . Se dice que la matriz A es simtrica,


si A = A. Esto es, A es simtrica si aij = aji , i = 1, 2, ..., k , j = 1, 2, , k.

Son Ejemplos de matrices simtricas:

a c e f
c d
3 5 b g
5 2 e g c a


f d a d

El producto A m x n x B n x k es una matriz Cm x k cuyos elementos cij es dado por

n
cij ail blj
l 1
, i =1, 2, ..., m, j = 1, 2, ..., k. (1.25)

El determinante de una matriz cuadrada k x k A ={aij}, denotada por A , es


un escalar :
A = a11 si k =1
k
A a
j1
1j A 1j ( 1)1 j si k > 1

(1.26)

donde A1j es la matriz de orden (k-1)x(k-1) obtenida eliminando la primera fila y la j-


sima columna de A.

Una matriz A es no singular si A (k x k) x (kx1) = 0.(kx1), entonces implica x(kx1) = 0.(kx1).


Si una matriz resulta ser no singular, es llamado singular. Equivalentemente, una
matriz cuadrada es no singular si su rango es igual al nmero de filas (o columnas.
Cap. 1. Aspectos del Anlisis Multivariado 18

Note que Ax = x1a1 + x2a2 + + xkak , donde ai es la i-sima columna de A, tal que la
condicin de no singularidad es justo la condicin de que las columnas de A son
linealmente independiente.

Si existe una matriz B tal que B (k x k) A (kx1) = A (k x k) B (k x 1) = I(k x k), entonces


B es llamado la inversa de A y es denotado por A-1.

Una condicin tcnica de que la inversa existe, es que las k columnas a1, a2,, ak de
A son linealmente independiente. Esto es, si existe A-1 es equivalente a

c1a1 + c2a2 + + ckak = 0 , s solo s c1 = c2 = = ck = 0 (1.27)

Una matriz cuadrada A se dice que es ortogonal si sus filas, consideradas


como vectores, son mutuamente perpendiculares y longitud unitaria; es decir,
A A=I. Una matriz A es ortogonal s y slo s A-1 = A.

Para una matriz ortogonal, A A = AA = I, as las columnas son tambin


mutuamente perpendiculares y tienen longitud unitaria.

Un ejemplo de una matriz ortogonal es:


1 1 1 1
2 2 2 2
1 1 1 1

A 2 2 2 2
1 1

1 1
2 2 2 2
1 1 1 1

2 2 2 2

Se nota que las filas de la matriz A son mutuamente perpendiculares y longitud


unitaria. Adems se observa que A = A , tambin se verifica que A A = I =A A = A
A, Es decir:
Cap. 1. Aspectos del Anlisis Multivariado 19

1 1 1 1 1 1 1 1

2 2 2 2 2 2 2 2 1 0 0 0
1 1 1 1 1 1 1 1
0 1 0 0
2 2 2 2 2 2 2 2
0 0 1 0
1 1 1 1 1 1 1 1

2 2 0 1
2 2 2 2 2 2
1 1 1 1 1 1 1 1 0 0

2 2 2 2 2 2 2 2

A A = I

Sea A(k x k) una matriz cuadrada y sea I(k x k) la matriz identidad. Entonces los
escalares 1, 2, ..., k satisfacen la ecuacin polinomial A - I = 0 son llamados los
eigenvalores ( valores propios o races caractersticas) de una matriz A. La ecuacin
A - I = 0 (como funcin de ) es llamado la ecuacin caracterstica.

1 0
Por ejemplo, sea la matriz A
1 3

1 0 1 0 1 0
Entonces: A I 1 3
1

3
(1 )(3 ) 0
0 1

Entonces se tiene dos races, 1 = 1 y 2 = 3. Los eigenvalores de la matriz A son 1 y


3.

Sea A (k x k) y es un eigenvalor de A. Si x(k x 1) es vector no cero ( x(k x 1) 0(k x 1) )


tal que
Ax = x. (1.28)

Entonces se dice que x es un eigenvector ( vector propio o vector caracterstico) de la


matriz A asociada con los eigenvalores .

1 0
En el ejemplo anterior, los eigenvalores de la matriz A son 1 = 1 y 2 = 3.
1 3

Los eigenvectores asociados con estos eigenvalores pueden ser determinados,


resolviendo las siguientes ecuaciones:

1 0 x 1 x1
1 3 x 1 x , A x = 1 x
2 2
Cap. 1. Aspectos del Anlisis Multivariado 20

1 0 x1 x1
1 3 x 3 x , A x = 2 x
2 2

De la primera expresin, tenemos:


x1 = x1
x1 + 3x2 = x2 , o sea x1 = -2x2

Existe varias soluciones para x1 y x2. Haciendo x2 = 1 (valor arbitrario) da x1 = -2 y

2
entonces: x es un eigenvector correspondiente al eigenvalor 1.
1

Por otro, de la segunda expresin, x1 = 3x1


x1 + 3x2 = 3x2
0
implica x1 = 0 y x2 = 1 (arbitrario), y entonces x es eigenvector
1
correspondiente al eigenvalor 3.

1.5. Matrices Definidas Positivas.

En esta seccin se considera formas cuadrticas que son siempre no negativos y la


asociacin de matrices definidas positivas. Resultados que involucran formas
cuadrticas y matrices simtricas son, en muchos casos, una consecuencia directa de
la expansin de matrices simtricas conocidas como Descomposicin espectral.

La descomposicin espectral de una matriz simtrica de orden k x k es dado por

A 1 e 1 e1 2 e 2 e 2 1 e k e k (1.29)
(kxk) (kx1) (kx1) (kx1) (kx1) (kx1) (kx1)

donde 1, 2, . . . , kson valores propios de A y e1, e2, . . ., ek los asociados vectores


propios normalizados. As eiei = 1, i= 1, 2, ..., k y eiej = 0, i j.
Cap. 1. Aspectos del Anlisis Multivariado 21

Ejemplo. Consideremos la matriz simtrica

13 4 2
A 4 13 2
2 2 10

Los valores propios obtenidos de la ecuacin caracterstica A - I = 0 son 1 = 9,


2 = 9 y 3 = 18. Los correspondientes vectores propios e1, e2, y e3 son las soluciones
(normalizadas) de la ecuacin Aei = iei para i = 1, 2, 3. As, Ae1 = 1e1

13 4 2 e11 e11
4 13 2 e 9 e
21 21
2 2 10 e31 e31

Es decir 13e11 4e21 + 2e31 = 9e11


-4e11 + 13e21 - 2e31 = 9e11
2e11 2e21 + 10e31 = 9e11

de donde tenemos: 4e11 4e21 + 2e31 = 0


-4e11 + 4e21 - 2e31 = 0
2e11 2e21 + e31 = 0

Las dos primeras ecuaciones resultan redundantes seleccionado e11 = 1 y e21 = 1,


resulta e31 = 0.
1 1
2
2 2 2
1 1 0


1 1

El vector propio normalizado e1 2 2
1 1 0
2
12
, puesto que la suma de

0 0
2 2 2
1 1 0

cuadrados de sus elementos es la unidad.

Verificar que
e2 1 18 1/ 18 4/ 18 es tambin un vector propio

normalizado para 2 = 9, y que e3 2/3 2 /3 1/3 es vector valor normalizado


correspondiente para el valor vector 3 = 18. Adems, eiej = 0, i j.
Cap. 1. Aspectos del Anlisis Multivariado 22

Entonces la descomposicin espectral de la matriz A es:

A 1e 1e 1 2 e 2 e 2 3e 3 e3

Si una matriz es simtrica y si todos sus eigenvalores son positivos, se dice


que la matriz es una matriz definida positiva.

Si una matriz simtrica tiene eigenvalores no negativos y si por lo menos uno


de sus eigenvalores es igual a cero, entonces se dice que la matriz es una
matriz semidefinida positiva.

1.6. Vectores y Matrices aleatorias.


Un vector aleatorio es un vector cuyos elementos son variables aleatorias.
Similarmente, una matriz aleatoria es una matriz cuyos elementos son variables
aleatorias. El valor esperado de una matriz aleatoria (o vector) es la matriz que
consiste de valores esperados en cada uno de sus elementos.
Sea X = {Xij} una matriz aleatoria de orden p x n. El valor esperado de X, denotado
por E(X), la matriz aleatoria de orden p x n (si existe).

E(X11) E(X12) . . . E(X1n)


E(X21) E(X22) . . . E(X2n)
. . . .
E(X) = . . . . (1.30)
. . . .
E(Xp1) E(Xp2) . . . E(Xpn)
pxn

donde para cada elemento de la matriz,



x f (x )dx si X es una v.a continua con funcin
ij ij ij ij ij

de densidad deprobabilidad fij (x ij )
E(X ij )

xijpij(xij) si Xij es una v.a discreta con funcion
xij
de probabil dad pij(xij)

Ejemplo 1. Supngase p = 2 y n = 1 y considere el vector aleatorio X X 1 , X 2 .


Sea la variable aleatoria discreta X1 que tiene la siguiente funcin de probabilidad:
Cap. 1. Aspectos del Anlisis Multivariado 23

x1 -1 0 1
p1(x1) 0.3 0.3 0.4

Entonces E(X 1 )
x
x 1 p1 (x 1 ) ( 1)(0.3) 0(0.3) 1(0.4) 0.1
1

Similarmente, sea la variable aleatoria discreta X2 con la siguiente funcin de


probabilidad:
x2 0 1
p2(x2) 0.8 0.2

Entonces E(X 2 )
x
x 2 p 2 (x 2 ) (0)(0.8) 1(0.2) 0.2
1

Luego,
E( X 1 ) 0.1
E ( X)
E ( X 2 ) 0.2

Sea X y Y son dos matrices aleatorias de la misma dimensin y sean A y B


matrices conformadas por constantes, entonces:

E( X Y ) E( X) E(Y )
E( AXB) AE( X)B

1.7. Vector de medias y Matrices de covarianzas.


Sea X = {Xi}un vector aleatorio (px1). Cada elemento de X es una variable aleatoria
con su respectiva distribucin de probabilidad. Las medias marginales, i y varianzas,

i2 , son definidos como i E ( X i ) y i2 E ( X i i ) 2 ,i=1, 2, . . . , p,


respectivamente. Especficamente,

x f (x )dx si X es una v.a continua con funcin
ii i i i

de densidad de probabilidad fi (xi )
i

xipi (x i ) siXi es una v.a discreta con funcion
x i
de probabilidad pi (xi )



(xi -i ) fi (xi )dxi si Xi es una v.a continua con funcin
2

de densidad deprobabilidad fi (xi )



i
2


x ipi (xi ) si Xi es una v.a discreta con funcin
x i
deprobabilidad pi (xi )

(1.31)
Cap. 1. Aspectos del Anlisis Multivariado 24

El comportamiento de algn par de variables aleatorias, tales como Xi y Xk es


descrito por su funcin de probabilidad conjunta y una medida de la asociacin lineal
entre ellos proporcionado por la covarianza ij donde
ij E(X i i )(X k k )


si Xi , X k son variables aleatorias continuas

(x i - i )(xk - k ) fik (x i, x k )dxidx k con funcin de densidad conjunta fik (xi , xk ).

(1.32)
si Xi , Xk son variables aleatorias discretas
(x - )(x - )p (x ,x ) con probabilidad conjunta pij(xi , x k )
Xi xk i i k k ik i k

y i y k , i, k =1,2,...,p, son las medias marginales. Cuando i = k , la covarianza se


convierte en la varianza marginal.
De manera general, el comportamiento colectivo de las p variables aleatorias
X1, X2, ..., Xp, o, equivalentemente, el vector aleatorio X =[X1, X2, ..., Xp] es descrito
por una funcin de densidad de probabilidad conjunta f(x 1, x2, ..., xp) = f(x). Como
veremos ms adelante, f(x) puede frecuentemente ser la funcin de densidad normal
multivariante.

La probabilidad conjunta P X i x i y X k x k puede escribirse como el producto de


las correspondientes probabilidades marginales, es decir,

P X i x i y X k x k P X i x i P X k x k (1.33)

para todos los pares de valores x1, xk, entonces Xi y Xk se dice que son
estadsticamente independientes.

Cuando Xi y Xk son variables aleatorias continuas con densidad conjunta f ik(xi, xk) y
funcin de densidad marginal fi(xi) y fk(xk), la condicin de independencia produce

f ik (x i , x k ) f i (x i )f k (x k ) para todo los pares (xi, xk).

Las p variables aleatorias continuas X1, X2, . . . , Xp son estadsticamente


independientes si la densidad conjunta es factorizada como:

f 1, 2, ,,, p (x i , x 2 , . . . , x p ) f 1 (x 1 )f 2 (x 2 ) f p (x p ) (1.34)
Cap. 1. Aspectos del Anlisis Multivariado 25

La independencia estadstica tiene una importante implicacin en la covarianza. Si

Cov(x i , x k ) 0 si X1 y Xk son independientes. (1.35)

la media y covarianza de un vector aleatorio X de orden (px1) pueden ser expresado


como matrices. As tenemos,
E X 1 1
E( X )
2 2
E ( X) . . (1.36)

. .
E ( X p ) p

y

X1 1

X2 2
E(X )(X ) E

. X1 1 , X 2 2 , . . . , X p p

.

Xp p

E(X1 1 ) 2 E(X 1 1 )(X 2 2 ) . . E(X 1 1 )(X p p )



E(X 2 2 )(X1 1 ) E(X 2 2 ) 2 . . E(X 2 2 )(X p p )
. . .

. . .
E(X p p )(X1 1 ) E(X p p )(X 2 2 ) . . E(X p p ) 2

o
11 12 . . 1p
22 . . 2p
21
Cov( X) . . . . (1.37)

. . . .
p1 p2 . . pp

Ejemplo 1. Encontrar la matriz de covarianza para las dos variables aleatorias X1 y


X2, con funcin de probabilidad conjunta, p12(x1, x2) es representado en la siguiente
tabla.
x2
x1 0 1 p1(x1)
Cap. 1. Aspectos del Anlisis Multivariado 26

-1 0.24 0.06 0.30


0 0.16 0.14 0.30
1 0.40 0.00 0.40

p2(x2) 0.80 0.20

Solucin.
Ud. Puede comprobar que 1 E(X1 ) 0.1 y 2 E(X 2 ) 0.2 . Adems,

tenemos:
11 E(X 1 1 ) 2 (x 1 0.1) 2 p1 (x 1 )
x1

( 1 0.1) (0.3) (0 0.1) 2 (0.3) (1 0.1) 2 (0.4) 0.69


2

22 E(X 2 2 ) 2 (x 2 0.2) 2 p 2 (x 2 ) 0.16


x 2

12 E(X1 1 )(X 2 2 ) (x 1
pares (x1 , x 2 )
0.1) 2 (x 2 - 1 )p12 (x 1 , x 2 )

( 1 0.1)(0 - 0.2)(0.24) (-1 0.1)(1 - 0.2)(0.06) (1 0.1)(1 - 0.2)(0.0)


0.08

21 E(X 2 2 )(X 1 1 ) E(X 1 1 )(X 2 2 ) 12 0.08

Entonces con X = [X1 , X2]

E(X1 ) 1 0.1
E ( X)
E(X 2 ) 2 0.2

y

E(X1 1 ) 2 E(X1 1 )(X 2 2 )
E(X )(X )
E(X 2 2 )(X1 1 ) E(X 1 1 ) 2

11 12 0.69 - 0.08

21 22 - 0.08 0.16
Cap. 1. Aspectos del Anlisis Multivariado 27

Es frecuentemente informativo separar la informacin contenida en las varianzas, ii


del contenido en medidas de asociacin y, en particular, la medida de asociacin
conocida como el coeficiente de correlacin poblacional, ik. El coeficiente de
correlacin ik es definido en trminos de la covarianza ij y varianzas ii y kk como

ik
ik (1.38)
ii kk

El coeficiente de correlacin mide la cantidad de asociacin lineal entre las variables


Xi y Xk .

La matriz de correlacin poblacional es una matriz simtrica de orden (p x p),


donde
11 12 1p
. . .
11 11 11 22 11 pp
12 22 2p
. . .
22 22 22 pp
11 22
. . . .

. . . .
1p 2p pp
. . .
11 pp 22 pp pp pp

1 12 . . 1p
1 . . 2p
12
. . . . (1.39)

. . . .
1p 2p . . 1

y sea la matriz desviacin estndar V1/2 de orden (p x p), dada por


11 0 . . 0

0 22 . . 0
V .
1/2
. . . (1.40)

. . . .
0 0 . . pp

Cap. 1. Aspectos del Anlisis Multivariado 28

Entonces se verifica que:


V1/2 V1/2 = (1.41)
y
= (V1/2 )-1 (V1/2 )-1 (1.42)

Particin de la matriz de covarianza

Se puede particionar las p caractersticas contenida en el vector aleatorio X de orden


px1, por instante, en dos grupos de tamao q y p-q, respectivamente. Por ejemplo
escribimos

X1 1
. .

. .
X X (1) (1)
X E( X) (2)
q q
= ( 2) y
X q 1 X q 1
. .

. .
X p p

(1.46)

Multiplicando las matrices,

X1 1

X2 2
X (1)

(1) X (2) (2)


X q 1 q 1 , X q 2 q 2 ,..., X p p

X q q
Cap. 1. Aspectos del Anlisis Multivariado 29

(X1 1 )(X q 1 q 1 ) (X1 1 )(X q 2 q 2 ) (X1 1 )(X p p )


(X )(X ) (X 2 2 )(X q 2 q 2 ) . (X 2 2 )(X p p )
2 2 q 1 q 1

. . .

. . .
(X q q )(X q 1 q 1 ) (X q q )(X q 2 q 2 ) . . (X q q )(X q q )

tomando valor esperado a la matriz X (1) (1) X (2) (2) , resulta:

1, q 1 1, q 2 1 p
2, q 2 2 p
E(X )( X )
(1) (1) (2) (2) 2, q 1 12 (1.47)


q, q 1 q, q 2 q p

que considera todas la covarianzas, ij , i = 1, 2, ..., q, j = q + 1, q + 2, ..., p , entre una


componente de X(1) y una componente de X(2).

Haciendo uso de la particin dada en la ecuacin (36), se verifica que:

(X (1) (1) ) (X (1) (1) ) (X (1) (1) ) (X (2) (2) )


(q x 1) (1 x q) (q x 1) (1 x ( p - q))
( X )(X )
Como
(X(p - q) x1) ) (X (1x q) ) (X (2) (2) ) (X (2) (2) )
(2) (2) (1) (1)

((p - q ) x 1) (1 x (p - q))
consecuencia resulta:

q p-q (1.48)

11 12 q
E(X )(X ) p-q
(pxp) 21 22 (p x p)

11 1 q 1, q 1 1 p


q1 q q q, q 1 q p

q 1, 1 q 1, q q 1, q 1 q 1, p


p 1 pq p, q 1 p p
Cap. 1. Aspectos del Anlisis Multivariado 30

Note que 12 21 . La matriz de covarianza de X (1)


es 11, de los X(2) es 22, y

de los elementos de X(1) y X(2) es 12 ( o 21).

Particin del vector de medias muestral y de la matriz de covarianza


muestral.

El vector de medias muestral y la matriz de covarianza muestral puede ser


particionado, de la forma:
x1


xq x (1)
X (2) (1.49)
( p x 1) x q 1 x


xp

y
s11 s1 q s1, q 1 s1 p


sq1 sq q s q, q 1 sq p
S
(p x 1)
s q 1, 1 s q 1, q s q 1, q 1 s q 1, p


s p 1 sp q s p, q 1 s p p

q p-q (1.50)
q
S11 S12
p -q
S 21 S 22 (p x p)
Cap. 1. Aspectos del Anlisis Multivariado 31

1.8.- La varianza Generalizada.


Con una simple variable, la varianza simple es frecuentemente usado para describir
la cantidad de variacin en las mediciones de la variable. Cuando p variables son
observadas sobre cada elemento, la variacin es expresado por la matriz muestral de
varianza covarianza

s11 s12 s1p


s s 2p
s 22 1 n
S
12
s ik (x ij x i )(x kj x k )
n 1 j1

s1p s 2p s pp

1
La matriz de covarianza muestral contiene p varianzas y p ( p 1) diferentes
2
covarianzas. Algunas veces es deseable asignar un simple valor numrico para la
variacin expresada por S. Una eleccin de un valor es el determinante de S, que es
llamada varianza muestral generalizada.

Varianza muestral generalizada = S(1.51)

La varianza muestral generalizada proporciona una manera de escribir la informacin


sobre todas las varianzas y covarianzas con un solo nmero.

La matriz de covarianza muestral de las variables estandarizadas es R, la


matriz de correlacin muestral. Se define:

Varianza muestral generalizada de las variables estandarizadas = R(1.52)

Las cantidades S y R se encuentran relacionadas por:

S( = s11s22 spp)R(1.53)

Ejemplo. Dada la siguiente matriz de varianzas - covarianzas muestral,


Cap. 1. Aspectos del Anlisis Multivariado 32

4 3 1
S 3 9 2
1 2 1

Se pide verificar la relacin dada en (43), cuando p = 3.

1.9.- Grficos de datos multivariantes.

El uso de las tcnicas multivariantes supone una mayor carga a la hora de entender,
evaluar e interpretar los resultados mas complejos. En estas tareas, la ayuda proviene
de la comprensin de las caractersticas bsicas de los datos y de sus relaciones
subyacentes. Cuando se considera un anlisis univariante, el nivel de comprensin es
muy simple. Pero a medida que se introduce en los mas complejos anlisis
multivariantes, la necesidad y el nivel de comprensin aumentan considerablemente.
En la mayora de las veces, las presentaciones grficas de los datos son ms
informativas que su impresin en grandes conjuntos. Existen varias razones para
considerar las presentaciones grficas de datos multivariantes, dos de las ms
importantes son: a) ayuda a localizar e identificar anormalidades que podran
existir en los datos y b) ayuda a verificar las hiptesis que pueden requerirse para
sean vlidos ciertos anlisis estadsticos.

Adems de las dos razones ms importantes, mencionadas anteriormente, los


grficos de datos multivariantes, con frecuencia son tiles para ayudar a verificar y
validar los resultados de los mtodos de agrupacin.

La aparicin y la difusin del uso de programas estadsticos ha llevado a una mejora


del acceso a tales mtodos. La mayora de los programas estadsticos tienen mdulos
Cap. 1. Aspectos del Anlisis Multivariado 33

particularmente comprensivos de tcnicas grficas preparadas para el examen de los


datos que se ven mejoradas muchas veces con medidas estadsticas ms detalladas de
la descripcin de los datos. Ilustraremos algunas de las tcnicas usadas de forma ms
comn en las relaciones bivariantes, diferencias por grupos e incluso perfiles
multivariantes.

En esta seccin proporcionaremos algunos de los mtodos grficos bsicos que


existen para ayudar a la obtencin de una comprensin bsica de las caractersticas
de los datos, particularmente en un sentido Multivariante.

Anlisis de relacin entre variables.

El examen de la distribucin de una variable es esencial, pero muchas veces se esta


interesado en examinar las relaciones entre dos o ms variables. El mtodo ms
popular de anlisis de las relaciones bivariantes es el grfico de dispersin. Se
presenta una variable en el eje horizontal y la otra en el vertical. Las variables
pueden ser valores observados, valores esperados o incluso residuos. Los puntos del
grfico representan los correspondientes valores conjuntos de las variables para
cualquier caso dado. El patrn de los puntos representan la relacin entre las
variables. Cuando los se organizan a lo largo de una lnea recta, tenemos una relacin
lineal de correlacin. Un conjunto de puntos curvados puede indicar una relacin no
lineal, que se puede tratar de varias formas. O puede que no existan patrones, slo un
conjunto de puntos aparentemente aleatorios (en este caso, no hay relacin).

Un grfico que se ajusta particularmente a las tcnicas multivariantes es la matriz


del grfico de dispersin. La Figura 1.5 presenta los grficos de dispersin de un
conjunto de variables de la base de datos del ejemplo que aparece en Dallas E.
Johnson (ejemplo 2.1, pagina 40). Cuarenta y ocho individuos que haban presentado
solicitud de trabajo a una empresa fueron entrevistados y clasificados en relacin con
15 criterios. Estos aspirantes se clasificaron segn la forma de su letra en la solicitud
Cap. 1. Aspectos del Anlisis Multivariado 34

(FL), su aspecto (APP), su capacidad acadmica (AA), su amabilidad (LA), su


autoconfianza (SC), su lucidez (LC), su honestidad (HON), su arte de vender (SMS),
su experiencia (EXP), su empuje (DRV), su ambicin (AMB), su capacidad para
captar conceptos (GSP), su potencial (POT), su entusiasmo para trabajar en grupo
(KJ) y su conveniencia (SUIT). Adems, cada criterio se evalu en una escala que va
del 0 al 10, con 0 como una calificacin muy insatisfactoria y con 10 como una
calificacin muy alta. El resultado de la evaluacin de cada uno de estos individuos,
se muestra en la tabla N 1 (ver anexo). En la Figura 1.5.se representa el grfico de
dispersin para todas las combinaciones de variables en la porcin inferior y superior
de la matriz. Las diagonales contienen los histogramas de las variables. Con el
software Estadstico Statistica 6.0, se construyo la matriz de dispersin, mediante
ventana Graphs, matriz plots.
Cap. 1. Aspectos del Anlisis Multivariado 35

Matrix Plot (SOLICITANTES 15v*48c)


FL

APP

AA

LA

SC

LC

HON

SMS

EXP

DRV

AMB

GSP

POT

KJ

SUIT
Cap. 1. Aspectos del Anlisis Multivariado 36

Caras de Chernoff.

En 1973, Chernoff sugiri utilizar caras para representar datos multivariantes. Una
caracterstica facial diferente se asocian con variables diferentes. As, por ejemplo,
una variable se podra asociar con el ancho vertical del ojo, la segunda con el ancho
horizontal, la tercera con el tamao del iris y las otras se podran asociar con el
espaciamiento de los ojos, la altura de los ojos, la longitud de la nariz, el ancho de la
nariz, la longitud de las cejas, el ancho de las orejas, la el ancho de las orejas, la
altura de las orejas, la longitud de la parte media de la boca, la abertura de la boca, la
sonrisa, etc. La figura 1.6 muestra un conjunto de caras de Chernoff para cada uno de
los 48 solicitantes de trabajo (ver Dallas Jonson, tabla 2.1, pagina 42). Las caras
fueron elaboradas por el programa Statistica 6.0, mediante:

Graphs stats Icon Graphs Graph Type Chernoff Faces.

Caras de Chernoff (SOLICITANTES 15v*48c)

#1 #2 #3 #4 #5 #6 #7 #8

#9 #10 #11 #12 #13 #14 #15 #16

face/w = FL
ear/lev = APP
#17 #18 #19 #20 #21 #22 #23 #24
halfface/h = AA
upface/ecc = LA
loface/ecc = SC
nose/l = LC
#25 #26 #27 #28 #29 #30 #31 #32 mouth/cent = HON
mouth/curv = SMS
mouth/l = EXP
eyes/h = DRV
#33 #34 #35 #36 #37 #38 #39 #40 eyes/sep = AMB
eyes/slant = GSP
eyes/ecc = POT
eyes/l = KJ
pupils/pos = SUIT
#41 #42 #43 #44 #45 #46 #47 #48

Fgura 1.6. Grficas de caras para los datos de solicitantes, usando las 15 respuestas.
Cap. 1. Aspectos del Anlisis Multivariado 37

Las caras de Chernoff son tambin muy tiles para validar los resultados de los
programas de agrupacin, con los que se intenta dividir las unidades experimentales
de un conjunto de datos en subgrupos, llamados agrupamientos, de manera que los
individuos dentro de un agrupamiento sean semejantes entre s, y los que estn en
agrupamientos diferentes no lo sean. Mediante las caras de Chernoff para los
individuos dentro de un agrupamiento deben ser semejantes entre s, y las caras para
aquellos que se encuentran en agrupamientos diferentes no deben serlo. Se puede
notar la semejanza entre las de Chernoff para los solicitantes 7 y 8, 10 y 11, y 22, 23
y 24.

Grfico de estrella.

Este tipo de grfico, se construyen al representar la distancia a la que se encuentra


cada variable de cero sobre rayos o ejes que irradian de un punto central. Se tiene un
rayo para cada variable respuesta; por ejemplo, los vectores de datos en cinco
dimensiones requeriran cinco rayos o ejes. Para cada ejes, cada uno de stos
formara un ngulo de 72 con los ejes adyacentes.

En la figura 1.7 se muestra la identificacin de los ejes de cinco variables X 1, X2, X3,
X4 y X5. Se ha trazado X1 a lo largo del eje que apunta hacia el norte (es decir, el eje
que apunta directamente hacia arriba). Las otras variables se han representado sobre
los otros ejes en el orden del sentido del movimiento de las manecillas del reloj.

X1
X2
X5

X4 X3

Figura 1.7. Ejes de una grfica de estrella.


Cap. 1. Aspectos del Anlisis Multivariado 38

En la figura 1.8 se muestran las grficas de estrella para los individuos del conjunto
de solicitantes (ejemplo ilustrativo) , usando las 15 variables originales.

Las grficas de estrellas tambin son tiles para identificar datos outliers
multivariantes que estn en un conjunto y tambin para la validacin de los
resultados de los programas de agrupacin. Existen solicitantes en la figura 1.8 que
parezcan ser datos outliers?.- Qu se puede decir acerca de los solicitantes 41 y
42?.- Qu acerca de los solicitantes 28 y 29?.-

Grficos de estrella ( SOLICITANTES 15v*48c)

#1 #2 #3 #4 #5 #6 #7 #8

#9 #10 #11 #12 #13 #14 #15 #16

#17 #18 #19 #20 #21 #22 #23 #24

#25 #26 #27 #28 #29 #30 #31 #32

#33 #34 #35 #36 #37 #38 #39 #40

#41 #42 #43 #44 #45 #46 #47 #48

Figura 1.8. Grfica de estrellas para los datos de solicitantes, usando las 15 respuestas.

Para los datos de los solicitantes, las grficas de estrellas tienen otra interesante
interpretacin. A los patrones de la empresa les gustara ofrecer empleo a personas
con valores elevados para las 15 variables. Estas personas se manifestaran en la
grfica de estrella con los polgonos con las reas ms grandes. Examinando la figura
1.8 parecera indicar que los solicitantes 7 y 8 son los dos mejores en este grupo.
Cap. 1. Aspectos del Anlisis Multivariado 39

Grfico de perfiles.

En este tipo de representacin grafica multivariante, se obtuvo mediante el grafico


Statistica. En la figura 1.9, se representa los perfiles de los valores de 48 solicitantes
sobre siete variables del ejemplo que se viene considerando. El objetivo de los
perfiles multivariante es representar los datos de tal forma que permitan identificar
fcilmente las similitudes y las diferencias.

Grficos de Perfiles ( SOLICITANTES 15v*48c)

#1 #2 #3 #4 #5 #6 #7 #8

#9 #10 #11 #12 #13 #14 #15 #16

#17 #18 #19 #20 #21 #22 #23 #24

#25 #26 #27 #28 #29 #30 #31 #32

#33 #34 #35 #36 #37 #38 #39 #40

#41 #42 #43 #44 #45 #46 #47 #48

Figura 1.9. Perfiles multivariantes.

Resumen.
No hay que entender las representaciones grficas de esta seccin como un sustituto
de las medidas de diagnostico estadstico discutido en este texto y en el siguiente
texto (Anlisis Estadstico Multivariante parte II ). Pero proporcionan una forma
alternativa de desarrollar un perspectiva del carcter de los datos y las interrelaciones
que existen, incluso si son multivariantes en su naturaleza.