Capitulo 3

Cap. 3.
Aspectos del Anlisis Multivariado
CAPITULO 3
ASPECTOS DEL ANLISIS MULTIVARIADO
1.1. Introduccin.
Los ltimos aos han sido testigos de un desarrollo espectacular de las tcnicas de
Anlisis Estadstico Multivariante. La aplicacin de estas tcnicas, cuyos
fundamentos tericos son conocidos en algunos casos desde hace tiempo, se haba
visto hasta hace poco limitada por sus exigencias de medios de clculo. Superado
este obstculo con la generalizacin de las computadores, los mtodos multivariantes
constituyen hoy en da una fructfera tcnica de anlisis en reas como la sociologa,
la investigacin econmica, la medicina, la biologa, etc. . .
Desde un punto de vista puramente estadstico y de forma algo restrictiva el Anlisis
Multivariante puede definirse como el conjunto de tcnicas cuyo objetivo es el
anlisis descriptivo y/o la realizacin de inferencias a partir de datos de naturaleza
multivariante, es decir en los que cada observacin est constituida por los valores de
varias variables interrelacionadas.
Pese a su carcter tautolgico esta definicin contiene ciertos matices que conviene
resaltar. As cuando la referencia expresa anlisis descriptivo, pretende resaltar la
importancia en el contexto multivariante de este tipo de enfoque frente a los ms
clsicos de naturaleza Inferencial.
Igualmente la mencin del carcter interrelacionado de las variables estudiadas hace
hincapi en el aspecto esencial del A.M. En efecto si las variables fueran
independientes podran estudiarse por separado mediante las tcnicas univariantes
clsicas; el A.M. explota las relaciones existentes entre las mismas para lograr un
anlisis ms rico y profundo de la realidad subyacente en los datos observados.
Desde un punto de vista prctico las tcnicas de A.M. permiten el anlisis de
situaciones en que se disponen de observaciones sobre varios individuos u
Cap. 3. Aspectos del Anlisis Multivariado
objetos pertenecientes a uno o ms grupos, estando constituida cada observacin

por los valores de varias caractersticas o variables.
1.2. Organizacin de los datos. Daremos simplemente un recordatorio y poco

riguroso los conceptos bsicos que utilizaremos en la asignatura.
Arreglo.- Los datos multivariantes surgen de una investigacin de un fenmeno
social o fisco, seleccionado de un nmero p 1 de variables o caractersticas a
analizar. Los valores de estas variables son todas registradas de cada distintos tem,
individuo o ensayo experimental.
Usaremos la notacin xij para indicar el valor particular de la i-sima variable que es
observada en el i-simo individuo o ensayo.
Si tenemos n medidas de p variables, estas pueden representarse como sigue:
Individuo 1
Variable 1:
Variable 2:
.
.
.
Variable i:
.
.
.
Variable p:
Individuo 2
x11
x21
.
.
.
xi1
.
.
.
xp1
x12
x22
.
.
.
xi2
.
.
.
xp2
...
...
Individuo j
...
Individuo n
x1j
x2j
x1n
x2n
.
.
.
xin
.
.
.
xpn
.
.
.
...
xij
.
.
.
...
xpj
o como un arreglo rectangular, llamado X, de p filas y n columnas:

x11
x21
X=
x12
x22
...
x1j
x2j
...
...
x1n
x2n
.
.
.
.
.
.
.
.
.
.
.
.
xi1
xi2
xij
.
.
.
.
.
.
.
.
.
.
.
.
xp1
xp2
xpj
xpn
...
xin
Con el arreglo de los datos nos facilicita su exposicin y permite clculos de manera
ordenada y eficiente.
Nociones de Estadstica Descriptiva Multivariante.

En de la informacin contenida en los datos se pueden calcular ciertos nmeros de
resumen, conocidos como medidas Estadsticas descriptivas. Por ejemplo, la media
aritmtica es una estadstica descriptiva que proporciona una medida de localizacin;
esto es, un valor central para un conjunto de datos. La distancia media cuadrtica de
cada nmero de su media proporciona una medida de dispersin, o variacin, en los
datos.
Podemos relacionar con ms frecuencia las estadsticas descriptiva: medida de
locacin, de variacin y asociacin lineal.
La media muestral puede ser calculada a partir de n medidas sobre cada una
de las p variables. En general, existirn p medias muestrales:
n
xi
x
j1
ij
i = 1, 2, ..., p
(1.1)
El vector de medias es dado por :
x1

x2
X .
.
xp

(1.2)
Una medida de dispersin es dada por la varianza muestral. En general, para

el caso de p variables, tenemos :
n
s i2
(x
j1
ij
xi )2
i = 1, 2, ..., p.
(1.3)
En un arreglo se ubica a la varianza muestral a lo largo de la diagonal. En esta

situacin, introduciremos la denotacin s ii para denotar la misma varianza s i2 ,
calculada de las medidas sobre la i-sima variable. Es decir, si2 sii .
La covarianza muestral
sik
1 n
( xij x i )( x kj x k )
n j 1
i = 1, 2, ..., p ,
k = 1, 2, ..., p
(1.4)
mide la asociacin entre las variables i y k. Se nota que la covarianza se reduce a la

varianza muestral cuando i = k. Sin embargo sik s ki para todo i y k.
La matriz de varianzas-covarianzas es
s11
s21
s12
s22
.
.
.
S=
. . . s1p
. . . s2p
.
.
.
sp1
.
.
.
.
.
. . .
spp
sp2
(1.5)
pxp
La ultima estadstica considerada aqu el coeficiente de correlacin muestral
(o coeficiente de correlacin momento producto de Pearson). Esto mide la asociacin

lineal entre dos variables, independiente de las unidades de medida. El coeficiente de
correlacin muestral, para variables i y k, es definido como:
n
rik
sik
sii s kk
(x
j 1
(x
j 1
ij
ij
x i )( x kj x k )
xi )
i = 1, 2, ..., p , k = 1, 2, ..., p
(x
j 1
kj
xk )
(1.6)
Aunque los signos de la correlacin muestral y la covarianza muestral son el
mismo, la correlacin es fcil de interpretar, debido a que su magnitud es
restringida. El valor del coeficiente de correlacin muestra, r, puede estar entre
1 y +1.
La matriz de correlacin muestral es:
R=
1
r21
r12
1
.
.
.
.
.
.
rp1
rp2
. . .
. . .
r1p
r2p
.
.
.
.
.
. . .
(1.7)
1
pxp
Ejemplo 1. Dada las medidas de las variables X1, X2, X3. Encuentre las medidas
estadsticas descriptivas: X , S y R.
X1:
X2: 12
4 10
X3 : 3
Solucin.
92658
a) Tenemos que: x 1
, x 2 8 y x 3 2 . Entonces X
5
6
8

2
b) Las varianzas respectivas son:

s12 6 ,
s 22 8 ,
s 32 2 , s12 4 , s13 1.4 y s 23 1.2 . Luego la matriz
varianzas- covarianzas resulta,
6
4
4
8
1.4
1.2
c) La matriz de correlacin resultante es
1. 4
1.2
2
R 0.577
0.404
6
0.577
1
0.3
0.404
0.3
1
1.3. Distancia.
Muchas tcnicas estadsticas multivariante estn basados sobre conceptos similares
de distancia. Generalmente, estas medidas de distancia pueden ser divididos en dos
tipos: distancia Euclidiana y distancia de Mahalanobis.
Si consideramos el punto P = (x1, x2) en el plano, la distancia Euclidiana, d(O, P),
de P al origen O = (0,0), segn el teorema de Pitgoras es,
d (O, P )
x12 x 22
(1.8)
En general, si el punto P tiene p coordenadas, esto es, P = (x1, x2, ..., xp), la distancia
euclidiana de P al origen O = (0, 0, ..., 0) es
d (O , P )
x12 x 22 ... x 2p
(1.9)
La distancia Euclidiana entre dos observaciones multivariantes arbitrarios P y Q

con coordenadas P = (x1, x2, ..., xp) y Q = (y1, y2, ..., yp) es dado por
d ( P, Q )
( x1 y1 ) 2 ( x 2 y 2 ) 2 ... ( x p y p ) 2
(1.10)
En la distancia Euclidiana, cada coordenada contribuye igualmente a su clculo.

Cuando las coordenadas representan medidas que estn sujetas a fluctuaciones
aleatorias de diferentes magnitud, es frecuentemente deseable ponderar coordenadas
sujetas a grande variaciones con menor peso que aquellas que no tienen alta
variacin.
Para proceder a esto, se divide cada coordenada por la desviacin estndar muestral.
As una distancia del punto P = (x1, x2) al origen O = (0,0), llamada distancia
Euclidiana estandarizada, es dada por
d ( P, O ) (
x1 2
x
) ( 2 )2
s11
s 22
x12 x 22
s11 s 22
(1.11)
Comparando las expresiones (8) con (11), vemos que la diferencia entre las dos
expresiones es debido a las ponderaciones k1 = 1/s11 y k2 = 1/s22 afectadas a x12 y x 22
en (11). En casos donde las ponderaciones son las mismas, es conveniente ignorar el
divisor comn y usar la formula de la distancia Euclidiana. En otras palabras, si la
variabilidad en los direccin de x1 es la misma como la variabilidad en la direccin
de x2 y los valores de x1 varan independiente de los valores de x 2, la distancia
Euclidiana es apropiada.
Ejemplo 2. Un conjunto de pares de mediciones (x 1, x2) sobre dos variables produce
x 1 x 2 0 , s11 = 4 y s22 = 1. suponga que las mediciones de x1 estn

incorrelacionadas con las mediciones de x2, es decir, las mediciones dentro de un par
varan independientemente uno de otros. Puesto que las varianzas muestrales son
desiguales, se mede la distancia cuadrtica de un punto arbitrario P = (x1, x2) al
origen O = (0,0) por
d 2 ( P, O )
x12 x 22
4
1
Todos los puntos (x1, x2) tienen una distancia constante 1 desde el origen, que
satisfacen la ecuacin:
x12 x 22
1
4
1
Un grafico de la ecuacin x12 / 4 x12 / 1 1 es una elipse centrada en (0, 0), cuyo eje
mayor esta en el eje coordenadas x1 y cuyo eje menor esta comprendido en el eje de
coordenada x2. La mitad de la longitud de estos ejes mayor y menor son
42 y
1 1 , respectivamente. La elipse de distancia unitaria es representada en la Figura
1.1. Todos los puntos sobre la elipse tienen la misma distancia Euclidiana
estandarizada desde el origen, en este caso, una distancia de 1 desde el origen.
La expresin (11) puede ser generalizada para calcular la distancia Euclidiana
estandarizada desde un punto arbitrario P = (x1, x2) a un punto fijo Q = (y1, y2). Si
suponemos que las variables coordenadas varan independiente uno de otro, la
distancia desde P a Q es dado por:
d ( P, Q )
( x1 y1 ) 2 ( x 2 y 2 ) 2
s11
s 22
(1.12)
x2
1
.P
-2
-1
Figura 1.1. Elipse de distancia unitaria.

Sean los puntos P y Q que tienen p coordenadas, tal que P = (x1, x2, ..., xp) y
Q = (y1, y2, ..., yp). Supngase que Q es un punto fijo y variables coordenadas varan
independientemente uno de otro. Sea s11, s22, ..., spp varianzas muestrales construidas
de n medidas sobre x1, x2, ..., xp , respectivamente. La distancia Euclidiana
estandarizada de P a Q es,
d ( P, Q )
(x p y p )2
( x1 y1 ) 2 ( x 2 y 2 ) 2

s11
s 22
s pp
(1.13)
Todos los puntos P se encuentran a una distancia cuadrada constante desde Q sobre
una hyperelipsoide centrada en Q. Notamos que si s11 = s22 = = spp, la formula de
la distancia Euclidiana en (10) es apropiada.
Distancia de Mahalanobis. El concepto de distancia Euclidiana, es insuficiente

cuando examinamos observaciones correlacionadas. Una medida estadstica de
distancia entre dos puntos que no solo incluye la distancia entre las variables
individuales, si que tambin toma en cuenta la estructura de correlacin en cada
vector, es la medida de distancia de Mahalanobis, dada en los siguientes ejemplos:
d 2 (X, Y) (X Y) S 1 (X Y)
D 2 (X, ) (X ) S 1 ( X )
(1.14)
2 ( X, ) ( X ) 1 (X )
Ejemplo 3. Dada la matriz de covarianzas de las variables x1, x2 y x3,

63.37
S 5.286
35.159
5.286
0.873
3.703
35.159
3.703
21.65
Adems se tiene: x 1 19.32 , x 2 1.51 y x 3 9.76 ,

Hallar la distancia del vector X = (19,1,10) al origen y a el vector
a) Euclidiana
b) Euclidiana estandarizada
c)de Mahalanobis.
Solucin.
a) Distancia Euclidiana.
De X = (19,1,10) al origen O = (0, 0)
X:

d ( X , O)
( x1 0) 2 ( x 2 0) 2 ( x3 0) 2
(19 0) 2 (1 0) 2 (10 0) 2
462 21.494
De X = (19,1,10) a
d ( X , x)
10
( x1 x 1 ) 2 ( x 2 x 2 ) 2 ( x3 x 3 ) 2
(19 19.32) 2 (1 1.51) 2 (10 9.76) 2
0.4201 0.648
b) Distancia Euclidiana Estandarizada.

De X = (19,1,10) al origen O = (0, 0)
d ( X , Q)
(x p y p )2
( x1 y1 ) 2 ( x 2 y 2 ) 2

s11
s 22
s pp
d ( X , O)
(19 0) 2 (1 0) 2
(10 0) 2

3.385
63.37
0.873
21.65
Entonces,
De X = (19,1,10) a
. Se tiene: d(X, X) 0.55
c) Distancia de Mahalanobis.
De X = (19,1,10) al origen O = (0, 0)
d 2 ( X , Y ) (X Y ) S 1 (X Y )
19
0

2
D ( X , O) 1 0
10
0
5.171
1
15.858

20.536 - 11.12
15.858
134.538
- 48.809
- 11.12

- 48.809
27.38
19
0

1 0
10
0
19
0.252
10 0.772
- 0.541
11
0.772
6.551
- 2.377
- 0.541 19

- 2.377 1 = 6.814
1.333 10
Luego la distancia de Mahalanobis es: d(X, O) = 2.61

De X = (19,1,10) a
. Resulta: D(X, X) 1.633
1.4. lgebra de Matrices y vectores aleatorios.

Hemos visto, en las secciones anteriores que los datos multivariantes pueden ser
mostrados como un arreglo de nmeros. En general, un arreglo rectangular de
nmeros, con p filas y n columnas es llamado una matriz de dimensin p x n. El
estudio de los mtodos multivariantes es grandemente facilitado por el uso de lgebra
de matrices.
1.4.1. Conceptos bsicos.
Vectores.
Un arreglo x de n nmeros reales x1, x2, ..., xn es llamado un vector y se escribe
como:
x1
x
2
x .

.
x n
x x1 , x 2 , . . . , x n
(1.15)
En la figura 1.2, se ilustra la representacin geomtricamente del vector x 1, 3, 2

.
12
Figura 1.2. El vector x 1, 3, 2 .
Definimos el vector cx como:

cx 1
cx
2
cx .
.
cx n
(1.16)
Esto es, cx es el vector obtenido multiplicando cada elemento de x por c.[ver figura
1.3(a)]. As mismo, en la figura 1.3 (b), se representa la suma de dos vectores x y y.
2
x2 + y2
2x
2x2
x2
x
x2
x+y
x
y2
x1
2x1
x1
y
y1
x 1 + y1 1
-x
a) Multiplicacin de un vector por una constante
Figura 1.3. Multiplicacin escalar y vector suma.

La longitud de un vector x x 1 , x 2 , . . . , x n con n componentes, es
definido
por:
b) suma de dos vectores.

Lx
13
x 12 x 22 x 2n
(1.17)
La multiplicacin de un vector x por un escalar c, cambia la longitud. De la
ecuacin (17), tenemos:
L cx
c 2 x 12 c 2 x 22 c 2 x 2n c
x 12 x 22 x 2n c L x
(1.18)
Otro concepto geomtrico es el ngulo de dos vectores. Consideremos dos
vectores en un plano y el ngulo, , entre ellos, como en la figura 1.4. En la figura

1.4, puede ser representado como la diferencia entre los ngulos 1 y 2 formado
por dos vectores y las primeras coordenadas de los ejes. Por definicin, tenemos:
cos 1
x1
Lx
y1
Ly
cos 2
sen 1
x2
Lx
sen 2
y2
Ly
y cos cos( 2 1 ) cos( 2 )cos(1 ) sen( 2 )sen(1 )

El ngulo especificado entre los vectores x x 1 , x 2 y y y1 , y 2 es
especificado por :
y1
L
y
cos cos( 2 1 )
x1
Lx
y2
L
y
x2
Lx
(1.19)
es conveniente introducir el producto inercia de dos vectores. Para el caso de n = 2, el

producto inercia de x y y es: xy x1 y1 x 2 y 2 . Con esta definicin y la ecuacin
(19) resulta:
cos
xy
LxLy
xy
, donde L x
xx y y
xx
cos
14
x 1 y1 x 2 y 2
LxLy
y
y2
x
x2
1
1
y1
x1
Figura 1.4. El ngulo entre x x 1 , x 2 y y y1 , y 2 .
Para un nmero arbitrario de dimensin n, el producto inercia de x y y es dado por:
x y x 1 y1 x 2 y 2 x n y n
(1.20)
Entonces el arreglo para vectores de n componentes es dado por:

cos
donde L x Longitud de x
x y
LxLy
x y
x x y y
(1.21)
xx
Ocurre cos 0 si slo si x y 0 , se dice que x y y son perpendiculares cuando

xy 0 .
Un par de vectores x y y de igual dimensin , se dice que son linealmente
dependiente si existen constantes c1 y c2 (ambos diferentes de cero), tal que:

c1 x c 2 y 0
Un conjunto de vectores x1, x2, . . . , xk se dicen que son linealmente dependiente si

existen constantes c1, c2, . . . , ck, no todos cero, tal que:
c1 x 1 c 2 x 2 c k x k 0
(1.22)
Linealmente dependiente implica que al menos un vector en el conjunto, puede ser

escrito como una combinacin lineal de otros vectores. Vectores de la misma
dimensin que no son linealmente dependientes, se dicen que son linealmente
dependiente.
15
Ejemplo 1. Dado los vectores x 1, 3, 2 y y - 2, 1, - 1 . Determinar la

longitud de x, la longitud de y y el ngulo entre x y y. Adems, verificar que la
longitud de 3x es tres veces la longitud de x.
Solucin.
a) Tenemos que:
xx = 12 + 32 + 22 =14 , y = (-2)2 + 12 + (-1)2 = 6 y xy = 1(-2) + 3(1) + 2(-1) = -1.
- Por lo tanto, las longitudes de los vectores x y y son respectivamente:
L x xx 14 3.742
Ly
cos
- Por otro lado, tenemos que:
y y
6 2.449
x y
-1
0.1091
L x L y 3.742 2.449
Entonces el ngulo entre x y y es = 96.26.
b)
Finalmente,
L 3x
3 2 9 2 6 2 126 3 14 3Lx .
L 3x 3L x
Ejemplo 2. Consideremos el conjunto de vectores:

1
x 1 2
1
1
x 2 0
1
1
x 3 2
1
Escribiendo :
c1 x 1 c 2 x 2 c 3 x 3 0
Entonces:
Se
comprueba
que
16
1
1
1
0
c1 2 c 2 0 c 3 2 0
1
1
1
0
c1 + c2 + c3 = 0
2c1 +
- 2c3 = 0
c1 c2 + c3 = 0
Se observa que este sistema de ecuaciones tiene una nica solucin : c1= c2 = c3 = 0.
Como no se puede encontrar tres constantes c 1, c2 y c3 , no todos cero, tal que se
c1 x 1 c 2 x 2 c 3 x 3 0 ,
cumpla
los vectores x1, x2 y x3 son linealmente
independientes.
Matrices.
Una matriz es un arreglo rectangular de nmeros reales o funciones que toman
valores sobre los nmeros reales. Se denota un arreglo arbitrario de m filas y k
columnas por:
a11
a21
a12
a22
.
A=
.
.
. . . a1n
. . . a2n
.
.
.
(1.23)
.
ap1
ap2
. . .
apn
pxn
Sea las matrices A y B, ambos de dimensin m x k con elementos arbitrarios
aij y bij, i=1, 2, ..., m, j = 1, 2, ..., k , respectivamente. La suma de la matrices A y B es

una matriz C de orden m x k, C = A + B, tal que los elementos arbitrarios de C, cij, es
dado por
cij = aij + bij
i = 1, 2, ..., m
j = 1, 2, , k.
(1.24)
Sea c un escalar arbitrario y una matriz A ={aij}. Entonces cA = Ac = B =
{bij} donde bij = caij = aijc, i = 1, 2, ..., m, j = 1, 2, , k.
Consideremos una matriz Am x k con elementos arbitrarios aij , i = 1, 2, ..., m
17
j = 1, 2, , k . La transpuesta de la matriz A, denota por A , es la matriz de orden

k.x.m con elementos aji , j =1, 2, ..., k, i = 1, 2, ..., m. Es decir, la Transpuesta de A es
obtenida de A intercambiando las filas y columnas.
Sea A una matriz cuadrada k x k . Se dice que la matriz A es simtrica,
si A = A. Esto es, A es simtrica si aij = aji , i = 1, 2, ..., k , j = 1, 2, , k.

Son Ejemplos de matrices simtricas:
3
5
a
c
5
2
c
b
g
d
e
g
c
a
f
d
a
El producto A m x n x B n x k es una matriz Cm x k cuyos elementos cij es dado por

n
cij ail blj

l 1
i =1, 2, ..., m, j = 1, 2, ..., k.
(1.25)
El determinante de una matriz cuadrada k x k A ={aij}, denotada por A , es
un escalar :
A = a11
A
1j
si k =1
A 1j ( 1)1 j
si k > 1
j1
(1.26)
donde A1j es la matriz de orden (k-1)x(k-1) obtenida eliminando la primera fila y la jsima columna de A.
Una matriz A es no singular si A (k x k) x (kx1) = 0.(kx1), entonces implica x(kx1) = 0.(kx1).
Si una matriz resulta ser no singular, es llamado singular. Equivalentemente, una

matriz cuadrada es no singular si su rango es igual al nmero de filas (o columnas.
18
Note que Ax = x1a1 + x2a2 + + xkak , donde ai es la i-sima columna de A, tal que la
condicin de no singularidad es justo la condicin de que las columnas de A son
linealmente independiente.
Si existe una matriz B tal que B (k x k) A (kx1) = A (k x k) B (k x 1) = I(k x k), entonces
B es llamado la inversa de A y es denotado por A-1.

Una condicin tcnica de que la inversa existe, es que las k columnas a1, a2,, ak de
A son linealmente independiente. Esto es, si existe A-1 es equivalente a
c1a1 + c2a2 + + ckak = 0 , s solo s c1 = c2 = = ck = 0
(1.27)
Una matriz cuadrada A se dice que es ortogonal si sus filas, consideradas
como vectores, son mutuamente perpendiculares y longitud unitaria; es decir,

A A=I. Una matriz A es ortogonal s y slo s A-1 = A.
Para una matriz ortogonal, A A = AA = I, as las columnas son tambin
mutuamente perpendiculares y tienen longitud unitaria.
Un ejemplo de una matriz ortogonal es:
2
1
A 2
1
2
1
2
1
2
1
2
1
2
1
2
1
2
1
1
2
1
2
1
2
1

2
Se nota que las filas de la matriz A son mutuamente perpendiculares y longitud

unitaria. Adems se observa que A = A , tambin se verifica que A A = I =A A = A
A, Es decir:
2
1
2
1
2
1
2
1
2
1
2
1
2
1
2
1
2
1

2
1
2
1

2
2
1
2
19
1
2
1
2
1
2
1
2
1
2
1
2
1
2
1
2
1
2
1
2
1
2
1
1
0
0
1
2
1
Sea A(k x k) una matriz cuadrada y sea I(k x k) la matriz identidad. Entonces los
escalares 1, 2, ..., k satisfacen la ecuacin polinomial A - I = 0 son llamados los

eigenvalores ( valores propios o races caractersticas) de una matriz A. La ecuacin
A - I = 0 (como funcin de ) es llamado la ecuacin caracterstica.
1
1
Por ejemplo, sea la matriz A
Entonces: A I 1
0
3
3
0
(1 )(3 ) 0
Entonces se tiene dos races, 1 = 1 y 2 = 3. Los eigenvalores de la matriz A son 1 y

3.
Sea A (k x k) y es un eigenvalor de A. Si x(k x 1) es vector no cero ( x(k x 1) 0(k x 1) )
tal que
Ax = x.
(1.28)
Entonces se dice que x es un eigenvector ( vector propio o vector caracterstico) de la

matriz A asociada con los eigenvalores .
1
En el ejemplo anterior, los eigenvalores de la matriz A

1
0
son 1 = 1 y 2 = 3.
3
Los eigenvectores asociados con estos eigenvalores pueden ser determinados,

resolviendo las siguientes ecuaciones:
1
1
0 x 1
x1
3 x 1 x ,
2
2
A x = 1 x
1
1
0
3
20
x1
x1
x 3 x ,
2
2
A x = 2 x
De la primera expresin, tenemos:

x1 = x1
x1 + 3x2 = x2 , o sea x1 = -2x2
Existe varias soluciones para x1 y x2. Haciendo x2 = 1 (valor arbitrario) da x1 = -2 y
2
es un eigenvector correspondiente al eigenvalor 1.
1
entonces: x
Por otro, de la segunda expresin,
x1 = 3x1
x1 + 3x2 = 3x2
implica x1 = 0
y x2 = 1 (arbitrario), y entonces x
es eigenvector
correspondiente al eigenvalor 3.
1.5. Matrices Definidas Positivas.

En esta seccin se considera formas cuadrticas que son siempre no negativos y la
asociacin de matrices definidas positivas. Resultados que involucran formas
cuadrticas y matrices simtricas son, en muchos casos, una consecuencia directa de
la expansin de matrices simtricas conocidas como Descomposicin espectral.
La descomposicin espectral de una matriz simtrica de orden k x k es dado por
A 1 e 1 e1 2 e 2 e 2 1 e k e k
(kxk)
(kx1) (kx1)
(kx1) (kx1)
(kx1) (kx1)
(1.29)
donde 1, 2, . . . , kson valores propios de A y e1, e2, . . ., ek los asociados vectores

propios normalizados. As eiei = 1, i= 1, 2, ..., k y eiej = 0, i j.
21
Ejemplo. Consideremos la matriz simtrica

4
13
A 4
2
2
10
13
2
Los valores propios obtenidos de la ecuacin caracterstica A - I = 0 son 1 = 9,

2 = 9 y 3 = 18. Los correspondientes vectores propios e1, e2, y e3 son las soluciones
(normalizadas) de la ecuacin Aei = iei para i = 1, 2, 3. As, Ae1 = 1e1
4
13
2
13
4
2
Es decir
2
2
10
e11
e11
e 9 e
21
21
e31
e31
13e11 4e21 + 2e31 = 9e11

-4e11 + 13e21 2e11
de donde tenemos:
2e31 = 9e11
2e21 + 10e31 = 9e11
4e11 4e21 + 2e31 = 0

-4e11 + 4e21 - 2e31 = 0
2e11 2e21 + e31 = 0
Las dos primeras ecuaciones resultan redundantes seleccionado e11 = 1 y e21 = 1,

resulta e31 = 0.
El vector propio normalizado
2
2
2
1 1 0
, puesto que la suma de
12
2
2
2
1 1 0
e1
2
2
2
1 1 0
cuadrados de sus elementos es la unidad.
Verificar que
e2 1 18
1/ 18
4/ 18
normalizado para 2 = 9, y que e3 2/3
2 /3
es tambin un vector propio

1/3
es vector valor normalizado
correspondiente para el valor vector 3 = 18. Adems, eiej = 0, i j.
22
Entonces la descomposicin espectral de la matriz A es:

A 1e 1e 1 2 e 2 e 2 3e 3 e3
Si una matriz es simtrica y si todos sus eigenvalores son positivos, se dice

que la matriz es una matriz definida positiva.
Si una matriz simtrica tiene eigenvalores no negativos y si por lo menos uno

de sus eigenvalores es igual a cero, entonces se dice que la matriz es una
matriz semidefinida positiva.
1.6. Vectores y Matrices aleatorias.

Un vector aleatorio es un vector cuyos elementos son variables aleatorias.
Similarmente, una matriz aleatoria es una matriz cuyos elementos son variables
aleatorias. El valor esperado de una matriz aleatoria (o vector) es la matriz que
consiste de valores esperados en cada uno de sus elementos.
Sea X = {Xij} una matriz aleatoria de orden p x n. El valor esperado de X, denotado
por E(X), la matriz aleatoria de orden p x n (si existe).
E(X) =
E(X11)
E(X21)
.
.
.
E(Xp1)
E(X12)
E(X22)
.
.
.
E(Xp2)
. . . E(X1n)
. . . E(X2n)
.
.
.
.
.
.
. . . E(Xpn)
(1.30)
pxn
donde para cada elemento de la matriz,
x f (x )dx si X es una v.a continua con funcin

ij ij ij ij ij
E(X ij )
de densidad deprobabilidad fij (x ij )
xijpij(xij) si Xij es una v.a discreta con funcion

xij
de probabil dad pij(xij)
Ejemplo 1. Supngase p = 2 y n = 1 y considere el vector aleatorio X X 1 , X 2 .

Sea la variable aleatoria discreta X1 que tiene la siguiente funcin de probabilidad:
x1
p1(x1)
-1
0.3
23
0
0.3
1
0.4
x 1 p1 (x 1 ) ( 1)(0.3) 0(0.3) 1(0.4) 0.1

Entonces E(X 1 )
x
1
Similarmente, sea la variable aleatoria discreta X2 con la siguiente funcin de

probabilidad:
x2
p2(x2)
0
0.8
1
0.2
x 2 p 2 (x 2 ) (0)(0.8) 1(0.2) 0.2

Entonces E(X 2 )
x
1
Luego,
E( X 1 )
0.1
0.2
E ( X 2 )
E ( X)
Sea X y Y son dos matrices aleatorias de la misma dimensin y sean A y B

matrices conformadas por constantes, entonces:
E( X Y ) E( X) E(Y )
E( AXB) AE( X)B
1.7. Vector de medias y Matrices de covarianzas.

Sea X = {Xi}un vector aleatorio (px1). Cada elemento de X es una variable aleatoria
con su respectiva distribucin de probabilidad. Las medias marginales, i y varianzas,
i2 , son definidos como i E ( X i ) y i2 E ( X i i ) 2 ,i=1, 2,
. . .
p,
respectivamente. Especficamente,
x f (x )dx si X es una v.a continua con funcin

ii i i i
de densidad de probabilidad fi (xi )
xipi (x i ) siXi es una v.a discreta con funcion

x i
de probabilidad pi (xi )
2
(x i - i) fi (xi )dxi si Xi es una v.a continua con funcin
de densidad deprobabilidad fi (xi )

2
i
(x i - i)2 pi (xi) si Xi es una v.a discreta con funcin
xi
de probabilidad pi (xi )
(1.31)
24
El comportamiento de algn par de variables aleatorias, tales como Xi y Xk es

descrito por su funcin de probabilidad conjunta y una medida de la asociacin lineal
entre ellos proporcionado por la covarianza ij donde
ij E(X i i )(X k k )
si Xi , X k son variables aleatorias continuas

(x i - i )(xk - k ) fik (x i, x k )dxidx k con funcin de densidad conjunta fik (xi , xk ).
(x - )(x - )p (x ,x )
Xi xk i i k k ik i k
si Xi , Xk son variables aleatorias discretas
(1.32)
con probabilidad conjunta pij(xi , x k )
y i y k , i, k =1,2,...,p, son las medias marginales. Cuando i = k , la covarianza se

convierte en la varianza marginal.
De manera general, el comportamiento colectivo de las p variables aleatorias
X1, X2, ..., Xp, o, equivalentemente, el vector aleatorio X =[X1, X2, ..., Xp] es descrito
por una funcin de densidad de probabilidad conjunta f(x 1, x2, ..., xp) = f(x). Como
veremos ms adelante, f(x) puede frecuentemente ser la funcin de densidad normal
multivariante.
La probabilidad conjunta P X i x i y X k x k puede escribirse como el producto de
las correspondientes probabilidades marginales, es decir,
P X i x i y X k x k P X i x i P X k x k
(1.33)
para todos los pares de valores x1, xk, entonces Xi y Xk se dice que son
estadsticamente independientes.
Cuando Xi y Xk son variables aleatorias continuas con densidad conjunta f ik(xi, xk) y
funcin de densidad marginal fi(xi) y fk(xk), la condicin de independencia produce
f ik (x i , x k ) f i (x i )f k (x k ) para todo los pares (xi, xk).
Las p variables aleatorias continuas X1, X2, . . . , Xp son estadsticamente

independientes si la densidad conjunta es factorizada como:
f 1, 2, ,,, p (x i , x 2 , . . . , x p ) f 1 (x 1 )f 2 (x 2 ) f p (x p )
(1.34)
25
La independencia estadstica tiene una importante implicacin en la covarianza. Si

Cov(x i , x k ) 0 si X1 y Xk son independientes.
(1.35)
la media y covarianza de un vector aleatorio X de orden (px1) pueden ser expresado

como matrices. As tenemos,
E X 1
E( X )
2
E ( X)
1

2
. .
E ( X p ) p
(1.36)
X1 1

X2 2
. X1 1 , X 2 2 , . . . , X p p
E(X )(X ) E
Xp p
E(X1 1 ) 2
E(X 2 2 )(X1 1 )
.
.
E(X p p )(X1 1 )
E(X 1 1 )(X 2 2 )
E(X 2 2 ) 2
.
.
E(X p p )(X 2 2 )
.
.
.
.
.
.
1p
2p
.
.
pp
E(X 1 1 )(X p p )
E(X 2 2 )(X p p )
E(X p p ) 2
o
11
21
Cov( X) .
.
p1
12
22
.
.
p2
.
.
.
.
.
.
(1.37)
Ejemplo 1. Encontrar la matriz de covarianza para las dos variables aleatorias X1 y

X2, con funcin de probabilidad conjunta, p12(x1, x2) es representado en la siguiente
tabla.
x2
x1
p1(x1)
26
-1
0
1
0.24
0.16
0.40
0.06
0.14
0.00
p2(x2)
0.80
0.20
0.30
0.30
0.40
Solucin.
Ud. Puede comprobar que 1 E(X1 ) 0.1
2 E(X 2 ) 0.2 . Adems,
tenemos:
11 E(X 1 1 ) 2 (x 1 0.1) 2 p1 (x 1 )
x1
( 1 0.1) (0.3) (0 0.1) 2 (0.3) (1 0.1) 2 (0.4) 0.69

2
22 E(X 2 2 ) 2 (x 2 0.2) 2 p 2 (x 2 ) 0.16

x 2
12 E(X1 1 )(X 2 2 )
(x
1
pares (x1 , x 2 )
0.1) 2 (x 2 - 1 )p12 (x 1 , x 2 )
( 1 0.1)(0 - 0.2)(0.24) (-1 0.1)(1 - 0.2)(0.06) (1 0.1)(1 - 0.2)(0.0)

0.08
21 E(X 2 2 )(X 1 1 ) E(X 1 1 )(X 2 2 ) 12 0.08
Entonces con X = [X1 , X2]

E(X1 ) 1 0.1

E(X 2 ) 2 0.2
E ( X)
E(X1 1 ) 2
E(X )(X )
E(X 2 2 )(X1 1 )
11
21
12 0.69
22 - 0.08
- 0.08
0.16
E(X1 1 )(X 2 2 )
E(X 1 1 ) 2
27
Es frecuentemente informativo separar la informacin contenida en las varianzas, ii

del contenido en medidas de asociacin y, en particular, la medida de asociacin
conocida como el coeficiente de correlacin poblacional, ik. El coeficiente de
correlacin ik es definido en trminos de la covarianza ij y varianzas ii y kk como
ik
ik
(1.38)
ii kk
El coeficiente de correlacin mide la cantidad de asociacin lineal entre las variables

Xi y Xk .
La matriz de correlacin poblacional es una matriz simtrica de orden (p x p),
donde
11
12
11 11
11 22
12
22

11 22
1p
11 pp
1
12
.
.
1p
12
1
.
.
2p
22 22
.
.
2p
.
.
.
.
.
.
.
22 pp
.
.
.
1p
11 pp
2p
22 pp
pp
pp pp
1p
2p
.
.
1
(1.39)
y sea la matriz desviacin estndar V1/2 de orden (p x p), dada por

11
0
1/2
V .
.
0
0
22
.
.
0
.
.
.
.
.
.
.
.
0
.
.
pp
(1.40)
28
Entonces se verifica que:

V1/2 V1/2 =
(1.41)
= (V1/2 )-1 (V1/2 )-1
(1.42)
Particin de la matriz de covarianza

Se puede particionar las p caractersticas contenida en el vector aleatorio X de orden
px1, por instante, en dos grupos de tamao q y p-q, respectivamente. Por ejemplo
escribimos
X1
.
1
.
.
X
q
X
X q 1
.
.
X p
.
(1)
q
(2)
E( X)
q 1
.
.
p
X (1)
( 2)
X
(1.46)
Multiplicando las matrices,
(1)
(1) X (2) (2)
X1 1
X2 2
X q 1 q 1 , X q 2 q 2 ,..., X p p
X q q
(X1 1 )(X q 1 q 1 )
(X )(X )
2
q 1
q 1
2
.
(X q q )(X q 1 q 1 )
29
(X1 1 )(X q 2 q 2 )
(X1 1 )(X p p )
(X 2 2 )(X q 2 q 2 )
.
(X 2 2 )(X p p )
(X q q )(X q 2 q 2 )
(X q q )(X q q )
tomando valor esperado a la matriz X (1) (1) X (2) (2) , resulta:
E(X )( X )
1, q 1
2, q 1
(1)
(1)
(2)
(2)
1, q 2
2, q 2
q, q 1
q, q 2
1 p
2 p
12
(1.47)
q p
que considera todas la covarianzas, ij , i = 1, 2, ..., q, j = q + 1, q + 2, ..., p , entre una

componente de X(1) y una componente de X(2).
Haciendo uso de la particin dada en la ecuacin (36), se verifica que:
(X (1) (1) ) (X (1) (1) )
(q x 1)
( X )(X )
(X (1) (1) ) (X (2) (2) )
(1 x q)
(q x 1)
(1 x ( p - q))
(2)
(2)
(1)
(1)
(X(p - q) x1) ) (X (1x q) )
Como
(X (2) (2) ) (X (2) (2) )
((p - q ) x 1)
(1 x (p - q))
consecuencia resulta:
p-q
(1.48)
11 12
E(X )(X ) p-q
(pxp)
21 22 (p x p)
q
11

q1

q 1, 1

p 1
1 q
q q
q 1, q
pq
1, q 1
q, q 1
q 1, q 1
p, q 1
1 p

q p
q 1, p

p p
Note que
30
12 21 . La matriz de covarianza de X
(1)
es 11, de los X(2) es 22, y
de los elementos de X(1) y X(2) es 12 ( o 21).
Particin del vector de medias muestral y de la matriz de covarianza

muestral.
El vector de medias muestral y la matriz de covarianza muestral puede ser
particionado, de la forma:
x1

xq
x (1)
(2)
x
x q 1
( p x 1)
(1.49)

xp
y
s11

sq1
S
(p x 1)
s q 1, 1

s p 1
s1 q
sq q
s q 1, q
sp q
p-q
S11 S12
p -q
S 21 S 22 (p x p)
q
s1, q 1
s q, q 1
s q 1, q 1
s p, q 1
s1 p

sq p
s q 1, p

s p p
(1.50)
31
1.8.- La varianza Generalizada.

Con una simple variable, la varianza simple es frecuentemente usado para describir
la cantidad de variacin en las mediciones de la variable. Cuando p variables son
observadas sobre cada elemento, la variacin es expresado por la matriz muestral de
varianza covarianza
s11
s
12
S

s1p
s12
s 22
s 2p
s1p
s 2p
1 n
s ik
(x ij x i )(x kj x k )

n 1 j1
s pp
La matriz de covarianza muestral contiene p varianzas y
1
p ( p 1) diferentes
2
covarianzas. Algunas veces es deseable asignar un simple valor numrico para la

variacin expresada por S. Una eleccin de un valor es el determinante de S, que es
llamada varianza muestral generalizada.
Varianza muestral generalizada = S(1.51)
La varianza muestral generalizada proporciona una manera de escribir la informacin

sobre todas las varianzas y covarianzas con un solo nmero.
La matriz de covarianza muestral de las variables estandarizadas es R, la

matriz de correlacin muestral. Se define:
Varianza muestral generalizada de las variables estandarizadas = R(1.52)
Las cantidades S y R se encuentran relacionadas por:

S( = s11s22 spp)R(1.53)
Ejemplo. Dada la siguiente matriz de varianzas - covarianzas muestral,

4
S 3
1
32
3
9
2
1
2
1
Se pide verificar la relacin dada en (43), cuando p = 3.
1.9.- Grficos de datos multivariantes.

El uso de las tcnicas multivariantes supone una mayor carga a la hora de entender,
evaluar e interpretar los resultados mas complejos. En estas tareas, la ayuda proviene
de la comprensin de las caractersticas bsicas de los datos y de sus relaciones
subyacentes. Cuando se considera un anlisis univariante, el nivel de comprensin es
muy simple. Pero a medida que se introduce en los mas complejos anlisis
multivariantes, la necesidad y el nivel de comprensin aumentan considerablemente.
En la mayora de las veces, las presentaciones grficas de los datos son ms
informativas que su impresin en grandes conjuntos. Existen varias razones para
considerar las presentaciones grficas de datos multivariantes, dos de las ms
importantes son: a) ayuda a localizar e identificar anormalidades que podran
existir en los datos y b) ayuda a verificar las hiptesis que pueden requerirse para
sean vlidos ciertos anlisis estadsticos.
Adems de las dos razones ms importantes, mencionadas anteriormente, los
grficos de datos multivariantes, con frecuencia son tiles para ayudar a verificar y
validar los resultados de los mtodos de agrupacin.
La aparicin y la difusin del uso de programas estadsticos ha llevado a una mejora
del acceso a tales mtodos. La mayora de los programas estadsticos tienen mdulos
33
particularmente comprensivos de tcnicas grficas preparadas para el examen de los

datos que se ven mejoradas muchas veces con medidas estadsticas ms detalladas de
la descripcin de los datos. Ilustraremos algunas de las tcnicas usadas de forma ms
comn en las relaciones bivariantes, diferencias por grupos e incluso perfiles
multivariantes.
En esta seccin proporcionaremos algunos de los mtodos grficos bsicos que
existen para ayudar a la obtencin de una comprensin bsica de las caractersticas
de los datos, particularmente en un sentido Multivariante.
Anlisis de relacin entre variables.
El examen de la distribucin de una variable es esencial, pero muchas veces se esta

interesado en examinar las relaciones entre dos o ms variables. El mtodo ms
popular de anlisis de las relaciones bivariantes es el grfico de dispersin. Se
presenta una variable en el eje horizontal y la otra en el vertical. Las variables
pueden ser valores observados, valores esperados o incluso residuos. Los puntos del
grfico representan los correspondientes valores conjuntos de las variables para
cualquier caso dado. El patrn de los puntos representan la relacin entre las
variables. Cuando los se organizan a lo largo de una lnea recta, tenemos una relacin
lineal de correlacin. Un conjunto de puntos curvados puede indicar una relacin no
lineal, que se puede tratar de varias formas. O puede que no existan patrones, slo un
conjunto de puntos aparentemente aleatorios (en este caso, no hay relacin).
Un grfico que se ajusta particularmente a las tcnicas multivariantes es la matriz
del grfico de dispersin. La Figura 1.5 presenta los grficos de dispersin de un
conjunto de variables de la base de datos del ejemplo que aparece en Dallas E.
Johnson (ejemplo 2.1, pagina 40). Cuarenta y ocho individuos que haban presentado
solicitud de trabajo a una empresa fueron entrevistados y clasificados en relacin con
15 criterios. Estos aspirantes se clasificaron segn la forma de su letra en la solicitud
34
(FL), su aspecto (APP), su capacidad acadmica (AA), su amabilidad (LA), su

autoconfianza (SC), su lucidez (LC), su honestidad (HON), su arte de vender (SMS),
su experiencia (EXP), su empuje (DRV), su ambicin (AMB), su capacidad para
captar conceptos (GSP), su potencial (POT), su entusiasmo para trabajar en grupo
(KJ) y su conveniencia (SUIT). Adems, cada criterio se evalu en una escala que va
del 0 al 10, con 0 como una calificacin muy insatisfactoria y con 10 como una
calificacin muy alta. El resultado de la evaluacin de cada uno de estos individuos,
se muestra en la tabla N 1 (ver anexo). En la Figura 1.5.se representa el grfico de
dispersin para todas las combinaciones de variables en la porcin inferior y superior
de la matriz. Las diagonales contienen los histogramas de las variables. Con el
software Estadstico Statistica 6.0, se construyo la matriz de dispersin, mediante
ventana Graphs, matriz plots.
35
Matrix Plot (SOLICITANTES 15v*48c)

FL
APP
AA
LA
SC
LC
HON
SMS
EXP
DRV
AMB
GSP
POT
KJ
SUIT
36
Caras de Chernoff.
En 1973, Chernoff sugiri utilizar caras para representar datos multivariantes. Una
caracterstica facial diferente se asocian con variables diferentes. As, por ejemplo,
una variable se podra asociar con el ancho vertical del ojo, la segunda con el ancho
horizontal, la tercera con el tamao del iris y las otras se podran asociar con el
espaciamiento de los ojos, la altura de los ojos, la longitud de la nariz, el ancho de la
nariz, la longitud de las cejas, el ancho de las orejas, la el ancho de las orejas, la
altura de las orejas, la longitud de la parte media de la boca, la abertura de la boca, la
sonrisa, etc. La figura 1.6 muestra un conjunto de caras de Chernoff para cada uno de
los 48 solicitantes de trabajo (ver Dallas Jonson, tabla 2.1, pagina 42). Las caras
fueron elaboradas por el programa Statistica 6.0, mediante:
Graphs stats Icon Graphs Graph Type Chernoff Faces.
Caras de Chernoff
(SOLICITANTES 15v*48c)
#1
#2
#3
#4
#5
#6
#7
#8
#9
#10
#11
#12
#13
#14
#15
#16
#17
#18
#19
#20
#21
#22
#23
#24
#25
#26
#27
#28
#29
#30
#31
#32
#33
#34
#35
#36
#37
#38
#39
#40
#41
#42
#43
#44
#45
#46
#47
#48
face/w = FL
ear/lev = APP
halfface/h = AA
upface/ecc = LA
loface/ecc = SC
nose/l = LC
mouth/cent = HON
mouth/curv = SMS
mouth/l = EXP
eyes/h = DRV
eyes/sep = AMB
eyes/slant = GSP
eyes/ecc = POT
eyes/l = KJ
pupils/pos = SUIT
Fgura 1.6. Grficas de caras para los datos de solicitantes, usando las 15 respuestas.
37
Las caras de Chernoff son tambin muy tiles para validar los resultados de los
programas de agrupacin, con los que se intenta dividir las unidades experimentales
de un conjunto de datos en subgrupos, llamados agrupamientos, de manera que los
individuos dentro de un agrupamiento sean semejantes entre s, y los que estn en
agrupamientos diferentes no lo sean. Mediante las caras de Chernoff para los
individuos dentro de un agrupamiento deben ser semejantes entre s, y las caras para
aquellos que se encuentran en agrupamientos diferentes no deben serlo. Se puede
notar la semejanza entre las de Chernoff para los solicitantes 7 y 8, 10 y 11, y 22, 23
y 24.
Grfico de estrella.
Este tipo de grfico, se construyen al representar la distancia a la que se encuentra
cada variable de cero sobre rayos o ejes que irradian de un punto central. Se tiene un
rayo para cada variable respuesta; por ejemplo, los vectores de datos en cinco
dimensiones requeriran cinco rayos o ejes. Para cada ejes, cada uno de stos
formara un ngulo de 72 con los ejes adyacentes.
En la figura 1.7 se muestra la identificacin de los ejes de cinco variables X 1, X2, X3,
X4 y X5. Se ha trazado X1 a lo largo del eje que apunta hacia el norte (es decir, el eje
que apunta directamente hacia arriba). Las otras variables se han representado sobre
los otros ejes en el orden del sentido del movimiento de las manecillas del reloj.
X1
X2
X5
X4
Figura 1.7. Ejes de una grfica de estrella.
X3
38
En la figura 1.8 se muestran las grficas de estrella para los individuos del conjunto
de solicitantes (ejemplo ilustrativo) , usando las 15 variables originales.
Las grficas de estrellas tambin son tiles para identificar datos outliers
multivariantes que estn en un conjunto y tambin para la validacin de los
resultados de los programas de agrupacin. Existen solicitantes en la figura 1.8 que
parezcan ser datos outliers?.- Qu se puede decir acerca de los solicitantes 41 y
42?.- Qu acerca de los solicitantes 28 y 29?.-
Grficos de estrella (
SOLICITANTES 15v*48c)
#1
#2
#3
#4
#5
#6
#7
#8
#9
#10
#11
#12
#13
#14
#15
#16
#17
#18
#19
#20
#21
#22
#23
#24
#25
#26
#27
#28
#29
#30
#31
#32
#33
#34
#35
#36
#37
#38
#39
#40
#41
#42
#43
#44
#45
#46
#47
#48
Figura 1.8. Grfica de estrellas para los datos de solicitantes, usando las 15 respuestas.
Para los datos de los solicitantes, las grficas de estrellas tienen otra interesante
interpretacin. A los patrones de la empresa les gustara ofrecer empleo a personas
con valores elevados para las 15 variables. Estas personas se manifestaran en la
grfica de estrella con los polgonos con las reas ms grandes. Examinando la figura
1.8 parecera indicar que los solicitantes 7 y 8 son los dos mejores en este grupo.
39
Grfico de perfiles.
En este tipo de representacin grafica multivariante, se obtuvo mediante el grafico
Statistica. En la figura 1.9, se representa los perfiles de los valores de 48 solicitantes
sobre siete variables del ejemplo que se viene considerando. El objetivo de los
perfiles multivariante es representar los datos de tal forma que permitan identificar
fcilmente las similitudes y las diferencias.
Grficos de Perfiles (
SOLICITANTES 15v*48c)
#1
#2
#3
#4
#5
#6
#7
#8
#9
#10
#11
#12
#13
#14
#15
#16
#17
#18
#19
#20
#21
#22
#23
#24
#25
#26
#27
#28
#29
#30
#31
#32
#33
#34
#35
#36
#37
#38
#39
#40
#41
#42
#43
#44
#45
#46
#47
#48
Figura 1.9. Perfiles multivariantes.
Resumen.
No hay que entender las representaciones grficas de esta seccin como un sustituto
de las medidas de diagnostico estadstico discutido en este texto y en el siguiente
texto (Anlisis Estadstico Multivariante parte II ). Pero proporcionan una forma
alternativa de desarrollar un perspectiva del carcter de los datos y las interrelaciones
que existen, incluso si son multivariantes en su naturaleza.

Capitulo 3

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Capitulo 3

Cargado por

Copyright:

Formatos disponibles

Cap. 3.

Aspectos del Anlisis Multivariado

Cap. 3. Aspectos del Anlisis Multivariado

objetos pertenecientes a uno o ms grupos, estando constituida cada observacin

1.2. Organizacin de los datos. Daremos simplemente un recordatorio y poco

o como un arreglo rectangular, llamado X, de p filas y n columnas:

Cap. 3. Aspectos del Anlisis Multivariado

Nociones de Estadstica Descriptiva Multivariante.

El vector de medias es dado por :

Una medida de dispersin es dada por la varianza muestral. En general, para

Cap. 3. Aspectos del Anlisis Multivariado

En un arreglo se ubica a la varianza muestral a lo largo de la diagonal. En esta

mide la asociacin entre las variables i y k. Se nota que la covarianza se reduce a la

La ultima estadstica considerada aqu el coeficiente de correlacin muestral

(o coeficiente de correlacin momento producto de Pearson). Esto mide la asociacin

Cap. 3. Aspectos del Anlisis Multivariado

La matriz de correlacin muestral es:

b) Las varianzas respectivas son:

s 32 2 , s12 4 , s13 1.4 y s 23 1.2 . Luego la matriz

varianzas- covarianzas resulta,

c) La matriz de correlacin resultante es

Cap. 3. Aspectos del Anlisis Multivariado

La distancia Euclidiana entre dos observaciones multivariantes arbitrarios P y Q

En la distancia Euclidiana, cada coordenada contribuye igualmente a su clculo.

Cap. 3. Aspectos del Anlisis Multivariado

Ejemplo 2. Un conjunto de pares de mediciones (x 1, x2) sobre dos variables produce

x 1 x 2 0 , s11 = 4 y s22 = 1. suponga que las mediciones de x1 estn

Cap. 3. Aspectos del Anlisis Multivariado

coordenada x2. La mitad de la longitud de estos ejes mayor y menor son

1 1 , respectivamente. La elipse de distancia unitaria es representada en la Figura

Figura 1.1. Elipse de distancia unitaria.

Cap. 3. Aspectos del Anlisis Multivariado

Distancia de Mahalanobis. El concepto de distancia Euclidiana, es insuficiente

Ejemplo 3. Dada la matriz de covarianzas de las variables x1, x2 y x3,

Adems se tiene: x 1 19.32 , x 2 1.51 y x 3 9.76 ,

Cap. 3. Aspectos del Anlisis Multivariado

(19 19.32) 2 (1 1.51) 2 (10 9.76) 2

b) Distancia Euclidiana Estandarizada.

. Se tiene: d(X, X) 0.55

Cap. 3. Aspectos del Anlisis Multivariado

Luego la distancia de Mahalanobis es: d(X, O) = 2.61

. Resulta: D(X, X) 1.633

1.4. lgebra de Matrices y vectores aleatorios.

1.4.1. Conceptos bsicos.

En la figura 1.2, se ilustra la representacin geomtricamente del vector x 1, 3, 2

Cap. 3. Aspectos del Anlisis Multivariado

Figura 1.2. El vector x 1, 3, 2 .

Definimos el vector cx como:

Figura 1.3. Multiplicacin escalar y vector suma.

b) suma de dos vectores.

Cap. 3. Aspectos del Anlisis Multivariado

La multiplicacin de un vector x por un escalar c, cambia la longitud. De la

ecuacin (17), tenemos:

Otro concepto geomtrico es el ngulo de dos vectores. Consideremos dos

vectores en un plano y el ngulo, , entre ellos, como en la figura 1.4. En la figura

y cos cos( 2 1 ) cos( 2 )cos(1 ) sen( 2 )sen(1 )

es conveniente introducir el producto inercia de dos vectores. Para el caso de n = 2, el

Cap. 3. Aspectos del Anlisis Multivariado

Figura 1.4. El ngulo entre x x 1 , x 2 y y y1 , y 2 .

Para un nmero arbitrario de dimensin n, el producto inercia de x y y es dado por:

Entonces el arreglo para vectores de n componentes es dado por:

Ocurre cos 0 si slo si x y 0 , se dice que x y y son perpendiculares cuando

Un par de vectores x y y de igual dimensin , se dice que son linealmente