Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Escuela de Posgrado
MAESTRIA EN ESTADISTICA E
INVESTIGACION
CURSO: ANALISIS MULTIVARIADO
DR. CLETO DE LA TORRE DUEAS
metodosepg@gmail.com
Pgina 1
Pgina 2
CAPITULO I
EL METODO DE ANLISIS POR COMPONENTES PRINCIPALES
1.1 INTRODUCCION.
El propsito del mtodo de Anlisis por Componentes Principales es:
i).-
ii).- Reducir la dimensionalidad del problema original que se est estudiando. Como
paso previo para futuros anlisis.
iii).- Eliminar, cuando sea posible, algunas de las variables originales, si ellas aportan
poca informacin.
Las nuevas variables generadas se denominan componentes principales y poseen
algunas caractersticas estadsticas deseables tales como: independencia (cuando se
asume multinormalidad) y en todos los casos no-correlacin; esto significa que s las
variables originales no estn correlacionadas, el anlisis por componentes principales no
ofrece ventaja alguna.
Cada componente principal sintetiza la mxima variabilidad residual contenida en los
datos.
1.2
Pgina 3
( pxp)
i I ( pxp) 0
e 'i ( pxp) i I ei 0
e 'i ( pxp) ei i e 'i ei i
e 'i ei i
(14)
Donde la ecuacin (14) significa que el vector ei satisface la ecuacin (9) y e'i ei 1,
entonces, la varianza de Yi e'i X es i , de tal manera, que para maximizar tal varianza
debemos de usar en (8), el mximo autovalor de la matriz es, 1 , para tal autovalor tenemos
la ecuacin :
( pxp)
1 I e1 0
e'1e1 1
(15)
Y1 e'1 X
e'1 e1 1
que satisface :
Var(Y1 ) V( e1 X) e'1 e1 1
(16)
Pgina 4
yi ei X
e'i ei 1
con
Donde Y1 recibe el nombre de Primer Componente Principal, por otra parte se cumple :
Var ( yi ) e'i ei i
(17)
e1 1e1
De la misma forma tomando el siguiente autovalor en forma decrecient e, es decir
Y2 e ' 2 X
e' 2 e 2 1
que satisface
V (Y2 ) e ' 2 e2 2
e 2 2 e 2
entonces
e ' 2 e1 e ' 2 1e1 1e ' 2 e1 0
Por consiguien te :
Cov( y 2 , y1 ) e ' 2 e1 0
Cov (Yj, Yi) = 0
1.2.2
con
ij
1ei
DEFINICION
Sea el vector aleatorio X=(X1, X2,...Xp) con matriz de covarianza con valores
caractersticos 1 2 ... p 0
Es posible definir una matriz L como el arreglo de las (P x P) constantes L(jk)
l (11)
l
( 21)
L
l ( p1)
l (12)
l ( 22)
l( p 2)
l (1 p )
l ( 2 p )
l ( pp)
Pgina 5
Esto es:
0 k i
l ( jk ) l ( ji )
1 k i
k, i 1,2,, p
Y1 l '1 X l11 X 1 l 21 X 2 l p1 X p
Y2 l ' 2 X l12 X 1 l 22 X 2 l p 2 X p
(18)
Y p l ' p X l1 p X 1 l 2 p X 2 l pp X p
Var (Yi ) l 'i li
i 1,2,, p
Cov(Yi , Yk ) l 'i l k
i, k 1,2,, p
Las componentes principales son aquellas combinaciones lineales no correlacionadas
Y1, Y2,...Yp cuyas varianzas en la ecuacin anterior son tan grandes como sea posible.
La primera componente principal es la combinacin lineal con la mxima varianza.
Es decir esta maximiza Var(Yi) = l 'i li es claro que Var(Yi)= l 'i li puede ser
incrementada por la multiplicacin por li por cualquier constante. Para eliminar esta
indeterminacin, es conveniente restringir nuestra atencin a vectores coeficientes de
longitud uno.
1.2.3
DEFINICIN
Var( l '1 X) sujeto a l '1 l1 1
Pgina 6
Var( l ' 2 X) sujeto a l ' 2 l2 1 y la
Var( l 'i X) sujeto a l 'i li 1 y la
Cov( l 'i X, lk X) 0
1.2.4
para k i
POSTULADO 1
Sea la matriz covarianza asociada con el vector aleatorio X=(X 1, X2,...Xp). sea
1.2.5
POSTULADO 2
Sea la matriz covarianza asociada con el vector aleatorio X=(X 1, X2,...Xp). Sea con
sus pares de valores y vectores caractersticos (1, 1), (2, 2),..., (p, p)
donde 1 2 ... p 0
Sean las componentes principales Y1= 1 X,
Y2=2X,...
Yp = pX
Entonces:
p
(20)
i 1
= 11 + 22 +...+pp = 1 +2 +...+ p
k
1 2 p
Pgina 7
k= 1, 2,...., p
Por ejemplo el 80 90% de la variacin poblacional total, para P grande puede ser
atribuible a una, dos tres componentes, entonces estas componentes pueden
reemplazar las P variables originales sin mucha prdida de informacin.
Cada componente del vector coeficiente 1=(e11,........, ek1,... ep1), tambin merece
atencin. La magnitud de ki mide la importancia de la k-sima variable a la i-sima
componente principal en particular, ki es proporcional al coeficiente de correlacin
entre Yi e Xk.
1.2.6
POSTULADO 3
Si:
Y1=1X
Y2=2X,
...
Yi , X k
eki i
kk
i, k 1,2,, p
(21)
Son los coeficientes de correlacin entre las componentes Yi y las variables Xk.
Donde: (1, 1), (2, 2),... , (p, p) son los autovalores autovectores de los pares
para .
1.3
Pgina 8
Si:
estimados correspondientes.
y i e 'i X e 1i X1 e 2i X 2 e pi X p
i 1,2,, p
ik
Adicionalmente:
p
correlacin muestral
r( yi , xk )
eki i
skk
i, k 1, 2,, p
(22)
Denotaremos las componentes principales por Y1, Y2, ... Yp sin considerar si ellas
fueron obtenidas de S o R. Las componentes construidas de S y R no son las mismas,
en general indicndose la matriz que est siendo usada y la notacin simple es
conveniente.
Pgina 9
CAPITULO II :
METODO DEL ANALISIS FACTORIAL
2.1 INTRODUCCIN
El Anlisis Factorial es una tcnica Multivariante que nos permite identificar
variables subyacentes con un numero relativamente pequeo de factores que expliquen
la mayora de la varianza observada en un numero mayor de variables manifestantes ,
los que pueden ser utilizados para representar la informacin contenida en la estructura
de la matriz de correlaciones entre un conjunto de variables observadas
El objetivo del Anlisis Factorial es encontrar variables subyacentes no observables ni
medibles directamente pero que se pueden identificar en funcion de las variables
observables, tal es el caso en el rea de Psicologa de la variable subyacente coeficiente
de inteligencia medida por los investigadores a partir de un conjunto de variables .
El mtodo de Anlisis Factorial nos permitir realizar un estudio detallado de la matriz
de correlaciones para su posterior anlisis e interpretacin y por medio de este estudio
construir las variables subyacentes
(2.1)
(2.2)
Pgina 10
X i i li1 F1 li 2 F2 lim Fm i
X p p l p1 F1 l p 2 F2 l pm Fm p
De donde se puede identificar las siguientes matrices:
i)
1
i
p
1 p
i 1... p
l11
.
L
.
l p1
.
lij
.
.
. l1m
. .
. .
. l pm
p m
i 1... p , j 1...m
F1
F Fj
Fm
1m
j 1...m
iv)
1
i
p
i 1... p
1 p
Pgina 11
E(F) = 0mx1
................( 2.3)
Cov(F) = Imxm
2) Los factores especificos son independientes con media 0 y varianza p p
E() = Opx1
...................( 2.4)
Cov()= pxp
.
11 0
0
.
22
. ii
.
.
.
.
0
0
.
.
.
.
.
.
0
0
.
.
pp p p
.....................( 2.5)
Pgina 12
= LL +
.................( 2.6)
2.2.1.2 RESULTADO 2
La covarianza entre la matriz de datos y la matriz de factores es la matriz de cargas
factoriales.
.(2.7)
Cov(X,F) = L
2.2.2
ESTRUCTURA
DE
LA
COVARIANZA
PARA
EL
MODELO
FACTORIAL ORTOGONAL
De los resultados anteriores se puede concluir que la estructura de la covarianza para el
modelo Factorial Ortogonal esta dado por:
1.
Cov(X) = LL +
De donde:
Var(Xi) = l2il + ... + l2im + ii
.(2.8)
Cov(Xi ,Xk) = lil lkl + ... + lim lkm
2.
Cov(X,F) = L
De donde:
Cov(Xi ,Fj) = lij
.....................( 2.9)
................... ( 2.10)
Pgina 13
2.2.3 COMUNALIDAD
Se denomina comunalidad hi2 a la proporcin de la varianza de la i-sima variable,
atribuible a los m factores comunes.
La parte de la varianza debida al factor especfico a menudo se llama varianza
especfica.
lij2+ ii
j 1
Pgina 14
= LG GF +
X - = L*F* +
..(( 2.12)
L* = LG
donde
y
F* = GF
como
E[F*] = TE[F] = 0
y
Cov[F*] = GCov[F]G
= GG
Cov[F*] = Imxn
..(( 2.13)
...( ( 2.14)
nos dan la misma representacin. As mismo las comunalidades, dadas por los
elementos diagonales de LL = (L*)( L*) no estn afectadas por la eleccin de G.
requisistos que debe cumplirse para que el Anlisis Factorial tenga sentido es que las
variables esten altamnete correlacionadas.
Pueden utilizarse diferentes metodos para comprobar el grado de asociacin entrelas
variables .
2.3.2
ANLISIS
DE
LA
DETERMINANTE
DE
LA
MATRIZ
DE
CORRELACIN
La determinante de la matriz de correlacin es un ndice de varianza
generalizada de dicha matriz . Un determinante muy bajo indicara altas
intercorrelaciones entre las variables pero no debe ser cero (matriz no singular ), pues
esto indicara que alguna de las variables son linealmente dependientes y no se podra
realizar ciertos clculos necesarios en el Anlisis Factorial.
2.3.3
identidad (I),
Es decir ausencia de correlaciones significativas entre las variables , esto significa que
la nube de puntos se ajustara a una esfera n-dimensional perfecta , expresando as la
hiptesis nula por:
H 0 :R=I
...............(29)
H0 : R 1
Dr. Cleto De La Torre - Anlisis multivariado
Pgina 16
n 1 2 p 5 * ln R
6
1
p p 1
2
...................(2.15)
Donde:
n : es el tamao muestral
p : es el numero de variables
Si se acepta la hiptesis nula con una confianza del 95% ( p-value >0.05)
Significa que las variables no estan intercorrelacionadas por tanto no tiene mucho
sentido llevar a cabo un anlisis factorial .
En cambio si se rechaza la hiptesis nula ( p-value 0.05) evidencia que no se trata de
una matriz identidad
KMO
r
i j
r
i j
2
ij
2
ij
a
i j
..................(2.16)
2
ij
Donde :
Pgina 17
MSAi
r
i j
2
ij
...................(2.17)
r a
i j
2
ij
i j
2
ij
Pgina 18
1 e1 '
1 e1 , 2 e 2 ,..., p e p .
p e p '
..............(2.18)
escribir:
pxp = Lpxp Lpxp + Opxp = LL
A parte del factor
.....................(2.19)
j , los factores de carga del j-simo factor son los coeficientes para
la estructura de la
Pgina 19
1 e1 '
L L'
1 e1 ,..., m e m .
pxm
mxp
m e m '
................. (2.20)
Esta representacin aproximada, asume que los factores especficos en (4) son de
importancia secundaria y que tambin se pueden ignorar en la factorizacin de . Si los
factores especficos se incluyen en el modelo, sus varianzas se pueden asumir, ser los
elementos de la diagonal de - LL, donde LL est definido en (12). Considerando los
factores especficos, la aproximacin ser:
= LL +
1 ei '
11 0 . 0
.
.
. .
.
1 ei ,..., m e m .
.
. .
.
.
0 0 . pp
m e m '
.................(2.21)
X 2 j X 2 X 2 j X 2
. . .
, j = 1, ....,n
Xj X
. . .
. . .
X Pj X P X Pj X P
(2.22)
Pgina 20
X ij X 1
S 11
z j .
X X
p
pj
S pp
, j = 1,2, ... , n
2.4.1.1
FACTORIAL
La componente principal del Anlisis Factorial de la matriz de covarianza muestral S,
est especificada en trminos de los pares autovalor-autovector (1 , e1 ),....., ( p , e p )
donde 1 2 .... p . Sea m<p nmero de factores comunes. La matriz de los
factores de carga estimados estn dados por:
~
L
e ,
1 1
2 e2 ,......, m em
(2.23)
Las varianzas especficas estimadas estn dadas por los elementos de la diagonal de la
~L
~' , de manera que:
matriz S L
~
11
0
~
.
~
.
.
.
0
.
.
22
0
0
~2
con
~ S
lij
ii
ii
.
~
pp
(2.24)
(2.25)
Pgina 21
e , si m=1.
~ e , e , si m=2,
L
~
L
1 1
1 1
donde:
(1 , e1 ) y(2 , e2 ) son los dos primeros pares autovalor-autovector para S (o para R).
~L
~'~ . Sin embargo, los elementos fuera de la diagonal de S no estn
la diagonal de L
~L
~'~ . Entonces Cmo seleccionamos el nmero de
generalmente reproducidos por L
factores m?.
Si el nmero de factores comunes no esta determinado por consideraciones a priori,
tales como por la teora o por trabajos de otros investigadores, la eleccin de m se puede
basar en los autovalores estimados de manera anloga como con las componentes
principales.
Consideremos la matriz residual:
~L
~'~]
S [L
(2.26)
~L
~'~] 2 ..... 2 (2.27)
Suma de cuadrados admitidas de S [ L
m 1
p
Por consiguiente, un valor pequeo para la suma de cuadrados de los auto-valores
omitidos implica un valor pequeo para la suma de cuadrados de los errores de
aproximacin.
Lo ideal es que, las contribuciones de algunos de los primeros factores o las varianzas
muestrales de las variables pudiera ser grande. La contribucin a la varianza muestral s ii
Pgina 22
~
a partir del primer factor comn es li12 . La contribucin a la varianza muestral total, s11
+ s22 + .... + spp = tr(S), del primer factor comn, es entonces:
~2 ~2
~
l11 l21 .... l p21
e ' e
1 1
s11 .....s pp
, para S
=
.............(44)
total debida al j-simo factor
j
p
VARIMAX ,
Pgina 23
2.5.1.2 QUARTIMAX
Este procedimiento Ortogonal trata de minimizar el numero de factores necesarios para
explicar un conjunto de variables .
2.5.1.3 EQUAMAX
Es un procedimiento Ortogonal el cual es una combinacin de los dos anteriores, es
decir trata de simplificar factores y variables.
2.5.1.4 PROMAX
Es una rotacin oblicua que se utiliza cuando las ponderaciones factoriales no coinciden
con la correlacion entre el factor y la variable .
Pgina 24
CAPITULO III
ANALISIS DE CORRESPONDENCIAS
3.1
INTRODUCCIN
El anlisis de correspondencia, es un mtodo multivariado que reduce la
Pgina 25
3.2
Pgina 26
3.3
TABLA DE CONTINGENCIA
Una tabla de contingencia resume la observacin simultanea de dos
caractersticas X e Y .
Tabla N 3.1
Tabla de contingencia
Variable Y
k11
k1 j
k1 p
k 1.
k i1
k ij
k ip
k i.
k n1
k nj
k np
k n.
Total
k .1
k. j
k. p
k ..
Caractersticas
Variable X
Total
Donde:
k i. k ij
j 1
Pgina 27
k. j k ij
i 1
k .. : Es el tamao de la muestra:
n
i 1
j 1
Tabla N 3.2
Tabla de frecuencias relativas
Variable Y
Total
f 11
f1 j
f1 p
f 1.
f i1
f ij
f ip
f i.
f n1
f nj
f np
f n.
Total
f .1
f. j
f. p
f ..
Caractersticas
Variable X
f ij
k ij
k ..
j de la variable Y .
Frecuencias Marginales
f i.
p k
p
k i.
ij
f ij i p 1,2,..., p
k.. j 1 k.. j 1
f. j
n k
n
k. J
ij
fij j n 1,2,..., n
k.. i 1 k.. i 1
Pgina 28
f..
i 1 j 1
3.4
kij
k..
1 n p
k
kij .. .. 1
k.. i 1 j 1
k..
3.5
Pgina 29
celda
a) Perfil Fila
En el estudio de las filas, la tabla de datos se transforma dividiendo cada trmino f ij de
la fila i por la marginal f i. de esta fila i . La nueva fila se denomina perfil-fila.
Tabla N 3.3
Perfiles fila
Variable Y
f11 / f1.
f i1 / f i .
n/ p
Variable X
Total
f 1 p / f 1.
f ij / f i.
f ip / f i.
f n1/ f n.
f np / f n.
j
f 1 j / f 1.
f nj / f n.
Donde:
f ij
f i.
f ip
f f
, i 1,2,3,...n
H i i1 , i 2 ,...,
f i.
f i. f i.
Dr. Cleto De La Torre - Anlisis multivariado
Pgina 30
b) Perfil Columna
En el estudio de las columnas, la tabla de datos se transforma dividiendo cada
trmino f ij de la columna j por la marginal f . j de esta columna j . La nueva columna
se denomina perfil-columna.
Tabla N 3.4
Perfiles columna
Variable Y
f 11 / f .1
f 1 j / f .1
f 1 p / f .1
fi1 / f. j
fij / f. j
fip / f. j
f n1 / f. p
f nj / f. p
f np / f. p
Total
n/ p
Variable X
Donde:
f ij
f. j
Fj
,
,...,
f
f
f
.
j
.
j
.
j
j 1,2,3,..., p
Pgina 31
a) Distancia Euclidiana
La expresin general de esta distancia en el marco de las tablas de contingencia,
entre dos elementos fila de una tabla de contingencias es.
d i ,i '
k
p
j 1
k i ' j i, i'
2
ij
d j , j '
k
n
i 1
k ij ' j, j '
2
ij
Cuando comparamos dos elementos fila o columna de una tabla establecemos una
relacin de similitud o desimilitud de diferencias entre dos categoras de X , si
esta distancia es cerca de cero entonces las categoras son similares, caso contrario
son diferentes.
d (i ,i ') 0, i, i'
d ( j , j ') 0, j, j '
Si los elementos comparados por fila son idnticos, para todo par de elementos de la
tabla, entonces
Pgina 32
1
1
o
en caso de filas o columnas
f. j
f i.
estamos equilibrando los perfiles y dando la misma importancia a cada uno de ellos,
aumenta los trminos a priori ms dbiles, referente a las categoras raras, juega un
papel analgico al de la divisin de la desviacin tpica en el caso de las variables
numricas. En definitiva, supone tomar como referencia el perfil medio.
El carcter cualitativo de las variables obliga a usar una distancia distinta a la euclidea,
en nuestro caso para medir la distancia entre dos filas o entre las dos columnas se
recurre a la denominada distancia 2 . En realidad es una distancia eucldea ponderada
por la inversa del peso de la j sima columna en caso de que estemos midiendo la
distancia entre dos filas o ponderada por la inversa del peso de la i sima fila, en caso
de que estemos midiendo la distancia entre dos columnas. La expresin de distancia
entre dos filas i e i es igual a:
p
d (i, i )
2
j 1
1 f ij f ij
f . j f i. f i
j se obtiene aplicando la
d ( j , j )
2
i 1
f ij
1 f ij
f i. f . j f . j
De acuerdo con esta distancia, las categoras de los perfiles fila estn
representadas por una configuracin de j puntos en un espacio euclideo
R p , de
coordenadas.
pi :
f ij
f . j f i.
,...,
f . p f i.
f ip
Pgina 33
Las categoras de los perfiles columna est representada por una configuracin i
de puntos en un espacio euclideo de R n , de coordenadas.
pj :
f ij
,...,
f i. f . j
f n. f . j
f nj
Grafico N 3.1
Representacin de la nube en el espacio tridimensional
En la figura:
Su peso es f i.
f ij
f i.
Pgina 34
puntos N I .
f ij
GI
( f
i 1
f i. )
f. j
i.
f
i 1
i.
GJ
f ij
j 1
.j
( f
f. j )
f i.
f
j 1
.j
d 2 i, G I
j 1
d 2 j, G J
i 1
2
p
f ij
1 f ij
f . j
f . j f i.
f
f
j
i. . j
f. j
f ij
1 f ij
f i.
f
f i. f . j
f
i 1
.
j
i
.
f .i.
Para filas
(1)
Para columnas
(2)
Pgina 35
3.6
de manera que se obtenga una representacin a la vez accesible a nuestra visin y fiel,
en el sentido de que la representacin de la nube mantenga la mayor informacin que
ella contiene.
La representacin ser accesible si se proyecta la nube sobre un subespacio de
pequea dimensin y ser completa si la dispersin de la nube proyectada es casi igual a
la de la nube propiamente dicha.
En general se trata de buscar un subespacio de dimensin q en R p , q p la
misma que nos permite encontrar un sistema de vectores u1 ,..., u q y q ' es el tamao
del sub espacio generado en el espacio R n , q' n , encontrando el sistema de vectores
q'
3.6.1
N I . ANLISIS EN
RP .
f ij
fi.
f. j (diferencia entre la
Pgina 36
Inercia...N I inercia i
i 1
Inercia...N I
i 1
ij
f . j f i.
f . j . f i.
j 1
fij
f.j
Inercia...N J inercia j
j 1
Inercia...N J
i 1
ij
j 1
f i . f. j
f i . . f. j
Los p valores de los perfiles fila configuran un vector x xi1 ,..., xip que se
representa como un punto en el espacio R p y los n perfiles fila forman una nube de n
puntos en R p .
Pgina 37
Inercia f i d 2 i, G f
n
i 1
Grfico N 3.2
Representacin de la inercia en los ejes ortogonales
Eje factorial
Inercia alta
Inercia baja
Eje factorial
Representacin de N I .
La representacin de las categoras de la primera variable (perfil fila) en
dimensin reducida, determinadas por las
Dr. Cleto De La Torre - Anlisis multivariado
f ij
X
f . j f i.
(3)
M fi.
f. j f i .
i 1
i 1
fij
f. j
f. j
f. j
f. j
f. j
f. j
f. j
f. j
f. j
(4)
f. j
C j ' j f i. .
i 1
n
C j' j
i 1
f. j f. j ' f i .
f. j f. j '
f. j f. j '
(5)
C p X ' Dn X MM '
(6)
Donde:
1.
Pgina 39
C p M X ' Dn X MM '
C p .M .M 0 0
2.
Los autovectores de
Si V es vector propio de
ortogonal a
C p .V V
(7)
X ' Dn X MM 'V V
Operando llegamos a
X ' Dn X .V MM 'V V
Como:
M '.V 0 X ' Dn X .V V
f ij f ij '
3.
M es autovector de X ' Dn X
f. j
i 1
para el autovalor
f . j ' f i.
Donde
X ' Dn X .M .M
Sustituyendo,
tenemos:
n
fij fij '
.M
i 1 f. j f. j ' fi.
p n
fij fij '
. f
.j
f
f
f
j 1 i 1
.
j
.
j
'
i
.
j 1 i 1
f ij f ij '
f . j ' f i.
f. j'
f. j'
f. j'
Luego como:
Dr. Cleto De La Torre - Anlisis multivariado
Pgina 40
f . j ' .M 1
Como consecuencia de estas propiedades, bastara diagonalizar
X ' Dn X y
considerar solo los vectores propios de valor propio distinto de uno. Como el valor
propio uno corresponde al valor propio cero de
Diagonalizando
f ij . f ij '
i 1
f i. f . j . f . j '
t jj '
u , como consecuencia
2 .
2 ...
2 ... p
n 1 , p 1 .
q min n 1, p 1
Pgina 41
F X .U
Donde el trmino general es:
p
Fi
j 1
f ij
f i.
f ij
Fj
i 1
3.6.4
f. j
f. j
f i.
.uj
(8)
.vi
(9)
N J ANLISIS EN R n .
Debido al papel simtrico que juegan las filas y las columnas en el anlisis de
correspondencias, el ajuste en
R p `. Es decir:
R p . De
f ij
j es f . j
El centro de gravedad
G tiene de coordenadas g f . j
f.j
Pgina 42
f ij
~
X
f f
i. . j
(10)
La proyeccin de un punto
f ij
Gi
i 1
f i. f . j
.vi
(11)
Gj
j 1
f ij
f. j f i.
u es:
.uj
(12)
G X~.V
Recordemos que tambin se puede obtener las coordenadas de los puntos
perfiles columna a travs de las relaciones de transicin; trabajadas en el anlisis de
componentes principales. Es decir:
vi
uj
(13)
. X ij .uj
(14)
. X ij '.vi
Es decir que:
Coord ( j , ) Gi
f. j
.uj
Demostracin:
n
u j
.
i 1
fij
f i . . f. j
.
i 1
fi.
f. j
se tiene:
.v i
u j
fij
fij
f. j
f i . . f. j
f. j
f. j
.v i
Pgina 43
f ij
f. j
fi.
i 1
f. j
fij
f i. f . j
i 1
.v i
.vi . f . j
uj
.Gi . f . j
f. j
.uj
Sin embargo, lo que nos interesa con fines de una interpretacin ms importante
de las nubes es representar las dos nubes en un mismo plano.
Gi
i 1
f ij
fi.
.vi y vi 1 .Fi . f i.
f. j
Sustituyendo se tiene:
f ij
Gj
f i. f . j
i 1
Gj
f ij
i 1
f. j
.
i 1
f ij
f i. f . j
.Fi . f i.
. f i. .Fi
(15)
.Fi
.Fj .
f . j en la ecuacin (12) se
tiene:
Gi
j 1
f ij
f. j f i .
.Fj .
f. j
Pgina 44
Gi
f ij
j 1
f i.
j 1
f ij
f . j f i.
. f . j .Fj
.Fj
(16)
Esto significa que la proyeccin de los puntos i sobre el espacio formado por los
factores es igual a la proyeccin de los puntos j ponderados por un coeficiente
f ij
fi.
que
es el peso que tiene cada fila y por un coeficiente que es la raz del autovalor. Para el
caso de las proyecciones de los puntos
Por otro lado, la inercia de una nube de puntos se descompone sobre toda base
ortogonal, es la suma de sus inercias sobre cada uno de los ejes de esa base.
El ajuste de las nubes N I y N J descompone su inercia segn las
direcciones principales, debido a la ortogonalidad de los ejes, la suma de las inercias de
una nube sobre cada uno de los ejes es igual a la inercia total de la nube.
Pgina 45
La inercia de cada una de las dos nubes de perfiles fila y perfiles columna es
igual al estadstico 2 . El anlisis de correspondencias simples es por tanto, una
descomposicin de este estadstico y cada factor representa una parte de la relacin
entre las variables.
Cta (i, )
f i. coord 2 i,
f i. .F2 i
Puesto que:
n
f
i 1
.coord 2 (i, )
i.
Ctr i,
F2 i
coord 2 i,
d 2 i, G
d 2 i, G
Como
Dr. Cleto De La Torre - Anlisis multivariado
Pgina 46
d 2 i, G
j 1
f ij
f . j f i.
f. j
PERFILES
COLUMNA
En forma similar se puede definir las contribuciones para perfil columna
a)
Cta ( j, )
f . j coord 2 j,
Como:
f
i 1
b)
.j
f . j .F2 j
.coord 2 ( j, )
F2 j
coord 2 j,
Ctr j,
2
d 2 j, G
d j, G
Como
d 2 j, G
j 1
f ij
f i. f . j
f i.
Tambin se tiene:
coord j, d j,0
Pgina 47
Mientras las contribuciones absolutas permitan saber que variables son las
responsables de la contribucin del eje, las contribuciones relativas consideran cuales
son las caractersticas exclusivas de ese factor.
Pgina 48
CAPITULO IV:
ANALISIS DISCRIMINANTE
4.1
ANALISIS DISCRIMINANTE
El anlisis discriminante (DA) es una tcnica orientada a encontrar aquellos
Pgina 49
espacio
muestral
se
divide
en
g regiones
disjuntas
2.
3.
4.
Pgina 50
4.2
g 1,, k , con p medidas en cada uno. Usando los datos queremos determinar de
cual de las K poblaciones es ms probable seleccionar la unidad (N+1) asumiremos
que la forma de las funciones de densidad es el mismo para todas las poblaciones de k:
por ejemplo, que ellos son todas normal multivariantes. Denotemos con f a la funcin
de densidad comn. Entonces la regla de mxima probabilidad es:
X , . Es mayor para el grupo g que para cualquier otro grupo. Esta regla puede
declararse como sigue:
f ( X g ) f ( X g)
para g g
(4.1)
P( X g ) P( X g)
para g g
(4.2)
Pgina 51
4.2.1
R j x : L j ( x) Li ( x), i 1, J , i j
Clasificando las observaciones dentro de
(4.3)
Para J=2 grupos la probabilidad de poner x dentro del grupo 2 aunque este sea de
la poblacin 1 puede calcularse como:
P2 1 P( X R2 1 )
f ( x)dx
(4.4)
R2
P1 2 P( X R1 2 )
( x)dx
(4.5)
R1
es asignada a Ri .
Asignado \ verdadero
G1
G2
G1
C(1/2)
G2
C(2/1)
Pgina 52
, donde la
(esto
El costo esperado por error de mala clasificacin (ECM) esta dada por:
ECM C (21) P2 1 1 C (1 2) P1 2 2
(4.6)
TEOREMA 1.- Para dos poblaciones dadas, la regla que minimiza el ECM se da por
f ( x) C (1 2) 2
R1 x : 1
f 2 ( x) C (2 1) 1
f ( x) C (1 2) 2
R2 x : 1
f 2 ( x) C (21) 1
(4.7)
. Anlogamente, se
Pgina 53
(4.8)
R2 x : C (21) 1 f1 ( x) C (1 2) 2 f 2 ( x) 0
(4.9)
Esto es equivalente a
C (2 1) 1
f ( x)
R2 x : 2
f1 ( x) C (1 2) 2
(4.10)
1 : P( X 0) P( X 1) 1 / 2
2 : P( X 0) 1 / 4 1 P( X 1)
(4.11)
x 0 1
y
x 1 2
Definiendo los grupos tenemos
R1 0, R2 1
Y
R1 R2 0,1
R1 0 y R1 R2 0,1
1 : N ( 1 , 12 )
2 : N ( 2 , 22 )
Luego
Dr. Cleto De La Torre - Anlisis multivariado
Pgina 54
Li ( x) (2 )
2 1 / 2
i
1 x i
exp
2
i
(4.12)
De x se asigna a:
1 ( x R1 )
Si:
L1 ( x) L2 ( x)
Es equivalente a
2
1 x 1 x 2
exp
1
2 1 2
21 2 2
1
x 2 2 2 2 x 12 22 2 2 2 log 2
1
2
1 2
1 2 1
(4.13)
x 1,
x 2,
Si
(4.14)
x R2 x : x 1 / 2(1 2 )
(4.15)
para las
en las combinaciones
i N p (i , )
(a) La regla de ML asigna x a
2 ( x, i ) ( x i )T 1 ( x i ) i 1,, J
(4.16)
x R1 T ( x ) 0
(4.17)
Donde
Dr. Cleto De La Torre - Anlisis multivariado
Pgina 55
1
2
1 ( 1 2 ) y ( 1 2 )
4.2.2
(4.18)
f1 ( x)
f 2 ( x)
equivalentemente en la diferencia:
ln f1 ( x) ln f 2 ( x)
(4.19)
C (1 2) 2
1
R1 x : x T (11 21 ) x ( 1T 11 2T 21 ) x k ln
2
C
(
2
1
)
C (1 2) 2
1
R2 x : x T (11 21 ) x ( 1T 11 2T 21 ) x k ln
2
C (2 1) 1
(4.20)
(4.21)
Donde:
k
1 1 1 T 1
ln
( 1 1 1 2T 21 2
2 2 2
(4.22)
por funciones cuadrticas. Por
1 T 1
x (1 21 ) x
2
(4.23)
i = 1, 2
Pgina 56
Si x R 2
x G2 , clasificado en G 2
R1 R 2 RP
R1 R 2
: Regin de clasificacin de G g
de donde :
2
i 1
Pgina 57
p(2 / 1)
p(1 / 2)
f 2 ( x)
f 1 ( x)
R2
R1
G1
4.3.1 CRITERIO
G2
QUE
MINIMIZA
PROBABILIDAD
DE
MALA
CLASIFICACION
2
i 1
(4.24)
TPM = P1/ 22 P2 / 11
TPM = 1 f1 ( x)dx 2 f 2 ( x)dx
R2
(4.25)
R1
f 2 ( x) 1
R1:
R2:
f1 ( x) 2
(TPM)
La regla de clasificacin es
Dr. Cleto De La Torre - Anlisis multivariado
Pgina 58
Regla1
X es clasificado en G1 cuando
f1 ( x) 2
f 2 ( x) 1
(2.35)
En caso contrario en G2
Donde
As
H01:
1 2
No rechazar
H02:
1 2
Rechazar
'
'
exp x u1 1 x u1 x u 2 1 x u 2
2
f2 ( x )
2
(4.26)
Desarrollando
1
1
1
1
1
1
1
1
x' 1 x 1' 1 x x' 1 1 1' 1 1 x' 1 x 2' 1 x x' 1 2 2' 1 2
2
2
2
2
2
2
2
2
Como
1' 1 x x' 1 1
1' 1 2 2' 1 1
De donde se tiene
1
x' 1 ( 1 2 ) ( 1 2 )' 1 ( 1 2 )
2
remplazando se tiene:
f1( x )
1
'
'
exp u1 u 2 1 x u1 u 2 1 u1 u 2
2
f2 ( x )
(4.27)
Pgina 59
(4.28)
y en caso contrario a G 2
donde = 1 u1 u 2
Observacin
La ecuacin D( x ) log 2 define un hiperplano que se para los dos grupos.
1
B)
f i ( x)
y Q(x) = log
Q(x) = C0 -
2 p / 2 1 / 2
1
2
x u i '
1 x ui
(4.29)
f1( x )
f2 ( x )
1
x'
21
1
1
21 x x'
u 21u 2 x
1
1 1
(4.30)
Es funcin cuadrtica
Donde C
1 2 1 '
ln
u1 11u1 u 2' 21u 2
2 1 2
(2.44)
Finalmente se propone la siguiente regla asignar x a la poblacin G1 si
Q( x ) log 2 y en caso contrario asignar a G1 .
1
4.3.2
Pgina 60
f1 ( x)
1
f 2 ( x)
(2.45)
y en caso contrario a G 2
si 1 2 Re gla 1
CEM C2 1P2 1 1
C1 2P1 2 2
(4.31)
Los costos de mala clasificacin se pueden representar por una matriz de costos
TEOREMA 4
Sea 1 y 2 probabilidades a priori de que un individuo provenga de G1 Y G2 con
densidades f1(x) y f2(x) si los costos de mala clasificacin son c(1/2) y c(2/1)
entonces las regiones de clasificacin R1 y R2 satisfacen las condiciones:
f1 ( x) 2 C (1 / 2)
f 2 ( x) 1C (2 / 1)
R1:
(2.47)
R2:
f1 ( x) 2 C (1 / 2)
La regla de clasificacin es
Regla3 (Criterio de Bayes)
X es clasificado en G1 cuando
f1 ( x) 2 C (1 / 2)
f 2 ( x) 1C (2 / 1)
(2.48)
En caso contrario en G2
Si c(1/2)=c(2/1) Regla2
Prueba
CEM
Pgina 61
= 1C(2/1)+
R1
R1
(2.49)
el costo esperado de mala clasificacin debe ser mnimo, de donde.
2C(1/2) f 2 ( x) 1 .C (2 / 1). f1 ( x)
(2.50)
f 1 ( x) 2 C (1 / 2)
f 2 ( x) 1C (2 / 1)
R1:
R2:
(4.32)
f 1 ( x) 2 C (1 / 2)
f 2 ( x) 1C (2 / 1)
Regiones
CEM
f1 ( x) 2 C (1 / 2)
f 2 ( x) 1C (2 / 1)
que
miminizan
el
La regla de clasificacin
X es clasificado en G1 cuando:
f 1 ( x) 2 C (1 / 2)
f 2 ( x) 1C (2 / 1)
En caso contrario a G2
NOTA: i. y C(i/j) es informacin previa, si no se tiene se trabaja con costos de
mala clasificacin iguales.
4.3.3.1
1.
f1 ( x) C (1 / 2)
f 2 ( x) C (2 / 1)
R2:
2.
(4.33)
f1 ( x) C (1 / 2)
f 2 ( x) C (2 / 1)
f1 ( x) 2
f 2 ( x) 1
(4.34)
Pgina 62
R2:
f1 ( x) 2
f 2 ( x) 1
3. Si 1= 2 y C(1/2)=C(2/1)
R1:
R2:
f1 ( x)
1
f 2 ( x)
(4.35)
f1 ( x)
1
f 2 ( x)
RESULTADO 6
Dado dos poblaciones Normales multivariadas, con igual estructura de covarianza y
diferente vector de medias (A.D. lineal) luego
X G1 si
C (1 / 2)
1
x' 1 ( 1 2 ) ( 1 2 )' 1 ( 1 2 ) ln k donde k 1 .
2
2 C (2 / 1)
En caso contrario a G2
Prueba
G1 :
X ~ N (1, 1)
G2 :
X ~ N (2, 2)
Aceptar
Ho1 : 1 = 2
Rechazar
Entonces:
1
G1 : f1 ( x)
p
2
(2 )
1/ 2
G2 : f 2 ( x)
p
2
(2 )
1/ 2
1
exp( ( x 1 )' 1 ( x 1 )
2
(4.36)
1
exp( ( x 2 )' 1 ( x 2 ))
2
1 C (1 / 2)
.
2 C (2 / 1)
Pgina 63
f 1 ( x)
1
1
(4.37)
tomando logaritmos :
1
1
1
1
2 ( x 1 )' ( x 1 ) 2 ( x 2 )' ( x 2 ) ln k
Desarrollando
1
1
1
1
1
1
1
1
x' 1 x 1' 1 x x' 1 1 1' 1 1 x' 1 x 2' 1 x x' 1 2 2' 1 2 ln k
2
2
2
2
2
2
2
2
Como
1' 1 x x' 1 1
1' 1 2 2' 1 1
De donde se tiene
1
x' 1 ( 1 2 ) ( 1 2 )' 1 ( 1 2 ) ln k
2
X G1
1
si x' 1 ( 1 2 ) ( 1 2 )' 1 ( 1 2 ) ln k
2
Caso contrario en G2
Cuando 1 2
X G1
C(1/2)=C(2/1)
1
cuando x' 1 ( 1 2 ) ( 1 2 )' 1 ( 1 2 ) 0
2
(4.38)
X G2 en caso contrario
Observaciones
Si no se conoce u1, u2 y
x1 , x 2 y S pooled
Donde S pooled
(n1 1) S1 (n2 1) S2
n1 n2 2
(4.39)
Pgina 64
1
1
1
x' S pooled
( x1 x 2 ) ( x1 x 2 )' S pooled
( x1 x 2 ) ln k
2
1
1
1
x' S pooled
( x1 x 2 ) ( x1 x 2 )' S pooled
( x1 x 2 ) ln k
2
X G1
(4.40)
Caso contrario en G2
Si ln(k)=0 es decir
1 C (1 / 2)
.
1
2 C (2 / 1)
Entonces
1
1
1
x' S pooled
( x1 x 2 ) ( x1 x 2 )' S pooled
( x1 x 2 ) 0
2
(4.41)
1
( x1 x 2 )' S pooled
x
1
1
( x1 x 2 )' S pooled
( x1 x 2 )
2
La regla de mnimo ECM para comparar dos poblaciones normales en relacin con la
variable escalar.
1
y ( x1 x 2 )' S pooled
x a' x , evaluado en x.
La cantidad
1
1
( x1 x 2 )' S pooled
( x1 x 2 )
2
(4.42)
( y1 y 2 )
2
1
x1 a' x1
donde y1 ( x1 x 2 )' S pooled
1
y 2 ( x1 x 2 )' S pooled
x 2 a' x 2
(4.43)
X G1
si y >m
En caso contrario en G2
En el caso de 3 grupos
S pooled
Pgina 65
1
1
1
luego Wij ( x) x' S pooled
( x i x j ) ( x i x j )' S pooled
(xi x j )
2
(4.44)
x G1
si W12 0 W13 0
(4.45)
x G3
si W13 0 W23 0
x G2
si W12 0 W23 0
data
X1
X2
..
..
..
n1
..
XP
Grupo
1
2
..
n2
1 2
Dr. Cleto De La Torre - Anlisis multivariado
Pgina 66
D( x, G1 ) D( x, G2 )
donde
D( x, Gi ) ( x i )' 1 ( x i )
i 1,2
(4.46)
1
2( 1 2 )' 1[ x ( 1 2 )] 0
2
1
( 1 2 )' 1[ x ( 1 2 )] 0
2
(4.47)
(n 1) S1 (n2 1) S 2
S pooled 1
n1 n2 2
(4.48)
1
1
( x1 x2 )' S pooled
[ x ( x1 x2 )] 0 Funcin discriminante lineal
2
x1
y0
Fig. 2: Clasificacin de 2 Grupos
G1
X
G2
Pgina 67
G1 :
X1 ~ N (1, )
G2 :
X2 ~ N (2, )
(a' x1 a' x 2 ) 2
Maximizar D
, luego el problema es encontrar `a .
a' S pooleda
(n 1) S1 (n2 1) S 2
Donde S pooled 1
n1 n2 2
max
a
(a' x1 a ' x2 ) 2
(a' d ) 2
max
a
a' S pooleda
a' S pooleda
d ' S pooledd
Donde d x1 x2
1
a cS pooled
d
(4.49)
c 0
( x1 x2 )' S pooled ( x1 x2 ) D 2
(4.50)
Para c=1
1
x1 x2
a S pooled
(4.51)
Equivalentemente
discriminacin de Fisher
luego G1 si
Pgina 68
Y ' 1 x1 x2
1 '
a x1 a ' x2
2
donde Y0=
1
a' x1 a ' x2 es la media de la
2
combinacin de medias.
1 x1 x2
1
x1 x2 1 x1 x2
2
G1 si 1 x1 x2
1
x1 x2 1 x1 x2 0
2
(4.52)
caso contrario en G2
donde Y0 1 x1 x2 1 x1 x2
2
equivalentemente
X es clasificado en G1 si : Y > Y0
caso contrario en G2
Y K1 X 1 K 2 X 2
(4.53)
Pgina 69
G1
G2
F. Disc.lineal Fisher
Consideremos dos grupos G1 y G2. los objetos se consideran que son separados
en cada grupo de acuerdo a p variables aleatorias X=(X 1,........Xp). supondremos que
los valores de cada uno de los grupos provienen, respectivamente, de dos poblaciones
cuyas funciones de densidad son f1(x) y f2(x).
La idea de fisher fue transformar las observaciones multivariadas a
observaciones Y univariadas de tal manera que los valores que le corresponden al
observar las p variables en cada grupo estn lo mas separadas posibles. Fisher sugiri
tomar combinaciones de las observaciones pues estan son fcilmente manejables.
Fisher selecciono la combinacin lineal de tal manera que si 1Y es la media
correspondiente a los valores de Y en el grupo G1 y 2Y es la media de los valores de Y
en el grupo G2, entonces la distancia entre estas dos medias relativa a la variabilidad de
los valores de Y, sea mxima.
Comenzaremos denotando con 1 al vector de medias de las p variables
X1,Xp. en el primer grupo G1 y con 2 a la media de estas p variables en el segundo
grupo.
Supondremos que la matriz de varianzas covarianzas de las p variables es
igual en ambos grupos.
1Y a' 1 y
2Y a' 2
Y2 a' a
Dr. Cleto De La Torre - Anlisis multivariado
Pgina 70
varianza de Y
Y2
(4.54)
c 0
a 1 (1 2 )
Y a' X (1 2 )' 1 X
(4.55)
sea Y0 1 2 1 x0
el valor de la funcin discriminante para una observacin x0
y sea
1
1 2 1 1 2
2
(4.56)
el punto medio entre las dos medias de las poblaciones univariadas determinadas
por Y.
Se demuestra que E(Y0/G1)-m0
Mientras que
X0
E(Y0/G2)-m<0
es clasificado en G1 Y0>m
caso contrario en G2
Pgina 71
(n 1) S1 (n2 1) S 2
El valor de se aproxima con S pooled 1
donde S1 y S2 son
n1 n2 2
Esta distancia D se usa para probar si las medias de dos poblaciones difieren
significativamente. Por consiguiente ,una prueba de diferencia de medias puede ser
visto como una prueba de separacin entre dos grupos.
Si se supone que las poblaciones G1 y G2 son normales multivariadas con matriz de
covarianza Spooled entonces para probar:
H0:u1=u2
HA: u1u2
Puede realizarse mediante el estadstico de prueba
(n1 n2 p 1) (n1 n2 )
D2
(n1 n2 2) p (n1 n2 )
(4.57)
4.5
1/ 2
2
1
exp 1 / 2x 1 ' 11 x 1
exp 1 / 2x 2 '
1
2
x 2
2
1
(4.58)
1 / 2 Ln
2
1
1 / 2 x ' 1 x x ' 1 x Ln 2
1 1
1
2 2
2
(4.59)
Pgina 72
2 Ln 1
2
2
La versin muestral de lo anterior considerando adems que las probabilidades a priori
x'
x 2 x'
1
2
1
1
1
2
2 11 1 ' 2 21 2 '1 11 1 Ln
S
2
(4.59)
Aqu la frontera entre las dos clases son curvas cuadrticas (elipses, hiprbolas, etc.)
Usando simulacin se ha demostrado que cuando hay normalidad la discriminacin
cuadrtica es ms eficiente que la lineal para muestras grandes, pero no para muestras
pequeas. En el caso de muestras pequeas debe haber una marcada diferencia entre las
matrices de covarianza para que la discriminacin cuadratica sea eficiente ( Marks y
73una, JASA 1974).
Tambin ha quedado probado que cuando no hay normalidad la discriminacin
cuadrtica tiene un pobre rendimiento.
Dos son las hiptesis a las que el anlisis discriminante se muestra especialmente
sensible:
normalidad
multivariante
de
las
variables
independientes
homocedasticidad.
H 02 : 1 2
H 01 : 1 2
H a 2 : 1 2
H 02 : 1 2
H a1 : 1 2
H a 2 : 1 2
.
A.D. Cuadrtico con respecto a vector de medias
Pgina 73
4.7.1 CRITERIO:
DEL
MNIMO
COSTO
ESPERADO
POR
MALA
CLASIFICACIN.
G: poblaciones G1..Gg
g: funciones de densidad f1..fg
RK: Regiones:
K,i=1,2,g
P(k / i) P(clasificar x en Gk dado que esta en Gi )
(4.60)
f ( x)dx
i
Rk
P(i / i ) 1 p(k / i )
(4.61)
i 1
i j
en G2 o
G3,..o Gg es:
g
g 1
(4.62)
k 1
(4.63)
k 1
k i
i 1
i 1
ik
(4.64)
Pgina 74
RESULTADO 7
R1 .Rg son tales que:
x es clasificado en Rk si
g
i 1
ik
f i ( x)c(k / i ) es mnimo
(2.92)
RESULTADO 8
La regla de clasificacin que minimiza el ECM, con igual costos es
X es clasificado Gk si:
k f k ( x) i f i ( x)
i k
(4.65)
f k ( x) i
f i ( x) k
i k
i k
(4.66)
correlacin de las
Pgina 75
interpretar el significado de las mismas utilizando, para cada una de ellas, aqullas
variables con las que est ms correlacionada. De cara a facilitar dicha
interpretacin se
espacio de
W B
min g 1, p
1
i
i 1
4.8.3 CORRELACIN
CANNICA
ASOCIADO
LAS
FUNCIONES
DISCRIMINANTES
La correlacin cannica y el autovalor asociado a una funcin discriminante, son
dos medidas, relacionadas con lamda de Willks, que permiten evaluar la
informacin que aportara cada funcin discriminante en particular.
La correlacin cannica mide las desviaciones de las puntuaciones discriminantes
entre grupos respecto a las desviaciones totales sin distinguir grupos.
El autovalor mide las desviaciones de las puntuaciones discriminantes entre los
grupos respecto a las desviaciones dentro de los grupos.
En ambos casos si el valor obtenido es grande la dispersin ser debida a las
diferencias entre grupos y en consecuencia la funcin discriminara mucho los
grupos
La k-sima correlacin cannica viene dada por:
CRk
k
1 k
k 1,, s
Pgina 76
4.9
n11
n12
n21
n22
Cuadro4.
Matriz de confusin
Pgina 77
100
4.9.1
n11 n22
%
n
una observacin
Pgina 78
CAPITULO V:
ANLISIS CLUSTER
5.1
EL ANLISIS CLUSTER.
Anlisis Cluster es un procedimiento estadstico multivariante que comienza con
Los mtodos cluster se han diseado para crear grupos homogneos de casos o
entidades. La mayor parte de los usos del Anlisis Cluster pueden ser resumidos bajo
cuatro objetivos principales:
Pgina 79
5.1.1
que
proporciona los valores de las variables para cada uno de los individuos objeto de
estudio, o sea:
(
La
fila de la matriz
)
contiene los valores de cada variable para el
5.1.2
Pgina 80
Mtodos de Reasignacin.
Permiten que un individuo asignado a un grupo en un determinado paso del proceso sea
reasignado a otro grupo en un paso posterior, si ello optimiza el criterio de seleccin. El
proceso acaba cuando no quedan individuos cuya reasignacin permita optimizar el
resultado que se ha conseguido. Dentro de estos mtodos estn:
Pgina 81
a) El mtodo K-Medias.
b) El Quick-Cluster anlisis.
c) El mtodo de Forgy.
d) El mtodo de las nubes dinmicas.
Vecino ms Cercano
Vecino ms Lejano
Aglomerativos
Jerrquicos
Vecino ms Cercano
Vecino ms Lejano
Disociativos
Mtodos de
Anlisis
Cluster
K-Medias
No Jerrquicos
Centroide
Quick-Cluster
Mtodo de Forgy
5.1.3
Pgina 82
5.2
MEDIDAS DE ASOCIACIN
Una vez considerado que el objetivo del Anlisis Cluster consiste en encontrar
2.
A continuacin vamos a centrarnos en las posibles funciones que pueden elegirse para
medir la similitud entre los grupos que sucesivamente se van formando, distinguiendo
primeramente entre distancias mtricas y similaridades.
(5.1)
Pgina 83
(5.2)
Ciertos autores realizan una cierta distincin entre lo que es una funcin
distancia y lo que es una distancia mtrica. Para ello definen una
distancia como aquella funcin d: U U R que verifica:
1.
d(x, y) 0
2.
d(x, x) = 0
3.
d(x, y) = d(y, x)
(5.3)
1.
d(x, y) = 0 = x = y
2.
(5.4)
d(x, y) d0
2.
d(x, y) = d0 x = y
3.
d(x, y) = d(y, x)
4.
(5.5)
Pgina 84
Ahora:
1. Una funcin que verifique los tres primeros apartados de la
definicin 2.1, pero no as la desigualdad triangular, es llamada
semimtrica.
2. Se llama ultramtrica a toda mtrica que verifique adicionalmente
la propiedad
d(x, z) Max {d(x, y), d(y,z)}
5.2.2
(5.6)
SIMILARIDADES
(5.7)
Pgina 85
La i-sima fila de la matriz X contiene los valores de cada variable para el i-simo
individuo, mientras que la j-sima columna muestra los valores pertenecientes a la jsimo variable a lo largo de todos los individuos de la muestra.
5.3
) ;
Que en Estadstica se conoce como la suma de los productos cruzados entre xi y xj,
mientras que el producto escalar de un vector por s mismo, norma al cuadrado del
vector, se llama suma de cuadrados. As se tiene:
( )
(5.9)
( )
(5.10)
Pgina 86
El coseno del ngulo es una medida de similaridad entre xi y xj, con valores entre
1 y 1 en virtud de la desigualdad de Schwarz. Adems es la mejor medida para
establecer el paralelismo entre dos vectores, ya que dos vectores son paralelos cuando el
coseno del ngulo que forman es uno en valor absoluto. Esta medida es independiente,
salvo signo, de la longitud de los vectores considerados. Algebraicamente, sean b y c
dos escalares cualesquiera y definamos
Entonces:
( )
( )
)
(
|(
).
)(
Pgina 87
( )
( )
( ))
)(
)
)
(
) )
Lo cual muestra que r es el coseno del ngulo entre los vectores centrados
( ))
( ))
5.4
se tiene:
En ocasiones encontramos variables que pueden tomar dos valores (blanco-negro, sino, hombre-mujer, verdadero-falso, etc.). En tales casos se emplea, con frecuencia, el
convenio de usar los valores dicotmicos 1 y 0 para ambos valores. Al relacionar dos
variables binarias, se forma una tabla de contingencia 2 2, que se puede esquematizar
de la forma
Tabla 5.1
Xi/Xj
1
0
Totales
1
a
c
a+c
0
b
d
b+d
Totales
a+b
c+d
m = a+b+c+d
Pgina 88
5.4.1
MEDIDA DE OCHIAI
Con lo cual el coseno del ngulo entre xi y xj queda en la forma:
Pgina 89
,(
)(
)-
0.
/.
/1
(2.15)
En el proceso seguido con las variables dicotmicas puede surgir una situacin
ambigua, como es el hecho de por qu y cmo asignar los valores 1 y 0 a los
valores binarios. Puede ocurrir el caso de que intercambiando los papeles de
dichos valores se llegue a resultados distintos, lo cual no es deseable. Por ello, en
ocasiones, se toma la media geomtrica de los cosenos obtenidos tomando
ambos criterios y, ms concretamente, se toma el cuadrado de dicha media
geomtrica, obtenindose:
0.
/.
/.
/.
/1
(2.16)
Hagamos notar que cada uno de los trminos de la expresin anterior es una
probabilidad condicionada; As:
Pgina 90
5.4.2 MEDIDA
Esta medida se obtiene haciendo uso del coeficiente de correlacin sobre
dos variables dicotmicas.
02
) 3 2
) 31
Se tiene:
(
)
[{(
)(
)
)*
)(
)+(
} {(
(
,(
)
)
)
)*
(
,(
)(
)(
)(
}]
)-
)+-
5.5
Pgina 91
No obstante, algunos factores influyen en las medidas que se pueden definir. Por
ejemplo, una primera cuestin es que hacer con las parejas del tipo 0 0, ya que si las
dicotomas son del tipo presencia-ausencia, los datos de la casilla d no poseen ningn
atributo y no deberan tomar parte en la medida de asociacin. Otra cuestin que surge
es cmo ponderar las coincidencias y cmo las no coincidencias, o lo que es lo mismo,
una diagonal u otra de la tabla (2.1).
A continuacin exponemos algunas de las medidas que han ido surgiendo, atendiendo a
varios criterios como los anteriormente expuestos.
Pgina 92
(5.23)
5.5.6
MEDIDA DE KULCYNSKI
(5.24)
No son stas las nicas medidas de este tipo que existen. Podramos seguir citando
muchas ms y, entre ellas, a modo de ejemplo:
(
(
(
)
)
)
(
Pgina 93
5.6
(5.25)
Como sabemos, no es claro que la codificacin hecha sea la mejor. Por ello se puede
optar por tener en cuenta tambin las otras coincidencias, dando lugar a la medida:
0
(5.26)
Estas expresiones son similares a las obtenidas a partir del coseno del ngulo entre
variables en el caso de datos binarios, salvo que en lugar de tomar medias geomtricas
se toman medias aritmticas.
) (
(5.27)
Que indica la probabilidad de que un caso elegido al azar presente una coincidencia
menos la probabilidad de que presente una diferencia en alguna de las variables.
5.7
Pgina 94
)(
Esta mtrica tiene la propiedad, al igual que la norma L2, de que todos sus valores son
invariantes respecto de las transformaciones ortogonales de la forma
es una matriz n x n que verifica:
, donde
En efecto:
Y as se tiene:
(
Adems se verifica que estas transformaciones, adems de las traslaciones, son las
nicas para las cuales d2 es invariante [1].
En cuanto a las distancias de Minkowsky, stas proceden de las normas Lp:
(|
| )
Dando origen a:
(
(|
| )
Pgina 95
Es fcil comprobar que esta distancia es invariante ante traslaciones, siendo stas las
nicas funciones para las cuales dp posee esta propiedad.
Adems se verifica la conocida relacin:
(
|
(5.31)
52.32)
Donde B es una matriz definida positiva. La mtrica correspondiente a dicha norma es:
(
) (
En el caso particular en que B sea una matriz diagonal, sus elementos son pesos
positivos para las componentes del vector que corresponde a las variables en la matriz
de datos. Esta distancia se mantiene invariante frente a transformaciones (semejanzas)
efectuadas por una matriz P que verifique P BP = B. En efecto:
(
(
)
)
(
(
) (
)
)
) (
Pgina 96
( )
(5.36)
Esta distancia es invariante frente a transformaciones regidas por una matriz Cnxn no
singular. En efecto,[4] si, en particular, C es una matriz diagonal con los elementos no
nulos, la transformacin de X por C significa que el valor de cada variable en X es
multiplicado por una constante, o sea, se ha hecho un cambio de escala. Por ello la
mtrica de Mahalanobis es invariante frente a cambios de escala, propiedad que no
posee, por ejemplo, la mtrica eucldea.
5.7.2
Pgina 97
)(
(5.37)
Donde se ha definido:
Entonces, la distancia eucldea al cuadrado entre dos individuos sobre los que se ha
efectuado ese tipo de transformacin ser:
(
6
)
7
)(
Observemos que las dos medidas de la variable k-sima, xik y xjk son sometidas a
transformaciones distintas:
Por lo que los nuevos valores no son comparables. Adems, se observa que 1 r,
complemento a uno del coeficiente de correlacin, es una mtrica si
Dr. Cleto De La Torre - Anlisis multivariado
Pgina 98
( )
tipificarlos.
Al igual que antes se puede demostrar, lo cual se deja como ejercicio al lector, que:
(
))
Donde:
(
)
(
Y por lo tanto,
(
) (
) es una mtrica.
(5.40)
Donde p y q son el nmero de modalidades de las variables estudiadas.
Tabla 5.2
Var A\Var
B
Pgina 99
Ahora bien, esta cantidad, que es muy til para contrastes en tablas de
contingencia, no lo es tanto como medida de asociacin, puesto que aumenta
cuando n crece. Por ello se considera la medida 2, llamada contingencia
cuadrtica media, definida como:
(5.42)
Sin embargo, este coeficiente depende del tamao de la tabla. Por ejemplo,
supongamos que p = q y que las variables estn asociadas de forma perfecta, o
sea,
Pgina 100
Con estas ideas en mente, se han hecho algunos intentos para normalizar la
medida 2 al rango [0, 1]. Por ejemplo:
4
,(
)(
)-
(5.43)
Obviamente, este tipo de medidas son empleadas en los casos en los que los
datos que se poseen son conteos de frecuencias. As, supongamos que tenemos
m individuos sobre los que se han observado n variables. Sea xij la frecuencia
observada de la j-sima variable sobre el i-simo individuo.
Tabla 5.3
Pgina 101
Donde:
COEFICIENTE DE BRAY-CURTIS
Dados dos individuos:
(
El numerador no es otra cosa que la mtrica L1, mientras que el denominador puede ser
interpretado como una medida de la magnitud total de los dos individuos.
Hay que hacer notar que es aconsejable usar esta medida con datos no negativos,
ya que pudiera haber cancelaciones en el denominador, pudindose obtener resultados
Dr. Cleto De La Torre - Anlisis multivariado
Pgina 102
poco aconsejables; por ejemplo, usando esta medida, no es aconsejable centrar los datos
previamente. Adems, puesto que para cada par de individuos se
emplea
un
Pgina 103
CAPITULO VI :
MTODOS DEL ANLISIS CLUSTER
6.1
MTODOS JERRQUICOS.
Los llamados mtodos jerrquicos tienen por objetivo agrupar clusters para formar un
nuevo o bien separar alguno ya existente para dar origen a otros dos, de tal forma que, si
sucesivamente se va efectuando este proceso de aglomeracin o divisin, se minimice
alguna distancia o bien se maximice alguna medida de similitud. Los mtodos
jerrquicos se subdividen en aglomerativos y disociativos.
Los mtodos jerrquicos utilizan el Dendograma como representacin grfica.
6.2
anlisis con tantos grupos como individuos haya. A partir de estas unidades iniciales se
van formando grupos, de forma ascendente, hasta que al final del proceso todos los
casos tratados estn englobados en un mismo conglomerado.
Pgina 104
A continuacin vamos a presentar algunas de las estrategias que pueden ser empleadas a
la hora de unir los clusters en las diversas etapas o niveles de un procedimiento
jerrquico. Ninguno de estos procedimientos proporciona una solucin ptima para
todos los problemas que se pueden plantear, ya que es posible llegar a distintos
resultados segn el mtodo elegido.
* (
)+
(6.1)
Mientras que la similitud, si estuviramos empleando una medida de tal tipo, entre los
dos clusters sera:
(
* (
)+
(6.2)
{ (
)}
{
(
1.
* (
)+}
{ (
)}
Pgina 105
* (
)+}
* (
)+
* (
(6.5)
)+
(6.6)
{ (
* (
)}
)+}
(6.7)
{ (
* (
)+}
)}
(6.8)
Pgina 106
con el
se obtiene como la
As, si el cluster
(con
(con
posee
elementos, la
(6.9)
Notemos que en este mtodo no se tiene en cuenta el tamao de ninguno de los clusters
involucrados en el clculo, lo cual significa que concede igual importancia a la distancia
(
) que a la distancia (
).
Sea:
elementos respectivamente.
el nmero de elementos de
componen
Pgina 107
)
(
(
)
)
)
(6.10)
1.
Mtodo del centroide ponderado, en el que los tamaos de los clusters son
considerados a la hora de efectuar los clculos.
2.
respectivamente). Sean
(compuesto por
, con
elementos,
Pgina 108
[(
(
) (
) (
(
(
0(
(
(
] ]
(
(
)
)
1]
(
(
[(
] ]
Pgina 109
individuos.
El proceso comienza con m clusters, cada uno de los cuales est compuesto por un solo
individuo, por lo que cada individuo coincide con el centro del cluster y por lo tanto en
este primer paso se tendr
mtodo de Ward es encontrar en cada etapa aquellos dos clusters cuya unin
proporcione el menor incremento en la suma total de errores, E.
Pgina 110
[ (
) ]
[ (
[ (
) ]
) ]
Ahora bien:
De donde:
(
)(
Y como:
(
Se tiene:
(
Dado que
, dividiendo por
(
)(
se obtiene:
)
:
(
) 7
Pgina 111
Veamos, para finalizar, cmo se pueden calcular los distintos incrementos a partir de
otros calculados con anterioridad.
Sea
y sea
es:
Y la expresin:
(
Se deduce:
(
(
(
)
(
)
(
(
(
Pgina 112
Con lo cual:
(
[(
) 7
) 7
Al igual que en los anteriores mtodos del centroide se puede demostrar que la relacin
anterior se sigue verificando para una distancia que venga definida a partir de una
norma que proceda de un producto escalar o que verifique la ley del paralelogramo.
))
| (
)|
De esta manera el clculo de las distancias entre grupos usadas por las tcnicas
jerrquicas descritas anteriormente son casos particulares de la expresin anterior, para
una eleccin conveniente de los parmetros
Pgina 113
I. AMALGAMIENTO SIMPLE
Supongamos que en una etapa se dispone de un cluster
fruto de la unin de otros dos clusters,
y de otro
que es
entre el cluster
y entre
) (
)}
Se tiene:
(
(
)
(
{ (
)
| (
)| (5.18)
(5.19)
Pgina 114
(
(
)
)
{ (
(
) (
| (
)}
)
)|
(5.20)
4. Mtodo de la mediana
5. Mtodo de Ward
Para la distancia eucldea al cuadrado se tiene:
Pgina 115
Esta clase de procedimientos es bastante menos popular que los ascendentes por lo que
la literatura sobre ellos no es muy extensa. Una cuestin importante que puede surgir en
su desarrollo es el hecho de cundo un cluster determinado debe dejar de dividirse para
proceder con la divisin de otro conglomerado distinto. Dicha cuestin puede resolverse
con la siguiente variante expuesta por MacNaughton-Smith en 1964 y que est
concebida para aquellas medidas de asociacin que sean positivas.
Pgina 116
Las tcnicas Monotticos son generalmente empleadas cuando los datos son de tipo
binario. Ahora la divisin se inicia en aquellos individuos que poseen y aquellos que no
poseen algn atributo especfico. Teniendo en cuenta este criterio, para un conjunto de
datos con
para cada uno de los dos subgrupos formados y as sucesivamente; de ello se deduce
que hay que determinar algn criterio para elegir la variable sobre la cual se va a
proceder a la divisin. El criterio que suele ser ms usual es el basado en los estadsticos
del tipo
)(
)(
)(
Pgina 117
6.2.3
LA
MATRIZ
COFENTICA.
COEFICIENTE
DE
CORRELACIN
COFENTICO
Los mtodos jerrquicos imponen una estructura sobre los datos y es necesario con
frecuencia considerar si es aceptable o si se introducen distorsiones inaceptables en las
relaciones originales. El mtodo ms usado para verificar este hecho, o sea, para ver la
relacin entre el dendrograma y la matriz de proximidades original, es el coeficiente de
(
elementos
cluster.
6.2.4
)(
)(
)(
Pgina 118
Asimismo
(
).
Siguiendo con esta idea se puede extender dicha situacin al caso multivariante, si bien
el empleo de las matrices antes reseadas no hace tan inmediata dicha extensin. Por
ello surgen diversos procedimientos, entre los cuales podemos citar los siguientes:
1. Minimizacin de la traza de W
Esta es la extensin ms inmediata al criterio anteriormente comentado
para el caso unidimensional. Evidentemente esto es equivalente a
minimizar la suma de los cuadrados de las distancias eucldeas entre cada
individuo a la media del cluster al que ha sido asignado.
Hay que hacer notar que este criterio est implcito en diversos mtodos no
jerrquicos que sern descritos en el captulo siguiente, como el de Forgy,
Jancey y el de las k-medias, as como, dentro de los mtodos jerrquicos,
el de Ward.
, -
, -
(5.25)
Pgina 119
2. Minimizacin de k2|W |
Marriot en 1971 sugiere el empleo de
| |, tomndose el valor de
tal
| |
|
grupos la matriz T
Pgina 120
6.3
MTODOS NO JERRQUICOS.
Los mtodos que se presentan ahora estn diseados para clasificar individuos (no son
vlidos para variables) en una clasificacin de K clusters, donde K se especifica a priori
o bien se determina como una parte del proceso.
Los diversos algoritmos existentes se diferencian sobre todo en lo que se entiende por
una particin mejor y en los mtodos que deben usarse para conseguir mejoras. La idea
general de estos mtodos es muy similar a la sealada en los algoritmos descendentes en
ms de un paso empleados en la optimizacin sin restricciones en programacin no
lineal. Tales algoritmos empiezan con un punto inicial y generan una secuencia de
movimientos de un punto a otro hasta que se encuentra un ptimo local de la funcin
objetivo.
Pgina 121
Los mtodos estudiados ahora comienzan con una particin inicial de los individuos en
grupos o bien con un conjunto de puntos iniciales sobre los cuales pueden formarse los
clusters. En muchos casos, la tcnica para establecer una particin inicial es parte del
algoritmo cluster, aunque estas tcnicas usualmente son proporcionadas por s solas ms
que como una parte del algoritmo cluster.
(
6
Pgina 122
Ordenar los casos por densidades y elegir aquel que tenga la mayor
densidad como primer punto semilla.
eligiendo semillas hasta que todos los casos que faltan tengan densidad
cero, o sea, hay al menos una distancia
Notemos que este mtodo es tan simple que permite probar con diversos
valores de la distancia d si los anteriormente empleados proporcionaran
pocas semillas o examinaran una parte pequea del conjunto de datos.
sobre
el
punto
semilla
ms
prximo,
(Forgy,
1965),
Pgina 123
Procedimiento de Forgy:
Se asigna cada caso al cluster construido sobre el punto semilla ms prximo.
Los puntos semilla quedan estacionarios durante el proceso.
( ) ( )
( )
( )
( )
( )
( )
Pgina 124
1.
2.
3.
4.
Notemos que no es posible decir cuntas repeticiones de los pasos segundo y tercero
sern precisas para alcanzar la convergencia en un problema concreto; no obstante,
evidencias empricas indican que en la mayora de los casos no suelen ser necesarios
ms de 10 ciclos.
En cada ciclo la asignacin de K clusters requiere mK clculos de distancias y m(K 1)
comparaciones de distancias. Puesto que K es frecuentemente menor que m y el nmero
de ciclos hasta alcanzar la convergencia es pequeo, el analista puede con frecuencia
examinar conjuntos de clusters asociados con varios valores de K, con un coste bastante
menor del asociado a un anlisis jerrquico completo.
Jancey, en 1966, sugiere el mismo mtodo excepto una modificacin en el paso tercero.
As, el primer conjunto de clusters formado por puntos semilla viene dado o bien se
calcula como los centroides de los clusters de la particin inicial; en cada etapa, cada
nuevo punto semilla se encuentra reflejando el antiguo punto semilla a travs del nuevo
centroide del cluster, lo cual puede ser visto como una aproximacin al gradiente local,
o sea, la direccin en la cual el punto semilla debiera moverse para tener un mejor
aprovechamiento de la particin, en tanto en cuanto se desplaza en el mismo sentido que
lo hace el cluster en su totalidad.
Pgina 125
Particin
o
Semillas
Asignar individuos al
Clster con semilla
ms prxima
Convergencia
Calcular centroides
Semillas = centroides
Fi
n
MTODO DE FORGY
1.
2.
3.
Pgina 126
El ltimo paso es el mismo que el del mtodo de Forgy, excepto que la recolocacin se
efecta una vez ms sin esperar a que se produzca la convergencia.
Notemos que, usando los K primeros individuos como puntos semilla, este mtodo tiene
la virtud de ser el menos caro de todos los mtodos discutidos. El cmputo total de
operaciones desde la configuracin inicial hasta la final involucra slo lo siguiente:
K(2m K) clculos de distancias, (K 1)(2m K) comparaciones de distancias y m
K clculos de centroides.
Hay que comentar que el conjunto de clusters construido en el paso segundo del
algoritmo depende de la secuencia en la que los individuos han sido procesados.
MacQueen (1967) efectu algunos estudios preliminares en este sentido; su experiencia
indic que la ordenacin de los datos tiene solamente un efecto marginal cuando los
clusters estn bien separados.
1.
2.
3.
Pgina 127
Pgina 128