Documentos de Académico
Documentos de Profesional
Documentos de Cultura
NIETO BARAJAS
5. Análisis de cúmulos
'
d ij x i x j x i x j
1/ 2
x i1 x j1 2 x ip x jp 2 .
2) Distancia euclidiana estandarizada. Es la norma del vector de
diferencias de las dos observaciones estandarizadas,
d ij z i z j z i z j
'
1/ 2
,
36
'
d ij x i x j 1 x i x j
1/ 2
.
37
38
39
40
en la Sección 5.1.
Este método asegura que todos los elementos de un cúmulo están dentro
de una distancia máxima uno del otro.
41
d UW d VW
d ( UV ) W .
2
x k x (ij)
1
d ij
~2 2
ni n j
( ij)
k 1
COMETARIOS FINALES:
El número de cúmulos óptimo se determina visualizando el dendrograma y
determinando una distancia para la cual los grupos están bien
diferenciados.
42
El método del vecino más cercano tiende a maximizar la distancia entre los
cúmulos, produciendo un menor número de cúmulos que los demás
métodos. En cambio, el método del vecino más lejano tiende a minimizar
las distancias dentro de cada cúmulo, por lo que produce un número más
grande de cúmulos que los demás métodos. Estas propiedades se pueden
visualizar cortando los dendrogramas a una misma distancia.
El método de K-medias es muy criticado porque fija de antemano el
número K de cúmulos.
La agrupación perfecta no es tan sencilla de obtener, por lo que es
recomendable intentar con más de un método. Si varios métodos dan
resultados semejantes, entonces se puede suponer que existe una
agrupación natural de los individuos.
Es importante realizar una evaluación gráfica de los métodos de análisis de
cúmulos.
Nota. Los métodos jerárquicos se pueden usar para formar cúmulos de
variables, usando como medida de distancia “uno menos el valor absoluto
de la correlación muestral” entre ellas.
R: hclust, kmeans.
43
6. Escalamiento multidimensional
44
D ij z i z j z i z j
'
1/ 2
,
para ij=1,2,...,n.
n n (n 1)
¿Cuántas distancias hay que calcular?. m = .
2 2
original, i.e.,
d i1 j1 d i2 j2 d i m jm (6.1)
45
(q )
d̂ ij que satisfacen la condición (6.1) y minimizan la función de Estrés
definida como:
d ij
(q) 2
d̂ ij
(q)
i j
Estrés(q )
d ij
(q ) 2
i j
(q)
2) Para d̂ ij fijos, encontrar una nueva configuración de puntos que
R: cmdscale.
46
7. Análisis de Factores
47
48
INTERPRETACIONES:
Las nuevas variables Fk son llamadas factores subyacentes o factores
comunes.
Los términos j son llamados factores específicos y describen la variación
residual específica a la variable Xj.
La cantidad j es llamada varianza residual específica de la variable Xj.
Los coeficientes jk son llamados pesos de la j-ésima variable en el k-ésimo
factor. De hecho, jk CovX j , Fk .
OBSERVACIONES:
Si existen y de modo que la relación (7.2) se satisfaga, entonces los
factores comunes explican con exactitud la covarianza entre las variables
originales.
49
50
51
R: factanal, rotate.
52
8. Análisis discriminante
53
Regla de verosimilitud:
, si Lx; 1 , 1 Lx; 2 , 2
RD1 ( x ) 1 ,
2 , si L x ; 1 , 1 L x ; 2 , 2
donde Lx; k , k es la función de verosimilitud para la k-ésima
población evaluada en x.
54
donde b 1 1 2 y c
1
1 2 ' 1 1 2 . La función b ' x es
2
llamada función discriminante lineal de x.
donde
dk
d2
P k x
e 2
d1
e 2
e 2
55
ˆ
n1 1ˆ 1 n 2 1ˆ 2 ,
n1 n 2 2
56
R: discrim, factor.
57
k 1 k 1 i 1
1 m m
donde ˆ n k ˆ k
n k 1
y n n k . La matriz B es llamada matriz de
k 1
58
Regla discriminante.
Si se usa únicamente la primer función canónica, se calcula
d 2k b1' x b1' ˆ k b x b ˆ ,
2 '
2
'
2 k
2
para k=1,2,...,m y se asigna x a la
R: lda.
R: tree.
59