Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Análisis de Conglomerados
Análisis de Conglomerados
ANALISIS MULTIVARIADO
El tipo de dato.
El tipo de proximidad que se desea manejar (disimilaridad o similaridad).
Medida que se desea utilizar.
Si se agrupa por medio de frecuencias, se encontrarán disimilaridades por Ji-Cuadrada o
Phi-Cuadrado. Si la información es métrica para encontrar proximidad similar el coeficiente
de Pearson o medida de cosenos seria lo adecuado.
NOMBRE FORMULA
PÁGINA 1
r 1 /2
Distancia Euclidiana
d ij = [∑
k=1
( X ik − X jk ) 2
]
r
Distancia Eucidiana al 2
Cuadrado d ij =∑ ( X ik −X jk )2
k=1
r
Distancia de Manhattan o
city block métrica d ij = ∑ | X ik −X jk|
k=1
r 1/ λ
Distancia Minkowski
métrica
d ij = [∑|
k=1
X ik −X jk|
k
] ; λ ≥1
1 /τ
Distancia en un poder r
NOMBRE FORMULA
r
∑ X ik X jk
Coseno cos = k=1
ij 1/ 2
r r
[∑ k=1
X ik 2
∑ X jk
k=1
2
]
r
∑ ( X ik − X́ k )( X jk − X́ k )
Correlación de Rij = k =1
Pearson r r 1 /2
[∑
k=1
( X ik − X́ k ) 2
∑ (X jk − X́ k)
k=1
2
]
Medidas de frecuencia:
NOMBRE FORMULA
2 2
√
r r
2
X =
[ X ik −E( X k )] [ X jk−E ( X k )]
ij ∑ E( X k )
+∑
E(X k )
k=1 k=1
Ji-Cuadrada
PÁGINA 2
r 2 r 2
√
[ X ik −E( X k ) ] [ X jk −E( X k )]
∑ E(X k )
+∑
E ( Xk )
2 k=1 k=1
Phi- Φ = ij
N
Cuadrado
Nombre Formula
Rusell y Rao a a
RR ij = =
p a+ ( b+c ) +d
Parejas Simples a+d a+ d
RSij = =
p a+ ( b +c ) +d
Jacard a
J ij =
a+ ( b+ c )
Czekanowski- Sorensen- 2a
Dij =
Dice 2 a+ ( b+c )
Sokal y Sneath 2(a+ d)
SS1 ij =
2 ( a+ d )+ ( b+c )
PÁGINA 3
Kulezynski a+ d
RT ij =
( a+d ) +2 ( b+ c )
Sokal y Snealth 2 a
SS2 ij =
a+2 ( b+c )
Kulezynski 1 a
K 1 ij =
b+c
Sokal y Snealth 3 a+b
SS3 ij =
b+c
Hamman a−( b+ c )+ d
H ij =
( a+d ) + ( b+ c )
Kulezynski 2 a a
+
a+ b a+ c
K 2 ij =
2
Sokal y Snealth 4 a a d d
+ + +
a+b a+c b+d c +d
SS4 ij =
4
max ( a , b ) +max ( c , d ) +max ( a , c ) +¿ max ( b , d )−max ( a+ c ,b+ d )−m
Dij =
D de Anderberg 2(a+ b+c +d )
Y de Yule ad−√ bc
Y ij = √
√ ad + √ bc
Q de Yule ad−bc
Y ij =
ad +bc
Ochiai a
Oij =
√(a+b)(a+c )
Sokal y Sneath (media 5) ad
SSSij =
√(a+ b)(a+c )(b+d )(c +d )
Coeficiente de correlación ab−cd
Φ ij=
Phi (a+b)( a+c)( b+d )(c +d)
Dispersión ad−bc
Dij =
(a+ b+c +d )2
Varianza disimilar V = b +c
ij
4 (a+b +c +d )
Distancia euclidiana binaria EB ij =√ b+c
Distancia euclidiana binaria EB 2ij =b+ c
al cuadrado
Diferencia de tamaño (b−c )2
T ij =
(a+b+ c+ d)2
PÁGINA 4
Diferencia de patrón bc
Pij = 2
(a+ b+c +d )
Diferencia no métrica b+c
LW ij =
binaria de Lance y Williams 2 a+b +c
Diferencia binaria de forma (a+ b+c +d )(b+ c)−(b−c)2
DBF ij =
(a+b+ c+ d)2
PÁGINA 5
Simple o distancias mínimas (single linkage).
Asume que al fusionarse 2 objetos se tomaran como caracteristica las que aquel elemento
que sea mas parecido a aquel con el que se compara, lo que es lo mismo cuya distancia
sea la minima o bien cuya similitud sea la maxima.
S[ ( U ,V ) ,W ] =Mín( SU ,W , SV ,W )
Método de Ward.
Busca a los dos grupos o conglomerados cuya union conllebe el menor incremento de la
varianza.
nJ nj 2
[ (∑ ) ]
K
SCE=∑ ∑ X − 1n
2
ij X ij
J=1 I =1 i=1
PÁGINA 6
2. Tener una matriz con informacion de distancia (disimilaridades) y similitud.
3. Posterior a la matriz de distancia o similitud se elije a la pareja de elementos mas
parecidos para formar un grupo, si se maneja distancia se escogera la menor, si son
similitudes selecciona la mayor.
4. Una vez agrupados los elementos se debe aplicar alguno de los criterios de
eslabonamiento anteriores, con el fin de evaluar el grupo respecto al resto.
5. Se repite 3 y 4 un total de “n-1” veces hasta fusionar todos los elementos en un solo
grupo.
Vinculacion o eslabonamiento
PÁGINA 7
Para conocer el tipo de individuos que se encuentran en cada grupo se debe obtener la
media de los datos originales de quienes lo conforman. Esto se hace por grupo, por
variable.
El procedimiento de agrupamiento es siempre el mismo; el próximo grupo a formar es el
mas parecio, por lo que siempre se escoge la menor distancia; lo unico que cambia es la
forma de eslabonar o vincular, es decir, la decision al determinar el grado de proximidad
entre un nuevo segmento y los elementos no agrupados con ese nuevo grupo.
¿Cuántos segmentos?
No existe una respuesta exacta de cuantos grupos se tienen pues algunos criterios son
complejos en sus calculos. La experiencia nos dira cuantos grupos conservar. Una de las
formas para ver cuantos grupos dejar es el dendograma.
Métodos para realizar sin paquete SPSS:
• Graficar distancia entre conlgomerados: una distancia muy alta entre
conglomerados indica que son 2 grupos muy heterogeneos entre si, por lo que no se
recomienda fusionarlos.
• Dejar mediante el incremento en el cambio porcentual de los coeficientes de
distancia; cuando el cambio porcentual es mas evidente o mayor, indica que ese numero
de grupos es optimo para trabajar
Se recomienda que no haya grupos con un numero pequeño de integrantes, pues
demasiados segmentos confunden la toma de decisiones.
Tomar en cuenta:
PÁGINA 8
La mayor distancia se presenta cuando se tienen 2 grupos y se recomiendan dos
conglomerados.
7. ETIQUETAR LOS CONLGOMERADOS:
Se usa el mismo procedimiento para eslabonamiento simple
∑ d i ,k
i,k
D [ ( U ,V ) ,W ] =
N (u , v ) N ( w )
1. AGRUPAR:
Para distancias se busca la menor.
2. ESLABONAR O VINCULAR
Se compara la persona x i con el nuevo grupo y se encuentra el promedio usando la
formula D [ ( U ,V ) ,W ]
Los valores que se encuentran se acomodan en la matriz reducida y los demás
números se toman de la matriz original.
Una vez que la matriz está completa se agrupa nuevamente
Para terminar el proceso de Eslabonamiento promedio entre grupos se haces los mismos
pasos que en el caso general.
Problema de similitud
1. CODIFICACION DE VARIABLES
Las variables son dicotómicas (con ausencia = 0 y presencia = 1)
2. NÚMERO DE SIMILITUDES A ENCONTRAR
Inicialmente se desea saber el numero de similitudes se calcularas:
n∗( n−1)
Número(S¿¿ ij)= ¿
2
3. CALCULO DE SIMILITUDES A ENCONTRAR
Puede usarse el de parejas simples o cualquier otro. El coeficiente es:
a+ d
PSij =
a+ ( b+ c )+ d
Haciendo la matriz de similitud, la diagonal está formada por números 1, pues al comparar
una familia consigo misma, la similitud es de 1, es decir, entre mas similitud exista entre
elementos, mas se acerca al 1.
PÁGINA 9
1. Agrupar: se tiene que buscar la proximidad mayor entre dos elementos ( max {S ij }¿ ¿
2. Eslabonar o vincular: Se inicia el eslabonamiento y como se escogio el criterio del
vecino mas cercano, al momento de eslabonar se escogerá la similitud más grande
S[ ( u ,v }) , w¿ ¿=min {S u ,w , S v ,w } es decir, se compara al nuevo grupo con el resto. los
valores faltantes de la matriz se llenan con los datos de la matriz original. Una vez
que la matriz esta completa, nuevamente se agrupa la próxima pareja a formar y se
escoge a la mas parecida.
3. Historial de eslabonamiento
Dendograma
Debe empezar con el valor máximo , que es el valord la diagonal de la matriz de similitud;
es necesario recordar el orden en que se agruparon los elementos y sus similaridades .
En el eje horizontal se colocan los elementos que se estan agrupando, de preferencia en el
orden en que se fueron uniendo. En el eje vertical se manejan las medidas de similaridad,
el punto inicial es el valor máximo, debido a que cada elemento es un grupo y la relación
de similitud es 1; las demas similaridades se ponen en orden (hacia arriba del eje) como se
unieron los diferentes segmentos. En el dendograma no deben cruzarce las lineas que
definen el número de segmentos.
PÁGINA 10
Eslabonamiento promedio entre grupos
El eslabonamiento se basará en el criterio de eslabonamiento promedio, para evaluar el
grado de similitud que tendrá el nuevo grupo con otros elementos no agrupados, el
promedio de las relaciones antes de agruparse se obtendrá con la formula siguente:
∑ S i ,k
i,k
S[(U ,V ), W ]=
N (U , V ) N (W )
Técnicas de k-promedios
Requiere que el investigador especifique el número de grupos que se desea tener como
solución final. La técnica agrupa los elementos, ya sea en forma aleatoria o bien de
acuerdo a criterios individuales. Posteriormente se obtiene el promedio para cada grupo de
cada una de las características usadas al segmentar para verificar si la asignación de los
elemntos en los conglomerados es la correcta.
PÁGINA 11
Encontrar las distancias
Se hace una tabla con los nuevos promedios de los grupos reasignados y con las nuevas
medidas se inicia el cálculo de las distancias de los elementos con su grupo y con el otro
paraa verificar que esten en el grupo correcto.
Analisis posteriores
Probar la seementación
Es necesario saber si con el número de segmentos encontrados, existe una verdadera
diferencia entre ellos; esto se puede hacer por medio del análisis discriminante.
PÁGINA 12