Está en la página 1de 22

Análisis de Conglomerados

(Clúster)

Dr. Armando José Urdaneta Montiel


Análisis de Conglomerados

Es una técnica del grupo estructural, el cual tiene por objeto resumir
información sobre un conjunto de variables independientes, trabaja con
variables medidas en escala de intervalo, de razón y nominales convertidas a
dummy; para realizar este análisis las variables deberán ser todas en una
misma escala.
Área de Aplicación

Se puede utilizar en muchas


áreas, por ejemplo, en la
medicina se pueden agrupar
padecimientos o síntomas y
En economía se podría utilizar
encontrar un remedio para un
para agrupar países
grupo de pacientes. En
dependiendo de sus recursos
psicología el diagnóstico
económicos o naturales, etc.
correcto de enfermedades
como paranoia o
esquizofrenia. Esto es esencial
para definir la terapia aplicar.
Decisiones a tomar

Observar lo que rodea a los posibles Seleccionar las variables para


grupos. identificar los grupos.

Determinar la técnica para agrupar


Definir la medida de proximidad.
sujetos u objetos en conglomerados.
Definir la medida de proximidad
La proximidad expresa el grado de similitud o diferencia que existe entre parejas de individuos,
objetos o variables.

Para seleccionar la medida de proximidad se debe tomar en cuenta:

El tipo de dato con que se cuenta.

Posteriormente el tipo de proximidad que se desea manejar, es decir disimilaridad o


similaridad.

Por último escoger la medida que se desea utilizar.


Medidas de distancia, disimilaridad o desemejanza
Supóngase que se tiene el ingreso y la edad de 15 individuos y se desea evaluar su parecido.
Grupo A: Ingreso bajo y baja edad.
Grupo B: Ingreso medio y mucha edad
Grupo C: Ingreso alto y edad promedio
Se tendría que evaluar la distancia que existe entre cada
individuo de los tres grupos con el elemento aislado y así
escoger la distancia más pequeña.
Distancia Euclidiana
r
d ij  (X
k 1
ik  X jk ) 2
Medidas de disimilaridad métrica

Distancia Euclidiana d ij  (X


k 1
ik  X jk ) 2

r
Distancia Euclidiana d ij   ( X ik  X jk ) 2
al cuadrado k 1

r
Distancia Manhattan d ij   X ik  X jk
k 1

Distancia Manhattan : En esta métrica, la distancia entre dos puntos es la suma de las
diferencias absolutas entre sus coordenadas
Medidas de disimilaridad métrica

Distancia Chebyshev: También se denomina métrica máxima o métrica L∞. La distancia de Chebyshev
entre dos vectores es la mayor diferencia en cualquiera de las coordenadas del espacio.

Cij  Max X ik  X jk

Distancia del Coseno: La distancia del coseno no es propiamente una distancia sino una medida de
similaridad entre dos vectores en un espacio que tiene definido un producto interior. En el espacio
euclídeo este producto interior es el producto escalar. La similaridad coseno no debe ser considerada
como una métrica debido a que no cumple la desigualdad triangular.
r

X ik X jk
Cosij  k 1
1/ 2
 r r
2 
 ik  jk 
2
X X
 k 1 k 1 
Distancia de Correlación de Pearson

Es la correlación encontrada entre el objeto i y j.


Es decir cuando la correlación R=0 quiere decir que no hay relación o parecido entre los objetos,
cuando R<0 existe disimilaridad absoluta, si 0<R<0,5 bajo grado de relación o parecido, si
0,5≤R<0,70 moderado grado de relación o parecido, si 0,70≤R≤1 alto grado de relación o parecido.

(X ik  X k )( X jk  X k )
Distancia Correlación de Rij  k 1
1/ 2
Pearson  r 2
r

 ik   
2
( X X k ) ( X jk X k ) 
 k 1 k  1 
Métodos Jerárquicos: Procedimiento mediante el cual
pueden agruparse basándose en su semejanza.

Método Jerárquico Aglomerativo: Inicia suponiendo que


cada uno de los elementos que se pretende agrupar
constituye un grupo, es decir, se tienen tantos grupos
como objetos o personas agrupar. Basándose en lo
parecido que son los objetos se fusionan hasta unir
todos los elementos en un solo grupos.

Técnica Aglomerativa
Métodos Jerárquicos: Procedimiento mediante el cual
pueden agruparse basándose en su semejanza.

Método Jerárquico Divisional: Trabaja a la inversa,


supone que existe en un principio un solo grupo que
contiene a todos los objetos y basándose en las
diferencias los separa hasta terminar con tantos grupos
como objetos tenga.
Técnica Aglomerativa
• Criterios de eslabonamiento: • Promedio entre grupos
Consiste en volver a (between-groups linkage):
establecer el grado de Define la distancia entre 2
parecido de un grupo con el grupos como promedios de
resto de los elementos. las distancias entre todas las
Existen varias formas o combinaciones posibles por
criterios para volver a parejas, al combinar todos
establecer ese grado de los grupos, en los cuales un
parecido. miembro del par pertenece a
cada uno de los grupos
formados anteriormente.

d i ,k : Es la distancia entre el elemento i en el grupo (U,V)


d i ,k y el objeto K en el grupo (W)
D(U ,V ),W   i ,k N (U ,V ) : Es el número de elementos en el segmento (U,V)
N (U ,V ) NW
N (W ) : Es el número de elementos en el segmento (W)
Promedios intragrupos (withing-group linkage):
Combinan los grupos de manera que la media de las distancias entre todos los
casos en el grupo resultante sea lo mas pequeña posible.

Simple o distancias mínimas (single linkage):


Conocido como vecino próximo o mas cercanos asume que al fusionarse 2 objetos
se tomaran como características las de aquel elemento que sea más parecido
aquel con que se compara, o lo que es lo mismo cuya distancia sea la mínima.

Completo o distancias máximas (complete linkage):


Conocido como el vecino más lejano, supone que cuando dos elementos se unen ,
el grado de parecido de ese grupo a un tercer elemento estará dado por las
características de aquel elemento que tenga más diferencias con el elementos con
elemento con el cual se le compara.
Método de Ward:

También llamado método de la varianza mínima, busca a los dos grupos o conglomerados cuya
unión conlleve el menor incremento de la varianza. Esto significa que en cada paso se debe
probar con todas las combinaciones posibles de dos grupos, calcular el valor del índice de la
suma de cuadrados y seleccionar aquel con menor valor. La desventaja es que tiende a formar
grupos compactos y del mismo tamaño, utiliza mas información sobre el contenido de los grupos
que otros métodos, pero es el que ha demostrado mayor eficacia en estudios de simulación.

k nj 1 nj
 
2

SCE    X ij    X ij 
2
 nj  i 1  

j 1 i 1

Método del centroide (centroid Método de la mediana (median
method) method)

• El método del centroide (centroid method) • La distancia entre dos grupos es la existente
es un criterio que considera que, al unirse entre las medianas de las características de
dos elementos y formar un grupo, las los individuos que componen los grupos, de
características que prevalecerán con este modo dos grupos que se combinan se
respecto a un tercer elemento estarán dadas ponderan de forma equivalente al método
por el promedio de las que originalmente centroide, pero independientemente del
poseían, lo cual se representa de la siguiente número de individuos que haya en cada
manera grupo. Con lo anterior, la desventaja que se
presenta en el método del centroide es que
al fusionar dos grupos de diferentes tamaño,
el centroide del nuevo grupo queda más
cerca del grupo de mayor tamaño y más
lejos de aquel de menor dimensión en
proporción a sus diferencias de tamaño
Análisis de Conglomerado con SPSS
Análisis de Conglomerado con SPSS
Modelo Jerárquico Aglomerativo
Análisis de Conglomerado con SPSS
Modelo Jerárquico Aglomerativo

Variables a Conglomerar

Variable para
identificar los grupos

También podría gustarte