Está en la página 1de 13

Análisis de conglomerados

ANALISIS MULTIVARIADO

José María Cárdenas Ramírez.


Erika Daniela González Peñaloza.
Juan Guillermo González Ruíz.
Karen Nájera López.
María Guadalupe Salinas Castro.

| Universidad Autónoma del Estado de México |

| Sábado 9 de mayo de 2020 |


También conocido como análisis de agrupamiento, análisis de segmentación de datos o
cluster analysis. El análisis de conglomerados y el análisis discriminante agrupan
individuos u objetos, pero la diferencia es que el segundo se conoce a priori el grupo de
pertenencia y en el análisis de conglomerados se forman dichos grupos.
Objeto.
Resumir información y asume que las variables son independientes, trabaja con variables o
todas en escala de intervalo y de razón o todas dummy (se registra la presencia y la
ausencia de lo que se desea evaluar).
Propósito.
Se aplica para la segmentación de mercados. El propósito es la información de grupos de
objetos o personas similares, para formar grupos que al comparar los elementos sean lo
más parecido como sea posible, y lo más heterogéneos al compararse un grupo con otro.
Decisiones por tomar y pasos a seguir.

1 Observar lo que rodea a los posibles grupos.


Antes de iniciar el análisis se debe observar si los objetos o las personas que se agruparan
lo pueden hacer de forma natural, de otra forma, agruparlos.

2 Seleccionar las variables para identificar a los grupos.


La selección de variables es importante para lograr un correcto análisis. Los datos pueden
medirse en:

 Dicotómicas de tipo dummy.


 De frecuencia.
 Escala métrica (de intervalo, de razón).

3 Definir la medida de proximidad.


Expresa el grado de similitud o diferencia que existe entre parejas de individuos, objetos y
variables. Las proximidades pueden ser por:

 Disimilaridad o desemejanza: cuando se interpretan en términos de lo diferente.


 Similaridad o semejanza: cuando se expresan por lo parecido.
Para seleccionar la medida de proximidad se debe considerar:

 El tipo de dato.
 El tipo de proximidad que se desea manejar (disimilaridad o similaridad).
 Medida que se desea utilizar.
Si se agrupa por medio de frecuencias, se encontrarán disimilaridades por Ji-Cuadrada o
Phi-Cuadrado. Si la información es métrica para encontrar proximidad similar el coeficiente
de Pearson o medida de cosenos seria lo adecuado.

4 Medidas de distancia, disimilaridad o desemejanza.


Cuando las variables son métricas, se utilizan medidas de distancia o disimilaridad para
evaluar lo parecido que son las personas u objetos y si deben ser agrupados.

NOMBRE FORMULA

PÁGINA 1
r 1 /2

Distancia Euclidiana
d ij = [∑
k=1
( X ik − X jk ) 2
]
r
Distancia Eucidiana al 2
Cuadrado d ij =∑ ( X ik −X jk )2
k=1

Distancia de Chebychev C ij= Máx| X ik −X jk|


1 /2
d ij =[ ( X i− X j )T ∑ ❑−1 ( X i−X j) ]
Distancia de Mahalanobis
Cuando se compara con el centroide:
(solo matricialmente)
1/ 2
d ij =[ ( X i− X k )T ∑ ❑−1 ( X i −X k ) ]

r
Distancia de Manhattan o
city block métrica d ij = ∑ | X ik −X jk|
k=1

r 1/ λ

Distancia Minkowski
métrica
d ij = [∑|
k=1
X ik −X jk|
k
] ; λ ≥1

1 /τ
Distancia en un poder r

métrico absoluto d ij = [∑ |k=1


X ik −X jk|
ρ
]
Medidas de similaridad métrica:

NOMBRE FORMULA
r

∑ X ik X jk
Coseno cos = k=1
ij 1/ 2
r r

[∑ k=1
X ik 2
∑ X jk
k=1
2
]
r

∑ ( X ik − X́ k )( X jk − X́ k )
Correlación de Rij = k =1
Pearson r r 1 /2

[∑
k=1
( X ik − X́ k ) 2
∑ (X jk − X́ k)
k=1
2
]
Medidas de frecuencia:

NOMBRE FORMULA
2 2


r r
2
X =
[ X ik −E( X k )] [ X jk−E ( X k )]
ij ∑ E( X k )
+∑
E(X k )
k=1 k=1
Ji-Cuadrada

PÁGINA 2
r 2 r 2


[ X ik −E( X k ) ] [ X jk −E( X k )]
∑ E(X k )
+∑
E ( Xk )
2 k=1 k=1
Phi- Φ = ij
N
Cuadrado

5 Medidas de similitud, similaridad o semejanza.


Se utiliza cuando se manejan variables binarias:

 1, se usa para marcar la presencia del atributo a medir.


 0, se utiliza para medir la ausencia del atributo
Se utiliza una tabla para obtener los coeficientes de similitud:

Respuesta de Objeto i Total


los objetos
1 0
Objeto j 1 a b a+b
0 c d c+d
Total a+ b+d p=a+b+c+
c d
a: características presentes al comparar el objeto i con el objeto j, comúnmente “la
presencia”.
b: características ausentes en el objeto i y presentes en el objeto j (las diferencias).
c: características ausentes en el objeto j y presentes en el objeto j (diferencias).
d: características ausentes en ambos objetos, denominadas “ausencias”. Forma parte de
las semejanzas ya que en ambos objetos se encuentran ausentes atributos.
p: total de las características que serán evaluadas.
a+d: presentan lo parecido: en ambos están las características presentes como ausentes.
b+c: denomina lo diferente entre un objeto y otro.
Posteriormente se utilizan para obtener medida de similitud binaria:

Nombre Formula
Rusell y Rao a a
RR ij = =
p a+ ( b+c ) +d
Parejas Simples a+d a+ d
RSij = =
p a+ ( b +c ) +d
Jacard a
J ij =
a+ ( b+ c )
Czekanowski- Sorensen- 2a
Dij =
Dice 2 a+ ( b+c )
Sokal y Sneath 2(a+ d)
SS1 ij =
2 ( a+ d )+ ( b+c )

PÁGINA 3
Kulezynski a+ d
RT ij =
( a+d ) +2 ( b+ c )
Sokal y Snealth 2 a
SS2 ij =
a+2 ( b+c )
Kulezynski 1 a
K 1 ij =
b+c
Sokal y Snealth 3 a+b
SS3 ij =
b+c
Hamman a−( b+ c )+ d
H ij =
( a+d ) + ( b+ c )
Kulezynski 2 a a
+
a+ b a+ c
K 2 ij =
2
Sokal y Snealth 4 a a d d
+ + +
a+b a+c b+d c +d
SS4 ij =
4
max ( a , b ) +max ( c , d ) +max ( a , c ) +¿ max ( b , d )−max ( a+ c ,b+ d )−m
Dij =
D de Anderberg 2(a+ b+c +d )
Y de Yule ad−√ bc
Y ij = √
√ ad + √ bc
Q de Yule ad−bc
Y ij =
ad +bc
Ochiai a
Oij =
√(a+b)(a+c )
Sokal y Sneath (media 5) ad
SSSij =
√(a+ b)(a+c )(b+d )(c +d )
Coeficiente de correlación ab−cd
Φ ij=
Phi (a+b)( a+c)( b+d )(c +d)
Dispersión ad−bc
Dij =
(a+ b+c +d )2
Varianza disimilar V = b +c
ij
4 (a+b +c +d )
Distancia euclidiana binaria EB ij =√ b+c
Distancia euclidiana binaria EB 2ij =b+ c
al cuadrado
Diferencia de tamaño (b−c )2
T ij =
(a+b+ c+ d)2

PÁGINA 4
Diferencia de patrón bc
Pij = 2
(a+ b+c +d )
Diferencia no métrica b+c
LW ij =
binaria de Lance y Williams 2 a+b +c
Diferencia binaria de forma (a+ b+c +d )(b+ c)−(b−c)2
DBF ij =
(a+b+ c+ d)2

6 selecciones del criterio para reunir a individuos en grupos.


Se puede realizar el análisis de conglomerados a través del método jerárquico métodos no
jerárquicos.
Métodos jerárquicos.

Método jerárquico aglomerativo (ascendente).


Supone que cada uno de los elementos que se pretende agrupar constituyen un grupo,
basándose en lo parecido que tienen los objetos se fusionan hasta unir todos los
elementos en un solo grupo.

Método jerárquico divisional.


Supone que existe un grupo en un prinicipio que contiene todos los objetos y basandose
en las diferencias los separa hasta terminar con tantos grupos como sea posible.
Criterios de eslabonamiento.

Promedio entre grupos (between groups linkage).


Define la distancia entre 2 grupos como el promedio de las distancias entre todas las
combinaciones posibles por parejas, al combinar todos los grupos, en los cuales un
miembro del par pertenece a cada uno de los grupos formados anteriormente. Se usa el
mismo criterio para disimilaridad como similaridad, con la siguiente ecuación:
∑ di , k ∑ S i ,k
D[(U , V ), W ]= i ,k yS = i,k .
[( U ,V ) , W ]
N (U , V ) N W N (U , V ) N W
d i , k : Distancia entre el elementoi en cl grupo ( U , V ) y elobjeto k en el grupo W .
N (U , V ) :numero de elementos en el segmento (U ,V )
N (W ) : numero de objetos en el segmento ( W ) .

Promedios intragrupos (withing groups linkage).


Combinan los grupos de manera que la media de las distancias entre todos los casos en el
grupo resultante sea lo mas pequeña posible.

PÁGINA 5
Simple o distancias mínimas (single linkage).
Asume que al fusionarse 2 objetos se tomaran como caracteristica las que aquel elemento
que sea mas parecido a aquel con el que se compara, lo que es lo mismo cuya distancia
sea la minima o bien cuya similitud sea la maxima.

Distancia : D [( U ,V ) ,W ] =Mín ( dU , W , d V ,W ) Similitud :S [ (U , V ), W ] =Máx (S U ,W , S V , W )

Complemento o distancias máximas (complete linkage).


Supone que cuando dos elementos se unen, el parecido de ese grupo a un tercer elemento
estara dado por las caracteristicas del elemento con el cual tenga mas diferencias, es
decir, se eslabona con la maxima de las distancias o la minima de las similitudes.
D[ ( U ,V ) ,W ] =Máx ( d U ,W , d V , W )

S[ ( U ,V ) ,W ] =Mín( SU ,W , SV ,W )

Método de Ward.
Busca a los dos grupos o conglomerados cuya union conllebe el menor incremento de la
varianza.
nJ nj 2

[ (∑ ) ]
K
SCE=∑ ∑ X − 1n
2
ij X ij
J=1 I =1 i=1

Método del centroide (centroid method).


Considera que cuando dos elementos se unen y forman un grupo, las caracteristicas que
prevalecen respecto a un tercer elemento estan dadas por el promedio de las
caracteristicas originales.
nU nV nU n V
d (U , V ), W =d UW + dVW −d UV 2
nU +nV nU +nV ( n U + nV )
nU nV nU n V
S(U , V ), W =S UW + SVW −S UV 2
nU +nV nU +nV ( n U + nV )
Método de la mediana (median method).
Distancia que existe entre las medianas de las caracteristicas de los individuos que
componen los grupos.
d UW +d VW d UV
d (U , V ) , W = −
2 4
SUW + SVW SUV
S( U , V ) , W = −
2 4
Pasos del agrupamiento jerárquico aglomerativo.
1. Detectar el tipo de variables, si son metricas (deben estandarizarse) o no
(dicotomicas o dummy).

PÁGINA 6
2. Tener una matriz con informacion de distancia (disimilaridades) y similitud.
3. Posterior a la matriz de distancia o similitud se elije a la pareja de elementos mas
parecidos para formar un grupo, si se maneja distancia se escogera la menor, si son
similitudes selecciona la mayor.
4. Una vez agrupados los elementos se debe aplicar alguno de los criterios de
eslabonamiento anteriores, con el fin de evaluar el grupo respecto al resto.
5. Se repite 3 y 4 un total de “n-1” veces hasta fusionar todos los elementos en un solo
grupo.

Problemas de distancia (pasos):


1. Estandarización de variables
n∗( n−1 )
2. Numero de distancias a encontrar numero ( d ij )
2
3. Calculo de distancias a encontrar

Vinculacion o eslabonamiento

Vinculacion o eslabonamiento simple:


 Agrupar
consiste en escoger los elementos mas parecidos para formar un semento o grupo, el cual
seria la próxima pareja a formar.
 Eslabonar
se refiere a confrontar las distancias o similitudes de los elementos agrupados con el resto
de los elementos.
 Historial de eslabonamiento
 Diagrama de témpanos o de carámbanos:
simplifica los elementos que se agruparon paso a paso
 Dendograma
Es un diagrama cuyo eje horizontal aparecen los elementos agrupados, de preferencia en
el orden en que se unieron. En el eje vertica se manejan las mediad de distancia (o
similitud) donde las distancias consigo mismas son ceroy las demas se ordenan según se
unieron. Si son medidas de similitud inicia en 1 o infinito (dependiendo la utilizada) y hacia
arriba iran disminuyendo dependiendo a la similitud y se grafica en forma de histograma.

 Numero de conglomerados a dejar como solución.


A partir del dendograma se puede determinar tentativamente cuantos grupos se podrian
tener ocmo solucion. Si todos los elementos estan en un solo grupo es porque la solucion
es homogenea. Si hay tantos grupos como elementos, no conviene hacer analisis de
conglomerados.

 Etiquetado de los conglomerados

PÁGINA 7
Para conocer el tipo de individuos que se encuentran en cada grupo se debe obtener la
media de los datos originales de quienes lo conforman. Esto se hace por grupo, por
variable.
El procedimiento de agrupamiento es siempre el mismo; el próximo grupo a formar es el
mas parecio, por lo que siempre se escoge la menor distancia; lo unico que cambia es la
forma de eslabonar o vincular, es decir, la decision al determinar el grado de proximidad
entre un nuevo segmento y los elementos no agrupados con ese nuevo grupo.
¿Cuántos segmentos?
No existe una respuesta exacta de cuantos grupos se tienen pues algunos criterios son
complejos en sus calculos. La experiencia nos dira cuantos grupos conservar. Una de las
formas para ver cuantos grupos dejar es el dendograma.
Métodos para realizar sin paquete SPSS:
• Graficar distancia entre conlgomerados: una distancia muy alta entre
conglomerados indica que son 2 grupos muy heterogeneos entre si, por lo que no se
recomienda fusionarlos.
• Dejar mediante el incremento en el cambio porcentual de los coeficientes de
distancia; cuando el cambio porcentual es mas evidente o mayor, indica que ese numero
de grupos es optimo para trabajar
Se recomienda que no haya grupos con un numero pequeño de integrantes, pues
demasiados segmentos confunden la toma de decisiones.
Tomar en cuenta:

 Usar varibales que sean fáciles de medir y con trascendencia al estudio.


 Segmentos grandes para que sea redituable la inversión.
 La estrategia elegida sea aplicable y alcanzable en los segmentos con los que se
trabajara.
 Saber po que y en que son claramente diferenciables los segmentos.

Vinculacion y eslabonamiento completo.


1. AGRUPAR:
Se seleccionan los elementos mas parecidos de la matriz inicial (menor distancia)
2. ESLABONAR:
Se elige la distancia mas grande de persona x i con el nuevo grupo, se acomoda en
la nueva matriz y los demás números se toman de la matriz original.
3. HISTORIAL DEL ESLABONAMIENTO:
Se realiza con el paquete SPSS
4. DIAGRAMA DE TEMPANOS O DE CARAMBANOS:
Este puede ser vertical u horizontal.
5. DENDOGRAMA
6. NUMERO DE CONGLOMERADOS A DEJAR COMO SOLUCION:
Para dar solución lo único que resta es analizar la cantidad de grupos que hay a
cierta distancia.

PÁGINA 8
La mayor distancia se presenta cuando se tienen 2 grupos y se recomiendan dos
conglomerados.
7. ETIQUETAR LOS CONLGOMERADOS:
Se usa el mismo procedimiento para eslabonamiento simple

Eslabonamiento promedio entre grupos


El grado de lo parecido que llegaría a ser un nuevo grupo con respecto a otros elementos
no agrupados.
Promedio de las relaciones antes de agruparse al utilizar la fórmula:

∑ d i ,k
i,k
D [ ( U ,V ) ,W ] =
N (u , v ) N ( w )

1. AGRUPAR:
Para distancias se busca la menor.
2. ESLABONAR O VINCULAR
Se compara la persona x i con el nuevo grupo y se encuentra el promedio usando la
formula D [ ( U ,V ) ,W ]
Los valores que se encuentran se acomodan en la matriz reducida y los demás
números se toman de la matriz original.
Una vez que la matriz está completa se agrupa nuevamente
Para terminar el proceso de Eslabonamiento promedio entre grupos se haces los mismos
pasos que en el caso general.

Problema de similitud
1. CODIFICACION DE VARIABLES
Las variables son dicotómicas (con ausencia = 0 y presencia = 1)
2. NÚMERO DE SIMILITUDES A ENCONTRAR
Inicialmente se desea saber el numero de similitudes se calcularas:
n∗( n−1)
Número(S¿¿ ij)= ¿
2
3. CALCULO DE SIMILITUDES A ENCONTRAR
Puede usarse el de parejas simples o cualquier otro. El coeficiente es:
a+ d
PSij =
a+ ( b+ c )+ d

Haciendo la matriz de similitud, la diagonal está formada por números 1, pues al comparar
una familia consigo misma, la similitud es de 1, es decir, entre mas similitud exista entre
elementos, mas se acerca al 1.

Vinculacion o eslabonamiento simple


También denominada criterio simple o del vecino mas cercano.

PÁGINA 9
1. Agrupar: se tiene que buscar la proximidad mayor entre dos elementos ( max {S ij }¿ ¿
2. Eslabonar o vincular: Se inicia el eslabonamiento y como se escogio el criterio del
vecino mas cercano, al momento de eslabonar se escogerá la similitud más grande
S[ ( u ,v }) , w¿ ¿=min ⁡{S u ,w , S v ,w } es decir, se compara al nuevo grupo con el resto. los
valores faltantes de la matriz se llenan con los datos de la matriz original. Una vez
que la matriz esta completa, nuevamente se agrupa la próxima pareja a formar y se
escoge a la mas parecida.
3. Historial de eslabonamiento

Diagrama de témpanos o de carámbanos


El diagrama de témpanos simplifica y muestra quienes se fueron agrupando paso a pasoy
asi obtener un diagrama de carámbanos. El número de pasos es:
¿ de pasos=n−1
n=numero de elementos con que se inicia el problema

Dendograma
Debe empezar con el valor máximo , que es el valord la diagonal de la matriz de similitud;
es necesario recordar el orden en que se agruparon los elementos y sus similaridades .
En el eje horizontal se colocan los elementos que se estan agrupando, de preferencia en el
orden en que se fueron uniendo. En el eje vertical se manejan las medidas de similaridad,
el punto inicial es el valor máximo, debido a que cada elemento es un grupo y la relación
de similitud es 1; las demas similaridades se ponen en orden (hacia arriba del eje) como se
unieron los diferentes segmentos. En el dendograma no deben cruzarce las lineas que
definen el número de segmentos.

Número de conglomerados a dejar como solución


Se verá cuántos grupos se deben poner, según la similaridad a la que se unieron los
diferentes segmentos; con la posibilidad de trazarlos en el dendograma. El análisis
discriminante verificará si el numero de comglomerados elegido es el opción correcta.

Etiquetado de los conglomerados


Después de definir el número de conglomerados , sigue etiquetarlos; si las variables son
no métricas se realiza a través de una moda y si son métricas con la media.
El proceso de agrupamiento es siempre el mismo, , por lo que siempre se escoge la menor
distancia o mayor similitus; lo único que cambia es la forma de eslabonar o vincular, es
decir, la decisión al determinar el grado de proximidad entre un nuevo segmento y los
elementos no agrupados en él.

Vinculación o eslabonamiento completo


También se le conoce como el vecino más lejano. Se inicia con la pareja con mayor
similitud; después se aplica el criterio de vinculación, que es:
S[ ( U ,V ) ,W ] =Mín { S u ,w , S v ,w }

PÁGINA 10
Eslabonamiento promedio entre grupos
El eslabonamiento se basará en el criterio de eslabonamiento promedio, para evaluar el
grado de similitud que tendrá el nuevo grupo con otros elementos no agrupados, el
promedio de las relaciones antes de agruparse se obtendrá con la formula siguente:

∑ S i ,k
i,k
S[(U ,V ), W ]=
N (U , V ) N (W )

Métodos de agrupamiento no jerárquico


L a mayoria de las técicas de los métodos no jerárquicos no requieren tener como
información una matriz de distancia o similitud, además no es necesario seguir un orden en
la formación de los conglomerados, como en los métodos jerárquicos. Se utilizan cuando
en la investigación se tiene un gran número de variables o elementos.

Método de reasignación o basados en el centroide


Permite que un individui asignado a un grupo en un determinado paso sea reasignado a
otro conglomerado en un paso posterior, ya que en el grupo en el que originalmente estaba
no era el adecuado; al reasigarse se optimiza el criterio de selección.
El proceso finaliza cuando todos los elementos quedan asignados a un grupoy no existe
una mejor forma de acomodarlos.

Método de búsqueda de la densidad


Un método de busqueda es la aproximación probabilistica, la cual se basa en que cada
objeto posee una distribución probabilística, la cual le da la probabilidad particular de
pertenecer a cada uno de los segmentos; cada objeto es asignado a un grupo basándose
en el valor más alto fr la probabilidad de pertenencia.

Método de reducción de dimensiones


Consiste en buscar dimensiones latentes en un conjunto de individuos según sus
características y con base en ellas determina un calificativo que describa al conglomerado;
el algoritmo de este método es el análisis de factores tipo Q.

Técnicas de k-promedios
Requiere que el investigador especifique el número de grupos que se desea tener como
solución final. La técnica agrupa los elementos, ya sea en forma aleatoria o bien de
acuerdo a criterios individuales. Posteriormente se obtiene el promedio para cada grupo de
cada una de las características usadas al segmentar para verificar si la asignación de los
elemntos en los conglomerados es la correcta.

Promedios de los grupos


Como segundo paso se escoge una semilla, el investigador deberá decidir de primera
instancia con cuántos grupos iniciar, es decir, la base del número de grupos (k) que se
desea tener como solución.

PÁGINA 11
Encontrar las distancias
Se hace una tabla con los nuevos promedios de los grupos reasignados y con las nuevas
medidas se inicia el cálculo de las distancias de los elementos con su grupo y con el otro
paraa verificar que esten en el grupo correcto.

Buscar el perfil de los conglomerados


Con los datos se puede definir cada segmento de mercado e inclusoponerle un nombre a
cada grupo, es decir, encontrar, analizar y concluir sobre los perfiles de cada uno, y eso se
logra con los promediosde cada grupo, la información disponible don las medias de las
variables originales.

Número de conglomerados a dejar como solución


Para el análisis cluster no jerárquico se traza un gráfico que compare el número de grupos
con la relación entre la varianza total de éstos y la varianza entre los conglomerados. El
punto gráfico donde sepresente un cambio marcado indicará el número apropiado de
grupos.

Analisis posteriores
Probar la seementación
Es necesario saber si con el número de segmentos encontrados, existe una verdadera
diferencia entre ellos; esto se puede hacer por medio del análisis discriminante.

Conocer los perfiles


Por medio del detector automatico de iteración,se puede tener un perfil más exacto de
cada uno de los segmentos formados con respecto a las variables sociodemográficas y
otras más como hábitos, atributos únicos dentro o fuera de cada segmento, etc.

PÁGINA 12

También podría gustarte