Está en la página 1de 27

Análisis Cluster

Félix Marza
Introducción
• El análisis Cluster es un método de segmentación e
identifica grupos homogéneos de objetos (o casos,
observaciones) denominados Clústeres.
• Los objetos de un determinado clúster deben ser lo
más similares posible entre sí, pero lo más distintos
posible de los objetos de otros clústeres.
• Base de agrupación: ¿Qué variables de agrupación
definirán los ejes?
• Procedimiento de agrupamiento: Dados los ejes
definidos, ¿cómo se deben agrupar los objetos?
• Objetivo general: maximizar la variación entre los
Cluster, minimizar la variación dentro de los Cluster.
Introducción. Ejemplo
Segmentar a los clientes de la A a la
G para una estrategia de precios.

Primero: decidir las características o


variables para segmentar.

Segundo el métodos de
segmentación
Etapas asociadas con el análisis cluster

Seleccionar las variables de agrupamiento

Seleccionar el procedimiento Cluster

Seleccionar una medida de similitud o disimilitud

Decidir el número de Clústeres

Validar e interpretar la solución Cluster


Tipos de variables de agrupación

Sociodemográfico Psicométrico Conductual

Elección de puntos de
Demográfico Estilo de vida
venta

Percepciones e Uso de productos y


Geográfico
intenciones servicios

Comportamiento de
Socioeconómico Personalidad
compra

Beneficios
Tipos de variables de agrupación

Ejemplos de variables de agrupamiento

General Específico

estado del usuario, frecuencia


Observable cultural, geográfico,
de uso, lealtad a la tienda
(medible directamente) demográfico, socioeconómico
y a la marca

No observable estilo de vida, personalidad, actitudes, intenciones,


(inferido) psicografía, valores percepciones, preferencias
Reglas de decisión para elegir variables de agrupación
Agrupación de variables
• Debe haber diferencias significativas entre la (s) variable (s) de interés (por ejemplo,
disposición a pagar) entre los grupos (validez de criterio)
• Considere la relación entre el tamaño de la muestra y el número de variables de
agrupación (m), así como las agrupaciones (k).
• Los Cluster tienen el mismo tamaño: nmin = 10 x m x k
• Recomendación general: nmin = 70 x m
• Evite el uso de variables altamente correlacionadas, ya que los aspectos específicos
cubiertos por tales variables estarían sobrerrepresentados en la solución de
agrupamiento.
• Segmentación de grupos de factores
• Utilizar medidas de distancia específicas (ej. distancia de Mahalanobis)
• Asegúrese de que los datos sean de alta calidad: una base teórica sólida, que no
estén contaminados por la fatiga del encuestado o los estilos de respuesta.
Comprensión de los procedimientos clúster

Preguntas básicas
• ¿Cómo calculamos la similitud entre dos observaciones?
• ¿Cómo los agrupamos?
Métodos de agrupación jerárquica
Los métodos de agrupamiento jerárquico se
caracterizan por la estructura en forma de árbol
establecida en el curso del análisis.

Step 5

Step 1
• Agrupación aglomerativa
• Los clústeres se forman consecutivamente a partir

Agglomerative clustering

Step 4

Step 2

Divisive clustering
de objetos.
• Al principio, cada objeto representa un grupo

Step 3

Step 3
individual
• Luego, los grupos se fusionan secuencialmente de

Step 2

Step 4
acuerdo con su similitud
• Agrupación divisiva:

Step 1

Step 5
• Al principio, todos los objetos se fusionan
inicialmente en un solo grupo
• Luego, este grupo se divide gradualmente
Métodosjerárquica
Métodos de agrupación de agrupación jerárquica

M. Distancia mínima M. Distancia máxima M. Distancia media


linkage

La distancia entre dos grupos La distancia entre dos grupos La distancia entre dos conglomerados
corresponde a la distancia se basa en la distancia más se define como la distancia media
más corta entre dos miembros larga entre dos miembros entre todos los pares de miembros de
cualesquiera en los dos grupos cualesquiera en los dos grupos los dos conglomerados.
(= vecino más cercano) (= vecino más lejano) El enlace promedio ponderado
realiza el mismo cálculo, pero
pondera las distancias según la
cantidad de objetos en el grupo.
Métodosjerárquica
Métodos de agrupación de agrupación jerárquica

M. Centroide M. de Ward
Tener en cuenta que
cada algoritmo tiene
propiedades diferentes
que lo hacen más o
menos adecuado para
datos específicas (por
ejemplo, presencia de
valores atípicos)

Primero se calcula el centro Los objetos cuya unión


geométrico (centroide) de aumenta la varianza general
cada grupo. La distancia entre dentro del clúster en el menor
los dos grupos es igual a la grado posible, son
distancia entre los dos combinadas
centroides
Método de la distancia mínima
Pasos de cálculo utilizando método de distancia mínima
Objects A B C D E F G
A 0
B 49.010 0
Matriz de distancia
C 36.249 21.260 0
inicial (distancias D 28.160 58.592 38.275 0
euclidianas) E 57.801 34.132 23.854 40.497 0
F 64.288 68.884 49.649 39.446 39.623 0
G 81.320 105.418 84.291 53.852 81.302 43.081 0

Objects A B, C D E F G
A 0
B, C 36.249 0
Paso 1 D 28.160 38.275 0
E 57.801 23.854 40.497 0
F 64.288 49.649 39.446 39.623 0
G 81.320 84.291 53.852 81.302 43.081 0

Objects A B, C, E D F G
A 0
Paso 2 B, C, E 36.249 0
D 28.160 38.275 0
F 64.288 39.623 39.446 0
G 81.320 81.302 53.852 43.081 0
Método de la distancia mínima
Pasos de cálculo utilizando método de distancia mínima

Objects A, D B, C, E F G
A, D 0

Paso 3 B, C, E 36.249 0
F 39.446 39.623 0
G 53.852 81.302 43.081 0

Objects A, B, C, D, E F G
A, B, C, D, E 0
Paso 4 F 39.446 0
G 53.852 43.081 0

Objects A, B, C, D, E, F G
Paso 5 A, B, C, D, E, F 0
G 43.081 0
Métodos de agrupación de particiones: k-medias

1. Elegir varios Cluster k

Inicializar centros de Cluster η1,… ηk


(es decir, las medias de las variables de conglomerado)
2.
• Elegir k objetos y establecer centros de clúster en estos objetos
• Asignar objetos aleatoriamente a grupos y calcular medias de grupos
Para cada objeto, calcular el centro del grupo al que está más cercano
3. (usando alguna medida de distancia) y asignar el objeto
a este grupo

4. Volver a calcular los centros de los Cluster

Aplicar algoritmo de intercambio:


• Verificar cada objeto, si moverlo a otro grupo aumentaría la bondad
5.
del ajuste
• Detenerse cuando no haya nuevas reasignaciones
Métodosde
Proceso de agrupación de agrupación
k-medias jerárquica

Paso 1 Paso 2
A B A B
CC1 CC1

C C

D E D E
Brand loyalty (y)

Brand loyalty (y)


CC2 CC2

F F

G G

Price consciousness (x) Price consciousness (x)

• Decidir el número de grupos (por • Las distancias euclidianas se calculan desde los
ejemplo, dos) centros hasta cada objeto.
• El algoritmo selecciona • A continuación, cada objeto se asigna al centro
aleatoriamente un centro para cada del grupo con la distancia más corta hasta él.
grupo (por ejemplo, CC1 y CC2)
Métodosde
Proceso de agrupación de agrupación
k-medias jerárquica

Step 3 Step 4
A B A B
CC1 CC1‘
CC1‘

C
C

D E D E
Brand loyalty (y)

Brand loyalty (y)


CC2
CC2‘
CC2‘
F F

G G

Price consciousness (x) Price consciousness (x)

• Se calcula el centro geométrico de • Se calculan las distancias desde cada objeto a los
cada grupo (= valores medios de los centros de los conglomerados recién ubicados.
objetos contenidos en el grupo con • Los objetos se asignan nuevamente a un
respecto a cada una de las variables determinado clúster.
de agrupamiento)
¿Métodos jerárquicos o k-medias?
Generalmente, k-medias es más flexible en comparación con los métodos jerárquicos.
k-medias o métodos jerárquicos?

• k-medias se ve menos afectado por los valores atípicos y la presencia de


+ variables de agrupación irrelevantes
• k-medias se puede aplicar a conjuntos de datos muy grandes

• k-medias solo debe usarse en datos a escala de intervalo o de razón


- • El investigador tiene que pre-especificar el número de clústeres a retener de
los datos (pero el número de clústeres se puede determinar ejecutando un
procedimiento jerárquico antes)
• La solución de agrupamiento final depende en gran medida de este paso
inicial ejecute el algoritmo varias veces para verificar si los resultados son
estables (no en SPSS)
Cluster en dos pasos

Sub-cluster Sub-cluster Sub-cluster Sub-cluster


1–8 57 – 64 449 – 456 505 – 512

Hoja 1 Hoja 8 Hoja 57 Hoja 64

Raiz 1 Raiz 8

Raiz
(Todos los objetos)
Medidas de similitud o disimilitud
Medidas de distancia:
C • Distancia Euclideana:
(B, C) = ( xB- xC) + ( y - y )
2 2
d Euclidian B C
Brand loyalty (y)

Euclidean distance City-block distance • Distancia City-block / métrica de Manhattan


d City  block
( B, C )  x B
 xC  y  y
B C

• Distancia Chebychev:
Chebychev distance d Chebychev
( B, C )  max( x B
 xC , y  y )
B C

Price consciousness (x)

 Las variables medidas en diferentes escalas o niveles afectan los resultados del análisis
 Siempre estandarizar los datos antes del análisis
* Distancia entre el cliente B y el cliente C
Medidas de similitud o disimilitud
Customer A B C D E F G
Datos brutos x 33 82 66 30 79 50 10
y 95 94 80 67 60 33 17

( ) (82 - 66) + (94 -80)


dEuclidean B,C =
2 2
= 452 » 21.260 • Tenga en
Objects A B C D E F G
cuenta que las
A 0 distancias
B
Matriz Distancia C
49.010
36.249
0
21.260 0
dependen de
Euclideana D 28.160 58.592 38.275 0 los niveles de
E 57.801 34.132 23.854 40.497 0 escala de las
F 64.288 68.884 49.649 39.446 39.623 0
G 81.320 105.418 84.291 53.852 81.302 43.081 0 variables.
( )
dCity-block B,C = xB - xC + yB - yC = 82 - 66 + 94 -80 = 30
• Estandarizar
Objects
A
A
0
B C D E F G los datos (en
B 50 0 un rango de 0
Matriz distancia C 48 30 0 a 1 o -1 a 1)
City-block D 31 79 49 0
E 81 37 33 56 0
F 79 93 63 54 56 0
G 101 149 119 70 112 56 0
Medidas de similitud o disimilitud
• Esquema de asignación de coeficientes de emparejamiento:
Segundo objeto
Presencia de una Ausencia de una
característica (1) característica (0)
Presencia de una
a b
Primer
objeto

característica (1)
Ausencia de una
característica (0) c d

• Coeficientes de emparejamiento:
ad Cuando tanto los valores
• Coeficiente de coincidencia simple (SM): sSM  positivos como los negativos
abcd
tienen el mismo grado de
a información.
• Coeficiente de Jaccard (JC): s JC 
abc
• Coeficiente de Russel y Rao (RR): sRR 
a
abcd
Medidas de similitud o disimilitud

Object Gender Customer Country of residence


Male Female Yes No GER UK USA

A 1 0 1 0 1 0 0

B 1 0 0 1 0 0 1

C 0 1 0 1 0 0 1

 Comparación de los objetos A y B:


• Una característica compartida (hombre): a = 1
• Dos características de ascenso desde ambos objetos desde Reino Unido): d = 2
• Dos características presentes en el primer objeto (cliente = sí y GER), pero no en el segundo objeto:
b=2
• Dos características presentes en el segundo objeto (cliente = no y EE. UU.), Pero no en el primer
objeto: c = 2
 Coeficientes de coincidencia resultantes:
1+ 2 1 1
SM (A, B) = = 0.571, JC(A,B) = = 0.2 RR(A, B) = = 0.143
1+ 2+ 2 + 2 1+ 2+ 2 1+ 2+ 2 + 2
Decidir el número de clústeres
Dendrograma

Larga distancia en la que no se produce ninguna unión (k = 4)


Decidir el número de clústeres
Gráfico (criterio de codo):

Codo?
Decidir el número de clústeres
Agrupación de variables
• Criterio de relación de varianza (VRC): Minimizar ωk = (VRCk + 1-VRCk) - (VRCk-VRCk-
1) con VRCk = (SSB / (k-1)) / SSW / (n-k))
• No definido para k = 1
• El número mínimo de conglomerados a seleccionar es k = 3
• Índice Duda-Hart: similar al VRC en que compara el SSW de una solución antes y
después de la fusión; elegir la solución que maximice el índice (no implementada en
SPSS)
• Pseudo T cuadrado: una variante del índice de Duda-Hart, que también tiene en
cuenta el tamaño de los grupos; elija la solución que minimice el pseudo T cuadrado
(no implementado en SPSS)
• Preocupaciones prácticas: por ejemplo, la interpretabilidad, los grupos deben ser
manejables y lo suficientemente grandes como para merecer atención.
Validar e interpretar la solución de clúster

Validación Interpretación
Estabilidad:  Examinar los centroides del clúster
• Usar diferentes procedimientos de (es decir, los valores promedio de las
agrupamiento en el mismo conjunto de variables de clúster de todos los
datos y probar si estos producen los objetos en un determinado clúster)
mismos resultados
• SPSS: dividir el conjunto de datos en  Comparar la diferencia en los grupos
dos mitades, analizar cada subconjunto con pruebas t de muestras
y comparar los resultados independientes o ANOVA
Validez:
• Evaluar la validez aparente y la validez  Encontrar un nombre significativo
experta para cada clúster
• (Algunos) criterios relevantes: accesible,
parsimonioso, familiar, relevante, ...
Gracias…!

También podría gustarte