Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Félix Marza
Introducción
• El análisis Cluster es un método de segmentación e
identifica grupos homogéneos de objetos (o casos,
observaciones) denominados Clústeres.
• Los objetos de un determinado clúster deben ser lo
más similares posible entre sí, pero lo más distintos
posible de los objetos de otros clústeres.
• Base de agrupación: ¿Qué variables de agrupación
definirán los ejes?
• Procedimiento de agrupamiento: Dados los ejes
definidos, ¿cómo se deben agrupar los objetos?
• Objetivo general: maximizar la variación entre los
Cluster, minimizar la variación dentro de los Cluster.
Introducción. Ejemplo
Segmentar a los clientes de la A a la
G para una estrategia de precios.
Segundo el métodos de
segmentación
Etapas asociadas con el análisis cluster
Elección de puntos de
Demográfico Estilo de vida
venta
Comportamiento de
Socioeconómico Personalidad
compra
Beneficios
Tipos de variables de agrupación
General Específico
Preguntas básicas
• ¿Cómo calculamos la similitud entre dos observaciones?
• ¿Cómo los agrupamos?
Métodos de agrupación jerárquica
Los métodos de agrupamiento jerárquico se
caracterizan por la estructura en forma de árbol
establecida en el curso del análisis.
Step 5
Step 1
• Agrupación aglomerativa
• Los clústeres se forman consecutivamente a partir
Agglomerative clustering
Step 4
Step 2
Divisive clustering
de objetos.
• Al principio, cada objeto representa un grupo
Step 3
Step 3
individual
• Luego, los grupos se fusionan secuencialmente de
Step 2
Step 4
acuerdo con su similitud
• Agrupación divisiva:
Step 1
Step 5
• Al principio, todos los objetos se fusionan
inicialmente en un solo grupo
• Luego, este grupo se divide gradualmente
Métodosjerárquica
Métodos de agrupación de agrupación jerárquica
La distancia entre dos grupos La distancia entre dos grupos La distancia entre dos conglomerados
corresponde a la distancia se basa en la distancia más se define como la distancia media
más corta entre dos miembros larga entre dos miembros entre todos los pares de miembros de
cualesquiera en los dos grupos cualesquiera en los dos grupos los dos conglomerados.
(= vecino más cercano) (= vecino más lejano) El enlace promedio ponderado
realiza el mismo cálculo, pero
pondera las distancias según la
cantidad de objetos en el grupo.
Métodosjerárquica
Métodos de agrupación de agrupación jerárquica
M. Centroide M. de Ward
Tener en cuenta que
cada algoritmo tiene
propiedades diferentes
que lo hacen más o
menos adecuado para
datos específicas (por
ejemplo, presencia de
valores atípicos)
Objects A B, C D E F G
A 0
B, C 36.249 0
Paso 1 D 28.160 38.275 0
E 57.801 23.854 40.497 0
F 64.288 49.649 39.446 39.623 0
G 81.320 84.291 53.852 81.302 43.081 0
Objects A B, C, E D F G
A 0
Paso 2 B, C, E 36.249 0
D 28.160 38.275 0
F 64.288 39.623 39.446 0
G 81.320 81.302 53.852 43.081 0
Método de la distancia mínima
Pasos de cálculo utilizando método de distancia mínima
Objects A, D B, C, E F G
A, D 0
Paso 3 B, C, E 36.249 0
F 39.446 39.623 0
G 53.852 81.302 43.081 0
Objects A, B, C, D, E F G
A, B, C, D, E 0
Paso 4 F 39.446 0
G 53.852 43.081 0
Objects A, B, C, D, E, F G
Paso 5 A, B, C, D, E, F 0
G 43.081 0
Métodos de agrupación de particiones: k-medias
Paso 1 Paso 2
A B A B
CC1 CC1
C C
D E D E
Brand loyalty (y)
F F
G G
• Decidir el número de grupos (por • Las distancias euclidianas se calculan desde los
ejemplo, dos) centros hasta cada objeto.
• El algoritmo selecciona • A continuación, cada objeto se asigna al centro
aleatoriamente un centro para cada del grupo con la distancia más corta hasta él.
grupo (por ejemplo, CC1 y CC2)
Métodosde
Proceso de agrupación de agrupación
k-medias jerárquica
Step 3 Step 4
A B A B
CC1 CC1‘
CC1‘
C
C
D E D E
Brand loyalty (y)
G G
• Se calcula el centro geométrico de • Se calculan las distancias desde cada objeto a los
cada grupo (= valores medios de los centros de los conglomerados recién ubicados.
objetos contenidos en el grupo con • Los objetos se asignan nuevamente a un
respecto a cada una de las variables determinado clúster.
de agrupamiento)
¿Métodos jerárquicos o k-medias?
Generalmente, k-medias es más flexible en comparación con los métodos jerárquicos.
k-medias o métodos jerárquicos?
Raiz 1 Raiz 8
Raiz
(Todos los objetos)
Medidas de similitud o disimilitud
Medidas de distancia:
C • Distancia Euclideana:
(B, C) = ( xB- xC) + ( y - y )
2 2
d Euclidian B C
Brand loyalty (y)
• Distancia Chebychev:
Chebychev distance d Chebychev
( B, C ) max( x B
xC , y y )
B C
Las variables medidas en diferentes escalas o niveles afectan los resultados del análisis
Siempre estandarizar los datos antes del análisis
* Distancia entre el cliente B y el cliente C
Medidas de similitud o disimilitud
Customer A B C D E F G
Datos brutos x 33 82 66 30 79 50 10
y 95 94 80 67 60 33 17
característica (1)
Ausencia de una
característica (0) c d
• Coeficientes de emparejamiento:
ad Cuando tanto los valores
• Coeficiente de coincidencia simple (SM): sSM positivos como los negativos
abcd
tienen el mismo grado de
a información.
• Coeficiente de Jaccard (JC): s JC
abc
• Coeficiente de Russel y Rao (RR): sRR
a
abcd
Medidas de similitud o disimilitud
A 1 0 1 0 1 0 0
B 1 0 0 1 0 0 1
C 0 1 0 1 0 0 1
Codo?
Decidir el número de clústeres
Agrupación de variables
• Criterio de relación de varianza (VRC): Minimizar ωk = (VRCk + 1-VRCk) - (VRCk-VRCk-
1) con VRCk = (SSB / (k-1)) / SSW / (n-k))
• No definido para k = 1
• El número mínimo de conglomerados a seleccionar es k = 3
• Índice Duda-Hart: similar al VRC en que compara el SSW de una solución antes y
después de la fusión; elegir la solución que maximice el índice (no implementada en
SPSS)
• Pseudo T cuadrado: una variante del índice de Duda-Hart, que también tiene en
cuenta el tamaño de los grupos; elija la solución que minimice el pseudo T cuadrado
(no implementado en SPSS)
• Preocupaciones prácticas: por ejemplo, la interpretabilidad, los grupos deben ser
manejables y lo suficientemente grandes como para merecer atención.
Validar e interpretar la solución de clúster
Validación Interpretación
Estabilidad: Examinar los centroides del clúster
• Usar diferentes procedimientos de (es decir, los valores promedio de las
agrupamiento en el mismo conjunto de variables de clúster de todos los
datos y probar si estos producen los objetos en un determinado clúster)
mismos resultados
• SPSS: dividir el conjunto de datos en Comparar la diferencia en los grupos
dos mitades, analizar cada subconjunto con pruebas t de muestras
y comparar los resultados independientes o ANOVA
Validez:
• Evaluar la validez aparente y la validez Encontrar un nombre significativo
experta para cada clúster
• (Algunos) criterios relevantes: accesible,
parsimonioso, familiar, relevante, ...
Gracias…!