Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Agrupamiento CP PDF
Agrupamiento CP PDF
ANÁLISIS DE CLUSTER
• Qué es el análisis de cluster.
AÑOS
S5
S3
S6
10
S4
S1
S2
5
5 10 15 20 25 30 35 MILES DOLARES $
FASES DEL CLUSTER
– PRIMERA FASE
• A.- ESTABLECIMIENTO DE OBJETIVOS
• B.- SELECCIÓN DE VARIABLES PARA
CARATERIZAR LOS OBJETOS A AGRUPAR
– SEGUNDA FASE
• A.- ESTANDARIZACION DE LAS VARIABLES
• B.- DETECCION DE OUTLIERS (ATIPICOS)
• C.- SUPUESTOS DEL ANALISIS DE CLUSTER
• D.-SELECCIÓN DE MEDIDAS DE SIMILITUD
FASES DEL CLUSTER
– TERCERA FASE
SELECCIÓN DEL ALGORITMO
• A.- CLUSTER JERARQUICOS
• B.- CLUSTER NO JERARQUICOS
– CUARTA FASE
• INTERPRETACION DE LOS
CONGLOMERADOS
– QUINTA FASE
• VALIDACIÓN
PRIMERA FASE
A.- ESTABLECIMIENTO DE OBJETIVOS:
• -Objetivos concretos.
• -Simplificación de datos.
• - Revelar relaciones entre individuos
• -Carácter exploratorio: formular una
taxonomía.
• -Carácter confirmatorio: Comparar una
clasificación teórica con la derivada del
análisis de cluster.
PRIMERA FASE
B.- SELECCIÓN DE VARIABLES
• Datos missing
SEGUNDA FASE
A.- ESTANDARIZACION DE LAS VARIABLES
Representatividad de la muestra.
Ausencia de multicolinealidad.
SEGUNDA FASE
D.-SELECCIÓN DE MEDIDAS DE SIMILITUD:
De similaridad:
De disimilaridad o distancia
SEGUNDA FASE
D.-SELECCIÓN DE MEDIDAS DE SIMILITUD:
1 a b a+b
Individuo i
2 c d c+d
total a+c b+d p
SEGUNDA FASE
D.-SELECCIÓN DE MEDIDAS DE SIMILITUD:
Rogers and Tanimoto
Simple matching
a+ d 2(c + d)
a+d c+d s ij = ij =
s ij = i, j = a + b + 2(c + d ) a + b + 2(c + d)
a + b+c+ d a +b +c+d
Jaccard
a b+c
Dice ( Sorensen)
s ij = i, j =
2a b+c a + b+c a+b+c
s ij = i, j =
2a + b + c 2a + b + c
Sokal and Sneath (Duran and Odell,
Sokal and Sneath
Anderberg)
2(a + d) (b + c)
s ij = ij = a 2(b + c)
2(a + d) + (b + c) 2(a + d ) + (b + c ) s ij = i, j =
a + 2(b + c) a + 2( b + c )
SEGUNDA FASE
D.-SELECCIÓN DE MEDIDAS DE SIMILITUD:
Para calcularlos:
VARIABLES
1 2 3 4 5 6 7 8 9 10
Individuo i
1 0 0 0 1 1 0 0 1 0
Individuo j 0 0 0 0 1 0 0 1 1 0
1 0 total
1 2 2 4
0 1 5 6
total 3 7 10
SEGUNDA FASE
D.-SELECCIÓN DE MEDIDAS DE SIMILITUD:
• MEDIDAS PARA VARIABLES CUALITATIVAS NO BINARIAS.-
wijk
k =1
SEGUNDA FASE
D.-SELECCIÓN DE MEDIDAS DE SIMILITUD:
p
wijk:0 - 1 Los pesos de cero se wijk Sijk
k =1
asignan cuando la variable k es S ij = p
desconocida para uno o ambos wijk
individuos y en binarias para dobles k =1
ausencias
Sij En los datos categóricos los
toman los valores de uno cuando
los dos individuos tienen el mismo
valor y cero en otro caso. xik x jk
ijk = 1
• En variables cuantitativas S
Rk
SEGUNDA FASE
D.-SELECCIÓN DE MEDIDAS DE SIMILITUD:
Ejemplo:
PESO ANSIEDAD DEPRESION ALUCINACIONE EDAD
S
PACIENTE 1
120 MEDIA NO NO JOVEN
PACIENTE 2
150 MODERADA SI NO ANCIANO
PACIENTE 3
110 SEVERA SI SI ANCIANO
PACIENTE 4
145 MEDIA NO SI ANCIANO
PACIENTE 5
120 MEDIA NO SI JOVEN
p
wijk S ijk 30
1x1 + 1x0 + 1x0 + 0 x1 + 1x0
S ij = k =1
S12 =
40
= 0.0625
p
wijk 1+1+1+ 0 +1
k =1
SEGUNDA FASE
D.-SELECCIÓN DE MEDIDAS DE DISIMILITUD:
I
B
SEGUNDA FASE
D.-SELECCIÓN DE MEDIDAS DE DISIMILITUD:
k =1
SEGUNDA FASE
D.-SELECCIÓN DE MEDIDAS DE DISIMILITUD:
1
Donde K
cos = (PiA .PiB )
2
i =1
SEGUNDA FASE
SEGUNDA FASE
D.-SELECCIÓN DE
D.-SELECCIÓN DE MEDIDAS
MEDIDAS DE DISIMILITUD::
DE DISIMILITUD
• MEDIDAS DE SIMILARIDAD O DISTANCIA ENTRE GRUPOS
1
1
DA, B = (1 cos )
K
cos = (PiA .PiB )
2
2
i =1
PiA son las frecuencias de las categorías de las variables para una de
PiB
lasvariables dadas en las dos poblaciones, de forma que si hay p variables
cualitativas habrá p sumandos.
Caracter Población A Población B
COROLA
Si 0,80 0,60
No 0,20 0,40
1
1 1 2
DABcorola = 1 (0,95 x0.80)2 (0,05 x0.20) = 0.17
2
1
1 1 2
DABcaliz = 1 (0 ,80 x0.60 )2 (0.20 x0.40 )2 = 0.16
DABtotal = DABcorola + DABcaliz
MEDIDAS DE SIMILARIDAD O DISTANCIA ENTRE
GRUPOS
2
p
D 2
A, B = x Ai xBi
i =1
MEDIDAS DE SIMILARIDAD O DISTANCIA ENTRE
GRUPOS
DA2 ,B
= (x A xB ) 1 (x A xB )
• donde W es una matriz de dispersión dentro del grupo ponderadas para
los grupos.
• En resumen puesto que el uso de medidas distintas puede
llevarnos a resultados diferentes:
• ¿Qué medida de similaridad o distancia deberíamos utilizar?.
__________________________________
• Comienzo: Cluster C1, ....Cn Cada uno con un elemento
{ }
D(12), 3 = min D1,3 ;D2,3 = D2,3 = 5,0
D(12 ), 4 = min {D1,4 ; D2,4 }= D2,4 = 9,0
D(12 ), 5 = min {D1,5 ;D 2,5 }= D 2,5 = 8,0
1.- Método del vecino más próximo.
1 2 3 4 5
1 2 0,0
3 5,0 0,0
D2 = 9,0 4, 0 0,0
4
5 8, 0 5,0 3,0 0,0
• El valor más pequeño se da entre los individuos 4 y 5 por lo
que ellos serán los que formen el siguiente cluster de dos
miembros. De nuevo hemos de recalcular las distancias:
{ }
D(12), 3 = min D1,3 ;D2,3 = D2,3 = 5, 0
D(12 ), ( 45) = min {D1,4 ; D1,5 ;D 2,4 ;D2,5 }= D 2,5 = 8,0
D ( 45), 3 = min {D3,4 ;D3,5 }= D3,4 = 4, 0
1.- Método del vecino más próximo.
1 2 3 4 5
• Formamos la matriz de
distancias D3: 1 2 0,0
D 3 = 3 5, 0 0,0
4 5 8,0 4,0 0, 0
• El valor más pequeño se da
entre 3 el cluster 4-5, por lo
que el individuo 3 se añade al
cluster que contiene a los
individuos 4 y 5.
• Finalmente el grupo que
contienen los elementos 1 y 2
y el que contiene los
individuos 3, 4 y 5 se
combinan en un cluster único.
1.- Método del vecino más próximo.
{ }
D(12), 3 = min D1,3 ;D2,3 = D2,3 = 6,0
D(12 ), 4 = min {D1,4 ; D2,4 }= D2,4 = 10, 0
D(12 ), 5 = min {D1,5 ;D 2,5 }= D 2,5 = 9,0
B
4
1
A
D 15
D 23
D 24
2 D 25 5
S1 5 5
• Inicialmente cada observación es un
cluster y por tanto su ESS es cero. S2 6 6
• El siguiente paso es formar cinco S3 15 14
cluster, un cluster de tamaño dos y
otros cuatro de tamaño uno : Por S4 16 15
ejemplo podemos formar un cluster
con los individuos 1 y 2 y otros S5 25 20
cuatro con el resto
S6 30 19
• El ESS del cluster con dos
observaciones (S1, S2)
• Una ventaja notable del vecino más cercano y el más lejano según Johnson
(1967) es que son invariantes por transformaciones monótonas de
matrices de similaridad. Esto significa que estos métodos darán el mismo
resultado sobre otras matrice de similaridad si sus elementos tienen el mismo
rango de orden que la original.
2 10 25 15
3 7 23.4 16,4
4 30 14.8 -15,2
5 29 16.4 -12,6
6 38 19 -19,0
7 42 22,2 -19,8
Traza (B )
(g 1)
Traza (W )
(n g )
PARTICIONES DE CLUSTER JERÁRQUICOS –
EL NÚMERO DE CLUSTER (PROBLEMA) –
p p
( n 1) Sj
ˆ 2 ˆ
Sj
2
RMSSTD = j=1
= j=1
P( n 1) P
PARTICIONES DE CLUSTER JERÁRQUICOS –
EL NÚMERO DE CLUSTER (PROBLEMA) –
• RS.-(R-cuadrado).-
• Es el ratio entre SSe y SSt.
• Sse es una medida en la que los grupos difieren
entre sí
• SSt = Sse + SSd
• RS mide la extensión en la que los grupos o
clusters difieren entre sí.
• Este valor oscila entre cero y uno, cero indica no
hay diferencias entre grupos y uno indica el
máximo de diferencia entre ellos.
PARTICIONES DE CLUSTER JERÁRQUICOS –
EL NÚMERO DE CLUSTER (PROBLEMA) –
• SPR.- (Semi parcial R-cuadrado)
• La diferencia entre la SSd acumulada del nuevo cluster
y la suma de cuadrados acumulada SSd de los cluster
unidos para formar nuevos cluster se llama pérdida de
homogeneidad.
• Cluster no jerárquicos:
• Este paso incluye los intentos del investigador por asegurar que
la solución cluster es representativa de la población general y
por tanto generalizable a otros objetos y estable en el tiempo.
• 100 observaciones (clientes) a los que se les ha pasado una encuesta en la que se le hacen
preguntas de percepción sobre 7 atributos importantes en la elección de una empresa por parte
de los usuarios.
• X1 = Velocidad de entrega
• X2= Nivel de precios
• X3= Flexibilidad de precios
• X4= Imagen del fabricante
• X5= Servicio conjunto
• X6 =Imagen de fuerza de ventas
• X7= calidad del producto