Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Cluster Ayuda2 PDF
Cluster Ayuda2 PDF
Referencias bibliogrficas
1. Hair, J.F., Anderson, R.E., Tatham, R.L. y Black, W.C. (1999) Anlisis Multivariante
(5 edicin). Ed. Prentice Hall.
2. Prez, C. (2001) Tcnicas estadsticas con SPSS. Ed. Prentice Hall.
1
Motivacin: Necesidad de disear una estrategia que permita definir
grupos de objetos homogneos. Tarea de clasificacin.
2
Funcionamiento del Anlisis Cluster: Un ejemplo ilustrativo
8 Encuestado A B C D E F G
D C F Variable
7
V1 3 4 4 2 6 7 6
E
6
V2 2 5 7 7 6 7 4
B
5
Lealtad a la marcan (V2)
G
4 Objetivo: Definir la estructura de los datos colocando
las observaciones ms parecidas en grupos
3
A
2
1. Cmo medimos la similitud?
1 2. Cmo formamos los conglomerados?
1 2 3 4 5 6 7 8
3. Cuntos formamos?
Lealtad a la tienda (V1) 3
1. Medicin de la similitud
Distancia eucldea para cada par de observaciones
Matriz de distancias
distancia eucldea
Caso A B C D E F G
A ,000 3,162 5,099 5,099 5,000 6,403 3,606
B 3,162 ,000 2,000 2,828 2,236 3,606 2,236
C 5,099 2,000 ,000 2,000 2,236 3,000 3,606
D 5,099 2,828 2,000 ,000 4,123 5,000 5,000
E 5,000 2,236 2,236 4,123 ,000 1,414 2,000
F 6,403 3,606 3,000 5,000 1,414 ,000 3,162
G 3,606 2,236 3,606 5,000 2,000 3,162 ,000
Distancia
Dendograma
4
A B C D E F G
3. Determinacin del nmero de conglomerados en la solucin final
Historial de conglomeracin
Medida de similitud Distancias eucldeas
Etapa en la que el conglomerado
intraconglomerado
Conglomerado que se combina (Promedio) E-F (1,414)
Etapa Conglomerado 1 Conglomerado 2 Coeficientes Conglomerado 1 1,414
1 E F 1,414 2,192
E-G (2,000)
2 E-F G 2,000 2,144
3 C D 2,000
F-G (3,162)
2,234
4 B C-D 2,000 2,896
5 B-C-D E-F-G 2,236
3,420
6 A B-C-D-E-F-G 3,162
Aumento mayor
La solucin ms apropiada
parece la que ofrece el paso 4
1,6
Distance
1,2
0,8
0,4
0
A B C D E F G
5
Proceso de decisin en el Anlisis Cluster
6
PASO 1. Objetivos del anlisis
8
Distancias y Similaridades en SPSS
9
PASO 3. Supuestos del Anlisis Cluster
Vinculacin intergrupos
Vinculacin intragrupos
Dendrogram
Vecino ms prximo (Encadenamiento simple)
Nivel de jerarqua
Distancia
Vecino ms lejano (Encadenamiento completo)
Agrupacin de centroides
Vinculacin de medianas
Mtodo de Ward A B C D E F G
Objetos
11
Mtodos no jerrquicos en SPSS: Mtodo de las K medias
Caractersticas:
No implican la construccin de una estructura en rbol.
Los objetos se asignan a los clusters una vez que se ha decidido cuntos se
van a formar.
Procedimiento general:
Primero se selecciona una semilla para cada conglomerado a formar (el
primer individuo que constituir cada conglomerado) y se van asignando
nuevos objetos segn el criterio de distancia considerado, buscando que la
variabilidad dentro de los conglomerados sea lo menor posible, y la
variabilidad entre grupos lo mayor posible (la minimizacin de una funcin
objetivo).
12
PASO 5. Interpretacin de los conglomerados
Asignar una etiqueta precisa que describa la naturaleza de los cluster formados.
Herramientas:
1. Examen de los centroides (sobre datos no tipificados, y slo si no provienen
de una reduccin mediante ACP).
2. Si el objetivo del anlisis era confirmatorio, contrastar la clasificacin con los
datos preconcebidos.
13
Un ejemplo ilustrativo: Anlisis Cluster en SPSS
Fichero de datos: jovenes.sav
PROCESO DE DECISIN
Se debern tipificar los datos dado que las variables se miden en distinta
escala (tipificacin de cada variable, puntuaciones z).
14
Diagrama 3-D
Eje Y: futbol
Eje X: tv
Eje Z: paga
A 10
S
I
S
T CI
E 8 D
N F
C
H
B A
I
A 6
A
N
U
A 4
L K
A
L
2
M
E G
F
J
Opciones:
U
T
N
B
O
0 L Mostrar el grfico con las
L
etiquetas de caso
30 30
20 20
10
15
PAGA SEM ANA L EN PTA S/100 10 HORAS SEM ANA LES TV
Paso 3. Supuestos del anlisis cluster:
i. Encadenamiento completo
Verificar la
ii. Mtodo de Ward estabilidad de las
tres soluciones
iii. Vinculacin de medianas cluster obtenidas
16
(A.i.) Anlisis cluster jerrquico mediante encadenamiento completo
Variables: Introducimos las variables en las que se basar la clasificacin (futbol, paga,
tv)
Etiquetar los casos mediante: Si tenemos alguna variable de cadena que permita la
identificacin de los casos (id)
Conglomerar:
Al principio no guardamos
ninguna solucin.
Matriz de distancias
19
El historial de conglomeracin muestra los niveles de fusin
(coeficientes) al que se van uniendo los individuos en los conglomerados.
Historial de conglomeracin
Etapa en la que el
conglomerado
Conglomerado que se aparece por primera
combina vez
Conglom Conglom Conglom Conglom Prxima
Etapa erado 1 erado 2 Coeficientes erado 1 erado 2 etapa
1 3 9 ,000 0 0 7
2 2 8 ,000 0 0 9
3 7 10 ,104 0 0 6
4 5 11 ,379 0 0 5 Los coeficientes (niveles de fusin)
5 5 13 ,712 4 0 9
6
se calculan mediante el mtodo del
7 14 ,731 3 0 11
7 3 4 1,065 1 0 11 vecino ms lejano y empleando
8 1 6 1,065 0 0 10 como distancia la eucldea al
9 2 5 2,126 2 5 12 cuadrado). Podemos observar
10 1 12 6,089 8 0 13
11
cmo va aumentando la variabilidad
3 7 6,441 7 6 12
12 2 3 10,454 9 11 13 dentro de los conglomerados
13 1 2 16,788 10 12 0 conforme vamos agradndolos. En
la primera etapa habra 13 clster y
En la primera etapa se combinan los individuos en la ltima etapa un cluster que
tercero y noveno que eran los menos distantes engloba a los catorce jvenes.
(coeficiente=distancia=0.000). El cluster
formado por estos dos individuos se modifica
(se aaden individuos) en la sptima etapa)
20
DENDOGRAMA.
Rescaled Distance Cluster Combine
C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+
C 3
I 9
D 4
Corte en dos cluster
G 7
J 10
N 14
B 2
H 8
E 5
K 11
M 13
A 1
F 6
L 12
Caso
M
N
L
J
A
F
G
H
I
Nmero de
10:
12:
11:
14:
13:
9:
8:
7:
6:
5:
2:
1:
4:
3:
conglomerados
1 X X X X X X X X X X X X X X X X X X X X X X X X X X X
2 X X X X X X X X X X X X X X X X X X X X X X X X X X
3 X X X X X X X X X X X X X X X X X X X X X X X X X
4 X X X X X X X X X X X X X X X X X X X X X X X X
5 X X X X X X X X X X X X X X X X X X X X X X X
6 X X X X X X X X X X X X X X X X X X X X X X
7 X X X X X X X X X X X X X X X X X X X X X
8 X X X X X X X X X X X X X X X X X X X X
9 X X X X X X X X X X X X X X X X X X X
10 X X X X X X X X X X X X X X X X X X
11 X X X X X X X X X X X X X X X X X
12 X X X X X X X X X X X X X X X X
13 X X X X X X X X X X X X X X X
Historial de conglomeracin
Etapa en la que el
conglomerado
Conglomerado que se aparece por primera
combina vez
Conglom Conglom Conglom Conglom Prxima
Etapa erado 1 erado 2 Coeficientes erado 1 erado 2 etapa
1 3 9 ,000 0 0 7
2 2 8 ,000 0 0 9
3 7 10 ,104 0 0 6
4 5 11 ,379 0 0 5
5 5 13 ,712 4 0 9
6 7 14 ,731 3 0 11
7 3 4 1,065 1 0 11
Rango de soluciones:
8 1 6 1,065 0 0 10
9 2 5 2,126 2 5 12 3 o 4 cluster
10 1 12 6,089 8 0 13
11 3 7 6,441 7 6 12
12 2 3 10,454 9 11 13
13 1 2 16,788 10 12 0
23
Guardamos un rango de
soluciones de 3 a 4 grupos
Conglomerado de pertenencia
4 3
Caso
conglome
rados
conglome
rados
Aparece la clasificacin de
1: A 1 1 los 14 individuos para los dos
2: B 2 2 casos 3 y 4 cluster elegidos
3: C 3 3
4: D 3 3
5: E 2 2
6: F 1 1
7: G 4 3
8: H 2 2
9: I 3 3 Se aaden dos variables al
10: J 4 3 fichero de datos:
11: K 2 2
12: L 1 1 clu4_1: define 4 grupos
13: M 2 2 24
14: N 4 3
clu3_1: define 3 grupos
(A.ii.) Anlisis cluster jerrquico mediante el mtodo de WARD
25
Historial de conglomeracin
Conglomerado de pertenencia
Etapa en la que el
conglomerado 4 3
Conglomerado que se aparece por primera conglome conglome
combina vez Caso rados rados
Conglom Conglom Conglom Conglom Prxima 1: A 1 1
Etapa erado 1 erado 2 Coeficientes erado 1 erado 2 etapa 2: B 2 2
1 3 9 ,000 0 0 8 3: C 3 3
2 2 8 ,000 0 0 9 4: D 3 3
3 7 10 ,052 0 0 6 5: E 2 2
4 5 11 ,242 0 0 5 6: F 1 1
5 5 13 ,562 4 0 9 7: G 4 3
6 7 14 ,997 3 0 11 8: H 2 2
7 1 6 1,529 0 0 10 9: I 3 3
8 3 4 2,239 1 0 11 10: J 4 3
9 2 5 4,003 2 5 13 11: K 2 2
10 12: L 1 1
1 12 7,263 7 0 12
13: M 2 2
11 3 7 14,371 8 6 12
14: N 4 3
12 1 3 25,210 10 11 13
13 1 2 39,000 12 9 0
26
(A.iii.) Anlisis cluster jerrquico mediante el mtodo de la mediana
Se sigue el mismo proceso anterior, tan slo habra que
elegir como mtodo de conglomeracin: Mtodo de medianas
Etapa en la que el 4 3
conglomerado conglome conglome
Conglomerado que se aparece por primera Caso rados rados
combina vez 1: A 1 1
Conglom Conglom Conglom Conglom Prxima 2: B 2 2
Etapa erado 1 erado 2 Coeficientes erado 1 erado 2 etapa 3: C 3 2
1 3 9 ,000 0 0 7 4: D 3 2
2 2 8 ,000 0 0 9 5: E 2 2
3 7 10 ,104 0 0 6 6: F 1 1
4 5 11 ,379 0 0 5 7: G 3 2
5 5 13 ,480 4 0 9 8: H 2 2
6 7 14 ,653 3 0 10 9: I 3 2
7 3 4 1,065 1 0 10 10: J 3 2
8 1 6 1,065 0 0 13 11: K 2 2
9 2 5 1,559 2 5 11 12: L 4 3
10 3 7 4,491 7 6 11 13: M 2 2
11 2 3 4,663 9 10 12 14: N 3 2
12 2 12 4,887 11 0 13
13 1 2 4,563 8 12 0
28
(B) Anlisis cluster no jerrquico: Mtodo de las K medias
Conglomerado IDENTIFICA
1 2 3 CIN Conglom
Puntua: PAGA Nmero de caso PERSONAL erado Distancia
-,76285 1,29097 -,76285 1 A 1 ,706
SEMANAL EN PTAS
Puntua: ASISTENCIA 2 B 2 ,727
1,24983 -,79156 ,95821
ANUAL AL FUTBOL 3 C 3 1,281
Puntua: HORAS 4 D 3 ,990
-2,14934 -,56562 1,21607
SEMANALES TV 5 E 2 ,784
6 F 1 1,058
Medias de los cluster iniciales (un 7 G 3 ,990
individuo cada uno). Por defecto se 8 H 2 ,727
9 I 3 1,281
selecciona entre los datos un nmero 10 J 3 1,258
de casos debidamente espaciados 11 K 2 ,175
igual al nmero de conglomerados. 12 L 1 1,474
13 M 2 ,755
Historial de iteracionesa 14 N 3 1,216
Conglomerado
Centros de los conglomerados finales: Valorar si
1 2 3 difieren las medias de cada cluster en cada variable.
Puntua: PAGA
-,71721 1,29097 -,71721
SEMANAL EN PTAS Distancias entre los centros de los conglomerados
Puntua: ASISTENCIA finales: Valorar si distan entre s los cluster formados
,37495 -,32496 ,08332
ANUAL AL FUTBOL
Puntua: HORAS lo suficiente.
-1,55544 ,02828 ,75415
SEMANALES TV
Nmero de casos en cada conglomerado: Valorar si
hay muchos cluster con pocas observaciones, o si
Distancias entre los centros de los conglomerados finales
difieren mucho en tamao
Conglomerado 1 2 3 ANOVA: Para cada variable se contrasta la igualdad de
1 2,652 2,328 medias de los cluster. No obstante los niveles de
2 2,652 2,174
3 2,328 2,174
significacion no se deben interpretar salvo a nivel
descriptivo ya que no aparecen corregidos.
ANOVA
Conglomerado Error
Media Media
cuadrtica gl cuadrtica gl F Sig.
Puntua: PAGA
6,481 2 ,003 11 1901,429 ,000 Nmero de casos en cada conglomerado
SEMANAL EN PTAS
Puntua: ASISTENCIA Conglomerado 1 3,000
,496 2 1,092 11 ,454 ,646
ANUAL AL FUTBOL 2 5,000
Puntua: HORAS 3 6,000
5,337 2 ,211 11 25,249 ,000
SEMANALES TV Vlidos 14,000
Las pruebas F slo se deben utilizar con una finalidad descriptiva puesto que los conglomerados han Perdidos ,000
sido elegidos para maximizar las diferencias entre los casos en diferentes conglomerados. Los niveles
crticos no son corregidos, por lo que no pueden interpretarse como pruebas de la hiptesis de que los
centros de los conglomerados son iguales.
31
Resumen de los resultados del anlisis cluster no jerrquico
Solucin equivalente a la
Cluster no jerrquico que ofreca el mtodo del
vecino ms lejano
Caso de 3 cluster:
Cluster 1: A, F, L
Cluster 2: B, E, H, K, M
Cluster 3: C, D, G, I, J, N
32
Dependientes: Las variables
sin tipificar (paga, futbol, tv)
Independientes: Variable qcl1
(clasificacion en los 3
cluster).
Informe