Está en la página 1de 11

ANLISIS CLUSTER JERRQUICO

El anlisis cluster jerrquico (ACJ) es una herramienta exploratoria diseada para


revelar las agrupaciones naturales (o los conglomerados o clusters) dentro de un
conjunto de datos que no sera de otra manera evidente. Es el ms til cuando usted
desea agrupar un nmero pequeo (menos que algunos cientos) de objetos. Los objetos
en anlisis cluster jerrquico pueden ser casos o variables, dependiendo de si usted
desea clasificar casos o examinar relaciones entre las variables.
El Anlisis Cluster Jerrquico comienza separando cada objeto en un cluster por s
mismo. En cada etapa del anlisis, el criterio por el que los objetos son separados se
relaja en orden a enlazar los dos conglomerados ms similares hasta que todos los
objetos sean agrupados en un rbol de clasificacin completo.
El criterio bsico para cualquier agrupacin es la distancia. Los objetos que estn cerca
uno del otro perteneceran al mismo conglomerado o cluster, y los objetos que estn
lejos uno del otro pertenecern a distintos clusters. Para un conjunto de datos dado, los
clusters que se construyen dependen de nuestra propia especificacin de los siguientes
parmetros:
El mtodo cluster define las reglas para la formacin del cluster. Por ejemplo,
cuando calculamos la distancia entre dos clusters, podemos usar el par de
objetos ms cercado entre clusters o el par de objeto ms alejados, o un
compromiso entre estos mtodos.
La medida define la formula para el clculo de la distancia. Por ejemplo, la
medida de distancia Eucldea calcula la distancia como una lnea recta entre dos
clusters. Las medidas de intervalo asumen que las variables estn medidas en
escala; las medidas de conteo asumen que son nmeros discretos, y las medidas
binarias asumen que toman dos valores.
La estandarizacin permite igualar el efecto de las variables medidas sobre
diferentes escalas.
Los fabricantes de coches necesitan ser capaces de valorar el mercado actual para
determinar la competencia probable para sus vehculos. Si los coches son agrupados de
acuerdo a los datos disponibles, esta tarea puede ser ampliamente automatizada
utilizando el anlisis cluster.
La informacin para distintos tipos y modelos de motor de coches est contenida en el
fichero car_sales.sav. El uso del procedimiento de Anlisis Cluster Jerrquico para
agrupar los automviles de mayores ventas de acuerdo a sus precios y propiedades
fsicas.
Abrimos el fichero car_sales.sav que se encuentra en el directorio que venimos
utilizando durante el curso.
Luego, para seleccionar los casos para el anlisis, del men elegimos:
Datos
Seleccionar Casos...

Seleccionar si se satisface la condicin.


Hacemos click en Si
En el campo de texto, tecleamos (type=0) & (sales>100).
Hacemos click en Continuar.
Hacemos click en Aceptar en el cuadro de dilogos de Seleccionar Casos.
El anlisis posterior del conjunto de datos se basar en los automviles vendidas al
menos 100000 unidades.

Para ejecutar el anlisis cluster, del menu elegimos:

Analizar
Clasificar
Conglomerados Jerrquicos...

Seleccionar desde la variable Price in thousands hasta la variable Fuel


efficiency como variables del anlisis.
Etiquetamos los casos mediante la variable Model.

Hacemos clic en Grficos


Seleccionar Dendrograma.

Seleccionar Ninguno en el diagrama de Tmpanos.

Hacemos click en Continuar.

Hacemos click en Mtodo en el cuadro dilogos del Anlisis Cluster Jerrquico.


Seleccionar el mtodo de conglomeracin del Vecino ms Prximo.
Seleccionar las puntuaciones Z como el mtodo de estandarizacin el grupo de
Transformar Valores.
Hacemos click en Continuar.

Hacemos click en Aceptar en el cuadro dilogos del Anlisis Cluster Jerrquico.


El dendograma es el resumen grfico de la solucin cluster.

* * * * * * H I E R A R C H I C A L

C L U S T E R

A N A L Y S I S * * * * * *

Dendrogram using Single Linkage


Rescaled Distance Cluster Combine
C A S E
Label
Accord
Camry
Malibu
Grand Am
Impala
Taurus
Mustang
Focus
Civic
Cavalier
Corolla

Num
8
11
2
9
3
5
4
6
7
1
10

0
5
10
15
20
25
+---------+---------+---------+---------+---------+

Los casos se enumeran a lo largo del eje vertical de la izquierda.


El eje horizontal muestra las distancias entre los conglomerados cuando son unidos.
El anlisis del rbol de clasificacin para determinar el nmero de conglomerados es un
proceso subjetivo. Generalmente, empezamos buscando distancias entre los
agrupamientos a lo largo del eje horizontal.
Empezando desde la derecha, hay un hueco entre las distancias 20 y 25, que divide a los
automviles en dos conglomerados.
Hay otro hueco desde aproximadamente 10 a 15, que sugiere 6 conglomerados.
El Historial de conglomeracin es un resumen numrico de la solucin cluster.
Historial de conglomeracin

Etapa
1
2
3
4
5
6
7
8
9
10

Conglomerado que se
combina
Conglom
Conglom
erado 1
erado 2
8
11
6
7
2
9
1
6
3
5
1
10
2
8
2
3
2
4
1
2

Coeficientes
1,260
1,579
1,625
2,318
2,619
3,670
4,420
4,505
4,774
5,718

Etapa en la que el
conglomerado
aparece por primera
vez
Conglom
Conglom
erado 1
erado 2
0
0
0
0
0
0
0
2
0
0
4
0
3
1
7
5
8
0
6
9

Prxima
etapa
7
4
7
6
8
10
8
9
10
0

En la primera etapa, se combinan los casos 8 y 11 puesto que tienen la menor distancia.
El cluster creado por su unin la prxima vez que aparece es en la etapa 7.
En la etapa 7, los conglomerados creados en la etapa 1 y 3 se unen. El cluster resultante
aparecer otra vez en la etapa 8.
Cuando hay muchos casos, la tabla puede ser muy larga, pero puede ser ms fcil de
revisar la columna de coeficientes para los saltos ms grandes que revisar el
dendograma.
Una buena solucin cluster es aquella que considera un salto repentino (hueco) en el
coeficiente de distancia. La solucin anterior al salto indica la buena solucin.
El mayor salto en la columna de coeficientes se da entre las etapas 5 y 6, indicando una
solucin de 6 clusters, y en las etapas 9 y 10, indicando una solucin de 2 clusters. Estas
son las mismas que habamos encontrado a partir del revisin del dendograma.
Esto es algo insatisfactorio como una solucin, puesto que no hay una clasificacin
fuerte. Intentemos una solucin utilizando el mtodo de conglomeracin del vecino ms
lejano o vinculacin completa como mtodo de agrupamiento.
Para ejecutar el anlisis cluster utilizando la vinculacin completa, retomamos el
cuadro dilogos del Anlisis Cluster Jerrquico, y hacemos clic en Mtodo.

Selecionar el mtodo de conglomeracin del vecino ms lejano.


Hacemos click en Continuar.
Hacemos click en Aceptar en el cuadro de dilogos del Anlisis Cluster
Jerrquico.

Para la primeras etapas, el historial para la solucin del vecino ms lejano es similar a la
de la solucin del vecino ms prximo. En las etapas finales, son bastante diferentes
puesto que la solucin del vecino ms lejano construye una clasificacin fuerte de dos o
tres conglomerados.
Historial de conglomeracin

Etapa
1
2
3
4
5
6
7
8
9
10

Conglomerado que se
combina
Conglom
Conglom
erado 1
erado 2
8
11
6
7
2
9
3
5
6
10
2
3
1
8
2
4
1
6
1
2

Coeficientes
1,260
1,579
1,625
2,619
4,012
7,333
9,183
12,440
25,486
54,607

Etapa en la que el
conglomerado
aparece por primera
vez
Conglom
Conglom
erado 1
erado 2
0
0
0
0
0
0
0
0
2
0
3
4
0
1
6
0
7
5
9
8

Prxima
etapa
7
5
6
6
9
8
9
10
10
0

La rapidez de decisin de esta clasificacin se refleja en el dendograma.


Dendrograma
_
* * * * * * H I E R A R C H I C A L

C L U S T E R

A N A L Y S I S * * * * * *

Dendrogram using Complete Linkage


Rescaled Distance Cluster Combine
C A S E
Label
Accord
Camry
Cavalier
Focus
Civic
Corolla
Malibu
Grand Am
Impala
Taurus
Mustang

Num
8
11
1
6
7
10
2
9
3
5
4

0
5
10
15
20
25
+---------+---------+---------+---------+---------+

La division inicial del rbol forma dos conglomerados. La parte superior contiene los
coches ms pequeos (Corolla, Civic, Focus Cavalier Camry y Accord).

La parte de abajo contiene los coches ms grandes (Mustang, Taurus, Impala, Grand Am
y Malibu).
El conglomerado de los coches ms pequeos puede ser dividido an ms en coches
pequeos y econmicos. El Civic y el Corolla son ms pequeos como ms baratos que
El Accord y el Camry respectivamente.
The cluster of smaller cars can be further split into small and economy cars. The Civic
and Corolla are both smaller and cheaper siblings of the Accord and Camry,
respectively.
La solucin de vinculacin completa es satisfactoria puesto que sus conglomerados son
distintos, mientras que la solucin de vinculacin simple es menos concluyente.
Utilizando la solucin de vinculacin completa, podemos determinar la competencia de
los vehculos en la fase de diseo introduciendo sus especificaciones como nuevos casos
en el conjunto de datos y rehaciendo el anlisis.

EJEMPLO 2
Un proveedor de telecomunicaciones quiere mejorar la comprensin de los patrones de
uso del servicio en su base de clientes. Si los servicios pueden ser agrupados segn su
uso, la compaa puede ofrecer paquetes ms atractivos a sus clientes.
Las variables que indican el uso y el no uso de los servicios se recogen en el fichero
telc.sav. El uso del procedimiento del Anlisis Cluster Jerrquico para estudiar las
relaciones entre los distintos servicios.
Para ejecutar el anlisis cluster, del men elegimos:
Anlizar
Clasificar
Conglomerados Jerrquicos

Hacemos click en restablecer las elecciones anteriores.


Seleccionamos desde Toll free service hasta Wireless service y desde Multiple
lines hasta Electronic billing como variables de anlisis.

Seleccionamos la opcin conglomerar variables.


Hacemos clic en Grficos

Seleccionamos el Dendograma.
Seleccionamos Ninguno del diagrama de Tmpanos.

Click en Continuar.

Clic en Mtodo en el cuadro de dilogos del Anlisis Cluster Jerrquico.

Seleccionamos Binaria como Medida.


Seleccionamos Concordancia Simple como medida binaria.

Click en Continuar.

Clic en Aceptar en el cuadro de dilogos del Anlisis Cluster Jerrquico.

Estas selecciones especfican un


These selections specify a between-groups average linkage clustering using a simple
matching distance measure. Since the variables in the analysis are indicators of whether
a customer has a service, you must choose between the binary measures. Simple
matching and the Jaccard measures are two good places to start.

También podría gustarte