Está en la página 1de 11

ANÁLISIS CLUSTER JERÁRQUICO

El análisis cluster jerárquico (ACJ) es una herramienta exploratoria diseñada para


revelar las agrupaciones naturales (o los conglomerados o clusters) dentro de un
conjunto de datos que no sería de otra manera evidente. Es el más útil cuando usted
desea agrupar un número pequeño (menos que algunos cientos) de objetos. Los objetos
en análisis cluster jerárquico pueden ser casos o variables, dependiendo de si usted
desea clasificar casos o examinar relaciones entre las variables.

El Análisis Cluster Jerárquico comienza separando cada objeto en un cluster por sí


mismo. En cada etapa del análisis, el criterio por el que los objetos son separados se
relaja en orden a enlazar los dos conglomerados más similares hasta que todos los
objetos sean agrupados en un árbol de clasificación completo.
El criterio básico para cualquier agrupación es la distancia. Los objetos que estén cerca
uno del otro pertenecerían al mismo conglomerado o cluster, y los objetos que estén
lejos uno del otro pertenecerán a distintos clusters. Para un conjunto de datos dado, los
clusters que se construyen dependen de nuestra propia especificación de los siguientes
parámetros:
 El método cluster define las reglas para la formación del cluster. Por ejemplo,
cuando calculamos la distancia entre dos clusters, podemos usar el par de
objetos más cercado entre clusters o el par de objeto más alejados, o un
compromiso entre estos métodos.
 La medida define la formula para el cálculo de la distancia. Por ejemplo, la
medida de distancia Euclídea calcula la distancia como una línea recta entre dos
clusters. Las medidas de intervalo asumen que las variables están medidas en
escala; las medidas de conteo asumen que son números discretos, y las medidas
binarias asumen que toman dos valores.
 La estandarización permite igualar el efecto de las variables medidas sobre
diferentes escalas.

Los fabricantes de coches necesitan ser capaces de valorar el mercado actual para
determinar la competencia probable para sus vehículos. Si los coches son agrupados de
acuerdo a los datos disponibles, esta tarea puede ser ampliamente automatizada
utilizando el análisis cluster.
La información para distintos tipos y modelos de motor de coches está contenida en el
fichero car_sales.sav. El uso del procedimiento de Análisis Cluster Jerárquico para
agrupar los automóviles de mayores ventas de acuerdo a sus precios y propiedades
físicas.

Abrimos el fichero car_sales.sav que se encuentra en el directorio que venimos


utilizando durante el curso.

Luego, para seleccionar los casos para el análisis, del menú elegimos:

   Datos
     Seleccionar Casos...
Seleccionar si se satisface la condición.
Hacemos click en Si…
En el campo de texto, tecleamos (type=0) & (sales>100).
Hacemos click en Continuar.
Hacemos click en Aceptar en el cuadro de diálogos de Seleccionar Casos.
El análisis posterior del conjunto de datos se basará en los automóviles vendidas al
menos 100000 unidades.

Para ejecutar el análisis cluster, del menu elegimos:


Analizar

Clasificar

Conglomerados Jerárquicos...

 Seleccionar desde la variable “Price in thousands” hasta la variable “Fuel


efficiency” como variables del análisis.
 Etiquetamos los casos mediante la variable Model.

 Hacemos clic en Gráficos…


 Seleccionar Dendrograma.

 Seleccionar Ninguno en el diagrama de Témpanos.

 Hacemos click en Continuar.


Hacemos click en Método… en el cuadro diálogos del Análisis Cluster Jerárquico.

Seleccionar el método de conglomeración del Vecino más Próximo.

  Seleccionar las puntuaciones Z como el método de estandarización el grupo de


Transformar Valores.

  Hacemos click en Continuar.

Hacemos click en Aceptar en el cuadro diálogos del Análisis Cluster Jerárquico.

El dendograma es el resumen gráfico de la solución cluster.


* * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * *

Dendrogram using Single Linkage

Rescaled Distance Cluster Combine

C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+

Accord 8 
Camry 11  
Malibu 2  
Grand Am 9   
Impala 3  
Taurus 5   
Mustang 4  
Focus 6  
Civic 7   
Cavalier 1  
Corolla 10 

Los casos se enumeran a lo largo del eje vertical de la izquierda.

El eje horizontal muestra las distancias entre los conglomerados cuando son unidos.

El análisis del árbol de clasificación para determinar el número de conglomerados es un


proceso subjetivo. Generalmente, empezamos buscando distancias entre los
agrupamientos a lo largo del eje horizontal.

Empezando desde la derecha, hay un hueco entre las distancias 20 y 25, que divide a los
automóviles en dos conglomerados.

Hay otro hueco desde aproximadamente 10 a 15, que sugiere 6 conglomerados.

El Historial de conglomeración es un resumen numérico de la solución cluster.

Historial de conglomeración

Etapa en la que el
conglomerado
Conglomerado que se aparece por primera
combina vez
Conglom Conglom Conglom Conglom Próxima
Etapa erado 1 erado 2 Coeficientes erado 1 erado 2 etapa
1 8 11 1,260 0 0 7
2 6 7 1,579 0 0 4
3 2 9 1,625 0 0 7
4 1 6 2,318 0 2 6
5 3 5 2,619 0 0 8
6 1 10 3,670 4 0 10
7 2 8 4,420 3 1 8
8 2 3 4,505 7 5 9
9 2 4 4,774 8 0 10
10 1 2 5,718 6 9 0
En la primera etapa, se combinan los casos 8 y 11 puesto que tienen la menor distancia.

El cluster creado por su unión la próxima vez que aparece es en la etapa 7.

En la etapa 7, los conglomerados creados en la etapa 1 y 3 se unen. El cluster resultante


aparecerá otra vez en la etapa 8.

Cuando hay muchos casos, la tabla puede ser muy larga, pero puede ser más fácil de
revisar la columna de coeficientes para los saltos más grandes que revisar el
dendograma.

Una buena solución cluster es aquella que considera un salto repentino (hueco) en el
coeficiente de distancia. La solución anterior al salto indica la buena solución.

El mayor salto en la columna de coeficientes se da entre las etapas 5 y 6, indicando una


solución de 6 clusters, y en las etapas 9 y 10, indicando una solución de 2 clusters. Estas
son las mismas que habíamos encontrado a partir del revisión del dendograma.

Esto es algo insatisfactorio como una solución, puesto que no hay una clasificación
fuerte. Intentemos una solución utilizando el método de conglomeración del vecino más
lejano o vinculación completa como método de agrupamiento.

Para ejecutar el análisis cluster utilizando la vinculación completa, retomamos el


cuadro diálogos del Análisis Cluster Jerárquico, y hacemos clic en Método….

Selecionar el método de conglomeración del vecino más lejano.

Hacemos click en Continuar.

Hacemos click en Aceptar en el cuadro de diálogos del Análisis Cluster


Jerárquico.
Para la primeras etapas, el historial para la solución del vecino más lejano es similar a la
de la solución del vecino más próximo. En las etapas finales, son bastante diferentes
puesto que la solución del vecino más lejano construye una clasificación fuerte de dos o
tres conglomerados.

Historial de conglomeración

Etapa en la que el
conglomerado
Conglomerado que se aparece por primera
combina vez
Conglom Conglom Conglom Conglom Próxima
Etapa erado 1 erado 2 Coeficientes erado 1 erado 2 etapa
1 8 11 1,260 0 0 7
2 6 7 1,579 0 0 5
3 2 9 1,625 0 0 6
4 3 5 2,619 0 0 6
5 6 10 4,012 2 0 9
6 2 3 7,333 3 4 8
7 1 8 9,183 0 1 9
8 2 4 12,440 6 0 10
9 1 6 25,486 7 5 10
10 1 2 54,607 9 8 0

La rapidez de decisión de esta clasificación se refleja en el dendograma.

Dendrograma
_

* * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * *

Dendrogram using Complete Linkage

Rescaled Distance Cluster Combine

C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+

Accord 8 
Camry 11  
Cavalier 1  
Focus 6   
Civic 7   
Corolla 10  
Malibu 2  
Grand Am 9   
Impala 3  
Taurus 5  
Mustang 4 

La division inicial del árbol forma dos conglomerados. La parte superior contiene los
coches más pequeños (Corolla, Civic, Focus Cavalier Camry y Accord).

La parte de abajo contiene los coches más grandes (Mustang, Taurus, Impala, Grand
Am y Malibu).
El conglomerado de los coches más pequeños puede ser dividido aún más en coches
pequeños y económicos. El Civic y el Corolla son más pequeños como más baratos que
El Accord y el Camry respectivamente.

The cluster of smaller cars can be further split into small and economy cars. The Civic
and Corolla are both smaller and cheaper siblings of the Accord and Camry,
respectively.

La solución de vinculación completa es satisfactoria puesto que sus conglomerados son


distintos, mientras que la solución de vinculación simple es menos concluyente.
Utilizando la solución de vinculación completa, podemos determinar la competencia de
los vehículos en la fase de diseño introduciendo sus especificaciones como nuevos casos
en el conjunto de datos y rehaciendo el análisis.
EJEMPLO 2

Un proveedor de telecomunicaciones quiere mejorar la comprensión de los patrones de


uso del servicio en su base de clientes. Si los servicios pueden ser agrupados según su
uso, la compañía puede ofrecer paquetes más atractivos a sus clientes.

Las variables que indican el uso y el no uso de los servicios se recogen en el fichero
telc.sav. El uso del procedimiento del Análisis Cluster Jerárquico para estudiar las
relaciones entre los distintos servicios.

Para ejecutar el análisis cluster, del menú elegimos:

Análizar

Clasificar

Conglomerados Jerárquicos…

 Hacemos click en restablecer las elecciones anteriores.


 Seleccionamos desde Toll free service hasta Wireless service y desde Multiple
lines hasta Electronic billing como variables de análisis.

 Seleccionamos la opción conglomerar variables.


 Hacemos clic en Gráficos…
 Seleccionamos el Dendograma.
 Seleccionamos Ninguno del diagrama de Témpanos.

 Click en Continuar.

 Clic en Método en el cuadro de diálogos del Análisis Cluster Jerárquico.

 Seleccionamos Binaria como Medida.


 Seleccionamos Concordancia Simple como medida binaria.

 Click en Continuar.

 Clic en Aceptar en el cuadro de diálogos del Análisis Cluster Jerárquico.


Estas selecciones específican un

These selections specify a between-groups average linkage clustering using a simple


matching distance measure. Since the variables in the analysis are indicators of whether
a customer has a service, you must choose between the binary measures. Simple
matching and the Jaccard measures are two good places to start.

También podría gustarte