Análisis de Conglomerados

ANALISIS DE CLUSTER
CON SPSS:
INMACULADA BARRERA
ANALISIS DE CLUSTER EN SPSS
Opcin: Analizar
Clasificar
Tres posibles OPCIONES

1.- Cluster en dos etapas
2.- K-means
3.- Jerrquicos
1.- Cluster en dos etapas.etapas est pensado para

minera de datos, es decir para estudios con un
nmero de individuos grande que pueden tener
problemas de clasificacin con los otros
procedimientos.
Otra peculiaridad es que permite trabajar
conjuntamente con variables de tipo mixto (cuali
y cuantitativas). Puede realizarse cuando el
nmero de cluster es conocido a priori y
tambin cuando no se conoce.
2.- Cluster no jerrquicos .- slo puede

ser aplicado a variables cuantitativas y
requiere conocer el nmero de cluster a
priori.
Puede realizarse para un nmero de
objetos relativamente grande pues no
requiere el clculo de todas las posibles
distancias.
3.- Jerrquicos.-
Para variables cuantitativas o bien para

variables cualitativas
Si no se conoce el nmero de cluster a
priori y cuando el nmero de objetos no
es muy grande.
CLUSTER JERRQUICOS.
El primer paso es la seleccin de variables:
Como se observa pueden etiquetarse los grupos con una de

las variables del fichero.
Tambin es posibles realizar conglomerados no para objetos sino para
variables, (agrupar variables por el parecido que presentan en las
respuestas de los individuos)
CLUSTER JERRQUICOS.
OPCIN METODO:
-Podremos estandarizar las variables
utilizadas en el anlisis antes de
utilizarlas el clculo de las similaridades
si fuese necesario. Los mtodos
disponibles son varios.
-Permite seleccionar la medida usada
para ver el parecido entre individuos con
distintas distancias dependiendo si la
variable es binaria, frecuencias o de
intervalo.
-Es posible tambin elegir el mtodo para
obtener los conglomerados Todos los
vistos .
Los dos primeros vinculacin Inter.grupos y dentro de grupos se
corresponde a la opcin denominada
UPGMA (mtodo del promedio) y una
variante de este donde se consideran
para el clculo de la distancia media la
correspondiente a todos los posibles
pares del grupo resultante y no slo a los
formados con un elemento de cada grupo
como en el anterior.
ESTANDARIZAR
MEDIDA
METODO
CLUSTER JERRQUICOS.
OPCIN ESTADISTICOS:
Historial muestra los casos o

conglomerados combinados
en cada etapa, las distancias
entre los casos combinados y
el ltimo nivel del proceso de
aglomeracin en el que cada
caso se uni al conglomerado
correspondiente
CLUSTER JERRQUICOS.OPCIN
ESTADISTICOS:
Matriz distancias
Conglomerado de pertenencia
nos da el conglomerado al que se
asigna cada caso pudiendo elegir
entre una nica solucin o un
rango de soluciones En el ejemplo
hemos seleccionado entre 2 y 3
cluster.
CLUSTER JERRQUICOS.
OPCIN GRFICOS
Permite
obtener
el
dendrograma y los vertical
u horizontal icicle plots, o
diagramas de tmpanos.
CLUSTER JERRQUICOS.7
distancia
Cluster 2
3
5
0
Cluster 1
objeto
Cluster C
3
distancia
distancia
Cluster B
0
Cluster 2
3
Cluster A
objeto
5
1
Cluster 3
0
1
Cluster 1
objeto
CLUSTER JERRQUICOS.
OPCIN GUARDAR
Permite
guardar
los
conglomerados
de
pertenencia
para
una
solucin nica o para un
rango de soluciones. Las
variables
guardadas
pueden
emplearse
en
anlisis posteriores para
explorar otras diferencias
entre grupos.
PROCEDIMIENTO K-MEANS
Una vez seleccionadas las variables y determinado el nmero de conglomerados

que deseamos obtener podemos elegir entre iterar y clasificar o slo clasificar.
Para obtener mxima eficacia, podemos tomar una muestra de casos utilizar el
mtodo iterar y clasificar para determinar los centros de los conglomerados.
Seleccionamos escribir finales en archivo.
Despus repetimos el anlisis con slo clasificar leyendo los iniciales del archivo
anterior
OPCIN ITERAR
Para la opcin iterar se puede

determinar el nmero mximo de
iteraciones, o bien fijar un criterio de
convergencia mayor de cero y menor de
uno.
La opcin usar medias actualizadas

recalcula centroides con cada individuo
asignado al grupo, sino deselecciona
esta opcin no se recalculan hasta que
todos los individuos estn asignados.
Opcin guardar
permite crear una nueva

variable que indica para cada
caso el conglomerado al que
pertenece y si se quiere otra
variable con la distancia entre
cada caso y su centro de
clasificacin.
BOTN OPCIONES
Centros iniciales de los conglomerados
Conglomerado
Cereales
40,10
56,70
18,60
Feculas
4,00
1,10
5,20
frutossecos
5,40
3,70
1,50
Conglomerado
frutasverduras
4,20
4,20
3,80
Distancias entre los centros de los conglomerados finales
2
14,925
14,925
14,864
3
14,864
29,698
29,698
BOTN OPCIONES
ANOVA
Conglomerado
Media
cuadrtica
Error
Media
cuadrtica
gl
Sig.
gl
F
Cereales
Feculas
frutossecos
frutasverduras
1324,656
10,972
22
120,727
,000
9,194
2,077
22
4,426
,024
15,636
2,880
22
5,429
,012
1,832
3,383
22
,542
,589
Las pruebas F slo se deben utilizar con una finalidad descriptiva puesto que los
conglomerados han sido elegidos para maximizar las diferencias entre los casos en
diferentes conglomerados. Los niveles crticos no son corregidos, por lo que no pueden
interpretarse como pruebas de la hiptesis de que los centros de los conglomerados son
iguales.
BOTN OPCIONES
Nmero de casos en cada conglomerado
Conglomerado
7,000
3,000
3
Vlidos
Perdidos
15,000
25,000
,000
PROCEDIMIENTO DE CLUSTER
EN DOS PASOS
Est basado en un algoritmo que produce resultados

ptimos si todas las variables son independientes, las
continuas normalmente distribuidas y las categricas
multinomiales, pero funciona razonablemente bien en
ausencia de estos supuestos.
La solucin final depende del orden de entrada de los datos.
Para minimizar el efecto habramos de ordenar el fichero de
forma aleatoria.
Pasos:
primer paso: formacin de precluster de los casos
originales, Estos son clusters de los datos originales que se
utilizarn en lugar de las filas del fichero original para
realizar los cluster jerrquicos en el segundo paso.
paso Todos
los casos pertenecientes a un mismo precluster se tratan
como un entidad sencilla.
EN DOS PASOS
-Seleccionaremos
las
variables
categricas
y
continuas
que
formaran parte del anlisis
-Elegiremos las distancias:
-Cuando se tengan datos mixtos la
distancia que debemos de utilizar es
el log-verosimilitud. La distancia
entre dos clusters depender del
decremento en el log-verosimilitud
cuando ambas se combinan en un
nico cluster. Si se trata de datos
continuos se puede usar la distancia
eucldea entre los centros de los
clusters.
EN DOS PASOS
La opcin nmero de clusters

permite especificar el nmero
deseado de conglomerados o
dejar que el algoritmo
seleccione el nmero de
clusters basado en dos criterios
BIC (criterio Bayesiano) o AIC
(criterio de informacin de
Akaike).
El mtodo requiere
estandarizacin de todas las
variables por lo que por defecto
la efecta y nos informa del
nmero de variables a
estandarizar.
EN DOS PASOS
OPCIN GRFICOS
-Grfico de porcentaje intra
conglomerado:
Muestra los grficos que indican variacin de
cada variable dentro de los conglomerados.
En categricas se genera un grfico de barras
agrupado, mostrando la frecuencia de las
categoras en cada conglomerado.
En las contnuas un grafico de barras de error
para la variable en cada conglomerado..
EN DOS PASOS
OPCIN GRFICOS
-Grfico de sectores de
conglomerados: :
Tamao de conglomerado
porcentaje y frecuencia de individuos

en cada conglomerado.
Nmero de
conglomerados en dos
fases
1
2
3
EN DOS PASOS
OPCIN GRFICOS
Grfico de importancia de
variables : :
:Muestra varios grficos que indican la

importancia de cada variable en cada
conglomerado.
Los resultados se pueden ordenar segn el nivel
de importancia de cada variable por
conglomerado o por variable. En el primer
caso para cada conglomerado se crearan
grficos por orden de importancia de
variables. En el segundo caso para cada
variable por conglomerados.
EN DOS PASOS
OPCIN GRFICOS
Medida de importancia de
variables : :
:La opcin permite seleccionar la medida de la

importancia para representar en el grfico:
chi-cuadrado o t-student (categricas y
cuantitativas respectivamente).
Hay que seleccionar el nivel de significacin
global si se quiere que aparezcan las lneas
correspondientes al valor crtico
Huevos
Ajuste de Bonferroni aplicado
Valor crtico
Estadstico de
contraste
Conglomerado
-40
-20
t de Student
20
40

Análisis de Conglomerados

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Análisis de Conglomerados

Cargado por

Copyright:

Formatos disponibles

ANALISIS DE CLUSTER

ANALISIS DE CLUSTER EN SPSS

ANALISIS DE CLUSTER EN SPSS

Tres posibles OPCIONES

ANALISIS DE CLUSTER EN SPSS

1.- Cluster en dos etapas.etapas est pensado para

ANALISIS DE CLUSTER EN SPSS

2.- Cluster no jerrquicos .- slo puede

ANALISIS DE CLUSTER EN SPSS

Para variables cuantitativas o bien para

El primer paso es la seleccin de variables:

Como se observa pueden etiquetarse los grupos con una de

Historial muestra los casos o

Una vez seleccionadas las variables y determinado el nmero de conglomerados

Para la opcin iterar se puede

La opcin usar medias actualizadas

permite crear una nueva

Centros iniciales de los conglomerados

Distancias entre los centros de los conglomerados finales

Nmero de casos en cada conglomerado

Est basado en un algoritmo que produce resultados

La opcin nmero de clusters

porcentaje y frecuencia de individuos

:Muestra varios grficos que indican la

:La opcin permite seleccionar la medida de la

También podría gustarte