Está en la página 1de 12

Anlisis Multidimensional Universidad Nacional del Santa

Doctorado en Estadstica Matemtica Escuela de Postgrado

Anlisis Cluster de los Modelos Jerrquicos con SPSS


Elegir en los mens Analizar/Clasificar/Conglomerados Jerrquicos y seleccione las
variables a ser agrupadas.
Las opciones disponibles son: Estadsticos, Grficos, Mtodo y Guardar.
I: Botn Mtodo: Debe decidirse qu mtodo se va a utilizar. Las opciones son.
Mtodo de conglomeracin: Es el mtodo que se utiliza para calcular las distancias:
vinculacin intergrupos, vinculacin intra grupos, vecino ms prximo, vecino
ms lejano, agrupacin de centroides, agrupacin de medianas y mtodo Ward.
Medida Permite especificar La medida de distancia o similitud que se utilizar en la
agrupacin. Dependiendo del tipo de datos que se disponga se usar una u otra medida.
Transformar valores: Permite estandarizar los valores de los datos por casos o por
variables, antes de calcular las proximidades. Los mtodos disponibles son: puntuaciones
Z, rango -1 a 1, rango 0 a 1, magnitud mxima de 1, media de 1 y desviacin tpica de 1.
Transformar medidas. Permite transformar los valores generados por la medida de
distancia. Se aplican despus de calcular la medida de distancia. Las opciones disponibles
son: valores absolutos, cambiar el signo y cambiar la escala al rango 0 1.
Es conveniente utilizar varios mtodos distintos y comparar los resultados finales, ya que no
existe un procedimiento para decidir cul de los mtodos es mejor.

II. Botn Estadsticos: Se puede obtener:

Historial de conglomeracin. Muestra los conglomerados en cada etapa.


Medida de distancia. Proporciona las distancias o similitudes entre los elementos.
Conglomerado de pertenencia: Muestra el conglomerado al cual se asigna cada caso en
una o varias etapas de la combinacin de los conglomerados. Las opciones son:
solucin nica y Rango de soluciones.

III. Botn Grficos: Es la parte ms interesante del Anlisis Cluster, aparece el dendograma. El
dendograma es la representacin grfica de la formacin de los clusters. Es una representacin
ms intuitiva y que resumen toda la informacin del anlisis que son los clusters que se forman
y a la distancia a la que lo hacen.

I. Botn Guardar: Permite determinar un nmero o rango de grupos (clusters) previos y que se
guarde como una nueva variable.

Ejemplo: La Unin Europea ha decidido la incorporacin de nuevos miembros para el prximo


ao. En concreto: Letonia, Estonia, Lituania, Polonia, Repblica Checa, Eslovaquia, Eslovenia y
Hungra, tomando en consideracin una serie de variables representativas se pretende agrupar
a estos pases:
Amrica Odar Rosario Docente UNS
aodar_5@hotmail.com
1
Anlisis Multidimensional Universidad Nacional del Santa
Doctorado en Estadstica Matemtica Escuela de Postgrado

Pas PIBpc Inflacin Desempleo Coches Salariomedio/hora UsuariosInternet(%)


Letonia 3.3 3.4 8.2 235 1.9 7
Estonia 3.8 4.4 6.5 339 3 30
Lituania 3.3 1.3 12.9 317 2.3 7
Polonia 4.4 3.5 18.1 259 3.6 10
Rep.Checa 5.4 3.9 9.3 362 3.2 14
Eslovaquia 3.9 4.2 19.7 236 2.5 12
Hungra 4.9 6.2 5.6 235 2.9 15

PROCEDIMIENTO CON EL SPSS: MODELOS JERRQUICOS

1 Ingresa de la Data en el SPSS

2. Analizar/Clasificar/Conglomerados Jerrquicos y seleccione las variables a ser


agrupadas. En variables: todas las variables. En etiquetar los casos mediante: Pas

Amrica Odar Rosario Docente UNS


aodar_5@hotmail.com
2
Anlisis Multidimensional Universidad Nacional del Santa
Doctorado en Estadstica Matemtica Escuela de Postgrado

3 En la opcin Estadsticos: Seleccionar Historial de conglomeracin y matriz de distancias y


pulsar continuar

4En la opcin Grficos: Seleccionar Dendograma y Horizontal o vertical y pulsar continuar

Amrica Odar Rosario Docente UNS


aodar_5@hotmail.com
3
Anlisis Multidimensional Universidad Nacional del Santa
Doctorado en Estadstica Matemtica Escuela de Postgrado

5 En la opcin Mtodo: Seleccionar en Mtodo de conglomeracin: Vinculacin entre


grupos, en Medida: Distancia Eucldea al cuadrado y en Transformar datos: Puntuaciones Z
y pulsar continuar

6 En la opcin Guardar: Seleccionar ningunoy pulsar continuar y aceptar

RESULTADOS

Amrica Odar Rosario Docente UNS


aodar_5@hotmail.com
4
Anlisis Multidimensional Universidad Nacional del Santa
Doctorado en Estadstica Matemtica Escuela de Postgrado

1 Matriz de distancias: Esta matriz seala las distancias entre los individuos (pases, empresa,
etc.) segn la distancia eucldea al cuadrado. Esta matriz es simtrica y si la observamos
veremos que el primer cluster observado estar formado por aquellos pases ms cercamos
(con menor distancia entre ellos) que son Letonia y Lituania

Matriz de distancias
distancia eucldea al cuadrado
Caso
1:A 2:B 3:C 4:D 5:E 6:F 7:G
1:A .000 16.708 5.507 14.062 18.358 6.565 11.957
2:B 16.708 .000 16.340 14.881 8.799 15.092 10.712
3:C 5.507 16.340 .000 11.391 14.421 8.706 21.358
4:D 14.062 14.881 11.391 .000 8.404 4.586 10.864
5:E 18.358 8.799 14.421 8.404 .000 13.878 8.999
6:F 6.565 15.092 8.706 4.586 13.878 .000 10.411
7:G 11.957 10.712 21.358 10.864 8.999 10.411 .000
Esta es una matriz de disimilaridades

2 Historial de conglomeracin: Nos va indicando el orden de las uniones y la distancia a la


que lo hacen. Por ejemplo: En primer lugar se une el pas 4 (Polonia) con el 6 (Eslovaquia)
como se observa son los que tienen menor distancia entre s (4,586). En segundo lugar se
unen el pas 1 (Letonia) con el 3 (Lituania), ambos los separa una distancia eucldea al
cuadrado de 5, 507. Luego se unen el 2 (Estonia) con 5 (Repblica Checa). Las tres columnas
siguientes indican cuando se forman por primera vez un multicluster, es decir, un grupo de ms
de dos individuos. Esto sucede en el paso 4. En l se unen el pas 1 (Letonia) (que ya estaba
unido desde el primer paso al pas 3 (Lituania) y el 4 (Polonia) que ya estaba unido al 6
(Eslovaquia).

Historial de conglomeracin
Etapa en la que el
conglomerado aparece por
Etapa Conglomerado que se combina primera vez
Conglomerad Conglomerad Conglomerad Conglomerad Prxima
o1 o2 Coeficientes o1 o2 etapa
1 4 6 4.586 0 0 5
2 1 3 5.507 0 0 5
3 2 5 8.799 0 0 4
4 2 7 9.855 3 0 6
5 1 4 10.181 2 1 6
6 1 2 14.389 5 4 0
Amrica Odar Rosario Docente UNS
aodar_5@hotmail.com
5
Anlisis Multidimensional Universidad Nacional del Santa
Doctorado en Estadstica Matemtica Escuela de Postgrado

3 Dendograma: En el Dendograma la distancia de agrupamiento aparece en el eje y los


sujetos en el otro En nuestro ejemplo, en la primera etapa, se agrupan los pases de Polonia (4)
y Eslovaquia (6), despus los pases de Letonia (1) y Lituania (3), despus el pas de Letonia
(1) se agrup con los pases 4 y 6.

NOTA: Luego de haber visualizado el Dendograma repetimos el procedimiento y a travs de la opcin


Guardar se le puede indicar que se guarde en forma de nuevas variables el grupo al que estara asociado

Amrica Odar Rosario Docente UNS


aodar_5@hotmail.com
6
Anlisis Multidimensional Universidad Nacional del Santa
Doctorado en Estadstica Matemtica Escuela de Postgrado

cada pas. Por ejemplo podemos pedirle que se agrupe a los pases en tres grupos.

Al hacerlo el SPSS guarda como nueva variable el grupo al que pertenecera el pas. Al observar
la pantalla de datos aparece una nueva variable que de un modo automtico el SPSS o ha
denominado CLU3_1y que recoge el grupo de pertenencia.

Los grupos que se forman son los siguientes.


Cluster 1 Cluster 2 Cluster 3

Amrica Odar Rosario Docente UNS


aodar_5@hotmail.com
7
Anlisis Multidimensional Universidad Nacional del Santa
Doctorado en Estadstica Matemtica Escuela de Postgrado

Letonia Estonia Polonia


Lituania Repblica Checa Eslovaquia
Hungra
Conglomerado de
pertenencia
3
Caso
conglomerados
1:A 1
2:B 2
3:C 1
4:D 3
5:E 2
6:F 3
7:G 2

Anlisis Cluster de los Modelos No Jerrquicos con SPSS


1 Homogenizar las variables:
1.1 Elegir en los mens Analizar/Estadsticos Descriptivos/Descriptivos y seleccionar
todas las variables numricas y activar la opcin Guardar valores tipificados como variables
y pulsar aceptar.

Visualizar en Editor de datos los valores tipificados (ZIPBpc, ZInflacin, ..., etc.), estas variables
se usarn en el anlisis.

Amrica Odar Rosario Docente UNS


aodar_5@hotmail.com
8
Anlisis Multidimensional Universidad Nacional del Santa
Doctorado en Estadstica Matemtica Escuela de Postgrado

1.2 Proceso de Anlisis Cluster:

Elegir en los mens Analizar/Clasificar/Anlisis de Conglomerados de k medias


e introducimos todas las variables estandarizadas o tipificadas y pasar la variable Pas a
Etiquetar los casos mediante, y en la opcin Nmero de conglomerados: 3,
y pulsar aceptar.
Elegir la opcin Iterar sin modificar, por defecto el nmero mximo de iteraciones 10 y
pulsar continuar

Elegir la opcin Guardar y seleccionamos Conglomerado de pertenencia (indica el grupo al


que pertenece cada pas) y Distancia desde el centro del conglomerado y pulsar continuar.

Amrica Odar Rosario Docente UNS


aodar_5@hotmail.com
9
Anlisis Multidimensional Universidad Nacional del Santa
Doctorado en Estadstica Matemtica Escuela de Postgrado

En el botn Opciones seleccionar en Estadsticos: Centros de conglomerados iniciales,


Tabla de Anova e Informacin del conglomerado para cada caso y pulsar continuar y
aceptar.

RESULTADOS

Los resultados que ofrece el SPSS se refieren a los Centros iniciales de los conglomerados, y el
Historial de iteraciones, donde se incluyen los cambios en los centros de los clusters en cada
iteracin.
Centros iniciales de los conglomerados
Conglomerado
Amrica Odar Rosario Docente UNS
aodar_5@hotmail.com
10
Anlisis Multidimensional Universidad Nacional del Santa
Doctorado en Estadstica Matemtica Escuela de Postgrado

1 2 3
Puntua: PIBpc -1.05672 -.42985 .32239
Puntua: Inflacin -.30347 .38179 -.23495
Puntua: Desempleo -.58398 -.88744 1.18325
Puntua: Coches -.88340 1.01931 -.44432
Puntua: Salario_medio -1.51152 .39646 1.43718
Puntua: Usuarios_Internet -.83266 2.08164 -.45253

Historial de iteracionesa
Iteracin Cambio en los centros de los
conglomerados
1 2 3
1 1.173 1.636 1.160
dimension0

2 .000 .000 .000


a. Se ha logrado la convergencia debido a que
los centros de los conglomerados no presentan
ningn cambio o ste es pequeo. El cambio
mximo de coordenadas absolutas para cualquier
centro es de .000. La iteracin actual es 2. La
distancia mnima entre los centros iniciales es de
3.750.
Luego se obtiene el valor de los centroides finales que servirn para asignar los pases a cada
grupo.
Centros de los conglomerados finales
Conglomerado
1 2 3
Puntua: PIBpc -1.05672 .25970 .53135
Puntua: Inflacin -1.02300 .99853 .01632
Amrica Odar Rosario Docente UNS
aodar_5@hotmail.com
11
Anlisis Multidimensional Universidad Nacional del Santa
Doctorado en Estadstica Matemtica Escuela de Postgrado

Puntua: Desempleo -.16448 -.96777 .75483


Puntua: Coches -.13329 .06795 .04356
Puntua: Salario_medio -1.16461 .30974 .56992
Puntua: Usuarios_Internet -.83266 1.13133 -.19911

Luego se obtienen la asignacin de cada uno de los pases a los tres (3) conglomerados fijados
previamente.
Pertenencia a los conglomerados

Nmero de caso Pas Conglomerado Distancia

1 A 1 1,173

2 B 2 1,636

3 C 1 1,173

dimension0
4 D 3 1,160

5 E 3 2,108

6 F 3 1,780

7 G 2 1,636
ANOVA
Conglomerado Error
Media Media Sig
cuadrtica gl cuadrtica gl F P.
Puntua: PIBpc 1.608 2 .696 4 2.309 .215
Puntua: Inflacin 2.044 2 .478 4 4.276 .102
Puntua: Desempleo 1.818 2 .591 4 3.077 .155
Puntua: Coches .025 2 1.487 4 .017 .983
Puntua: Salario_medio 1.939 2 .530 4 3.658 .125
Puntua: Usuarios_Internet 2.033 2 .484 4 4.203 .104

Las pruebas F slo se deben utilizar con una finalidad descriptiva puesto que los conglomerados
han sido elegidos para maximizar las diferencias entre los casos en diferentes conglomerados.
Los niveles crticos no son corregidos, por lo que no pueden interpretarse como pruebas de la
hiptesis de que los centros de los conglomerados son iguales.

Amrica Odar Rosario Docente UNS


aodar_5@hotmail.com
12