Está en la página 1de 97

Curso de Postgrado en Herramientas Estadsticas Avanzadas: ANLISIS MULTIVARIANTE PARA INVESTIGACIN EN SISTEMAS AGROPECUARIOS

ANLISIS CLUSTER

Prof. Dr. Jos Perea Dpto. Produccin Animal

ANLISIS DE CONGLOMERADOS
1. Introduccin 2 Medidas de similaridad 2. 3. Anlisis jerrquico 4. Anlisis no jerrquico 5. Eleccin entre los distintos tipos p de anlisis 6. Caso prctico

clasificacin

Anlisis de interdependencias
Relacin entre variables Relacin entre casos Relacin entre objetos j

Mtricas

No mtricas

componentes principales

anlisis factorial

anlisis correspondencias

anlisis cluster

escalamiento multidimensional

introduccin

Tcnica para clasificar observaciones en grupos: Cada grupo sea homogneo respecto a las variables utilizadas para su formacin Que los grupos sean lo ms distintos posible unos de otros respectos a las variables consideradas La composicin de los grupos es desconocida a priori (en el anlisis discriminante o en la regresin logstica se conocen los grupos)

introduccin

Por ejemplo: Clasificar los animales de un rebao segn sus caractersticas productivas y aptitudes para la explotacin ecolgica (produccin de leche, produccin de carne, edad, enfermedades, rusticidad, prolificidad, fertilidad, aplomos, raza, etc.) Clasificar explotaciones ganaderas segn su implicacin en funciones no productivas

introduccin

P Pasos d l anlisis del li i cluster: l t Se tiene informacin de n casos y k variables Se establece un indicador que nos diga en qu medida cada par de observaciones se parece entre s (distancia o similaridad) Se crean los grupos de acuerdo a la medida de similaridad o distancia anterior. anterior Hay dos tipos de creacin de grupos y varios mtodos de agrupacin Se describen los grupos obtenidos y se comparan unos con otros Validacin del anlisis

medidas de similaridad

Medidas de similaridad

Ejemplo Se tiene informacin de la produccin de leche y del rendimiento quesero de d 8 cabras b


Cabra 1 2 3 4 5 6 7 8 Produccin leche Rendimiento quesero 225 10 225 15 210 0 30 200 35 325 20 375 25 450 40 500 35

medidas de similaridad

45 40 35 30 25 20 15 10 5 0 100 250 400 550

medidas de similaridad

45 40 35 30 25 20 15 10 5 0 100 250 400 550

medidas de similaridad

M did de Medidas d similaridad i il id d para variables i bl mtricas t i Distancia eucldea (D) entre dos casos: D = (Xip Xjp)2 En el ejemplo: (225 225) )2 + ( (15 10) )2 = 5 D12 = ( D13 = (210 225)2 + (30 10)2 = 196

Cabra 1 2 3 4 5 6 7 8

Produccin leche Rendimiento quesero 225 10 225 15 210 30 200 35 325 20 375 25 450 40 500 35

medidas de similaridad

Di t Distancia i eucldea ld al l cuadrado d d (D2) entre t dos d casos: Menos exigente que el anterior D = (Xip Xjp)2 D12 = (225 225)2 + (15 10)2 = 25 D13 = (210 225)2 + (30 10)2 = 38425
Cabra 1 2 3 4 5 6 7 8 Produccin leche Rendimiento quesero q 225 10 225 15 210 30 200 35 325 20 375 25 450 40 500 35

En el ejemplo: j p

medidas de similaridad

Di t Distancia i de d Minkowski: Mi k ki M = [ (Xip Xjp)2]1/n Los dos casos anteriores son un caso particular (n=2) de la distancia de Minkowski

Distancia city block o Manhatan: M = (Xip Xjp)

medidas de similaridad

45 40 35 30 25 20 15 10 5 0 100 250 400 550

c b

medidas de similaridad

Estandarizacin de los datos: Las distancias de similaridad son muy sensibles a las unidades en q que estn medidas las variables. En el ejemplo (distancia D2): D12 = (225 225)2 + (15 10)2 = 25 D13 = (210 225)2 + (30 10)2 = 38.425 Si la produccin de leche la medimos en centilitros: D12 = (22500 22500)2 + (15 10)2 = 25 D13 = (21000 22500)2 + (30 10)2 = 2.250.400 2 250 400

Lo ms comn en restar la media a cada observacin y dividir por la desviacin tpica (variables de media cero y d.t. 1)

medidas de similaridad

M did de Medidas d similaridad i il id d para datos d t binarios bi i Se utilizan con variables ficticias o con variables dicotmicas ( (p.e. 0 si=1) no=0; i 1) Se utiliza una tabla de doble entrada:

Ganadero G d 1 2 3 4 5

Ecolgico E l i 1 0 1 0 1

ATP 1 1 1 0 1

Soltero S lt 0 1 0 0 1

Estudios E t di 0 1 1 1 0

medidas de similaridad

Ganadero G d 1 2 3 4 5

Ecolgico E l i 1 0 1 0 1

ATP 1 1 1 0 1

Soltero S lt 0 1 0 0 1

Estudios E t di 0 1 1 1 0

1 2 1 0 1 1 1 0 2 0

medidas de similaridad

Ganadero G d 1 2 3 4 5

Ecolgico E l i 1 0 1 0 1

ATP 1 1 1 0 1

Soltero S lt 0 1 0 0 1

Estudios E t di 0 1 1 1 0

1 2 1 0 1 1 1

a c

0 2 0

b d

medidas de similaridad

M did Medidas: D2 = b + c D=b+c Diferencia de tamao = (bc) (b c)2/(a+b+c+d)2 Diferencia de configuracin = (b (b*c)/(a+b+c+d) c)/(a+b+c+d)2 Diferencia de forma = [(a+b+c+d) [(a+b+c+d)*(b+c) (b+c)-(bc) (b c)2]/(a+b+c+d)2

anlisis jerrquico

F Formacin i de d grupos: Anlisis jerrquico: Inicialmente cada caso es un grupo en s mismo i y sucesivamente i t se van fusionando f i d grupos cercanos hasta que todos los individuos confluyen en un solo g p grupo. Anlisis no jerrquico: Inicialmente se establece el nmero de grupos y cada caso se asigna a uno de ellos.

Ntese que si elegimos p.e. 3 grupos, en el mtodo jerrquico los grupos proceden de fusionar dos grupos de la anterior combinacin de 4 y en el mtodo no jerrquico los 3 grupos se habrn confeccionado para maximizar la heterogeneidad entre grupos y la homogeneidad dentro de grupos.

anlisis jerrquico

Ej Ejemplo: l 12 casos (explotaciones ecolgicas de vacuno lechero) Agrupar segn las siguientes variables: (superficie p dedicada a la actividad en ha) ) NHT ( NHT_NHP (superficie en propiedad %) NVAC (nmero de vacas) TREP (tasa de reposicin) TMORT (tasa de mortalidad) CARGA (carga ganadera UGM/ha) ITC (ndice terneros comerciales) ILC (ndice de litros comerciales)

anlisis jerrquico

Utilizando Utili d el l anlisis li i jerrquico j i con la l distancia di t i eucldea ld y el l mtodo de Ward:

Dendrogram
Ward's Method,Squared Euclidean 100 80

Dist tance

60 40 20 0 1 7 2 3 5 6 4 8 10 9 11 12

anlisis jerrquico

Utilizando Utili d el l anlisis li i jerrquico j i con la l distancia di t i eucldea ld y el l mtodo de Ward:

Dendrogram
Ward's Method,Squared Euclidean 100 80

Dist tance

60 40 20 0 1 7 2 3 5 6 4 8 10 9 11 12

anlisis jerrquico

Utilizando Utili d el l anlisis li i jerrquico j i con la l distancia di t i eucldea ld y el l mtodo de Ward: G Grupo I 1, I: 1 3, 3 5, 5 6, 6 7, 7 10 Grupo II: 4, 8, 9, 11 Grupo III: 12

Utilizando el anlisis no jerrquico con la distancia eucldea: Grupo I: 1, 1 7, 7 12 Grupo II: 4, 8, 9, 10 Grupo III: 2, 3, 5, 6, 11

anlisis jerrquico

Mt d de Mtodos d agrupacin i jerrquica j i : Mtodo del centroide Mtodo del vecino ms cercano j Mtodo del vecino ms lejano Mtodo de la vinculacin promedio Mtodo de Ward

anlisis jerrquico

Mt d del Mtodos d l centroide t id : Comienza cercanas. uniendo las dos observaciones ms

A continuacin, el grupo se sustituye por una observacin que lo representa (centroide) y en el que todas las variables toman un valor medio. Se vuelven a calcular la matriz de distancias (D, (D D2, etc.), se unen otro par de observaciones y se recalcula la matriz. As hasta que todas las observaciones quedan en un solo grupo.

anlisis jerrquico

Mtodos del vecino ms cercano: Igual que el mtodo del centroide pero vara el clculo de la distancia. Las distancias entre los grupos a fusionar se calculan tomando las observaciones ms cercanas de cada grupo (en ( vez del d l valor l medio). di )
45 40 35 30 25 20 15 10 5 0 100 250 400 550

anlisis jerrquico

Mtodos del vecino ms cercano: Igual que el mtodo del centroide pero vara el clculo de la distancia. Las distancias entre los grupos a fusionar se calculan tomando las observaciones ms cercanas de cada grupo (en ( vez del d l valor l medio). di )
45 40 35 30 25 20 15 10 5 0 100 250 400 550

anlisis jerrquico

Mtodos del vecino ms cercano: Igual que el mtodo del centroide pero vara el clculo de la distancia. Las distancias entre los grupos a fusionar se calculan tomando las observaciones ms cercanas de cada grupo (en ( vez del d l valor l medio). di )
45 40 35 30 25 20 15 10 5 0 100 250 400 550

anlisis jerrquico

Mtodos del vecino ms cercano: Igual que el mtodo del centroide pero vara el clculo de la distancia. Las distancias entre los grupos a fusionar se calculan tomando las observaciones ms cercanas de cada grupo (en ( vez del d l valor l medio). di )
45 40 35 30 25 20 15 10 5 0 100 250 400 550

anlisis jerrquico

Mtodos del vecino ms cercano: Igual que el mtodo del centroide pero vara el clculo de la distancia. Las distancias entre los grupos a fusionar se calculan tomando las observaciones ms cercanas de cada grupo (en ( vez del d l valor l medio). di )
45 40 35 30 25 20 15 10 5 0 100 250 400 550

anlisis jerrquico

Mtodos del vecino ms cercano: Igual que el mtodo del centroide pero vara el clculo de la distancia. Las distancias entre los grupos a fusionar se calculan tomando las observaciones ms cercanas de cada grupo (en ( vez del d l valor l medio). di )
45 40 35 30 25 20 15 10 5 0 100 250 400 550

anlisis jerrquico

Mtodos del vecino ms cercano: Igual que el mtodo del centroide pero vara el clculo de la distancia. Las distancias entre los grupos a fusionar se calculan tomando las observaciones ms cercanas de cada grupo (en ( vez del d l valor l medio). di )
45 40 35 30 25 20 15 10 5 0 100 250 400 550

anlisis jerrquico

Mtodos del vecino ms cercano: Igual que el mtodo del centroide pero vara el clculo de la distancia. Las distancias entre los grupos a fusionar se calculan tomando las observaciones ms cercanas de cada grupo (en ( vez del d l valor l medio). di )
45 40 35 30 25 20 15 10 5 0 100 250 400 550

anlisis jerrquico

Mtodos del vecino ms cercano: Igual que el mtodo del centroide pero vara el clculo de la distancia. Las distancias entre los grupos a fusionar se calculan tomando las observaciones ms cercanas de cada grupo (en ( vez del d l valor l medio). di )
45 40 35 30 25 20 15 10 5 0 100 250 400 550

anlisis jerrquico

Mtodos del vecino ms cercano: Igual que el mtodo del centroide pero vara el clculo de la distancia. Las distancias entre los grupos a fusionar se calculan tomando las observaciones ms cercanas de cada grupo (en ( vez del d l valor l medio). di )
45 40 35 30 25 20 15 10 5 0 100 250 400 550

anlisis jerrquico

Mt d del Mtodos d l vecino i ms lejano l j : Igual que el mtodo anterior pero utiliza las observaciones ms lejanas l j d cada de d grupo para calcular l l las l distancias. di t i

45 40 35 30 25 20 15 10 5 0 100 250 400 550

anlisis jerrquico

Mt d del Mtodos d l vecino i ms lejano l j : Igual que el mtodo anterior pero utiliza las observaciones ms lejanas l j d cada de d grupo para calcular l l las l distancias. di t i

45 40 35 30 25 20 15 10 5 0 100 250 400 550

anlisis jerrquico

Mt d del Mtodos d l vecino i ms lejano l j : Igual que el mtodo anterior pero utiliza las observaciones ms lejanas l j d cada de d grupo para calcular l l las l distancias. di t i

45 40 35 30 25 20 15 10 5 0 100 250 400 550

anlisis jerrquico

Mt d del Mtodos d l vecino i ms lejano l j : Igual que el mtodo anterior pero utiliza las observaciones ms lejanas l j d cada de d grupo para calcular l l las l distancias. di t i

45 40 35 30 25 20 15 10 5 0 100 250 400 550

anlisis jerrquico

Mt d del Mtodos d l vecino i ms lejano l j : Igual que el mtodo anterior pero utiliza las observaciones ms lejanas l j d cada de d grupo para calcular l l las l distancias. di t i

45 40 35 30 25 20 15 10 5 0 100 250 400 550

anlisis jerrquico

Mt d del Mtodos d l vecino i ms lejano l j : Igual que el mtodo anterior pero utiliza las observaciones ms lejanas l j d cada de d grupo para calcular l l las l distancias. di t i

45 40 35 30 25 20 15 10 5 0 100 250 400 550

anlisis jerrquico

Mt d del Mtodos d l vecino i ms lejano l j : Igual que el mtodo anterior pero utiliza las observaciones ms lejanas l j d cada de d grupo para calcular l l las l distancias. di t i

45 40 35 30 25 20 15 10 5 0 100 250 400 550

anlisis jerrquico

Mt d del Mtodos d l vecino i ms lejano l j : Igual que el mtodo anterior pero utiliza las observaciones ms lejanas l j d cada de d grupo para calcular l l las l distancias. di t i

45 40 35 30 25 20 15 10 5 0 100 250 400 550

anlisis jerrquico

Mt d del Mtodos d l vecino i ms lejano l j : Igual que el mtodo anterior pero utiliza las observaciones ms lejanas l j d cada de d grupo para calcular l l las l distancias. di t i

45 40 35 30 25 20 15 10 5 0 100 250 400 550

anlisis jerrquico

Mt d del Mtodos d l vecino i ms lejano l j : Igual que el mtodo anterior pero utiliza las observaciones ms lejanas l j d cada de d grupo para calcular l l las l distancias. di t i

45 40 35 30 25 20 15 10 5 0 100 250 400 550

anlisis jerrquico

Mt d de Mtodos d la l vinculacin i l i promedio di : La distancia entre los grupos se obtiene calculando la di t distancia i promedio di entre t t d todos l los pares de d observaciones que pueden formarse entre los dos grupos g p fusionar.
45 40 35 30 25 20 15 10 5 0 100 250 400 550

anlisis jerrquico

Mt d de Mtodos d la l vinculacin i l i promedio di : La distancia entre los grupos se obtiene calculando la di t distancia i promedio di entre t t d todos l los pares de d observaciones que pueden formarse entre los dos grupos g p fusionar.
45 40 35 30 25 20 15 10 5 0 100 250 400 550

anlisis jerrquico

Mt d de Mtodos d la l vinculacin i l i promedio di :

45 40 35 30 25 20 15 10 5 0 100 250 400 550

anlisis jerrquico

Mt d de Mtodos d Ward W d: El mtodo de Ward es el ms utilizado (maximiza la h homogeneidad id d dentro d t de d los l grupos). ) Para ello, plantea todas las posibles fusiones en cada etapa concreta y elige la que maximiza la homogeneidad: Calcula los centroides de los grupos resultantes de las posibles fusiones A continuacin calcula la distancia al centroide de todas las observaciones del grupo (suma de cuadrados total) La solucin con menor suma de cuadrados total es la elegida

Ejemplo mtodo de Ward (distancia


Cabra 1 2 3 4 5 6 7 8

D2):

anlisis jerrquico

Produccin leche Rendimiento quesero 225 10 225 15 210 30 200 35 325 20 375 25 450 40 500 35

45 40 35 30 25 20 15 10 5 0 100 250 400 550

8 4 3 5 1 2 6 7

Ejemplo mtodo de Ward (distancia Posibles fusiones: (1,2,3,4) ( , , , )y( (5,6) , )


Cabra 1 2 3 4 5 6 7 8

D2):

anlisis jerrquico

Produccin leche Rendimiento quesero 225 10 225 15 210 30 200 35 325 20 375 25 450 40 500 35

45 40 35 30 25 20 15 10 5 0 100 250 400 550

8 4 3 5 1 2 6 7

Ejemplo mtodo de Ward (distancia Posibles fusiones: (5,6) y (7,8)


Cabra 1 2 3 4 5 6 7 8

D2):

anlisis jerrquico

Produccin leche Rendimiento quesero 225 10 225 15 210 30 200 35 325 20 375 25 450 40 500 35

45 40 35 30 25 20 15 10 5 0 100 250 400 550

8 4 3 5 1 2 6 7

Ejemplo mtodo de Ward (distancia Posibles fusiones:


Cabra 1 2 3 4 5 6 7 8

D2):

anlisis jerrquico

(1 2 3 4) y (7,8) (1,2,3,4) (7 8)
45 40 35 30 25 20 15 10 5 0 100 250

Produccin leche Rendimiento quesero 225 10 225 15 210 30 200 35 325 20 375 25 450 40 500 35

8 4 3 5 1 2 6 7

400

550

Ejemplo mtodo de Ward (distancia Posibles fusiones: (1,2,3,4) ( , , , )y( (5,6) , ) (5,6) y (7,8) (1 2 3 4) y (7,8) (1,2,3,4) (7 8)
45 40 35 30 25 20 15 10 5 0 100 250
Cabra 1 2 3 4 5 6 7 8

D2):

anlisis jerrquico

Produccin leche Rendimiento quesero 225 10 225 15 210 30 200 35 325 20 375 25 450 40 500 35

8 4 3 5 1 2 6 7

400

550

Ejemplo mtodo de Ward (distancia


Grupos (1,2,3,4) (5,6) (5 6) (7 (5,6) (7,8) 8) (1,2,3,4) (7,8)
45 40 35 30 25 20 15 10 5 0 100 200 300

D2):

anlisis jerrquico

Produccin leche Rendimiento quesero 260,0 22,5 412 5 412,5 30 0 30,0 301,7 27,5

400

500

600

Ejemplo mtodo de Ward (distancia


Grupos (1,2,3,4) (5,6) (5 6) (7 (5,6) (7,8) 8) (1,2,3,4) (7,8)
45 40 35 30 25 20 15 10 5 0 100 200 300

D2):

anlisis jerrquico

Produccin leche Rendimiento quesero 260,0 22,5 412 5 412,5 30 0 30,0 301,7 27,5

400

500

600

Ejemplo mtodo de Ward (distancia


Grupos (1,2,3,4) (5,6) (5 6) (7 (5,6) (7,8) 8) (1,2,3,4) (7,8)
45 40 35 30 25 20 15 10 5 0 100 200 300

D2):

anlisis jerrquico

Produccin leche Rendimiento quesero 260,0 22,5 412 5 412,5 30 0 30,0 301,7 27,5

400

500

600

Ejemplo mtodo de Ward (distancia


Grupos (1,2,3,4) (5,6) (5 6) (7 (5,6) (7,8) 8) (1,2,3,4) (7,8)
45 40 35 30 25 20 15 10 5 0 100 200 300

D2):

anlisis jerrquico

Produccin leche Rendimiento quesero 260,0 22,5 412 5 412,5 30 0 30,0 301,7 27,5

400

500

600

Ejemplo mtodo de Ward (distancia


Grupos (1,2,3,4) (5,6) (5 6) (7 (5,6) (7,8) 8) (1,2,3,4) (7,8)
45 40 35 30 25 20 15 10 5 0 100 200 300

D2):

anlisis jerrquico

Produccin leche Rendimiento quesero 260,0 22,5 412 5 412,5 30 0 30,0 301,7 27,5

400

500

600

Ejemplo mtodo de Ward (distancia


Grupos (1,2,3,4) (5,6) (5 6) (7 (5,6) (7,8) 8) (1,2,3,4) (7,8)
45 40 35 30 25 20 15 10 5 0 100 200 300

D2):

anlisis jerrquico

Produccin leche Rendimiento quesero 260,0 22,5 412 5 412,5 30 0 30,0 301,7 27,5

400

500

600

Ejemplo mtodo de Ward (distancia


Grupos G (1,2,3,4) (5,6) (5,6) (7,8) (1,2,3,4) (7,8)

D2):

anlisis jerrquico

Produccin P d i leche l h Rendimiento R di i t quesero 260,0 22,5 412,5 30,0 301,7 27,5
Cabra 1 2 3 4 5 6 7 8 Produccin leche Rendimiento quesero 225 10 225 15 210 30 200 35 325 20 375 25 450 40 500 35

D1,2,3,4,5,6 1 2 3 4 5 6 = 26437 D1,2,3,4,7,8 = 111625 D5,6,7,8 = 103137

Ejemplo mtodo de Ward (distancia


Grupos G (1,2,3,4) (5,6) (5,6) (7,8) (1,2,3,4) (7,8)

D2):

anlisis jerrquico

Produccin P d i leche l h Rendimiento R di i t quesero 260,0 22,5 412,5 30,0 301,7 27,5
Cabra 1 2 3 4 5 6 7 8 Produccin leche Rendimiento quesero 225 10 225 15 210 30 200 35 325 20 375 25 450 40 500 35

D1,2,3,4,5,6 , , , , , = 26437 D1,2,3,4,7,8 = 111625 D5,6,7,8 5 6 7 8 = 103137

anlisis jerrquico

El Eleccin i del d l mtodo t d de d agrupacin i jerrquica j i : Sigue planteando interrogantes a resolver Probar varios mtodos y comparar los resultados p Mtodo del vecino ms cercano: Tiende a crear pocos grupos, aunque es muy sensible a outliers Mtodo del homogneos vecino ms j lejano: Grupos p muy y

Mtodo de Ward: Tiende a grupos muy compactos de tamao similar

anlisis jerrquico

S l Seleccin i del d l nmero d conglomerados de l d : Problema que an plantea dudas. Dos criterios: grupos p a unir Debe detenerse la fusin cuando los g estn a una distancia significativamente mayor de los que previamente se han fusionado. El investigador debe interpretar adecuadamente cada grupo de la solucin final.

anlisis jerrquico

S l Seleccin i del d l nmero d conglomerados de l d :

Distancia de los conglomerados (DC) Tasa de variacin del coeficiente de conglomeracin Raz cuadrada de la media de las D.T. del nuevo cluster (RC) R2 semiparcial (R2S) R cuadrado (R2)

anlisis jerrquico

Di t Distancia i de d los l conglomerados l d (DC): (DC)

Indica la homogeneidad dentro del nuevo conglomerado. Responde a la distancia utilizada. p q El valor debe ser pequeo.

Num Cluster Num. 7 6 5 4 3 2 1

DC 3,6 5,38 5 65 5,65 7,07 11,88 13,5 35,03

anlisis jerrquico

T Tasa d variacin de i i del d l coeficiente fi i t de d conglomeracin: l i

El coeficiente de conglomeracin refleja la distancia a la que estaban los grupos fusionados en la etapa

Agglomeration Distance Plot


Ward's Method,Squared Euclidean 100 80

Dista ance

60 40 20 0 0 2 4 6 8 10 12

Stage

anlisis jerrquico

T Tasa d variacin de i i del d l coeficiente fi i t de d conglomeracin: l i

El coeficiente de conglomeracin refleja la distancia a la que estaban los grupos fusionados en la etapa

Agglomeration Distance Plot


Ward's Method,Squared Euclidean 100 80

Dista ance

60 40 20 0 0 2 4 6 8 10 12

Stage

anlisis jerrquico

T Tasa d variacin de i i del d l coeficiente fi i t de d conglomeracin: l i

El coeficiente de conglomeracin refleja la distancia a la que estaban los grupos fusionados en la etapa

Dendrogram g
Ward's Method,Squared Euclidean 100 80

Distan nce

60 40 20 0 1 7 2 3 5 6 4 8 10 0 9 11 1 12 2

anlisis jerrquico

T Tasa d variacin de i i del d l coeficiente fi i t de d conglomeracin: l i

El coeficiente de conglomeracin refleja la distancia a la que estaban los grupos fusionados en la etapa

Dendrogram g
Ward's Method,Squared Euclidean 100 80

Distan nce

60 40 20 0 1 7 2 3 5 6 4 8 10 0 9 11 1 12 2

anlisis jerrquico

T Tasa d variacin de i i del d l coeficiente fi i t de d conglomeracin: l i

El coeficiente de conglomeracin refleja la distancia a la que estaban los grupos fusionados en la etapa

Dendrogram g
Ward's Method,Squared Euclidean 100 80

Distan nce

60 40 20 0 1 7 2 3 5 6 4 8 10 0 9 11 1 12 2

anlisis jerrquico

T Tasa d variacin de i i del d l coeficiente fi i t de d conglomeracin: l i

El coeficiente de conglomeracin refleja la distancia a la que estaban los grupos fusionados en la etapa

Dendrogram g
Ward's Method,Squared Euclidean 100 80

Distan nce

60 40 20 0 1 7 2 3 5 6 4 8 10 0 9 11 1 12 2

anlisis jerrquico

T Tasa d variacin de i i del d l coeficiente fi i t de d conglomeracin: l i

El coeficiente de conglomeracin refleja la distancia a la que estaban los grupos fusionados en la etapa

Dendrogram g
Ward's Method,Squared Euclidean 100 80

Distan nce

60 40 20 0 1 7 2 3 5 6 4 8 10 0 9 11 1 12 2

anlisis jerrquico

T Tasa d variacin de i i del d l coeficiente fi i t de d conglomeracin: l i

El coeficiente de conglomeracin refleja la distancia a la que estaban los grupos fusionados en la etapa

Dendrogram g
Ward's Method,Squared Euclidean 100 80

Distan nce

60 40 20 0 1 7 2 3 5 6 4 8 10 0 9 11 1 12 2

anlisis jerrquico

T Tasa d variacin de i i del d l coeficiente fi i t de d conglomeracin: l i

El coeficiente de conglomeracin refleja la distancia a la que estaban los grupos fusionados en la etapa

Dendrogram g
Ward's Method,Squared Euclidean 100 80

Distan nce

60 40 20 0 1 7 2 3 5 6 4 8 10 0 9 11 1 12 2

anlisis jerrquico

T Tasa d variacin de i i del d l coeficiente fi i t de d conglomeracin: l i El coeficiente de conglomeracin refleja la distancia a la que estaban los grupos fusionados en la etapa

Dendrogram g
Ward's Method,Squared Euclidean 100 80

Distan nce

60 40 20 0 1 7 2 3 5 6 4 8 10 0 9 11 1 12 2

anlisis jerrquico

T Tasa d variacin de i i del d l coeficiente fi i t de d conglomeracin: l i El coeficiente de conglomeracin refleja la distancia a la que estaban los grupos fusionados en la etapa

Dendrogram g
Ward's Method,Squared Euclidean 100 80

Distan nce

60 40 20 0 1 7 2 3 5 6 4 8 10 0 9 11 1 12 2

anlisis jerrquico

T Tasa d variacin de i i del d l coeficiente fi i t de d conglomeracin: l i El coeficiente de conglomeracin refleja la distancia a la que estaban los grupos fusionados en la etapa

Dendrogram g
Ward's Method,Squared Euclidean 100 80

Distan nce

60 40 20 0 1 7 2 3 5 6 4 8 10 0 9 11 1 12 2

anlisis jerrquico

T Tasa d variacin de i i del d l coeficiente fi i t de d conglomeracin: l i El coeficiente de conglomeracin refleja la distancia a la que estaban los grupos fusionados en la etapa

Dendrogram g
Ward's Method,Squared Euclidean 100 80

Distan nce

60 40 20 0 1 7 2 3 5 6 4 8 10 0 9 11 1 12 2

anlisis jerrquico

T Tasa d variacin de i i del d l coeficiente fi i t de d conglomeracin: l i El coeficiente de conglomeracin refleja la distancia a la que estaban los grupos fusionados en la etapa
Agglomeration Schedule ---------------------Clustering Method: Ward's Distance Metric: Squared Euclidean Clusters Combined Stage g First Appears pp Next Stage Cluster 1 Cluster 2 Coefficient Cluster 1 Cluster 2 Stage -------------------------------------------------------------------------1 2 3 0,91948 0 0 4 2 5 6 2,27928 0 0 4 3 9 11 3 3,92254 92254 0 0 7 4 2 5 6,44183 1 2 6 5 1 7 9,0135 0 0 8 6 2 10 13,4301 4 0 8 7 8 9 19,2448 0 3 9 8 1 2 25,2716 5 6 10 9 4 8 40,384 0 7 10 10 1 4 60,5273 8 9 11 11 1 12 88,0 10 0 0 --------------------------------------------------------------------------

anlisis jerrquico

T Tasa d variacin de i i del d l coeficiente fi i t de d conglomeracin: l i El coeficiente de conglomeracin refleja la distancia a la que estaban los grupos fusionados en la etapa
Agglomeration Schedule ---------------------Clustering Method: Ward's Distance Metric: Squared Euclidean Clusters Combined Stage g First Appears pp Next Stage Cluster 1 Cluster 2 Coefficient Cluster 1 Cluster 2 Stage -------------------------------------------------------------------------1 2 3 0,91948 0 0 4 2 5 6 2,27928 0 0 4 3 9 11 3 3,92254 92254 0 0 7 4 2 5 6,44183 1 2 6 5 1 7 9,0135 0 0 8 6 2 10 13,4301 4 0 8 7 8 9 19,2448 0 3 9 8 1 2 25,2716 5 6 10 9 4 8 40,384 0 7 10 10 1 4 60,5273 8 9 11 11 1 12 88,0 10 0 0 --------------------------------------------------------------------------

anlisis jerrquico

R cuadrada Raz d d de d la l media di de d las l D.T. D T del d l nuevo cluster l t (RC): (RC)

Indica la homogeneidad del nuevo conglomerado. La suma de todas las desviaciones tpicas de todas las observaciones del nuevo conglomerado respecto al centroide. El valor debe ser pequeo.
Num Cluster Num. 7 6 5 4 3 2 1 DC 3,6 5,38 5 65 5,65 7,07 11,88 13,5 35,03 RC 1,8 2,69 2 82 2,82 3,53 5,22 6,07 14,24

anlisis jerrquico

R2 semiparcial i i l (R2S): (R2S) Indica la prdida de homogeneidad que se produce en la f i fusin. Su clculo se basa en el ratio entre la prdida de homogeneidad en cada fusin (suma de cuadrados tras la fusin menos la suma de cuadrados de los grupos que se unen) ) y la homogeneidad g mxima ( (cada observacin es un grupo). El valor debe ser pequeo.
Num. Cluster 7 6 5 4 3 2 1 DC 3,6 5,38 5,65 7,07 11,88 13,5 35,03 RC 1,8 2,69 2,82 3,53 5,22 6,07 14,24 R2S 0 0 0 0 0,04 0,06 0,86

anlisis jerrquico

R2 : Indica la heterogeneidad entre conglomerados en cada f i fusin. Ratio entre la heterogeneidad entre conglomerados y la total. El valor debe ser alto.
Num. Cluster 7 6 5 4 3 2 1 DC 3,6 5,38 5,65 7,07 11,88 13,5 35,03 RC 1,8 2,69 2,82 3,53 5,22 6,07 14,24 R2S 0 0 0 0 0,04 0,06 0,86 R2 0,99 0,99 0,98 0,97 0,92 0,86 0

anlisis jerrquico

DC DC: T. Var. CC: RC: R2S: R2:

h homogeneidad id d clusters l t f i fusionados d prdida homogeneidad en la fusin homogeneidad del nuevo cluster prdida homogeneidad en la fusin heterogeneidad entre clusters

P Pequeo Pequeo Pequeo Pequeo Grande

Num. Cluster 7 6 5 4 3 2 1

DC 3,6 5,38 5,65 7,07 11,88 13,5 35,03

RC 1,8 2,69 2,82 3,53 5,22 6,07 14,24

R2S 0 0 0 0 0,04 0,06 0,86

R2 0,99 0,99 0,98 0,97 0,92 0,86 0

anlisis jerrquico

DC DC: T. Var. CC: RC: R2S: R2:

h homogeneidad id d clusters l t f i fusionados d prdida homogeneidad en la fusin homogeneidad del nuevo cluster prdida homogeneidad en la fusin heterogeneidad entre clusters
Num. Cluster 7 6 5 4 3 2 1 DC 3,6 5,38 , 5,65 7,07 11,88 , 13,5 35,03 RC 1,8 2,69 2,82 , 3,53 5,22 6,07 , 14,24 R2S 0 0 0 0 0,04 0,06 , 0,86

P Pequeo Pequeo Pequeo Pequeo Grande


R2 0,99 0,99 0,98 , 0,97 0,92 0,86 , 0

40 35 30 25 20 15 10 5 0 0 1 2 3 4 5 6 7 8 DC RC

anlisis jerrquico

1 0,9 0,8 0,7 0,6 0,5 0,4 , 0,3 0,2 0,1 0 0 1 2 3 4 5 6 7 8 R2S R2

anlisis jerrquico

A li Analizar e interpretar i t t los l resultados: lt d ANOVA entre clusters con las variables utilizadas en el anlisis. li i ANOVA con las dems variables. Tabla de contingencia categricas. entre clusters para variables

Interpretar los resultados con las agrupaciones sucesivas.

anlisis no jerrquico

A li i no jerrquico: Anlisis j i Se conoce a priori el nmero de k grupos Cada observacin es asignada a un grupo g dentro de los g grupos p Maximiza la homogeneidad Maximiza la heterogeneidad entre grupos Etapas: 1. Determinar los centroides iniciales de los k grupos 2. Formacin de los grupos 3. Recalcular los centroides y formar grupos hasta la estabilidad

anlisis no jerrquico

1 Determinar 1. D t i l centroides los t id iniciales i i i l de d los l k grupos: Se utilizan las k primeras observaciones del fichero como centroides t id de d partida. tid Se calculan las distancias entre las k observaciones y se retiene la correspondiente a las 2 observaciones ms cercanas (O1-O2).

anlisis no jerrquico

1 Determinar 1. D t i l centroides los t id iniciales i i i l de d los l k grupos: A continuacin se determina si alguna de las 2 observaciones puede d ser sustituida tit id en el l centroide t id por la l observacin b i Ok+1. Ok+1 Si la distancia de Ok+1 a la observacin ms cercana perteneciente a las k observaciones centroides es mayor que la distancia entre las dos observaciones ms cercanas, Ok+1 sustituye y a O1 o a O2 ( (la ms cercana). ) Si la distancia de Ok+1 a cualquiera de las k observaciones centroides (exceptuando la ms cercana) es ms grande que la menor distancia de la ms cercana a todas las que integran el centroide, Ok+1 sustituye a Ok

anlisis no jerrquico

A continuacin ti i se determina d t i si i alguna l d las de l 2 observaciones b i puede d ser sustituida en el centroide por la observacin Ok+1. Si la distancia de Ok+1 a la observacin ms cercana perteneciente a las k observaciones centroides es mayor que la distancia entre las dos observaciones ms cercanas, Ok+1 sustituye a O1 o a O2 (la ms cercana). cercana) O2 Ok

O1

Ok+1

anlisis no jerrquico

A continuacin ti i se determina d t i si i alguna l d las de l 2 observaciones b i puede d ser sustituida en el centroide por la observacin Ok+1. Si la distancia de Ok+1 a la observacin ms cercana perteneciente a las k observaciones centroides es mayor que la distancia entre las dos observaciones ms cercanas, Ok+1 sustituye a O1 o a O2 (la ms cercana). cercana) Ok

O1

Ok+1

anlisis no jerrquico

A continuacin ti i se determina d t i si i alguna l d las de l 2 observaciones b i puede d ser sustituida por en el centroide por la observacin Ok+1. Si la distancia de Ok+1 a cualquiera de las k observaciones centroides (exceptuando la ms cercana) es ms grande que la menor distancia de la ms cercana a todas las que integran el centroide Ok+1 sustituye a Ok centroide,

O1

O2

Ok Ok+1

anlisis no jerrquico

A continuacin ti i se determina d t i si i alguna l d las de l 2 observaciones b i puede d ser sustituida por en el centroide por la observacin Ok+1. Si la distancia de Ok+1 a cualquiera de las k observaciones centroides (exceptuando la ms cercana) es ms grande que la menor distancia de la ms cercana a todas las que integran el centroide Ok+1 sustituye a Ok centroide,

O1

O2 Ok+1

El proceso se repite hasta que los k centroides se estabilizan. estabilizan

anlisis no jerrquico

2 Formacin 2. F i de d los l nuevos grupos: Se calcula distancia de cada observacin a los k centroides y se asigna i al l ms cercano. Se recalculan los centroides (etapa 1) y se vuelven a asignar las observaciones. observaciones El proceso finaliza cuando las observaciones no cambian de grupo o cuando se alcanza un determinado nmero de iteraciones (marcadas por el investigador)

eleccin

El Eleccin i entre t conglomerado l d jerrquico j i o no jerrquico: j i Sigue planteando dudas. Depende de los objetivos del estudio y de las propiedades de los distintos mtodos. Lo ideal sera un enfoque q j jerrquico q inicial y complementario p a un enfoque no jerrquico final: El anlisis jerrquico inicial determinara cul es el nmero de grupos y los centroides iniciales del posterior anlisis no jerrquico. El posterior anlisis no jerrquico maximiza la homogeneidad dentro de grupos y la heterogeneidad entre grupos. grupos

También podría gustarte