Documentos de Académico
Documentos de Profesional
Documentos de Cultura
ANLISIS CLUSTER
ANLISIS DE CONGLOMERADOS
1. Introduccin 2 Medidas de similaridad 2. 3. Anlisis jerrquico 4. Anlisis no jerrquico 5. Eleccin entre los distintos tipos p de anlisis 6. Caso prctico
clasificacin
Anlisis de interdependencias
Relacin entre variables Relacin entre casos Relacin entre objetos j
Mtricas
No mtricas
componentes principales
anlisis factorial
anlisis correspondencias
anlisis cluster
escalamiento multidimensional
introduccin
Tcnica para clasificar observaciones en grupos: Cada grupo sea homogneo respecto a las variables utilizadas para su formacin Que los grupos sean lo ms distintos posible unos de otros respectos a las variables consideradas La composicin de los grupos es desconocida a priori (en el anlisis discriminante o en la regresin logstica se conocen los grupos)
introduccin
Por ejemplo: Clasificar los animales de un rebao segn sus caractersticas productivas y aptitudes para la explotacin ecolgica (produccin de leche, produccin de carne, edad, enfermedades, rusticidad, prolificidad, fertilidad, aplomos, raza, etc.) Clasificar explotaciones ganaderas segn su implicacin en funciones no productivas
introduccin
P Pasos d l anlisis del li i cluster: l t Se tiene informacin de n casos y k variables Se establece un indicador que nos diga en qu medida cada par de observaciones se parece entre s (distancia o similaridad) Se crean los grupos de acuerdo a la medida de similaridad o distancia anterior. anterior Hay dos tipos de creacin de grupos y varios mtodos de agrupacin Se describen los grupos obtenidos y se comparan unos con otros Validacin del anlisis
medidas de similaridad
Medidas de similaridad
medidas de similaridad
medidas de similaridad
medidas de similaridad
M did de Medidas d similaridad i il id d para variables i bl mtricas t i Distancia eucldea (D) entre dos casos: D = (Xip Xjp)2 En el ejemplo: (225 225) )2 + ( (15 10) )2 = 5 D12 = ( D13 = (210 225)2 + (30 10)2 = 196
Cabra 1 2 3 4 5 6 7 8
Produccin leche Rendimiento quesero 225 10 225 15 210 30 200 35 325 20 375 25 450 40 500 35
medidas de similaridad
Di t Distancia i eucldea ld al l cuadrado d d (D2) entre t dos d casos: Menos exigente que el anterior D = (Xip Xjp)2 D12 = (225 225)2 + (15 10)2 = 25 D13 = (210 225)2 + (30 10)2 = 38425
Cabra 1 2 3 4 5 6 7 8 Produccin leche Rendimiento quesero q 225 10 225 15 210 30 200 35 325 20 375 25 450 40 500 35
En el ejemplo: j p
medidas de similaridad
Di t Distancia i de d Minkowski: Mi k ki M = [ (Xip Xjp)2]1/n Los dos casos anteriores son un caso particular (n=2) de la distancia de Minkowski
medidas de similaridad
c b
medidas de similaridad
Estandarizacin de los datos: Las distancias de similaridad son muy sensibles a las unidades en q que estn medidas las variables. En el ejemplo (distancia D2): D12 = (225 225)2 + (15 10)2 = 25 D13 = (210 225)2 + (30 10)2 = 38.425 Si la produccin de leche la medimos en centilitros: D12 = (22500 22500)2 + (15 10)2 = 25 D13 = (21000 22500)2 + (30 10)2 = 2.250.400 2 250 400
Lo ms comn en restar la media a cada observacin y dividir por la desviacin tpica (variables de media cero y d.t. 1)
medidas de similaridad
M did de Medidas d similaridad i il id d para datos d t binarios bi i Se utilizan con variables ficticias o con variables dicotmicas ( (p.e. 0 si=1) no=0; i 1) Se utiliza una tabla de doble entrada:
Ganadero G d 1 2 3 4 5
Ecolgico E l i 1 0 1 0 1
ATP 1 1 1 0 1
Soltero S lt 0 1 0 0 1
Estudios E t di 0 1 1 1 0
medidas de similaridad
Ganadero G d 1 2 3 4 5
Ecolgico E l i 1 0 1 0 1
ATP 1 1 1 0 1
Soltero S lt 0 1 0 0 1
Estudios E t di 0 1 1 1 0
1 2 1 0 1 1 1 0 2 0
medidas de similaridad
Ganadero G d 1 2 3 4 5
Ecolgico E l i 1 0 1 0 1
ATP 1 1 1 0 1
Soltero S lt 0 1 0 0 1
Estudios E t di 0 1 1 1 0
1 2 1 0 1 1 1
a c
0 2 0
b d
medidas de similaridad
M did Medidas: D2 = b + c D=b+c Diferencia de tamao = (bc) (b c)2/(a+b+c+d)2 Diferencia de configuracin = (b (b*c)/(a+b+c+d) c)/(a+b+c+d)2 Diferencia de forma = [(a+b+c+d) [(a+b+c+d)*(b+c) (b+c)-(bc) (b c)2]/(a+b+c+d)2
anlisis jerrquico
F Formacin i de d grupos: Anlisis jerrquico: Inicialmente cada caso es un grupo en s mismo i y sucesivamente i t se van fusionando f i d grupos cercanos hasta que todos los individuos confluyen en un solo g p grupo. Anlisis no jerrquico: Inicialmente se establece el nmero de grupos y cada caso se asigna a uno de ellos.
Ntese que si elegimos p.e. 3 grupos, en el mtodo jerrquico los grupos proceden de fusionar dos grupos de la anterior combinacin de 4 y en el mtodo no jerrquico los 3 grupos se habrn confeccionado para maximizar la heterogeneidad entre grupos y la homogeneidad dentro de grupos.
anlisis jerrquico
Ej Ejemplo: l 12 casos (explotaciones ecolgicas de vacuno lechero) Agrupar segn las siguientes variables: (superficie p dedicada a la actividad en ha) ) NHT ( NHT_NHP (superficie en propiedad %) NVAC (nmero de vacas) TREP (tasa de reposicin) TMORT (tasa de mortalidad) CARGA (carga ganadera UGM/ha) ITC (ndice terneros comerciales) ILC (ndice de litros comerciales)
anlisis jerrquico
Dendrogram
Ward's Method,Squared Euclidean 100 80
Dist tance
60 40 20 0 1 7 2 3 5 6 4 8 10 9 11 12
anlisis jerrquico
Dendrogram
Ward's Method,Squared Euclidean 100 80
Dist tance
60 40 20 0 1 7 2 3 5 6 4 8 10 9 11 12
anlisis jerrquico
Utilizando Utili d el l anlisis li i jerrquico j i con la l distancia di t i eucldea ld y el l mtodo de Ward: G Grupo I 1, I: 1 3, 3 5, 5 6, 6 7, 7 10 Grupo II: 4, 8, 9, 11 Grupo III: 12
Utilizando el anlisis no jerrquico con la distancia eucldea: Grupo I: 1, 1 7, 7 12 Grupo II: 4, 8, 9, 10 Grupo III: 2, 3, 5, 6, 11
anlisis jerrquico
Mt d de Mtodos d agrupacin i jerrquica j i : Mtodo del centroide Mtodo del vecino ms cercano j Mtodo del vecino ms lejano Mtodo de la vinculacin promedio Mtodo de Ward
anlisis jerrquico
A continuacin, el grupo se sustituye por una observacin que lo representa (centroide) y en el que todas las variables toman un valor medio. Se vuelven a calcular la matriz de distancias (D, (D D2, etc.), se unen otro par de observaciones y se recalcula la matriz. As hasta que todas las observaciones quedan en un solo grupo.
anlisis jerrquico
Mtodos del vecino ms cercano: Igual que el mtodo del centroide pero vara el clculo de la distancia. Las distancias entre los grupos a fusionar se calculan tomando las observaciones ms cercanas de cada grupo (en ( vez del d l valor l medio). di )
45 40 35 30 25 20 15 10 5 0 100 250 400 550
anlisis jerrquico
Mtodos del vecino ms cercano: Igual que el mtodo del centroide pero vara el clculo de la distancia. Las distancias entre los grupos a fusionar se calculan tomando las observaciones ms cercanas de cada grupo (en ( vez del d l valor l medio). di )
45 40 35 30 25 20 15 10 5 0 100 250 400 550
anlisis jerrquico
Mtodos del vecino ms cercano: Igual que el mtodo del centroide pero vara el clculo de la distancia. Las distancias entre los grupos a fusionar se calculan tomando las observaciones ms cercanas de cada grupo (en ( vez del d l valor l medio). di )
45 40 35 30 25 20 15 10 5 0 100 250 400 550
anlisis jerrquico
Mtodos del vecino ms cercano: Igual que el mtodo del centroide pero vara el clculo de la distancia. Las distancias entre los grupos a fusionar se calculan tomando las observaciones ms cercanas de cada grupo (en ( vez del d l valor l medio). di )
45 40 35 30 25 20 15 10 5 0 100 250 400 550
anlisis jerrquico
Mtodos del vecino ms cercano: Igual que el mtodo del centroide pero vara el clculo de la distancia. Las distancias entre los grupos a fusionar se calculan tomando las observaciones ms cercanas de cada grupo (en ( vez del d l valor l medio). di )
45 40 35 30 25 20 15 10 5 0 100 250 400 550
anlisis jerrquico
Mtodos del vecino ms cercano: Igual que el mtodo del centroide pero vara el clculo de la distancia. Las distancias entre los grupos a fusionar se calculan tomando las observaciones ms cercanas de cada grupo (en ( vez del d l valor l medio). di )
45 40 35 30 25 20 15 10 5 0 100 250 400 550
anlisis jerrquico
Mtodos del vecino ms cercano: Igual que el mtodo del centroide pero vara el clculo de la distancia. Las distancias entre los grupos a fusionar se calculan tomando las observaciones ms cercanas de cada grupo (en ( vez del d l valor l medio). di )
45 40 35 30 25 20 15 10 5 0 100 250 400 550
anlisis jerrquico
Mtodos del vecino ms cercano: Igual que el mtodo del centroide pero vara el clculo de la distancia. Las distancias entre los grupos a fusionar se calculan tomando las observaciones ms cercanas de cada grupo (en ( vez del d l valor l medio). di )
45 40 35 30 25 20 15 10 5 0 100 250 400 550
anlisis jerrquico
Mtodos del vecino ms cercano: Igual que el mtodo del centroide pero vara el clculo de la distancia. Las distancias entre los grupos a fusionar se calculan tomando las observaciones ms cercanas de cada grupo (en ( vez del d l valor l medio). di )
45 40 35 30 25 20 15 10 5 0 100 250 400 550
anlisis jerrquico
Mtodos del vecino ms cercano: Igual que el mtodo del centroide pero vara el clculo de la distancia. Las distancias entre los grupos a fusionar se calculan tomando las observaciones ms cercanas de cada grupo (en ( vez del d l valor l medio). di )
45 40 35 30 25 20 15 10 5 0 100 250 400 550
anlisis jerrquico
Mt d del Mtodos d l vecino i ms lejano l j : Igual que el mtodo anterior pero utiliza las observaciones ms lejanas l j d cada de d grupo para calcular l l las l distancias. di t i
anlisis jerrquico
Mt d del Mtodos d l vecino i ms lejano l j : Igual que el mtodo anterior pero utiliza las observaciones ms lejanas l j d cada de d grupo para calcular l l las l distancias. di t i
anlisis jerrquico
Mt d del Mtodos d l vecino i ms lejano l j : Igual que el mtodo anterior pero utiliza las observaciones ms lejanas l j d cada de d grupo para calcular l l las l distancias. di t i
anlisis jerrquico
Mt d del Mtodos d l vecino i ms lejano l j : Igual que el mtodo anterior pero utiliza las observaciones ms lejanas l j d cada de d grupo para calcular l l las l distancias. di t i
anlisis jerrquico
Mt d del Mtodos d l vecino i ms lejano l j : Igual que el mtodo anterior pero utiliza las observaciones ms lejanas l j d cada de d grupo para calcular l l las l distancias. di t i
anlisis jerrquico
Mt d del Mtodos d l vecino i ms lejano l j : Igual que el mtodo anterior pero utiliza las observaciones ms lejanas l j d cada de d grupo para calcular l l las l distancias. di t i
anlisis jerrquico
Mt d del Mtodos d l vecino i ms lejano l j : Igual que el mtodo anterior pero utiliza las observaciones ms lejanas l j d cada de d grupo para calcular l l las l distancias. di t i
anlisis jerrquico
Mt d del Mtodos d l vecino i ms lejano l j : Igual que el mtodo anterior pero utiliza las observaciones ms lejanas l j d cada de d grupo para calcular l l las l distancias. di t i
anlisis jerrquico
Mt d del Mtodos d l vecino i ms lejano l j : Igual que el mtodo anterior pero utiliza las observaciones ms lejanas l j d cada de d grupo para calcular l l las l distancias. di t i
anlisis jerrquico
Mt d del Mtodos d l vecino i ms lejano l j : Igual que el mtodo anterior pero utiliza las observaciones ms lejanas l j d cada de d grupo para calcular l l las l distancias. di t i
anlisis jerrquico
Mt d de Mtodos d la l vinculacin i l i promedio di : La distancia entre los grupos se obtiene calculando la di t distancia i promedio di entre t t d todos l los pares de d observaciones que pueden formarse entre los dos grupos g p fusionar.
45 40 35 30 25 20 15 10 5 0 100 250 400 550
anlisis jerrquico
Mt d de Mtodos d la l vinculacin i l i promedio di : La distancia entre los grupos se obtiene calculando la di t distancia i promedio di entre t t d todos l los pares de d observaciones que pueden formarse entre los dos grupos g p fusionar.
45 40 35 30 25 20 15 10 5 0 100 250 400 550
anlisis jerrquico
anlisis jerrquico
Mt d de Mtodos d Ward W d: El mtodo de Ward es el ms utilizado (maximiza la h homogeneidad id d dentro d t de d los l grupos). ) Para ello, plantea todas las posibles fusiones en cada etapa concreta y elige la que maximiza la homogeneidad: Calcula los centroides de los grupos resultantes de las posibles fusiones A continuacin calcula la distancia al centroide de todas las observaciones del grupo (suma de cuadrados total) La solucin con menor suma de cuadrados total es la elegida
D2):
anlisis jerrquico
Produccin leche Rendimiento quesero 225 10 225 15 210 30 200 35 325 20 375 25 450 40 500 35
8 4 3 5 1 2 6 7
D2):
anlisis jerrquico
Produccin leche Rendimiento quesero 225 10 225 15 210 30 200 35 325 20 375 25 450 40 500 35
8 4 3 5 1 2 6 7
D2):
anlisis jerrquico
Produccin leche Rendimiento quesero 225 10 225 15 210 30 200 35 325 20 375 25 450 40 500 35
8 4 3 5 1 2 6 7
D2):
anlisis jerrquico
(1 2 3 4) y (7,8) (1,2,3,4) (7 8)
45 40 35 30 25 20 15 10 5 0 100 250
Produccin leche Rendimiento quesero 225 10 225 15 210 30 200 35 325 20 375 25 450 40 500 35
8 4 3 5 1 2 6 7
400
550
Ejemplo mtodo de Ward (distancia Posibles fusiones: (1,2,3,4) ( , , , )y( (5,6) , ) (5,6) y (7,8) (1 2 3 4) y (7,8) (1,2,3,4) (7 8)
45 40 35 30 25 20 15 10 5 0 100 250
Cabra 1 2 3 4 5 6 7 8
D2):
anlisis jerrquico
Produccin leche Rendimiento quesero 225 10 225 15 210 30 200 35 325 20 375 25 450 40 500 35
8 4 3 5 1 2 6 7
400
550
D2):
anlisis jerrquico
Produccin leche Rendimiento quesero 260,0 22,5 412 5 412,5 30 0 30,0 301,7 27,5
400
500
600
D2):
anlisis jerrquico
Produccin leche Rendimiento quesero 260,0 22,5 412 5 412,5 30 0 30,0 301,7 27,5
400
500
600
D2):
anlisis jerrquico
Produccin leche Rendimiento quesero 260,0 22,5 412 5 412,5 30 0 30,0 301,7 27,5
400
500
600
D2):
anlisis jerrquico
Produccin leche Rendimiento quesero 260,0 22,5 412 5 412,5 30 0 30,0 301,7 27,5
400
500
600
D2):
anlisis jerrquico
Produccin leche Rendimiento quesero 260,0 22,5 412 5 412,5 30 0 30,0 301,7 27,5
400
500
600
D2):
anlisis jerrquico
Produccin leche Rendimiento quesero 260,0 22,5 412 5 412,5 30 0 30,0 301,7 27,5
400
500
600
D2):
anlisis jerrquico
Produccin P d i leche l h Rendimiento R di i t quesero 260,0 22,5 412,5 30,0 301,7 27,5
Cabra 1 2 3 4 5 6 7 8 Produccin leche Rendimiento quesero 225 10 225 15 210 30 200 35 325 20 375 25 450 40 500 35
D2):
anlisis jerrquico
Produccin P d i leche l h Rendimiento R di i t quesero 260,0 22,5 412,5 30,0 301,7 27,5
Cabra 1 2 3 4 5 6 7 8 Produccin leche Rendimiento quesero 225 10 225 15 210 30 200 35 325 20 375 25 450 40 500 35
anlisis jerrquico
El Eleccin i del d l mtodo t d de d agrupacin i jerrquica j i : Sigue planteando interrogantes a resolver Probar varios mtodos y comparar los resultados p Mtodo del vecino ms cercano: Tiende a crear pocos grupos, aunque es muy sensible a outliers Mtodo del homogneos vecino ms j lejano: Grupos p muy y
anlisis jerrquico
S l Seleccin i del d l nmero d conglomerados de l d : Problema que an plantea dudas. Dos criterios: grupos p a unir Debe detenerse la fusin cuando los g estn a una distancia significativamente mayor de los que previamente se han fusionado. El investigador debe interpretar adecuadamente cada grupo de la solucin final.
anlisis jerrquico
Distancia de los conglomerados (DC) Tasa de variacin del coeficiente de conglomeracin Raz cuadrada de la media de las D.T. del nuevo cluster (RC) R2 semiparcial (R2S) R cuadrado (R2)
anlisis jerrquico
Indica la homogeneidad dentro del nuevo conglomerado. Responde a la distancia utilizada. p q El valor debe ser pequeo.
anlisis jerrquico
El coeficiente de conglomeracin refleja la distancia a la que estaban los grupos fusionados en la etapa
Dista ance
60 40 20 0 0 2 4 6 8 10 12
Stage
anlisis jerrquico
El coeficiente de conglomeracin refleja la distancia a la que estaban los grupos fusionados en la etapa
Dista ance
60 40 20 0 0 2 4 6 8 10 12
Stage
anlisis jerrquico
El coeficiente de conglomeracin refleja la distancia a la que estaban los grupos fusionados en la etapa
Dendrogram g
Ward's Method,Squared Euclidean 100 80
Distan nce
60 40 20 0 1 7 2 3 5 6 4 8 10 0 9 11 1 12 2
anlisis jerrquico
El coeficiente de conglomeracin refleja la distancia a la que estaban los grupos fusionados en la etapa
Dendrogram g
Ward's Method,Squared Euclidean 100 80
Distan nce
60 40 20 0 1 7 2 3 5 6 4 8 10 0 9 11 1 12 2
anlisis jerrquico
El coeficiente de conglomeracin refleja la distancia a la que estaban los grupos fusionados en la etapa
Dendrogram g
Ward's Method,Squared Euclidean 100 80
Distan nce
60 40 20 0 1 7 2 3 5 6 4 8 10 0 9 11 1 12 2
anlisis jerrquico
El coeficiente de conglomeracin refleja la distancia a la que estaban los grupos fusionados en la etapa
Dendrogram g
Ward's Method,Squared Euclidean 100 80
Distan nce
60 40 20 0 1 7 2 3 5 6 4 8 10 0 9 11 1 12 2
anlisis jerrquico
El coeficiente de conglomeracin refleja la distancia a la que estaban los grupos fusionados en la etapa
Dendrogram g
Ward's Method,Squared Euclidean 100 80
Distan nce
60 40 20 0 1 7 2 3 5 6 4 8 10 0 9 11 1 12 2
anlisis jerrquico
El coeficiente de conglomeracin refleja la distancia a la que estaban los grupos fusionados en la etapa
Dendrogram g
Ward's Method,Squared Euclidean 100 80
Distan nce
60 40 20 0 1 7 2 3 5 6 4 8 10 0 9 11 1 12 2
anlisis jerrquico
El coeficiente de conglomeracin refleja la distancia a la que estaban los grupos fusionados en la etapa
Dendrogram g
Ward's Method,Squared Euclidean 100 80
Distan nce
60 40 20 0 1 7 2 3 5 6 4 8 10 0 9 11 1 12 2
anlisis jerrquico
T Tasa d variacin de i i del d l coeficiente fi i t de d conglomeracin: l i El coeficiente de conglomeracin refleja la distancia a la que estaban los grupos fusionados en la etapa
Dendrogram g
Ward's Method,Squared Euclidean 100 80
Distan nce
60 40 20 0 1 7 2 3 5 6 4 8 10 0 9 11 1 12 2
anlisis jerrquico
T Tasa d variacin de i i del d l coeficiente fi i t de d conglomeracin: l i El coeficiente de conglomeracin refleja la distancia a la que estaban los grupos fusionados en la etapa
Dendrogram g
Ward's Method,Squared Euclidean 100 80
Distan nce
60 40 20 0 1 7 2 3 5 6 4 8 10 0 9 11 1 12 2
anlisis jerrquico
T Tasa d variacin de i i del d l coeficiente fi i t de d conglomeracin: l i El coeficiente de conglomeracin refleja la distancia a la que estaban los grupos fusionados en la etapa
Dendrogram g
Ward's Method,Squared Euclidean 100 80
Distan nce
60 40 20 0 1 7 2 3 5 6 4 8 10 0 9 11 1 12 2
anlisis jerrquico
T Tasa d variacin de i i del d l coeficiente fi i t de d conglomeracin: l i El coeficiente de conglomeracin refleja la distancia a la que estaban los grupos fusionados en la etapa
Dendrogram g
Ward's Method,Squared Euclidean 100 80
Distan nce
60 40 20 0 1 7 2 3 5 6 4 8 10 0 9 11 1 12 2
anlisis jerrquico
T Tasa d variacin de i i del d l coeficiente fi i t de d conglomeracin: l i El coeficiente de conglomeracin refleja la distancia a la que estaban los grupos fusionados en la etapa
Agglomeration Schedule ---------------------Clustering Method: Ward's Distance Metric: Squared Euclidean Clusters Combined Stage g First Appears pp Next Stage Cluster 1 Cluster 2 Coefficient Cluster 1 Cluster 2 Stage -------------------------------------------------------------------------1 2 3 0,91948 0 0 4 2 5 6 2,27928 0 0 4 3 9 11 3 3,92254 92254 0 0 7 4 2 5 6,44183 1 2 6 5 1 7 9,0135 0 0 8 6 2 10 13,4301 4 0 8 7 8 9 19,2448 0 3 9 8 1 2 25,2716 5 6 10 9 4 8 40,384 0 7 10 10 1 4 60,5273 8 9 11 11 1 12 88,0 10 0 0 --------------------------------------------------------------------------
anlisis jerrquico
T Tasa d variacin de i i del d l coeficiente fi i t de d conglomeracin: l i El coeficiente de conglomeracin refleja la distancia a la que estaban los grupos fusionados en la etapa
Agglomeration Schedule ---------------------Clustering Method: Ward's Distance Metric: Squared Euclidean Clusters Combined Stage g First Appears pp Next Stage Cluster 1 Cluster 2 Coefficient Cluster 1 Cluster 2 Stage -------------------------------------------------------------------------1 2 3 0,91948 0 0 4 2 5 6 2,27928 0 0 4 3 9 11 3 3,92254 92254 0 0 7 4 2 5 6,44183 1 2 6 5 1 7 9,0135 0 0 8 6 2 10 13,4301 4 0 8 7 8 9 19,2448 0 3 9 8 1 2 25,2716 5 6 10 9 4 8 40,384 0 7 10 10 1 4 60,5273 8 9 11 11 1 12 88,0 10 0 0 --------------------------------------------------------------------------
anlisis jerrquico
R cuadrada Raz d d de d la l media di de d las l D.T. D T del d l nuevo cluster l t (RC): (RC)
Indica la homogeneidad del nuevo conglomerado. La suma de todas las desviaciones tpicas de todas las observaciones del nuevo conglomerado respecto al centroide. El valor debe ser pequeo.
Num Cluster Num. 7 6 5 4 3 2 1 DC 3,6 5,38 5 65 5,65 7,07 11,88 13,5 35,03 RC 1,8 2,69 2 82 2,82 3,53 5,22 6,07 14,24
anlisis jerrquico
R2 semiparcial i i l (R2S): (R2S) Indica la prdida de homogeneidad que se produce en la f i fusin. Su clculo se basa en el ratio entre la prdida de homogeneidad en cada fusin (suma de cuadrados tras la fusin menos la suma de cuadrados de los grupos que se unen) ) y la homogeneidad g mxima ( (cada observacin es un grupo). El valor debe ser pequeo.
Num. Cluster 7 6 5 4 3 2 1 DC 3,6 5,38 5,65 7,07 11,88 13,5 35,03 RC 1,8 2,69 2,82 3,53 5,22 6,07 14,24 R2S 0 0 0 0 0,04 0,06 0,86
anlisis jerrquico
R2 : Indica la heterogeneidad entre conglomerados en cada f i fusin. Ratio entre la heterogeneidad entre conglomerados y la total. El valor debe ser alto.
Num. Cluster 7 6 5 4 3 2 1 DC 3,6 5,38 5,65 7,07 11,88 13,5 35,03 RC 1,8 2,69 2,82 3,53 5,22 6,07 14,24 R2S 0 0 0 0 0,04 0,06 0,86 R2 0,99 0,99 0,98 0,97 0,92 0,86 0
anlisis jerrquico
h homogeneidad id d clusters l t f i fusionados d prdida homogeneidad en la fusin homogeneidad del nuevo cluster prdida homogeneidad en la fusin heterogeneidad entre clusters
Num. Cluster 7 6 5 4 3 2 1
anlisis jerrquico
h homogeneidad id d clusters l t f i fusionados d prdida homogeneidad en la fusin homogeneidad del nuevo cluster prdida homogeneidad en la fusin heterogeneidad entre clusters
Num. Cluster 7 6 5 4 3 2 1 DC 3,6 5,38 , 5,65 7,07 11,88 , 13,5 35,03 RC 1,8 2,69 2,82 , 3,53 5,22 6,07 , 14,24 R2S 0 0 0 0 0,04 0,06 , 0,86
40 35 30 25 20 15 10 5 0 0 1 2 3 4 5 6 7 8 DC RC
anlisis jerrquico
1 0,9 0,8 0,7 0,6 0,5 0,4 , 0,3 0,2 0,1 0 0 1 2 3 4 5 6 7 8 R2S R2
anlisis jerrquico
A li Analizar e interpretar i t t los l resultados: lt d ANOVA entre clusters con las variables utilizadas en el anlisis. li i ANOVA con las dems variables. Tabla de contingencia categricas. entre clusters para variables
anlisis no jerrquico
A li i no jerrquico: Anlisis j i Se conoce a priori el nmero de k grupos Cada observacin es asignada a un grupo g dentro de los g grupos p Maximiza la homogeneidad Maximiza la heterogeneidad entre grupos Etapas: 1. Determinar los centroides iniciales de los k grupos 2. Formacin de los grupos 3. Recalcular los centroides y formar grupos hasta la estabilidad
anlisis no jerrquico
1 Determinar 1. D t i l centroides los t id iniciales i i i l de d los l k grupos: Se utilizan las k primeras observaciones del fichero como centroides t id de d partida. tid Se calculan las distancias entre las k observaciones y se retiene la correspondiente a las 2 observaciones ms cercanas (O1-O2).
anlisis no jerrquico
1 Determinar 1. D t i l centroides los t id iniciales i i i l de d los l k grupos: A continuacin se determina si alguna de las 2 observaciones puede d ser sustituida tit id en el l centroide t id por la l observacin b i Ok+1. Ok+1 Si la distancia de Ok+1 a la observacin ms cercana perteneciente a las k observaciones centroides es mayor que la distancia entre las dos observaciones ms cercanas, Ok+1 sustituye y a O1 o a O2 ( (la ms cercana). ) Si la distancia de Ok+1 a cualquiera de las k observaciones centroides (exceptuando la ms cercana) es ms grande que la menor distancia de la ms cercana a todas las que integran el centroide, Ok+1 sustituye a Ok
anlisis no jerrquico
A continuacin ti i se determina d t i si i alguna l d las de l 2 observaciones b i puede d ser sustituida en el centroide por la observacin Ok+1. Si la distancia de Ok+1 a la observacin ms cercana perteneciente a las k observaciones centroides es mayor que la distancia entre las dos observaciones ms cercanas, Ok+1 sustituye a O1 o a O2 (la ms cercana). cercana) O2 Ok
O1
Ok+1
anlisis no jerrquico
A continuacin ti i se determina d t i si i alguna l d las de l 2 observaciones b i puede d ser sustituida en el centroide por la observacin Ok+1. Si la distancia de Ok+1 a la observacin ms cercana perteneciente a las k observaciones centroides es mayor que la distancia entre las dos observaciones ms cercanas, Ok+1 sustituye a O1 o a O2 (la ms cercana). cercana) Ok
O1
Ok+1
anlisis no jerrquico
A continuacin ti i se determina d t i si i alguna l d las de l 2 observaciones b i puede d ser sustituida por en el centroide por la observacin Ok+1. Si la distancia de Ok+1 a cualquiera de las k observaciones centroides (exceptuando la ms cercana) es ms grande que la menor distancia de la ms cercana a todas las que integran el centroide Ok+1 sustituye a Ok centroide,
O1
O2
Ok Ok+1
anlisis no jerrquico
A continuacin ti i se determina d t i si i alguna l d las de l 2 observaciones b i puede d ser sustituida por en el centroide por la observacin Ok+1. Si la distancia de Ok+1 a cualquiera de las k observaciones centroides (exceptuando la ms cercana) es ms grande que la menor distancia de la ms cercana a todas las que integran el centroide Ok+1 sustituye a Ok centroide,
O1
O2 Ok+1
anlisis no jerrquico
2 Formacin 2. F i de d los l nuevos grupos: Se calcula distancia de cada observacin a los k centroides y se asigna i al l ms cercano. Se recalculan los centroides (etapa 1) y se vuelven a asignar las observaciones. observaciones El proceso finaliza cuando las observaciones no cambian de grupo o cuando se alcanza un determinado nmero de iteraciones (marcadas por el investigador)
eleccin
El Eleccin i entre t conglomerado l d jerrquico j i o no jerrquico: j i Sigue planteando dudas. Depende de los objetivos del estudio y de las propiedades de los distintos mtodos. Lo ideal sera un enfoque q j jerrquico q inicial y complementario p a un enfoque no jerrquico final: El anlisis jerrquico inicial determinara cul es el nmero de grupos y los centroides iniciales del posterior anlisis no jerrquico. El posterior anlisis no jerrquico maximiza la homogeneidad dentro de grupos y la heterogeneidad entre grupos. grupos