Está en la página 1de 22

Métodos Estadísticos Multivariantes Facultad de CC. Sociales y Comunicación U.

de Cádiz

Análisis Cluster

El Análisis Cluster es una técnica destinada a sintetizar la información


aportada por una muestra, estableciendo una clasificación entre las
El Análisis Cluster
observaciones en función de su mayor o menor homogeneidad
observaciones, homogeneidad.
Puede ser aplicada a todo tipo de variables y las clases (clusters) no están
previamente establecidas sino que se van formando conforme se van
agrupando entre sí los elementos más homogéneos.
homogéneos

El análisis cluster puede ser:


• Aglomerativo:
g se p
parte de los individuos y se van progresivamente
p g
agrupando
• Divisivo: se parte del conjunto total y se va progresivamente dividiendo

La clasificación puede ser


• Jerárquica: los grupos se van fusionando progresivamente de manera
que la homogeneidad entre los grupos va decreciendo
• No jerárquica:
á se forman grupos homogéneos
é sin establecer relaciones
entre ellos
Métodos Estadísticos Multivariantes Facultad de CC. Sociales y Comunicación U. de Cádiz

Análisis Cluster

En el caso de variables cualitativas, la agrupación se establece en base a una


matriz de similaridades (disimilaridades) que informen sobre las analogías
(diferencias) existentes entre ellas.
En el caso de variables cuantitativas, se trabaja con la matriz de distancias

Dendograma

El dendograma es una representación gráfica que muestra la secuencia de


sucesivas fusiones que se llevan a cabo en el proceso cluster.
Una vez fijado el número de grupos o clusters que deseamos tener
tener, el
dendograma permite determinar a simple vista cuáles son esos grupos.
Métodos Estadísticos Multivariantes Facultad de CC. Sociales y Comunicación U. de Cádiz

Análisis Cluster

B A
C E
D
Métodos Estadísticos Multivariantes Facultad de CC. Sociales y Comunicación U. de Cádiz

Análisis Cluster

1
En el gráfico consideramos en el eje x
0.8 los individuos y en el eje
j y los valores
0.6 de las disimilaridades entre ellos.
Así, vemos que los individuos más
0.4 similares (menor disimilaridad) son B
y C y es la primera agrupación que se
0.2
forma. Después se agrupan D y E.
A B C D E Luego, para el valor 0.6 el individuo A
se añade
ñ d all grupo formado
f d por B y C.
Si prefijamos en 3 el número de Finalmente, para el valor 0.8 de
grupos, tendríamos para una disimilaridad, todos los individuos
disimilaridad 0.3, los siguientes grupos: f
forman un ú
único
i grupo.

B A
C E
D
Métodos Estadísticos Multivariantes Facultad de CC. Sociales y Comunicación U. de Cádiz

¿Cómo
ó calcular distancias (disimilaridades) entre grupos con más
á de un individuo?

Vecino más cercano

Vecino más lejano


Métodos Estadísticos Multivariantes Facultad de CC. Sociales y Comunicación U. de Cádiz

¿Cómo calcular distancias (disimilaridades) entre grupos con más de un individuo?

Método del centroide


Métodos Estadísticos Multivariantes Facultad de CC. Sociales y Comunicación U. de Cádiz

Análisis Cluster

Métodos cluster jerarquizados más usados

(i) Método del vecino más cercano


Dij es el menor de las ni x nj distancias entre individuos del grupo i
e individuos del grupo j
(ii) Método del vecino más lejano
Dij es el mayor de las ni x nj distancias entre individuos del grupo i
e individuos del grupo j
(iii) Método de la media
Dij es la media de las ni x nj distancias entre individuos del g
grupo
p i
e individuos del grupo j
(iv) Método del centroide
Dij es el cuadrado de la distancia euclídea entre los centroides de los
grupos i y j
(v) Método de la mediana
Dij es la distancia entre las medianas de los grupos i y j
(vi) Método de Ward o Mínima Varianza
Dij es el menor valor para la suma de cuadrados entre grupo al unir los
grupos i y j
Métodos Estadísticos Multivariantes Facultad de CC. Sociales y Comunicación U. de Cádiz

Análisis Cluster

El algoritmo
Llamemos dij a la distancia (disimilaridad) entre los individuos i y j
Llamemos Dij a la distancia entre el i-ésimo y el j-ésimo grupo formado

Paso 1. Definir cada individuo como un grupo, es decir Dij = dij


Construir la matriz D=(Dij)
P
Paso 2
2. E
Encontrar
t ell menor elemento
l t dde la
l matriz
t i D.
D En
E caso ded igualdad,
i ld d
seleccionarlo aleatoriamente entre los iguales. Si este es Dkm fusionar
los grupos k y m y anotar el valor Dkm como coeficiente de
agrupamiento
Paso 3. Calcular la distancia entre el nuevo grupo y cada uno de los demás
y sustituir en la matriz D la k-ésima y m-ésima fila y columna por una
sola fila y columna cuyos elementos sean las distancias antes
calculadas. El orden de la matriz D se reducirá en una unidad.
Paso 4. Volver al paso 2 hasta que se haya formado un solo grupo
Métodos Estadísticos Multivariantes Facultad de CC. Sociales y Comunicación U. de Cádiz

Análisis Cluster

Ejemplo de análisis cluster por el método del vecino más cercano


1 0 
 
Consideremos la matriz de disimilaridades 2 4 0 
3
1 4 0 
 
0  4 4 2 4 0 
 
4  5 3 4 0 
0 Primer grupo: {1,3} 5  5
1 

4 0
 D13=1 1 2 3 4 5
4 2 4 0 
5 3 4 0  Se calculan las disimilaridades entre el nuevo grupo y los
 5
restantes:
D2*13= mín {4,4}=4 D4*13= mín {4,4}=4
D5*13= mín {5,3}=3
Nueva matriz
(1+3) 2 4 5
(1+3) 0 
 
2 4 0  Nuevo grupo: {2,4}
4
4 2 0  D24 = 2
 
5  3 5 4 0
 
Métodos Estadísticos Multivariantes Facultad de CC. Sociales y Comunicación U. de Cádiz

Análisis Cluster

Ejemplo de análisis cluster por el método del vecino más cercano


(1+3) 2 4 5
(1+3) (2+4) 5
(1+3) 0 
  D13*24 = min{4,4}=
min{4 4}= 4 0
((1+3)) 
2 4 0   
4 2 0  
(2+4) 4 0 
4
  D5*24 = min{5,4}= 4  3 4 0
5  3 5 4 0 5
 
 
Nuevo grupo: {1,3,5}
D13*5 = 3

D24*135 = min{D24*13, D24*5} = min{4,4}=4


4

3
(1+3+5) (2+4)
2
(1+3+5) 0  Último grupo: {1,2,3,4,5}
  D12345 = 4 1
(2+4)
 4 0
1 3 5 2 4
Métodos Estadísticos Multivariantes Facultad de CC. Sociales y Comunicación U. de Cádiz

Análisis Cluster

Ejemplo 1 de análisis cluster mediante Statgraphics


Variables:
Edad, peso y número de pie Dendrograma
Método Vecino más Cercano,Euclidean Cuadrado
Ed Pe Pi
4

23 50 39 3

ancia
32 75 40
2

Dista
38 70 38
17 60 42 1

60 80 43 0
45 70 43

6
Statgraphics estandariza (por defecto) las variables. También por defecto
considera la distancia euclídea al cuadrado
Métodos Estadísticos Multivariantes Facultad de CC. Sociales y Comunicación U. de Cádiz

Análisis Cluster

Ejemplo 1 de análisis cluster mediante Statgraphics

Método Cluster: Vecino más cercano


Distancia Métrica: Euclidean Cuadrado Diagrama de dispersión Cluster
Método Vecino más Cercano
Cercano,Euclidean
Euclidean Cuadra
Cluster
Etapa Cluster 1 Cluster 2 Distancia 1
-------------------------------------------- 43
2
Centroi

mero pie
e
1 2 3 1,23783 42
2 5 6 1,78326 41
3 2 5 2,88375 40

Num
4 1 4 2,97102
2 97102 39 80
75
5 1 2 3,723 38 70
65
60
-------------------------------------------- 17 27 37 55
47 57 67 50 Peso
edad
d d
Métodos Estadísticos Multivariantes Facultad de CC. Sociales y Comunicación U. de Cádiz

Análisis Cluster

Ejemplo 2 de análisis cluster mediante Statgraphics

Análisis Cluster Número de casos completos: 27


-------------------- Método Cluster: Vecino más Lejano
Datos/Variables: Distancia
i i Métrica:
é i Euclidean
lid Cuadrado
C d d
Estatura
Peso Cluster Miembros Porcentaje
Pie ------------------------------
Lbrazo 1 15 55,56
Aespalda 2 12 44,44
D
Dcraneo ------------------------------
Drt

Centroides
Cluster Estatura Peso Pie Lbrazo Aespalda Dcraneo Drt
----------------------------------------------------------------------------------------------------
1 161,2 55,4 36,9 69,9 43,0667 56,4333 41,0667
2 178,25 74,5 41,5833 77,9167 49,3333 58,25 45,625
----------------------------------------------------------------------------------------------------
Métodos Estadísticos Multivariantes Facultad de CC. Sociales y Comunicación U. de Cádiz

Análisis Cluster

Ejemplo 2 de análisis cluster mediante Statgraphics

Dendrograma
Método
Mét d VVecino
i más
á L
Lejano,Euclidean
j E lid C
Cuadrado
d d
25

20
Disttancia

15

10

0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
1
1
1
1
1
1
1
1
1
1
1
Observación:
Métodos Estadísticos Multivariantes Facultad de CC. Sociales y Comunicación U. de Cádiz

Análisis Cluster

Ejemplo 2 de análisis cluster mediante Statgraphics


Etapa Cluster 1 Cluster 2 Coeficiente
Método : Vecino más Lejano
--------------------------------------------
Distancia: Euclidean Cuadrado
1 1 100 0,373653
0 3 36 3
Fila Sexo Cluster
2 3 26 0,877611
----------------------
3 8 14 0,94555
1 0 1
4 13 23 1,13272
1 13272
2 1 1
5 6 25 1,15914
3 0 2
6 17 21 1,28127
4 0 1
7 2 6 1,31586
1 31586
5 0 1
8 13 20 1,85697
6 0 1
9 8 9 2,0037
7 0 1
10 12 22 2,26888
2 26888
8 1 2
9 1 2
10 0 1
Hombre
H b clasificado
l ifi d en ell cluster
l
de las mujeres
Métodos Estadísticos Multivariantes Facultad de CC. Sociales y Comunicación U. de Cádiz

Ejemplo 3 (OCDE)
Análisis cluster
(Método del Vecino más lejano)
Métodos Estadísticos Multivariantes Facultad de CC. Sociales y Comunicación U. de Cádiz

Gráfica de Distancia de Aglomeración


Ejemplo 3 (OCDE) Método del Vecino Más Lejano,Euclideana Cuadrada

60

Análisis cluster 50

40

(Método del Vecino más lejano)

cia
Distanc
30

20

10

0
0 10 20 30 40
Etapa

Dendograma
Método del Vecino Más Lejano,Euclideana Cuadrada

60

50

40
Distancia

30

20

10

0
ed Kingdom

Finland

Hungary

Portugal
uxembourg

Chile
Belgium
Austria

Korea

Poland

Spain
Canada

Norway

Estonia

Italy
Japan

Mexico
Denmark
Australia

Sweden

nited States
France

Ireland

Turkey
Netherlands

Switzerland

Iceland
Germany

ch Republic

Israel
Slovenia
ew Zealand

Greece
ak Republic
Métodos Estadísticos Multivariantes Facultad de CC. Sociales y Comunicación U. de Cádiz

Ejemplo 3 (OCDE)
Métodos Estadísticos Multivariantes Facultad de CC. Sociales y Comunicación U. de Cádiz

Ejemplo 3 (OCDE)
ANEXO 1
Métodos Estadísticos Multivariantes Facultad de CC. Sociales y Comunicación U. de Cádiz

Análisis Cluster

Ejemplo de análisis cluster por el método del vecino más lejano


1 0 
 
Consideremos la matriz de disimilaridades 2 4 0 
3
1 4 0 
 
0  4 4 2 4 0 
 
4  5 3 4 0 
0 Primer grupo: {1,3} 5  5
1 

4 0
 D13=1 1 2 3 4 5
4 2 4 0 
5 3 4 0  Se calculan las disimilaridades entre el nuevo grupo y los
 5
restantes:
D2*13= máx {4,4}=4 D4*13= máx {4,4}=4
D5*13= máx {5,3}=5
Nueva matriz
(1+3) 2 4 5
(1+3) 0 
 
2 4 0  Nuevo grupo: {2,4}
4
4 2 0  D24 = 2
 
5  5 5 4 0
 
Métodos Estadísticos Multivariantes Facultad de CC. Sociales y Comunicación U. de Cádiz

Análisis Cluster

Ejemplo de análisis cluster por el método del vecino más lejano


(1+3) 2 4 5
(1+3) (2+4) 5
(1+3) 0 
  D13*24 = máx{4,4}=
máx{4 4}= 4 0
((1+3)) 
2 4 0   
4 2 0  
(2+4) 4 0 
4
  D5*24 = máx{5,4}= 5  5 5 0
5  5 5 4 0 5
 
 
Nuevo grupo: {1,3,2,4}
D13*24 = 4

D5*1324 = máx{D5*13, D5*24} = máx{5,5}=5


Dendograma
Mét d ddell Vecino
Método V i MásMá Lejano
L j

(1+3+2+4) 5
5

Último grupo: {1,2,3,4,5}


4

(1+3+5) 0  3

D is ta n c ia
  D12345 = 5 2

(2+4)
5 0 1

También podría gustarte