Tema 6

Métodos Estadísticos Multivariantes Facultad de CC. Sociales y Comunicación U.
de Cádiz
Análisis Cluster
El Análisis Cluster es una técnica destinada a sintetizar la información

aportada por una muestra, estableciendo una clasificación entre las
El Análisis Cluster
observaciones en función de su mayor o menor homogeneidad
observaciones, homogeneidad.
Puede ser aplicada a todo tipo de variables y las clases (clusters) no están
previamente establecidas sino que se van formando conforme se van
agrupando entre sí los elementos más homogéneos.
homogéneos
El análisis cluster puede ser:

• Aglomerativo:
g se p
parte de los individuos y se van progresivamente
p g
agrupando
• Divisivo: se parte del conjunto total y se va progresivamente dividiendo
La clasificación puede ser

• Jerárquica: los grupos se van fusionando progresivamente de manera
que la homogeneidad entre los grupos va decreciendo
• No jerárquica:
á se forman grupos homogéneos
é sin establecer relaciones
entre ellos
Métodos Estadísticos Multivariantes Facultad de CC. Sociales y Comunicación U. de Cádiz
Análisis Cluster
En el caso de variables cualitativas, la agrupación se establece en base a una

matriz de similaridades (disimilaridades) que informen sobre las analogías
(diferencias) existentes entre ellas.
En el caso de variables cuantitativas, se trabaja con la matriz de distancias
Dendograma
El dendograma es una representación gráfica que muestra la secuencia de

sucesivas fusiones que se llevan a cabo en el proceso cluster.
Una vez fijado el número de grupos o clusters que deseamos tener
tener, el
dendograma permite determinar a simple vista cuáles son esos grupos.
Análisis Cluster
B A
C E
D
Análisis Cluster
1
En el gráfico consideramos en el eje x
0.8 los individuos y en el eje
j y los valores
0.6 de las disimilaridades entre ellos.
Así, vemos que los individuos más
0.4 similares (menor disimilaridad) son B
y C y es la primera agrupación que se
0.2
forma. Después se agrupan D y E.
A B C D E Luego, para el valor 0.6 el individuo A
se añade
ñ d all grupo formado
f d por B y C.
Si prefijamos en 3 el número de Finalmente, para el valor 0.8 de
grupos, tendríamos para una disimilaridad, todos los individuos
disimilaridad 0.3, los siguientes grupos: f
forman un ú
único
i grupo.
B A
C E
D
¿Cómo
ó calcular distancias (disimilaridades) entre grupos con más
á de un individuo?
Vecino más cercano
Vecino más lejano

¿Cómo calcular distancias (disimilaridades) entre grupos con más de un individuo?
Método del centroide

Análisis Cluster
Métodos cluster jerarquizados más usados
(i) Método del vecino más cercano

Dij es el menor de las ni x nj distancias entre individuos del grupo i
e individuos del grupo j
(ii) Método del vecino más lejano
Dij es el mayor de las ni x nj distancias entre individuos del grupo i
(iii) Método de la media
Dij es la media de las ni x nj distancias entre individuos del g
grupo
p i
(iv) Método del centroide
Dij es el cuadrado de la distancia euclídea entre los centroides de los
grupos i y j
(v) Método de la mediana
Dij es la distancia entre las medianas de los grupos i y j
(vi) Método de Ward o Mínima Varianza
Dij es el menor valor para la suma de cuadrados entre grupo al unir los
grupos i y j
Análisis Cluster
El algoritmo
Llamemos dij a la distancia (disimilaridad) entre los individuos i y j
Llamemos Dij a la distancia entre el i-ésimo y el j-ésimo grupo formado
Paso 1. Definir cada individuo como un grupo, es decir Dij = dij

Construir la matriz D=(Dij)
P
Paso 2
2. E
Encontrar
t ell menor elemento
l t dde la
l matriz
t i D.
D En
E caso ded igualdad,
i ld d
seleccionarlo aleatoriamente entre los iguales. Si este es Dkm fusionar
los grupos k y m y anotar el valor Dkm como coeficiente de
agrupamiento
Paso 3. Calcular la distancia entre el nuevo grupo y cada uno de los demás
y sustituir en la matriz D la k-ésima y m-ésima fila y columna por una
sola fila y columna cuyos elementos sean las distancias antes
calculadas. El orden de la matriz D se reducirá en una unidad.
Paso 4. Volver al paso 2 hasta que se haya formado un solo grupo
Análisis Cluster
Ejemplo de análisis cluster por el método del vecino más cercano

1 0 
 
Consideremos la matriz de disimilaridades 2 4 0 
3
1 4 0 
 
0  4 4 2 4 0 
 
4  5 3 4 0 
0 Primer grupo: {1,3} 5  5
1 

4 0
 D13=1 1 2 3 4 5
4 2 4 0 
5 3 4 0  Se calculan las disimilaridades entre el nuevo grupo y los
 5
restantes:
D2*13= mín {4,4}=4 D4*13= mín {4,4}=4
D5*13= mín {5,3}=3
Nueva matriz
(1+3) 2 4 5
(1+3) 0 
 
2 4 0  Nuevo grupo: {2,4}
4
4 2 0  D24 = 2
 
5  3 5 4 0
 
Análisis Cluster
Ejemplo de análisis cluster por el método del vecino más cercano

(1+3) 2 4 5
(1+3) (2+4) 5
(1+3) 0 
  D13*24 = min{4,4}=
min{4 4}= 4 0
((1+3)) 
2 4 0   
4 2 0  
(2+4) 4 0 
4
  D5*24 = min{5,4}= 4  3 4 0
5  3 5 4 0 5
 
 
Nuevo grupo: {1,3,5}
D13*5 = 3
D24*135 = min{D24*13, D24*5} = min{4,4}=4

4
3
(1+3+5) (2+4)
2
(1+3+5) 0  Último grupo: {1,2,3,4,5}
  D12345 = 4 1
(2+4)
 4 0
1 3 5 2 4
Análisis Cluster
Ejemplo 1 de análisis cluster mediante Statgraphics

Variables:
Edad, peso y número de pie Dendrograma
Método Vecino más Cercano,Euclidean Cuadrado
Ed Pe Pi
4
23 50 39 3
ancia
32 75 40
2
Dista
38 70 38
17 60 42 1
60 80 43 0
45 70 43
6
Statgraphics estandariza (por defecto) las variables. También por defecto
considera la distancia euclídea al cuadrado
Análisis Cluster
Método Cluster: Vecino más cercano

Distancia Métrica: Euclidean Cuadrado Diagrama de dispersión Cluster
Método Vecino más Cercano
Cercano,Euclidean
Euclidean Cuadra
Cluster
Etapa Cluster 1 Cluster 2 Distancia 1
-------------------------------------------- 43
2
Centroi
mero pie
e
1 2 3 1,23783 42
2 5 6 1,78326 41
3 2 5 2,88375 40
Num
4 1 4 2,97102
2 97102 39 80
75
5 1 2 3,723 38 70
65
60
-------------------------------------------- 17 27 37 55
47 57 67 50 Peso
edad
d d
Análisis Cluster
Análisis Cluster Número de casos completos: 27

-------------------- Método Cluster: Vecino más Lejano
Datos/Variables: Distancia
i i Métrica:
é i Euclidean
lid Cuadrado
C d d
Estatura
Peso Cluster Miembros Porcentaje
Pie ------------------------------
Lbrazo 1 15 55,56
Aespalda 2 12 44,44
D
Dcraneo ------------------------------
Drt
Centroides
Cluster Estatura Peso Pie Lbrazo Aespalda Dcraneo Drt
----------------------------------------------------------------------------------------------------
1 161,2 55,4 36,9 69,9 43,0667 56,4333 41,0667
2 178,25 74,5 41,5833 77,9167 49,3333 58,25 45,625
----------------------------------------------------------------------------------------------------
Análisis Cluster
Dendrograma
Método
Mét d VVecino
i más
á L
Lejano,Euclidean
j E lid C
Cuadrado
d d
25
20
Disttancia
15
10
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
1
1
1
1
1
1
1
1
1
1
1
Observación:
Análisis Cluster

Etapa Cluster 1 Cluster 2 Coeficiente
Método : Vecino más Lejano
--------------------------------------------
Distancia: Euclidean Cuadrado
1 1 100 0,373653
0 3 36 3
Fila Sexo Cluster
2 3 26 0,877611
----------------------
3 8 14 0,94555
1 0 1
4 13 23 1,13272
1 13272
2 1 1
5 6 25 1,15914
3 0 2
6 17 21 1,28127
4 0 1
7 2 6 1,31586
1 31586
5 0 1
8 13 20 1,85697
6 0 1
9 8 9 2,0037
7 0 1
10 12 22 2,26888
2 26888
8 1 2
9 1 2
10 0 1
Hombre
H b clasificado
l ifi d en ell cluster
l
de las mujeres
Ejemplo 3 (OCDE)
Análisis cluster
(Método del Vecino más lejano)
Gráfica de Distancia de Aglomeración

Ejemplo 3 (OCDE) Método del Vecino Más Lejano,Euclideana Cuadrada
60
Análisis cluster 50
40
(Método del Vecino más lejano)
cia
Distanc
30
20
10
0
0 10 20 30 40
Etapa
Dendograma
Método del Vecino Más Lejano,Euclideana Cuadrada
60
50
40
Distancia
30
20
10
0
ed Kingdom
Finland
Hungary
Portugal
uxembourg
Chile
Belgium
Austria
Korea
Poland
Spain
Canada
Norway
Estonia
Italy
Japan
Mexico
Denmark
Australia
Sweden
nited States
France
Ireland
Turkey
Netherlands
Switzerland
Iceland
Germany
ch Republic
Israel
Slovenia
ew Zealand
Greece
ak Republic
Ejemplo 3 (OCDE)
Ejemplo 3 (OCDE)
ANEXO 1
Análisis Cluster
Ejemplo de análisis cluster por el método del vecino más lejano

1 0 
 
Consideremos la matriz de disimilaridades 2 4 0 
3
1 4 0 
 
0  4 4 2 4 0 
 
4  5 3 4 0 
0 Primer grupo: {1,3} 5  5
1 

4 0
 D13=1 1 2 3 4 5
4 2 4 0 
5 3 4 0  Se calculan las disimilaridades entre el nuevo grupo y los
 5
restantes:
D2*13= máx {4,4}=4 D4*13= máx {4,4}=4
D5*13= máx {5,3}=5
Nueva matriz
(1+3) 2 4 5
(1+3) 0 
 
2 4 0  Nuevo grupo: {2,4}
4
4 2 0  D24 = 2
 
5  5 5 4 0
 
Análisis Cluster
Ejemplo de análisis cluster por el método del vecino más lejano

(1+3) 2 4 5
(1+3) (2+4) 5
(1+3) 0 
  D13*24 = máx{4,4}=
máx{4 4}= 4 0
((1+3)) 
2 4 0   
4 2 0  
(2+4) 4 0 
4
  D5*24 = máx{5,4}= 5  5 5 0
5  5 5 4 0 5
 
 
Nuevo grupo: {1,3,2,4}
D13*24 = 4
D5*1324 = máx{D5*13, D5*24} = máx{5,5}=5

Dendograma
Mét d ddell Vecino
Método V i MásMá Lejano
L j
(1+3+2+4) 5
5
Último grupo: {1,2,3,4,5}

4
(1+3+5) 0  3
D is ta n c ia
  D12345 = 5 2
(2+4)
5 0 1

Tema 6

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Tema 6

Cargado por

Copyright:

Formatos disponibles

Métodos Estadísticos Multivariantes Facultad de CC. Sociales y Comunicación U.

El Análisis Cluster es una técnica destinada a sintetizar la información

El análisis cluster puede ser:

La clasificación puede ser

En el caso de variables cualitativas, la agrupación se establece en base a una

El dendograma es una representación gráfica que muestra la secuencia de

Vecino más cercano

Vecino más lejano

¿Cómo calcular distancias (disimilaridades) entre grupos con más de un individuo?

Método del centroide

Métodos cluster jerarquizados más usados

(i) Método del vecino más cercano

Paso 1. Definir cada individuo como un grupo, es decir Dij = dij

Ejemplo de análisis cluster por el método del vecino más cercano

Ejemplo de análisis cluster por el método del vecino más cercano

D24*135 = min{D24*13, D24*5} = min{4,4}=4

Ejemplo 1 de análisis cluster mediante Statgraphics

Ejemplo 1 de análisis cluster mediante Statgraphics

Método Cluster: Vecino más cercano

Ejemplo 2 de análisis cluster mediante Statgraphics

Análisis Cluster Número de casos completos: 27

Ejemplo 2 de análisis cluster mediante Statgraphics

Ejemplo 2 de análisis cluster mediante Statgraphics

Gráfica de Distancia de Aglomeración

(Método del Vecino más lejano)

Ejemplo de análisis cluster por el método del vecino más lejano

Ejemplo de análisis cluster por el método del vecino más lejano

D5*1324 = máx{D5*13, D5*24} = máx{5,5}=5

Último grupo: {1,2,3,4,5}

También podría gustarte

D24135 = min{D2413, D24*5} = min{4,4}=4

D51324 = máx{D513, D5*24} = máx{5,5}=5