Está en la página 1de 97

ANÁLISIS DE CLUSTER

ANÁLISIS DE CLUSTER
• Qué es el análisis de cluster.

• Es una técnica para combinar observaciones en grupos o cluster de


forma que:

• 1.- Cada grupo o cluster sea homogéneo o compacto con respecto


a ciertas características. Es decir las observaciones dentro de cada
grupo han de ser similares entre sí.

• 2.- Cada grupo debe diferenciarse de los otros grupos respecto a


las mismas características, es decir las observaciones de un grupo
deben diferenciarse de las observaciones de los otros grupos.
ANÁLISIS DE CLUSTER
• VISION GEOMETRICA DEL INDIVIDUOS GASTOS AÑOS
ANALISIS DE CLUSTER EDUCACION
• Geométricamente el concepto es
sencillo. Consideremos los datos
S1 5 5
hipotéticos de la siguiente tabla:
S2 6 6
S3 15 14
S4 16 15
S5 25 20
S6 30 19
ANÁLISIS DE CLUSTER

AÑOS

S5

S3
S6
10
S4

S1

S2
5

5 10 15 20 25 30 35 MILES DOLARES $
FASES DEL CLUSTER
– PRIMERA FASE
• A.- ESTABLECIMIENTO DE OBJETIVOS
• B.- SELECCIÓN DE VARIABLES PARA
CARATERIZAR LOS OBJETOS A AGRUPAR

– SEGUNDA FASE
• A.- ESTANDARIZACION DE LAS VARIABLES
• B.- DETECCION DE OUTLIERS (ATIPICOS)
• C.- SUPUESTOS DEL ANALISIS DE CLUSTER
• D.-SELECCIÓN DE MEDIDAS DE SIMILITUD
FASES DEL CLUSTER
– TERCERA FASE
SELECCIÓN DEL ALGORITMO
• A.- CLUSTER JERARQUICOS
• B.- CLUSTER NO JERARQUICOS
– CUARTA FASE
• INTERPRETACION DE LOS
CONGLOMERADOS
– QUINTA FASE
• VALIDACIÓN
PRIMERA FASE
A.- ESTABLECIMIENTO DE OBJETIVOS:

• -Objetivos concretos.
• -Simplificación de datos.
• - Revelar relaciones entre individuos
• -Carácter exploratorio: formular una
taxonomía.
• -Carácter confirmatorio: Comparar una
clasificación teórica con la derivada del
análisis de cluster.
PRIMERA FASE
B.- SELECCIÓN DE VARIABLES

• Determinará los cluster y dependerá del propósito


de la clasificación:
• -Inductiva: clasificación exploratoria de
observaciones
• -Deductiva: Teoría guía el número de variables
apropiadas y el número y naturaleza de los grupos.
• -Cognitiva: Clasificación que parte de dimensiones
percibidas como relevantes por expertos.
PRIMERA FASE
• Importante en este proceso:

• Eliminación de variables no importantes

• Restricciones del número de variables.

• Datos missing
SEGUNDA FASE
A.- ESTANDARIZACION DE LAS VARIABLES

– Variables no medidas en las mismas


unidades: Estandarización.

– Variables de diferentes tipos (cuantitativas,


cualitativas..):
• -Convertirlas todas en binarias.
• Usar coeficientes de similaridad que permitan
información de distintos tipos de variables.
• Análisis por separado.
SEGUNDA FASE
B.- DETECCION DE OUTLIERS (ATIPICOS):

Métodos gráficos: univariantes,


bivariantes o multivariantes
SEGUNDA FASE

C.- SUPUESTOS DEL ANALISIS DE CLUSTER

Representatividad de la muestra.
Ausencia de multicolinealidad.
SEGUNDA FASE
D.-SELECCIÓN DE MEDIDAS DE SIMILITUD:

– La medida de similitud indicará la fuerza de la relación entre dos


objetos dados los valores de p variables medidos en ambos.

– 1.-Será función de sus valores observados Sij = f (xi , x j )


– 2.- Generalmente se trata de una relación simétrica
– 3.- La mayoría son positivos y acotados entre cero y uno
aunque a veces son correlaciones y están acotados entre -1 y 1
– 4.- Asociado con la similaridad está la disimilaridad Di , j = 1  Si , j
– 5.- El grado de similaridad entre dos objetos aumenta con el
aumento de S
– 6.- El grado de similaridad entre dos objetos disminuye con el
aumento de D.
– 7.- La similaridad de objeto consigo mismo es uno y la
disimilaridad cero.
SEGUNDA FASE
D.-SELECCIÓN DE MEDIDAS DE SIMILITUD:

Distintas medidas según el tipo de variables:

De similaridad:

Medidas de similaridad para variables binarias


Medidas de similaridad para variables cualitativas no
binarias
Medidas de similaridad para variables cuantitativas
Medidas de similaridad para variables tipo mixto

De disimilaridad o distancia
SEGUNDA FASE
D.-SELECCIÓN DE MEDIDAS DE SIMILITUD:

• MEDIDAS DE SIMILARIDAD PARA


VARIABLES BINARIAS.-
• Los coeficientes de similaridad más sencillos y
comúnmente más utilizados son los de
variables dicotómicas:
Individuo J
1 2 total

1 a b a+b
Individuo i
2 c d c+d
total a+c b+d p
SEGUNDA FASE
D.-SELECCIÓN DE MEDIDAS DE SIMILITUD:
Rogers and Tanimoto
Simple matching
a+ d 2(c + d)
a+d c+d s ij =  ij =
s ij =  i, j = a + b + 2(c + d ) a + b + 2(c + d)
a + b+c+ d a +b +c+d
Jaccard
a b+c
Dice ( Sorensen)
s ij =  i, j =
2a b+c a + b+c a+b+c
s ij =  i, j =
2a + b + c 2a + b + c
Sokal and Sneath (Duran and Odell,
Sokal and Sneath
Anderberg)
2(a + d) (b + c)
s ij =  ij = a 2(b + c)
2(a + d) + (b + c) 2(a + d ) + (b + c ) s ij =  i, j =
a + 2(b + c) a + 2( b + c )
SEGUNDA FASE
D.-SELECCIÓN DE MEDIDAS DE SIMILITUD:

Para calcularlos:
VARIABLES
1 2 3 4 5 6 7 8 9 10
Individuo i
1 0 0 0 1 1 0 0 1 0
Individuo j 0 0 0 0 1 0 0 1 1 0

1 0 total

1 2 2 4
0 1 5 6
total 3 7 10
SEGUNDA FASE
D.-SELECCIÓN DE MEDIDAS DE SIMILITUD:
• MEDIDAS PARA VARIABLES CUALITATIVAS NO BINARIAS.-

• - Cada nivel de la variable se considera una variable binaria


sencilla

• - Localizar una puntuación de cero a uno para cada


variable K, dependiendo de si los individuos son o no
coincidentes para la variable. La puntuación para todas las
variables se promedia para dar el coeficiente de similitud:
p
 Sij , k
Sij = k =1
p
SEGUNDA FASE
D.-SELECCIÓN DE MEDIDAS DE SIMILITUD:

• MEDIDAS PARA VARIABLES CUANTITATIVAS.-

• Estas podrían abordarse convirtiéndolas en


variables binarias y usar los coeficientes
descritos, lo que supone obviamente una
pérdida de información.

• Lo más lógico es considerar medidas de


similaridad que puedan aplicarse directamente.
Una de tales medidas es el coeficiente de
correlación de Pearson.
SEGUNDA FASE
D.-SELECCIÓN DE MEDIDAS DE SIMILITUD:

• MEDIDAS DE SIMILARIDAD PARA VARIABLES DE TIPO MIXTO .-

Un coeficiente de similaridad sugerido por


Gower (1971) es particularmente
interesante: p
 wijk Sijk
Sij = p
k =1

 wijk
k =1
SEGUNDA FASE
D.-SELECCIÓN DE MEDIDAS DE SIMILITUD:

p
wijk:0 - 1 Los pesos de cero se  wijk Sijk
k =1
asignan cuando la variable k es S ij = p
desconocida para uno o ambos  wijk
individuos y en binarias para dobles k =1
ausencias
Sij En los datos categóricos los
toman los valores de uno cuando
los dos individuos tienen el mismo
valor y cero en otro caso. xik  x jk
ijk = 1 
• En variables cuantitativas S
Rk
SEGUNDA FASE
D.-SELECCIÓN DE MEDIDAS DE SIMILITUD:

Ejemplo:
PESO ANSIEDAD DEPRESION ALUCINACIONE EDAD
S

PACIENTE 1
120 MEDIA NO NO JOVEN
PACIENTE 2
150 MODERADA SI NO ANCIANO
PACIENTE 3
110 SEVERA SI SI ANCIANO
PACIENTE 4
145 MEDIA NO SI ANCIANO
PACIENTE 5
120 MEDIA NO SI JOVEN

p
 wijk S ijk  30 
1x1   + 1x0 + 1x0 + 0 x1 + 1x0
S ij = k =1

S12 = 
40 
= 0.0625
p
 wijk 1+1+1+ 0 +1
k =1
SEGUNDA FASE
D.-SELECCIÓN DE MEDIDAS DE DISIMILITUD:

• DISIMILARIDAD Y MEDIDAS DE DISTANCIA.-


1
 p 2 2
Dij =   (xik  x jk ) 
– Distancia Euclídea:  k =1 

Esta distancia es un caso particular de una métrica más


general llamada distancia de Minkowski:
1
 p n n
Donde Dij =   xik  x jk 
 k =1 
Dij es la distancia entre los individuos i y j , p es el número de variables y n = 1, 2, ....
SEGUNDAFASE
SEGUNDA FASE
D.-SELECCIÓNDE
D.-SELECCIÓN DEMEDIDAS
MEDIDASDE
DEDISIMILITUD:
DISIMILITUD:

• Como puede observarse cuando n=2


tenemos la distancia Euclídea y cuando
n=1 la distancia ciudad o distancia
Manhatan.
J
p
A Dij =  xik  x jk
k =1

I
B
SEGUNDA FASE
D.-SELECCIÓN DE MEDIDAS DE DISIMILITUD:

• La distancia Euclídea es la medida de


disimilaridad más frecuentemente utilizada sin
embargo tiene le problema de que no es
invariante por cambios de escala.
• Considerando los datos de la tabla de partida,
supongamos que los gastos están medidos en
dólares en lugar de en miles de dólares. La
distancia euclídea entre las observaciones 1 y 2
sería:
D1, 2 2 
=   (5000  6000 ) + (5  6 )  = 100000 + 1 = 100001
2
2 2

 k =1 
SEGUNDA FASE
D.-SELECCIÓN DE MEDIDAS DE DISIMILITUD:

• Claramente es importante tener variables que


estén medidas en una escala comparable. Sin
embargo si no pueden ser medidas en escalas
comparables deberíamos de utilizar distancias
que tengan la ventajosa propiedad de ser
invariantes por cambio de escala.

• Entre estas tenemos la distancia euclídea


estandarizada y la distancia de Mahalanobis.
SEGUNDA FASE
D.-SELECCIÓN DE MEDIDAS DE DISIMILITUD:

• Distancia Euclídea estandarizada.-


Viene dada por:  p (x  x ) 
2
2  D
ik jk
= 
 
ij
 k =1 sk 

Donde sk es la desviación tipica de la variable k-ésima


• Distancia de Mahalanobis.-
Di , j = (xi  x j ) S (xi  x j )
 1

Donde S es la matríz de covarianzas dentro del grupo.


Cuando trabajamos con análisis de cluster es la matríz
de covarianzas total.
SEGUNDA FASE
SEGUNDA FASE
D.-SELECCIÓN DE
D.-SELECCIÓN DE MEDIDAS
MEDIDAS DE DISIMILITUD::
DE DISIMILITUD
• MEDIDAS DE SIMILARIDAD ENTRE GRUPOS
Hasta ahora hemos descrito métodos para la obtención
de medidas de similaridad o distancia entre individuos.
En técnicas de cluster es también necesario definir tales
medidas entre grupos:
1
Para variables cualitativas.- D (
A, B = 1  cos  2 )
Distancia genética:

1
Donde K
cos =  (PiA .PiB )
2

i =1
SEGUNDA FASE
SEGUNDA FASE
D.-SELECCIÓN DE
D.-SELECCIÓN DE MEDIDAS
MEDIDAS DE DISIMILITUD::
DE DISIMILITUD
• MEDIDAS DE SIMILARIDAD O DISTANCIA ENTRE GRUPOS

1
1
DA, B = (1  cos )
K
cos =  (PiA .PiB )
2
2
i =1

PiA son las frecuencias de las categorías de las variables para una de
PiB
lasvariables dadas en las dos poblaciones, de forma que si hay p variables
cualitativas habrá p sumandos.
Caracter Población A Población B

COROLA

Rosa 0,95 0,80


Blanca 0,05 0,20
CALIZ

Si 0,80 0,60
No 0,20 0,40
1
  1 1  2
DABcorola = 1  (0,95 x0.80)2  (0,05 x0.20) = 0.17
2 
   1
  1 1  2
DABcaliz = 1  (0 ,80 x0.60 )2  (0.20 x0.40 )2   = 0.16
  
DABtotal = DABcorola + DABcaliz
MEDIDAS DE SIMILARIDAD O DISTANCIA ENTRE
GRUPOS

• La distancia total entre grupos es la


suma de distancias de cada variable.
• Se consigue sustituyendo en la fórmula de
distancias entre individuos la media del
grupo para las p variables.

2
 p

D 2
A, B =   x Ai  xBi 
 i =1 
MEDIDAS DE SIMILARIDAD O DISTANCIA ENTRE
GRUPOS

• Dado que sería más interesante incorporar alguna medida


de variación dentro de los grupos podríamos usar la D de
Mahalanobish.

DA2 ,B 
= (x A  xB )  1 (x A  xB )
• donde W es una matriz de dispersión dentro del grupo ponderadas para
los grupos.
• En resumen puesto que el uso de medidas distintas puede
llevarnos a resultados diferentes:
• ¿Qué medida de similaridad o distancia deberíamos utilizar?.

– Una recomendación lógica es la de Sneal y Sokal (1973) que sugieren


utilizar el coeficiente más simple.
TERCERA
TERCERA FASE
FASE
D.-SELECCIÓN
SELECCIÓN DEL
DEL ALGORITMO
ALGORITMO
• A.- CLUSTER JERARQUICOS

Puede subdividirse en Aglomerativos y Divisivos.

Los aglomerativos proporcionan sucesivas fusiones de los n objetos


individuales en grupos.

Los divisivos particionan los n individuos (agrupados en un solo grupo)


sucesivamente en grupos más finos.

Las clasificaciones jerárquicas se representan en un diagrama


bidimensional conocido como dendrograma que indica las fusiones o
divisiones hechas en las sucesivas fases del análisis.
Los programas estadísticos también recogen esta información en el
“vertical icicle plot”.

• B.- CLUSTER NO JERARQUICOS


TERCERA
TERCERA FASE
FASE
D.-SELECCIÓN
SELECCIÓN DEL
DEL ALGORITMO
ALGORITMO
A.- CLUSTER JERARQUICOS

• Dendrograma.- Los objetos se representan como


nodos y las ramas del árbol indican los sujetos que se
han fusionado en un cluster , la longitud de las ramas
indican la distancia de la fusión.
• Un dendrograma que diferencie grupos de objetos
claramente tendrá pequeñas distancias en las ramas
lejanas del árbol y grandes diferencias en las ramas
cercanas.
• Cuando las distancias de las ramas lejanas son
relativamente grandes con respecto a las cercanas el
agrupamiento no será efectivo.
TERCERA FASE
D.-SELECCIÓN DEL ALGORITMO

CLUSTER JERARQUICOS AGLOMERATIVOS:

• Un cluster jerárquico aglomerativo produce una


serie de particiones en los datos Pn, Pn-1,.......P1.
• El primer cluster consiste en n cluster de 1 individuo
cada uno y el último consiste en único grupo que
contiene los n individuos
• La operación básica para todos los métodos es
similar:
TERCERA FASE
D.-SELECCIÓN DEL ALGORITMO

__________________________________
• Comienzo: Cluster C1, ....Cn Cada uno con un elemento

• Paso 1: Encontrar el par de cluster más cercano o más


similar, por ejemplo Ci y Cj, fusionarlos y disminuir el
número de cluster en uno.

• Paso 2.- Si el número de cluster resultante es igual a


uno entonces parar sino volver al paso 1.
TERCERA FASE
D.-SELECCIÓN DEL ALGORITMO
• La diferencia entre los distintos métodos está en la diferente forma de
definir la distancia entre un individuo y un grupo que contenga varios
individuos, o entre dos grupos de individuos.

• Posibles métodos aglomerativos:

• 1.- Vecino más próximo (Single linkage)


• 2.- Vecino más lejano (completo linkage)
• 3.- Grupo mediano (Group Average)
• 4.- Método del centroide
• 5.- Cluster mediano
• 6.- Método de Ward.
TERCERA FASE
D.-SELECCIÓN DEL ALGORITMO
• 1.- Método del vecino más próximo.

• Es uno de los métodos jerárquicos aglomerativos más sencillos. Fue descrito


por Florek et al. (1951) y posteriormente por Sneath (1957) y Jonson (1967).

• La característica que define a este método es que la distancia entre grupos se


define como la del par de individuos que está más cercano.

• En él sólo se consideran pares los formados con un individuo de cada grupo.



1.- Método del vecino más próximo.

1 2 3 4 5 • El valor más pequeño se da


1  0, 0  entre los individuos 1 y 2,
  consecuentemente los
2  2, 0 0, 0 
D1 = 3  6,0 5,0 0,0  juntaremos en un cluster
  con dos miembros.
4 12,0 9,0 4,0 0,0 
 
5  9,0 8,0 5, 0 3, 0 0,0 
• Las distancias entre este
cluster y los otros clusters
individuales se obtienen:

{ }
D(12), 3 = min D1,3 ;D2,3 = D2,3 = 5,0
D(12 ), 4 = min {D1,4 ; D2,4 }= D2,4 = 9,0
D(12 ), 5 = min {D1,5 ;D 2,5 }= D 2,5 = 8,0
1.- Método del vecino más próximo.

Se construye una nueva matriz de distancias

1 2 3 4 5
1 2 0,0 
 
3  5,0 0,0 
D2 = 9,0 4, 0 0,0 
4
 
5 8, 0 5,0 3,0 0,0 
• El valor más pequeño se da entre los individuos 4 y 5 por lo
que ellos serán los que formen el siguiente cluster de dos
miembros. De nuevo hemos de recalcular las distancias:
{ }
D(12), 3 = min D1,3 ;D2,3 = D2,3 = 5, 0
D(12 ), ( 45) = min {D1,4 ; D1,5 ;D 2,4 ;D2,5 }= D 2,5 = 8,0
D ( 45), 3 = min {D3,4 ;D3,5 }= D3,4 = 4, 0
1.- Método del vecino más próximo.

1 2 3 4  5
• Formamos la matriz de
distancias D3: 1  2 0,0 
 
D 3 = 3 5, 0 0,0 
4  5 8,0 4,0 0, 0
• El valor más pequeño se da
entre 3 el cluster 4-5, por lo
que el individuo 3 se añade al
cluster que contiene a los
individuos 4 y 5.
• Finalmente el grupo que
contienen los elementos 1 y 2
y el que contiene los
individuos 3, 4 y 5 se
combinan en un cluster único.
1.- Método del vecino más próximo.

• Las particiones producidas en cada paso


son:
P5 [1] [2] [3] [4 ] [5]
P4 [1  2] [3] [4] [5]
P3 [1  2] [3] [4  5]
P2 [1  2 ] [3  4  5]
P1 [1 2  3  4  5]
1.- Método del vecino más próximo.

• El correspondiente dendograma sería:


2.- Método del vecino más lejano
(complete Linkage).

• Este método es el opuesto al anterior, en el


sentido que la distancia entre grupos la
definimos ahora como la mayor distancia entre
pares de individuos, uno de cada grupo.
2.- Método del vecino más lejano
(complete Linkage).
• Usando este método sobre la matriz D1, el
primer paso será, de nuevo, fusionar loa
individuos 1 y 2. Las distancias entre este
grupo y los tres individuos restantes será:

{ }
D(12), 3 = min D1,3 ;D2,3 = D2,3 = 6,0
D(12 ), 4 = min {D1,4 ; D2,4 }= D2,4 = 10, 0
D(12 ), 5 = min {D1,5 ;D 2,5 }= D 2,5 = 9,0

El proceso se repetiría y el dendograma:


2.- Método del vecino más lejano
(complete Linkage).
3.- Método del grupo promedio
(Group Average).
• En el la distancia entre dos cluster se define como la
distancia media entre todos los pares de individuos de
cada grupo.
D 13
3
D 14

B
4
1

A
D 15

D 23
D 24

2 D 25 5

D13 + D14 + D15 + D 23 + D 24 + D 25


D AB =
6
3.- Método del grupo promedio
(Group Average).
• Aplicando el método a la matriz D1, el primer paso lo mismo
que en los métodos anteriores es la formación del cluster que
contiene a los elementos 1 y 2.

• Recalculando: D(12), 3 = 1 2 D1,3 + D 2,3 = (6 + 5)2 = 5,5


( )
D(12 ), 4 = 1 2 D1,4 + D 2,4 = (10 + 9 ) 2 = 9,5
( )
D(12 ), 5 = 1 2 D1,5 + D2,5 = (9 + 8) 2 = 8,5
( )
Calculando D2:
1 2 3 4 5
1 2 0,0 
 
3  5,5 0,0 
D2 =  9,5 4, 0 0,0 
4
 
5  8,5 5,0 3,0 0,0 
3.- Método del grupo promedio
(Group Average).
• El valor más pequeño, y por tanto el consiguiente
cluster, está formado por los individuos 4 y 5. La
distancia entre ambos grupos se calcula:

D14 + D15 + D24 + D25


D(1 2 )(, 4  5 ) = =9
4
el proceso continuaría como antes.

• Este método se denomina también :UPGMA.


• Los métodos descritos operan directamente sobre la
matriz de proximidades y no necesitan los valores
originales de las variables en los individuos.
4.- Método del centroide

• Un método que requiere los datos originales.

• Con este método, los grupos una vez formados


se representan por sus valores medios para
cada variable, es decir su vector de medias y
las distancias entre los grupos se definen en
términos de las distancia entre vectores de
medias.
• El uso de medias implica, estrictamente
hablando, que las variables estén medidas en
escala de intervalo, el método sin embargo a
menudo se usa para otro tipo de variables.
4.- Método del centroide
• Para ilustrar el método Individuo Variable 1 Variable 2
trabajaremos con los siguientes
datos: 1 1,0 1,0
2 1,0 2,0
• Supongamos que elegimos la
distancia euclídea común como 3 6,0 3,0
medida de distancia entre
individuos, dando la siguiente 4 8,0 2,0
matriz de distancias
5 8,0 0,0

• Si examinamos la matriz vemos 1 0


que D1,2 es el valor más pequeño 
y los individuos 1 y 2 se fusionan 2 1 0 
para formar un grupo.  
3  5,39 5,10 0 
• Se calcula el vector de medias del  
grupo (1.0, 1.5) y se calcula una 4 7,07 7,0 2,24 0 
nueva matriz de distancias.
5 7,07 7,28 3,61 2 0
4.- Método del centroide

D( 1 2 ),3 = ( 6  1 ) + ( 3  1,5 ) = 5,22


2 2

• El valor más pequeño de esta matriz es


entre los individuos 4 y 5 y por lo tanto (1,2)  0 
3 5,22 
se fusionan en un segundo grupo, el
0
vector de medias se calcula y da (8.0,
1.0) y se vuelve a calcular la matriz de
 
distancias: 4 7,02 2,24 0 
 
5  7,16 3,61 2 0

• En esta el valor más pequeño es


entre el individuo (4,5) y el 3, por lo
que se fusionan en un cluster de ( 1,2 )  0 
tres individuos. El paso final 
3 5,22 0 
consiste en la fusión de los dos
grupos restantes en uno.  
( 4,5 ) 7 ,02 2,83 0
5.- Método del cluster mediano.-

• Una de las desventaja el método del centroide es que si


los tamaños de los dos grupos que se fusionan es muy
diferente entonces el centroide del nuevo grupo estará
más próximo al grupo mayor y puede quedar dentro de
este grupo.

• Las propiedades características del grupo más pequeño


se pierden. La estrategia puede hacerse independiente
del tamaño del grupo asumiendo que los grupos que se
fusionan tienen el mismo tamaño, la posición aparente
del nuevo grupo estará siempre entre los dos grupos a
fusionarse.
6.- Método de Ward.-

• Este método no calcula distancias entre cluster.


Lo que hace es formar cluster de forma que se
maximice la homogeneidad intra cluster.
• Se usa como medida de la homogeneidad la
suma de cuadrados intra grupos.
• Los cluster que se forman en un paso son
los que minimizan la suma de cuadrados
intra grupos.
• Esta suma de cuadrados se le conoce como
suma de cuadrados de los errores (ESS)
6.- Método de Ward.-
• Supongamos de nuevo la INDIV GASTO AÑOS
tabla de partida: EDUC

S1 5 5
• Inicialmente cada observación es un
cluster y por tanto su ESS es cero. S2 6 6
• El siguiente paso es formar cinco S3 15 14
cluster, un cluster de tamaño dos y
otros cuatro de tamaño uno : Por S4 16 15
ejemplo podemos formar un cluster
con los individuos 1 y 2 y otros S5 25 20
cuatro con el resto
S6 30 19
• El ESS del cluster con dos
observaciones (S1, S2)

(5  5,5)2 + (6  5,5)2 + (5  5,5)2 + (6  5,5)2 = 1


6.- Método de Ward
6.- Método de Ward
Propiedades y problemas de las técnicas de
cluster jerárquicas aglomerativas.-
• Varias técnicas de cluster jerárquicas tales como la de la distancia mínima y el de la
mediana tienen la tendencia a agrupar, a niveles relativamente bajos , a individuos unidos
por una serie de intermediarios. Esta propiedad se conoce como encadenamiento y
puede causar que los métodos fallen en la resolución de cluster relativamente distintos
cuando hay un pequeño número de individuos ligados a ellos.

• Varias técnicas de este grupo están sesgadas hacia la búsqueda de cluster


esféricos incluso cuando los cluster de los datos son de otra forma: centroide y
Ward.

• Una ventaja notable del vecino más cercano y el más lejano según Johnson
(1967) es que son invariantes por transformaciones monótonas de
matrices de similaridad. Esto significa que estos métodos darán el mismo
resultado sobre otras matrice de similaridad si sus elementos tienen el mismo
rango de orden que la original.

• Baker (1974) y Huber (1974) proporcionan evidencias de que el


completo linkage es menos sensible a tipos particulares de errores
observacionales que el single linkage.
CLUSTER JERARQUICOS DIVISIVOS:

• Las técnicas de cluster divisivas son


esencialmente de dos tipos monotéticas
donde los datos se dividen si poseen un
atributo especificado y politéticas donde
las divisiones se basan en los valores
tomados para todos los atributos.
CLUSTER JERARQUICOS DIVISIVOS:
1 0 10 7 30 29 38 42
2 10 0 7 23 25 34 36 
 
3 7 7 0 21 22 31 36 
 
D = 4 30 23 21 0 7 10 13 
5 29 25 22 7 0 11 17 
 
6 38 34 31 10 11 0 9 
7 42 36 36 13 17 9 0 

• Construida con distancias euclídeas.


• El individuo usado para iniciar la división es el 1 por que
la distancia media a los otros individuos es máxima.
• Tenemos: (1) y (2,3,4,5,6,7)
CLUSTER JERARQUICOS DIVISIVOS:

Individuo Distancia media al grupo Distancia media al grupo Diferencia


dividido principal

2 10 25 15

3 7 23.4 16,4

4 30 14.8 -15,2

5 29 16.4 -12,6

6 38 19 -19,0

7 42 22,2 -19,8

La mayor diferencia es 16.4 para el individuo (3) que será


acumulado al grupo dividido: (1,3) y (2, 4, 5, 6, 7)
AJUSTE GLOBAL DE LA SOLUCIÓN DE
CLUSTER JERÁRQUICO

• Dada una solución Cluster el siguiente paso es evaluar


la solución y determinar el número de clusters.

• El método más comúnmente utilizado para valorar la


relación entre el dendograma y la matriz de
proximidades es el coeficiente de correlación
cofenética.
• Fisher (1968) sugiere que los valores del coeficiente por
encima del 0,8 serán suficientes para rechazar la
hipótesis nula.
• Rohlf (1970) asegura que incluso correlaciones
cofenéticas cercanas a 0,9 no garantizan que el
dendograma sirva bien para definir las relaciones
cofenéticas.
PARTICIONES DE CLUSTER JERÁRQUICOS –
EL NÚMERO DE CLUSTER (PROBLEMA) –

• Es frecuente el caso, cuando se usan técnicas


jerárquicas, que el investigador nos esté interesado en
la jerarquía completa sino sólo en obtener una o dos
particiones de ella.
• En los jerárquicos las particiones se consiguen
cortando un dendograma o seleccionando una de las
soluciones en la secuencia anidada cluster que
componen la jerarquía.

• En aplicaciones particulares puede ser de interés probar


y determinar cual de todas las posibles particiones
produce el mejor ajuste a los datos
PARTICIONES DE CLUSTER JERÁRQUICOS
– EL NÚMERO DE CLUSTER (PROBLEMA) –

• Hay varias propuestas:


– Duda y Hart (1973) proponen un criterio E(2)/E(1)
donde E(2) es la suma de cuadrados del error dentro
del cluster cuando los datos están particionados en
dos cluster y E(1) da la suma de cuadrados del error
cuando sólo hay un cluster.

La hipótesis de solo un cluster se rechaza si la ratio


es más pequeña que un valor especificado.
PARTICIONES DE CLUSTER JERÁRQUICOS –
EL NÚMERO DE CLUSTER (PROBLEMA) –

• Calisnki (1974) también sugiere un índice


para el número de grupos basado en
términos de la suma de cuadrados:

Traza (B )
(g 1)
Traza (W )
(n  g )
PARTICIONES DE CLUSTER JERÁRQUICOS –
EL NÚMERO DE CLUSTER (PROBLEMA) –

• RMSSTD.- (Root Mean Square Standard Deviation).-


• Consiste en una media de la desviación
estandar de todas las variables:

p p
( n 1)  Sj
ˆ 2 ˆ
 Sj
2

RMSSTD = j=1
= j=1
P( n  1) P
PARTICIONES DE CLUSTER JERÁRQUICOS –
EL NÚMERO DE CLUSTER (PROBLEMA) –

• RS.-(R-cuadrado).-
• Es el ratio entre SSe y SSt.
• Sse es una medida en la que los grupos difieren
entre sí
• SSt = Sse + SSd
• RS mide la extensión en la que los grupos o
clusters difieren entre sí.
• Este valor oscila entre cero y uno, cero indica no
hay diferencias entre grupos y uno indica el
máximo de diferencia entre ellos.
PARTICIONES DE CLUSTER JERÁRQUICOS –
EL NÚMERO DE CLUSTER (PROBLEMA) –
• SPR.- (Semi parcial R-cuadrado)
• La diferencia entre la SSd acumulada del nuevo cluster
y la suma de cuadrados acumulada SSd de los cluster
unidos para formar nuevos cluster se llama pérdida de
homogeneidad.

• Si la pérdida de homogeneidad es cero el nuevo cluster


se ha obtenido mezclando dos cluster homogéneos, por
otra parte si la pérdida de homogeneidad es grande
entonces el nuevo cluster se ha obtenido combinando
dos cluster heterogéneos.

SSd (nuevo)  SSd ( fusionados )


SPR =
SSd (total )
PARTICIONES DE CLUSTER JERÁRQUICOS –
EL NÚMERO DE CLUSTER (PROBLEMA) –

• CD.- Distancia aglomerizada entre clusters:


• Las salidas de ordenador dan información
de la distancia entre dos grupos que se
han unido en un paso dado.

• CD debe ser pequeño para fusionar los


dos cluster. Un valor grande nos indica
que se están fusionando dos grupos
disimilares.
ESTADISTICO CONCEPTO COMENTARIO
MEDIDO

RMSSTD Homogeneidad del Pequeño


nuevo cluster
SPR Homogeneidad de Pequeño
los cluster
combinados
RS Heterogeneidad ALTO
entre los cluster
CD Homogeneidad del Pequeño
nuevo cluster
• Se podría dibujar los estadísticos y observar si hay algún
codo.

Es claro que hay un gran cambio en los valores cuando pasamos de 2 a 3


cluster. Consecuentemente parece que hay tres cluster en los datos.
Además los tres están bien separados como sugiere RS y son homogéneos
como evidencian los bajos valores de RMSSTD, SPR y CD.
CLUSTER NO JERARQUICOS
• En los cluster no jerárquicos los datos se dividen en k
particiones o grupos donde cada partición representa un
cluster. Opuestamente a los métodos jerárquicos el
número de cluster debe conocerse a priori. Básicamente
siguen los siguientes pasos:

• 1.- Seleccionar K centroides iniciales, siendo K el número de


clusters deseados.

• 2.- Asignar cada observación al cluster que le sea más cercano.

• 3.- Reasignar o relocalizar cada observación a uno de los K


cluster de acuerdo con alguna regla de parada.

• 4.- Parar si no hay reasignación de los puntos o si la


reasignación satisface la regla de parada. En otro caso se
vuelve al paso dos.
CLUSTER NO JERARQUICOS

• La mayoría de los algoritmos no


jerárquicos difieren con respecto a:

– El procedimiento para obtener los centroides


iniciales.

– La regla que se usa para reasignar las


observaciones
CLUSTER NO JERARQUICOS

• Algunos de los métodos utilizados para obtener los K


centroides iniciales son:
– 1.- Seleccionar las K primeras observaciones como
centroides.
– 2.- Seleccionar la primera observación como centroide
del primer cluster, el centroide del segundo cluster
selecciona de forma que la distancia al centroide
previo sea mayor que una cierta distancia. El tercero
de forma que su distancia al anterior sea superior a
una distancia, etc.
– 3.- Seleccionar K observaciones al azar.
– 4.- El investigador da los centroides.
– 5.- Refinar los núcleos seleccionados usando ciertas
reglas, como por ejemplo, que estén lo más separados
posible.
CLUSTER NO JERARQUICOS
• Los algoritmos no jerárquicos también difieren con respecto al
procedimiento utilizado para reasignar los sujetos a los K
clusters. Algunas reglas son:

• 1.- Calcular el centroide de cada cluster y asignar sujetos al cluster cuyo


centroide esté más próximo. Los centroides no se recalculan hasta que
se han asignado todas las observaciones a los K clusters. Cuando las
asignaciones totales están hechas se recalcula el nuevo centroide.
Si el cambio producido en los centroides de los cluster es mayor que algún
criterio de convergencia seleccionado entonces se vuelve a repetir el
proceso. Esto continua hasta que el cambio en el centroide es menor que
una cierta cantidad prefijada (criterio de convergencia).

• 2.- Se calcula el centroide para cada cluster y se asignan sujetos a los


clusters cuyo centroide esté más próximo. Cuando una observación es
asignada a un cluster se recalcula el centroide del cluster al que llega el
individuo y el centroide del cluster del que sale. La reasignación sigue
hasta que el cambio en los centroides sea menor que algún valor prefijado
(criterio de convergencia).
¿Qué método de cluster es mejor?.-
• Cluster jerárquicos:

• - No requieren un conocimiento a priori del


número de cluster o de la partición de partida.
• - Los jerárquicos se usan a menudo con fines
exploratorios y la solución resultante se utiliza
en los no jerárquicos para afinar la solución.

Ambas técnicas podrían verse como métodos


complementarios y no como competitivos.
¿Qué método de cluster es mejor?.-

• Cluster no jerárquicos:

• -Necesitan conocimiento previo del número de


cluster

• - Hemos de identificar los centros de los cluster


antes de que la técnica pueda proceder con las
observaciones

• - Los algoritmos son muy sensibles a las


particiones iniciales
¿Qué método jerárquico deberíamos de utilizar?.

1.-Algunos jerárquicos son susceptibles de encadenamiento.


En general el vecino más próximo es más susceptible que el de
el más lejano.

• 2.- Si comparamos el simple linkage con el completo a este


último le afectan menos los outliers

• 3.- El del completo linkage identifica cluster compactos en los


que las observaciones son muy similares entre sí.

• 4.- El método de ward tiende a encontrar cluster compactos y


prácticamente de igual tamaño y forma.

En general se recomienda usar varios métodos para


comparar la consistencia y usar el método que tenga
solución interpretable.
CUARTAFASE.-
INTERPRETACION DE LOS CONGLOMERADOS

• La interpretación implica examinar cada cluster para


asignar una etiqueta precisa que describa la naturaleza
de cada cluster, para ello se analizan los centroides de
los grupos.
• Para la interpretación se suele utilizar el centroide del
conglomerado, pero si los datos se estandarizan el
investigador tendría que retroceder a las puntuaciones
dadas por los encuestados en las variables originales.
• La interpretación del conglomerado consigue algo más
que una descripción ya que proporciona un medio de
evaluar los conglomerados obtenidos con aquellos
propuestos por una teoría a priori o por la experiencia
práctica. (Ejemplo)
QUINTA FASE.-
VALIDACION

• Este paso incluye los intentos del investigador por asegurar que
la solución cluster es representativa de la población general y
por tanto generalizable a otros objetos y estable en el tiempo.

• La forma más directa en este sentido es realizar análisis de


cluster para muestras distintas. Esto en general no es práctico
debido a restricciones de tiempo o de coste. En estos casos una
aproximación es escindir la muestra en dos grupos. Cada
submuestra se analiza por separado y se comparan luego los
resultados.

• El investigador también puede tratar de establecer alguna forma


de criterio o validez predictiva y para ello selecciona una o más
variables no utilizadas en el análisis pero que se sabe que
cambian a lo largo de los conglomerados. En el ejemplo anterior
podría ser la edad y contrastar estadísticamente las diferencias
de edad entre los conglomerados obtenidos.
EJEMPLO
• Tenemos información correspondiente a los posibles usuarios de una empresa.

• 100 observaciones (clientes) a los que se les ha pasado una encuesta en la que se le hacen
preguntas de percepción sobre 7 atributos importantes en la elección de una empresa por parte
de los usuarios.

• X1 = Velocidad de entrega
• X2= Nivel de precios
• X3= Flexibilidad de precios
• X4= Imagen del fabricante
• X5= Servicio conjunto
• X6 =Imagen de fuerza de ventas
• X7= calidad del producto

• También se le hacen otro tipo de preguntas como nivel de fiabilidad, o nivel de


satisfacción....pero no son tenidas en cuenta en el análisis.

Nota: Ejemplo tomado de Hair et al (1999)


EJEMPLO
• Primer paso : Objetivos del análisis.-
• Segmentar la población de clientes en grupos
con percepciones similares de la empresa.
• Cuando esto se consiga la empresa puede
formular estrategias con diferentes atractivos
para los distintos grupos.
• Algo importante es que los 7 atributos utilizados
son importantes en alcance y detalle. Las
variables utilizadas tienen suficiente valor
predictivo como para justificar su uso.
EJEMPLO
• Segundo paso : diseño del análisis.-
• Lo primero será identificare cualquier atípico de
la muestra. Al realizar el examen de los 100
individuos no se detecta ninguna anomalía.
• El siguiente paso implica elegir una medida de
similaridad. Como todas las variables son
métricas elegimos la distancia euclídea.
• No se considera ninguna estandarización por
que todas las variables están medidas en la
misma escala.
EJEMPLO
• Tercer paso : Supuestos del análisis.-
• La muestra se considera representativa y el análisis de
multicolinealidad señala niveles mínimos que no
deberían influir en el cluster.

• Cuarto paso : Obtención de grupos y valoración del


ajuste.-
• Elegimos como procedimiento una combinación de
jerárquicos y no jerárquicos
• En el jerárquico se obtienen unos cluster que se
utilizaran luego como centroides de los métodos no
jerárquicos para refinar la posible solución.
EJEMPLO
• Análisis de cluster jerárquico:

¿Qué algoritmo utilizar?.

Se utilizó el método de ward para obviar


el problema del encadenamiento.

• La tabla siguiente muestra los resultados


EJEMPLO
• Hemos de seleccionar una solución cluster:

¿Cuántos conglomerados debería de haber?.

Dado que nos interesa identificar tipos de clientes un


número manejable estaría en el rango de 2 a 5 grupos.

• Analizaremos los coeficientes de la tabla (9.6)


EJEMPLO
• Si observamos la tabla vemos cambios en los
coeficientes:
– En el paso de 4 a 5 : 364-398.1 = 12,1
– En el paso de 3 a 4 conglomerados: 17,2
– En el paso de 2 a 3: 17,6
– En el paso de 1a 2: 61,8

• El mayor aumento se produce al pasar de 1 a


2 y el siguiente cambio grande al pasar de 3
a 4.
EJEMPLO
Perfil de la solución de dos y cuatro
conglomerados.-
• Hemos de conseguir los perfiles de los
conglomerados en ambas soluciones.
• La tabla siguiente contiene los perfiles de las
variables.
• El interés de este paso no es ofrecer una
interpretación del conglomerado sino asegurar
que son verdaderamente distintivas.
EJEMPLO
• Paso 2: Análisis de cluster no jerárquicos.-

• Utilizamos las técnicas no jerárquicas para ajustar los


resultados de los jerárquicos.
• Tomamos como puntos de semillas iniciales los
resultados del paso anterior tanto para la de dos cluster
como para la solución de cuatro cluster.
• Los resultados (tabla 9.8) muestran que para el caso de
dos resultan grupos casi del mismo tamaño y los perfiles
se corresponde bastante bien con los perfiles de los
conglomerados del jerárquico.

También podría gustarte