Está en la página 1de 7

Dendogramas en Conglomerados

Introducción: La finalidad es formar conglomerados que sean similares en un sentido de la


cercanía o lejanía de las mediciones o de las variables respecto de la distancia Euclidiana. En éste
apunte veremos dos criterios frecuentemente usados en el análisis de conglomerados para
formar jerarquías de conglomerados de acuerdo a un tipo de similaridad y que se conocen como el
vecino más cercano y vecino más lejano. Para tener una visión general del proceso se puede hacer
un bosquejo de la formación de clases conocido como dendograma

Se quiere generar una jerarquía los individuos del conjunto, que se basa en los valores observados
de las variables en una muestra multivariada que definen el perfil del individuo

Criterio del vecino más cercano: Si la matriz de muestreo tiene p variables y n mediciones
entonces la matriz de muestreo es dada por

[ ]
x11 x 12 . . x1 p
x 21 x 22 . . x2 p
X= . . . . .
. . . . .
x n1 xn 2 . . x np

Cada fila representa el perfil de un individuo, por lo tanto hay n perfiles o mediciones, además,
p
cada medición se encuentra en IR . Por ejemplo consideremos las dos primeras filas que
corresponden a los perfiles de los dos primeros individuos, entonces la distancia es

distancia(entre los dos individuos)= √( x 11−x21 )2+( x12−x22 )2+. ..+(x1 p−x 2 p )2
Observación: Si las variables se miden en escalas muy distintas, es conveniente normalizar los
datos para que tengan el mismo orden de magnitud de tal forma que ninguna domine de manera
clara en la expresión de la distancia

La distancia euclidiana es válida para las variables continuas, pero si alguna de ellas es dicotómica
el término correspondiente tendrá en general menos peso que las variables continuas aunque
estas estén normalizadas. Para conseguir una mayor homogeneidad en la importancia de cada
variable a la hora de medir lo alejado que estén dos individuos se introduce el concepto de
similaridad

Definición: El coeficiente de similaridad entre los individuos i y h según la variable


x j es una
s (i,h) que satisface
cantidad j
a ) 0≤s j (i ,h )≤1
b ) s j (i .i)=1
c) s j (i, h )=s j (h , i)

A partir del coeficiente de similaridad para la variable


x j se pueden construir coeficientes globales

de similaridad entre los individuos i y h que se denotan por


s ih realizando suma ponderada que
veremos más adelante

Matriz de distancia: Se calculan las distancias entre todos individuos del conjunto y se ubican en
una matriz simétrica, claramente en la diagonal las entradas deben ser nulas

aih =dist (i , h )=a hi aii =dist (i , i)=0

Algoritmo:

i) Se empieza con tantas clases como individuos existan

ii) Las dos clases más cercanas forman una superclase que las contiene

iii) El algoritmo se detiene cuando todos los individuos están en una sola clase

Distancia entre dos clases

Criterio del encadenamiento simple o vecino más cercano

d(AB,C)=min(d(A,C),d(B,C))

Criterio del encadenamiento completo o del vecino más lejano

d(AB,C)=max(d(A,C),d(B,C))

Nota: Las jerarquías que resultan del proceso no tienen por qué ser iguales

Ejemplo: Dada la matriz de muestreo con el perfil de 4 individuos y dos variables

[ ]
0.3 0.6
X = 0.35 0.4
0.7 0.8
0. 8 0.5

a) Jerarquizar con encadenamiento simple

b) Jerarquizar con encadenamiento completo


Solución:

a) los individuos los denotaremos por


w 1 ,w2 , w 3 y w 4 entonces inicialmente hay 4 clases que
C1 ={ w1 , w 2 ,w3 , w4 }
formarán la configuración inicial que denotaremos por

calculando la distancia euclidiana entre individuos se obtiene la matriz de distancia D explicitada

[ ]
0 0.21 0.45 0.51
0.21 0 0.53 0.46
D=
0. 45 0.53 0 0.32
por la matriz
0.51 0.46 0.32 0

La menor distancia es entre los individuos


w 1 y w2 que corresponden a las clases { w1 , w 2 } estas

dos clases se unen en una sola que la denotaremos por


w 1 w2 , luego las clases son 3 en ésta
C = {w w , w , w
2 1 2 3 }
4 . Nuevamente calculamos la distancia entre éstas clases
configuración
usando el criterio del vecino más cercano o encadenamiento simple

d (w 1 w2 , w3 )=min {d (w 1 , w3 ), d (w 2 , w3 ) }=min {0 . 45 , 0 .53 }=0 . 43

d (w 1 w2 , w4 )=min { d (w1 , w 4 ), d (w 2 , w4 ) }=min { 0 .51 , 0 . 46 }=0. 46

C=
Luego la configuración en el tercer nivel queda con dos clases 3 {w1 w2 w 3 , w 4 } y la última
C 4 ={ w1 w 2 w3 w 4 }
configuración tiene solo una clase

w 2 y w 3 ⇒ C1 ={ w 2 w 3 , w 1 , w 4 }
b) La mayor distancia es entre los individuos

calculamos la distancia entre las 3 clases con el criterio del vecino más lejano

d (w 2 w3 , w1 )=min {d (w 2 , w1 ), d (w3 , w1 ) }=min { 0 . 21,0 . 45 } =0 . 45

d (w 2 w3 , w4 )=min {d (w 2 , w4 ), d (w 3 , w 4 ) }=min { 0 . 46 , 0 .32 }=0 . 46 entonces la tercera

C3 = { w1 w2 w 3 , w 4 } C 4 ={ w1 w 2 w3 w 4 }
configuración es igual a finalmente
Variables dicotómicas: Las variables solo toman valores 1 o 0. En éste contexto se construye

primero la matriz de similaridad y a partir de ella definiendo


d ij =√2(1−s ij ) se genera la matriz
de distancia
D=(d ij ) y se procede como en el ejemplo anterior

Consideremos las siguientes denotaciones


p
A (i ,h )= ∑ x(i , j) x(h , j)
j=1 número de coincidencias entre las entradas de las filas i y h respecto
de la existencia del atributo de interés
p
B (i, h )=∑ x (i , j)(1−x (h , j))
j=1 número de atributos que están presentes en la fila i y que no lo
están en la fila h
p
C(i , h)=∑ (1−x(i , j))x (h , j )
j=1 número de atributos que no están presentes en la fila i y que
están en la fila h
p
D(i, h )=∑ (1−x (i, j))(1−x (h , j ))
j=1 número de coincidencias entre las entradas de las filas i y h
respecto de la no existencia del atributo de interés

Existen dos criterios para definir el coeficiente de similitud global

A(i , h)+D(i ,h )
s (i, h )=
a) Proporción de coincidencias A (i ,h )+B(i, h )+C(i , h)+D(i , h)

A(i , h)
s(i, h )=
b) Proporción de apariciones A (i ,h )+B(i, h )+C(i , h)

en éste caso se da más importancia al hecho de que el atributo de interés se manifieste en

desmedro de la no ocurrencia de éste

Ejemplo: Consideremos 4 variables dicotómicas: Sexo H=1.. M=0, Compra=1… No compra=0,


Enferma=1… No enferma=0,Ahorra=1 no Ahorra=0…Los datos están en la siguiente tabla de
valores en forma traspuesta por razones de espacio calcular la matriz de distancia usando el
criterio de proporción de coincidencias

S 1 1 1 1 0 0 0 1 0 0 1 1 0 0 1 0 0 1
C 0 1 0 0 0 0 1 1 0 1 0 0 0 0 1 1 1 1
E 0 0 1 0 0 1 1 0 1 0 1 0 1 0 1 0 1 1
A 1 0 1 0 1 1 0 0 0 1 0 0 0 0 1 0 0 1

S ↔C A( S , C )=4 B(S ,C )=5 C (S ,C )=4 D( S , C )=5 ⇒ S (S ,C )=0. 5


S ↔E A( S , E)=4 B( S , E)=5 C ( S , E )=5 D( S , E )=2⇒ S (S , E )=6/16
S↔A A( S , A )=4 B( S , A )=5 C (S , A )=3 D( S , A )=6 ⇒ S( S , A )=10/18
C↔E A (C , E)=4 B(C , E )=4 C(C , E )=5 D(C , E )=4 ⇒ S(C , E )=8 /17
C↔A A (C , A )=3 B(C , A )=5 C (C , A )=4 D(C , A )=6 ⇒ S (C , A )=0 .5
E↔A A( E , A )=4 B( E , A )=5 C( E , A )=3 D( E , A )=5⇒ S ( E , A )=9/17

[ ]
1 0 .5 6 /16 10/18
S= 0 . 5 1 8 /17 0 .5
6 /16 8/17 1 9/17
la matriz de similaridad es
10/18 0 .5 9/17 1 y por lo tanto la matriz de

[ ]
0 1 1.11803 0 .942809
D= 1 0 1.02899 1
1. 11803 1 .02899 0 0 .970143
distancia es igual a
0.942809 1 0 .970143 0

Variables cuantitativas continuas

Si las variables son de tipo continuo entonces para la j-ésima variable se define una función de
similaridade ntre dos perfiles o filas por

|x(i , j)−x (h , j )|
s j (i, h)=1− rang( x j )=max { x (i, j )/i=1,2,3 ,. ... , n }−min { x (i, j )/i=1,2,3 ,. .. . , n }
rango( x j )
p
∑ w jih s j (i , h)
s (i, h )= j =1 p
∑ wijh w jih son pesos
Definición: Coeficientes de similaridad global j =1 donde

binarios

Nota:
w jih =1 si la comparación entre las filas i y h tiene sentido y 0 si no lo tiene
p
∑ s j (i , h)
s(i, h )= j=1
en particular si todas las variables son comparables p

[ ]
3 6 7
2 1 9
X=
1 2 6
Ejemplo: Consideremos la matriz de muestreo
4 4 8

a) Agrupar por mediciones o perfiles

b) Agrupar por variables

Solución:

a) la matriz de similaridad se calcula determinando los coeficientes. Hay 3 variables entonces

s 1 (i , j)+s2 (i , j )+s 3 (i , j)
s (i, j)=
3

s 1 (1,2 )=2/3 s 1 (1,3)=1/3 s 1 (1,4 )=2/3 s 1 (2,3 )=2/3 s 1 (2,4 )=1 /3 s1 (3,4 )=0
s 2 (1,2 )=0 s 2 (1,3 )=1/5 s 2 (1,4 )=3 /5 s2 (2,3)=4 /5 s 2 (2,4 )=2/5 s 2 (3,4 )=3/5
s 3 (1,2 )=1/3 s 3 (1,3 )=2/3 s 3 (1,4 )=2/3 s3 (2,3)=0 s 3 (2,4 )=2/3 s3 (3,4 )=1/3 ⇒
s(1,2)=1/3 s(1,3 )=0 . 4 s(1,4 )=0. 6444 s(2,3 )=0 . 4888 s(2,4 )=0 . 4666 s(3,4 )=0. 3111

Las matrices de similaridad y distancia son dadas por

[ ] [ ]
1 1 /3 0 .4 0 . 6444 0 1. 1547 1 .0954 0 .8433
S= 1/3 1 0 .4888 0 . 4666 ⇒ D= 1 .1547 0 1 .0111 1 .0328
0.4 0 .4888 1 0 .3111 1.0954 1. 0111 0 1 .1738
0.6444 0 .4666 0.3111 1 0 .8433 1. 0328 1 .1738 0

Las clases de cada partición son dadas por

C 1= {w1 , w2 , w 3 , w 4 }⇒ C2 ={ w1 w 4 , w2 , w 3 }

d(w 1 w 4 ,w 2 )=min (1.1547 ,1.0328)=1.0328 d(w1 w4 ,w3 )=min(1.0954,1.1738)=1.0954

d (w 2 , w3 )=1 . 0111⇒ C3 = {w1 w4 , w2 w3 }⇒ C 4 ={w 1 w2 w3 w4 }


b) Para generar particiones de variables se utiliza la matriz traspuesta

[ ]
3 2 1 4
t
X=6 1 2 4
7 9 6 8 se debe calcular s(1,2),s(1,3) s(2,3 )

Todas las variables son comparables luego los pesos son iguales a uno por lo tanto

s1 (1,2 )+s 2 (1,2 )+ s 3 (1,2)+s 4 (1,2 )


s (1,2)=
4

s 1 (1,2 )=0 .25 s2 (1,2)=7 /8 s 3 (1,2)=4 /5 s 4 (1,2 )=1 ⇒ s(1,2)=0 .73125


s 1 (1,3 )=0 s2 (1,3 )=1/8 s3 (1,3)=0 s 4 (1,3 )=0⇒ s(1,3)=0 .03125
s 1 (2,3 )=0 . 75 s 2 (2,3)=0 s 3 (2,3 )=0 . 2 s 4 (2,3)=0⇒ s(1,2)=0. 2375

Luego la matriz de similaridad y de distancia son dadas por

[ ] [ ]
1 0.73125 0 .03125 0 0. 7371 1 . 39194
S= 0.73125 1 0. 2375 ⇒ D= 0.7371 0 1.111
0.03125 0.2375 1 1 .39194 1 .111 0
En términos de clases

C1 ={ x 1 , x 2 , x3 } ⇒C 2= { x 1 x2 , x 3 }⇒ C3 = { x1 x 2 x 3 }
, es decir, con criterio de vecino más
x x y x2
cercano la variable 3 es menos similar que las variables 1

El gráfico de las clases se conoce como dendograma

Conclusión: Se explicita una forma de agrupar conglomerados de perfiles o de variables usando el


concepto de distancia euclidiana o similaridad cuando hay variables continuas y también cuando
no necesariamente son continuas, el proceso de jerarquización es muy lento desde un punto de
vista algebraico, para ello existen códigos que realizan éstos cálculos en una forma infinitamente
más eficiente, la idea central es describir cómo se realizan algunos cálculos para formar
conglomerados semejantes en algún sentido de similaridad como se ha explicitado en el apunte

También podría gustarte