Apte 14 - Métodos Multivariados - Prof Francisco Gómez - v1

Dendogramas en Conglomerados
Introducción: La finalidad es formar conglomerados que sean similares en un sentido de la

cercanía o lejanía de las mediciones o de las variables respecto de la distancia Euclidiana. En éste
apunte veremos dos criterios frecuentemente usados en el análisis de conglomerados para
formar jerarquías de conglomerados de acuerdo a un tipo de similaridad y que se conocen como el
vecino más cercano y vecino más lejano. Para tener una visión general del proceso se puede hacer
un bosquejo de la formación de clases conocido como dendograma
Se quiere generar una jerarquía los individuos del conjunto, que se basa en los valores observados
de las variables en una muestra multivariada que definen el perfil del individuo
Criterio del vecino más cercano: Si la matriz de muestreo tiene p variables y n mediciones
entonces la matriz de muestreo es dada por
[ ]
x11 x 12 . . x1 p
x 21 x 22 . . x2 p
X= . . . . .
. . . . .
x n1 xn 2 . . x np
Cada fila representa el perfil de un individuo, por lo tanto hay n perfiles o mediciones, además,
p
cada medición se encuentra en IR . Por ejemplo consideremos las dos primeras filas que
corresponden a los perfiles de los dos primeros individuos, entonces la distancia es
distancia(entre los dos individuos)= √( x 11−x21 )2+( x12−x22 )2+. ..+(x1 p−x 2 p )2
Observación: Si las variables se miden en escalas muy distintas, es conveniente normalizar los
datos para que tengan el mismo orden de magnitud de tal forma que ninguna domine de manera
clara en la expresión de la distancia
La distancia euclidiana es válida para las variables continuas, pero si alguna de ellas es dicotómica
el término correspondiente tendrá en general menos peso que las variables continuas aunque
estas estén normalizadas. Para conseguir una mayor homogeneidad en la importancia de cada
variable a la hora de medir lo alejado que estén dos individuos se introduce el concepto de
similaridad
Definición: El coeficiente de similaridad entre los individuos i y h según la variable

x j es una
s (i,h) que satisface
cantidad j
a ) 0≤s j (i ,h )≤1
b ) s j (i .i)=1
c) s j (i, h )=s j (h , i)
A partir del coeficiente de similaridad para la variable

x j se pueden construir coeficientes globales
de similaridad entre los individuos i y h que se denotan por

s ih realizando suma ponderada que
veremos más adelante
Matriz de distancia: Se calculan las distancias entre todos individuos del conjunto y se ubican en
una matriz simétrica, claramente en la diagonal las entradas deben ser nulas
aih =dist (i , h )=a hi aii =dist (i , i)=0
Algoritmo:
i) Se empieza con tantas clases como individuos existan
ii) Las dos clases más cercanas forman una superclase que las contiene
iii) El algoritmo se detiene cuando todos los individuos están en una sola clase
Distancia entre dos clases
Criterio del encadenamiento simple o vecino más cercano
d(AB,C)=min(d(A,C),d(B,C))
Criterio del encadenamiento completo o del vecino más lejano
d(AB,C)=max(d(A,C),d(B,C))
Nota: Las jerarquías que resultan del proceso no tienen por qué ser iguales
Ejemplo: Dada la matriz de muestreo con el perfil de 4 individuos y dos variables
[ ]
0.3 0.6
X = 0.35 0.4
0.7 0.8
0. 8 0.5
a) Jerarquizar con encadenamiento simple
b) Jerarquizar con encadenamiento completo

Solución:
a) los individuos los denotaremos por

w 1 ,w2 , w 3 y w 4 entonces inicialmente hay 4 clases que
C1 ={ w1 , w 2 ,w3 , w4 }
formarán la configuración inicial que denotaremos por
calculando la distancia euclidiana entre individuos se obtiene la matriz de distancia D explicitada
[ ]
0 0.21 0.45 0.51
0.21 0 0.53 0.46
D=
0. 45 0.53 0 0.32
por la matriz
0.51 0.46 0.32 0
La menor distancia es entre los individuos

w 1 y w2 que corresponden a las clases { w1 , w 2 } estas
dos clases se unen en una sola que la denotaremos por

w 1 w2 , luego las clases son 3 en ésta
C = {w w , w , w
2 1 2 3 }
4 . Nuevamente calculamos la distancia entre éstas clases
configuración
usando el criterio del vecino más cercano o encadenamiento simple
d (w 1 w2 , w3 )=min {d (w 1 , w3 ), d (w 2 , w3 ) }=min {0 . 45 , 0 .53 }=0 . 43
d (w 1 w2 , w4 )=min { d (w1 , w 4 ), d (w 2 , w4 ) }=min { 0 .51 , 0 . 46 }=0. 46
C=
Luego la configuración en el tercer nivel queda con dos clases 3 {w1 w2 w 3 , w 4 } y la última
C 4 ={ w1 w 2 w3 w 4 }
configuración tiene solo una clase
w 2 y w 3 ⇒ C1 ={ w 2 w 3 , w 1 , w 4 }
b) La mayor distancia es entre los individuos
calculamos la distancia entre las 3 clases con el criterio del vecino más lejano
d (w 2 w3 , w1 )=min {d (w 2 , w1 ), d (w3 , w1 ) }=min { 0 . 21,0 . 45 } =0 . 45
d (w 2 w3 , w4 )=min {d (w 2 , w4 ), d (w 3 , w 4 ) }=min { 0 . 46 , 0 .32 }=0 . 46 entonces la tercera
C3 = { w1 w2 w 3 , w 4 } C 4 ={ w1 w 2 w3 w 4 }
configuración es igual a finalmente
Variables dicotómicas: Las variables solo toman valores 1 o 0. En éste contexto se construye
primero la matriz de similaridad y a partir de ella definiendo

d ij =√2(1−s ij ) se genera la matriz
de distancia
D=(d ij ) y se procede como en el ejemplo anterior
Consideremos las siguientes denotaciones

p
A (i ,h )= ∑ x(i , j) x(h , j)
j=1 número de coincidencias entre las entradas de las filas i y h respecto
de la existencia del atributo de interés
p
B (i, h )=∑ x (i , j)(1−x (h , j))
j=1 número de atributos que están presentes en la fila i y que no lo
están en la fila h
p
C(i , h)=∑ (1−x(i , j))x (h , j )
j=1 número de atributos que no están presentes en la fila i y que
están en la fila h
p
D(i, h )=∑ (1−x (i, j))(1−x (h , j ))
j=1 número de coincidencias entre las entradas de las filas i y h
respecto de la no existencia del atributo de interés
Existen dos criterios para definir el coeficiente de similitud global
A(i , h)+D(i ,h )
s (i, h )=
a) Proporción de coincidencias A (i ,h )+B(i, h )+C(i , h)+D(i , h)
A(i , h)
s(i, h )=
b) Proporción de apariciones A (i ,h )+B(i, h )+C(i , h)
en éste caso se da más importancia al hecho de que el atributo de interés se manifieste en
desmedro de la no ocurrencia de éste
Ejemplo: Consideremos 4 variables dicotómicas: Sexo H=1.. M=0, Compra=1… No compra=0,

Enferma=1… No enferma=0,Ahorra=1 no Ahorra=0…Los datos están en la siguiente tabla de
valores en forma traspuesta por razones de espacio calcular la matriz de distancia usando el
criterio de proporción de coincidencias
S 1 1 1 1 0 0 0 1 0 0 1 1 0 0 1 0 0 1
C 0 1 0 0 0 0 1 1 0 1 0 0 0 0 1 1 1 1
E 0 0 1 0 0 1 1 0 1 0 1 0 1 0 1 0 1 1
A 1 0 1 0 1 1 0 0 0 1 0 0 0 0 1 0 0 1
S ↔C A( S , C )=4 B(S ,C )=5 C (S ,C )=4 D( S , C )=5 ⇒ S (S ,C )=0. 5

S ↔E A( S , E)=4 B( S , E)=5 C ( S , E )=5 D( S , E )=2⇒ S (S , E )=6/16
S↔A A( S , A )=4 B( S , A )=5 C (S , A )=3 D( S , A )=6 ⇒ S( S , A )=10/18
C↔E A (C , E)=4 B(C , E )=4 C(C , E )=5 D(C , E )=4 ⇒ S(C , E )=8 /17
C↔A A (C , A )=3 B(C , A )=5 C (C , A )=4 D(C , A )=6 ⇒ S (C , A )=0 .5
E↔A A( E , A )=4 B( E , A )=5 C( E , A )=3 D( E , A )=5⇒ S ( E , A )=9/17
[ ]
1 0 .5 6 /16 10/18
S= 0 . 5 1 8 /17 0 .5
6 /16 8/17 1 9/17
la matriz de similaridad es
10/18 0 .5 9/17 1 y por lo tanto la matriz de
[ ]
0 1 1.11803 0 .942809
D= 1 0 1.02899 1
1. 11803 1 .02899 0 0 .970143
distancia es igual a
0.942809 1 0 .970143 0
Variables cuantitativas continuas
Si las variables son de tipo continuo entonces para la j-ésima variable se define una función de
similaridade ntre dos perfiles o filas por
|x(i , j)−x (h , j )|
s j (i, h)=1− rang( x j )=max { x (i, j )/i=1,2,3 ,. ... , n }−min { x (i, j )/i=1,2,3 ,. .. . , n }
rango( x j )
p
∑ w jih s j (i , h)
s (i, h )= j =1 p
∑ wijh w jih son pesos
Definición: Coeficientes de similaridad global j =1 donde
binarios
Nota:
w jih =1 si la comparación entre las filas i y h tiene sentido y 0 si no lo tiene
p
∑ s j (i , h)
s(i, h )= j=1
en particular si todas las variables son comparables p
[ ]
3 6 7
2 1 9
X=
1 2 6
Ejemplo: Consideremos la matriz de muestreo
4 4 8
a) Agrupar por mediciones o perfiles
b) Agrupar por variables
Solución:
a) la matriz de similaridad se calcula determinando los coeficientes. Hay 3 variables entonces
s 1 (i , j)+s2 (i , j )+s 3 (i , j)
s (i, j)=
3
s 1 (1,2 )=2/3 s 1 (1,3)=1/3 s 1 (1,4 )=2/3 s 1 (2,3 )=2/3 s 1 (2,4 )=1 /3 s1 (3,4 )=0
s 2 (1,2 )=0 s 2 (1,3 )=1/5 s 2 (1,4 )=3 /5 s2 (2,3)=4 /5 s 2 (2,4 )=2/5 s 2 (3,4 )=3/5
s 3 (1,2 )=1/3 s 3 (1,3 )=2/3 s 3 (1,4 )=2/3 s3 (2,3)=0 s 3 (2,4 )=2/3 s3 (3,4 )=1/3 ⇒
s(1,2)=1/3 s(1,3 )=0 . 4 s(1,4 )=0. 6444 s(2,3 )=0 . 4888 s(2,4 )=0 . 4666 s(3,4 )=0. 3111
Las matrices de similaridad y distancia son dadas por
[ ] [ ]
1 1 /3 0 .4 0 . 6444 0 1. 1547 1 .0954 0 .8433
S= 1/3 1 0 .4888 0 . 4666 ⇒ D= 1 .1547 0 1 .0111 1 .0328
0.4 0 .4888 1 0 .3111 1.0954 1. 0111 0 1 .1738
0.6444 0 .4666 0.3111 1 0 .8433 1. 0328 1 .1738 0
Las clases de cada partición son dadas por
C 1= {w1 , w2 , w 3 , w 4 }⇒ C2 ={ w1 w 4 , w2 , w 3 }
d(w 1 w 4 ,w 2 )=min (1.1547 ,1.0328)=1.0328 d(w1 w4 ,w3 )=min(1.0954,1.1738)=1.0954
d (w 2 , w3 )=1 . 0111⇒ C3 = {w1 w4 , w2 w3 }⇒ C 4 ={w 1 w2 w3 w4 }

b) Para generar particiones de variables se utiliza la matriz traspuesta
[ ]
3 2 1 4
t
X=6 1 2 4
7 9 6 8 se debe calcular s(1,2),s(1,3) s(2,3 )
Todas las variables son comparables luego los pesos son iguales a uno por lo tanto
s1 (1,2 )+s 2 (1,2 )+ s 3 (1,2)+s 4 (1,2 )

s (1,2)=
4
s 1 (1,2 )=0 .25 s2 (1,2)=7 /8 s 3 (1,2)=4 /5 s 4 (1,2 )=1 ⇒ s(1,2)=0 .73125

s 1 (1,3 )=0 s2 (1,3 )=1/8 s3 (1,3)=0 s 4 (1,3 )=0⇒ s(1,3)=0 .03125
s 1 (2,3 )=0 . 75 s 2 (2,3)=0 s 3 (2,3 )=0 . 2 s 4 (2,3)=0⇒ s(1,2)=0. 2375
Luego la matriz de similaridad y de distancia son dadas por
[ ] [ ]
1 0.73125 0 .03125 0 0. 7371 1 . 39194
S= 0.73125 1 0. 2375 ⇒ D= 0.7371 0 1.111
0.03125 0.2375 1 1 .39194 1 .111 0
En términos de clases
C1 ={ x 1 , x 2 , x3 } ⇒C 2= { x 1 x2 , x 3 }⇒ C3 = { x1 x 2 x 3 }
, es decir, con criterio de vecino más
x x y x2
cercano la variable 3 es menos similar que las variables 1
El gráfico de las clases se conoce como dendograma
Conclusión: Se explicita una forma de agrupar conglomerados de perfiles o de variables usando el

concepto de distancia euclidiana o similaridad cuando hay variables continuas y también cuando
no necesariamente son continuas, el proceso de jerarquización es muy lento desde un punto de
vista algebraico, para ello existen códigos que realizan éstos cálculos en una forma infinitamente
más eficiente, la idea central es describir cómo se realizan algunos cálculos para formar
conglomerados semejantes en algún sentido de similaridad como se ha explicitado en el apunte

Apte 14 - Métodos Multivariados - Prof Francisco Gómez - v1

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Apte 14 - Métodos Multivariados - Prof Francisco Gómez - v1

Cargado por

Copyright:

Formatos disponibles

Dendogramas en Conglomerados

Introducción: La finalidad es formar conglomerados que sean similares en un sentido de la

Definición: El coeficiente de similaridad entre los individuos i y h según la variable

A partir del coeficiente de similaridad para la variable

de similaridad entre los individuos i y h que se denotan por

aih =dist (i , h )=a hi aii =dist (i , i)=0

i) Se empieza con tantas clases como individuos existan

Distancia entre dos clases

Criterio del encadenamiento simple o vecino más cercano

Criterio del encadenamiento completo o del vecino más lejano

Ejemplo: Dada la matriz de muestreo con el perfil de 4 individuos y dos variables

a) Jerarquizar con encadenamiento simple

b) Jerarquizar con encadenamiento completo

a) los individuos los denotaremos por

calculando la distancia euclidiana entre individuos se obtiene la matriz de distancia D explicitada

La menor distancia es entre los individuos

dos clases se unen en una sola que la denotaremos por

d (w 1 w2 , w3 )=min {d (w 1 , w3 ), d (w 2 , w3 ) }=min {0 . 45 , 0 .53 }=0 . 43

d (w 1 w2 , w4 )=min { d (w1 , w 4 ), d (w 2 , w4 ) }=min { 0 .51 , 0 . 46 }=0. 46

d (w 2 w3 , w1 )=min {d (w 2 , w1 ), d (w3 , w1 ) }=min { 0 . 21,0 . 45 } =0 . 45

d (w 2 w3 , w4 )=min {d (w 2 , w4 ), d (w 3 , w 4 ) }=min { 0 . 46 , 0 .32 }=0 . 46 entonces la tercera

primero la matriz de similaridad y a partir de ella definiendo

Consideremos las siguientes denotaciones

Existen dos criterios para definir el coeficiente de similitud global

en éste caso se da más importancia al hecho de que el atributo de interés se manifieste en

desmedro de la no ocurrencia de éste

Ejemplo: Consideremos 4 variables dicotómicas: Sexo H=1.. M=0, Compra=1… No compra=0,

S ↔C A( S , C )=4 B(S ,C )=5 C (S ,C )=4 D( S , C )=5 ⇒ S (S ,C )=0. 5

Variables cuantitativas continuas

a) Agrupar por mediciones o perfiles

b) Agrupar por variables

a) la matriz de similaridad se calcula determinando los coeficientes. Hay 3 variables entonces

Las matrices de similaridad y distancia son dadas por

Las clases de cada partición son dadas por

d(w 1 w 4 ,w 2 )=min (1.1547 ,1.0328)=1.0328 d(w1 w4 ,w3 )=min(1.0954,1.1738)=1.0954

d (w 2 , w3 )=1 . 0111⇒ C3 = {w1 w4 , w2 w3 }⇒ C 4 ={w 1 w2 w3 w4 }

s1 (1,2 )+s 2 (1,2 )+ s 3 (1,2)+s 4 (1,2 )

s 1 (1,2 )=0 .25 s2 (1,2)=7 /8 s 3 (1,2)=4 /5 s 4 (1,2 )=1 ⇒ s(1,2)=0 .73125

Luego la matriz de similaridad y de distancia son dadas por

El gráfico de las clases se conoce como dendograma

Conclusión: Se explicita una forma de agrupar conglomerados de perfiles o de variables usando el

También podría gustarte