1

ANALISIS DE CONGLOMERADOS
Jorge Galbiati R.
Consiste en buscar grupos (conglomerados) en un conjunto de observaciones de forma tal que
aquellas que pertenecen a un mismo grupo se parecen, mientras que aquellas que pertenecen a
grupos distintos son dis´ımiles, seg´ un alg´ un criterio de distancia o de similitud.
Los algoritmos de formaci´on de conglomerados se agrupan en dos categor´ıas:
Algoritmos de partici´on: M´etodo de dividir el conjunto de observaciones en k conglomerados,
en que k lo define inicialmente el usuario.
Algoritmos jer´ arquicos: M´etodo que entrega una jerarqu´ıa de divisiones del conjunto de ele-
mentos en conglomerados.
Un m´etodo jer´ arquico aglomerativo parte con una situaci´ on en que cada observaci´ on forma un
conglomerado y en sucesivos pasos se van uniendo, hasta que finalmente todas est´an en un ´ unico
conglomerado.
Un m´etodo jer´ arquico divisivo sigue el sentido inverso: Parte de un gran conglomerado y en pasos
sucesivos se va dividiendo hasta que cada observaci´on queda en un conglomerado distinto.
DISTANCIAS ENTRE ELEMENTOS: DISIMILARIDADES
Se dispone de una matriz de datos X
n×p
= (x
ic
) en que i representa una observaci´on y c una
variable.
Una matriz de disimilaridades o distancias D
n×n
es una matriz tal que su elemento i, j es una
disimilaridad d(ij) tal que para todoi, j, k:
1. d(i, j) ≥ 0
2. d(i, i) = 0
3. d(i, j) = d(j, i)
4. d(i, j) ≤ d(i, k) + d(k, j)
D es sim´etrica y su diagonal est´ a formada por ceros.
La disimilaridad d(i, j) representa una medida de la diferencia entre dos observaciones x
i
y x
j
y
constituyen la base para la formaci´ on de conglomerados.
2
A continuaci´ on se muestra una colecci´ on de las principales medidas de disimilaridad, seg´ un el tipo
de escala de medida de las variables.
Algunas medidas de disimilaridad Hay varias medidas de disimilaridad o distancia, apropiadas
para diferentes tipos de escala en que se miden los datos: escala num´erica lineal, num´erica no lineal,
ordinales, nominales y nominales binarios.
Escalas num´ericas
1. Distancia Euclidea:
d(i, j) =

¸
p
c=1
(x
ic
−x
jc
)
2
2. Distancia Manhatan o City Block
d(i, j) =
¸
p
c=1
|x
ic
−x
jc
|
3. Distancia de Minkowski
Es una generalizaci´on de las anteriores:
d(i, j) = (
¸
p
c=1
|x
ic
−x
jc
|
q
)
1
q
en que q es cualquier n´ umero real mayor o igual que1.
4. Distancia de correlaci´on
El coeficiente de correlaci´on es una medida de proximidad o similitud entre dos series de datos.
Por lo tanto, a partir de ´el se puede definir una medida de disimilaridad:
d(i, j) = (1 −corr(i, j))/2
Esta medida tiene un rango de valores entre 0 y 1.
5. Estandarizaci´ on de variables:
La unidad de medida de las variables afecta el resultado. Si las variables tienen ´ ordenes de magnitud
muy distintas, es conveniente estandarizarlas previamente:
z
ic
=
xic−mc
sc
3
en que m
c
y s
c
son medidas muestrales de centro y dispersi´ on respectivamente, ambas medidas en
la misma escala de x
ic
.
Por ejemplo, las m´ as conocidas, media y desviaci´on standard muestrales.
m
c
=
1
n
¸
n
i=1
x
ic
y s
c
=

1
n
¸
n
i=1
(x
ic
−m
c
)
2
Medidas con escala n´ umericas no lineales
6. Son medidas efectuadas en escalas no lineales, por ejemplo exponencial, cuadratica, etc .(Ej: un
crecimiento bacteriano con funci´ on de crecimiento Ac
Bt
, o un ´ındice porcentual), se tratan como
ordinales o bien se les aplica una transformaci´on para linealizarlos, y se aplica cualquier medida
para escalas lineales.
Escalas ordinales
Se conoce el orden pero no la magnitud de las observaciones.
7. Se obtiene una medida de disimilaridad mediante el siguiente procedimiento:
a. Reemplazar x
ic
por su rango r
ic
∈ {1, ....., M
c
} dentro de la columna.
b. Transformar a la escala entre 0 y 1, haciendo: z
ic
=
ric−1
Mc−1
c. Calcular las disimilariaddes como en el caso de las escalas de num´ericas.
Escalas nominales
Por ejemplo, resultados de una encuesta, en que cada encuestado responde a una serie de preguntas
(variables) en escalas {a, b, c, ...}. La medida de disimilaridad entre dos encuestados es la proporci´on
de respuestas en que difieren.
9. Caso general.
d(i, j) =
N
o
de variables con valores diferentes
p
Variables en escala nominal binaria
Son variables con dos valores, se pueden codificar con 0 y 1. La siguiente es la tabla de
contingencia para las observaciones ”i” y ”j”.
i \ j 1 0
1 a b
0 c d
4
10. Si las variables son sim´etricas (ambos valores igualmente importantes), se define una medida
de disimilaridad como
d(i, j) =
b+c
a+b+c+d
11. Si las variables son asim´etricas (una de ellas, codificada 1, es m´ as importante que la otra,
codificada 0). Por ej., la presencia o ausencia de un cierto atributo.Se define una medida que s´ olo
considera el universo de aquellos en que el atributo est´ a presente, llamado coeficiente de Jaccard:
d(i, j) =
b+c
a+b+c
Se excluye d, el n´ umero de comparaciones en que ambas variables valen 0.
Variables mixtas
12. Para observaciones constituidas por combinaciones de variables con escalas diferentes hay
medidas de distancia que combinan medidas de los tipos anteriores, seg´ un el tipo de variable,
ponderadas de manera conveniente.
DISTANCIAS ENTRE CONGLOMERADOS
Las distancias entre los conglomerados son funciones de las distancias entre observaciones, y hay
varias formas de definirlas: Sean A y B dos conglomerados.
Vecino m´as cercano
d(A, B) = m´ın
i∈A
j∈B
d(i, j)
Vecino m´as lejano
d(A, B) = m´ax
i∈A
j∈B
d(i, j)
Promedio de grupo
d(A, B) =
1
nAnB
¸
i∈A
j∈B
d(i, j)
5
Centroide
d(A, B) = d(x
A
, x
B
)
en que x
A
y x
B
son los respectivos centroides de los conglomerados A y B.
El siguiente gr´ afico ilustra las distancias entre conglomerados: Vecino m´as cercano, vecino m´as
lejano, promedio del grupo y centroide, respectivamente.
Figura 1: Distancias entre conglomerados: Vecino m´ as cercano, m´ as lejano, promedio, centro
gravedad.
Medoide
Es la distancia entre los medoides de los grupos.
El vecino m´ as cercano tiende a formar conglomerados m´ as alargados.
El vecino m´ as lejano forma conglomerados m´ as esfericos.
El promedio de grupo y el centroide son m´as robustos que los dem´as.
El medoide es la m´as robusta de las distancias entre conglomerados.
METODOS DE PARTICION.
Se mostrar´an dos m´etodos de an´alisis de conglomerados no jer´erquicos, o de partici´on, el de las
k-medias y el de ´ as k-medoides, de los cuales el m´etodode las k-medias es el m´ as conocido, y otros
dos derivados de los anteriores.
1. M´etodo K-medias. Es un m´etodo iterativo que consiste en los siguiente procedimiento. El
usuario debe proporcionar el n´ umro k de conglomerados que desea tener. Tambi´en se debe definir
una medida de distancia:
6
a. Particionar el conjunto de observaciones en k grupos iniciales arbitrarios.
b. Recorrer todas las observaciones, asign´andolas al conglomerado cuyo centroide est´e a menor
distancia. Cada vez que se reasigna una observaci´on a un conglomerado distinto del que la conten´ıa
s deben recalcular los centroides del conglomerado que pierde la observaci´on y del que la recibe.
Si el conglomerado A (que consiste en n
A
observaciones) pierde la observaci´ on x
i
y si el conglom-
erado B (con n
B
observaciones) recibe a x
i
, los centroides respectivos x
A
y x
B
se modifican de la
siguiente forma:
x

A
=
1
nA−1
(n
A
x
A
−x
i
)
x

B
=
1
nB+1
(n
B
x
B
+ x
i
)
c. Repetir el paso b hasta que no haya m´ as reasignaciones.
EJEMPLO:
Se tienen 4 observaciones cuya matriz de datos est´a dada a continuaci´ on:





0 3 9 12
4 1 6 10
10 7 3 4
10 10 3 1





Se usar´a el m´etodo de las k-medidas para formar dos conglomerados. Tambi´en se utilizar´ an las
distancias euclidea.
En forma de vectores, las cuatro observaciones (filas) son:
x
1
=





0
3
9
12





x
2
=





4
1
6
10





x
3
=





10
7
3
4





x
4
=





10
10
3
1





Definimos arbitrariamente dos conglomerados iniciales . Sean
A = {x
1
} y B = {x
2
, x
3
, x
4
}
Sus centroides respectivos son:
7
x
A
=





0
3
9
12





y x
B
=





8
6
4
5





Algoritmo Iterativo:
Se deben calcular las distancias de cada observaci´ on a los centroides de cada conglomerado. Si
una observaci´ on est´ a a menor distancia del conglomerado vecino, se cambia de conglomerado, se
recalculan los centroides y se pasa a la siguiente iteraci´on.
Iteraci´ on 1
Cuadro de distancias euclideas (al cuadrado) de las observaciones a los centroides, partiendo por
x
1
centroide x
A
x
B
observaci´ on x
1
0 147
x
2
33 70
Cambia x
2
del conglomerado B a A y termina la iteraci´ on 1. No es necesario seguir probando con
x
3
ni x
4
.
Iteraci´ on 2
Nuevos centroides, recalculados. Ahora A =
¸
x
1,
x
2
¸
y B = {x
3
, x
4
}
x
A
=





2
2
7,5
11





x
B
=





10
8,5
3
2,5





Cuadro de distancias al cuadrado, partiendo de x
3
:
centroide x
A
x
B
observaci´ on x
3
158.25 4.5
x
4
248.25 4.5
x
1
8.25 256.5
x
2
8.25 157.5
Las cuatro observaciones quedaron bien clasificadas, luego ya no hay m´ as cambios, por lo tanto los
dos conglomerdos resultantes son:
A = {x
1
, x
2
} y B = {x
3
, x
4
}
8
2. M´etodo K-Medoides.
Es como el k-medias, pero usa los medoides en lugar de los centroides.
El medoide es el punto tal que sus coordenadas son las medianas de las variables respectivas.
3. Conglomerados para conjuntos grandes.
La matriz de distancias es de orden n
2
, por lo que en un conjunto muy grande de observaciones,
estos m´etodos resultan impracticables.
En tal caso se puede hace una simplificaci´on, que lleva a resultados no ´optimos, como los entregados
por los m´etodos anteriores, pero que buscan acercarse al ´ optimo.
El m´as com´ un consiste en extraer una muestra aleatoria de casos, con tama˜ no m´as adecuado al
procedimiernto que se desea utilizar.
A esta muestra se le aplica un m´etodo de conglomerados, como el k-medias o el k-medoide. Una vez
finalizado, cada observaci´ on que no est´ a en la muestra, es asignada al conglomerado cuya media
(o medoide) es m´as cercano. Una medida de bondad de conglomeraci´ on es obtenida mediante el
promedio de las distancias entre cada observaci´on y el medoide de su conglomerado.
Es conveniente repetir el procedimiento anterior, partiendo de diversas mientras. Luego de ´esto
se selecciona la que ya tenga la mejor medida de conglomeraci´on. Se recomienta usar 5 muestras
distintas.
4. An´ alisis Fuzzy (difuso)
Es una variante de los m´etodos k-medias y k-medoides. En lugar de asignar un objeto a un grupo
en forma deterministica, entrega probabilidades de pertenencia de cada observaci´ on a los distintos
conglomerados, en base a sus distancias a los centros de estas. Por ejemplo, pueden ser propor-
cionales a las distancias. Se reasigna una observaci´ on por sorteo, de acuerdo a las probabilidades
definidas.
METODOS JERARQUICOS.
Son m´etodos que parten de tantos conglomerados como casos hay, y en cada etapa siguiente van
juntando conglomerados, hasta llegar a uno solo (m´etodo aglomerativo). O bien, partiendo de uno,
van subdividiendo conglomerados hastya llegar a un caso por conglomerado (m´etodo divisivo).
5. Aglomerativo
Inicialmente cada observaci´on es un conglomerado.
9
Luego en cada paso se unen los conglomerados que est´an a menor distancia y se calcula la distancia
del nuevo conglomerado con todos los dem´ as, form´ andose una nueva matriz de distancias.
El algoritmo termina cuando queda un conglomerado con todas las observaciones.
EJEMPLO
Se tiene una muestra de siete entrevistados que responden a una encuesta de diez preguntas, cada
una con respuestas entre las alternativas a, b, c, d y e
.La matriz de datos de las respuesta es la siguiente:
encuestado
pregunta 1 2 3 4 5 6 7 8 9 10
1 a b b c a b b a a d
2 a c b c d e e a b c
3 c b b c d a b c a d
4 a b e c a d b a a c
5 c c b b d a b c d d
6 a c e c d c e a e d
7 b b c a a a b c a b
Se usar´a como distancia entre casos el n´ umero (o la fracci´ on, dividiendo el n´ umero por 10) de
respuestas diferentes, y la distancia entre conglomerados, la del vecino m´as pr´ oximo.
Iteraci´ on 1
La matriz de distancias entre los encuestados es la siguiente, siendo cada caso un conglomerado:
D
1
=
(1) (2) (3) (4) (5) (6) (7)
(1) 0 6 4 3 7 6 6
(2) 6 0 7 6 7 4 10
(3) 4 7 0 6 3 7 5
(4) 3 6 6 0 9 6 6
(5) 7 7 3 9 0 7 7
(6) 6 4 7 6 7 0 10
(7) 6 10 5 6 7 10 0
Inicialmente se unen 1 con 4 y 3 con 5 a la distancia 3.
Iteraci´ on 2.
La nueva matriz de distancias entre conglomerados queda:
10
D
2
=
(1, 4) (2) (3, 5) (6) (7)
(1, 4) 0 6 4 6 6
(2) 6 0 7 4 10
(3, 5) 4 7 0 7 5
(6) 6 4 7 0 10
(7) 6 10 5 10 0
Se unen (1, 4) con (3, 5) y (2) con (6) a la distancia 4.
Iteraci´ on 3.
La matriz de las distancias entre conglomerados queda:
D
3
=
(1, 3, 4, 5) (2, 6) (7)
(1, 3, 4, 5) 0 6 5
(2, 6) 6 0 10
(7) 5 10 0
Se unen (1, 3, 4, 5) con (7) a la distancia 5. Obs´ervese que las distancias de uni´ on van aumentando
con cada paso. Es decir, cada vez se unen observaciones m´ as dis´ımiles.
Ultima matriz de distancias entre conglomerados:
D
4
=
(1, 3, 4, 5, 7) (2, 6)
(1, 3, 4, 5, 7) 0 6
(2, 6) 6 0
Se unen todos en un s´ olo conglomerdo, a la distancia 6.
El gr´ afico siguiente es un dendograma. Ilustra la forma c´omo se fueron uniendo los conglomerados
hasta formar uno solo. La escala horizontal corresponde a la distncia en que produjeron las uniones,
en cada caso.
De este gr´afico se desprende que si deseamos tener dos conglomerados, ser´ıan (1,3,4,5,7) y (2,6). Si
deseamos tener tres, ser´ıan (7), (1,3,4,5) y (2,6). Si queremos 5, ´estos ser´ıan (1,4), (3,5), (2), (6) y
(7).
11
Figura 2: Dendograma.
6. M´etodo Divisivo.
Comienza con un grupo que contiene todas las observaciones, y en sucesivos pasos lo va dividiendo
hasta quedar cada observaci`on en un conglomerado diferente.
Sin embargo mientras en el paso inicial el m´etodo aglomerativo tiene

n
2

=
n(n−1)
2
posibilidades
de unir los primeros dos conglomerados, el m´etodo divisivo parte con 2
n−1
− 1 posibilidades del
divisi´ on del conglomerado inicial.
Este n´ umero es much´ısimo mayor. En efecto, si hay n=10 observaciones,
n(n−1)
2
= 45 mientras
2
n−1
−1 = 511.
Eso hace poco atractivo este m´etodo. Para avitar considerar todas las posibles divisiones, se
dise˜ n´ o el siguiente algoritmo:
a) Encontrar el objeto m´ as discimil, el que tiene mayor distancia promedio con todos los dem´as.
Este da origen a un grupo ”disidente”.
b) Por cada observaci´ on fuera del grupo disidente D, calcular:
V
i
= promedio
j / ∈D
d(i, j) −promedio
j∈D
d(i, j)
Para encontrar la observaci´ on h para la cual esta diferencia es mayor.
12
c) Si V
h
> 0, h est´a en promedio m´ as cerca del grupo disidente que a su complemento, por lo que
se debe agregar al primero.
d) Repetir b y c, hasta que todos los V
h
sean negativos.
De este modo, el conjunto queda partido en dos conglomerados.
e) Seleccionar el conglomerado de mayor di´ametro (el di´ ametro es la distancia mayor entre dos
objetos de ´el). Dividirlo como en los pasos a,b,c,d.
f) Repetir e hasta que todos los conglomerados contienen solo un objeto.
7. An´ alisis monot´etico.
Se utiliza cuando todas las variables son binarias ,(0 o 1). Es un m´etodo divisivo.
a) Se elige la variable con mayor asociaci´ on con las dem´ as, de la siguiente forma: considere las
variables f y g, y sea la siguiente tabla de contingencia para estas variables, dentro del conglomerado
que se va a dividir:
f \ g 1 0
1 a b
0 c d
La asociaci´on entre f y g se define como
A
fg
= |ad −bc|
La asociaci´on total entre f y las dem´as variables se define como:
A
f
=
¸
g=f
A
fg
La variable t que satisface
A
t
= m´ax
1≤f≤p
A
f
es seleccionada.
b) Usando est´a variable, se divide el conglomerado en dos, uno en que ´esta toma el valor 0, y
otro en que toma el valor 1.
c) Se repite a y b, en los dos conglomerados resultantes.
13
d) Se detiene el proceso cuando todos los conglomerados tienen un s´olo objeto o bien tienen
objetos id´enticos.
8. Conglomerados jer´ arquicos basados en modelos
Asume que todos los datos son generados por una mezla de distribuciones probabilisticas subya-
centes. Si hay G poblaciones diferentes y la densidad de una observaci´ on x de la k-esima poblaci´on
es f
k
(x; θ) para alg´ un vector de par´ ametros θ desconocido.
Dados los datos: X =








x
,
1
x
,
2
.
.
x
,
n








sea j =








j
1
j
2
.
.
j
n








el vector de r´ otulos tales que si x
i
proviene de la k-esima poblaci´on, entonces j
i
= k.
El m´etodo de m´axima verosimilitud busca θ y j tales que se maximice la verosimilitud
L(X; θ; j) = Π
n
i=1
f
ji
(x
i
; θ)
Existen diferentes casos para f
k
(x
i
; θ). Se suele asumir que es normal multivariante N(µ
k
, Σ
k
).
Si adem´as se asume que Σ
k
= σ
2
k
I, los conglomerados resultan de forma hiperesf´erica.
Si Σ
k
tiene cualquier forma, sus valores propios especifican la orientaci´ on que tiene el n-esimo
conglomerado y el mayor valor propio es una medida de su tama˜ no o varianza, µ
k
da su posici´ on.
9. Algoritmo Gen´etico
Este algoritmo de conglomeraci´on no puede clasificarse como jer´ arquico. Tiene su origen de la
inform´atica, y son aplicables al an´ alisis de conglomerados. El siguiente m´etodo se basa en estos
algoritmos.
Suponga que se desea particionar un conjunto {x
1
, x
2
, ..., x
n
} de observaciones en 3 grupos.
Se debe disponer de una medida de Bondad de Conglomeraci´ on que permite discriminar cual
esquema de distribuci´on de observaciones en un grupo de conglomerados es mejor .
Por ejemplo: puede ser el coeficiente silueta definido anteriormente o un cuociente entre cuadros
medios entre conglomerados y cuadrados medidas dentro de los conglomerados
Un vector de r´ otulos es un vector de coordenadas enteras, que indican el conglomerado al que
pertenece cada respectivo elemnto muestral. Por ejemplo,
14
c

= [1 1 2 2 2 3 1 1 3 3 2]
que indica que x
1
, x
2
, x
7
, y x
8
, est´an en un conglomerado,x
3
, x
4
, x
5
y x
11
est´an en otro, yx
6
, x
9
,y
x
10
est´an en un tercero.
El m´etodo parte de un conjunto de ”cromosomas”, que son vectores de r´ otulos,{c
1
, c
2
, ...c
k
}
Estos cromosomas son arbitrarios, as´ı como el n´ umero de ellos. Por ejemplo: pueden ser 18 cro-
mosomas, seis cuyos elementos son todos 1, seis cuyos elementos son 2, y seis cuyos elementos son
3, de la forma





























1
1
.
.
.
1










,










1
1
.
.
.
1










, ...,










2
2
.
.
.
2










, ...,










3
3
.
.
.
3





























Cada uno de los n´ umeros del cromosoma es un ”gen”. Este conjunto forma la ”primera generaci´on”.
Para formar la segunda generaci´on se forman pares, relacionados al azar. Estos son los ”Padres”
con un determinado n´ umero de ”hijos”, cuyos cromosomas se forman eligiendo cada gen, uno entre
los dos de ambos padres, que ocupan la misma posici´ on, seleccionado al azar, Por ejemplo, la
siguiente ilustraci´ on muestra un caso posible, en que dos parejas de padres tienen tres hijos de
cada uno.
Padres (Generaci´on k)










1
1
1
1
1
1




















3
3
3
3
3
3




















1
2
2
3
1
1




















3
1
1
2
2
3










Hijos (generaci´on k+1)










1
1
1
3
1
3




















1
1
3
1
1
1




















3
1
3
3
1
3




















1
1
2
3
1
3




















3
2
1
2
1
3




















1
1
2
3
2
1










Supongamos en nuestro ejemplo que cada pareja tiene 3 hijos. Entonces la segunda generaci´on
habr´ıan 27 individuos.
15
Sea M
k
(c) el valor de la medida individuo de conglomeraci´ on aplicada al definido por el cromosoma
c, en la k-´esima generaci´on.
Se ordenan todos los individuos de la ´ ultima generaci´on de acuerdo a sus medidas de conglom-
eraci´on.
Se selecciona un grupo de las mejores, que forma la ”elite”, y sus genes se copian en la siguiente
generaci´on. (se ”clonan”). Por ejemplo, la elite pueden estar formadas por los tres primeros.
Despu´es se seleccionan los mejores en igual n´ umero que al inicio, (se incluyen los de la elite), y
se repite todo el proceso. Es decir, se forman parejas al azar, tienen hijos cuyos genes resultan de
la combinaci´ on, al azar, de los correspondientes genes de sus padres. Se ordenan de acuerdo a la
medida de bondad de conglomeraci´ on, se obtiene una elite que se clona en la siguiente generaci´ on,
por ejemplo con los 18 mejores se seleccionan 9 parejas, etc.
En el ejemplo, cada generaci´ on tiene 3 que pertenecen a la elite de la generaci´ on anterior, m´ as 3
hijos por cada una de las 9 parejas de la generaci´ on anterior, son 30 individuos en cada generaci´ on.
Se repite el proceso por un n´ umero alto de generaciones mejor´andose progresivamente la medida
de bondad de conglomeraci´ on, optimiz´ andose el proceso.
Falta un elemento para completar el proceso. Hasta el momento el procedimiento apunta a buscar
un ´ optimo. Sin embargo, puede ser que estemos tratando de mejorar en el entorno de un ´optimo
local. Se debe tratar de explorar, paralelamente, otras zonas del espacio de posibles esquemas de
conglomeraci´on, en busca de ´ optimos locales que superen al ´ optimo local actual. Esto se hace de
la siguiente forma:
En cada generaci´on se introduce una peque˜ na fracci´on de ”mutantes”, ´estos son individuos que
cambian espont´aneamente un gen. Esta fracci´on es peque˜ na por ejemplo, un 10 % de individuos.
En nuestro ejemplo ser´ıan 3. En cada generaci´on se seleccionan al azar estos individuos mutantes,
y se les selecciona al azar un gen, al que se les asigna un valor, tambi´en al azar.
Estos mutantes permiten que la exploraci´ on se extienda a otras zonas, donde podr´ıan haber ´ optimos
locales que superen el ya encontrado.
Resumen del algoritmo gen´etico aplicado al an´ alisis de conglomerados:
Siguiendo con los valores dados en el ejemplo, que pueden variar, en la practica. Adem´ as, la forma
presentada aqu´ı es una de varias posibles variantes del algoritmo.
Generaci´on k-esima: Recibe de la generaci´on anterior: La elite de la generaci´ on anterior for-
mada por los 3 mejores, m´as 27 hijos (incluidos 3 mutantes) = 30 individuos.
16
Los 3 mejores (elite) pasan id´enticos a la siguente generaci´on.
Adem´as, entre los 18 mejores (incluyendo los de la elite) se forman 9 parejas al azar.
Cada pareja enjendra 3 hijos. De estos 27 hijos, 3 son mutantes.
Entrega a la generaci´ on siguiente:
Los 3 de la elite m´ as los 27 hijos ( incluidos 3 mutantes)
MEDIDAS DE BONDAD DE CONGLOMERACION.
Se debe disponer de una medida de Bondad de Conglomeraci´ on que permite discriminar cual es-
quema de distribuci´on de observaciones en un grupo de conglomerados es mejor .
La Figura 3 siguiente muestra un conjunto de 12 observaciones bidimensionales, con tres esquemas
de conglomerados, donde, a simple vista, el de tres conglomerados es el que mejor separa las
observaciones en grupos.
Si se dividen en dos conglomerados, el primero contiene observaciones muy distantes entre s´ı. Si se
separa en cuatro, aparecen dos conglomerados muy pr´ oximos.
1. Coeficiente Silueta
Se define, para una observaci´on i, el valor:
a(i) = promedio de las disimilitudes de i con todos los dem´ as objetos del conglomerado A al cual
pertenece i.
Sea C otro conglomerado, C = A. Sea d(i, C) = promedio de distancias deia todos los elementos
deC.
Sea b(i) = m´ın
C=A
d(i, C)
El conglomerado B que alcanza el m´ınimo, es decir, tal que d(i, B) = b(i) se denomina vecindad
del objeto i. B es el segundo mejor conglomerado para i.
La silueta del objeto i se define como:
s(i) =
b(i)−a(i)
m´ax{a(i),b(i)}
observar que −1 ≤ s(i) ≤ 1
Interpretaci´ on:
17
s(i) ≈ 1, el objeto i est´a bien clasificado
s(i) ≈ 0, el objeto i est´a entre dos conglomerados
s(i) ≈ −1, el objeto i est´a mal clasificado.
El coeficiente silueta es el promedio a trav´es de todas las observaciones. Mientras m´ as grande,
mejor es la distribuci´on de conglomerados.
La Figura 3 muestra que el mayor valor, de 0,69, corresponde al esquema de conglomerados que a
simple vista parece mejor, con tres conglomerados.
2. Cuadrado medio dentro de los conglomerados
Es el promedio de la suma de cuadrados de las distancias de cada observaci´on hasta el centroide
del conglomerado a que pertenecen.
CMD =
1
d
¸
j

¸
i

x
ij
−x
j

2

en que x
ij
es la observaci´ on i − ´ esima del conglomerado j , x
j
es el vector promedio del con-
glomerados j, y d =
¸
n
j
− G es el divisor (”grados de libertad”), donde n
j
es el numero de
observaciones en el conglomerado j. Mientras m´ as peque˜ no, mejor.
Cada elemento
¸
i

x
ij
−x
j

2
es una medida de bondad dentro del respectivo conglomerado.
Si uno de ellos es muy grande, indica que el correspondiente conglomerado tiene elementos muy
disc´ımiles.
Figura 3: Tres esquemas de conglomerados para un mismo conjunto de puntos. El del centro es el
mejor.
18
3. Coeficiente F
Es el un cuociente entre los cuadrados medidas dentro de los conglomerados (CMD) y los cuadros
medios entre (CME) conglomerados, donde
CME =
1
G−1
¸
j

x
j
−x

2
en que x
j
es el vector promedio del conglomerados j − ´ esimo, x es el vector promedio global, G
el n´ umero de conglomerados, y indica norma vectorial.
4. Coeficiente aglomerativo
Es una medida global de conglomeraci´ on, asociada a los m´etodos jer´ arquicos. Se aplica a todo el
procedimiento, no a un determinado n´ umero de conglomerados.
Por cada elemento i, sea d(i) su distancia al primer conglomerado con que se une, dividida por la
distancia de los ´ ultimos conglomerados en unirse. El coeficiente aglomerativo es
CA = 1 −
P
i=1nd(i)
n
5. Otros indicadores.
Se pueden definir varios otros indicadores, como por ejemplo, el cuociente o la diferencia entre la
distancia m´axima o distancia promedio dentro de los conglomerados (que se espera sea peque˜ na),
y la distancia m´ınima o la distancia promedio entre conglomerados (que se espera sea grande). se
pueden obtener otros indicadores como variantes de estos.
Sea x
j
una observaci´ on. Se define d(j) como el cuociente entre la distancia en que x
j
se une por
primera vez a otro conglomerado y la distancia en que se produce la ´ ultima fusi´ on de todos en un
s´olo gran conglomerado. El coeficiente aglomerativo es el promedio de (1 −d(j)) a trav´es de todas
las observaciones.
Obs´ervese que si este coeficiente es grande, significa que los d(j) tienden a ser peque˜ nos, es decir,
que la mayor´ıa las fusiones se produjeron a distancias relativamente peque˜ nas.
GRAFICOS ASOCIADOS AL ANALISIS DE CONGLOMERADOS
1. Silueta
La silueta de un conglomerado es una representaci´on gr´ afica de los coeficientes silueta s(i) para
todas las observaciones i = 1, 2, ..., n, rangueados en orden descendente dentro de su conglomerado.
La proporci´on de superficie contenida en las barras, respecto del ´ area del ancho 1, corresponde al
coeficiente silueta. Mientras m´ as largas las barras, mejor. Ver Figura 4.
19
Figura 4: Gr´ afico de silueta.
2. Dendograma.
Es un gr´ afico que muestra c´ omo se fueron uniendo los conglomerados hasta formar uno solo. La
escala vertical corresponde a la distancia en que produjeron las uniones, en cada caso. Ver Figura
5.
Figura 5: Dendograma.
20
3. Bandera (Banner)
Tambi´en es s´olo para m´etodos jer´ arquicos. Los objetos se listan de arriba hacia abajo a la izquierda.
Al lado de cada uno hay una linea horizontal. Las lineas se unen mediante trazos verticales,
colocados a la distancia de uni´ on.
La informaci´ on que entrega este gr´ afico es la misma que el dendograma. N´otese que el coeficiente
aglomerativo corresponde al la proporci´ on de superficie del lado derecho del gr´afico de bandera.
Ver Figura 7. La situaci´ on ilustrada en el gr´ afico corresponde al mismo caso del dendograma de la
Figura 6.
Figura 6: Gr´ afico de bandera.
4. Biplot
Es un plano formado con dos coordenadas, en que cada un representa una componente principal
de los datos. El caso m´ as usual es el que se compone de las componentes 1 y 2, y representa el
plano en que las proyecciones de las observaciones aparecen m´as dispersas. Es posible visualizar
los conglomerados en este plano. Ver Figura 7.
21
Figura 7: Gr´ aficos Biplot.

2

A continuaci´n se muestra una colecci´n de las principales medidas de disimilaridad, seg´ n el tipo o o u de escala de medida de las variables. Algunas medidas de disimilaridad Hay varias medidas de disimilaridad o distancia, apropiadas para diferentes tipos de escala en que se miden los datos: escala num´rica lineal, num´rica no lineal, e e ordinales, nominales y nominales binarios. Escalas num´ricas e 1. Distancia Euclidea:

d(i, j) =

p c=1 (xic

− xjc )2

2. Distancia Manhatan o City Block d(i, j) = 3. Distancia de Minkowski Es una generalizaci´n de las anteriores: o d(i, j) = (
p c=1 p c=1

|xic − xjc |

|xic − xjc | ) q

q

1

en que q es cualquier n´mero real mayor o igual que1. u 4. Distancia de correlaci´n o El coeficiente de correlaci´n es una medida de proximidad o similitud entre dos series de datos. o Por lo tanto, a partir de ´l se puede definir una medida de disimilaridad: e d(i, j) = (1 − corr(i, j))/2 Esta medida tiene un rango de valores entre 0 y 1. 5. Estandarizaci´n de variables: o La unidad de medida de las variables afecta el resultado. Si las variables tienen ordenes de magnitud ´ muy distintas, es conveniente estandarizarlas previamente: zic =
xic −mc sc

se pueden codificar con 0 y 1. media y desviaci´n standard muestrales. . Se obtiene una medida de disimilaridad mediante el siguiente procedimiento: a. ambas medidas en la misma escala de xic . etc .3 o en que mc y sc son medidas muestrales de centro y dispersi´n respectivamente. d(i... y se aplica cualquier medida o para escalas lineales.(Ej: un ındice porcentual). haciendo: zic = ric −1 Mc −1 c. Escalas ordinales Se conoce el orden pero no la magnitud de las observaciones.}.. j) = Variables en escala nominal binaria Son variables con dos valores. Calcular las disimilariaddes como en el caso de las escalas de num´ricas. Mc } dentro de la columna. las m´s conocidas.. La medida de disimilaridad entre dos encuestados es la proporci´n o de respuestas en que difieren.. i\j 1 0 1 a c 0 b d No de variables con valores diferentes p . Son medidas efectuadas en escalas no lineales. en que cada encuestado responde a una serie de preguntas (variables) en escalas {a. Transformar a la escala entre 0 y 1. 7.. c. Caso general. La siguiente es la tabla de contingencia para las observaciones ”i” y ”j”. Por ejemplo. . cuadratica. a o mc = 1 n n i=1 xic y sc = 1 n n i=1 (xic − mc )2 Medidas con escala n´ mericas no lineales u 6. o un ´ o ordinales o bien se les aplica una transformaci´n para linealizarlos. se tratan como crecimiento bacteriano con funci´n de crecimiento AcBt . b. por ejemplo exponencial. Reemplazar xic por su rango ric ∈ {1.. 9. resultados de una encuesta. e Escalas nominales Por ejemplo. b.

se define una medida e de disimilaridad como d(i. j) . Por ej. codificada 1. es m´s importante que la otra. seg´ n el tipo de variable.Se define una medida que s´lo o considera el universo de aquellos en que el atributo est´ presente. Si las variables son asim´tricas (una de ellas. j) = b+c a+b+c+d 11. B) = 1 nA nB i∈A j∈B d(i. Vecino m´s cercano a d(A. Si las variables son sim´tricas (ambos valores igualmente importantes). j) = b+c a+b+c Se excluye d. e a codificada 0). Para observaciones constituidas por combinaciones de variables con escalas diferentes hay medidas de distancia que combinan medidas de los tipos anteriores.. el n´ mero de comparaciones en que ambas variables valen 0. B) = m´ i∈A d(i. u Variables mixtas 12. j) a j∈B Promedio de grupo d(A. la presencia o ausencia de un cierto atributo. DISTANCIAS ENTRE CONGLOMERADOS Las distancias entre los conglomerados son funciones de las distancias entre observaciones. u ponderadas de manera conveniente. B) = m´x i∈A d(i.4 10. llamado coeficiente de Jaccard: a d(i. y hay varias formas de definirlas: Sean A y B dos conglomerados. j) ın j∈B Vecino m´s lejano a d(A.

Es un m´todo iterativo que consiste en los siguiente procedimiento. vecino m´s a a a lejano. m´s lejano.5 Centroide d(A. El e e usuario debe proporcionar el n´mro k de conglomerados que desea tener. de los cuales el m´todode las k-medias es el m´s conocido. El siguiente gr´fico ilustra las distancias entre conglomerados: Vecino m´s cercano. Tambi´n se debe definir u e una medida de distancia: . o de partici´n. a a El promedio de grupo y el centroide son m´s robustos que los dem´s. El vecino m´s cercano tiende a formar conglomerados m´s alargados. y otros ´ e a dos derivados de los anteriores. a a El medoide es la m´s robusta de las distancias entre conglomerados. B) = d(xA . Figura 1: Distancias entre conglomerados: Vecino m´s cercano. centro a a gravedad. respectivamente. promedio del grupo y centroide. el de las a e a e o k-medias y el de as k-medoides. Se mostrar´n dos m´todos de an´lisis de conglomerados no jer´rquicos. M´todo K-medias. promedio. a a El vecino m´s lejano forma conglomerados m´s esfericos. 1. a METODOS DE PARTICION. Medoide Es la distancia entre los medoides de los grupos. xB ) en que xA y xB son los respectivos centroides de los conglomerados A y B.

Particionar el conjunto de observaciones en k grupos iniciales arbitrarios.6 a. las cuatro observaciones (filas) son: ⎡ ⎢ ⎢ x1 = ⎢ ⎣ 0 3 9 12 ⎤ ⎥ ⎥ ⎥ ⎦ ⎡ ⎢ ⎢ x2 = ⎢ ⎣ 4 1 6 10 ⎤ ⎥ ⎥ ⎥ ⎦ ⎡ ⎢ ⎢ x3 = ⎢ ⎣ 10 7 3 4 ⎤ ⎥ ⎥ ⎥ ⎦ ⎡ ⎢ ⎢ x4 = ⎢ ⎣ 10 10 3 1 ⎤ ⎥ ⎥ ⎥ ⎦ Definimos arbitrariamente dos conglomerados iniciales . Repetir el paso b hasta que no haya m´s reasignaciones. Sean A = {x1 } y B = {x2 . o Si el conglomerado A (que consiste en nA observaciones) pierde la observaci´n xi y si el conglomo erado B (con nB observaciones) recibe a xi . Cada vez que se reasigna una observaci´n a un conglomerado distinto del que la conten´ o ıa s deben recalcular los centroides del conglomerado que pierde la observaci´n y del que la recibe. Recorrer todas las observaciones. los centroides respectivos xA y xB se modifican de la siguiente forma: xA = xB = 1 nA −1 (nA xA 1 nB +1 (nB xB − xi ) + xi ) c. En forma de vectores. asign´ndolas al conglomerado cuyo centroide est´ a menor a e distancia. Tambi´n se utilizar´n las a e e a distancias euclidea. x3 . b. a EJEMPLO: Se tienen 4 observaciones cuya matriz de datos est´ dada a continuaci´n: a o ⎡ ⎢ ⎢ ⎢ ⎣ ⎤ 9 12 6 10 ⎥ ⎥ ⎥ 3 4 ⎦ 3 1 0 3 4 1 10 7 10 10 Se usar´ el m´todo de las k-medidas para formar dos conglomerados. x4 } Sus centroides respectivos son: .

o Iteraci´n 1 o Cuadro de distancias euclideas (al cuadrado) de las observaciones a los centroides. se o a recalculan los centroides y se pasa a la siguiente iteraci´n.5 3 2.5 x3 x4 x1 x2 Las cuatro observaciones quedaron bien clasificadas. partiendo de x3 : centroide observaci´n o xA 158.5 ⎤ ⎥ ⎥ ⎥ ⎦ Cuadro de distancias al cuadrado.5 11 ⎤ ⎥ ⎥ ⎥ ⎦ y B = {x3 .25 8.5 4.7 ⎡ ⎢ ⎢ xA = ⎢ ⎣ ⎤ ⎥ ⎥ ⎥ ⎦ y ⎡ ⎢ ⎢ xB = ⎢ ⎣ ⎤ ⎥ ⎥ ⎥ ⎦ 0 3 9 12 8 6 4 5 Algoritmo Iterativo: Se deben calcular las distancias de cada observaci´n a los centroides de cada conglomerado. partiendo por x1 centroide observaci´n o xA 0 33 xB 147 70 x1 x2 Cambia x2 del conglomerado B a A y termina la iteraci´n 1. x4 } .5 256.5 157. recalculados.25 8.25 248. Iteraci´n 2 o Nuevos centroides. x2 } y B = {x3 . x2 ⎡ ⎢ ⎢ xA = ⎢ ⎣ 2 2 7. Ahora A = x1. se cambia de conglomerado. por lo tanto los a dos conglomerdos resultantes son: A = {x1 . x4 } ⎡ ⎢ ⎢ xB = ⎢ ⎣ 10 8. Si o una observaci´n est´ a menor distancia del conglomerado vecino. luego ya no hay m´s cambios. No es necesario seguir probando con o x3 ni x4 .25 xB 4.

e Es como el k-medias. pueden ser proporcionales a las distancias. La matriz de distancias es de orden n2 . que lleva a resultados no ´ptimos. e 5. con tama˜ o m´s adecuado al a u n a procedimiernto que se desea utilizar. El medoide es el punto tal que sus coordenadas son las medianas de las variables respectivas. 3. An´lisis Fuzzy (difuso) a Es una variante de los m´todos k-medias y k-medoides. En lugar de asignar un objeto a un grupo e en forma deterministica. en base a sus distancias a los centros de estas. O bien. Son m´todos que parten de tantos conglomerados como casos hay. Por ejemplo. e ´ El m´s com´ n consiste en extraer una muestra aleatoria de casos. como el k-medias o el k-medoide.8 2. o Es conveniente repetir el procedimiento anterior. A esta muestra se le aplica un m´todo de conglomerados. Se reasigna una observaci´n por sorteo. como los entregados o o por los m´todos anteriores. de acuerdo a las probabilidades o definidas. e van subdividiendo conglomerados hastya llegar a un caso por conglomerado (m´todo divisivo). M´todo K-Medoides. pero usa los medoides en lugar de los centroides. METODOS JERARQUICOS. Conglomerados para conjuntos grandes. Una vez e finalizado. Aglomerativo Inicialmente cada observaci´n es un conglomerado. entrega probabilidades de pertenencia de cada observaci´n a los distintos o conglomerados. partiendo de diversas mientras. por lo que en un conjunto muy grande de observaciones. Se recomienta usar 5 muestras o distintas. e En tal caso se puede hace una simplificaci´n. Luego de ´sto e se selecciona la que ya tenga la mejor medida de conglomeraci´n. pero que buscan acercarse al optimo. o . estos m´todos resultan impracticables. es asignada al conglomerado cuya media o a (o medoide) es m´s cercano. partiendo de uno. Una medida de bondad de conglomeraci´n es obtenida mediante el a o promedio de las distancias entre cada observaci´n y el medoide de su conglomerado. hasta llegar a uno solo (m´todo aglomerativo). cada observaci´n que no est´ en la muestra. y en cada etapa siguiente van e juntando conglomerados. 4.

EJEMPLO Se tiene una muestra de siete entrevistados que responden a una encuesta de diez preguntas. Iteraci´n 2. form´ndose una nueva matriz de distancias.La matriz de datos de las respuesta es la siguiente: pregunta 1 2 3 encuestado 4 5 6 7 1 a a c a c a b 2 b c b b c c b 3 b b b e b e c 4 c c c c b c a 5 a d d a d d a 6 b e a d a c a 7 b e b b b e b 8 a a c a c a c 9 a b a a d e a 10 d c d c d d b Se usar´ como distancia entre casos el n´ mero (o la fracci´n. dividiendo el n´mero por 10) de a u o u respuestas diferentes. siendo cada caso un conglomerado: (1) 0 6 4 3 7 6 6 (2) 6 0 7 6 7 4 10 (3) 4 7 0 6 3 7 5 (4) 3 6 6 0 9 6 6 (5) 7 7 3 9 0 7 7 (6) 6 4 7 6 7 0 10 (7) 6 10 5 6 7 10 0 (1) (2) (3) D1 = (4) (5) (6) (7) Inicialmente se unen 1 con 4 y 3 con 5 a la distancia 3. la del vecino m´s pr´ximo. o La nueva matriz de distancias entre conglomerados queda: . y la distancia entre conglomerados. b. a a El algoritmo termina cuando queda un conglomerado con todas las observaciones. c. d y e . a o Iteraci´n 1 o La matriz de distancias entre los encuestados es la siguiente.9 Luego en cada paso se unen los conglomerados que est´n a menor distancia y se calcula la distancia a del nuevo conglomerado con todos los dem´s. cada una con respuestas entre las alternativas a.

4) (2) D2 = (3. Iteraci´n 3. 5) (6) (7) (1. 5. ´stos ser´ (1. (1. Ultima matriz de distancias entre conglomerados: (1. (6) y ıan e ıan (7).6).6). 3.5. 6) 6 0 D4 = (1. 5) 0 6 5 (2. 6) Se unen todos en un s´lo conglomerdo. 4) 0 6 4 6 6 (2) 6 0 7 4 10 (3. De este gr´fico se desprende que si deseamos tener dos conglomerados. 5) con (7) a la distancia 5. 4. 6) (7) Se unen (1. ser´ (1. Ilustra la forma c´mo se fueron uniendo los conglomerados a o hasta formar uno solo. 7) 0 6 (2. 4.3. 7) (2. 5) 4 7 0 7 5 (6) 6 4 7 0 10 (7) 6 10 5 10 0 Se unen (1. 6) 6 0 10 (7) 5 10 0 (1. 4. 3. o El gr´fico siguiente es un dendograma.5) y (2. (2). 3. o La matriz de las distancias entre conglomerados queda: (1.3. 3. 5) y (2) con (6) a la distancia 4. La escala horizontal corresponde a la distncia en que produjeron las uniones.7) y (2.4. 5) D3 = (2.4. . (3. Es decir. 3.4). 4) con (3.5). 4. Si a ıan deseamos tener tres. 4. cada vez se unen observaciones m´s dis´ a ımiles. ser´ (7). Obs´rvese que las distancias de uni´n van aumentando e o con cada paso. 5.10 (1. Si queremos 5. a la distancia 6. en cada caso.

o Este n´ mero es much´ u ısimo mayor. e Comienza con un grupo que contiene todas las observaciones. se e dise˜o el siguiente algoritmo: n´ a) Encontrar el objeto m´s discimil. o . j) / Para encontrar la observaci´n h para la cual esta diferencia es mayor. 6. j) − promedioj∈D d(i. si hay n=10 observaciones. y en sucesivos pasos lo va dividiendo hasta quedar cada observaci`n en un conglomerado diferente. M´todo Divisivo. calcular: o Vi = promedioj ∈D d(i. b) Por cada observaci´n fuera del grupo disidente D. el que tiene mayor distancia promedio con todos los dem´s. a a Este da origen a un grupo ”disidente”. n(n−1) 2 = 45 mientras Eso hace poco atractivo este m´todo. 2n−1 − 1 = 511. o Sin embargo mientras en el paso inicial el m´todo aglomerativo tiene n = n(n−1) posibilidades e 2 2 de unir los primeros dos conglomerados. En efecto. el m´todo divisivo parte con 2n−1 − 1 posibilidades del e divisi´n del conglomerado inicial.11 Figura 2: Dendograma. Para avitar considerar todas las posibles divisiones.

c) Se repite a y b. d) Repetir b y c. en los dos conglomerados resultantes. por lo que se debe agregar al primero. hasta que todos los Vh sean negativos. e a) Se elige la variable con mayor asociaci´n con las dem´s. y a e otro en que toma el valor 1. uno en que ´sta toma el valor 0. e f) Repetir e hasta que todos los conglomerados contienen solo un objeto. e) Seleccionar el conglomerado de mayor di´metro (el di´metro es la distancia mayor entre dos a a objetos de ´l). h est´ en promedio m´s cerca del grupo disidente que a su complemento. se divide el conglomerado en dos. a e Se utiliza cuando todas las variables son binarias . Dividirlo como en los pasos a. An´lisis monot´tico. Es un m´todo divisivo. de la siguiente forma: considere las o a variables f y g.d. b) Usando est´ variable. De este modo.c. . 7. dentro del conglomerado que se va a dividir: f 1 0 \g 1 a c 0 b d La asociaci´n entre f y g se define como o Af g = |ad − bc| La asociaci´n total entre f y las dem´s variables se define como: o a Af = g=f Af g La variable t que satisface At = m´x1≤f ≤p Af a es seleccionada.(0 o 1).b. y sea la siguiente tabla de contingencia para estas variables.12 a a c) Si Vh > 0. el conjunto queda partido en dos conglomerados.

. . Conglomerados jer´rquicos basados en modelos a Asume que todos los datos son generados por una mezla de distribuciones probabilisticas subyacentes. n 9. o o El m´todo de m´xima verosimilitud busca θ y j tales que se maximice la verosimilitud e a L(X. 1 x. ⎡ ⎢ ⎢ ⎢ X=⎢ ⎢ ⎢ ⎣ x. x.. n ⎤ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎦ ⎡ ⎢ ⎢ ⎢ sea j = ⎢ ⎢ ⎢ ⎣ j1 j2 . jn ⎤ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎦ Dados los datos: el vector de r´tulos tales que si xi proviene de la k-esima poblaci´n. x2 . Si hay G poblaciones diferentes y la densidad de una observaci´n x de la k-esima poblaci´n o o u a es fk (x. Se suele asumir que es normal multivariante N (µk . Σk ). . 2 Si adem´s se asume que Σk = σk I. e 8. θ) i=1 Existen diferentes casos para fk (xi . Tiene su origen de la o a inform´tica. j) = Πn fji (xi . los conglomerados resultan de forma hiperesf´rica.. a e Si Σk tiene cualquier forma. Se debe disponer de una medida de Bondad de Conglomeraci´n que permite discriminar cual o esquema de distribuci´n de observaciones en un grupo de conglomerados es mejor . y son aplicables al an´lisis de conglomerados.. sus valores propios especifican la orientaci´n que tiene el n-esimo o o conglomerado y el mayor valor propio es una medida de su tama˜o o varianza. o Por ejemplo: puede ser el coeficiente silueta definido anteriormente o un cuociente entre cuadros medios entre conglomerados y cuadrados medidas dentro de los conglomerados Un vector de r´tulos es un vector de coordenadas enteras. El siguiente m´todo se basa en estos a a e algoritmos. Suponga que se desea particionar un conjunto {x1 . 2 . entonces ji = k. .13 d) Se detiene el proceso cuando todos los conglomerados tienen un s´lo objeto o bien tienen o objetos id´nticos. que indican el conglomerado al que o pertenece cada respectivo elemnto muestral. θ. xn } de observaciones en 3 grupos. µk da su posici´n. θ). Algoritmo Gen´tico e Este algoritmo de conglomeraci´n no puede clasificarse como jer´rquico. Por ejemplo. θ) para alg´n vector de par´metros θ desconocido.

x3 . seleccionado al azar. Este conjunto forma la ”primera generaci´n”. Entonces la segunda generaci´n o habr´ 27 individuos. ⎡ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎣ ⎡ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎣ 1 1 1 3 1 3 ⎤ 1 ⎥ 1 ⎥ ⎥ 1 ⎥ ⎥ 1 ⎥ ⎥ ⎥ 1 ⎦ 1 ⎤⎡ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎦⎣ ⎤ 3 ⎥ ⎢ ⎢ 3 ⎥ ⎥ ⎢ ⎢ 3 ⎥ ⎥ ⎢ ⎢ 3 ⎥ ⎥ ⎢ ⎥ ⎢ ⎣ 3 ⎦ 3 ⎤⎡ 1 3 ⎥⎢ 1 ⎥⎢ 1 ⎥⎢ 3 ⎥⎢ 3 ⎥⎢ 1 ⎥⎢ 3 ⎥⎢ ⎥⎢ 1 ⎦⎣ 1 1 3 ⎡ ⎤ 1 ⎥ ⎢ ⎢ 2 ⎥ ⎥ ⎢ ⎢ 2 ⎥ ⎥ ⎢ ⎢ 3 ⎥ ⎥ ⎢ ⎥ ⎢ ⎣ 1 ⎦ 1 ⎤⎡ 1 3 ⎥⎢ 1 ⎥⎢ 2 ⎥⎢ 2 ⎥⎢ 1 ⎥⎢ 3 ⎥⎢ 2 ⎥⎢ ⎥⎢ 1 ⎦⎣ 1 3 3 ⎡ 3 ⎢ ⎢ 1 ⎢ ⎢ 1 ⎢ ⎢ 2 ⎢ ⎢ ⎣ 2 3 ⎤⎡ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎦⎣ ⎡ ⎤ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎦ 1 1 2 3 2 1 ⎤ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎦ Padres (Generaci´n k) o ⎤ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎦ ⎡ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎣ o Hijos (generaci´n k+1) Supongamos en nuestro ejemplo que cada pareja tiene 3 hijos. Por ejemplo: pueden ser 18 croı u mosomas. x9 . . seis cuyos elementos son todos 1. la o siguiente ilustraci´n muestra un caso posible. 3 Cada uno de los n´meros del cromosoma es un ”gen”. Estos son los ”Padres” o con un determinado n´ mero de ”hijos”. x5 y x11 est´n en otro. seis cuyos elementos son 2. ..y a a a x10 est´n en un tercero. . y x8 . c2 .. . yx6 . ⎥ ⎥ ⎥ ⎦ ⎡ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎣ ⎤ ⎡ ⎤⎫ ⎪ ⎪ ⎪ ⎥⎪ ⎪ ⎥⎪ ⎪ ⎥⎪ ⎥⎬ ⎥ ⎥⎪ ⎥⎪ ⎪ ⎥⎪ ⎪ ⎦⎪ ⎪ ⎪ ⎭ 1 1 . . Por ejemplo.. x4 .{c1 . relacionados al azar.... en que dos parejas de padres tienen tres hijos de o cada uno. ⎢ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎣ ⎦ 3 3 . as´ como el n´ mero de ellos. de la forma ⎧ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎩ ⎡ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎣ ⎤ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎦ ⎡ ⎢ ⎢ ⎢ ⎢ . x2 .. . y seis cuyos elementos son 3. . . que son vectores de r´tulos. 2 ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎥ . que ocupan la misma posici´n. x7 .ck } e o Estos cromosomas son arbitrarios. . . .14 c = [1 1 2 2 2 3 1 1 3 3 2] que indica que x1 . 1 1 1 . u o Para formar la segunda generaci´n se forman pares. uno entre u los dos de ambos padres. ⎢ ⎢ ⎢ ⎢ ⎣ ⎤ ⎥ ⎥ ⎥ ⎥ ⎥ . est´n en un conglomerado. El m´todo parte de un conjunto de ”cromosomas”.. cuyos cromosomas se forman eligiendo cada gen. 1 2 2 . ıan .

y e u se repite todo el proceso. paralelamente. o o por ejemplo con los 18 mejores se seleccionan 9 parejas. otras zonas del espacio de posibles esquemas de conglomeraci´n. y sus genes se copian en la siguiente generaci´n. que pueden variar. Esta fracci´n es peque˜ a por ejemplo. son 30 individuos en cada generaci´n. en la practica. de los correspondientes genes de sus padres. o Despu´s se seleccionan los mejores en igual n´ mero que al inicio. ı Generaci´n k-esima: o Recibe de la generaci´n anterior: La elite de la generaci´n anterior foro o mada por los 3 mejores. Estos mutantes permiten que la exploraci´n se extienda a otras zonas. o a Falta un elemento para completar el proceso. a . Se debe tratar de explorar. puede ser que estemos tratando de mejorar en el entorno de un ´ptimo ´ o local. (se incluyen los de la elite). o Se selecciona un grupo de las mejores. En cada generaci´n se seleccionan al azar estos individuos mutantes. ´stos son individuos que o n o e cambian espont´neamente un gen. en busca de optimos locales que superen al optimo local actual. Adem´s. Por ejemplo. a o n En nuestro ejemplo ser´ 3. que forma la ”elite”. Es decir. Resumen del algoritmo gen´tico aplicado al an´lisis de conglomerados: e a Siguiendo con los valores dados en el ejemplo. Se ordenan de acuerdo a la o medida de bondad de conglomeraci´n. cada generaci´n tiene 3 que pertenecen a la elite de la generaci´n anterior. tambi´n al azar. al azar. donde podr´ haber optimos o ıan ´ locales que superen el ya encontrado. Sin embargo. etc. la elite pueden estar formadas por los tres primeros. se obtiene una elite que se clona en la siguiente generaci´n. un 10 % de individuos. m´s 27 hijos (incluidos 3 mutantes) = 30 individuos. m´s 3 o o a o o hijos por cada una de las 9 parejas de la generaci´n anterior. en la k-´sima generaci´n. se forman parejas al azar. la forma a presentada aqu´ es una de varias posibles variantes del algoritmo. optimiz´ndose el proceso. Se repite el proceso por un n´ mero alto de generaciones mejor´ndose progresivamente la medida u a de bondad de conglomeraci´n.15 o Sea Mk (c) el valor de la medida individuo de conglomeraci´n aplicada al definido por el cromosoma c. Hasta el momento el procedimiento apunta a buscar un optimo. tienen hijos cuyos genes resultan de la combinaci´n. e o Se ordenan todos los individuos de la ultima generaci´n de acuerdo a sus medidas de conglom´ o eraci´n. En el ejemplo. al que se les asigna un valor. Esto se hace de o ´ ´ la siguiente forma: En cada generaci´n se introduce una peque˜ a fracci´n de ”mutantes”. ıan o e y se les selecciona al azar un gen. (se ”clonan”).

tal que d(i. La silueta del objeto i se define como: s(i) = observar que −1 ≤ s(i) ≤ 1 Interpretaci´n: o b(i)−a(i) m´x{a(i). B es el segundo mejor conglomerado para i.b(i)} a . con tres esquemas de conglomerados. aparecen dos conglomerados muy pr´ximos. Sea C otro conglomerado. el de tres conglomerados es el que mejor separa las observaciones en grupos. para una observaci´n i. Sea d(i. Coeficiente Silueta Se define. donde. De estos 27 hijos.16 Los 3 mejores (elite) pasan id´nticos a la siguente generaci´n. Entrega a la generaci´n siguiente: o Los 3 de la elite m´s los 27 hijos ( incluidos 3 mutantes) a MEDIDAS DE BONDAD DE CONGLOMERACION. ı. o La Figura 3 siguiente muestra un conjunto de 12 observaciones bidimensionales. es decir. el valor: o a(i) = promedio de las disimilitudes de i con todos los dem´s objetos del conglomerado A al cual a pertenece i. B) = b(i) se denomina vecindad del objeto i. entre los 18 mejores (incluyendo los de la elite) se forman 9 parejas al azar. C) = promedio de distancias deia todos los elementos deC. Si se dividen en dos conglomerados. Se debe disponer de una medida de Bondad de Conglomeraci´n que permite discriminar cual eso quema de distribuci´n de observaciones en un grupo de conglomerados es mejor . e o Adem´s. el primero contiene observaciones muy distantes entre s´ Si se separa en cuatro. Sea b(i) = m´ C=A d(i. a simple vista. o 1. a Cada pareja enjendra 3 hijos. 3 son mutantes. C) ın El conglomerado B que alcanza el m´ ınimo. C = A.

o La Figura 3 muestra que el mayor valor. Mientras m´s grande. CM D = 1 d j i xij − xj 2 en que xij es la observaci´n i − esima del conglomerado j .17 s(i) ≈ 1. mejor. a n es una medida de bondad dentro del respectivo conglomerado. a El coeficiente silueta es el promedio a trav´s de todas las observaciones. . y d = nj − G es el divisor (”grados de libertad”). Mientras m´s peque˜ o. 2 Figura 3: Tres esquemas de conglomerados para un mismo conjunto de puntos. corresponde al esquema de conglomerados que a simple vista parece mejor. el objeto i est´ entre dos conglomerados a s(i) ≈ −1. xj es el vector promedio del cono ´ glomerados j. Cada elemento i xij − xj Si uno de ellos es muy grande. con tres conglomerados. indica que el correspondiente conglomerado tiene elementos muy disc´ ımiles.69. 2. El del centro es el mejor. de 0. Cuadrado medio dentro de los conglomerados Es el promedio de la suma de cuadrados de las distancias de cada observaci´n hasta el centroide o del conglomerado a que pertenecen. donde nj es el numero de observaciones en el conglomerado j. e a mejor es la distribuci´n de conglomerados. el objeto i est´ bien clasificado a s(i) ≈ 0. el objeto i est´ mal clasificado.

e n que la mayor´ las fusiones se produjeron a distancias relativamente peque˜ as. no a un determinado n´mero de conglomerados. Se pueden definir varios otros indicadores. Se aplica a todo el o e a procedimiento. Se define d(j) como el cuociente entre la distancia en que xj se une por primera vez a otro conglomerado y la distancia en que se produce la ultima fusi´n de todos en un ´ o s´lo gran conglomerado. 2. . a . Mientras m´s largas las barras. corresponde al o ´ coeficiente silueta. respecto del area del ancho 1. El coeficiente aglomerativo es el promedio de (1 − d(j)) a trav´s de todas o e las observaciones. Obs´rvese que si este coeficiente es grande. 4. n. y u indica norma vectorial. Ver Figura 4.. x es el vector promedio global. a n y la distancia m´ ınima o la distancia promedio entre conglomerados (que se espera sea grande). mejor. asociada a los m´todos jer´rquicos. es decir. Coeficiente F Es el un cuociente entre los cuadrados medidas dentro de los conglomerados (CMD) y los cuadros medios entre (CME) conglomerados. Silueta La silueta de un conglomerado es una representaci´n gr´fica de los coeficientes silueta s(i) para o a todas las observaciones i = 1. significa que los d(j) tienden a ser peque˜ os. El coeficiente aglomerativo es ´ CA = 1 − P i=1nd(i) n 5. el cuociente o la diferencia entre la distancia m´xima o distancia promedio dentro de los conglomerados (que se espera sea peque˜a). donde CM E = 1 G−1 j xj − x 2 en que xj es el vector promedio del conglomerados j − esimo. rangueados en orden descendente dentro de su conglomerado. La proporci´n de superficie contenida en las barras. Coeficiente aglomerativo Es una medida global de conglomeraci´n. sea d(i) su distancia al primer conglomerado con que se une. Otros indicadores. se pueden obtener otros indicadores como variantes de estos. o Sea xj una observaci´n.. G ´ el n´ mero de conglomerados. u Por cada elemento i.. ıa n GRAFICOS ASOCIADOS AL ANALISIS DE CONGLOMERADOS 1.18 3. como por ejemplo. dividida por la distancia de los ultimos conglomerados en unirse.

. a 2. Figura 5: Dendograma.19 Figura 4: Gr´fico de silueta. Es un gr´fico que muestra c´mo se fueron uniendo los conglomerados hasta formar uno solo. en cada caso. Dendograma. Ver Figura 5. La a o escala vertical corresponde a la distancia en que produjeron las uniones.

Es posible visualizar a los conglomerados en este plano. Ver Figura 7. o La informaci´n que entrega este gr´fico es la misma que el dendograma. y representa el a plano en que las proyecciones de las observaciones aparecen m´s dispersas. . o a Ver Figura 7. colocados a la distancia de uni´n. La situaci´n ilustrada en el gr´fico corresponde al mismo caso del dendograma de la o a Figura 6. en que cada un representa una componente principal de los datos. Las lineas se unen mediante trazos verticales. Figura 6: Gr´fico de bandera.20 3. a 4. Biplot Es un plano formado con dos coordenadas. Bandera (Banner) Tambi´n es s´lo para m´todos jer´rquicos. El caso m´s usual es el que se compone de las componentes 1 y 2. Los objetos se listan de arriba hacia abajo a la izquierda. e o e a Al lado de cada uno hay una linea horizontal. N´tese que el coeficiente o a o aglomerativo corresponde al la proporci´n de superficie del lado derecho del gr´fico de bandera.

21 Figura 7: Gr´ficos Biplot. a .

Sign up to vote on this title
UsefulNot useful