P. 1
Conglomerados

Conglomerados

|Views: 68|Likes:
Publicado pordavid.ernesto

More info:

Published by: david.ernesto on Jun 13, 2011
Copyright:Attribution Non-commercial

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as PDF, TXT or read online from Scribd
See more
See less

06/13/2011

pdf

text

original

1

ANALISIS DE CONGLOMERADOS
Jorge Galbiati R.
Consiste en buscar grupos (conglomerados) en un conjunto de observaciones de forma tal que
aquellas que pertenecen a un mismo grupo se parecen, mientras que aquellas que pertenecen a
grupos distintos son dis´ımiles, seg´ un alg´ un criterio de distancia o de similitud.
Los algoritmos de formaci´on de conglomerados se agrupan en dos categor´ıas:
Algoritmos de partici´on: M´etodo de dividir el conjunto de observaciones en k conglomerados,
en que k lo define inicialmente el usuario.
Algoritmos jer´ arquicos: M´etodo que entrega una jerarqu´ıa de divisiones del conjunto de ele-
mentos en conglomerados.
Un m´etodo jer´ arquico aglomerativo parte con una situaci´ on en que cada observaci´ on forma un
conglomerado y en sucesivos pasos se van uniendo, hasta que finalmente todas est´an en un ´ unico
conglomerado.
Un m´etodo jer´ arquico divisivo sigue el sentido inverso: Parte de un gran conglomerado y en pasos
sucesivos se va dividiendo hasta que cada observaci´on queda en un conglomerado distinto.
DISTANCIAS ENTRE ELEMENTOS: DISIMILARIDADES
Se dispone de una matriz de datos X
n×p
= (x
ic
) en que i representa una observaci´on y c una
variable.
Una matriz de disimilaridades o distancias D
n×n
es una matriz tal que su elemento i, j es una
disimilaridad d(ij) tal que para todoi, j, k:
1. d(i, j) ≥ 0
2. d(i, i) = 0
3. d(i, j) = d(j, i)
4. d(i, j) ≤ d(i, k) + d(k, j)
D es sim´etrica y su diagonal est´ a formada por ceros.
La disimilaridad d(i, j) representa una medida de la diferencia entre dos observaciones x
i
y x
j
y
constituyen la base para la formaci´ on de conglomerados.
2
A continuaci´ on se muestra una colecci´ on de las principales medidas de disimilaridad, seg´ un el tipo
de escala de medida de las variables.
Algunas medidas de disimilaridad Hay varias medidas de disimilaridad o distancia, apropiadas
para diferentes tipos de escala en que se miden los datos: escala num´erica lineal, num´erica no lineal,
ordinales, nominales y nominales binarios.
Escalas num´ericas
1. Distancia Euclidea:
d(i, j) =

¸
p
c=1
(x
ic
−x
jc
)
2
2. Distancia Manhatan o City Block
d(i, j) =
¸
p
c=1
|x
ic
−x
jc
|
3. Distancia de Minkowski
Es una generalizaci´on de las anteriores:
d(i, j) = (
¸
p
c=1
|x
ic
−x
jc
|
q
)
1
q
en que q es cualquier n´ umero real mayor o igual que1.
4. Distancia de correlaci´on
El coeficiente de correlaci´on es una medida de proximidad o similitud entre dos series de datos.
Por lo tanto, a partir de ´el se puede definir una medida de disimilaridad:
d(i, j) = (1 −corr(i, j))/2
Esta medida tiene un rango de valores entre 0 y 1.
5. Estandarizaci´ on de variables:
La unidad de medida de las variables afecta el resultado. Si las variables tienen ´ ordenes de magnitud
muy distintas, es conveniente estandarizarlas previamente:
z
ic
=
xic−mc
sc
3
en que m
c
y s
c
son medidas muestrales de centro y dispersi´ on respectivamente, ambas medidas en
la misma escala de x
ic
.
Por ejemplo, las m´ as conocidas, media y desviaci´on standard muestrales.
m
c
=
1
n
¸
n
i=1
x
ic
y s
c
=

1
n
¸
n
i=1
(x
ic
−m
c
)
2
Medidas con escala n´ umericas no lineales
6. Son medidas efectuadas en escalas no lineales, por ejemplo exponencial, cuadratica, etc .(Ej: un
crecimiento bacteriano con funci´ on de crecimiento Ac
Bt
, o un ´ındice porcentual), se tratan como
ordinales o bien se les aplica una transformaci´on para linealizarlos, y se aplica cualquier medida
para escalas lineales.
Escalas ordinales
Se conoce el orden pero no la magnitud de las observaciones.
7. Se obtiene una medida de disimilaridad mediante el siguiente procedimiento:
a. Reemplazar x
ic
por su rango r
ic
∈ {1, ....., M
c
} dentro de la columna.
b. Transformar a la escala entre 0 y 1, haciendo: z
ic
=
ric−1
Mc−1
c. Calcular las disimilariaddes como en el caso de las escalas de num´ericas.
Escalas nominales
Por ejemplo, resultados de una encuesta, en que cada encuestado responde a una serie de preguntas
(variables) en escalas {a, b, c, ...}. La medida de disimilaridad entre dos encuestados es la proporci´on
de respuestas en que difieren.
9. Caso general.
d(i, j) =
N
o
de variables con valores diferentes
p
Variables en escala nominal binaria
Son variables con dos valores, se pueden codificar con 0 y 1. La siguiente es la tabla de
contingencia para las observaciones ”i” y ”j”.
i \ j 1 0
1 a b
0 c d
4
10. Si las variables son sim´etricas (ambos valores igualmente importantes), se define una medida
de disimilaridad como
d(i, j) =
b+c
a+b+c+d
11. Si las variables son asim´etricas (una de ellas, codificada 1, es m´ as importante que la otra,
codificada 0). Por ej., la presencia o ausencia de un cierto atributo.Se define una medida que s´ olo
considera el universo de aquellos en que el atributo est´ a presente, llamado coeficiente de Jaccard:
d(i, j) =
b+c
a+b+c
Se excluye d, el n´ umero de comparaciones en que ambas variables valen 0.
Variables mixtas
12. Para observaciones constituidas por combinaciones de variables con escalas diferentes hay
medidas de distancia que combinan medidas de los tipos anteriores, seg´ un el tipo de variable,
ponderadas de manera conveniente.
DISTANCIAS ENTRE CONGLOMERADOS
Las distancias entre los conglomerados son funciones de las distancias entre observaciones, y hay
varias formas de definirlas: Sean A y B dos conglomerados.
Vecino m´as cercano
d(A, B) = m´ın
i∈A
j∈B
d(i, j)
Vecino m´as lejano
d(A, B) = m´ax
i∈A
j∈B
d(i, j)
Promedio de grupo
d(A, B) =
1
nAnB
¸
i∈A
j∈B
d(i, j)
5
Centroide
d(A, B) = d(x
A
, x
B
)
en que x
A
y x
B
son los respectivos centroides de los conglomerados A y B.
El siguiente gr´ afico ilustra las distancias entre conglomerados: Vecino m´as cercano, vecino m´as
lejano, promedio del grupo y centroide, respectivamente.
Figura 1: Distancias entre conglomerados: Vecino m´ as cercano, m´ as lejano, promedio, centro
gravedad.
Medoide
Es la distancia entre los medoides de los grupos.
El vecino m´ as cercano tiende a formar conglomerados m´ as alargados.
El vecino m´ as lejano forma conglomerados m´ as esfericos.
El promedio de grupo y el centroide son m´as robustos que los dem´as.
El medoide es la m´as robusta de las distancias entre conglomerados.
METODOS DE PARTICION.
Se mostrar´an dos m´etodos de an´alisis de conglomerados no jer´erquicos, o de partici´on, el de las
k-medias y el de ´ as k-medoides, de los cuales el m´etodode las k-medias es el m´ as conocido, y otros
dos derivados de los anteriores.
1. M´etodo K-medias. Es un m´etodo iterativo que consiste en los siguiente procedimiento. El
usuario debe proporcionar el n´ umro k de conglomerados que desea tener. Tambi´en se debe definir
una medida de distancia:
6
a. Particionar el conjunto de observaciones en k grupos iniciales arbitrarios.
b. Recorrer todas las observaciones, asign´andolas al conglomerado cuyo centroide est´e a menor
distancia. Cada vez que se reasigna una observaci´on a un conglomerado distinto del que la conten´ıa
s deben recalcular los centroides del conglomerado que pierde la observaci´on y del que la recibe.
Si el conglomerado A (que consiste en n
A
observaciones) pierde la observaci´ on x
i
y si el conglom-
erado B (con n
B
observaciones) recibe a x
i
, los centroides respectivos x
A
y x
B
se modifican de la
siguiente forma:
x

A
=
1
nA−1
(n
A
x
A
−x
i
)
x

B
=
1
nB+1
(n
B
x
B
+ x
i
)
c. Repetir el paso b hasta que no haya m´ as reasignaciones.
EJEMPLO:
Se tienen 4 observaciones cuya matriz de datos est´a dada a continuaci´ on:





0 3 9 12
4 1 6 10
10 7 3 4
10 10 3 1





Se usar´a el m´etodo de las k-medidas para formar dos conglomerados. Tambi´en se utilizar´ an las
distancias euclidea.
En forma de vectores, las cuatro observaciones (filas) son:
x
1
=





0
3
9
12





x
2
=





4
1
6
10





x
3
=





10
7
3
4





x
4
=





10
10
3
1





Definimos arbitrariamente dos conglomerados iniciales . Sean
A = {x
1
} y B = {x
2
, x
3
, x
4
}
Sus centroides respectivos son:
7
x
A
=





0
3
9
12





y x
B
=





8
6
4
5





Algoritmo Iterativo:
Se deben calcular las distancias de cada observaci´ on a los centroides de cada conglomerado. Si
una observaci´ on est´ a a menor distancia del conglomerado vecino, se cambia de conglomerado, se
recalculan los centroides y se pasa a la siguiente iteraci´on.
Iteraci´ on 1
Cuadro de distancias euclideas (al cuadrado) de las observaciones a los centroides, partiendo por
x
1
centroide x
A
x
B
observaci´ on x
1
0 147
x
2
33 70
Cambia x
2
del conglomerado B a A y termina la iteraci´ on 1. No es necesario seguir probando con
x
3
ni x
4
.
Iteraci´ on 2
Nuevos centroides, recalculados. Ahora A =
¸
x
1,
x
2
¸
y B = {x
3
, x
4
}
x
A
=





2
2
7,5
11





x
B
=





10
8,5
3
2,5





Cuadro de distancias al cuadrado, partiendo de x
3
:
centroide x
A
x
B
observaci´ on x
3
158.25 4.5
x
4
248.25 4.5
x
1
8.25 256.5
x
2
8.25 157.5
Las cuatro observaciones quedaron bien clasificadas, luego ya no hay m´ as cambios, por lo tanto los
dos conglomerdos resultantes son:
A = {x
1
, x
2
} y B = {x
3
, x
4
}
8
2. M´etodo K-Medoides.
Es como el k-medias, pero usa los medoides en lugar de los centroides.
El medoide es el punto tal que sus coordenadas son las medianas de las variables respectivas.
3. Conglomerados para conjuntos grandes.
La matriz de distancias es de orden n
2
, por lo que en un conjunto muy grande de observaciones,
estos m´etodos resultan impracticables.
En tal caso se puede hace una simplificaci´on, que lleva a resultados no ´optimos, como los entregados
por los m´etodos anteriores, pero que buscan acercarse al ´ optimo.
El m´as com´ un consiste en extraer una muestra aleatoria de casos, con tama˜ no m´as adecuado al
procedimiernto que se desea utilizar.
A esta muestra se le aplica un m´etodo de conglomerados, como el k-medias o el k-medoide. Una vez
finalizado, cada observaci´ on que no est´ a en la muestra, es asignada al conglomerado cuya media
(o medoide) es m´as cercano. Una medida de bondad de conglomeraci´ on es obtenida mediante el
promedio de las distancias entre cada observaci´on y el medoide de su conglomerado.
Es conveniente repetir el procedimiento anterior, partiendo de diversas mientras. Luego de ´esto
se selecciona la que ya tenga la mejor medida de conglomeraci´on. Se recomienta usar 5 muestras
distintas.
4. An´ alisis Fuzzy (difuso)
Es una variante de los m´etodos k-medias y k-medoides. En lugar de asignar un objeto a un grupo
en forma deterministica, entrega probabilidades de pertenencia de cada observaci´ on a los distintos
conglomerados, en base a sus distancias a los centros de estas. Por ejemplo, pueden ser propor-
cionales a las distancias. Se reasigna una observaci´ on por sorteo, de acuerdo a las probabilidades
definidas.
METODOS JERARQUICOS.
Son m´etodos que parten de tantos conglomerados como casos hay, y en cada etapa siguiente van
juntando conglomerados, hasta llegar a uno solo (m´etodo aglomerativo). O bien, partiendo de uno,
van subdividiendo conglomerados hastya llegar a un caso por conglomerado (m´etodo divisivo).
5. Aglomerativo
Inicialmente cada observaci´on es un conglomerado.
9
Luego en cada paso se unen los conglomerados que est´an a menor distancia y se calcula la distancia
del nuevo conglomerado con todos los dem´ as, form´ andose una nueva matriz de distancias.
El algoritmo termina cuando queda un conglomerado con todas las observaciones.
EJEMPLO
Se tiene una muestra de siete entrevistados que responden a una encuesta de diez preguntas, cada
una con respuestas entre las alternativas a, b, c, d y e
.La matriz de datos de las respuesta es la siguiente:
encuestado
pregunta 1 2 3 4 5 6 7 8 9 10
1 a b b c a b b a a d
2 a c b c d e e a b c
3 c b b c d a b c a d
4 a b e c a d b a a c
5 c c b b d a b c d d
6 a c e c d c e a e d
7 b b c a a a b c a b
Se usar´a como distancia entre casos el n´ umero (o la fracci´ on, dividiendo el n´ umero por 10) de
respuestas diferentes, y la distancia entre conglomerados, la del vecino m´as pr´ oximo.
Iteraci´ on 1
La matriz de distancias entre los encuestados es la siguiente, siendo cada caso un conglomerado:
D
1
=
(1) (2) (3) (4) (5) (6) (7)
(1) 0 6 4 3 7 6 6
(2) 6 0 7 6 7 4 10
(3) 4 7 0 6 3 7 5
(4) 3 6 6 0 9 6 6
(5) 7 7 3 9 0 7 7
(6) 6 4 7 6 7 0 10
(7) 6 10 5 6 7 10 0
Inicialmente se unen 1 con 4 y 3 con 5 a la distancia 3.
Iteraci´ on 2.
La nueva matriz de distancias entre conglomerados queda:
10
D
2
=
(1, 4) (2) (3, 5) (6) (7)
(1, 4) 0 6 4 6 6
(2) 6 0 7 4 10
(3, 5) 4 7 0 7 5
(6) 6 4 7 0 10
(7) 6 10 5 10 0
Se unen (1, 4) con (3, 5) y (2) con (6) a la distancia 4.
Iteraci´ on 3.
La matriz de las distancias entre conglomerados queda:
D
3
=
(1, 3, 4, 5) (2, 6) (7)
(1, 3, 4, 5) 0 6 5
(2, 6) 6 0 10
(7) 5 10 0
Se unen (1, 3, 4, 5) con (7) a la distancia 5. Obs´ervese que las distancias de uni´ on van aumentando
con cada paso. Es decir, cada vez se unen observaciones m´ as dis´ımiles.
Ultima matriz de distancias entre conglomerados:
D
4
=
(1, 3, 4, 5, 7) (2, 6)
(1, 3, 4, 5, 7) 0 6
(2, 6) 6 0
Se unen todos en un s´ olo conglomerdo, a la distancia 6.
El gr´ afico siguiente es un dendograma. Ilustra la forma c´omo se fueron uniendo los conglomerados
hasta formar uno solo. La escala horizontal corresponde a la distncia en que produjeron las uniones,
en cada caso.
De este gr´afico se desprende que si deseamos tener dos conglomerados, ser´ıan (1,3,4,5,7) y (2,6). Si
deseamos tener tres, ser´ıan (7), (1,3,4,5) y (2,6). Si queremos 5, ´estos ser´ıan (1,4), (3,5), (2), (6) y
(7).
11
Figura 2: Dendograma.
6. M´etodo Divisivo.
Comienza con un grupo que contiene todas las observaciones, y en sucesivos pasos lo va dividiendo
hasta quedar cada observaci`on en un conglomerado diferente.
Sin embargo mientras en el paso inicial el m´etodo aglomerativo tiene

n
2

=
n(n−1)
2
posibilidades
de unir los primeros dos conglomerados, el m´etodo divisivo parte con 2
n−1
− 1 posibilidades del
divisi´ on del conglomerado inicial.
Este n´ umero es much´ısimo mayor. En efecto, si hay n=10 observaciones,
n(n−1)
2
= 45 mientras
2
n−1
−1 = 511.
Eso hace poco atractivo este m´etodo. Para avitar considerar todas las posibles divisiones, se
dise˜ n´ o el siguiente algoritmo:
a) Encontrar el objeto m´ as discimil, el que tiene mayor distancia promedio con todos los dem´as.
Este da origen a un grupo ”disidente”.
b) Por cada observaci´ on fuera del grupo disidente D, calcular:
V
i
= promedio
j / ∈D
d(i, j) −promedio
j∈D
d(i, j)
Para encontrar la observaci´ on h para la cual esta diferencia es mayor.
12
c) Si V
h
> 0, h est´a en promedio m´ as cerca del grupo disidente que a su complemento, por lo que
se debe agregar al primero.
d) Repetir b y c, hasta que todos los V
h
sean negativos.
De este modo, el conjunto queda partido en dos conglomerados.
e) Seleccionar el conglomerado de mayor di´ametro (el di´ ametro es la distancia mayor entre dos
objetos de ´el). Dividirlo como en los pasos a,b,c,d.
f) Repetir e hasta que todos los conglomerados contienen solo un objeto.
7. An´ alisis monot´etico.
Se utiliza cuando todas las variables son binarias ,(0 o 1). Es un m´etodo divisivo.
a) Se elige la variable con mayor asociaci´ on con las dem´ as, de la siguiente forma: considere las
variables f y g, y sea la siguiente tabla de contingencia para estas variables, dentro del conglomerado
que se va a dividir:
f \ g 1 0
1 a b
0 c d
La asociaci´on entre f y g se define como
A
fg
= |ad −bc|
La asociaci´on total entre f y las dem´as variables se define como:
A
f
=
¸
g=f
A
fg
La variable t que satisface
A
t
= m´ax
1≤f≤p
A
f
es seleccionada.
b) Usando est´a variable, se divide el conglomerado en dos, uno en que ´esta toma el valor 0, y
otro en que toma el valor 1.
c) Se repite a y b, en los dos conglomerados resultantes.
13
d) Se detiene el proceso cuando todos los conglomerados tienen un s´olo objeto o bien tienen
objetos id´enticos.
8. Conglomerados jer´ arquicos basados en modelos
Asume que todos los datos son generados por una mezla de distribuciones probabilisticas subya-
centes. Si hay G poblaciones diferentes y la densidad de una observaci´ on x de la k-esima poblaci´on
es f
k
(x; θ) para alg´ un vector de par´ ametros θ desconocido.
Dados los datos: X =








x
,
1
x
,
2
.
.
x
,
n








sea j =








j
1
j
2
.
.
j
n








el vector de r´ otulos tales que si x
i
proviene de la k-esima poblaci´on, entonces j
i
= k.
El m´etodo de m´axima verosimilitud busca θ y j tales que se maximice la verosimilitud
L(X; θ; j) = Π
n
i=1
f
ji
(x
i
; θ)
Existen diferentes casos para f
k
(x
i
; θ). Se suele asumir que es normal multivariante N(µ
k
, Σ
k
).
Si adem´as se asume que Σ
k
= σ
2
k
I, los conglomerados resultan de forma hiperesf´erica.
Si Σ
k
tiene cualquier forma, sus valores propios especifican la orientaci´ on que tiene el n-esimo
conglomerado y el mayor valor propio es una medida de su tama˜ no o varianza, µ
k
da su posici´ on.
9. Algoritmo Gen´etico
Este algoritmo de conglomeraci´on no puede clasificarse como jer´ arquico. Tiene su origen de la
inform´atica, y son aplicables al an´ alisis de conglomerados. El siguiente m´etodo se basa en estos
algoritmos.
Suponga que se desea particionar un conjunto {x
1
, x
2
, ..., x
n
} de observaciones en 3 grupos.
Se debe disponer de una medida de Bondad de Conglomeraci´ on que permite discriminar cual
esquema de distribuci´on de observaciones en un grupo de conglomerados es mejor .
Por ejemplo: puede ser el coeficiente silueta definido anteriormente o un cuociente entre cuadros
medios entre conglomerados y cuadrados medidas dentro de los conglomerados
Un vector de r´ otulos es un vector de coordenadas enteras, que indican el conglomerado al que
pertenece cada respectivo elemnto muestral. Por ejemplo,
14
c

= [1 1 2 2 2 3 1 1 3 3 2]
que indica que x
1
, x
2
, x
7
, y x
8
, est´an en un conglomerado,x
3
, x
4
, x
5
y x
11
est´an en otro, yx
6
, x
9
,y
x
10
est´an en un tercero.
El m´etodo parte de un conjunto de ”cromosomas”, que son vectores de r´ otulos,{c
1
, c
2
, ...c
k
}
Estos cromosomas son arbitrarios, as´ı como el n´ umero de ellos. Por ejemplo: pueden ser 18 cro-
mosomas, seis cuyos elementos son todos 1, seis cuyos elementos son 2, y seis cuyos elementos son
3, de la forma





























1
1
.
.
.
1










,










1
1
.
.
.
1










, ...,










2
2
.
.
.
2










, ...,










3
3
.
.
.
3





























Cada uno de los n´ umeros del cromosoma es un ”gen”. Este conjunto forma la ”primera generaci´on”.
Para formar la segunda generaci´on se forman pares, relacionados al azar. Estos son los ”Padres”
con un determinado n´ umero de ”hijos”, cuyos cromosomas se forman eligiendo cada gen, uno entre
los dos de ambos padres, que ocupan la misma posici´ on, seleccionado al azar, Por ejemplo, la
siguiente ilustraci´ on muestra un caso posible, en que dos parejas de padres tienen tres hijos de
cada uno.
Padres (Generaci´on k)










1
1
1
1
1
1




















3
3
3
3
3
3




















1
2
2
3
1
1




















3
1
1
2
2
3










Hijos (generaci´on k+1)










1
1
1
3
1
3




















1
1
3
1
1
1




















3
1
3
3
1
3




















1
1
2
3
1
3




















3
2
1
2
1
3




















1
1
2
3
2
1










Supongamos en nuestro ejemplo que cada pareja tiene 3 hijos. Entonces la segunda generaci´on
habr´ıan 27 individuos.
15
Sea M
k
(c) el valor de la medida individuo de conglomeraci´ on aplicada al definido por el cromosoma
c, en la k-´esima generaci´on.
Se ordenan todos los individuos de la ´ ultima generaci´on de acuerdo a sus medidas de conglom-
eraci´on.
Se selecciona un grupo de las mejores, que forma la ”elite”, y sus genes se copian en la siguiente
generaci´on. (se ”clonan”). Por ejemplo, la elite pueden estar formadas por los tres primeros.
Despu´es se seleccionan los mejores en igual n´ umero que al inicio, (se incluyen los de la elite), y
se repite todo el proceso. Es decir, se forman parejas al azar, tienen hijos cuyos genes resultan de
la combinaci´ on, al azar, de los correspondientes genes de sus padres. Se ordenan de acuerdo a la
medida de bondad de conglomeraci´ on, se obtiene una elite que se clona en la siguiente generaci´ on,
por ejemplo con los 18 mejores se seleccionan 9 parejas, etc.
En el ejemplo, cada generaci´ on tiene 3 que pertenecen a la elite de la generaci´ on anterior, m´ as 3
hijos por cada una de las 9 parejas de la generaci´ on anterior, son 30 individuos en cada generaci´ on.
Se repite el proceso por un n´ umero alto de generaciones mejor´andose progresivamente la medida
de bondad de conglomeraci´ on, optimiz´ andose el proceso.
Falta un elemento para completar el proceso. Hasta el momento el procedimiento apunta a buscar
un ´ optimo. Sin embargo, puede ser que estemos tratando de mejorar en el entorno de un ´optimo
local. Se debe tratar de explorar, paralelamente, otras zonas del espacio de posibles esquemas de
conglomeraci´on, en busca de ´ optimos locales que superen al ´ optimo local actual. Esto se hace de
la siguiente forma:
En cada generaci´on se introduce una peque˜ na fracci´on de ”mutantes”, ´estos son individuos que
cambian espont´aneamente un gen. Esta fracci´on es peque˜ na por ejemplo, un 10 % de individuos.
En nuestro ejemplo ser´ıan 3. En cada generaci´on se seleccionan al azar estos individuos mutantes,
y se les selecciona al azar un gen, al que se les asigna un valor, tambi´en al azar.
Estos mutantes permiten que la exploraci´ on se extienda a otras zonas, donde podr´ıan haber ´ optimos
locales que superen el ya encontrado.
Resumen del algoritmo gen´etico aplicado al an´ alisis de conglomerados:
Siguiendo con los valores dados en el ejemplo, que pueden variar, en la practica. Adem´ as, la forma
presentada aqu´ı es una de varias posibles variantes del algoritmo.
Generaci´on k-esima: Recibe de la generaci´on anterior: La elite de la generaci´ on anterior for-
mada por los 3 mejores, m´as 27 hijos (incluidos 3 mutantes) = 30 individuos.
16
Los 3 mejores (elite) pasan id´enticos a la siguente generaci´on.
Adem´as, entre los 18 mejores (incluyendo los de la elite) se forman 9 parejas al azar.
Cada pareja enjendra 3 hijos. De estos 27 hijos, 3 son mutantes.
Entrega a la generaci´ on siguiente:
Los 3 de la elite m´ as los 27 hijos ( incluidos 3 mutantes)
MEDIDAS DE BONDAD DE CONGLOMERACION.
Se debe disponer de una medida de Bondad de Conglomeraci´ on que permite discriminar cual es-
quema de distribuci´on de observaciones en un grupo de conglomerados es mejor .
La Figura 3 siguiente muestra un conjunto de 12 observaciones bidimensionales, con tres esquemas
de conglomerados, donde, a simple vista, el de tres conglomerados es el que mejor separa las
observaciones en grupos.
Si se dividen en dos conglomerados, el primero contiene observaciones muy distantes entre s´ı. Si se
separa en cuatro, aparecen dos conglomerados muy pr´ oximos.
1. Coeficiente Silueta
Se define, para una observaci´on i, el valor:
a(i) = promedio de las disimilitudes de i con todos los dem´ as objetos del conglomerado A al cual
pertenece i.
Sea C otro conglomerado, C = A. Sea d(i, C) = promedio de distancias deia todos los elementos
deC.
Sea b(i) = m´ın
C=A
d(i, C)
El conglomerado B que alcanza el m´ınimo, es decir, tal que d(i, B) = b(i) se denomina vecindad
del objeto i. B es el segundo mejor conglomerado para i.
La silueta del objeto i se define como:
s(i) =
b(i)−a(i)
m´ax{a(i),b(i)}
observar que −1 ≤ s(i) ≤ 1
Interpretaci´ on:
17
s(i) ≈ 1, el objeto i est´a bien clasificado
s(i) ≈ 0, el objeto i est´a entre dos conglomerados
s(i) ≈ −1, el objeto i est´a mal clasificado.
El coeficiente silueta es el promedio a trav´es de todas las observaciones. Mientras m´ as grande,
mejor es la distribuci´on de conglomerados.
La Figura 3 muestra que el mayor valor, de 0,69, corresponde al esquema de conglomerados que a
simple vista parece mejor, con tres conglomerados.
2. Cuadrado medio dentro de los conglomerados
Es el promedio de la suma de cuadrados de las distancias de cada observaci´on hasta el centroide
del conglomerado a que pertenecen.
CMD =
1
d
¸
j

¸
i

x
ij
−x
j

2

en que x
ij
es la observaci´ on i − ´ esima del conglomerado j , x
j
es el vector promedio del con-
glomerados j, y d =
¸
n
j
− G es el divisor (”grados de libertad”), donde n
j
es el numero de
observaciones en el conglomerado j. Mientras m´ as peque˜ no, mejor.
Cada elemento
¸
i

x
ij
−x
j

2
es una medida de bondad dentro del respectivo conglomerado.
Si uno de ellos es muy grande, indica que el correspondiente conglomerado tiene elementos muy
disc´ımiles.
Figura 3: Tres esquemas de conglomerados para un mismo conjunto de puntos. El del centro es el
mejor.
18
3. Coeficiente F
Es el un cuociente entre los cuadrados medidas dentro de los conglomerados (CMD) y los cuadros
medios entre (CME) conglomerados, donde
CME =
1
G−1
¸
j

x
j
−x

2
en que x
j
es el vector promedio del conglomerados j − ´ esimo, x es el vector promedio global, G
el n´ umero de conglomerados, y indica norma vectorial.
4. Coeficiente aglomerativo
Es una medida global de conglomeraci´ on, asociada a los m´etodos jer´ arquicos. Se aplica a todo el
procedimiento, no a un determinado n´ umero de conglomerados.
Por cada elemento i, sea d(i) su distancia al primer conglomerado con que se une, dividida por la
distancia de los ´ ultimos conglomerados en unirse. El coeficiente aglomerativo es
CA = 1 −
P
i=1nd(i)
n
5. Otros indicadores.
Se pueden definir varios otros indicadores, como por ejemplo, el cuociente o la diferencia entre la
distancia m´axima o distancia promedio dentro de los conglomerados (que se espera sea peque˜ na),
y la distancia m´ınima o la distancia promedio entre conglomerados (que se espera sea grande). se
pueden obtener otros indicadores como variantes de estos.
Sea x
j
una observaci´ on. Se define d(j) como el cuociente entre la distancia en que x
j
se une por
primera vez a otro conglomerado y la distancia en que se produce la ´ ultima fusi´ on de todos en un
s´olo gran conglomerado. El coeficiente aglomerativo es el promedio de (1 −d(j)) a trav´es de todas
las observaciones.
Obs´ervese que si este coeficiente es grande, significa que los d(j) tienden a ser peque˜ nos, es decir,
que la mayor´ıa las fusiones se produjeron a distancias relativamente peque˜ nas.
GRAFICOS ASOCIADOS AL ANALISIS DE CONGLOMERADOS
1. Silueta
La silueta de un conglomerado es una representaci´on gr´ afica de los coeficientes silueta s(i) para
todas las observaciones i = 1, 2, ..., n, rangueados en orden descendente dentro de su conglomerado.
La proporci´on de superficie contenida en las barras, respecto del ´ area del ancho 1, corresponde al
coeficiente silueta. Mientras m´ as largas las barras, mejor. Ver Figura 4.
19
Figura 4: Gr´ afico de silueta.
2. Dendograma.
Es un gr´ afico que muestra c´ omo se fueron uniendo los conglomerados hasta formar uno solo. La
escala vertical corresponde a la distancia en que produjeron las uniones, en cada caso. Ver Figura
5.
Figura 5: Dendograma.
20
3. Bandera (Banner)
Tambi´en es s´olo para m´etodos jer´ arquicos. Los objetos se listan de arriba hacia abajo a la izquierda.
Al lado de cada uno hay una linea horizontal. Las lineas se unen mediante trazos verticales,
colocados a la distancia de uni´ on.
La informaci´ on que entrega este gr´ afico es la misma que el dendograma. N´otese que el coeficiente
aglomerativo corresponde al la proporci´ on de superficie del lado derecho del gr´afico de bandera.
Ver Figura 7. La situaci´ on ilustrada en el gr´ afico corresponde al mismo caso del dendograma de la
Figura 6.
Figura 6: Gr´ afico de bandera.
4. Biplot
Es un plano formado con dos coordenadas, en que cada un representa una componente principal
de los datos. El caso m´ as usual es el que se compone de las componentes 1 y 2, y representa el
plano en que las proyecciones de las observaciones aparecen m´as dispersas. Es posible visualizar
los conglomerados en este plano. Ver Figura 7.
21
Figura 7: Gr´ aficos Biplot.

2

A continuaci´n se muestra una colecci´n de las principales medidas de disimilaridad, seg´ n el tipo o o u de escala de medida de las variables. Algunas medidas de disimilaridad Hay varias medidas de disimilaridad o distancia, apropiadas para diferentes tipos de escala en que se miden los datos: escala num´rica lineal, num´rica no lineal, e e ordinales, nominales y nominales binarios. Escalas num´ricas e 1. Distancia Euclidea:

d(i, j) =

p c=1 (xic

− xjc )2

2. Distancia Manhatan o City Block d(i, j) = 3. Distancia de Minkowski Es una generalizaci´n de las anteriores: o d(i, j) = (
p c=1 p c=1

|xic − xjc |

|xic − xjc | ) q

q

1

en que q es cualquier n´mero real mayor o igual que1. u 4. Distancia de correlaci´n o El coeficiente de correlaci´n es una medida de proximidad o similitud entre dos series de datos. o Por lo tanto, a partir de ´l se puede definir una medida de disimilaridad: e d(i, j) = (1 − corr(i, j))/2 Esta medida tiene un rango de valores entre 0 y 1. 5. Estandarizaci´n de variables: o La unidad de medida de las variables afecta el resultado. Si las variables tienen ordenes de magnitud ´ muy distintas, es conveniente estandarizarlas previamente: zic =
xic −mc sc

a o mc = 1 n n i=1 xic y sc = 1 n n i=1 (xic − mc )2 Medidas con escala n´ mericas no lineales u 6. Caso general. Escalas ordinales Se conoce el orden pero no la magnitud de las observaciones. cuadratica. c. i\j 1 0 1 a c 0 b d No de variables con valores diferentes p .}. Reemplazar xic por su rango ric ∈ {1. las m´s conocidas. La medida de disimilaridad entre dos encuestados es la proporci´n o de respuestas en que difieren. Son medidas efectuadas en escalas no lineales. b. Mc } dentro de la columna. media y desviaci´n standard muestrales. b.(Ej: un ındice porcentual). haciendo: zic = ric −1 Mc −1 c.. j) = Variables en escala nominal binaria Son variables con dos valores.. 7.. ambas medidas en la misma escala de xic . y se aplica cualquier medida o para escalas lineales. resultados de una encuesta.. Por ejemplo.. La siguiente es la tabla de contingencia para las observaciones ”i” y ”j”. Calcular las disimilariaddes como en el caso de las escalas de num´ricas.3 o en que mc y sc son medidas muestrales de centro y dispersi´n respectivamente.. etc . d(i. por ejemplo exponencial. o un ´ o ordinales o bien se les aplica una transformaci´n para linealizarlos. Se obtiene una medida de disimilaridad mediante el siguiente procedimiento: a. en que cada encuestado responde a una serie de preguntas (variables) en escalas {a. Transformar a la escala entre 0 y 1. . e Escalas nominales Por ejemplo. se pueden codificar con 0 y 1. .. 9. se tratan como crecimiento bacteriano con funci´n de crecimiento AcBt .

u ponderadas de manera conveniente. j) ın j∈B Vecino m´s lejano a d(A. la presencia o ausencia de un cierto atributo. j) = b+c a+b+c+d 11. u Variables mixtas 12. Vecino m´s cercano a d(A. j) = b+c a+b+c Se excluye d. se define una medida e de disimilaridad como d(i. e a codificada 0).4 10. Si las variables son sim´tricas (ambos valores igualmente importantes).Se define una medida que s´lo o considera el universo de aquellos en que el atributo est´ presente. j) . DISTANCIAS ENTRE CONGLOMERADOS Las distancias entre los conglomerados son funciones de las distancias entre observaciones. codificada 1. Para observaciones constituidas por combinaciones de variables con escalas diferentes hay medidas de distancia que combinan medidas de los tipos anteriores. seg´ n el tipo de variable. B) = m´ i∈A d(i. Por ej. es m´s importante que la otra. llamado coeficiente de Jaccard: a d(i. B) = 1 nA nB i∈A j∈B d(i. Si las variables son asim´tricas (una de ellas. y hay varias formas de definirlas: Sean A y B dos conglomerados.. j) a j∈B Promedio de grupo d(A. B) = m´x i∈A d(i. el n´ mero de comparaciones en que ambas variables valen 0.

respectivamente. m´s lejano. promedio del grupo y centroide.5 Centroide d(A. B) = d(xA . 1. El vecino m´s cercano tiende a formar conglomerados m´s alargados. o de partici´n. Medoide Es la distancia entre los medoides de los grupos. a METODOS DE PARTICION. a a El promedio de grupo y el centroide son m´s robustos que los dem´s. Tambi´n se debe definir u e una medida de distancia: . a a El medoide es la m´s robusta de las distancias entre conglomerados. a a El vecino m´s lejano forma conglomerados m´s esfericos. xB ) en que xA y xB son los respectivos centroides de los conglomerados A y B. Se mostrar´n dos m´todos de an´lisis de conglomerados no jer´rquicos. vecino m´s a a a lejano. centro a a gravedad. M´todo K-medias. El siguiente gr´fico ilustra las distancias entre conglomerados: Vecino m´s cercano. promedio. y otros ´ e a dos derivados de los anteriores. de los cuales el m´todode las k-medias es el m´s conocido. El e e usuario debe proporcionar el n´mro k de conglomerados que desea tener. Es un m´todo iterativo que consiste en los siguiente procedimiento. Figura 1: Distancias entre conglomerados: Vecino m´s cercano. el de las a e a e o k-medias y el de as k-medoides.

Tambi´n se utilizar´n las a e e a distancias euclidea. Recorrer todas las observaciones. x4 } Sus centroides respectivos son: . Particionar el conjunto de observaciones en k grupos iniciales arbitrarios. Cada vez que se reasigna una observaci´n a un conglomerado distinto del que la conten´ o ıa s deben recalcular los centroides del conglomerado que pierde la observaci´n y del que la recibe. los centroides respectivos xA y xB se modifican de la siguiente forma: xA = xB = 1 nA −1 (nA xA 1 nB +1 (nB xB − xi ) + xi ) c. Repetir el paso b hasta que no haya m´s reasignaciones. En forma de vectores.6 a. asign´ndolas al conglomerado cuyo centroide est´ a menor a e distancia. a EJEMPLO: Se tienen 4 observaciones cuya matriz de datos est´ dada a continuaci´n: a o ⎡ ⎢ ⎢ ⎢ ⎣ ⎤ 9 12 6 10 ⎥ ⎥ ⎥ 3 4 ⎦ 3 1 0 3 4 1 10 7 10 10 Se usar´ el m´todo de las k-medidas para formar dos conglomerados. b. Sean A = {x1 } y B = {x2 . x3 . o Si el conglomerado A (que consiste en nA observaciones) pierde la observaci´n xi y si el conglomo erado B (con nB observaciones) recibe a xi . las cuatro observaciones (filas) son: ⎡ ⎢ ⎢ x1 = ⎢ ⎣ 0 3 9 12 ⎤ ⎥ ⎥ ⎥ ⎦ ⎡ ⎢ ⎢ x2 = ⎢ ⎣ 4 1 6 10 ⎤ ⎥ ⎥ ⎥ ⎦ ⎡ ⎢ ⎢ x3 = ⎢ ⎣ 10 7 3 4 ⎤ ⎥ ⎥ ⎥ ⎦ ⎡ ⎢ ⎢ x4 = ⎢ ⎣ 10 10 3 1 ⎤ ⎥ ⎥ ⎥ ⎦ Definimos arbitrariamente dos conglomerados iniciales .

25 8. luego ya no hay m´s cambios. Ahora A = x1. x2 } y B = {x3 .5 4.25 248. por lo tanto los a dos conglomerdos resultantes son: A = {x1 . Si o una observaci´n est´ a menor distancia del conglomerado vecino. No es necesario seguir probando con o x3 ni x4 . partiendo por x1 centroide observaci´n o xA 0 33 xB 147 70 x1 x2 Cambia x2 del conglomerado B a A y termina la iteraci´n 1. o Iteraci´n 1 o Cuadro de distancias euclideas (al cuadrado) de las observaciones a los centroides.25 xB 4.5 256. x4 } ⎡ ⎢ ⎢ xB = ⎢ ⎣ 10 8. se cambia de conglomerado. partiendo de x3 : centroide observaci´n o xA 158. Iteraci´n 2 o Nuevos centroides.5 ⎤ ⎥ ⎥ ⎥ ⎦ Cuadro de distancias al cuadrado.7 ⎡ ⎢ ⎢ xA = ⎢ ⎣ ⎤ ⎥ ⎥ ⎥ ⎦ y ⎡ ⎢ ⎢ xB = ⎢ ⎣ ⎤ ⎥ ⎥ ⎥ ⎦ 0 3 9 12 8 6 4 5 Algoritmo Iterativo: Se deben calcular las distancias de cada observaci´n a los centroides de cada conglomerado.5 157. se o a recalculan los centroides y se pasa a la siguiente iteraci´n.5 x3 x4 x1 x2 Las cuatro observaciones quedaron bien clasificadas. x4 } .25 8. recalculados.5 3 2.5 11 ⎤ ⎥ ⎥ ⎥ ⎦ y B = {x3 . x2 ⎡ ⎢ ⎢ xA = ⎢ ⎣ 2 2 7.

pero que buscan acercarse al optimo. pueden ser proporcionales a las distancias. O bien. e Es como el k-medias. Luego de ´sto e se selecciona la que ya tenga la mejor medida de conglomeraci´n. A esta muestra se le aplica un m´todo de conglomerados. El medoide es el punto tal que sus coordenadas son las medianas de las variables respectivas. Se reasigna una observaci´n por sorteo. La matriz de distancias es de orden n2 . En lugar de asignar un objeto a un grupo e en forma deterministica. por lo que en un conjunto muy grande de observaciones.8 2. cada observaci´n que no est´ en la muestra. como los entregados o o por los m´todos anteriores. e ´ El m´s com´ n consiste en extraer una muestra aleatoria de casos. e En tal caso se puede hace una simplificaci´n. Aglomerativo Inicialmente cada observaci´n es un conglomerado. e van subdividiendo conglomerados hastya llegar a un caso por conglomerado (m´todo divisivo). M´todo K-Medoides. y en cada etapa siguiente van e juntando conglomerados. Son m´todos que parten de tantos conglomerados como casos hay. como el k-medias o el k-medoide. pero usa los medoides en lugar de los centroides. o . 4. Una vez e finalizado. entrega probabilidades de pertenencia de cada observaci´n a los distintos o conglomerados. que lleva a resultados no ´ptimos. con tama˜ o m´s adecuado al a u n a procedimiernto que se desea utilizar. en base a sus distancias a los centros de estas. METODOS JERARQUICOS. Una medida de bondad de conglomeraci´n es obtenida mediante el a o promedio de las distancias entre cada observaci´n y el medoide de su conglomerado. 3. es asignada al conglomerado cuya media o a (o medoide) es m´s cercano. An´lisis Fuzzy (difuso) a Es una variante de los m´todos k-medias y k-medoides. estos m´todos resultan impracticables. o Es conveniente repetir el procedimiento anterior. Conglomerados para conjuntos grandes. Se recomienta usar 5 muestras o distintas. de acuerdo a las probabilidades o definidas. hasta llegar a uno solo (m´todo aglomerativo). e 5. partiendo de diversas mientras. partiendo de uno. Por ejemplo.

y la distancia entre conglomerados. o La nueva matriz de distancias entre conglomerados queda: .9 Luego en cada paso se unen los conglomerados que est´n a menor distancia y se calcula la distancia a del nuevo conglomerado con todos los dem´s. EJEMPLO Se tiene una muestra de siete entrevistados que responden a una encuesta de diez preguntas.La matriz de datos de las respuesta es la siguiente: pregunta 1 2 3 encuestado 4 5 6 7 1 a a c a c a b 2 b c b b c c b 3 b b b e b e c 4 c c c c b c a 5 a d d a d d a 6 b e a d a c a 7 b e b b b e b 8 a a c a c a c 9 a b a a d e a 10 d c d c d d b Se usar´ como distancia entre casos el n´ mero (o la fracci´n. b. form´ndose una nueva matriz de distancias. la del vecino m´s pr´ximo. a a El algoritmo termina cuando queda un conglomerado con todas las observaciones. cada una con respuestas entre las alternativas a. siendo cada caso un conglomerado: (1) 0 6 4 3 7 6 6 (2) 6 0 7 6 7 4 10 (3) 4 7 0 6 3 7 5 (4) 3 6 6 0 9 6 6 (5) 7 7 3 9 0 7 7 (6) 6 4 7 6 7 0 10 (7) 6 10 5 6 7 10 0 (1) (2) (3) D1 = (4) (5) (6) (7) Inicialmente se unen 1 con 4 y 3 con 5 a la distancia 3. dividiendo el n´mero por 10) de a u o u respuestas diferentes. c. a o Iteraci´n 1 o La matriz de distancias entre los encuestados es la siguiente. d y e . Iteraci´n 2.

en cada caso.4). 4) con (3. 4. ser´ (1. 7) (2. 5. Ilustra la forma c´mo se fueron uniendo los conglomerados a o hasta formar uno solo. 4) (2) D2 = (3.4. 6) Se unen todos en un s´lo conglomerdo. 6) (7) Se unen (1. 5) 0 6 5 (2. 4. (1. Si a ıan deseamos tener tres. 6) 6 0 10 (7) 5 10 0 (1.6). 3. De este gr´fico se desprende que si deseamos tener dos conglomerados. 5) 4 7 0 7 5 (6) 6 4 7 0 10 (7) 6 10 5 10 0 Se unen (1. (3. . Iteraci´n 3. 4. Es decir. 3. 4. o La matriz de las distancias entre conglomerados queda: (1. La escala horizontal corresponde a la distncia en que produjeron las uniones.6). (2). 4.5) y (2. ´stos ser´ (1. o El gr´fico siguiente es un dendograma. 5) D3 = (2. 5) (6) (7) (1. 3.3.10 (1. Si queremos 5.5. 7) 0 6 (2. 4) 0 6 4 6 6 (2) 6 0 7 4 10 (3. (6) y ıan e ıan (7). ser´ (7). cada vez se unen observaciones m´s dis´ a ımiles. 6) 6 0 D4 = (1. 5) y (2) con (6) a la distancia 4. 3.7) y (2. Obs´rvese que las distancias de uni´n van aumentando e o con cada paso. 5) con (7) a la distancia 5.3. Ultima matriz de distancias entre conglomerados: (1. 3. a la distancia 6.4. 5.5).

e Comienza con un grupo que contiene todas las observaciones. si hay n=10 observaciones. se e dise˜o el siguiente algoritmo: n´ a) Encontrar el objeto m´s discimil. o Este n´ mero es much´ u ısimo mayor. el que tiene mayor distancia promedio con todos los dem´s. el m´todo divisivo parte con 2n−1 − 1 posibilidades del e divisi´n del conglomerado inicial. b) Por cada observaci´n fuera del grupo disidente D. M´todo Divisivo.11 Figura 2: Dendograma. Para avitar considerar todas las posibles divisiones. En efecto. o Sin embargo mientras en el paso inicial el m´todo aglomerativo tiene n = n(n−1) posibilidades e 2 2 de unir los primeros dos conglomerados. y en sucesivos pasos lo va dividiendo hasta quedar cada observaci`n en un conglomerado diferente. j) / Para encontrar la observaci´n h para la cual esta diferencia es mayor. 6. calcular: o Vi = promedioj ∈D d(i. a a Este da origen a un grupo ”disidente”. j) − promedioj∈D d(i. o . n(n−1) 2 = 45 mientras Eso hace poco atractivo este m´todo. 2n−1 − 1 = 511.

a e Se utiliza cuando todas las variables son binarias . por lo que se debe agregar al primero. e f) Repetir e hasta que todos los conglomerados contienen solo un objeto. Es un m´todo divisivo. .c.d. y a e otro en que toma el valor 1. hasta que todos los Vh sean negativos. y sea la siguiente tabla de contingencia para estas variables. en los dos conglomerados resultantes. h est´ en promedio m´s cerca del grupo disidente que a su complemento. el conjunto queda partido en dos conglomerados. dentro del conglomerado que se va a dividir: f 1 0 \g 1 a c 0 b d La asociaci´n entre f y g se define como o Af g = |ad − bc| La asociaci´n total entre f y las dem´s variables se define como: o a Af = g=f Af g La variable t que satisface At = m´x1≤f ≤p Af a es seleccionada. e a) Se elige la variable con mayor asociaci´n con las dem´s. De este modo. se divide el conglomerado en dos. d) Repetir b y c. de la siguiente forma: considere las o a variables f y g. Dividirlo como en los pasos a. 7. c) Se repite a y b. An´lisis monot´tico.b. e) Seleccionar el conglomerado de mayor di´metro (el di´metro es la distancia mayor entre dos a a objetos de ´l).(0 o 1). b) Usando est´ variable. uno en que ´sta toma el valor 0.12 a a c) Si Vh > 0.

Se debe disponer de una medida de Bondad de Conglomeraci´n que permite discriminar cual o esquema de distribuci´n de observaciones en un grupo de conglomerados es mejor . Por ejemplo. µk da su posici´n. Si hay G poblaciones diferentes y la densidad de una observaci´n x de la k-esima poblaci´n o o u a es fk (x. Algoritmo Gen´tico e Este algoritmo de conglomeraci´n no puede clasificarse como jer´rquico. x2 . y son aplicables al an´lisis de conglomerados. 2 . ⎡ ⎢ ⎢ ⎢ X=⎢ ⎢ ⎢ ⎣ x.. Conglomerados jer´rquicos basados en modelos a Asume que todos los datos son generados por una mezla de distribuciones probabilisticas subyacentes.. . 1 x. los conglomerados resultan de forma hiperesf´rica. entonces ji = k. que indican el conglomerado al que o pertenece cada respectivo elemnto muestral. n ⎤ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎦ ⎡ ⎢ ⎢ ⎢ sea j = ⎢ ⎢ ⎢ ⎣ j1 j2 . n 9.. Σk ). j) = Πn fji (xi . a e Si Σk tiene cualquier forma. θ) i=1 Existen diferentes casos para fk (xi . . θ). 2 Si adem´s se asume que Σk = σk I. jn ⎤ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎦ Dados los datos: el vector de r´tulos tales que si xi proviene de la k-esima poblaci´n. e 8. xn } de observaciones en 3 grupos. θ) para alg´n vector de par´metros θ desconocido.13 d) Se detiene el proceso cuando todos los conglomerados tienen un s´lo objeto o bien tienen o objetos id´nticos. x. . Se suele asumir que es normal multivariante N (µk . sus valores propios especifican la orientaci´n que tiene el n-esimo o o conglomerado y el mayor valor propio es una medida de su tama˜o o varianza. o Por ejemplo: puede ser el coeficiente silueta definido anteriormente o un cuociente entre cuadros medios entre conglomerados y cuadrados medidas dentro de los conglomerados Un vector de r´tulos es un vector de coordenadas enteras. o o El m´todo de m´xima verosimilitud busca θ y j tales que se maximice la verosimilitud e a L(X. Suponga que se desea particionar un conjunto {x1 . θ. El siguiente m´todo se basa en estos a a e algoritmos. . Tiene su origen de la o a inform´tica.

1 1 1 . ⎡ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎣ ⎡ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎣ 1 1 1 3 1 3 ⎤ 1 ⎥ 1 ⎥ ⎥ 1 ⎥ ⎥ 1 ⎥ ⎥ ⎥ 1 ⎦ 1 ⎤⎡ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎦⎣ ⎤ 3 ⎥ ⎢ ⎢ 3 ⎥ ⎥ ⎢ ⎢ 3 ⎥ ⎥ ⎢ ⎢ 3 ⎥ ⎥ ⎢ ⎥ ⎢ ⎣ 3 ⎦ 3 ⎤⎡ 1 3 ⎥⎢ 1 ⎥⎢ 1 ⎥⎢ 3 ⎥⎢ 3 ⎥⎢ 1 ⎥⎢ 3 ⎥⎢ ⎥⎢ 1 ⎦⎣ 1 1 3 ⎡ ⎤ 1 ⎥ ⎢ ⎢ 2 ⎥ ⎥ ⎢ ⎢ 2 ⎥ ⎥ ⎢ ⎢ 3 ⎥ ⎥ ⎢ ⎥ ⎢ ⎣ 1 ⎦ 1 ⎤⎡ 1 3 ⎥⎢ 1 ⎥⎢ 2 ⎥⎢ 2 ⎥⎢ 1 ⎥⎢ 3 ⎥⎢ 2 ⎥⎢ ⎥⎢ 1 ⎦⎣ 1 3 3 ⎡ 3 ⎢ ⎢ 1 ⎢ ⎢ 1 ⎢ ⎢ 2 ⎢ ⎢ ⎣ 2 3 ⎤⎡ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎦⎣ ⎡ ⎤ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎦ 1 1 2 3 2 1 ⎤ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎦ Padres (Generaci´n k) o ⎤ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎦ ⎡ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎣ o Hijos (generaci´n k+1) Supongamos en nuestro ejemplo que cada pareja tiene 3 hijos. y x8 . 3 Cada uno de los n´meros del cromosoma es un ”gen”. en que dos parejas de padres tienen tres hijos de o cada uno.ck } e o Estos cromosomas son arbitrarios. ⎢ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎣ ⎦ 3 3 . uno entre u los dos de ambos padres. que ocupan la misma posici´n.. 1 2 2 .. . yx6 . ıan . . x2 . Por ejemplo: pueden ser 18 croı u mosomas.y a a a x10 est´n en un tercero.. que son vectores de r´tulos. as´ como el n´ mero de ellos.. Estos son los ”Padres” o con un determinado n´ mero de ”hijos”. . . Este conjunto forma la ”primera generaci´n”. . x9 . ⎢ ⎢ ⎢ ⎢ ⎣ ⎤ ⎥ ⎥ ⎥ ⎥ ⎥ . ⎥ ⎥ ⎥ ⎦ ⎡ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎣ ⎤ ⎡ ⎤⎫ ⎪ ⎪ ⎪ ⎥⎪ ⎪ ⎥⎪ ⎪ ⎥⎪ ⎥⎬ ⎥ ⎥⎪ ⎥⎪ ⎪ ⎥⎪ ⎪ ⎦⎪ ⎪ ⎪ ⎭ 1 1 . . El m´todo parte de un conjunto de ”cromosomas”. x4 . seis cuyos elementos son 2. . Entonces la segunda generaci´n o habr´ 27 individuos.. . de la forma ⎧ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎩ ⎡ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎣ ⎤ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎦ ⎡ ⎢ ⎢ ⎢ ⎢ . seis cuyos elementos son todos 1. x7 . x5 y x11 est´n en otro. u o Para formar la segunda generaci´n se forman pares. c2 . . 2 ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎥ .14 c = [1 1 2 2 2 3 1 1 3 3 2] que indica que x1 . seleccionado al azar. . est´n en un conglomerado. cuyos cromosomas se forman eligiendo cada gen. relacionados al azar.{c1 . .... Por ejemplo. y seis cuyos elementos son 3.x3 . la o siguiente ilustraci´n muestra un caso posible.

e o Se ordenan todos los individuos de la ultima generaci´n de acuerdo a sus medidas de conglom´ o eraci´n. la elite pueden estar formadas por los tres primeros. ıan o e y se les selecciona al azar un gen. Por ejemplo. Se repite el proceso por un n´ mero alto de generaciones mejor´ndose progresivamente la medida u a de bondad de conglomeraci´n. Adem´s. al que se les asigna un valor. En el ejemplo. tambi´n al azar. a o n En nuestro ejemplo ser´ 3. Esta fracci´n es peque˜ a por ejemplo. Estos mutantes permiten que la exploraci´n se extienda a otras zonas. tienen hijos cuyos genes resultan de la combinaci´n. etc. o o por ejemplo con los 18 mejores se seleccionan 9 parejas. paralelamente. se forman parejas al azar. (se ”clonan”). ´stos son individuos que o n o e cambian espont´neamente un gen. o a Falta un elemento para completar el proceso. Se ordenan de acuerdo a la o medida de bondad de conglomeraci´n. son 30 individuos en cada generaci´n. Sin embargo. un 10 % de individuos. se obtiene una elite que se clona en la siguiente generaci´n. que pueden variar. en la practica. m´s 3 o o a o o hijos por cada una de las 9 parejas de la generaci´n anterior. de los correspondientes genes de sus padres. Resumen del algoritmo gen´tico aplicado al an´lisis de conglomerados: e a Siguiendo con los valores dados en el ejemplo. y sus genes se copian en la siguiente generaci´n. optimiz´ndose el proceso.15 o Sea Mk (c) el valor de la medida individuo de conglomeraci´n aplicada al definido por el cromosoma c. en la k-´sima generaci´n. al azar. En cada generaci´n se seleccionan al azar estos individuos mutantes. que forma la ”elite”. m´s 27 hijos (incluidos 3 mutantes) = 30 individuos. otras zonas del espacio de posibles esquemas de conglomeraci´n. o Despu´s se seleccionan los mejores en igual n´ mero que al inicio. la forma a presentada aqu´ es una de varias posibles variantes del algoritmo. y e u se repite todo el proceso. ı Generaci´n k-esima: o Recibe de la generaci´n anterior: La elite de la generaci´n anterior foro o mada por los 3 mejores. Se debe tratar de explorar. (se incluyen los de la elite). Esto se hace de o ´ ´ la siguiente forma: En cada generaci´n se introduce una peque˜ a fracci´n de ”mutantes”. o Se selecciona un grupo de las mejores. a . Hasta el momento el procedimiento apunta a buscar un optimo. donde podr´ haber optimos o ıan ´ locales que superen el ya encontrado. puede ser que estemos tratando de mejorar en el entorno de un ´ptimo ´ o local. cada generaci´n tiene 3 que pertenecen a la elite de la generaci´n anterior. en busca de optimos locales que superen al optimo local actual. Es decir.

La silueta del objeto i se define como: s(i) = observar que −1 ≤ s(i) ≤ 1 Interpretaci´n: o b(i)−a(i) m´x{a(i). el de tres conglomerados es el que mejor separa las observaciones en grupos.16 Los 3 mejores (elite) pasan id´nticos a la siguente generaci´n. o 1. para una observaci´n i. Sea C otro conglomerado. Sea b(i) = m´ C=A d(i. entre los 18 mejores (incluyendo los de la elite) se forman 9 parejas al azar. aparecen dos conglomerados muy pr´ximos.b(i)} a . C) = promedio de distancias deia todos los elementos deC. 3 son mutantes. De estos 27 hijos. B es el segundo mejor conglomerado para i. tal que d(i. Entrega a la generaci´n siguiente: o Los 3 de la elite m´s los 27 hijos ( incluidos 3 mutantes) a MEDIDAS DE BONDAD DE CONGLOMERACION. o La Figura 3 siguiente muestra un conjunto de 12 observaciones bidimensionales. donde. Se debe disponer de una medida de Bondad de Conglomeraci´n que permite discriminar cual eso quema de distribuci´n de observaciones en un grupo de conglomerados es mejor . es decir. ı. el valor: o a(i) = promedio de las disimilitudes de i con todos los dem´s objetos del conglomerado A al cual a pertenece i. Coeficiente Silueta Se define. Sea d(i. e o Adem´s. C) ın El conglomerado B que alcanza el m´ ınimo. B) = b(i) se denomina vecindad del objeto i. el primero contiene observaciones muy distantes entre s´ Si se separa en cuatro. con tres esquemas de conglomerados. Si se dividen en dos conglomerados. C = A. a Cada pareja enjendra 3 hijos. a simple vista.

a El coeficiente silueta es el promedio a trav´s de todas las observaciones. El del centro es el mejor. indica que el correspondiente conglomerado tiene elementos muy disc´ ımiles. o La Figura 3 muestra que el mayor valor.17 s(i) ≈ 1. Cada elemento i xij − xj Si uno de ellos es muy grande. con tres conglomerados. de 0. el objeto i est´ bien clasificado a s(i) ≈ 0. el objeto i est´ entre dos conglomerados a s(i) ≈ −1. el objeto i est´ mal clasificado. y d = nj − G es el divisor (”grados de libertad”). Cuadrado medio dentro de los conglomerados Es el promedio de la suma de cuadrados de las distancias de cada observaci´n hasta el centroide o del conglomerado a que pertenecen. Mientras m´s grande. Mientras m´s peque˜ o. .69. mejor. corresponde al esquema de conglomerados que a simple vista parece mejor. 2. a n es una medida de bondad dentro del respectivo conglomerado. donde nj es el numero de observaciones en el conglomerado j. CM D = 1 d j i xij − xj 2 en que xij es la observaci´n i − esima del conglomerado j . xj es el vector promedio del cono ´ glomerados j. 2 Figura 3: Tres esquemas de conglomerados para un mismo conjunto de puntos. e a mejor es la distribuci´n de conglomerados.

o Sea xj una observaci´n. Se define d(j) como el cuociente entre la distancia en que xj se une por primera vez a otro conglomerado y la distancia en que se produce la ultima fusi´n de todos en un ´ o s´lo gran conglomerado. asociada a los m´todos jer´rquicos. u Por cada elemento i. G ´ el n´ mero de conglomerados. significa que los d(j) tienden a ser peque˜ os. ıa n GRAFICOS ASOCIADOS AL ANALISIS DE CONGLOMERADOS 1. 4. x es el vector promedio global. y u indica norma vectorial. el cuociente o la diferencia entre la distancia m´xima o distancia promedio dentro de los conglomerados (que se espera sea peque˜a). mejor. 2. Obs´rvese que si este coeficiente es grande. El coeficiente aglomerativo es el promedio de (1 − d(j)) a trav´s de todas o e las observaciones. corresponde al o ´ coeficiente silueta. a n y la distancia m´ ınima o la distancia promedio entre conglomerados (que se espera sea grande).18 3. Coeficiente aglomerativo Es una medida global de conglomeraci´n. El coeficiente aglomerativo es ´ CA = 1 − P i=1nd(i) n 5. rangueados en orden descendente dentro de su conglomerado.. como por ejemplo. Ver Figura 4. a . es decir. . no a un determinado n´mero de conglomerados. respecto del area del ancho 1. La proporci´n de superficie contenida en las barras.. Mientras m´s largas las barras. Se aplica a todo el o e a procedimiento. e n que la mayor´ las fusiones se produjeron a distancias relativamente peque˜ as. Se pueden definir varios otros indicadores. sea d(i) su distancia al primer conglomerado con que se une. Coeficiente F Es el un cuociente entre los cuadrados medidas dentro de los conglomerados (CMD) y los cuadros medios entre (CME) conglomerados. dividida por la distancia de los ultimos conglomerados en unirse. Silueta La silueta de un conglomerado es una representaci´n gr´fica de los coeficientes silueta s(i) para o a todas las observaciones i = 1.. n. Otros indicadores. se pueden obtener otros indicadores como variantes de estos. donde CM E = 1 G−1 j xj − x 2 en que xj es el vector promedio del conglomerados j − esimo.

Figura 5: Dendograma. a 2. en cada caso. . Dendograma. Ver Figura 5. Es un gr´fico que muestra c´mo se fueron uniendo los conglomerados hasta formar uno solo.19 Figura 4: Gr´fico de silueta. La a o escala vertical corresponde a la distancia en que produjeron las uniones.

Figura 6: Gr´fico de bandera. o a Ver Figura 7.20 3. a 4. Es posible visualizar a los conglomerados en este plano. N´tese que el coeficiente o a o aglomerativo corresponde al la proporci´n de superficie del lado derecho del gr´fico de bandera. Los objetos se listan de arriba hacia abajo a la izquierda. La situaci´n ilustrada en el gr´fico corresponde al mismo caso del dendograma de la o a Figura 6. Bandera (Banner) Tambi´n es s´lo para m´todos jer´rquicos. en que cada un representa una componente principal de los datos. y representa el a plano en que las proyecciones de las observaciones aparecen m´s dispersas. . El caso m´s usual es el que se compone de las componentes 1 y 2. o La informaci´n que entrega este gr´fico es la misma que el dendograma. colocados a la distancia de uni´n. Las lineas se unen mediante trazos verticales. e o e a Al lado de cada uno hay una linea horizontal. Ver Figura 7. Biplot Es un plano formado con dos coordenadas.

a .21 Figura 7: Gr´ficos Biplot.

You're Reading a Free Preview

Descarga
scribd
/*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->