Documentos de Académico
Documentos de Profesional
Documentos de Cultura
T2 5 A27iJPO
T2 5 A27iJPO
Introduccin
El problema de agrupacin de objetos de acuerdo a sus
atributos ha sido ampliamente estudiado debido a sus
aplicaciones en reas como aprendizaje de mquina [4],
minera de datos y descubrimiento de conocimiento [3,
11], reconocimiento y clasificacin de patrones [2]. El
objetivo del agrupamiento es particionar un grupo de
objetos, los cuales tienen asociados vectores multidimensionales de atributos en grupos homogneos, tales
que los patrones en cada grupo sean similares.
Varios algoritmos de aprendizaje no supervisado han
sido propuestos, los cuales particionan el conjunto de
objetos en un determinado nmero de grupos de
acuerdo a un criterio de optimizacin. Uno de los
mtodos de agrupacin ms popular y ampliamente
utilizado es K-means [10]; particularmente, porque su
implementacin es relativamente simple. Sin embargo,
el algoritmo K-means tiene los siguientes inconvenientes:
El agrupamiento final depende de los centroides
iniciales.
La convergencia en el ptimo global no est
garantizada, y para problemas con muchos
ejemplares, requiere de un gran nmero de
iteraciones para converger.
Trabajos Relacionados
Se han realizado varias mejoras al algoritmo K-means
estndar relacionadas con varios aspectos asociados a
cada uno de los pasos del algoritmo. Bsicamente el
algoritmo consta de cuatro pasos:
1.
2.
3.
4.
Inicializacin.
Clasificacin.
Clculo de centroides.
Condicin de convergencia.
Pag.
Vehicle
Glass
Diabete
4
7
2
Nmero
de
atributos
18
9
8
Heart
Wine
Liver
2
3
2
13
13
6
Base de
Datos
Nmero
de grupos
Nmero
de
ejemplares
846
214
768
270
178
345
Pag.
Base de Datos
Diabetes
Liver
Vehicle
Wine
Heart
Glass
Porcentaje de Corridas
73
70
50
43
33
20
Pag.
Muertes
14
14
21
9
9
28
Poblacin
153001
164637
271674
132421
133985
434143
Tasa
9.15
8.50
7.73
6.80
6.72
6.45
7.56
0.99
Poblacin
130329
609829
196907
105469
Tasa
11.52
7.87
7.11
6.64
8.28
1.92
Pag.
Poblacin
356290
609829
100821
Tasa
18.80
17.05
15.86
745537
140650
359146
277402
116426
196907
380509
130329
124378
671790
15.15
14.93
14.47
14.05
13.74
13.71
13.40
13.04
11.25
11.16
14.3546154
2.03128461
Muertes
14
54
65
113
15
Promedio de Tasa
Desviacin estndar
Poblacin
104229
4148141
529512
1110997
128130
Tasa
13.43
12.91
12.27
11.97
11.70
12.456
0.7065
Conclusiones
Varias mejoras del algoritmo K-means se han enfocado
en los parmetros de inicializacin del algoritmo [12];
sin embargo, uno de los factores que ms afecta su
costo computacional es el nmero de iteraciones
realizadas hasta converger.
Este trabajo muestra que es posible mejorar el
algoritmo K-means estndar mediante una nueva
condicin de convergencia. Durante el estudio de la
implementacin del algoritmo K-means estndar;
especficamente, analizando la evolucin de la suma de
los errores cuadrticos para cada iteracin, se encontr
que en muchos casos el algoritmo no paraba en un
ptimo local. A pesar de haber alcanzado un ptimo
local, el algoritmo contino ejecutndose y gener una
solucin final peor que el ptimo local.
Un anlisis detallado del algoritmo estndar revel que
pas del ptimo local porque la condicin de
convergencia no toma en cuenta el error cuadrtico. En
contraste, este trabajo propone una nueva condicin de
convergencia que incorpora el error cuadrtico, la cual
garantiza que el algoritmo parar en un ptimo local,
reduciendo el nmero de iteraciones y mejorando la
calidad de la solucin, en numerosos casos.
Pag.
[13] Merz, C., Murphy, P., Aha, D.: UCI Repository of Machine
Learning Databases. Department of Information and Computer
Science, University of California. http://www.ics.uci.edu/
~mlearn/MLRepository.html.
Referencias
[1]
[2]
[3]
[4]
[5]
[6]
[7]
Kanungo, T., Netanyahu, N.S., Wu, A.Y.: An Efficient Kmeans Clustering Algorithm: Analysis and Implementation.
IEEE Transactions on Pattern Analysis and Machine
Intelligence, Vol. 24, No. 7 (2002).
[8]
[9]
Chicago,
Illinois.
[18] Mohar, A., Ley, C., Guarner, J., Herrera-Goepfert, R., Snchez
L., Halperin D., Parsonnet J.: Alta Frecuencia de Lesiones
Precursoras de Cncer Gstrico Asociadas a Helicobacter Pylori
y Respuesta al Tratamiento, en Chiapas, Mxico. Gaceta
Mdica de Mxico, Vol. 138, No.5 (2000) 405-410
Pag.