Está en la página 1de 7

UN ALGORITMO DE AGRUPAMIENTO JERRQUICO DINMICO Y SOLAPADO

AN OVERLAPPED DYNAMIC HIERARCHICAL ALGORITHM


Ania Bentez Snchez del Campo1, Aurora Pons Porrata2, Reynaldo Gil Graca3, Alejandro Mulet Campos4
1 Universidad de Oriente, Cuba, ania@corpus.uo.edu.cu, Jos A. Saco #618 e/ Barnada y Paraiso, Santiago de Cuba 2 Universidad de Oriente, Cuba, aurora@cerpamid.co.cu 3 Universidad de Oriente, Cuba, gil@cerpamid.co.cu 4 Universidad de Oriente, Cuba, alejandromc@fie.uo.edu.cu

RESUMEN
En los ltimos aos resulta indiscutible el acelerado crecimiento de la informacin disponible en medios electrnicos. En la esfera de las ciencias mdicas, las tareas e investigaciones desarrolladas han provocado una avalancha de datos: existen revistas y bibliotecas digitales, repositorios, bases de datos, sitios web, etc., dedicados a los temas de la salud. Esta situacin ha ocasionado que se necesiten herramientas que logren la manipulacin, exploracin efectiva y acceso eficiente de los datos, y que permitan obtener resultados ptimos, para que sea verdaderamente til todo ese caudal de conocimiento que crece precipitadamente. Una de las tcnicas bsicas utilizadas para procesar esa informacin y que ha encontrado dismiles aplicaciones es el agrupamiento de grandes conjuntos de datos. Entre los algoritmos de agrupamiento se encuentran los que crean jerarquas. Estos algoritmos tienen un inters adicional en muchas aplicaciones porque proporcionan vistas de los datos a diferentes niveles de abstraccin, lo que los hace ideales para la visualizacin y la exploracin interactiva de colecciones de objetos. Existen muchos algoritmos jerrquicos, pero ninguno que sea capaz de lidiar con colecciones dinmicas de objetos y que simultneamente cree jerarquas solapadas. Sin embargo, existen muchos problemas prcticos que requieren agrupamientos solapados en colecciones que cambian en el tiempo. En este trabajo se presenta una propuesta de un algoritmo jerrquico dinmico solapado, obtenido a partir de un marco general de agrupamiento aglomerativo. Los algoritmos
VII Congreso Internacional de Informtica en la Salud

implementados fueron evaluados utilizando dos colecciones estndar de documentos. Palabras Clave: Agrupamiento de documentos, Algoritmos de agrupamiento jerrquico, Reconocimiento de Patrones.

ABSTRACT
In the last years the quick growth of the available information in electronic means is unquestionable. In the field of medical sciences, tasks and investigations carried out have resulted in an avalanche of data: there are digital magazines and libraries, repositories, databases, web sites, etc.; its devoted to health issues. This situation has brought in tools that are needed to achieve manipulation, effective exploration and efficient access of data, and to obtain optimal results, to be truly useful all this wealth of knowledge that grows precipitously. Clustering of huge data collection is one of the basic techniques used to process that information and it has found several applications. Among the clustering algorithms, the hierarchical algorithms are ones. These algorithms have an additional interest in many applications because they provide views of the data at different levels of abstraction, making them ideal for people to visualize and interactively explore large collections. There are some hierarchical algorithms, but none that is able to handle with dynamic object collections and that to create simultaneously overlapped hierarchies. However, many real

problems that require overlapped clustering in dynamic collections exist. In this article, a proposal of an overlapped dynamic hierarchical algorithm is presented, which is obtained starting from a general framework of aglomerative clustering. The implemented algorithms have been evaluated using two standard document collections. KeyWords: Clustering of documents, Hierarchical clustering algorithm, Pattern Recognition.

1. INTRODUCCIN
En los ltimos aos resulta indiscutible el acelerado crecimiento de la informacin disponible en medios electrnicos y con ello, la gran importancia que ha adquirido la Minera de Datos o Descubrimiento de Conocimientos. Pero la mayor cantidad de informacin generada por los humanos es precisamente no estructurada, con un amplio rango de contenidos, formatos, autores, pocas, etc., es decir, son colecciones de textos escritos en lenguaje natural: artculos, noticias de peridicos, mensajes electrnicos, pginas Web, etc. En la esfera de las ciencias mdicas las tareas e investigaciones desarrolladas han provocado una avalancha de datos: existen revistas y bibliotecas digitales, repositorios, bases de datos, sitios web, etc., dedicados a los temas de la salud. Esta situacin ha ocasionado que se necesiten herramientas que logren la manipulacin, exploracin efectiva y acceso eficiente de los datos, y que permitan obtener resultados ptimos, para que sea verdaderamente til todo ese caudal de conocimiento que crece precipitadamente. Por ejemplo, en estos momentos, la mayora de los proyectos que se desarrollan en el mundo en materia de genmica y protemica, demandan la aplicacin de tcnicas de la minera de datos para poder determinar qu es realmente importante dentro del enorme volumen de informacin que producen ests investigaciones diariamente. Sin embargo, los mtodos tradicionales de manipulacin de datos son cada vez menos capaces de procesar la enorme cantidad de informacin existente y que se genera constantemente a gran velocidad, y de satisfacer a los usuarios extrayendo la informacin de su inters. Por esta razn, se han propuesto nuevas herramientas y tcnicas para resolver este problema, aunque la mayora de los trabajos existentes se han desarrollado para manipular bases de datos estructuradas. Una de las tcnicas bsicas utilizadas para procesar esa informacin y que ha encontrado dismiles aplicaciones es el agrupamiento de grandes conjuntos de datos. Entre los algoritmos de

agrupamiento se encuentran los que crean jerarquas. Estos algoritmos tienen un inters adicional en muchas aplicaciones porque proporcionan vistas de los datos a diferentes niveles de abstraccin, lo que los hace ideales para la visualizacin y la exploracin interactiva de colecciones de objetos. En muchos problemas prcticos el conjunto de objetos a agrupar cambia con el tiempo, pues es necesario agregar nuevos objetos al conjunto o eliminar objetos que ya no existen. Por eso, en ese tipo de aplicaciones se requieren algoritmos dinmicos, es decir, que actualicen el agrupamiento a medida que cambia el conjunto de datos sin necesidad de empezar nuevamente desde el principio. Muchas de estas aplicaciones requieren tambin la creacin de jerarquas solapadas en colecciones dinmicas de datos. Por ejemplo, en el caso del seguimiento y la deteccin de sucesos en un flujo continuo de noticias, pueden encontrarse artculos que hagan referencia a ms de un suceso y, por consiguiente, deben de estar agrupados en cada uno de esos sucesos. En la actualidad no existen, reportados en la literatura, algoritmos de agrupamiento jerrquicos capaces de lidiar con colecciones dinmicas de objetos y que simultneamente sean capaces de crear jerarquas solapadas. En este artculo se presenta una propuesta de un algoritmo que crea jerarquas solapadas en colecciones dinmicas de datos, obtenido a partir de un marco general de agrupamiento jerrquico aglomerativo, para el caso dinmico [1]. Adems, se exponen los resultados obtenidos por este algoritmo utilizando dos colecciones estndar de documentos. El anlisis de los algoritmos de agrupamiento existentes se puede encontrar en el primer captulo de la tesis de diploma Algoritmos de agrupamiento jerrquico [2].

2. ALGORITMO ESTRELLAS JERRQUICO DINMICO


Este algoritmo se obtiene a partir del marco general dinmico concretando los tres aspectos que lo definen de la siguiente forma: subgrafo es el grafo de mxima semejanza [1] sin tener en cuenta la orientacin de sus arcos, denominado subgrafo max-S [1]. El algoritmo de cubrimiento es el algoritmo Estrellas de Aslam Dinmico sobre el subgrafo max-S [3]. La semejanza entre grupos es la semejanza entre sus objetos representantes.
El
2

VII Congreso Internacional de Informtica en la Salud

El algoritmo quedara entonces de la siguiente forma: Algoritmo Estrellas Jerrquico Dinmico 1. Llegada del objeto a agregar (o eliminar). 2. Crear un grupo unitario con el objeto (o eliminar el grupo unitario al cual pertenece el objeto). 3. nivel = 0. 4. Actualizar el grafo de -semejanza, G nivel . 5. Mientras G nivel inconexo: no sea completamente

a. Actualizar el subgrafo max-S, G nivel . b. Actualizar el cubrimiento en Estrellas de Aslam Dinmico del subgrafo max-S, G nivel . c. nivel = nivel + 1. el grafo de -semejanza, d. Actualizar G nivel .

6. Si existen niveles mayores que nivel en la jerarqua, eliminarlos. Cuando se presenta un nuevo objeto, se crea un grupo unitario que lo contiene y se actualiza el grafo de -semejanza del nivel inferior de la jerarqua, lo que provoca la creacin de un nuevo vrtice y de las aristas que unen a este nuevo vrtice con los dems vrtices semejantes a l. Dos vrtices son semejantes si los grupos a los cuales representan son semejantes, es decir, si el clculo de la semejanza entre esos grupos supera el umbral . Por el contrario, cuando se elimina un objeto, se elimina el vrtice correspondiente y todas sus aristas. Es decir, en este grafo las aristas que se agregan y eliminan siempre son las aristas que inciden en los objetos aadidos o borrados respectivamente. A continuacin se actualiza el subgrafo max-S, lo que provoca la creacin de un nuevo vrtice y la creacin y eliminacin de aristas. Por el contrario, cuando se elimina un objeto, se elimina el vrtice correspondiente y sus aristas, y se buscan los objetos ms semejantes a aquellos objetos que tenan al objeto eliminado como su mximo semejante. Para la obtencin del cubrimiento en estrellas se utiliza el algoritmo Estrellas de Aslam Dinmico, que permite no slo la incorporacin de nuevos objetos al agrupamiento, sino tambin la eliminacin de objetos existentes. La actualizacin de las estrellas provoca que aparezcan nuevos grupos y que se eliminen otros (ver algoritmo

Estrellas de Aslam Dinmico). Cuando se crea o se elimina un grupo de un nivel de la jerarqua, el grafo de -semejanza del prximo nivel debe actualizarse. Este proceso se repite hasta que el grafo sea completamente inconexo. Es posible que el grafo obtenido sea completamente inconexo antes de haber alcanzado el nivel tope de la jerarqua. En este caso, los siguientes niveles de la jerarqua se eliminan. Debido a que el algoritmo de cubrimiento construye los grupos en formas de estrellas, el algoritmo Estrellas Jerrquico Dinmico es capaz de construir jerarquas de grupos solapados. El algoritmo Estrellas de Aslam Dinmico actualiza el cubrimiento en estrellas de un subgrafo max-S cuando se agregan nuevos vrtices o se eliminan vrtices existentes. Ante los nuevos cambios, el algoritmo construye una lista ( Q) con todos aquellos vrtices que pueden cambiar su estado (dejar de ser estrella o convertirse en estrella). El estado de un vrtice puede cambiar debido a que aumenta el grado del vrtice por la incorporacin de los nuevos vrtices, disminuye su grado por la eliminacin de vrtices existentes o deja de estar agrupado porque se elimin su estrella vecina. Todos los vrtices incluidos en Q son procesados nuevamente para actualizar los grupos o crear nuevos grupos (paso 6). Cuando se agregan nuevos vrtices, stos se aaden a la lista Q junto con sus vecinos que no son estrellas. El grado de estos vecinos aument, por lo que podran convertirse en estrellas. Por otra parte, cuando se eliminan vrtices, es necesario analizar si el vrtice eliminado es o no estrella. En el primer caso, se aaden a la lista Q los vecinos de dicha estrella que no tienen ms estrellas vecinas para que sean agrupados nuevamente. En caso contrario, se convierten sus estrellas vecinas en satlites y se aaden a la lista Q por disminuir su grado. Adems, a la lista Q se aaden tambin los vecinos de estas estrellas que se quedaron sin estrellas vecinas. Una vez construida la lista Q, cada uno de sus vrtices se procesa en orden descendente segn su grado. Para cada vrtice, si no tiene estrellas vecinas se convierte en estrella. En caso contrario, si todas sus estrellas vecinas tienen menor grado que l, entonces este vrtice se convierte en estrella y sus estrellas se convierten, a su vez, en satlites. Al eliminarse estas estrellas todos sus vecinos que se quedaron sin estrellas vecinas deben ser incorporados a Q para ser procesados nuevamente. Este proceso se repite mientras queden vrtices por procesar en Q. Los pasos bsicos de este algoritmo se muestran a continuacin.

VII Congreso Internacional de Informtica en la Salud

Algoritmo Estrellas de Aslam Dinmico sobre el subgrafo max-S 1. Sea N el conjunto de vrtices aadidos y R el conjunto de vrtices eliminados. 2. Sea Q la lista de vrtices a procesar, Q = . 3. Sea Li el conjunto de estrellas vecinas del vrtice i . 4. Para cada vrtice x en R : a. Si x es estrella: Eliminar de x .

de L y para todo

y vecino

Si y vecino de x no tiene ms estrellas vecinas ( L y = ), agregar y a Q. b. Sino: Convertir en satlites a las estrellas vecinas de x , o sea, todas las k L x . Agregar todas las k L x a Q . Agregar todos los y a Q , donde y es vecino de k y L y = kLx, es decir, se agregan todos los vecinos de k que se quedaron sin estrellas vecinas. 5. Para cada vrtice x en N : a. Hacer x satlite. b. Para cada y vecino de x :

por lo que restringen los grupos a formas esfricas. Los cubrimientos en forma de estrellas no presentan el efecto de encadenamiento que caracteriza a las componentes conexas. No se fija a priori la cantidad de grupos a obtener. El nico parmetro inicial que se necesita es el valor de , por lo que es relativamente sencillo el problema de la optimizacin de los parmetros del algoritmo para una aplicacin determinada. Sin embargo, este algoritmo tiene como desventaja que el conjunto de grupos generados en cada nivel de la jerarqua no es nico, es decir, depende del orden de presentacin de los objetos; esto se debe a que el algoritmo de cubrimiento que utiliza es dependiente del orden de presentacin de los objetos.

3. ANLISIS DE LA COMPLEJIDAD COMPUTACIONAL Y ESPACIAL


El peor de los casos del algoritmo Estrellas Jerrquico Dinmico ocurre cuando todos los grupos son pares de semejantes recprocos y = 0, pues de esta forma se alcanza la mayor cantidad de niveles en la jerarqua y la mayor cantidad de grupos en cada nivel. En este caso, existen log 2 n niveles en la jerarqua, n 2 i grupos y
1 n 2i+ enlaces del grafo max-S en cada nivel i.

c. Agregar x a Q . 6. Mientras Q : a. Extraer vrtice x Q que tenga el mayor grado. b. Si L x = : Hacer x estrella. c. Sino, si k L x k tiene menor grado que x: Convertir k en satlite. Agregar . Hacer

y es estrella: Agregar y a L x . Sino: Agregar y a Q .


Si

y vecino de k a Q si L y =

x estrella.

El algoritmo anterior presenta como ventajas las siguientes: Es capaz de procesar colecciones dinmicas y los grupos obtenidos pueden ser solapados, lo que es de inters en varias aplicaciones. Obtiene grupos de formas arbitrarias, a diferencia de otros algoritmos que requieren una medida central para obtener los grupos,
VII Congreso Internacional de Informtica en la Salud

Cada vez que se presenta un nuevo objeto hay que calcular sus semejanzas con todos los existentes, lo cual tiene una complejidad computacional de O(nm). Como el nuevo objeto no es -aislado, se incorpora a un grupo existente, por lo que hay que calcular la semejanza de este grupo con todos los restantes en el siguiente nivel de la jerarqua. Este proceso se repite en todos los niveles de la jerarqua. La cantidad total de semejanzas que se calculan teniendo en cuenta todos los niveles es inferior a 2 n. Las semejanzas entre grupos se calculan a partir de las semejanzas entre sus representantes y estos representantes se calculan, a su vez, a partir de los representantes del nivel inferior. Como en este caso, el tamao de los grupos est acotado, el clculo de cada semejanza entre grupos es O(1) y la complejidad temporal de calcular las semejanzas teniendo en cuenta todos los niveles de la jerarqua es O(n). Por otro lado, en este caso peor, la actualizacin de las estrellas de Aslam es trivial, porque cada vez que se agrega un nuevo objeto, lo que se hace a lo sumo es crear una nueva estrella. Por tanto, la complejidad de este proceso teniendo en cuenta todos los niveles es O(log2n).
4

Como los pasos anteriores se realizan cada vez que se presenta un nuevo objeto, la actualizacin de la jerarqua es O(n2). Por tanto, la complejidad computacional del algoritmo Estrellas Jerrquico Dinmico en el caso peor es O(n2m). Por otra parte, la complejidad espacial es de O(n2), pues hay que almacenar las semejanzas entre cada par de grupos.

documentos etiquetados en ms de un tpico.

Tabla III: Descripcin de los tpicos de las colecciones


Coleccin afp eln # de tpicos 25 50 # de documentos en ms de un tpico 16 912

4. RESULTADOS EXPERIMENTALES
Para evaluar la calidad de los grupos obtenidos por el algoritmo Estrellas Jerrquico Dinmico se utilizaron dos colecciones estndar de documentos escritos en espaol provenientes de fuentes diferentes. La descripcin de las colecciones se muestra en la Tabla I. Con estas mismas colecciones se evaluaron tambin los algoritmos Estrellas Jerrquico y Compacto Jerrquico Dinmico [1], que tambin fueron obtenidos a partir del marco general de agrupamiento jerrquico aglomerativo, en el primer caso a partir del marco general esttico y en el segundo, del marco general dinmico.
Tabla I: Descripcin de las colecciones de prueba
Coleccin Fuente Cantidad de documento s 694 5829 Dimensin Promedio de trminos 103 174

afp eln

TREC-5 TREC-4

12575 84344

La coleccin afp proviene de la conferencia internacional TREC-5 [TREC] y contiene 694 artculos periodsticos en espaol publicados por la agencia AFP en el ao 1994. La coleccin eln est formada por 5829 artculos publicados en el peridico mexicano El Norte", tambin en el ao 1994. La columna de la tabla anterior correspondiente a la dimensin contiene la cantidad total de trminos diferentes presentes en los documentos de la coleccin. La ltima columna muestra la cantidad promedio de trminos diferentes que tienen los documentos de la coleccin, lo que da una idea de la longitud promedio de cada documento. Para evaluar la calidad de los grupos obtenidos por los algoritmos de agrupamiento jerrquicos se compararon dichos grupos con las clases manuales o tpicos obtenidos por expertos y que son suministrados en las colecciones. Las caractersticas de dichos tpicos para cada coleccin se resumen en la Tabla II que se muestra a continuacin. En estas colecciones un documento puede estar en uno o ms tpicos, por lo que los tpicos son solapados. Como se puede observar, la coleccin eln tiene una mayor cantidad de

Cada una de las colecciones de documentos que se utilizaron est contenida en un fichero, donde cada documento est representado utilizando el tradicional modelo vectorial [4] [5]. Los trminos que se encuentran en los ficheros de cada coleccin de documentos, estn ponderados utilizando la frecuencia TF ( Term Frequency) [5], donde cada trmino tiene una importancia proporcional a la cantidad de veces que aparece en un documento. Esta frecuencia est normalizada por la longitud, es decir, cada frecuencia est dividida por la longitud del documento para moderar el efecto de las altas frecuencias y para compensar la longitud del documento (en documentos ms largos, previsiblemente aparecer ms veces cada trmino). Cada trmino representa la forma reducida de un conjunto de palabras (lema), por ejemplo, todas las conjugaciones de un verbo se representaron con su infinitivo, el plural de una palabra por su forma singular, etc. No estn consideradas como trminos aquellas palabras con escaso contenido semntico (stop words), como son las preposiciones, adverbios, conjunciones, artculos, etc. Para comparar a los documentos se emple la tradicional medida del coseno, que se define como el coseno del ngulo entre los vectores de documentos. Para evaluar la calidad del agrupamiento de los documentos se utiliz la medida F1, tanto microF1 como macroF1 [6]. Los mejores resultados del agrupamiento de los algoritmos Estrellas Jerrquico, Compacto Jerrquico Dinmico y Estrellas Jerrquico Dinmico, en las dos colecciones de documentos, se muestran en la Tabla III. En esta tabla se muestran los parmetros utilizados, la cantidad de niveles de la jerarqua y la cantidad de grupos, los valores de las medidas microF1 y macroF1 y el grado de solapamiento obtenidos en el nivel tope (ltimo nivel de la jerarqua). Se evalu slo el ltimo nivel de la jerarqua para demostrar que en estos algoritmos la condicin de parada establecida permite obtener
5

VII Congreso Internacional de Informtica en la Salud

grupos de buena calidad, sin necesidad de explorar toda la jerarqua en la evaluacin. El grado de solapamiento se define como el promedio de grupos a los cuales pertenece un objeto. En la tabla se incluye, adems, el tiempo en segundos que demoraron los algoritmos en realizar el agrupamiento. Para cada algoritmo se vari el parmetro partiendo de 0.06 hasta 0.14 y en aquellos algoritmos que fue necesario, se aument o disminuy para obtener los valores ptimos de microF1 y macroF1. Es importante sealar que el objetivo de esta evaluacin no es comparar un algoritmo con otro, porque cada uno tiene aplicaciones diferentes. El algoritmo Estrellas Jerrquico se debe utilizar en los problemas en que se conozca la coleccin de objetos a agrupar y sta no cambie en el tiempo y, adems que sea necesario, por la naturaleza del problema, obtener grupos solapados. Mientras que los algoritmos Compacto Jerrquico Dinmico y Estrellas Jerrquico Dinmico resultan ms convenientes cuando la coleccin de objetos es dinmica; en el primer caso, si los grupos que se deben obtener son disjuntos, y en el otro, si son solapados. No obstante, s se puede realizar un anlisis del comportamiento de estos algoritmos en las dos colecciones de documentos seleccionadas. Algunas observaciones interesantes a partir de los resultados mostrados en la Tabla III son las siguientes:

Los tres algoritmos obtienen mejores resultados

en la coleccin afp que en la eln, lo cual quiere decir que los tpicos en afp son ms fciles de detectar. Para las dos colecciones el algoritmo que mejor detecta los tpicos es el Compacto Jerrquico Dinmico, tanto teniendo en cuenta la medida microF1 como la macroF1. El segundo que mejor los detecta es el Estrellas Jerrquico Dinmico, mientras que el Estrellas Jerrquico obtiene resultados inferiores. Los valores obtenidos de las medidas macroF1 y microF1 en los tres algoritmos y para cada coleccin, en general aumentan o disminuyen a la misma vez. Esto se debe a que los tpicos de estas colecciones manuales son bastante homogneos en cuanto a su tamao. En general, a medida que aumenta el parmetro , todos los algoritmos consumen menos tiempo. Esto ocurre porque mientras ms alto es el , hay menos conexiones en el grafo de -semejanza y, por tanto, menos datos que procesar. El algoritmo Estrellas Jerrquico es el que tarda menos en realizar el agrupamiento, pues evidentemente un algoritmo esttico consume menos tiempo que un algoritmo dinmico, el cual cada vez que llega un nuevo objeto tiene que actualizar todos los niveles de la jerarqua.

Tabla IIIII: Resultados del agrupamiento


Algoritmo Estrellas Jerrquico Compacto Jerrquico Dinmico Estrellas Jerrquico Dinmico Coleccin afp eln afp eln afp eln Beta 0.01 0.02 0.14 0.14 0.006 0.004 Cant. niveles 3 3 3 4 4 5 Cant grupos 84 794 47 94 50 102 Micro F1 0.559 0.298 0.81 0.372 0.770 0.364 Macro F1 0.602 0.279 0.757 0.402 0.696 0.371 Solapamiento 1.219 1.381 1.0 1.0 1.131 1.356 Tiempo (segundos) 81 9061 172 24975 344 47694

5. CONCLUSIONES
En este artculo se presenta un algoritmo jerrquico dinmico y solapado. Este algoritmo es capaz de procesar colecciones dinmicas y los grupos obtenidos pueden ser solapados, lo que es de inters en varias aplicaciones. Hasta el momento, no haba reportado en la literatura un algoritmo jerrquico que presentara ambas caractersticas de forma simultnea. Adems obtiene grupos de formas arbitrarias, a diferencia de otros algoritmos que requieren una medida central para obtener los grupos, por lo que
VII Congreso Internacional de Informtica en la Salud

restringen los grupos a formas esfricas. Los cubrimientos en forma de estrellas no presentan el efecto de encadenamiento que caracteriza a las componentes conexas. El nico parmetro inicial que se necesita es el valor de , por lo que es relativamente sencillo el problema de la optimizacin de los parmetros del algoritmo para una aplicacin determinada. Adems, no se fija a priori la cantidad de grupos a obtener. Permite trabajar con objetos mezclados y no impone restricciones a la funcin de semejanza entre objetos ni al espacio de representacin inicial. Puede manipular objetos de alta
6

dimensionalidad documentos.

como,

por

ejemplo,

los

Como resultado de este trabajo se recomienda que se contine esta investigacin en las siguientes direcciones: Desarrollar un algoritmo jerrquico dinmico a partir del marco general que obtenga grupos en forma de estrellas y no tenga el problema de la dependencia del orden de presentacin de los objetos. Evaluar el algoritmo implementado en este trabajo en otras colecciones estndar de documentos para realizar un anlisis ms exhaustivo de su comportamiento.

6. REFERENCIAS BIBLIOGRFICAS
[1] Gil Garca, R. Algoritmos de Agrupamiento sobre Grafos y su Paralelizacin. Tesis doctoral en Ciencia de la Computacin, Universidad Jaume I, Espaa, 2005. Bentez Snchez del Campo, A. Algoritmos de agrupamiento jerrquico. Tesis de diploma en Ciencia de la Computacin, Facultad Matemtica y Computacin, Universidad de Oriente, Santiago de Cuba, Cuba, 2007. Aslam J., Pelekhov K., and Rus D.. Static and dynamic information organization with star clusters. In Seventh International Conference on Information and Knowledge Management (CIKM), pages 208-217. ACM-Press, 1998. Raghavan V. and S.K.M. Wong. A critical analysis of vector space model for information retrieval. Journal of the American Society on Information Science, 37(5):279-287, 1986. Salton G.. Automatic Text Processing: The Transformation, Analysis and Retrieval of Information by Computer. AddisonWesley, 1989. Yang, Y. An evaluation of statistical approaches to text categorization, Technical report, Carnegie Mellon University, 1997.

[2]

[3]

[4]

[5]

[6]

VII Congreso Internacional de Informtica en la Salud

También podría gustarte