Está en la página 1de 10

1

Repblica Bolivariana de Venezuela


Universidad Bicentenario de Aragua
Ncleo San Fernando

Aplicacin bajo el enfoque de los


Algoritmos Genticos

Profesor: Integrantes:
Silvia Arana Piate Jess

Biruaca, 22 de enero de 2017

1
2

Indice

Introduccin ........................................................................................................................................ 3
Introduccin a la categorizacin de documentos ............................................................................... 4
Mtodos para categorizar documentos .............................................................................................. 4
Utilizacin de algoritmos genticos para la categorizacin automtica............................................. 5
Algoritmo propuesto ........................................................................................................................... 6
Representacin ............................................................................................................................... 6
Generacion de la poblacin inicial .................................................................................................. 6
Seleccion.......................................................................................................................................... 7
Cruza................................................................................................................................................ 7
Cruza Pasa Grupo ............................................................................................................................ 7
Mutacin ......................................................................................................................................... 8
Conclusion ........................................................................................................................................... 9
Bibliografia ........................................................................................................................................ 10

2
3

Introduccin

La materia actual, propone a los algoritmos genticos. Siendo


precisos y concisos los algoritmos genticos pueden representar de
una manera muy prctica y representativa los aspectos que
componen un sistema, cuanto ms aun los aspectos que componen
una determinada aplicacin, programa, lnea de montaje, actividad,
documentacin, etc. En fin, una infinidad de elementos que
conjugados entre s pueden lograr el culmen de una actividad.
La idea general a mi parecer de este trabajo es presentar un ejemplo
efectivo de la aplicacin de los algoritmos genticos, representados
en un sistema que pueda desarrollar una actividad cualquiera, para
tal fin propongo el ejemplo de un algoritmo gentico aplicado para
la categorizacin automtica de documentos. Tal tema ser el
contenido del trabajo que presento a continuacin.

3
4

Introduccin a la categorizacin de documentos

La categorizacin de documentos puede definirse como la tarea de separar documentos en


grupos. El criterio de agrupamiento se basa en las similitudes existentes entre ellos. La
categorizacin automtica de documentos se comenz a investigar dentro de la rama de
Recuperacin de Informacin. La hiptesis del agrupamiento sostiene que los
documentos fuertemente asociados tienden a ser relevantes para la msma consulta.
Basndose en esta hiptesis, la categorizacin automtica de documentos tiene en cuenta
el contenido de los documentos para agruparlos, ya que documentos similares contendrn
palabras (trminos) similares. Sus aplicaciones ms importantes son:
- Mejorar el rendimiento de los motores de bsqueda de informacin mediante la
categorizacin previa de todos los documentos disponibles.
- Facilitar la revisin de resultados por parte del usuario final, agrupando los resultados
luego de realizar la bsqueda.

Mtodos para categorizar documentos

Las formas de clasificacin de objetos, tales como asignar clases predeterminadas a cada
elemento agruparlos en forma significativa, son susceptibles de dividirse segn el
esquema de la siguiente figura:

Clasificaciones

No Exclusivas Exclusivas

Extrinsecas Intrinsecas

Jerarquicas Particionales

4
5

- No exclusivas: Un mismo objeto puede pertenecer a varios grupos.


- Exclusivas: Cada objeto pertenece solamente a un grupo.
- Extrnsecas (supervisadas): Las clases a las que pertenecen los objetos estn predefinidas,
y se conocen ejemplos de cada una, algunos de los objetos ya estn clasificados y son
utilizados por el algoritmo para aprender a clasificar a los dems.
- Intrnsecas (no supervisadas): La clasificacin se realiza en base a las caractersticas propias
de los objetos, sin conocimiento previo sobre las clases a las que pertenecen.
La categorizacin automtica de documentos se encuentra en la categora intrnseca, ya
que los criterios de agrupamiento se basan en la informacin contenida en los mismos para
determinar sus similitudes

Utilizacin de algoritmos genticos para la categorizacin


automtica

La aplicacin de algoritmos genticos al problema general de la categorizacin automtica


se ha investigado con inters. Sin embargo, son muy pocos los autores que los han aplicado
a la categorizacin automtica de documentos. Esto se debe a que, pese a que los
algoritmos genticos han demostrado capacidad de explorar el espacio de bsqueda amplia
y eficientemente, los resultados de las investigaciones no han dado buenos resultados al
aplicarlos a la categorizacin automtica en general, ni a la categorizacin automtica de
documentos en particular. La causa de estos fracasos radica en la aplicacin inadecuada de
los algoritmos genticos al problema. Se ha hecho notar que los algoritmos genticos no
son una solucin universal que pueda aplicarse en forma pura a cualquier problema, sino
un paradigma que debe adaptarse a los problemas concretos a los que se aplica.
Otro punto importante, ignorado por la mayora de los autores, es la posibilidad de
incorporar en los operadores del algoritmo gentico conocimiento especfico del problema
al cual se est aplicando el mismo. De esta manera, los operadores no trabajan en forma
totalmente aleatoria sobre los individuos de la poblacin, sino que tienden a realizar
cambios que apunten a buenas soluciones para el problema a resolver. Sin la aplicacin de
conocimiento especfico del problema que se est resolviendo en los operadores, es casi
imposible que el algoritmo gentico supere a los algoritmos diseados ad hoc para el
problema.

5
6

Algoritmo propuesto

En esta seccin se describe el algoritmo gentico de categorizacin automtica de


documentos propuesto. Este algoritmo presenta un nuevo operador de cruza y cuatro
nuevos operadores de mutacin diseados especficamente para el problema de la
categorizacin automtica de documentos.

Representacin

La representacin elegida fue la Numeracin de grupo. Este mtodo es el ms


frecuentemente utilizado en la literatura. La estructura del cromosoma utilizado en el
algoritmo propuesto es la siguiente:

Generacion de la poblacin inicial

Para seleccionar el mtodo de generacin de la poblacin inicial se hicieron diversas


pruebas y se extrajeron las siguientes observaciones:
- El tamao de la poblacin requerido para que el algoritmo gentico encuentre buenas
soluciones es ms chico cuanto mejores sean los agrupamientos de la poblacin inicial.
- Generar la poblacin inicial al azar es lo ms rpido, pero los agrupamientos generados
son de muy baja calidad, y lleva demasiadas generaciones al algoritmo gentico llegar a
buenas soluciones.

6
7

- Utilizando el algoritmo k-means (el ms rpido de los algoritmos conocidos que dan
soluciones aceptables) se obtienen buenas soluciones en relativamente pocas
generaciones, pero el proceso de generacin de la poblacin inicial exige demasiado tiempo
(an teniendo en cuenta que el tamao de la poblacin inicial puede reducirse), ya que el
algoritmo k-means es del orden de (n.k).
Buscando una solucin intermedia, se decidi aplicar el algoritmo k-means para generar los
agrupamientos de la poblacin inicial, pero en lugar de formar k grupos, se generan
agrupamientos de log(k) grupos. De esta forma, la generacin de la poblacin inicial lleva
tiempos del orden de (n.log(k)). El algoritmo gentico tiene operadores que se ocupan de ir
dividiendo a los grupos para llegar a soluciones que tengan k grupos, que se detallan ms
adelante.

Seleccion

Para el algoritmo propuesto se utiliza el mtodo de Torneo, por los siguientes motivos:
- Es independiente de la escala de la funcin de adaptacin
- No requiere ordenar los valores de adaptacin de cada cromosoma
- Permite regular la presin de seleccin

Cruza

Dado que ninguno de los operadores de cruza encontrados en la literatura daba solucin a
las cuestiones planteadas, se dise un nuevo operador de cruza que cumpliera con las
caractersticas buscadas.

Cruza Pasa Grupo

El operador diseado se denomina Cruza Pasa Grupo. El operador genera 2 hijos a partir
de los padres. Primero asigna un rol a cada padre para generar el primer hijo, y luego
invierte los roles para generar el otro.
El agrupamiento de uno de los padres es copiado al hijo sin modificaciones, y luego uno de
los grupos del segundo padre se pasa al hijo, reacomodando los elementos que hagan falta.

7
8

Los pasos que sigue el algoritmo para generar uno de los hijos son:
1. Crear un cromosoma con el mismo agrupamiento que el primer padre (el padre que
pasa el agrupamiento)
2. Seleccionar un grupo fuente del segundo padre (el padre que pasa el grupo)
3. Seleccionar un grupo destino en el hijo, que va a transformarse en el grupo del padre
4. Reacomodar los elementos del hijo segn sea necesario para que el grupo destino
contenga los elementos que contiene el grupo fuente.

Mutacin

Durante las pruebas realizadas se observ que los operadores de mutacin clsicos retrasaban
considerablemente la convergencia del algoritmo gentico, ya que lo obligaban a explorar regiones
del espacio de bsqueda al azar, donde la mayor parte de las veces no se encontraban mejores
soluciones. Al disear un algoritmo gentico que pueda competir en trminos de eficiencia con los
algoritmos especficos del dominio, debe sacrificarse en parte la amplitud de la exploracin,
restringindola a aquellas regiones donde es ms probable que haya buenas soluciones. Esto puede
lograrse diseando operadores de mutacin que no hagan cambios totalmente aleatorios, sino que,
de la misma forma que el operador de cruza, tiendan a hacer cambios que aumenten la calidad de
las soluciones, dejando algunas pocas decisiones libradas al azar.

8
9

Conclusion

Este trabajo propone una adaptacin de un algoritmo gentico al problema de la


categorizacin automtica de documentos.
La investigacin y los resultados obtenidos confirman que los algoritmos genticos son una
poderosa herramienta para la resolucin de problemas en los cuales el espacio de
soluciones es amplio y la funcin de optimizacin es compleja.
Se ha encontrado tambien que, tal como lo han afirmado otros autores, los algoritmos
genticos no son un mtodo de solucin universal de problemas, sino un paradigma que
debe adaptarse correctamente al problema a resolver.
El algoritmo propuesto logra resultados efectivos porque en el diseo del mismo se han
adaptado los conceptos que aplican los algoritmos genticos y se han creado nuevos
operadores especficos para el problema a resolver.

9
10

Bibliografia

Goldberg, David E. (1989). Algoritmos Geneticos En busqueda, Optimizacin and


Aprendizaje Automatico. Addison-Wesley Publishing Company, Inc.
Estivill-Castro, V. (2000). Algoritmos genticos hbridos son mejores para la
agrupacin espacial. Conferencia Internacional sobre Inteligencia Artificial.
Estivill-Castro, V. y Murray, A. (1997). Agrupamiento espacial para la minera de
datos con algoritmos genticos. FIT, Technical Report, 97-10.

10

También podría gustarte