Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Robotica Cognositiva&Aprendizaje Automatico
Robotica Cognositiva&Aprendizaje Automatico
Universidad Carlos III de Madrid, Avda. de la Universidad, 30, 28911 Leganes (Madrid). Spain
email: faberlan,dborrajo,molinag@ia.uc3m.es, ernand@grial.uc3m.es,
rmg@itba.edu.ar, masm@inf.uc3m.es
(*) Escuela de Postgrado, Instituto Tecnologico de Buenos Aires,
Madero 399, (1106) Buenos Aires, Argentina
Keywords: Aprendizaje autom
atico, robotica cognoscitiva, planicacion
El mundo real para los robots autonomos es dinamico e impredecible. Esto
causa que, para la mayor parte de los dominios, tener una teora del dominio (modelo)
perfecta de como afectan las acciones del robot al entorno es un ideal. El enfoque del grupo
de investigacion ScaLab (Laboratorio de Sistemas Complejos Adaptativos) de la Universidad
Carlos III de Madrid es la integracion de tecnicas de planicacion de tareas con distintos
metodos de aprendizaje automatico. Las metas de dichos metodos de aprendizaje varan desde
el aprendizaje de modelos del entorno para realizar planicacion reactiva, hasta la adquisicion
automatica de heursticas que controlen planicadores deliberativos. Desde la perspectiva de
planicacion, tampoco creemos que se pueda resolver el problema de la robotica autonoma
utilizando solo reaccion o deliberacion. Por tanto, muchos de nuestros enfoques estan basados
en la integracion de diferentes tipos de planicadores.
ABSTRACT.
1 Arquitectura general
Existen dos perspectivas mayoritarias entre los diferentes tipos de arquitectura para el control de robots autonomos a lo largo de los ultimos a~nos. Por un lado se encuentran aquellas
propuestas, englobadas en lo que se denomina arquitectura reactiva, que proponen la consecucion de metas complejas por parte del robot basandose unicamente en un conjunto de
reacciones simples. Estas reacciones simples reciben distintos nombres: instintos, modulos,
agentes, agencias, controladores o comportamientos.
La otra propuesta engloba aquellas arquitecturas mas clasicas dentro del campo de la Inteligencia Articial, que postulan la necesidad de tecnicas de razonamiento a mas largo plazo
sobre un modelo del mundo. Este tipo de arquitectura, con un modulo de alto nivel que
toma las decisiones a largo plazo, obliga a que el robot tenga una representacion interna del
mundo donde realiza las acciones. El proceso de razonamiento a alto nivel trabaja sobre
resultados intermedios sobre dicha representacion, siendo esta la unica manera posible de
solucionar problemas complejos.
En cualquiera de los dos casos existe una tercera perspectiva que trabaja con el problema de
la integracion de multiples robots para lograr la realizacion de metas complejas. El aspecto
cooperativo, dado un sistema multiagente de robots, aparece en los dos tipos de arquitectura
como un tercer nivel encargado de los aspectos de comunicacion. En la Figura 1 se presenta
una arquitectura que permite integrar en una sola las tres propuestas anteriormente comentadas.
La arquitectura puramente reactiva no necesita de ningun otro nivel y la actuacion nal del
robot se basa en la importancia para cada situacion de la funcion que se puede ejecutar.
Comunicacin
Agentes
Planificacin
Clasica
operadores
Planificacin
Reactiva
habilidades
plan
accin
Controlador
sensores
accin
Entorno
metas; ejecutar los planes; y aprender como afectan las acciones del robot al entorno (operadores) a partir de las desviaciones producidas al ejecutar las acciones de los planes [GarcaMartnez and Borrajo, 1997]. La arquitectura se muestra en la gura 2.
Comunicacin
Agentes
(Ci,A,Cf,P,K,U)
Aprendizaje
operadores
Planificacin
Clasica
Planificacin
Reactiva
habilidades
plan
accin
observaciones
(Si,A,Sf)
utilidades U
Controlador
sensores
accin
Entorno
umbral, se comienza a ejecutar (se ejecutan una a una las acciones del plan). El proceso
de ejecucion termina porque se consigue la meta o hay un fallo en la ejecucion (la situacion
observada por la aplicacion de una accion no cumple con las condiciones Cf del operador).
En cualquiera de los dos casos, se vuelve a repetir el proceso de planicacion y ejecucion.
Como se ha dicho anteriormente, el proceso de aprendizaje se activa con la ejecucion de cada
accion de los planes.
En [Garca-Martnez and Borrajo, 1998] se generaliza la idea a multiples agentes, permitiendo
la comunicacion de los operadores aprendidos por cada uno, de forma que se mejora el
comportamiento del sistema.
3 El Modelo VQQL
Entre las tecnicas de aprendizaje automatico aplicadas a robotica que han demostrado
mejores resultados se encuentra el aprendizaje por refuerzo, que tiene como uno de sus
principales algoritmos a Q-Learning [Watkins, 1989]. El objetivo de estos algoritmos es
aprender una poltica de accion que para cada estado del entorno identique cual es la mejor
accion a ejecutar para conseguir un objetivo. Uno de los principales inconvenientes de estas
tecnicas se produce cuando se tratan dominios continuos o de gran tama~no. Estos inconvenientes vienen dados por dos vertientes. Por un lado, los dominios de gran tama~no implican
un uso muy ineciente de la experiencia que se obtiene del entorno. Por otro lado, implican
grandes requisitos de memoria para almacenar las tablas estado-accion.
Las soluciones a este problema se engloban en las denominadas tecnicas de generalizacion [Moore,
1994, Lin, 1993], entre las que se encuentra el modelo VQQL [Fernandez et al., 1999]. Dicho
modelo, que permite adquirir habilidades en dominios continuos o de gran tama~no mediante
la obtencion de una representacion discreta y peque~na de esos dominios, se basa en dos fases
fundamentales:
Comunicacin
Planificacin
Clsica
Agentes
operadores
Planificacin
Reactiva
habilidades
estado discreto
plan
accin
Q-Learning
estado continuo
VQ
Controlador
dominio reducido
sensores
accin
dominio de
gran tamao
GLA
refuerzo
En la gura 3 se muestra como se integra este modelo en el esquema de planicacion que
se presenta en este artculo. El modulo GLA es el encargado de obtener la representacion
reducida del entorno, mientras que el modulo VQ realiza las traducciones entre los estados
del mundo real y el reducido. Q-Learning aprovecha esta representacion para generar la
tabla de estados-acciones que implementa una habilidad concreta.
dise~nador del Sistema Clasicador al jar el numero de ciclos internos. En el SCR se podra
haber adoptado una alternativa similar a esta, pero parece mucho mas logico dejar que sea
el propio aprendizaje del sistema el que determine cuando debe parar ese encadenamiento.
Para romper el encadenamiento debera ejecutarse una regla que no considerara las reglas
ejecutadas en el ciclo anterior. Para ello, es necesario que se coloque en la lista un mensaje que contenga unicamente informacion del entorno y que por lo tanto, active reglas que
unicamente consideran informacion del entorno (no de reglas que se han disparado anteriormente), rompiendo el ciclo de encadenamiento de las reglas. La arquitectura se muestra en
la gura 4.
Communication
Classic
Planning
Agents
operators
Reactive
Planning
skills
plan
action
Learning
reinforcement
Controller
sensors
action
Environment
realiza una extraccion de informacion del entorno, los ejemplos de aprendizaje, esa capacidad
de extraccion depende de la \inteligencia" del sistema que aprende.
En terminos del problema de navegacion los dos sistemas que van a evolucionar son por
un lado el controlador de movimientos del robot y por otro el entorno fsico en el que va
a desenvolverse. Como controlador se ha utilizado una red neuronal con 5 entradas que se
corresponden con cinco sensores del robot, tres de proximidad frente a objetos del entorno,
un sensor de distancia a una fuente de luz y el ultimo sensor mide el angulo de deriva del
sensor distancia a la fuente de luz. La red neuronal tiene dos salidas que se corresponden
con la velocidad instantanea que se le comunican a cada una de las dos ruedas del robot.
Encontrar los pesos de la red es el objetivo del metodo. Los pesos adecuados resuelven el
problema de navegacion, haciendo posible que el robot se mueva por un espacio cerrado
evitando chocar con los objetos, dirigiendose hacia un punto luminoso. Los entornos son
disposiciones diferentes de objetos y posiciones diferentes de partida del robot en un espacio
cerrado por el que puede moverse.
El esquema general de funcionamiento del proceso evolutivo es el siguiente [Molina et al.,
1997]:
1. Generar aleatoriamente una poblacion de controladores.
2. Para cada controlador asociar una poblacion de entornos generados la primera vez
aleatoriamente.
3. Calcular el valor de adecuacion de los controladores.
4. Calcular el valor de adecuacion de los entornos.
5. Aplicar los operadores geneticos sobre los controladores para obtener una nueva poblacion
de controladores.
6. Aplicar los operadores geneticos sobre los entornos de la poblacion asociada de un
controlador para obtener una nueva poblacion. El proceso se repite para todos los
controladores.
7. Volver al punto 3.
El proceso debera evitar dos problemas: la evolucion asimetrica de la capacidad de uno
los sistemas y la oscilacion en el proceso de aprendizaje. El primer problema se produce
cuando uno de los sistemas ha conseguido una gran capacidad, el otro sistema es incapaz
de aprender de el y es invariablemente superado. Sera necesario disponer de un mecanismo
de "involucion" que permita empeorar el sistema que ha obtenido una gran ventaja. Este
mecanismo puede producir el segundo problema, un sistema mejora signicativamente frente
a su contrario, por lo que en las sucesivas etapas involucionara, pero puede que el sistema
contrario encuentre la forma de mejorar y le supere con lo que debera involucionar y as
indenidamente. La solucion a estos problemas consiste en disponer de otro mecanismo
adicional que suaviza los saltos evolutivos.
6 Conclusiones
En este artculo se han presentado varios enfoques de aprendizaje automatico aplicado a la
planicacion y ejecucion de sistemas roboticos. Se ha pretendido realizar una exposicion
comun sirviendo de nexo de union una misma arquitectura de planicacion, ejecucion y
aprendizaje.
Referencias
[Booker et al., 1989] L. Booker, D.E. Goldberg, and J.H. Holland. Classier systems and genetic
algorithms. Articial Intelligence, pages 235{282, 1989.
[Brooks, 1991] Richard A. Brooks. Intelligence without representation. Articial Intelligence,
47:139{159, 1991.
[Fernandez et al., 1999] Fernando Fernandez, Daniel Borrajo, and Vicente Matellan. Vqql: A model to generalize in reinforcement learning. In Susanne Biundo and Maria Fox, editors, Preprints
of the Fifth European Conference on Planning, ECP'99, pages 385{386, September 1999.
[Garca-Martnez and Borrajo, 1997] Ramon Garca-Martnez and Daniel Borrajo. Planning,
learning, and executing in autonomous systems. In Sam Steel, editor, Recent Advances in AI
Planning. 4th European Conference on Planning, ECP'97, number LNAI 1348 in Lecture Notes
in Articial Intelligence, pages 208{220, Toulouse, France, September 1997. Springer-Verlag.
[Garca-Martnez and Borrajo, 1998] Ramon Garca-Martnez and Daniel Borrajo. Learning in
unknown environments by knowledge sharing. In John Demiris and Andreas Birk, editors,
Proceedings of the Seventh European Workshop on Learning Robots, EWLR'98, pages 22{32,
Edinburgh, Scotland, July 1998. University of Edinburgh Press.
[Hillis, 1992] D. Hillis. Co-evolving parasites improves simulated evolution as an optimization
procedure. Articial Life, 2, 1992.
[Lin, 1993] Long-Ji Lin. Scaling-up reinforcement learning for robot control. In Proceedings of the
Tenth International Conference on Machine Learning, pages 182{189, Amherst, MA, June 1993.
Morgan Kaufman.
[Lloyd, 1982] S. P. Lloyd. Least squares quantization in pcm. In IEEE Transactions on Information
Theory, number 28 in IT, pages 127{135, March 1982.
[Molina et al., 1997] Jose M. Molina, Araceli Sanchis, Antonio Berlanga, and Pedro Isasi-Vi~nuela.
Evolving connection weight between sensors and actuators in robots. In IEEE International
Symposium on Industrial Electronics, Portugal, 1997.
[Molina et al., 1998] Jose Manuel Molina, Carlos Sevilla, Pedro Isasi, and Araceli Sanchis. A
reactive approach to classier systems. In Proc. of IEEE International Conference on Systems,
Man and Cybernetics, San Diego, EEUU, 1998.
[Moore, 1994] Andrew W. Moore. The party-game algorithm for variable resolution reinforcement
learning in multidimensional state-spaces. In J.D. Cowan, G. Tesauro, and J. Alspector, editors,
Advances in Neural Information Processing Systems, pages 711{718, San Mateo, CA, 1994.
Morgan Kaufmann.
[Paredis, 1995] J. Paredis. Coevolutionary computation. Articial Life, 2:355{375, 1995.
[Rosin and Belew, 1997] C.D. Rosin and R.K. Belew. New methods for competitive coevolution.
Evolutionay Computation, 5(1):1{29, 1997.
[Watkins, 1989] C. J. C. H. Watkins. Learning from Delayed Rewards. PhD thesis, King's College,
Cambridge, UK, 1989.