Está en la página 1de 175

U NIVERSIDAD C ARLOS III DE M ADRID

Escuela Polit´ cnica Superior e

´ A PRENDIZAJE AUTOM ATICO EN C ONJUNTOS DE C LASIFICADORES ´ H ETEROG E NEOS Y M ODELADO DE AGENTES

T ESIS D OCTORAL

Agapito Ismael Ledezma Espino Legan´ s, 2004 e

Departamento de Inform´ tica a

Escuela Polit´ cnica Superior e Universidad Carlos III de Madrid

´ A PRENDIZAJE AUTOM ATICO EN C ONJUNTOS DE C LASIFICADORES ´ H ETEROG E NEOS Y M ODELADO DE AGENTES

AUTOR: Agapito Ismael Ledezma Espino DIRECTORES: Ricardo Aler Mur Araceli Sanchis de Miguel

Tribunal nombrado por el Mgfco. y Excmo. Sr. Rector de la Universidad Carlos III de Madrid, el d´a ......... de ............................ de 2004. ı

Presidente: D. ................................................................ Vocal: D. ................................................................ Vocal: D. ................................................................ Vocal: D. ................................................................ Secretario: D. ................................................................

Realizado el acto de defensa y lectura de la Tesis el d´a ......... de ı ......................... de 2004 en ..............................

Calificaci´ n: ................................. o

EL PRESIDENTE

LOS VOCALES

EL SECRETARIO

A mi esposa. V´ctor ı ı . Yolanda A mi t´o.

ı Ahora es cuando tengo que agradecer a las personas que de alguna forma me han ayudado a terminar lo que en estas p´ ginas se refleja. por querer ser parte de mi proyecto de vida. Araceli Sanchis y Ricardo Aler. Gracias por haber cre´do en m´ desde ı ı siempre. A mis amigos de dentro y fuera n del Departamento de Inform´ tica de la Universidad Carlos III. por permitirme formar parte de el y gracias a cuyos medios. a Yolanda. por soportar mi constante autocr´tica que en algunas ocasiones rozaba el ı pesimismo m´ s puro y por haberme ayudado a superarlo y de esa forma concluir a este trabajo. lo que era una tesis doctoral. por ser e como es.. por estar ah´ los d´as que llam´ . A mi hermano. . porque no decirlo. mi agradecimiento m´ s profundo y sabiendo que con palabras no a puedo expresar lo que siento. Leo. o o A mi mama Lety y mi viejo. por ser mis segundos padres y por sus consejos ı ı ı y soporte a lo largo de todos estos a˜ os tan lejos de casa. n Al resto de mi familia. y porque s´ lo que esto significa para ellos. mis estudios de doctorado. d´ ndole as´ el toque tr´ gico de a ı a que toda buena odisea hace alarde.Agradecimientos Odisea. A la Agencia Espa˜ ola de Cooperaci´ n Internacional. por sus consejos y por el valioso tiempo que me ha dedicado desde que decid´ hacer la tesis doctoral en el Grupo de Sistemas Complejos Adaptativos. si en aquel momento en que a a decid´ salir del pa´s hubiese sabido lo que ello implicaba. Al Departamento de Inform´ tica de la Univera ´ sidad Carlos III de Madrid. a ´ Por ultimo. por el tiempo que me han dedicado. por hacerme sentir a como en casa. por los consejos que me han dado y. ı I . ı A mis compa˜ eros de SCALAB por su apoyo. por haber financiado. A Daniel. esa es la palabra con la cual podr´a describir lo que ha sido para m´ la ı ı culminaci´ n de este trabajo. A mi t´o V´ctor y a mi t´a May. que a pesar de la distancia siempre han estado a mi lado. y por hacerme sentir ı ı e m´ s cerca de casa. A ella debo en gran medida el concluir esta tesis y espero a tenerla siempre conmigo para poder compensarla por todo lo que ha hecho por m´. a En primer lugar a mis directores de tesis. tampoco yo lo he realizado solo. en aquel peque˜ o pa´s llao n n ı mado Panam´ . Quiz´ s. aun cuando me encontraba tan lejos. experiencia y soporte ha sido posible la finalizaci´ n de esta investigaci´ n. y por haber dejado todo en Panam´ para apoyarme. Nadie me dijo hace a˜ os. me lo hubiera pensado ı ı dos veces. creo que no. n o aunque fuese en parte.. As´ como Ulises no hizo su recorrido solo.

utiliza dos niveles de aprendizaje. adem´ s de generar los clae a sificadores del conjunto a partir de distintos algoritmos de aprendizaje. El primer nivel de aprendizaje o nivel-0 utiliza los datos del dominio de manera directa. Un problema inherente a Stacking es determinar la configuraci´ n de los par´ meo a tros de aprendizaje del algoritmo. desde la manipulaci´ n de los datos de o entrada a la utilizaci´ n de meta-aprendizaje. mientras que la configuraci´ n de los par´ metros o a de Stacking encontrada. Uno de los objetivos de esta tesis doctoral es la utilizaci´ n de algoritmos gen´ tio e cos como t´ cnica de optimizaci´ n para determinar los algoritmos que deben ser e o utilizados para generar el conjunto de clasificadores. De esta manera el m´ todo que se propoa e ne es independiente del dominio. depender´ del dominio. mientras que el meta-nivel o nivel-1 utiliza datos generados a partir de los clasificadores del nivel-0. a El crecimiento del comercio electr´ nico y las aplicaciones en la World-Wideo Web ha motivado el incremento de los entornos en donde intervienen agentes. entre ellos. al igual que la configuraci´ n o ´ de los par´ metros de aprendizaje de estos. Entre los algoritmos de generaci´ n de e o conjuntos heterog´ neos se encuentra Stacking. Una de las maneras en las que se clao sifican estas t´ cnicas es por el n´ mero de algoritmos de aprendizaje diferentes que e u utilizan con el fin de generar los miembros del conjunto. aquellas t´ cnicas que utilie e zan m´ s de un algoritmo para generar los clasificadores se considera que generan a un conjunto de clasificadores heterog´ neo. Existen diversas t´ cnicas e para generar conjuntos de clasificadores. el cual. aunque existen trabajos que utilizan algoritmos representativos ı de cada tipo. Trabajo previos han o ´ determinado que no hay un n´ mero exacto de algoritmos a utilizar que sea el optiu mo para todos los dominios. Tampoco est´ perfectamente definido qu´ algoritmos a e se deber´an utilizar. proporciona II .Resumen ´ ´ Una de las areas que m´ s auge ha tenido en los ultimos a˜ os dentro del aprena n dizaje autom´ tico es aqu´ lla en donde se combinan las decisiones de clasificadores a e individuales con la finalidad de que la decisi´ n final de a qu´ clase pertenece un o e ejemplo sea realizada por un conjunto de clasificadores. Por otra parte. Estos entornos incluyen situaciones competitivas y/o colaborativas en donde el conocimiento que se posea sobre los individuos involucrados en el entorno. Aquellas t´ cnicas que e ´ utilizan un unico algoritmo para generar todos los miembros del conjunto se dice que generan un conjunto homog´ neo. qu´ y cu´ ntos algoritmos deben ser e a utilizados en la generaci´ n de los clasificadores del conjunto.

existen diversas formas de construir el modelo de un agente. Para ello se propone la utilizaci´ n de t´ cnicas de aprendizaje o e autom´ tico con el prop´ sito de llevar a cabo la tarea de modelado bas´ ndose en la a o a relaci´ n existente entre la entrada y la salida del agente. o e o Existen diversas formas de adquirir este conocimiento. Otras t´ cnicas asumen e ´ un comportamiento optimo del agente a modelar con el fin de crear un modelo de su comportamiento. Una de ellas es a trav´ s del e modelado del comportamiento de los agentes. Un segundo objetivo de esta tesis doctoral es la creaci´ n de un marco general o para el modelado de agentes bas´ ndose en la observaci´ n del comportamiento del a o agente a modelar. Algunas t´ cnicas utilizan modelos previamente construidos y su objetivo es intentar empae rejar el comportamiento observado con un modelo existente. A su vez. o .III una clara ventaja a la hora de tomar una decisi´ n sobre qu´ acci´ n llevar a cabo.

These environment include competitive and/or colaborative situations where the knowledge about other individuals involved in the environment. The proposed method is domain independent. whereas the meta-level or level-1 uses data generated by classifiers from level-0. In general. There are several ways to acquire this knowledge. One of them is by modeling the behavior of other agents. like how many classifiers. In order to do this. IV . There are many techniques that generate such ensembles. The first learning level or level-0 uses direct data from the domain. Some techniques use previously constructed models and its goal to match the observed behavior with an existing model. must be used in the generation of the ensemble of classifiers. while others use meta-learning. a second approach to model agents will be used based on the observation of other agents behavior. In this thesis. whereas heterogeneous ensembles contain classifiers generated by different algorithms. Stacking uses two levels of learning. Some manipulate the input data. provides a clear advantage when making decision about actions to perform. although there are works that use representative algorithms from each type. and which learning algorithms. a general framework that uses machine learning techniques for agent modeling is proposed. There are several ways to construct an agent’s model. Previous work have shown that there is no optimal decision for all the domains. Other techniques assume that the agent to model carries out an optimal strategy in order to create a model of its behavior. A well-known approach to generate heterogeneous ensembles is Stacking. one of the most active research areas in Machine Learning is that of ensembles of classifiers. The growth of the e-commerce and applications over the World-Wide-Web has motivated the increase of environments where agents can interact. One goal of this thesis is to use Genetic Algorithms as an optimization technique in order to determine the type and number of algorithms to be used to generate the ensemble of classifiers. Homogeneous ensembles consist of several classifiers generated by the same learning technique. An inherent problem to Stacking is to determine the right configuration of the learning parameters. ensembles can be homogeneous or heterogeneous.Abstract In the last years. as well as the configuration of the learning parameters of these algorithms. and the Genetic Algorithm will be able to adapt to particular domains. Their purpose is to combine the decisions of individual classifiers so that all classifiers in the ensemble are taken into account in order to classify new instances.

construyen para la eternidad” o .V “S´ lo los que construyen sobre ideas.Emerson - .

. . . .1. . . . II GA-Stacking 7 8 10 10 11 12 12 13 13 14 16 18 18 20 25 25 28 28 29 30 30 33 34 2. .2. . . . . . . . . . .4. . . . o 3. . . . .3. . . . 4. . . . 3. Construcci´ n de Conjuntos de Clasificadores . . . . 3. . .2. . . . . . . . . Optimizaci´ n mediante AG’s .2. . . . . . . a 3. . . . . . . . . . . . . . . 1. . . .4. . . . . . o 4. . . . . . . . . . . . o 3. .2. . . . . . . . . . . . . . . . . .3. .1. . . . . . 4. . . . . . . .1. . . . . . . . . . . . . . . a 1. . . . . . . . . . . . . . . . . Modelado de Agentes mediante Aprendizaje Autom´ tico . . . .1. . . . .4.2. . . . . . . . . . . . . . . . .1. . . . . . . . . . . .5. . . . . . .3. . . . . Introducci´ n o 1. . .3. . . . . . . . e 3. . . . . . . . Marco General: GA-Stacking . . Stacked Generalization . . . . . . . . Conjuntos de Clasificadores . . . . .2.2. .1. . . . . . . . . . . . . . . . . . . .3. Otros Par´ metros de los AG’s . . . . . . GA-Stacking 4. . . . . . . . Aprendizaje Autom´ tico . . . . . Aprendizaje No Supervisado . . . . . . . . Aprendizaje por Refuerzo . .4. . . . . . 3. . . . . . . . . . . . . VI . . . . . .4. . . . . . . Algoritmos Gen´ ticos . . . . . Objetivos de la Tesis . . . . . . . . . . . . ¿Por qu´ Funcionan los Conjuntos de Clasificadores? e 3. . . . .2. . . ı 3. . . . . Codificaci´ n de las Soluciones o 4. . . . . . . . . 3. .1. .3. . . . . . . 3. . . . Conclusiones . Evaluaci´ n del Fitness . . . . . . . . 3. . . . . . . . Definici´ n . . . . . . . . .1. . . . . . . . . . . . .´ Indice general I Introducci´ n o 1 2 3 4 5 1. . . . . . . . . . . . . . Introducci´ n o 3. o 3. . . . . . . Definici´ n . . . . Trabajos Relacionados . . . Aprendizaje Supervisado .1.1. . . . . . . . Taxonom´a Basada en Otros Criterios . . . . . . . . GA-Stacking . . .1. . a . . . .2. . . . . . Estado del Arte 3. . . . . o 3.

. . 96 a 10. . . .1. . . Resultados Experimentales . .2. . . . . . . . . . . .3. . . . . . .2. . . . . . . . 5. . . . . o 5. . . . Viabilidad de GA-Stacking . .4. Otros Enfoques en Sistemas Multiagentes 8. . .1. . .2. Par´ metros de Aprendizaje de los Algoritmos Utilizados a 5. . . . . .2. .1. . . . . . . . . . Modelado de Agentes Basado en la Observaci´ n o (MABO) . . . . . . Evaluaci´ n: MABT o 96 10. . . . . . . .4. . . . . .2. . . Enfoque cl´ sico . . . . . . . o 5. . . . . . . . . . . Conclusiones y Trabajos Futuros 6. . . . . . .´ INDICE GENERAL 5. . a ı 8. . .1. . . . . . . .1. . . M´ dulo de Construcci´ n del Modelo (MCM ) o o 9. . Modelos de Usuarios . . . . . . . . Conclusiones . . . . . 9. . . . . .2.1. . . . . . Rendimiento de GA-Stacking . . 9. . . . . Configuraci´ n Experimental . . . . . . . . . . 8. .1. . . .3. . . . . . . . Configuraci´ n Experimental . . . . . .2. . . . . . .2. .3.5. . 5. . . . M´ dulo de Razonamiento (MRA ) . . . . . . . . Evaluaci´ n o 5. . . . . M´ dulo de Etiquetado de Acciones (MEA) . . . . .3. . . . . 5. . . . . . . . . . Modelado de Agentes en Dominios Est´ ticos . . .3. . . . . . . . . . . . e 8.2. . .2. . . .3. . .1. 8. . . . . . . Conclusiones . . . . 8. . . . . . . 10. . . . . . . . . . . . . . . . . .3. ı o III Modelado de Agentes mediante Aprendizaje Autom´ tico a 75 76 78 78 79 79 81 82 84 87 88 89 90 92 93 94 7. . . .1. . . . Evitando la Sobreadaptaci´ n . . .2. . . . . . . . . . . . . . . .1. Resultados . . . . . . . . a 5. . . .1. . . .1. . . . Algoritmos de Aprendizaje . Configuraci´ n Experimental . . .3. . . Limitaciones . . . . . . . . . . . . . . Otros Par´ metros . . .1. . . . . . . . . . . . . . . . . Reconocimiento de Planes . . . . . Par´ metros de GA-Stacking . . . . .2. . . . . . . . Modelado de Agentes Basado en Trazas (MABT) . . . . Estado del Arte 8. . . . .2. . . . . . . . . . . . . . . . Resultados Experimentales . . . . . . . . . . 6.2. o 9. . . .2. . . . . . . . . . .2. .Teor´a de Juegos . . . .1. .2. . ¿Qu´ es un Agente? . . . .2. . . . . . . . . 35 35 36 40 43 47 48 50 56 59 60 61 63 71 72 73 73 6. . . . . . . . . . o . . . . . . VII . . 100 . . Resultados Preliminares . . . . . . . 9. . . . . . . . . . . . .2. 6. . o 5. . .1. . . . . Modelado de Agentes 9. 5. . . . Introducci´ n o 8. . 5. a 5. . . . . . . .2. . . . L´neas de Investigaci´ n Futuras . . . . . . . . . . . . . . . . Modelado de Agentes . . . . . . . . . . . . 96 o 10. . . . .2. . . . . . .2. . . . . . . . . .

. . . . . . . o 11. . . . . .4. o o 11. . . . Configuraciones de GA-Stacking C. . . . . . . . . . .1. . .1. . . . . . Conclusiones y Trabajos Futuros 122 12. . . . . . . o 11. . . . . . . . . Conclusiones . Configuraci´ n Experimental o 10. . . . . . 124 ı IV Conclusiones Generales 126 13. Resultados . Utilizaci´ n del Modelo . . 124 12. . Sumario . . .3. . .1. 128 A. M´ dulo de Etiquetado de Acciones . . .´ INDICE GENERAL 10.1.2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . a 10. . . . . . .2. Publicaciones . . . .1. . . Modelado Jer´ rquico . Configuraci´ n Experimental . . . Utilizaci´ n Autom´ tica del Modelo o a . . . . . . . . . . . . . . Modelado en Entornos Din´ micos . Modelado Simple . . . . Evaluaci´ n: MABO o 11. 123 12. . . . . . .2. . . . . o 10. . . . . . . . . . . . . . . . . . .1. . Limitaciones . . . . . . . . 127 13. . . . . . . . . . .3. . . . . . . . . . . . . . M´ dulo de Construcci´ n del Modelo . . . . . . . . M´ dulo de Razonamiento . . . . . 12. . . . . .3.2. . . . . o 11. . . . . . . . . . . . . . .4. . . . . . . . Detalles de la Evaluaci´ n del MABO o 142 145 157 . . . . . . . . .2. . . . . . . . . . . . . . . . 10. a .2. . . . . . . . . . 10. . . . o 11. . . . VIII 100 101 103 107 109 112 114 114 115 116 117 117 119 11. Algoritmos de Generaci´ n de Conjuntos de Clasificadores o B. .3. . . .2. . .4. . .2. . .2. . . . . . . . . . . . . . L´neas de Trabajo Futuro . . . . . . . . . . . . . . . . . . . . . . Conclusiones Generales 127 13.3. . . . . . Utilizaci´ n del Modelo Generado . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. Evoluci´ n del fitness de las soluciones comparado con la precisi´ n o o sobre el conjunto de entrenamiento y el conjunto de test para los dominios de sonar. . . . . . .3 o y comenten sus errores independientemente de las dem´ s hip´ tea o sis [30]. . . . . . . . . . . . . . . . . . . . . . .3. . . 3.1. . . . . . musk y DNA splice. . . .5. . . . o o 5. o o 5. . . asumiendo que cada hip´ tesis tiene una tasa de error de 0. . . . . .2. . .6. . . . . .4. . . . . . . . . . . . . . 44 45 46 52 52 53 IX . . . . . . . o 3.7. .1. . . . . . Codificaci´ n binaria de la configuraci´ n G A S5 SP I. Codificaci´ n binaria de un clasificador dentro de la configuraci´ n o o G A S5 CP I. . . . . . .3. . . . . . 14 15 19 21 22 26 27 30 31 32 33 40 5. . . . .4. . . . . . 5. Marco Propuesto: GA-Stacking. . . . . . Funcionamiento general de Stacking. . . . ionosphere y heart. . . . . . . . . . . . . . . . . . . . . . . . e 3. 4. . . . . . . . . . . . . . o . . Evoluci´ n del fitness de las soluciones comparado con la precisi´ n o o sobre el conjunto de entrenamiento y el conjunto de test para los dominios de dermatology. 3. . . . Proceso de clasificaci´ n de una nueva instancia en un conjunto geo nerado mediante Stacking. . . .5. .1.2. . . . . . . . . . . . . . . . . . . . . . . .6. . . . .4. . 5. o 5. . . Evoluci´ n del fitness en el dominio dermatology (mejor individuo o y promedio de los tres mejores individuos en cada generaci´ n). . Razones fundamentales por las que un conjunto de clasificadores puede funcionar [31]. . . . . Proceso de generaci´ n del conjunto mediante Stacking. . . . . . . .3. . . . . . Comparaci´ n de la evoluci´ n del fitness utilizando el mismo cono o junto de datos para entrenar y calcular el fitness (a) o distintos conjuntos (b) en el dominio Dermatology. . . . . . Proceso general de los Algoritmos Gen´ ticos. . . . . 3. . 3. . . . . . . Algoritmos Gen´ ticos: sobrecruzamiento de uno (a) y dos puntos (b). 4. 4. . . . .´ Indice de figuras 3. Probabilidad de que exactamente l (de 21) hip´ tesis cometan un o error.2. . . . e 4. . . . . . Descripci´ n de la codificaci´ n binaria del individuo. . . . 5. . . Codificaci´ n binaria de la configuraci´ n G A S5 SP II. . . . . . . . . . . . .7. o o Evaluaci´ n del fitness en GA-Stacking. . . . . . . . . . Esquema General de GA-Stacking.

. . Marcas o banderas del campo de f´ tbol dentro del simulador de la u RoboCup. .3. . . . . . . . . . 91 9. . . 92 o o 10. . . . . . .´ INDICE DE FIGURAS 5. . . . . . .106 10. . . . . . . .5 y sus par´ metros de apreno a dizaje mediante una codificaci´ n binaria.6. . .9. .8. . o X 53 54 58 67 68 69 9.5) en alcanzar el objetivo. . . . . . . . Codificaci´ n binaria de un clasificador dentro de la configuraci´ n o o G A S5 CP II. . 104 Distancia recorrida por el AGENTE A y el AGENTE B (controlado por el modelo generado utilizando C 4. Ejemplo de la representaci´ n de C 4. . . Marco general del Modelado de Agentes Basado en Trazas (MABT). Creaci´ n del M´ dulo de Etiquetado de Acciones. . . . . . . . 98 o Descripci´ n del robot utilizado en SimDai. . . . . . . . 5. . o 5. . . . . .1. . . . . . . . . . . . Situaci´ n simulada para estimar la utilidad del modelo del portero o adquirido por el atacante. Arquitectura del aprendizaje jer´ rquico. . . . . . .5. . . 144 . . . a o 5. . . . . . . . . . .1. . . . . . . 143 A. . . . . . . . . . . . . . 118 A. . . 89 9. . . 107 10.2. Algoritmo de generaci´ n de conjuntos homog´ neos Bootstrap Ago e gregating (Bagging). . . . . . . . . . . . . . . . . . . .4. Algoritmo de generaci´ n de conjuntos homog´ neos AdaBoostM1 o e (Boosting).7. . . . .1. . .1. . . . . . Tiempo consumido por el AGENTE A y el AGENTE B (controlado por el modelo generado utilizando C 4. . . . . . . . . . . . . . . . . . . . . . . . . . . C´ lculo del fitness mediante una validaci´ n cruzada de 2 carpetas. . . N´ mero de carpetas (seis o m´ s) en la validaci´ n cruzada en la que u a o se utilizan los algoritmos para generar los clasificadores de nivelbase en cada uno de los dominios utilizados. . .3. . . . .2. Marco general del Modelado de Agentes Basado en la Observaci´ n o (MABO). . . 10. . . . . . .11. . . . . . . . . . . . . . . . .12. . 98 o Validaci´ n del modelo obtenido por el AGENTE B. . . . . . . Evoluci´ n del fitness en los dominios utilizados. . . . . . . . . . . N´ mero de carpetas en la validaci´ n cruzada en la que se utilizan u o los algoritmos para generar el clasificador del meta-nivel en cada uno de los dominios utilizados. . .5) antes de alcanzar el objetivo. . . . . . .8. . . .10. . . . 5. . 10. . . . . . . . . . 102 o Mundo Bi-dimensional utilizado en SimDai. . . Registro de trazas y construcci´ n del modelo del AGENTE A. . . . 10.13. 5. . 108 10. . . .2. . 112 a 11. . . . . . . . . . . . 10. . . . . . . . . .

N´ mero medio de clasificadores base en las soluciones encontradas u por GA-Stacking. . . . . . . . . .1. . . . . . . . . . . XI 36 39 41 42 42 43 48 55 56 57 59 60 65 65 66 . . . . . . . .11. . . . . . .10. . . . . . . . . . . . . . . . . . . . . . . . . 5. . . . . Par´ metros de los algoritmos gen´ ticos. . 5. .3. . . . a e 5. . 5. . . . ’.2. .6. o 5. . . . . . o 5. . . . . . . . . . . . . . Mejora relativa de las soluciones encontradas por las distintas configuraciones de GA-Stacking. . 5. . . . . . . . . . . . .14. . .5.13. . Las entrenadas en la fila X y columna Y muestran la mejora relativa de X sobre Y en % y en n´ mero u de ganados:perdidos (de acuerdo a un 1 × 10 t-test). . . . . Resultados de la validaci´ n cruzada de 10 carpetas de las confio guraciones de Stacking encontradas por las distintas versiones de GA-Stacking. Mejora relativa en precisi´ n (en %) de las hip´ tesis encontradas o o por GA-Stacking compar´ ndolas con los distintos clasificadores ina dividuales y las t´ cnicas de clasificaci´ n de conjuntos homog´ neos e o e Bagging y Boosting y su significaci´ n estad´stica (+/− es meo ı jor/peor. . . . . . . . Resultados preliminares de la evaluaci´ n de GA-Stacking. . .) . a e 5.’ es no significativa. .12. . . . . . . . Mejora relativa en la precisi´ n (en %) de GA-Stacking al compararo lo con los otros m´ todos de generaci´ n y combinaci´ n de clasificae o o dores. . . . . . . . . 5. . . . .9. . . . . . . . . .8. . Descripci´ n de dominios utilizados. . . . . . . . . . . . . o 5. .’ significa que no hay diferencia significativa). . . Par´ metros de los algoritmos gen´ ticos. . . . . . . .4. . . Par´ metros de aprendizaje los algoritmos utilizados por GA-Stacking a para generar el conjunto de clasificadores. . .15. . . . . Tasa de acierto (en %) de los m´ todos de construcci´ n de conjuntos e o y combinaci´ n de clasificadores. . . . . . . Correspondencia entre los par´ metros de aprendizaje de los algorita mos utilizados por GA-Stacking y el gen que los representa dentro de la codificaci´ n binaria.´ Indice de tablas 5. Tasa de precisi´ n de los algoritmos de generaci´ n de conjuntos. . (+/− significa mejor/peor. . . o o 5. . . . . . . . o 5. . . . . . . . . . . . . . . .7. . o 5. . . . . . . . . . . . . . . . . . . . . . .’. . . . . . Tasa de precisi´ n de los algoritmos individuales. . . . . . . . . . . Descripci´ n de los dominios utilizados en la evaluaci´ n de GAo o Stacking. . . . . 5. . .

. Comparaci´ n de los resultados obtenidos por los individuos seleco cionados mediante G A S5 C PI con el resto de los individuos encontrados con las dem´ s configuraciones de GA-Stacking y su signifia caci´ n estad´stica (+/− es mejor/peor significativamente). . . . .4. . Comparaci´ n de los resultados obtenidos por los individuos seleco cionados mediante G A S5 S PII con el resto de los individuos encontrados con las dem´ s configuraciones de GA-Stacking y su siga nificaci´ n estad´stica (+/− es mejor/peor significativamente). . . . . . . .RULES en el proceso de generaci´ n del modelo.5. . . Evoluci´ n del fitness en los distintos dominios con cada una de las o configuraciones de GA-Stacking. . . Modelos lineales generados por M 5. . . . Atributos utilizados en la creaci´ n del CAu . o 11. . .6. . . . . . o ı B. .10. . . . Resultados obtenidos en el proceso de generaci´ n del modelo del o AGENTE A. o ı B. . . . . . . . o a B. . . 104 o ´ 10. . .3. . . . .7. . . B. . . . . . . . . . . . . . . . . . Resultados comparativos de la utilizaci´ n autom´ tica del modelo. . Comparaci´ n de los resultados obtenidos por los individuos seleco cionados mediante G A S5 S PI con el resto de los individuos encontrados con las dem´ s configuraciones de GA-Stacking y su signifia caci´ n estad´stica (+/− es mejor/peor significativamente). . 99 ´ 10. . . . . . . . . . . . El valor reflejado es el promedio de las tres ejecuciones del algoritmo sobre el conjunto de datos. . . . 106 10. . .RULES. . . Resultados de la creaci´ n de los clasificadores que forman el n´ cleo o u del MEA. . . o 11. . . . . * sin valores desconocidos. . 111 10. . . . . . . . . . . . . 11. . .2. 103 10. . . .) obtenidas T o por las distintas t´ cnicas de aprendizaje autom´ ticos utilizadas en e a la generaci´ n del modelo. . . . . . . .4. 11. . Dominios utilizados para evaluaci´ n del MABT en situaciones est´ tio a cas.9. . . . . Reglas del arbol de regresi´ n generado por M 5. . . Ejemplo de reglas generadas por C 4. . .3. Tasa de aciertos (en %) del AGENTE A y del modelo de este gene3 y la tasa de rado por el AGENTE B sobre el conjunto de datos T aciertos del modelo sobre el conjunto de datos T 3 .1. . . . . . .5. . Tasa de aciertos (en %) de C 4. . .5. . . . . . . . . .5. . . . . . .4. . . . . . . Resultados de la creaci´ n de los clasificadores que forman parte o del modelo del AGENTE A llevado a cabo por el MCM. .1. . . Resultados de comparativos de la utilizaci´ n del modelo. . . . . . asa de acierto (en % y coeficiente de correlaci´ n . . . .5 y C 4.´ INDICE DE TABLAS XII 10. . . . . . . . .3. . 105 o 10. . . . Resultados de la aplicaci´ n de M 5. .2. . . 100 10. . . . . . . . . o ı 115 117 119 120 121 146 154 154 155 . . . . . .1. 105 10. . . Intervalos de velocidad de la rueda dos (v2 ) y su equivalencia en clases discretas. . . . . . . . . . 106 o 10. . . . . .C. . . . . . .8. . . . . 113 o 11. Clase C indica clase continua. . . . . . . . .2. .C. .

Comparaci´ n de los resultados obtenidos por los individuos seleco cionados mediante G A S11 C P con el resto de los individuos encontrados con las dem´ s configuraciones de GA-Stacking y su signifia caci´ n estad´stica (+/− es mejor/peor significativamente).6. Comparaci´ n de los resultados obtenidos por los individuos seleco cionados mediante G A S5 C PII con el resto de los individuos encontrados con las dem´ s configuraciones de GA-Stacking y su siga nificaci´ n estad´stica (+/− es mejor/peor significativamente). . . . . 158 u . . . Comparaci´ n de los resultados obtenidos por los individuos seleco cionados mediante G A S11 S P con el resto de los individuos encontrados con las dem´ s configuraciones de GA-Stacking y su signifia caci´ n estad´stica (+/− es mejor/peor significativamente). . . .5. . 156 o ı B. 155 o ı B.´ INDICE DE TABLAS XIII B.7. . . . Atributos utilizados en el proceso de construcci´ n de los clasificao dores que son el n´ cleo del MEA dentro de MABO. . . . .1. 156 o ı C. .

Parte I Introducci´ n o 1 .

aunque puede esu tar oculto bajo otros t´ rminos como Data Mining. el objetivo perseguido en esta parte de la tesis doctoral es la a obtenci´ n de la configuraci´ n optima de los par´ metros del algoritmo de generao o ´ a ci´ n de conjuntos conocido como Stacked Generalization. Cabe se˜ alar que la Inteligencia e o n Artificial incluye una diversa gama de t´ cnicas capaces de resolver problemas en e entornos complejos y din´ micos. o Stacking. Es en estos entornos en donde los resolvedores de a 1 tienen que ser capaces de encontrar una soluci´ n a la situaci´ n planproblemas o o teada ya sea individualmente o mediante la colaboraci´ n con otros resolvedores o de problemas. Business Intelligence o incluso e Rob´ tica. 1 2 . raz´ n por la cual la posesi´ n de o o informaci´ n acerca de los individuos presentes en el entorno es una ventaja con o vistas a resolver la tarea asignada. es decir. e Adem´ s de generar el conjunto de clasificadores a partir de distintos algoritmos. el objetivo es aprender a Se ha elegido el nombre resolvedores de problemas como traducci´ n del t´ rmino ingl´ s problem o e e solvers. en la segunda parte se abordan situaciones en donde los resolvedores de problemas poseen la caracter´stica de ser aut´ nomos y pueden competir y/o ı o colaborar con otros resolvedores de problemas. En la primera parte de esta tesis doctoral se busca definir formas de combinar las soluciones propuestas por diferentes resolvedores de problemas. Hoy en d´a estas incursiones de la Inteligencia Artificial var´an desde las o ı ı aplicaciones industriales hasta las aplicaciones en el mundo de los negocios. pasando por el mundo acad´ mico y de investigaci´ n. Por otro lado. En m´ s detalle. El primero de los temas que aborda esta tesis doctoral se concentra en un tipo concreto de resolvedores de problemas como los son los conjuntos de clasificadores.Cap´tulo 1 ı Introducci´ n o La aplicaci´ n de la Inteligencia Artificial a la resoluci´ n de problemas es algo o o muy com´ n en la actualidad en la mayor parte de los sectores. a Stacking utiliza el concepto de meta-aprendizaje. En Stacking o se genera un conjunto de clasificadores a partir de distintos algoritmos de aprendizaje. por lo que se puede decir que es un conjunto de clasificadores heterog´ neo.

´ ´ CAPITULO 1. un agente e a ı cuyo rol es el de delantero de un equipo de f´ tbol. puede obtener el modelo de un u agente que act´ a como portero del equipo contrario bas´ ndose en observaciones de u a su comportamiento. Un problema inherente a Stacking es determinar la configuraci´ n optima de los par´ metros que intervienen en la generaci´ n del o ´ a o conjunto de clasificadores. para ambos temas. As´. El prop´ sito o de combinar clasificadores es mejorar la precisi´ n que se puede obtener utilizando o ´ un unico clasificador. Existen muchas maneras de construir un conjunto de clasificadores. utilizado ampliamente como entorno de u prueba para el desarrollo de software multiagente. m´ s a concretamente en la tarea de adquisici´ n de informaci´ n sobre los dem´ s agentes o o a presentes en el entorno de acci´ n de un determinado agente. INTRODUCCION 3 combinar las predicciones dadas por los clasificadores (resolvedores de problemas) para un ejemplo dado (problema). Bagging consa truye un grupo de clasificadores por submuestreo de los ejemplos de entrenamien- . o la propuesta para resolver el problema planteado y los resultados obtenidos. En esta tesis se propone una soluci´ n a este problema mediante la utilizaci´ n de algoritmos gen´ ticos. Comportamiento que es descrito a trav´ s de la relaci´ n exise o tente entre las entradas y salidas del agente a modelar. el delantero puede utilizar el modelo adquirido con el prop´ sito de predecir las acciones del o ´ portero y anticiparse a estas. Uno de los dominios o elegidos para validar la propuesta de modelado de agentes en esta tesis doctoral es el simulador de f´ tbol de la RoboCup. En la Parte III se presenta o ´ a una propuesta para llevar a cabo la tarea del modelado de agentes mediante t´ cnicas e de aprendizaje autom´ tico (MABT y MABO). Posteriormente. el estado de la cuesti´ n. En este documento se describen. pero las m´ s utilizadas son Bagging [12]. GA-Stacking ´ Una de las areas de investigaci´ n dentro del aprendizaje autom´ tico que m´ s se o a a ´ ha desarrollado en los ultimos a˜ os son los conjuntos de clasificadores.1. En la Parte II se detalla la aplicaci´ n de algoritmos gen´ ticos para encontrar la combinao e ci´ n optima de par´ metros de Stacking (GA-Stacking). Boosting [116] y Stacking [145]. o 1. o o e El segundo tema de la tesis se enmarca dentro de los sistemas de agentes. a A continuaci´ n se describen en m´ s detalle ambos temas para una mejor como a prensi´ n del resto del documento. entre ellos. Se asume que cada agente puede ser visto como un sistema entrada/salida que puede ser modelado mediante t´ cnicas de aprendizaje autom´ tico. Un conjunn to de clasificadores es un grupo de clasificadores cuyas decisiones individuales son combinadas de alguna manera para clasificar nuevos ejemplos [30]. el n´ mero y tipo de algoritmos que han de u utilizarse en los dos niveles de aprendizaje que posee Stacking.

estrategias de comunicaci´ n. qu´ algoritmo puede ser e utilizado para generar el clasificador de alto nivel y cu´ les utilizar para los de bajo a nivel. es el que lleva a cabo la e clasificaci´ n de un nuevo ejemplo. como por ejemplo. existen muchos tipos de conocimientos que podr´an ser adquiridos con ı el prop´ sito de construir tales sistemas. En el caso de la tecnolog´a basada ı en agentes. Por otra parte. d´ nde y c´ mo o o o extraer conocimiento para construir un sistema. esta tesis docı toral se centra en el proceso de adquisici´ n de conocimiento. Una manera o ı de resolver este problema es adquirir dicho conocimiento manualmente a partir de expertos u otras fuentes de conocimiento. clasificadores generados a partir e del mismo algoritmo de aprendizaje. en cada repetici´ n se genera un clasificador enfocado en las instancias que han o sido tratadas incorrectamente por el clasificador previo. o heur´sticas de razonamiento. Bagging y Boosting generan clasificadores homog´ neos. 123]. como el modelo interno. Por otra parte. estas son combinadas mediante votos. Ambos.´ ´ CAPITULO 1. Boosting tambi´ n utiliza un sise tema de votos para combinar los clasificadores pero en lugar de submuestrear los ejemplos de entrenamiento. es decir. En el enfoque presentado en esta tesis doctoral se plantea esta tarea como un problema de optimizaci´ n para la cual se propone la aplicaci´ n de algoritmos o o gen´ ticos con la finalidad de obtener la configuraci´ n ideal de los par´ metros de e o a aprendizaje de Stacking. 1. Uno de los problemas de Stacking. modelo de otros o agentes. experimentaci´ n con el entorno [15. observaci´ n del comporo o . otras aproximaciones consisten en el aprendizaje autom´ tico de estos modelos mediante el an´ lisis de casos a a pasados [85]. Despu´ s de que las diferentes hip´ tesis son o e o ´ generadas. El enfoque utilizado por Stacking est´ basado en la teor´a de a ı que diferentes algoritmos de aprendizaje aplican diferentes heur´sticas llevando a ı ´ cabo b´ squedas en distintas areas del espacio de hip´ tesis para obtener resultados u o diversos. INTRODUCCION 4 to para generar diferentes hip´ tesis. Modelado de Agentes mediante Aprendizaje Autom´ tico a El desarrollo de software basado en agentes sufre problemas an´ logos a otras a metodolog´as de desarrollo de software o paradigmas. esto es. El conjunto de clasificadores formado por clasificadores heterog´ neos en dos niveles. es determinar la configuraci´ n de los par´ meo a ´ tros de aprendizaje que utiliza este. Stacking genera clasificadores a partir de diferentes algoritmos de aprendizaje siguiendo un proceso similar a la validaci´ n cruzada y utiliza un clasificador en un nivel superior (alto nivel) para o combinar los clasificadores generados (bajo nivel). o Se sabe que no existe un algoritmo de aprendizaje que sea el mejor en todas las tareas de aprendizaje. genera las hip´ tesis dando un peso a cada instancia de o entrenamiento y ajustando este peso de acuerdo a su importancia. De esta manera. En concreto.2.

Objetivos de la Tesis ´ Tal y como se plante´ en la secci´ n anterior. Por esta raz´ n se detallan los e a o objetivos relacionados con cada uno de los temas por separado. ı o los algoritmos gen´ ticos han demostrado su utilidad como t´ cnica de optimizaci´ n e e o en una amplia gama de dominios. Este algoritmo combina clasificadores generados e a a partir de distintos algoritmos de aprendizaje con la finalidad de aprovechar las heur´sticas de cada algoritmo al buscar en el espacio de hip´ tesis. tareas de clasificaci´ n. esta tesis doctoral abarca dos areas o o de evidente inter´ s dentro del aprendizaje autom´ tico. juegos de o o dos oponentes de suma-cero con conocimiento perfecto (e. Como primera aproximaci´ n. e Evaluaci´ n de la utilizaci´ n de algoritmos gen´ ticos en la configuraci´ n de o o e o los par´ metros de Stacking. Stacking es uno de los algoritmos de generaci´ n de conjuntos de clasificadoo res heterog´ neos m´ s utilizados. capacidades o emociones de otro agente. o compartiendo el conocimiento adquirido entre los agentes [51. El enfoque propuesto se basa en el aprendizaje de estos modelos a partir de la observaci´ n del comportamiento de otros agentes sin conocimiento de su estructura o interna. pero la soluci´ n (salida) dada para unos valores dados correspondientes a un grupo o ´ de atributos (entradas) es una unica alternativa de un conjunto predeterminado de alternativas. tareas de predicci´ n. Uno de los objetivos generales que persigue esta tesis es dise˜ ar un m´ todo n e capaz de determinar la configuraci´ n ideal de los par´ metros de aprendizaje invoo a lucrados en la utilizaci´ n de Stacking mediante algoritmos gen´ ticos. se citan a continuaci´ n los objetivos espec´ficos que se deben o ı cumplir: Desarrollo de una codificaci´ n del problema para la aplicaci´ n de los algoo o ritmos gen´ ticos. En esta tesis doctoral se propone un esquema para la adquisici´ n de uno de o los tipos de conocimiento que se ha mencionado con anterioridad: la descripci´ n o y codificaci´ n del modelo de otros agentes. e Determinaci´ n de una funci´ n de evaluaci´ n de las soluciones generadas por o o o los algoritmos gen´ ticos. 129]. [81] el modelado o u de agentes se puede definir como el modelado y razonamiento acerca de las metas. Seg´ n Kitano et al. el proceso de razonamiento puede ser complicado.´ ´ CAPITULO 1. planes.g. se han seleccionado tareas de razonamiento o de un-paso. Para lograr o e este objetivo general.3. conocimientos. ajedrez o damas) o tareas de diagn´ stico. INTRODUCCION 5 tamiento de otros agentes [138]. En estas tareas. a . Por otra parte. Por ejemplo. o 1.

o e • Definici´ n de t´ cnicas de almacenamiento de los datos. tanto en el proceso realizado o e a para adquirir el modelo. a o • Definici´ n de t´ cnicas de representaci´ n y almacenamiento de los moo e o delos adquiridos de tal forma que puedan ser utilizados con posterioridad. o Con el prop´ sito de alcanzar el objetivo general propuesto. Para o e o ello. Estos datos son necesarios para construir el moa delo propiamente dicho. La adquisici´ n de este modelo est´ basada en la observaci´ n de las o a o acciones que realiza el agente que es objeto del modelado. INTRODUCCION 6 La capacidad de poder crear un modelo del agente o agentes con los que se est´ interactuando proporciona informaci´ n que resulta de mucha importancia a la a o hora de tomar una decisi´ n sobre que acci´ n llevar a cabo. • Definici´ n de t´ cnicas de preprocesado de los datos. es el desarrollo de un marco que permita a un agente tomar decisiones en presencia de otros agentes. utilizando para ello. se deber´ n definir t´ cnicas capaces de utilizar la salida dada por los a e modelos de los agentes. Por otra parte. el modelo del comportamiento de otro agente. en cuanto al modelado de agentes se refiere. Para ello se propone la utilizaci´ n de t´ cnicas de aprendizaje autom´ tico.´ ´ CAPITULO 1. Los subobjetivos son: o • Definici´ n de las distintas t´ cnicas de aprendizaje autom´ tico y par´ meo e a a tros que se utilizar´ n para la construcci´ n del modelo de otros agentes. Desarrollo de un m´ todo de adquisici´ n de datos para el modelado de agene o tes en entornos din´ micos. Sin estas t´ cnicas la decisi´ n habr´a que tomarla sin e o ı tener en cuenta la predicci´ n sobre lo que va a hacer el otro agente. las t´ cnio o e cas de aprendizaje autom´ tico son ampliamente utilizadas en entornos en donde a intervienen agentes. como en la fase de utilizaci´ n del mismo. o . entre otras cosas. Definici´ n de un m´ todo de razonamiento que utilice los modelos de los o e agentes adquiridos para tomar una decisi´ n sobre qu´ acci´ n realizar. o e Desarrollo de un marco basado en aprendizaje autom´ tico para crear un moa delo de otros agentes basado en la informaci´ n obtenida por el m´ todo de o e adquisici´ n de datos. se plantean una o serie de objetivos espec´ficos que se detallan a continuaci´ n: ı o Desarrollo de un marco conceptual que permita llevar a cabo la tarea del modelado de un agente y la utilizaci´ n de este modelo en el proceso de toma o de decisiones. Los subobjetivos de este objetivo son: • Definici´ n de t´ cnicas para la adquisici´ n de datos relacionados con o e o las acciones llevadas a cabo por los agentes a modelar. El objetivo general.

Parte II

GA-Stacking

7

Cap´tulo 2 ı

Introducci´ n o
En una reuni´ n de la junta de una gran empresa directiva se debe tomar una de o ´ las decisiones m´ s importantes de los ultimos a˜ os para la empresa: se est´ debaa n a ´ tiendo la posible ampliaci´ n de capital de acuerdo a los ultimos datos de mercado o y al comportamiento de la econom´a global. Es necesario que esta decisi´ n sea meı o ditada lo suficiente porque una decisi´ n err´ nea conllevar´a importantes p´ rdidas. o o ı e Dada la importancia de esta medida, la decisi´ n no puede recaer s´ lo en el presio o dente de la empresa, sino que es importante que todos los miembros de la junta ´ directiva, bas´ ndose en su experiencia y area de trabajo, den su opini´ n al respeca o to, con el prop´ sito de tomar en conjunto la decisi´ n adecuada. Este ejemplo hila o o con la necesidad que surge dentro del aprendizaje autom´ tico de sistemas que sean a capaces de tomar decisiones en conjunto valorando la aportaci´ n de distintos siso temas de aprendizaje, incluso decidiendo cu´ l de ellos resulta m´ s adecuado para a a ´ cada caso. As´ una de las areas que despierta mayor inter´ s dentro del aprendizaı e je autom´ tico es la combinaci´ n de clasificadores con la finalidad de incrementar a o la precisi´ n en la clasificaci´ n [30]. Este enfoque es conocido como conjuntos de o o clasificadores. La idea principal detr´ s de los conjuntos, es que a menudo, estos a son mucho m´ s precisos que cualquiera de los clasificadores que forman parte de a ´ este. ´ La mayor´a de las investigaciones dentro del area de conjunto de clasificadores ı se centra, generalmente, en la generaci´ n de clasificadores a partir de la aplicaci´ n o o ´ de un unico algoritmo de aprendizaje [31]. Estos clasificadores son denominados clasificadores homog´ neos. Existen varios m´ todos utilizados en la generaci´ n de e e o los clasificadores homog´ neos que forman el conjunto. Estos m´ todos se pueden e e agrupar en aqu´ llos que llevan a cabo un submuestreo de los ejemplos de entree namiento (e.g. Bagging [12] y Boosting [48]), los que manipulan los atributos de entrada para generar distintos datos de entrenamiento [20], los que manipulan la salida esperada (e.g. ECOC [33]) y aqu´ llos que mediante la incorporaci´ n de e o aleatoriedad en el algoritmo de aprendizaje [84] generan los clasificadores del conjunto. Una vez que han sido generados los clasificadores, estos son combinados, en 8

´ ´ CAPITULO 2. INTRODUCCION

9

la mayor´a de los casos por un mecanismo de voto mayoritario o mediante votos ı con peso asignado. ´ Otras investigaciones dentro del area de conjuntos de clasificadores aplican diferentes algoritmos de aprendizaje sobre el conjunto de datos para generar los clasificadores (heterog´ neos) que forman parte del conjunto. Un ejemplo repree sentativo de este tipo de t´ cnicas es la conocida como Stacked Generalization o e Stacking [145]. Una vez que han sido generados los clasificadores del conjunto a partir de algoritmos de aprendizaje distintos, Stacking utiliza lo que se conoce ´ como meta-aprendizaje para combinar las decisiones de estos. En otras palabras, Stacking plantea una tarea de aprendizaje de nivel superior, en donde se utiliza un algoritmo para aprender de qu´ manera combinar las salidas de los clasificadores e de nivel base. El trabajo realizado en esta tesis doctoral se centra en este m´ todo e de generaci´ n de conjuntos. o Uno de los problemas inherentes a Stacking es la obtenci´ n de la combinaci´ n o o adecuada de los par´ metros del algoritmo (i.e. los clasificadores de nivel-base, tipo a de datos del meta-nivel y el meta-clasificador) dado a un conjunto de datos espec´fiı co. Si el n´ mero de clasificadores y algoritmos que se pueden utilizar para generar u estos es peque˜ o, este problema se puede resolver por un m´ todo simple en tiemn e po razonable (i.e. b´ squeda exhaustiva). Pero, cuando el espacio de b´ squeda es u u grande, la b´ squeda de la configuraci´ n optima de Stacking puede resultar dif´cil. u o ´ ı En el enfoque que se presenta en esta tesis doctoral, se plantea este problema como una tarea de optimizaci´ n. Se propone la utilizaci´ n de t´ cnicas de optimizaci´ n o o e o basadas en b´ squeda heur´stica para resolverla. M´ s precisamente, se propone la u ı a aplicaci´ n de algoritmos gen´ ticos [63] para obtener autom´ ticamente la configuo e a raci´ n ideal de los par´ metros de Stacking. o a Con la finalidad de dar una visi´ n general del tema que se trata en esta tesis o doctoral, en el cap´tulo 3 se da una panor´ mica general del estado del arte. En el ı a cap´tulo 4 se presenta la propuesta de esta tesis doctoral en lo referente a los conı juntos de clasificadores. En el cap´tulo 5 se muestra la evaluaci´ n de la propuesta ı o presentada. Finalmente, en el cap´tulo 6 se presentan las conclusiones y trabajos ı futuros.

Mitchell [97] se˜ ala que “un programa de ordenador se dice que aprende de n la experiencia E con respecto a una cierta clase de tarea T y medida de funcionamiento P . se muestran los ultimos avances relacionados con esta a t´ cnica. utilizando la experiencia sean capaces de mejorar autom´ ticamente su rena dimiento. Por ultimo. En la secci´ n 3. En e cambio. se da una idea general de las t´ cnicas utilizadas. se presentan algunas conclusiones derivada de los puntos abordados. en esta teo sis doctoral no se pretenden detallar todas las t´ cnicas y enfoques que abarca. la inteligencia artificial.4 se presentan los algoritmos gen´ ticos.2 se desarrolla el a ı o concepto de conjuntos de clasificadores tomando en cuenta aspectos como la definici´ n. si su funcionamiento en la tarea T seg´ n lo medido por P .Cap´tulo 3 ı Estado del Arte ´ El objetivo de este cap´tulo es brindar una visi´ n general del area en la cual se ı o enmarca esta parte de la tesis doctoral.1. Aprendizaje Autom´ tico a En general.5. En la secci´ n 3.” Debido a la amplitud y variedad de este campo de investigaci´ n. En primera instancia y a manera de introducci´ n en la secci´ n 3. Este campo ha recibido la influencia de otros muchos campos como la estad´stica. en o la secci´ n 3. entre ı ı ı o otros. t´ cnica de optimie o e e ´ zaci´ n utilizada en el planteamiento propuesto en esta tesis doctoral. Adem´ s.1 se hace una breve descripci´ n del concepto de Aprendio o o zaje Autom´ tico y su taxonom´a. mejora con u la experiencia E. Posteriormente. el aprendizaje autom´ tico trata de la construcci´ n de programas a o que.3 o e o o se presenta la t´ cnica de generaci´ n de conjuntos heterog´ neos conocida como e o e Stacked Generalization o Stacking la cual sirve de base del enfoque propuesto en ´ esta tesis doctoral. Dependiendo del tipo de e 10 . en la secci´ n 3. razones de su eficiencia y las t´ cnicas de construcci´ n. o 3. la biolog´a y la teor´a de la informaci´ n.

los valores de xi son vectores de la forma o (xi . (xm . Los atributos que forman parte de la instancia pueden ser categ´ ricos o nominales y num´ ricos. . . el algoritmo compara su salida actual con la etiqueta del ejemplo para luego realizar los cambios que sean necesarios. ym ). etc. . xi . . ESTADO DEL ARTE 11 realimentaci´ n. Para validar o o este clasificador.j ) se refiere a cada caracter´stica (atributo) de (xi ) y n es el n´ mero ı u total de atributos de la instancia. predecir el tiempo.1. . . Si estos valores e pertenecen a un n´ mero definido de clases {1. . Peso y Edad pueden ser num´ ricos y. o o se utiliza un conjunto de instancias para que el algoritmo de aprendizaje construya un clasificador. Por otro lado.1 . Por ejemplo. ym )} para descubrir una funci´ n desconocida y = f (x). se utiliza un conjunto de instancias que no se ha utilizado para construir el clasificador. a A la hora de evaluar la precisi´ n de un clasificador se utiliza el conjunto de test o sobre el cual se obtiene una precisi´ n de clasificaci´ n que es calculada bas´ ndose o o a . Un clasificador es una hip´ tesis sobre la funci´ n real f . es decir. . . K} se dice que es una tarea de u clasificaci´ n y si el valor de y es continuo la tarea es una regresi´ n. De esta forma en el proceso de aprendizaje. n e pueden ser llamados continuos. secuencias en la cadena de ADN. El conjunto de los posibles valores de y se conoce como espacio de salida. . Este conjunto recibe el nombre de conjunto de prueba o test.2 . Los valores de y pueden ser tambi´ n nominales o continuos. generalmente. aprendizaje no supervisado y aprendizaje por refuerzo.1. cuando se lleva a cabo una tarea de clasificaci´ n o de regresi´ n. 3. xi . Ejemplos de una tarea de clasificaci´ n pueden ser: predecir si un paciente pueo de tener c´ ncer o no. se puede clasificar el tipo de aprendizaje en tres grupos: aprendio zaje supervisado. Cuando a un programa de aprendizaje se le pasan un conjunto de ejemplos {(x1 . Aprendizaje Supervisado El aprendizaje supervisado consiste en un tipo de aprendizaje autom´ tico en a donde al algoritmo que se utiliza se le proporcionan una serie de ejemplos con sus correspondientes etiquetas. los valoo res de los atributos Tama˜ o. en consecuencia. o o El conjunto de todos los posibles valores que pueden tomar los atributos de x se conoce como espacio de instancias o espacio de entrada. Este conjunto de ejemplos es llamado conjunto de entrenamiento o aprendizaje.´ CAPITULO 3. . que todos los ejemplos han sido clasificados “a priori”. el atributo Sexo es o e categ´ rico con sus posible valores (Masculino o Femenino).n ) donde (xi . Generalmente. En el caso del aprendizaje supervisado cada ejemplo (a menudo llamado instancia) dentro del conjunto de aprendizaje se puede expresar mediante la forma atributo-valor o mediante relaciones. .

o FOIL [109] y PROGOL [98] son ejemplos de sistemas que utilizan la representaci´ n relacional.1.2. K-Medias [91] y los Sistemas Clasificadores [89]. con clase desconocida. el algoritmo utilizado recibe las entradas y una evaluaci´ n (en forma de recompensa. Entre los algoritmos de aprendizaje por refuerzo se pueden mencionar Q-learning [140.1. 141] y ARTDP (Adaptative Real Time Dynamic Programming) [3]. y utilizar un clasificador o m´ todo para obtener la e clase de dicho ejemplo. Al medir la precisi´ n de un clasificador se puede utilizar tambi´ n la tasa de o e error que es el complemento de la precisi´ n de clasificaci´ n. Aprendizaje No Supervisado A diferencia del aprendizaje supervisado en este tipo de aprendizaje no se conoce “a priori” el atributo dependiente. como e los basados en regresi´ n (M5 [106]) y en probabilidades (Naive Bayes [77]). Ejemplos de este tipo de aprendizaje son los algoritmos de agrupamiento o clustering entre los que se pueden se˜ alar COBn WEB [45]. de acuerdo al tipo de representaci´ n de los o datos de entrada. 3. EM [28]. Entre los alo o ´ goritmos simb´ licos se pueden destacar los arboles de decisi´ n (e. o Dentro del grupo de algoritmos que utilizan la representaci´ n de atributo-valor o existen a su vez dos grupos: algoritmos simb´ licos y subsimb´ licos.´ CAPITULO 3.g. o o C 4. . ID 3 [105]. o 3.5 [110]). Ejemplos de aprendizaje subsimb´ lico son las redes de neuronas [62] y los algoritmos gen´ tio e ´ cos [63] (cuando estos se utilizan como t´ cnica de clasificaci´ n). y los sistemas basados en reglas (AQ [94] y PART [47]). Adem´ s de los e o a ejemplos mencionados anteriormente existen algoritmos del tipo num´ rico. que puede venir retardada en el tiempo) de o tal manera que el algoritmo debe aprender qu´ acci´ n es la que brinda mayor rene o dimiento a largo plazo. Aprendizaje por Refuerzo En el aprendizaje por refuerzo. o o La tarea de clasificaci´ n se puede definir como tomar como entrada un ejemplo o nuevo. se puede hacer una clasificaci´ n en dos grupos: los representados o en la forma atributo-valor y los que est´ n representados en forma de relaciones a (utilizan l´ gica de primer orden). Dentro del aprendizaje supervisado. ESTADO DEL ARTE 12 en los ejemplos del conjunto de test que el clasificador ha clasificado correctamente.3.

consid´ rese un ejemplo en donde se e tienen tres clasificadores: h1 .2. h2 . o Una vez construida la representaci´ n. que no cometen los mismos errores. Por otra parte. 49. 3. n ı Seg´ n Dietterich [30]. Para que un conjunto de clasificadores mejore la precisi´ n de cualquiera de los o miembros que lo componen. 12. se puede construir una representaci´ n de dichos conceptos. si los errores que cometen sobre los datos de entrada no est´ n correlados. Conjuntos de Clasificadores En este punto se presentan los sistemas en los que se enmarca parte de la presente tesis doctoral. Taxonom´a Basada en Otros Criterios ı Otro tipo de clasificaci´ n de las t´ cnicas de aprendizaje autom´ tico es la que o e a clasifica dicho aprendizaje como aprendizaje inductivo y aprendizaje deductivo. principalmente. Cabe se˜ alar que Stacking se apartado espec´fico. 32. habitualmente. En una . 108]. los conjuntos de clasificadores mejoran la precisi´ n de cualquiera de los clasificadores o ´ individuales que forme parte de este [4. el aprendizaje deductivo utiliza. Algoritmos que se clasifican como inductivos son los que se han mencionado hasta este punto dentro de la clasificaci´ n de o aprendizaje autom´ tico.1. es decir. h3 y una nueva instancia a clasificar x. es una condici´ n necesaria y suficiente que los clasio ficadores sean a su vez precisos y diversos [61]. ESTADO DEL ARTE 13 3. de tal forma que su objetivo principal es hacer u operativo el conocimiento que posee el sistema y no generar conocimiento nuevo. esta puede ser utilizada para realizar predico ´ ciones sobre nuevas instancias. a Por el contrario. Se considera que un clasificador es preciso si el error que comete es menor que el que se podr´a obtener eligiendo ı aleatoriamente una clase de entre las clases disponibles. utilizando esencialmente el conocimiento obtenido a partir de los ejemplos disponibles. a Con el prop´ sito de apreciar la necesidad de que los clasificadores que formen o parte del conjunto sean precisos y diversos. asumiendo que existe un concepto o conceptos en los que se encuadran dichos ejemplos.4. se considera que dos clasificadores son diversos. La idea principal del aprendizaje inductivo es que a partir de un n´ mero elevado u de ejemplos. que demuestran que. conocimiento del dominio y alg´ n ejemplo.´ CAPITULO 3. El tipo de aprendizaje deductivo m´ s estudiado es el Aprendizaje Basado en la a Explicaci´ n (EBL) [95] o Existen otro grupo de algoritmos capaces de combinar el aprendizaje inductivo con el deductivo como son KBANN [134] y HAMLET [8]. un conjunto de clasificadores es un grupo de clasificau dores cuyas decisiones individuales se combinan de alguna manera (generalmente mediante votos) con la finalidad de clasificar nuevos ejemplos. Son diversos y nu´ merosos los estudios realizados en el area.

en cuyo e ı caso utilizando el voto mayoritario. ¿Por qu´ Funcionan los Conjuntos de Clasificadores? e Existen. cada una de ellas con una tasa de error del 0.00 0 5 10 clasificadores errados 15 20 Figura 3. asumieno do que cada hip´ tesis tiene una tasa de error de 0.10 0.1 se muestra un hipot´ tico conjunto o e e ´ formado por 21 hip´ tesis. Estas razones son: Estad´stica: un algoritmo de aprendizaje se puede ver como una b´ squeda en ı u un espacio de hip´ tesis. a o 3. Si el conjunto de datos que se posee es demasiado peque˜ o n en comparaci´ n con el espacio de hip´ tesis.3. En la Figura 3. El area o bajo la curva en donde 11 o m´ s hip´ tesis est´ n simult´ neamente erradas es 0. si la tasa de error de L hip´ tesis hl son todas iguales a p < 1/2 a o y los errores que comenten son independientes. la instancia x ser´a clasificada correctamente.16 0. o e a Por otra parte. e ´ viene dada por el area bajo la curva de una distribuci´ n binomial en donde m´ s o a de L/2 hip´ tesis est´ n erradas. h2 (x) y h3 (x) podr´an ser correctos.12 0. si los errores que cometen los clasificadores no est´ n correlados.18 0.04 0. ı Precisando m´ s. con la finalidad de identificar la mejor hip´ tesis o o en dicho espacio. Si o o ı los datos disponibles no son suficientes.3 y comenten sus errores independienteo mente de las dem´ s hip´ tesis [30]. el algoritmo de aprendizaje puede . tres razones fundamentales por las cuales se u pueden encontrar buenos conjuntos de clasificadores.1: Probabilidad de que exactamente l (de 21) hip´ tesis cometan un error.06 0. h2 (x) y h3 (x) tambi´ n estar´ n errados.026. o 0. a o e a que es mucho menor que la tasa de error individual de las hip´ tesis [30]. es decir. la probabilidad de que utilizando el voto mayoritario para combinar las decisiones de los clasificadores est´ errada. a en el caso que h1 (x) est´ errado.14 probabilidad 0. o e se da el caso de que si h1 (x) es err´ neo. seg´ n Dietterich [31].02 0.08 0. ESTADO DEL ARTE 14 situaci´ n en la que los tres clasificadores no sean diversos. sean id´ nticos.1.2.20 0.´ CAPITULO 3. surge el problema estad´stico. H.

2 parte superior derecha). disminuye el riesgo de seleccionar un clasificador que devuelva una hip´ tesis err´ nea.2 (parte superior izquierda) se representa gr´ ficamente esta situaa ci´ n. Computacional: en los casos en los que los datos de entrenamiento son suficientes. y f representa la o o hip´ tesis real. se puede obtener una buena aproximaci´ n de f . se puede presentar otro ı problema de tipo computacional. y por ende no existe el problema estad´stico. si se promedian las hip´ tesis dentro o o de la curva interior. la curva o o a interior representa las hip´ tesis con una precisi´ n buena. Por ejemplo. Como se puede apreciar. El espacio de hip´ tesis est´ representado por la curva exterior. ESTADO DEL ARTE 15 encontrar una gran cantidad hip´ tesis dentro de H con igual precisi´ n soo o bre los datos disponibles. el entrenamiento optimo para las redes ´ de neuronas y los arboles de decisi´ n es un problema NP-completo [7. o .2: Razones fundamentales por las que un conjunto de clasificadores puede funcionar [31]. Por esta raz´ n puede ser coma o putacionalmente dif´cil que el algoritmo encuentre la mejor hip´ tesis para un ı o ´ conjunto de datos dado. en vez de utilizar cualquiera de las o o hip´ tesis generadas (Figura 3. 71]. se puede obtener una o mejor aproximaci´ n a la hip´ tesis real. Si estos clasificadores se combinan.´ CAPITULO 3. Este problema se da debido a que muchos algoritmos de aprendizaje funcionan llevando a cabo b´ squedas locales que u pueden quedar atrapadas en m´ ximos locales. o Si se llevan a cabo una serie de b´ squedas locales con puntos de partida diu ferentes para obtener hip´ tesis que luego se combinan. o Estadística H h2 Computacional H h1 f h4 h3 h1 f h2 h3 Representacional h1 h2 f h3 H Figura 3. En o o la figura 3.

Este m´ todo es aplicable en tareas de aprendizaje en donde se pueden enue merar todas las hip´ tesis hl y calcular su probabilidad “a posteriori”. El algoo ritmo de aprendizaje. Esta t´ cnica se basa en el submuestreo e con reemplazo del conjunto de entrenamiento para generar un grupo diferente de hip´ tesis. Una manera de generar o conjuntos de clasificadores es a partir de la manipulaci´ n de los ejemplos o de entrenamiento con la finalidad de obtener diferentes hip´ tesis.2 % de las instancias del conjunto original de las cuales existen instancias que se repiten m´ ltiples veces. utilizando cada muestra obtenida como conjunto de entrenao miento. 3. en promeu a dio. es posible que se aumente el espacio o de posibles funciones representables y con ellas las hip´ tesis que se pueden o representar y. El voto o bayesiano trata sobre todo el componente estad´stico de conjuntos. ESTADO DEL ARTE 16 Representacional: en la mayor´a de las aplicaciones de aprendizaje autom´ tiı a co la funci´ n real. las redes de neuronas o artificiales y los algoritmos de inducci´ n de reglas. los arboles de decisi´ n. de esta manera se podr´a aproximar mejor la funci´ n real (f ) ı o (Figura 3. Dietterich [31] los clasifica en: Voto bayesiano: enumeraci´ n de hip´ tesis. puede no ser representada por ninguna de las hip´ tesis o o en H.2 parte inferior). Cada una de las muestras (bootstrap replicates) contiene el mismo n´ mero de instancias que el conjunto original. suelen e o a ser muy estables. Dentro de los m´ todos que manipulan los ejemplos de entrenamiento para e generar los clasificadores. se ejecuta repetidamente utilizando un conjunto distinto de instancias de entrenamiento cada vez. Por ejemplo.´ CAPITULO 3. ı Manipulaci´ n de los ejemplos de entrenamiento. f . un 63. el m´ s sencillo es conocido como Bagging (deria vado de bootstrap aggregation) [12]. cualquiera que sea. Al combinar varias hip´ tesis.2. Construcci´ n de Conjuntos de Clasificadores o En la actualidad existen muchos m´ todos para generar conjuntos de clasificae dores. Esta t´ cnica funciona ı e mejor con algoritmos de aprendizaje inestables. cada o ´ una de estas con un peso asignado equivalente a su probabilidad posterior. Bas´ ndose en el teorema de Bao o a yes se consideran todas las hip´ tesis en H como parte del conjunto. son algoritmos inestables. es decir aquellos cuyo modelo resultante puede variar mucho al cambiar en menor grado los ejemplos ´ de entrenamiento. los m´ todos de regresi´ n lineal y el vecino m´ s cercano. Tomando en consideraci´ n aquellos m´ todos que se pueden aplicar a una o e gran cantidad de algoritmos. Adem´ s poseen. generando as´ los clasificadores que forman parte del conjunto. o En cambio. Bagging combina las decisiones de u los clasificadores en una sola predicci´ n por medio del mecanismo de voto o .2.

es decir. Si h (x) = 0 . ESTADO DEL ARTE 17 mayoritario (la clase que obtiene m´ s votos por parte de los clasificadores. si h (x) = 1.´ CAPITULO 3. 49]. Un ejemplo de este tipo de t´ cnica es el aplicado por Cherkauer [20] en done de lleva a cabo diferentes agrupaciones de los atributos de entrada para generar los clasificadores que forman parte del conjunto. es mediante la manipulaci´ n de los atriu o butos de entrada disponibles a la hora de utilizar el algoritmo de aprendizaje. Entre estos m´ todos se pueden se˜ alar los crosse n validated committees [102] que siguen un proceso similar a la validaci´ n o cruzada para generar los clasificadores. las decisiones de estos se o combinan mediante un mecanismo de voto con peso. Un m´ todo representativo de estas t´ cnicas es conocido como e e ECOC (error correcting output code) [33]. h ). Una vez que los L . Existen otros m´ todos que manipulan los ejemplos de entrenamiento para e generar los clasificadores. entonces cada clase en A recibe un voto. Una debilidad de ese ta t´ cnica es que s´ lo funciona cuando los atributos de entrada son altamente e o redundantes. Manipulaci´ n de las salidas. AdaBoost genera los clasificadores de manera secuencial. . a es la clase ganadora)... Una vez generados los clasificadores. generando as´ un clasificador h . En el Anexo A se muestra el algoritmo AdaBoost.M1. Una tercera t´ cnica general para o e generar conjuntos. d´ ndole m´ s importancia a los ejemplos que fueron clasificados de manera a a err´ nea por el clasificador anterior mediante la asignaci´ n de un peso a cada o o instancia del conjunto de entrenamiento. seg´ n Dietterich. Con estos datos re-etiquetados se entrena el algoritmo de aprendizaje. K.. Los datos de entrada son entonces re-etiquetados de forma tal que todas la instancias en el conjunto A de cualquiera de las clases originales son re-etiquetadas con 0 y todas las instancias de cualquier clase en B son re-etiquetadas con 1. la clase de la o instancia (y). Otro m´ todo que se basa en la manipulaci´ n de los ejemplos de entrenae o miento es conocido como Boosting [116]. siendo el m´ s representativo el algoritmo AdaBoost (Adaptative e a Boosting) [48. ECOC clasifica una nueva instancia x aplicando ´ cada clasificador h a esta. Una vez creado el conjunto. Manipulaci´ n de los atributos de entrada. En el Anexo A se detalla el algoritmo Bagging. Este peso es actualizado en cada ´ interacci´ n. Tumer y Ghosh [135] aplican una t´ cnica similar a una base de datos de sonar. Existen diferentes versiones de este m´ todo. El peso correspondien´ te a cada clasificador var´a de acuerdo a la precisi´ n de este sobre el conjunto ı o de entrenamiento (con instancias con peso) utilizado para construirlo. ECOC asume que el n´ mero de u clases. es grande. cada clase en B recibe un voto. Otra t´ cnica para generar conjuntos de clasio e ficadores es la manipulaci´ n de la salida esperada. De esta forma se crean nuevas tareas de aprendizaje dividiendo aleatoriamente las K clases en dos subconjuntos A y B . Al repetir este proceso L veces se obtiene un ı conjunto formado por L clasificadores (h1 .

Stacking utiliza diferentes algoritmos de aprendizaje para generar el conjunto de clasificadores. A diferencia de otras t´ cnicas de generaci´ n de conjuntos como e o Bagging y Boosting. Entre estos m´ todos de generaı e ci´ n de conjuntos heterog´ neos destaca el conocido como Stacking [145].5. o Introducci´ n de aleatoriedad.3 a o se detallar´ n m´ s aspectos de este m´ todo. ha sido utilizado o o para generar conjuntos introduciendo aleatoriedad a la hora de evaluar la ganancia de los atributos [32. los algoritmos basados en instano cias. 3. La incorporaci´ n de aleatoriedad dentro del o o algoritmo de aprendizaje es otra t´ cnica utilizada para la generaci´ n de cone o juntos. ´ El algoritmo de generaci´ n de arboles de decisi´ n.3.3. 87]. Existe otra manera de generar e conjuntos de clasificadores mediante la aplicaci´ n de distintos algoritmos de apreno dizaje al momento de generar los miembros del conjunto. De esta forma. En o otras palabras Stacking utiliza un algoritmo de aprendizaje para generar un clasificador que combine las predicciones de los dem´ s clasificadores.´ CAPITULO 3. pero con diferentes pesos iniciales aleatoriamente seleccionados.1. se pueden obtener clasificadores bastante distintos. Stacking utiliza lo que se conoce como meta-aprendizaje en la etapa de combinaci´ n de las predicciones de los clasificadores generados. a a e 3. etc. Por ejemplo. Ali y Pazzani [2] incorporan aleatoriedad en el algoritmo de generaci´ n de reglas estilo Prolog. La idea principal que subyace tras Stacking. es decir que los clasificadores generados son homog´ neos. Puesto que cada uno de estos algoritmos utiliza . Stacked Generalization Definici´ n o Stacking es quiz´ s. La clasificaci´ n propuesta por Dietterich [31] s´ lo considera los conjuntos de o o ´ clasificadores que se forman a partir de un unico algoritmo de aprendizaje. junto con Bagging y Boosting la t´ cnica de generaci´ n de a e o conjuntos de clasificadores m´ s utilizada. las redes de neuronas. Kolen & Pollack [84] muestran que entrenando una red de neuronas con el mismo conjunto de entrenamiento. la clase con el mayor n´ mero de votos ser´ selecu a cionada como la predicci´ n del conjunto. para generar o conjuntos. aprovechando a e as´ los distintos bias de los algoritmos utilizados. Stacking es la abreviaci´ n de Stacked Gea o neralization [145]. Adem´ s o e a de utilizar distintos algoritmos de aprendizaje para generar los clasificadores que forman parte del conjunto. el conjunto que se genera est´ formado por clasificadores heterog´ neos. C 4. ESTADO DEL ARTE 18 clasificadores han votado. FOIL. es la combinaci´ n de clasificadores generados a partir de diferentes algoritmos de o ´ aprendizaje como son: los arboles de decisi´ n. En la secci´ n 3.

se espera que los clasificadores geneı rados no est´ n correlados. Los datos de nivel-1 tienen K atributos cuyos valores son las predicciones de cada uno de los K clasificadores de nivel-0 para cada instancia en Sj . Despu´ s e de que los modelos de nivel-0 han sido generados. k = 1.. por ejemplo.g. Sj ) o para utilizarlo posteriormente. el espacio de hip´ tesis ser´ explorado de manera distinta. De este mo- . e ´ Una vez que los clasificadores han sido generados. K.ST para luego seguir un proceso similar al de la validaci´ n cruzada: se deja uno de los subconjuntos fuera (e. Los datos de entrenamiento de nivel-1 se forman a partir de las predicciones de los modelos de nivel-0 sobre las instancias en Sj . El resto de las instancias S (−j) = S −Sj son utilizadas para generar los clasificadores de nivel-0 mediante la aplicaci´ n de K algorito mos de aprendizaje distintos. Formalmente. El meta-clasificador (o modelo de nivel-1) generado utilizando un algoritmo de aprendizaje. Para tratar este problema. Stacking a diferencia de Bagging y Boosting. si la mayor´a de los clasificadores llevan a cabo malas predicı ciones.. . para obtener K clasificadores. esto conducir´a a una clasificaci´ n final err´ nea. algoritmo 1 algoritmo 2 Algoritmos para el Nivel−0 algoritmo 3 algoritmo n clase del ejemplo conjunto datos Stacked Generalization C1 M C2 .. De este modo. dado un conjunto de datos S. las cuales han sido reservadas para este prop´ sito (Figura 3. En la Figura 3. Stacking genera. Cm algoritmo Algoritmo para el Nivel−1 nuevo ejemplo Figura 3.4 o a). el conjunto Sj es utilizado para entrenar el meta-clasificador (clasificador de nivel-1). no utiliza un mecanismo de votos porque.3: Funcionamiento general de Stacking. estos han de ser combinados. ESTADO DEL ARTE 19 maneras diferentes de representar el conocimiento y diferentes bias o sesgos de aprendizaje.3 se muestra el funcionamiento general de Stacking. un subgrupo de conjuntos de entrenamiento S1 . en primer lugar. .. generando o a as´ clasificadores diferentes. intenta modelizar el c´ mo se deben combinar las decisiones de los clasificadores base (o modelos de o nivel-0). ı o o Stacking utiliza el concepto de meta-clasificador....´ CAPITULO 3.

4 d se muestra la estructura final del conjunto de clasificadores generados mediante Stacking. en donde se considera la utilizaci´ n de clasificadores basados-en-instancias (almacenando solo unos poo cos prototipos por clase) como clasificadores de nivel-base (nivel-0) y como meta´ clasificador (nivel-1) un arbol de decisi´ n. A continuaci´ n se considerar´ n los trabajos relevantes de estos dos o a grupos. ´ Los trabajos basados en Stacking. [42] proponen determinar la precisi´ n total del conjunto generado o . o que mantienen similitudes con este. cualquier algoritmo de aprendizaje puede ser utilizado para generar el modelo de nivel-1 (Figura 3. la cual es la clase real para cada instancia en particular en Sj . Otra contribuci´ n significativa del trabajo de Skalak es el estuo o dio de los conjuntos de clasificadores basados en Stacking. los modelos de nivel-0 producen un vector de predicciones que es la entrada al modelo de nivel-1. Para clasificar una nueva instancia. el cual genera la predicci´ n final del conjunto (Figura 3. o Skalak [120] presenta una perspectiva general sobre los m´ todos de construce ci´ n de conjuntos. o Fan et al. algunos aspectos en Stacking.2. En la Figura 3. Para completar el proceso. se pueden agrupar en dos grupos: aqu´ llos que abordan la selecci´ n de par´ metros e o a de Stacking y aqu´ llos que de alguna manera son o se pueden considerar variantes e de Stacking. Selecci´ n de Par´ metros y Enfoques Relacionados o a Como se˜ alara inicialmente Wolpert [145]. Trabajos Relacionados Dentro del grupo de t´ cnicas capaces de construir conjuntos utilizando el Metae Aprendizaje existen las que se centran en la predicci´ n del algoritmo adecuado para o un problema espec´fico. a Sin embargo el prop´ sito de esta secci´ n es dar una visi´ n general de los trabajos o o o realizados bas´ ndose en Stacking u otros algoritmos similares relacionados con a ´ este. Una vez que los datos de nivel-1 han sido construidos a partir de todas la instancias en Sj .5). una instancia de entrenamiento de nivel-1 est´ constituida por K atributos (las a K predicciones) y la clase objetivo.4 a c). ESTADO DEL ARTE 20 do. el tipo de meta-datos y el clasificador o que se debe utilizar en el nivel-1 son considerados como magia negra (del ingl´ s: e black art). Algunos trabajos que tratan sobre la configuraci´ n de estos par´ metros o a y otros temas relacionados se detallan a continuaci´ n.´ CAPITULO 3. bas´ ndose en las cualidades del conjunto de datos [11] o ı a basados en el rendimiento de otro algoritmos de aprendizaje m´ s simples [103].3. con mo la selecci´ n de los clasificadores base. los modelos de nivel-0 son regenerados a partir del conjunto S completo (de esta manera se espera que los clasificadores sean ligeramente m´ s precisos) (Figura 3. o 3.4 b).

ESTADO DEL ARTE 21 (a) X veces ex Algoritmo 1 Clasificador Base 1 x p1x tx ex Datos Algoritmo 2 Clasificador Base 2 x p2x Meta−datos tx cx e : datos de entrenamiento t : datos de prueba c : clase real de ejemplos en t p : predicciones sobre t ex Algoritmo n Clasificador Base n x p3x (b) tx Meta−datos Algoritmo Meta Clasificador (M) (d) (c) Algoritmo 1 Clasificador Base 1 (C 1 ) Conjunto Final M: meta−clasificador C: clasificador base Datos Algoritmo 2 Clasificador Base 2 (C 2 ) M Algoritmo n Clasificador Base n (C n ) C1 C2 . o . Cn Figura 3..´ CAPITULO 3..4: Proceso de generaci´ n del conjunto mediante Stacking.

A pesar de que los autores afirman que la medida que proponen es mejor que cualquiera de las otras medidas propuestas previamente.5: Proceso de clasificaci´ n de una nueva instancia en un conjunto generado meo diante Stacking.´ CAPITULO 3. al menos cuando se utiliza a distribuciones de probabilidad. sino una distribuci´ n de probabilidad de clase. o o ´ Los clasificadores de nivel-base utilizados son dos basados en arboles y uno basado ´ en reglas. mediante Stacking utilizando una estimaci´ n de la precisi´ n basada-en-conflicto. los atributos del meta-nivel est´ n formados por la concatenaci´ n de a o las distribuciones de probabilidad de todos los clasificadores de nivel-0 seguidas del valor real de la clase. o Esta configuraci´ n es evaluada utilizado cuatro conjuntos de datos (dos de ellos o artificiales). los autores concluyen que una t´ cnica de regresi´ n lineal de e o multi-respuesta (MLR por sus siglas en ingl´ s multi-response linear regression) ree sulta la m´ s adecuada como algoritmo de meta-nivel. o Ting y Witten [132]. como la cono fianza de los clasificadores de nivel-base. Proponen que las salidas de los clasificadores de nivel-0 no sean la predicci´ n de o la clase dada por el clasificador. ESTADO DEL ARTE predicción del conjunto 22 M meta−datos predicciones de los clasificadores de nivel−0 M : meta−clasificador (nivel−1) C : clasificador (nivel−0) C1 C2 . no queda claro en sus resultados que se pueda generalizar esta estimaci´ n a un n´ mero mayor de o u conjuntos de datos o en la aplicaci´ n de otros meta-clasificadores. en cuanto al meta-clasificador utilizan un arbol de decisi´ n sin podar. abordan dos problemas de configuraci´ n de Stacking: el tio po de clasificador que se debe utilizar en el nivel-1 y el tipo de datos del meta-nivel. De o esta manera.. ya que tanto Breiman [13] como LeBlanc y Tibshirani [90] . En cuanto al tipo de meta-clasificador que se debe utilizar. Por otra parte.. Cn instancia Figura 3. son utilizados. tanto la predicci´ n. Los autores argumentan que utilizando distribuciones de probabilidad como meta-datos. Ting y Witten investigan la necesidad de utilizar restricciones no-negativas en los pesos de los atributos dentro de los modelos lineales.

StackingC [117]. el autor argumenta que la mejora observada no solo se debe a la reducci´ n de la dimensionalidad de los atributos del meta-nivel. Basado en el trabajo de Ting y Witten [132]. Este m´ todo. Este m´ todo es llamado o e Stacking con modelo de arboles multi-respuesta (del ingl´ s: Stacking with multie ´ response model trees). Derivado de esta comparaci´ n. Sin embargo. proponen otra ı ´ extensi´ n de Stacking en donde utilizan un modelo de inducci´ n de arboles en vez o o de una regresi´ n lineal como algoritmo del meta-nivel. Por otra parte. ESTADO DEL ARTE 23 informan de la necesidad de utilizar las restricciones no-negativas al utilizar Stacking en una tarea de regresi´ n. incluyendo StackingC y la se- . Stacking con MLR [132].´ CAPITULO 3. competitivo con la selecci´ n del mejor clasificador por validaci´ n cruzada (X-val) o o y no es significativamente mejor como se˜ alan algunos trabajos. conocido como StackingC. en el momento de buscar una mejora en la precisi´ n del o o ´ ´ conjunto. con el prop´ sito de superar o una debilidad de Stacking con MLR en dominios de m´ s de dos clases. concluyen que o o Stacking con modelo de arboles multi-respuesta posee un rendimiento mejor que ´ cualquiera de los enfoques de Stacking existentes. Ting y Witten [132] concluyen que las restricciones o no-negativas no son necesarias en Stacking cuando se est´ llevando a cabo una a tarea de clasificaci´ n y. sino tambi´ n a la o e alta diversidad de los modelos lineales de clase generados en el meta-nivel. o ´ Stacking con un n´ mero ampliado de atributos en el meta-nivel y Stacking con mou delo de arboles multi-respuesta. ˇ Recientemente Dˇ eroski y Zenko [41] proponen dos nuevas versiones de Stacz king. comparan Stacking con meta arboles-de-decisi´ n [133]. reduciendo a as´ la dimensionalidad de los atributos del meta-nivel en un factor correspondiente ı al n´ mero de clases. Adem´ s utilizan como base otros enfoques como a ´ X-val (selecci´ n del mejor clasificador mediante validaci´ n cruzada) y un sisteo o ma simple de selecci´ n por votos. La primera de estas versiones aborda el problema del tipo de datos del metanivel. Seewald [117] propone que MLR utilice un grupo distinto de atributos en el meta-nivel. Adicionalmente. al comparar Stacking con MLR como meta-clasificador es. Por otra parte. n ˇ Dˇ eroski y Zenko llevan a cabo una amplia comparaci´ n de enfoques relativos al z o estado del arte en cuanto a Stacking se refiere. Esta diversidad es notable al comparar StackingC con Stacking con MLR. en el mejor de los casos. debilidad a que no estaba presente en la versi´ n original de Stacking. propone utilizar s´ lo la probabilidad de e o la clase con la m´ s alta probabilidad dentro de todas la posibles clases. En su trabajo. Los resultados de esta investigaci´ n muestran una mejora sou o bre Stacking con MLR con el conjunto completo de distribuciones de probabilidad. en los mismos atributos del a meta-nivel. En su trabajo proponen extender el conjunto de atributos del meta-nivel incluyendo la distribuci´ n de probabilidad multiplicada por la probabilidad m´ xima o a y las entrop´as de las distribuciones de probabilidad. en donde todos los modelos lineales est´ n basados. exactamente. Una de las principales conclusiones de su trabajo es que. estas resultan utiles si se desea mejorar la interpretabilidad del modelo de nivel-1. Seewald argumenta que o la dimensionalidad de los meta-datos puede ser la causa probable de esta debilidad.

Adem´ s proponen una variante de este a la que llaman combinadora de-atributos. Esta funci´ n puede ser utilizada o o o para combinar los conocimientos del clasificador. es equivalente al e voto plural si los modelos cometen errores no-correlados. En este m´ todo los clasificadores son aplie cados secuencialmente y no existe un meta-clasificador como tal. Merz [93] propone una variante de Stacking que utiliza an´ lisis de a correspondencia con el prop´ sito de detectar correlaciones entre los clasificadoo res de nivel-base. Adicionalmente. De acuerdo a sus resultados sobre datos sint´ ticos. en el cual. que es entrenado sobre un subconjunto del conjunto original de datos. su enfoque. Como muestran los resultados presentados por Schaffer [115] en su estudio del bi-nivel de Stacking. El arbitro es un clasificador individual independiente del a resto de los clasificadores base. Una condici´ n necesaria para crear un buen conjunto de clasificadores es que o los errores de los clasificadores de nivel-base no est´ n correlados [61]. Gama y Brazdil [50] propone un m´ todo muy relacionado con Stacking al que e denominan Cascade Generalization. Cuando cada . esto puede llevar a un peor rendimiento del conjunto. denominado SCANN. o Ting [131] propone la utilizaci´ n de las predicciones de los clasificadores base o para aprender una funci´ n que refleje la medida interna de confianza del algoritmo o en una estimaci´ n de su precisi´ n sobre la salida. ESTADO DEL ARTE lecci´ n del mejor clasificador del conjunto por validaci´ n cruzada (X-val). Para llevar a cabo o la clasificaci´ n de una instancia se parte de los nodos hoja formados por los clasifio ´ cadores base y se va subiendo por el arbol hasta llegar al nodo ra´z que proporciona ı la clasificaci´ n final. Una vez que las dependencias del espacio original de datos del meta-nivel se hayan eliminado. Chan y Stolfo [18] formulan un algoritmo muy similar a Stacking al cual llaman ´ combinador. Por otra parte Chan y Stolfo [18] proponen un enfoque que utiliza lo que de´ nominan un “´ rbitro”.´ CAPITULO 3. los atributos del meta-nivel est´ n formados. o o Variantes de Stacking y Esquemas Alternativos 24 Existe una serie de trabajos relacionados con Stacking que se pueden considerar implementaciones basadas en este enfoque o bien mantienen muchas similitudes ´ con este. no solo por las a predicciones de clase sino que mantienen tambi´ n los atributos originales de la inse tancia. El prop´ sito de un arbitro es brindar una a o predicci´ n alternativa y m´ s elaborada cuando los clasificadores base presentan o a contradicciones. Partiendo e de este hecho. un m´ todo del vecino m´ s cercano (algoritmo de e a meta-nivel) se aplica sobre el espacio de atributos resultante. Chan y Stolfo proponen lo que llaman “´ rbola ´ ´ arbitro” en el cual los arbitros que se especializan en resolver conflictos entre pares ´ de clasificadores son organizados en un arbol de decisi´ n binario. Este subconjunto est´ formado por las instancias en las que los a ´ clasificadores base est´ n en desacuerdo.

Este trabajo mantiene algunas similitudes con el trabajo realizado por Ting [130]. ESTADO DEL ARTE 25 ´ clasificador base es aplicado sobre los datos. Esta variante ı z utiliza un nuevo m´ todo de aprendizaje en el meta-nivel.4. u a u Los tres principales componentes son: El haz. n Seewald y F¨ rnkranz [118] proponen el esquema conocido como Grading. Una variante de Stacking que predice qu´ clasificador es el m´ s indicado dado e a un ejemplo espec´fico.1. Un mecanismo de votos con pesos sobre las predicciones de los clasificadores base produce como resultado la predicci´ n final de la clase. Este u esquema crea un clasificador de meta-nivel por cada clasificador de nivel-0. Algoritmos Gen´ ticos e Definici´ n o Los Algoritmos Gen´ ticos (AG’s) son procedimientos de b´ squeda muy ligae u dos a la teor´a de la evoluci´ n mediante la selecci´ n artificial [63]. Todos los puntos u a son representados usualmente mediante cadenas de bits. Contiene el conjuno e to de puntos (soluciones candidatas llamadas individuos) en el espacio de b´ squeda que el algoritmo est´ actualmente explorando.meta decision trees). Esta representaci´ n.e. ´ Operadores de b´ squeda. hace que los AG’s sean muy flexibles. en vez de las propias distribuciones. 3. Su principal caracter´stica es que. se generan peque˜ os MDT’s. Este nuevo conjunto de datos es n o utilizado por el siguiente clasificador. denominado poblaci´ n en este tipo de t´ cnica. como la entrop´a y la probabilidad m´ xima. La tarea de aprendizaje para cada clasificador de nivel-1 es predecir si la predicci´ n o del clasificador de nivel-0 es incorrecta. o independiente del dominio de las posibles soluciones. es descrita por Todorovski y Dˇ eroski [133]. conocido coe e mo meta arboles de decisi´ n (MDT por sus siglas en ingl´ s . Los meta-datos est´ n compuestos de propiedades de las distribucioa nes de probabilidades que reflejan la confianza de los clasificadores de nivel-base. En t´ rminos de ı o o e b´ squeda cl´ sica. Este m´ todo. El peso asignado al voto o de cada clasificador base es la confianza en que su predicci´ n sea correcta. ı a Basados en estas propiedades. Estos transforman las soluciones candidatas actuau les en nuevas soluciones candidatas.4. los AG’s se pueden ver como un tipo de b´ squeda en haz [36]. Este o peso es estimado por el meta-clasificador asociado al clasificador base. el orden en que se empleen los clasificadores se convierte en un factor a tener en cuenta. Los meta-datos est´ n compuestos por los a atributos de nivel-base y los valores de la clase (i. 3. como ı .´ CAPITULO 3. correcto o incorrecto). este incrementa el conjunto de datos a˜ adiendo su distribuci´ n de probabilidad de clase. de esta manera. o e ´ sustituye las predicciones clase-valor en sus nodos hoja por los clasificadores de nivel-base.

La meta de un AG es encontrar soluciones candidatas o que maximicen esta funci´ n. • Mutaci´ n: invierte un bit de una soluci´ n candidata (puede mutar de 0 o o ´ a 1 o de 1 a 0). A continuaci´ n se o o aplican los operadores gen´ ticos para evaluar las soluciones candidatas (de acuerdo e con la funci´ n heur´stica) hasta que es obtenida una nueva poblaci´ n (nueva geneo ı o raci´ n). o cuando el algoritmo llega a un punto donde es incapaz de encontrar mejores individuos (o hasta que el n´ mero de generaciones llega a un limite predefinido). o o o • Cruzamiento: toma dos soluciones candidatas.´ CAPITULO 3. u Los AG’s se basan en el siguiente pseudoc´ digo: o 1. o o . Ver figura 3. con una cierta probabilidad que es par´ metro del a m´ todo. Existen muchas variaciones de este operador (principalmente. de un punto y de dos puntos). La funci´ n heur´stica (o funci´ n de fitness). Generaci´ n aleatoria de poblaci´ n inicial G(0). Los a e ı o tres operadores m´ s utilizados son: a • Reproducci´ n: copia una soluci´ n candidata sin modificaci´ n. Los operadores de los AG’s est´ n tambi´ n basados en analog´as biol´ gicas [63. son independientes del dominio. las mezcla y genera dos nuevas soluciones candidatas. Un AG contin´ a produciendo nuevas generaciones hasta que se encuentra o u un individuo que se considera lo suficientemente bueno. 64]. aunque en la bibliograf´a son habituales tasas de mutaci´ n del e ı o 1 %. El bit mutado es seleccionado aleatoriamente de entre los bits del individuo.6. Esta funci´ n mide el valor de una o ı o o soluci´ n candidata. e operan sobre cadenas de bits. ESTADO DEL ARTE 26 00110000100 11100100010 00100100010 11110000100 (a) 00110000100 11100100010 00100100100 11110000010 (b) Figura 3. o Los AG’s parten de una poblaci´ n creada aleatoriamente.6: Algoritmos Gen´ ticos: sobrecruzamiento de uno (a) y dos puntos (b).

2 Aplicar sobrecruzamiento: Ga (i) −→ Gb (i) 3.. debido o a la aleatoriedad. Como en cada sobrecruzamiento se toman dos padres y se producen dos descendientes. e En la Figura 3.7: Proceso general de los Algoritmos Gen´ ticos. De igual forma. Con e o o el prop´ sito de completar la poblaci´ n de n individuos para Ga (0). en la mayor´a de los casos. Este m´ todo es conocido como “selecci´ n proporcional al fitness”.1 Aplicar selecci´ n-reproducci´ n: G(i) −→ Ga (0) o o 3.6 i = i + 1 27 La producci´ n de una nueva generaci´ n G(i + 1) a partir de G(i) (pasos o o 3. 3.5 Evaluar la nueva generaci´ n G(i + 1) o 3. e a Para obtener Gb (i) se aplica el sobrecruzamiento a un porcentaje fijo. La a probabilidad de seleccionar un individuo es. o o ı Repetir hasta que se encuentre una soluci´ n o la poblaci´ n converja: o o 3. 3.3) se describe a continuaci´ n. el cociente ı entre su fitness y el fitness total de la poblaci´ n. a´ n los malos individuos tienen una probabilidad de aparecer en u Ga (0). pero e o existen otros varios m´ todos m´ s. las soluciones o o candidatas son estoc´ sticamente seleccionadas con reemplazo de G(i) n veces. o 1ª GENERACIÓN 2ª GENERACIÓN . 96].1. selección aplicación de operadores Figura 3. el sobrecruzamiento se lleva a cabo pc /2 veces. es generada por medio de la selecci´ n. e . 3. Gc (i) es generada a partir de Gb (0) aplicando la mutaci´ n a un porcentaje pm de los individuos.. Evaluaci´ n de los individuos en G(0) con la funci´ n heur´stica. Sin embargo. Esto quiere decir que habr´ vao a rias copias de individuos muy buenos en Ga (0). de individuos seleccionados aleatoriamente en Ga (i). una nueva poblaci´ n Ga (i).3 Aplicar mutaci´ n: Gb (i) −→ Gc (i) o 3.2. Primero.4 Obtener una nueva generaci´ n G(i + 1) = Gc (i) o 3. mientras que probablemente no se encuentren individuos cuya funci´ n de fitness sea pobre. ESTADO DEL ARTE 2. tamo o bi´ n denominada poblaci´ n auxiliar. pc .´ CAPITULO 3.7 se muestra gr´ ficamente el proceso seguido por los Algoritmos a Gen´ ticos. como el torneo y el ranking [59.

Se trata del problema conocido como two-armed-bandit. mediante el dise˜ o de operadores gen´ ticos n e que incorporaban esas restricciones. los AG’s. las m´ s asentadas y aceptadas por la comunidad cient´fica son los Algoa ı ritmos Gen´ ticos. Es importante se˜ alar que n todos los clasificadores son homog´ neos puesto que todos son redes de neuronas. se propone emplear una t´ cnica de optimizaci´ n que ha sido ampliae o mente probada en otros campos. Desde el punto de vista de la utilidad de los AG’s en problemas de optimiza´ ci´ n. ESTADO DEL ARTE 28 3. a Por ello.2. . o En cuanto a la utilizaci´ n de AG’s en la optimizaci´ n de conjuntos de clasio o ficadores. Conclusiones Una de las principales conclusiones de todos los trabajos vistos sobre Stacking es que existen resultados contradictorios en la literatura y que no existe un consenso sobre cu´ l configuraci´ n de clasificadores es la mejor. etc. el de emular los principios de la evoluci´ n natural. han sido empleados tambi´ n con exito en la optimizaci´ n de funciones con o e o restricciones.´ CAPITULO 3. [150] determinan el n´ mero correcto clasifiu cadores que forman parte del conjunto utilizando AG’s. a o Adem´ s. descrito ampliamente en [64] y [59]. que han mostrado ser utiles y o e potentes. Optimizaci´ n mediante AG’s o ´ En los ultimos a˜ os han ido apareciendo un conjunto de t´ cnicas que comparn e ten un principio com´ n. no ha a sido rebatida y es aceptada por todos [64]. AG’s. proporcionando resultados tan buenos. por ejemplo en la resoluci´ n del problema del o TSP con AG’s. recientemente Zhou et al. Esta mayor aceptaci´ n se traduce en que son las t´ cnicas e o e m´ s empleadas en la industria: dise˜ o de circuitos. son la unica de estas t´ cnicas que posee a e una base matem´ tica. mediante la transformaci´ n en un problema sin restricciones. que aunque ha sido discutida en numerosas ocasiones. incluy´ ndolo en la o o e funci´ n de fitness. ´ Desde el punto de vista m´ s formal. De todas estas t´ cnicas. donde se produce o la penalizaci´ n de las soluciones que incumplen la restricci´ n. optimizaci´ n del recorrido de tuber´as en un edifio ı cio. e 3. de todas ellas emana la sensaci´ n de que es necesario un conocimiena o to muy profundo del sistema y del problema para la determinaci´ n de los valores o de cada uno de los par´ metros de Stacking.5. que han sorprendido a los propios expertos. distribuci´ n de componentes a n o en la superficie de una antena. o para evitar la p´ rdida de generalidad en el m´ todo que esto supoe e ne. a la optimizaci´ n de configuraciones de o Stacking.4. para la u o ´ optimizaci´ n de problemas. abordado por una parte.

Wolpert [145] originalmente se˜ ala que muchos aspectos sobre los par´ metros de n a Stacking. Tomando como base la idea de utilizar de distribuciones de probabilidades de clase como datos del meta-nivel propuesta por Ting y Witten [130]. Por ´ ejemplo. Dˇ eroski y Zenko [41] proponen la utilizaci´ n de un arbol de regresi´ n como z o o meta-clasificador en vez del modelo lineal propuesto por Ting y Witten [130]. Ting y Witten [130] mostraron que un modelo lineal es util para generar el clasificador de nivel-1 cuando se utilizan salidas probabil´sticas de los modelos de ı nivel-0. En la secci´ n 4. En la o ´ a secci´ n 4. se pueden considerar como magia negra. surge la pregunta: ¿Qu´ algoritmos deben ser utilizados para generar los moe delos de nivel-0 y que algoritmo debe utilizarse para generar el modelo de nivel-1?. Seewald [117] propone una variaci´ n en el espacio de atributos del nivelo ˇ ´ 1. basado en algoritmos gen´ ticos. En principio. Por ultimo o o en la secci´ n 4.2 e u o ´ o ´ se presenta la codificaci´ n propuesta para la utilizaci´ n de los AG’s. incluidos los algoritmos que generan los clasificadores. 29 .1 se describe el marco general propuesto en donde se aplican algoritmos o gen´ ticos en la b´ squeda de la configuraci´ n optima de Stacking.Cap´tulo 4 ı GA-Stacking Dado que un conjunto de clasificadores generado a partir de Stacking est´ coma puesto por un grupo de modelos creados a partir de distintos algoritmos de aprendizaje. En el cap´tulo anterior se han ı mostrado una serie de trabajos encaminados a dar respuestas a estas preguntas.3 se detalla el m´ todo de evaluaci´ n de las posibles soluciones o e o encontradas por los AG’s. en este cap´tulo ı se describe un nuevo enfoque. que busca obtener la e configuraci´ n optima de los par´ metros de Stacking para un problema dado. cualquier algoritmo puede ser utilizado para generar los clasificadores de ambos niveles.

1. En o e ı cuanto a la evaluaci´ n del fitness. Fase II) sobre todos los o e individuos (p) de la poblaci´ n (P ). La aplicaci´ n de los algoritmos gen´ ticos a un problema de optimizaci´ n dado o e o requiere.2. se ha optado por una repre´ sentaci´ n binaria ya que esta permite el empleo de los AG’s can´ nicos.2. en donde se puede apreciar que. el cual puede ser resuelto mediante la aplicaci´ n de algoritmos o o gen´ ticos. Fase I) a la ejecuci´ n de los algoritmos gen´ ticos en s´. ¿qu´ y cu´ ntos e a algoritmos de aprendizaje utilizar para generar los clasificadores de nivel-base? y ¿qu´ algoritmo utilizar para genera el clasificador del meta-nivel?. GA-STACKING 30 4.2.g. Codificaci´ n de las Soluciones o Existen diversas maneras de representar las soluciones de un problema para ´ que este pueda ser tratado mediante la aplicaci´ n de algoritmos gen´ ticos (e. donde los operadores gen´ ticos tienen un car´ cter completamente general y la base matem´ tica es m´ s e a a a . hexadecimal. se aplican o los algoritmos gen´ ticos con la finalidad de obtener como salida del sistema la e configuraci´ n optima de los par´ metros de Stacking. Para representar las posibles soo luciones o individuos en el enfoque que se propone.´ CAPITULO 4.1: Esquema General de GA-Stacking. es un proceso iterativo que se lleva a cabo en o cada generaci´ n de los algoritmos gen´ ticos (Figura 4. principalmente. La fase de codificaci´ n de las soluciones se o o detalla en la secci´ n 4. 64]. o ´ a 101001010110110101 111101010010100111 101001011010110101 111101010010100111 Algoritmos 101001010010110101 Genéticos 111101011110100111 101001010010110101 111101011010100111 Datos parámetros de Stacking Figura 4.2. decimal. el estudio de dos aspectos: la especificaci´ n de la codio ficaci´ n de las soluciones y la definici´ n de la funci´ n de fitness. o e codificaci´ n binaria. La evaluaci´ n de la funci´ n de fitness de cada individuo o o o se detalla en la secci´ n 4. tomando como entrada los datos del dominio de aplicaci´ n.1 se muestra el esquema propuesto. e En la Figura 4.3 o 4. etc). Marco General: GA-Stacking El t´ rmino GA-Stacking es el acr´ nimo en ingl´ s de Genetic Algorithms for e o e Stacking. como un problee ma de optimizaci´ n. El proceso de o o o codificaci´ n de las soluciones se produce en lo que se puede considerar una fao se previa (Figura 4. Son eso o tos AG’s la forma original propuesta por Holland [63. GA-Stacking plantea las respuestas a las preguntas de.

u ´ En cuanto al tama˜ o del cromosoma que representa al individuo. con sus correspondientes modificaciones en los operao dores gen´ ticos. tanto los del nivel-base como el del meta-nivel. Una interesante recopilaci´ n se puede e o encontrar en [36]. GA-STACKING Algoritmos 31 A1 A2 A3 A4 An posibles algoritmos Codificación parámetros de Stacking REPRESENTACIÓN GENÉTICA C1 M C2 . el empleo de codificaciones en a bases distintas de la binaria. en este caso concreto. rigurosa.´ CAPITULO 4. han sido muy empleadas.. . no ser´an imprescindibles. Adem´ s. Adem´ s. aunque pudieran reducir la ı longitud del cromosoma en alg´ n caso. 96]) que no est´ contrasu o a tado cuando la base de codificaci´ n deja de ser binaria.. esquemas o de codificaci´ n no binarias.. que pueden ser seleccionados para generar los u clasificadores. Sin embargo. Cm Fase I Inicio Fase II CROMOSOMAS Generación Población Inicial 1010101010101010 1010101010101010 1010101010101010 EVALUACIÓN ∀ p Nueva Población Evaluación del Fitness ∈P datos DECODIFICACIÓN 1010101010101010 A1 A2 A3 A4 An Stacked Generalization C1 C2 .. existe un amplio estudio de la capacidad de barrido del espacio a de b´ squeda (hip´ tesis de los bloques constructivos [59. m. este est´ dado n a en funci´ n de dos factores: o el n´ mero de algoritmos. Cm M Mutación Sobre− cruzamiento Reproducción/ Selección No ¿Condición de finalización cumplida? Si Mejores Individuos Fin Figura 4.2: Marco Propuesto: GA-Stacking.

Por ejemplo. est´ dado por: a Tc = G(n + 1) La longitud en bits del cromosoma se deriva del n´ mero y tama˜ o de los genes u n utilizados para representar los algoritmos capaces de generar un clasificador. nivel−1 0 1 0 1 1 1 0 0 0 1 1 0 nivel−0 0 0 1 Figura 4. a De esta manera. n. una serie de genes que representan los ´ par´ metros de aprendizaje de este. En otras palabras. Si en la codificaci´ n de los individuos s´ lo se considera el nombre del algorito o mo que se utiliza para generar un clasificador. si se considera que los par´ metros de aprendizaje de los algoa ritmos deben formar parte de la tarea de optimizaci´ n. Tb .´ CAPITULO 4. . G = 1 y xi = 3. que pueden formar u a parte del conjunto. En el u caso del ejemplo mostrado en la Figura 4. el tama˜ o del n cromosoma en genes. el tama˜ o del cromosoma depender´ del n´ mero de genes n a u que se utilicen para representar un algoritmo (G). raz´ n por la cual se pueden seleccionar de o entre 7 algoritmos de aprendizaje y la no presencia de ninguno.3: Descripci´ n de la codificaci´ n binaria del individuo. si existen a u 7 algoritmos de aprendizaje que se pueden seleccionar para generar los clasificadores del conjunto. adem´ s del gen o a que representa el nombre del algoritmo. se puede utilizar un gen con una longitud de tres bits para representar cualquiera de los algoritmos de aprendizaje posibles y representar tambi´ n e ´ la opci´ n de no seleccionar ninguno de estos. El tama˜ o de cada uno de estos genes depende a n de los par´ metros de aprendizaje que representen. GA-STACKING 32 el n´ mero m´ ximo de clasificadores de nivel-base. En otras palabras la longitud en bits.3. o o Por otra parte. o En la Figura 4. La a longitud de cada gen es de tres bits.3 se muestra la codificaci´ n de un individuo en donde los primeo ros cuatro genes del cromosoma representan los cuatros algoritmos de aprendizaje ´ a partir de los cuales se construir´ n los clasificadores de nivel-0 y el ultimo gen a representa el algoritmo a partir del cual se construir´ el clasificador de nivel-1. Tc . se utilizan. del cromosoma est´ dada por: a G Tb = (n + 1) i=1 xi en donde xi representa el n´ mero de bits utilizados para codificar el gen i. el tama˜ o del gen que representa al n algoritmo depender´ del n´ mero de algoritmos disponibles.

el fitness es la o media del porcentaje de aciertos de la validaci´ n cruzada. el fitness de cada individuo es el porcentaje de aciertos o que obtenga el conjunto de clasificadores sobre las instancias del conjunto de datos de validaci´ n. Al finalizar esta etapa. realizando as´.. se tiene como resultado el conjunto de clasificadores. La segunda etapa (Figura 4.. Evaluaci´ n del Fitness o El proceso de evaluaci´ n u obtenci´ n del fitness de los individuos que conforo o ´ man la poblaci´ n se lleva a cabo en dos etapas. Cm 1010101010101010 Stacked Generalization C1 A1 A2 A3 A4 An datos entrenamiento Decodificación y Construcción del Conjunto [b] conjunto datos validación M C2 .4 o [a]) implica la decodificaci´ n del individuo y. bas´ ndose en esta representaci´ n. se procede a la generaci´ n del conjunto de clasificadores. es realizar una validaci´ n cruzada. De esta forma. Cm % de aciertos (fitness) C1 Evaluación del Fitness Figura 4.´ CAPITULO 4. La primera de estas (Figura 4.. o Una alternativa a dividir el conjunto de datos en entrenamiento y validaci´ n o ´ una unica vez. o a o la selecci´ n de los algoritmos que ser´ n utilizados para generar los clasificadores o a del conjunto.4 [b]) en el proceso de evaluaci´ n del fitness de los o individuos consiste en estimar la precisi´ n del conjunto de clasificadores sobre un o conjunto de datos que no ha sido utilizado en la construcci´ n del conjunto (datos de o validaci´ n).4: Evaluaci´ n del fitness en GA-Stacking. una mejor o ı .3. o ∀ p ∈P conjunto [a] M C2 . De esta manera. Una vez que los clasificadores han sido seleccionados. utilizando una parte del conjunto de o datos disponibles (datos de entrenamiento).. GA-STACKING 33 4.

´ CAPITULO 4. Otros Par´ metros de los AG’s a Adem´ s del tipo de codificaci´ n y del n´ mero de genes que componen el croa o u mosoma. o o o 34 4. y par´ metros de ejecuci´ n como n o a o la tasa y el tipo de mutaci´ n. etc. GA-STACKING estimaci´ n de la precisi´ n de la soluci´ n.4. han de ser configurados para o o ejecutar los AG’s. tipo de selecci´ n. se han empleado los valores utilizados con mayor frecuencia en estos sistemas [59] Los valores asociados a estos par´ metros se detallan en el cap´tulo de evaluaa ı ci´ n (cap´tulo 5). o ı . los AG’s poseen una serie de par´ metros que deben ser configurados a antes para llevar a cabo la b´ squeda en el espacio de hip´ tesis. como el tama˜ o de la poblaci´ n. Sin embargo. Par´ metros de tiu o a po estructural.

Con el prop´ sito de evitar esta sobreadaptaci´ n observada en los primeros experimentos. C´ mo o ´ o o ´ cualquier otro sistema de aprendizaje. pero al llevar a cabo un an´ lisis de los mismos. En la secci´ n 5. Bagging e o y Boosting. se muestran ciertos signos de sobreadaptaci´ n a o de los AG’s a los datos utilizados para obtener el fitness de los individuos. o o se lleva a cabo una segunda serie de experimentos en donde var´a la forma de evaı 35 . Viabilidad de GA-Stacking En esta secci´ n se muestran los resultados obtenidos en el proceso de evaluao ci´ n de la viabilidad de utilizar GA-Stacking con el prop´ sito de obtener la confio o guraci´ n optima de los par´ metros de Stacking.2 se muestran los experimentos reao o lizados con el prop´ sito de evaluar los diferentes par´ metros involucrados en GAo a Stacking.Cap´tulo 5 ı Evaluaci´ n o Hasta este punto se ha presentado el sistema GA-Stacking para la obtenci´ n de o la configuraci´ n optima del algoritmo de generaci´ n de conjuntos. Para llevar a cabo esta evaluaci´ n o ´ a o se han utilizado dominios del conocido repositorio de datos del UCI [6]. se presenta en la secci´ n 5. se obtienen resultados prometedores. Una comparativa de los resultados obtenidos mediante GA-Stacking con los bien conocidos m´ todos de generaci´ n de conjuntos de clasificadores.1 se reflejan los resultados obtenidos en la primera fase de o formulaci´ n de la propuesta. En la secci´ n 5. o 5. se han realizado una serie de experimentos que van desde o los realizados con la finalidad de evaluar la viabilidad de la propuesta hasta los experimentos comparativos con los enfoques m´ s actuales en cuanto a conjunto de a clasificadores se refiere.3. En una primera serie de experimentos. Con el prop´ sito de llevar o o a cabo esta evaluaci´ n. Stacking.1. al igual que con los m´ s recientes m´ todos de generaci´ n de conjuntos a e o de clasificadores basados en Stacking. este debe ser evaluado con la finalidad de comprobar si la configuraci´ n obtenida es la adecuada.

EVALUACION 36 luar al individuo. a o En estos experimentos.1 se muestran los valores de los par´ metros de los AG’s utilizados a en estos experimentos.067 Tanto el tama˜ o de la poblaci´ n como el n´ mero de generaciones utilizados en n o u estos experimentos.e.´ ´ CAPITULO 5. Por otra parte. En la Tabla 5. desde los algoritmos individuales hasta los algoritmos de construcci´ n de conjuntos utilizao dos (i.1. El espacio de b´ squeda est´ determinado por el n´ mero de posibles u a u combinaciones de algoritmos a partir de los cuales se generar´ n los miembros del a conjunto siguiendo el algoritmo Stacking.1. a o Esta herramienta incluye todos los algoritmos de aprendizaje utilizados. se o o han utilizado las implementaciones de los distintos algoritmos de aprendizaje que est´ n disponibles en la herramienta conocida como W EKA [144] (versi´ n 3. desecho y mutaci´ n. se configuraron bas´ ndose en el tama˜ o del espacio de b´ squea n u da de los AG’s.10 0. En cuanto a las tasas de elite. se utilizaron los valores o o . Resultados Preliminares Los resultados que se muestran en esta secci´ n corresponden a la evaluaci´ n o o inicial de GA-Stacking llevada a cabo sobre dos dominios (ionosphere y dermatology) del conocido repositorio de datos del UCI. Boosting y Stacking).40 0. ´ La implementaci´ n de GA-Stacking combina dos partes: la primera de estas o se basa en los algoritmos de aprendizaje implementados en W EKA mientras que la implementaci´ n de los Algoritmos Gen´ ticos esta basada en la librer´a G AJIT o e ı (Genetic Algorithm Java Implementation Toolkit) [43]. e Para la realizaci´ n de los experimentos que se muestran en esta secci´ n. 5.1: Par´ metros de los algoritmos gen´ ticos. si se permite que un algoritmo pueda aparecer o una o m´ s veces dentro de una combinaci´ n. de esta manera el c´ lculo del fitness de los individuos es distinto a al m´ todo utilizado en los experimentos preliminares. Existen 490 posibles combinaciones de algoritmos si se considera que un algoritmo dado s´ lo puede aparecer una vez en o cada combinaci´ n.7). Bagging.1. a e Par´ metros a Poblaci´ n o Generaciones ´ Tasa de elite Tasa de desecho Tasa de mutaci´ n o Valores 10 10 0. el espacio de b´ squeda utilizado es el que contempla la u posibilidad de la presencia de un algoritmo una o m´ s veces dentro de una combia ´ naci´ n. existe 2310 combinaciones posibles. Tabla 5.

Genera arboles de decisi´ n de un solo nivel . en algunos dominios. dentro del conjunto de clasificadores generado mediante Stacking. Genera arboles de decisi´ n . En este caso el algoo ritmo base utilizado es C 4. A continuaci´ n se detallan los algoritmos de aprendizaje utilizados: o C 4.´ ´ CAPITULO 5. o Es importante se˜ alar que en I Bk por defecto el valor de K es 1. Boosting: M´ todo de construcci´ n de conjunto homog´ neos basado en la e o e asignaci´ n de pesos a las instancias del conjunto de datos (ver secci´ n 3.(PART). o o La implementaci´ n utilizada es la del algoritmo AdaBoostM1. ´ PART [47].2). o I Bk [1]. en estos experimentos. No obstante. 37 Ocho algoritmos de aprendizaje forman el grupo de algoritmos que pueden ser utilizados para generar. Forma listas de decisi´ n a partir de arboles de decisi´ n parcialo o mente podados.5.(N BS).(I B 1). ı I B 1 [1]. cabe mencionar que estos algoritmos han sido utilizado con el fin de redondear el n´ mero de algoritmos disu ponibles a ocho con la finalidad de poder representar los mismos mediante un gen de tres bits. o Un clasificador Naive Bayes probabil´stico [76] . ı Decision Table [83].5 .(D T). Algoritmo de K-vecinos m´ s cercanos . a Un clasificador Naive Bayes simple en donde los atributos num´ ricos son e modelados por una distribuci´ n normal [35] .2. Es un clasificador simple que utiliza la clase mayoritaria. De igual forma.2. por su forma de generar el cla´ sificador. . generados utilizando la heur´stica de C 4. Por otra parte.(N B).5). no es capaz de construir este. . por esta raz´ n n o su comportamiento es similar a I B 1. Estos m´ toe dos son: Bagging: M´ todo de construcci´ n de conjuntos homog´ neos basado en el e o e submuestreo del conjunto de datos. El algoritmo o base utilizado es C 4. (ver secci´ n 3.5 ´ [110]. los resultados que obtiene N BS son similares a N B y.5.(D S).2).(C 4. ´ Decision Stump [72]. se han utilizado dos m´ todos de generaci´ n de conjuntos con la e o finalidad de comparar los resultados obtenidos mediante GA-Stacking. EVALUACION que aparecen en los ejemplos de funcionamiento que proporciona G AJIT.(I Bk). Por estas razones. tanto los clasificadores de nivel-0 como el clasificador de nivel-1. Este es un algoritmo basado en instancias . se hace referencia s´ lo a los o resultados obtenidos por I B 1 y N B.

se genera un cono junto de clasificadores mediante Stacking. A y B la parte A.71 % en ionosphere y 95.45 % en dermatology) reflejan un rendimiento inferior sobre los datos que no han sido utilizados Dado que las instancias de test se eval´ an bas´ ndose en las instancias de entrenamiento almaceu a nadas 1 . los resultados sobre los conjuntos de test (85. EVALUACION 38 Para evaluar el conjunto de clasificadores generado a partir de la configuraci´ n o de Stacking encontrada por GA-Stacking. se realiz´ el proceso que se detalla a o continuaci´ n: o cada conjunto de datos fue dividido aleatoriamente en dos partes. fue utilizada como conjunto de entrenamiento y a su vez como conjunto de evaluaci´ n de la funci´ n de fitness. Sin embargo. se utiliza como funci´ n de o fitness la precisi´ n del conjunto de clasificadores a la hora de clasificar las o instancias que forman el conjunto de datos A el conjunto de datos B es utilizado como conjunto de test para estimar la precisi´ n de las hip´ tesis obtenidas mediante GA-Stacking sobre un conjunto o o de datos que no ha sido utilizado en su construcci´ n.3. Los resultados obtenidos en esta serie de experimentos se reflejan en la Tabla 5. o o para calcular el fitness de cada individuo de la poblaci´ n. Esta hip´ tesis obtiene un 100 % de precisi´ n sobre el conjunto de eno o ´ trenamiento en ambos dominios. la evaluaci´ n del fitness no o o se lleva a cabo como se detalla en la secci´ n 4. en donde se propone dividir o el conjunto de entrenamiento en dos o realizar una validaci´ n cruzada.´ ´ CAPITULO 5. Las columnas dos y cuatro muestran la precisi´ n en la tarea de clasificaci´ n o o del conjunto de clasificadores sobre el conjunto de entrenamiento en los dominios de ionosphere y dermatology respectivamente. a Una vez generado el conjunto de clasificadores. e o ´ La hip´ tesis evaluada corresponde al mejor individuo de la ultima generaci´ n de o o los AG’s. Cabe se˜ alar que por la o n condici´ n de preliminares de estos experimentos. las columnas tres y cinco reflejan los resultados obtenidos sobre los conjuntos de test. o En esta serie de experimentos se seleccionaron dos dominios del repositorio de datos del UCI. Los par´ metros de Stacking (en a este caso los algoritmos de aprendizaje) est´ n codificados en el individuo. Estos dominios han sido ampliamente utilizados en estudios previos en cuanto a conjunto de clasificadores se refiere. La parte superior de la tabla muestra los resultados obtenidos utilizando individualmente los algoritmos de aprendizaje disponibles. Por otro lado. que posee alrededor de un 85 % del total de instancias disponibles en el dominio. En la parte central de la tabla se refleja los resultados obtenidos por los algoritmos de generaci´ n de conjuntos o homog´ neos. igualado unicamente por IB 11 . y por la hip´ tesis encontrada por GA-Stacking.2. Bagging y Boosting. ionosphere y dermatology.

00 100.´ ´ CAPITULO 5.94 92.67 97. o Tabla 5.00 84. Estos resultados y el hecho de que en ambos dominios el porcentaje de acierto sobre el conjunto de entrenamiento es del 100 %.42 85.97 95.73 100. la tabla de decisi´ n (88.57 82.00 82. a o o .2).2: Resultados preliminares de la evaluaci´ n de GA-Stacking.33 96.5 Boosting con C 4.57 %) o ´ y Boosting (91.86 82.45 97.5 GA-Stacking Generaciones previas (AG’s) GA-Stacking Ionosphere Entrenamiento Test 98. En tanto que en el dominio dermatology.67 96.97 93. Por otra parte.78 100.57 %).18 94. tambi´ n se encuentran reflejao e das la media de aciertos de los tres mejores individuos de cada generaci´ n. tanto en o entrenamiento/fitness como los resultados sobre el conjunto de test.29 98.94 97. pero los resultados sobre el conjunto de test a empeoran a partir de esta generaci´ n.67 100. si se analiza la evoluci´ n de los individuos. obteniendo ambos los mejores resultados en este dominio (96.57 85. siendo este ultimo el mejor de todos de los algoritmos utilizados.5 Naive Bayes PART IB1 Decision Stump Decision Table Conjuntos Bagging con C 4. o Como se puede apreciar en la tercera generaci´ n existe un individuo que obtiene o el m´ ximo fitness (100 % de acierto).88 93.00 100.67 98.1 se muestra la evoluci´ n del fitness en el dominio dermatology.43 %).42 96. el resultado sobre el conjunto de test obtenido por la hip´ tesis encontrada por GA-Stacking es superada por los o clasificadores generados a partir de Naive Bayes y Boosting.43 85.48 En la Figura 5. o generaci´ n hasta la cual el porcentaje de acierto sobre el conjunto de test ha ido o decrement´ ndose generaci´ n tras generaci´ n.00 92. EVALUACION 39 en la fase de entrenamiento.86 80.71 Dermatology Entrenamiento Test 96.00 51. o Algoritmo Individuales C 4. Cabe destacar que el fitness promedio llega a alcanzar el 100 % de acierto en la sexta generaci´ n.97 %).00 100.13 98.71 91.86 88. En el dominio de ionosphere el resultado obtenido mediante GA-Stacking es superado por PART (88. Sin embargo. indican que GA-Stacking se est´ sobreaa daptando a los datos de entrenamiento a medida que pasa cada generaci´ n.45 87. soo bre los conjuntos de test de ambos dominios (parte inferior de la Tabla 5.67 98.00 88. se pueden encontrar o hip´ tesis en generaciones previas de los AG’s que obtienen mejores resultados que o cualquiera de los clasificadores individuales y los de generaci´ n de conjuntos.78 94.42 45.94 96.

En otras palao bras.1. EVALUACION 40 100 99 98 Precisión 97 96 95 94 93 0 1 2 3 4 5 6 Generaciones 7 8 9 fitness test media/fitness media/test Figura 5.´ ´ CAPITULO 5.1: Evoluci´ n del fitness en el dominio dermatology (mejor individuo y promedio o de los tres mejores individuos en cada generaci´ n). Obo viamente. Evitando la Sobreadaptaci´ n o En los experimentos preliminares de la secci´ n anterior.2. y el restante 20 % . Por esta raz´ n.el conjunto de validaci´ n . o o o o en esta nueva serie de experimentos. el segundo cono o junto se utiliza para evaluar el fitness del individuo. El 80 % de las instancias de entrenamiento se utilizan para construir el conjunto de clasificadores a partir de la configuraci´ n de Stacking asociada o a cada individuo. en dos partes o aleatoriamente. a su vez. el o conjunto de clasificadores se genera a partir de menos instancias de entrenamiento que en los experimentos previos.se utiliza para dar o una estimaci´ n sin sesgo de la precisi´ n del individuo. o 5. con el prop´ sito de evitar la sobreadaptaci´ n. el conjunto de instancias de entrenamiento se dividi´ . el valor de la funci´ n de fitness fue calculada o a partir de un conjunto de datos denominado conjunto de validaci´ n. Es decir. . la precisi´ n del individuo sobre las instancias que fueron utilizadas en su o construcci´ n es alta. los individuos se soo breadaptan porque el valor de la funci´ n de fitness se obtiene a partir de las miso mas instancias de entrenamiento que fueron utilizadas para construir el conjunto de clasificadores mediante la configuraci´ n de Stacking asociada al individuo. Cabe destacar que al utilizar un 20 % del conjunto de entrenamiento como conjunto de evaluaci´ n del fitness.

Con el prop´ sito de estimar la tasa de acierto de los algoritmos evaluados. La media de la mejora relativa (MMR) sobre todos los dominios es calculada utilizando la media geom´ trica de la reducci´ n del error e o en dominios individuales: 1 − media geom´trica(error(C1 )/error(C2 )) [41].4 muestra los resultados de los clasificadores individuales sobre . C. como se describe a continuaci´ n. Todos los dominios han sido utilizados previamente en otros estudios relacionados con conjuntos de clasificadores y est´ n disponibles en el repoa sitorio de bases de datos para aprendizaje autom´ tico del UCI. se ampli´ la cantidad de dominios o utilizados a seis. La Tabla 5. Tabla 5. para un dominio o o dado es estimada mediante la media de la validaci´ n cruzada realizada. denominao da prec(C). La precisi´ n de clasificaci´ n de cada clasificador/conjunto. Es decir. EVALUACION 41 Con vistas a evaluar experimentalmente GA-Stacking con un n´ mero mayor de u dominios que en los experimentos anteriores.´ ´ CAPITULO 5. o Para medir la mejora en la tarea de clasificaci´ n en un dominio dado utilizano do un clasificador/conjunto C1 en comparaci´ n a utilizar C2 se calcula la mejora o relativa mediante: 1 − error(C1 )/error(C2 ). El error de un clasificador/conjunto C viene dado por 1 − prec(C).3: Descripci´ n de los dominios utilizados en la evaluaci´ n de GA-Stacking. se reao liz´ una validaci´ n cruzada de 5 carpetas (del ingl´ s: folders).1. se calculan las mejoras relativas y t-test pareados. se explor´ el espacio de b´ squeda partiendo de un unico punto o u con cada conjunto de datos. Por razones expeo o e ´ rimentales GA-Stacking fue ejecutado una unica vez en cada ciclo de la validaci´ n o ´ cruzada. Las caracter´sticas a ı de estos conjuntos de datos se describen en la Tabla 5. Para comparaciones entre dos algoritmos de aprendizaje.3. o o Dominio dermatology dna-splice heart ionosphere musk sonar Atributos 34 60 13 34 166 60 Tipo de Atributos num´ rico-nominal e nominal num´ rico-nominal e num´ rico e num´ rico e num´ rico e Instancias 366 3190 303 351 476 208 Clases 6 3 2 2 2 2 Los par´ metros de los AG’s utilizados en estos experimentos son los mismos a que se utilizaron en la primera serie de pruebas y que se muestran en la Tabla 5. e La significaci´ n estad´stica de la diferencia en el rendimiento de los algoritmos o ı es llevada a cabo mediante un t-test pareado (C1 y C2 utilizan exactamente los mismos conjuntos de datos) con un nivel de significaci´ n del 95 %: +/− a la derecha o de un dato en la tablas que reflejan los resultados de los clasificadores indican que C1 es significativamente mejor/peor que C2 .

61 86.08 71.48 A excepci´ n de un dominio (heart).72 80.´ ´ CAPITULO 5. e o En la Tabla 5.12 74.42 83. EVALUACION 42 los dominios de prueba y en la Tabla 5. Sin embargo.33 94.93 Tabla 5.63 83.05 GA-Stacking 97.83 92.90 DS 50.38 PART 94.33 89.52 DT 87. los algoritmos de generaci´ n de conjuntos o o obtienen mayor precisi´ n que cualquiera de los clasificadores individuales.59 92.83 88.62 IB1 94.5 se muestra la precisi´ n obtenida por los o tres m´ todos de construcci´ n de conjuntos. Por otra parte.49 76.82 71. que cualquiera de los clasificadores individuales o las t´ cnicas de generae ´ ci´ n de conjuntos al menos una vez.11 82.14 83.42 70. El cono junto de clasificadores generado a partir de la configuraci´ n de los par´ metros de o a Stacking encontrada por los algoritmos gen´ ticos obtiene mayor precisi´ n en tres e o de los seis dominios utilizados en los experimentos en comparaci´ n con los otras o t´ cnicas de generaci´ n de conjuntos. las o ı soluciones de GA-Stacking no son significativamente peores que ninguno de los clasificadores individuales ni que ninguno los m´ todos de generaci´ n de conjuntos e o en ninguno de los dominios.00 87.00 89.00 Boosting 97. significativamente.29 80.33 72.5: Tasa de precisi´ n de los algoritmos de generaci´ n de conjuntos. no as´ a Boosı ting.59 75.40 62. o o Dominio dermatology dna-splice heart ionosphere musk sonar Bagging 94.67 90. o Dominio dermatology dna-splice heart ionosphere musk sonar C 4. si se analiza la significaci´ n estad´stica de los resultados.43 79.30 85.96 79.11 87.67 82.96 80.62 78.59 94.6 se muestra la comparaci´ n de los conjuntos de clasificadores o generados a partir de la configuraci´ n de Stacking encontrada por GA-Stacking con o los clasificadores individuales y las otras t´ cnicas de generaci´ n de conjuntos.4: Tasa de precisi´ n de los algoritmos individuales.33 92. las soluciones generadas a partir de GA-Stacking mejoran. GA-Stacking es mejor.46 73.56 76. a todos los clasificadores individuales y a Bagging. como se puede apreciar en la ultima fila de la o . Los mejores resultados est´ n resaltados.30 95.00 90. a Tabla 5.82 74.81 NB 97. incluyendo la hip´ tesis encontrada por e o o GA-Stacking. en promedio.21 73.5 94.46 79.38 67.30 82.03 95.67 91.03 94.00 82. Coe o mo se puede apreciar.

En las secciones 5.2.45 .6.37 3+/0- IB1 12.2 y 5.80 + 42.´ ´ CAPITULO 5. 23.45 . se pueden considerar como buenos.12 .39 . En ninguno de los dominios se alcanza un 100 % de acierto sobre el conjunto de entrenamiento o sobre el conjunto de fitness.51 2+/0- NB -13. 22.5 25.16 + -1. 9.27 + 25. 30. -8.75 . el porcentaje de aciertos sobre el o ´ conjunto de datos de test es superior al obtenido al utilizar un unico conjunto para entrenamiento y fitness. 7.1.6: Mejora relativa en precisi´ n (en %) de las hip´ tesis encontradas por GA-Stacking o o compar´ ndolas con los distintos clasificadores individuales y las t´ cnicas de clasificaci´ n a e o de conjuntos homog´ neos Bagging y Boosting y su significaci´ n estad´stica (+/− es mee o ı jor/peor.55 5+/0- Bagging 18.54 + 88. en o cierta medida.92 . y la utio lizaci´ n de un conjunto de datos de validaci´ n reservados para evaluar la funci´ n o o o de fitness (b).41 .39 + 11.’ es no significativa. se han llevado a cabo una serie de experimentos con la o finalidad de determinar la configuraci´ n adecuada de los par´ metros asociados a o a GA-Stacking. 27.65 . 29. al utilizar dos conjuntos de datos en el proceso de obtenci´ n del conjunto de clasificadores. En cuanto a la evoluci´ n del fitness. 25. 50.2 se muestra una comparao tiva entre la utilizaci´ n de un mismo conjunto de datos.82 .01 + 45. 50. hasta la configuraci´ n de los par´ metros de o a aprendizaje de cada uno de estos algoritmos.09 + 26. 5.92 .31 .01 .31 .64 . en la Figura 5.3 y 5.79 .4 se muestra la evoluci´ n del fitness y la evoluci´ n de la o o precisi´ n sobre los conjuntos de entrenamiento y test para los distintos dominios o utilizados en estos experimentos.3. Por otra parte.96 .51 .73 . 52. 39.10 + 37.62 + 68.01 + 82. 7.92 . 21. 77. 5. 2.36 1+/0- Tabla 5. -45.48 . o En las Figuras 5.77 . Como se puede apreciar.2.47 . Par´ metros de GA-Stacking a Una vez establecida la viabilidad de la aplicaci´ n de AG’s a la tarea de cono figuraci´ n de Stacking.08 2+/0- Boosting 4. tanto como para generar o el conjunto de clasificadores como para evaluar la funci´ n de fitness (a). desde los algoritmos de aprendizaje que puea den ser utilizados por GA-Stacking.94 1+/0- PART -7.64 + 94.11 . 3. ’.92 2+/0- DT 18.64 + 9.23 .2. 50.58 2+/0- DS 34. 43.78 + 43.28 . A partir de este an´ lisis se puede se˜ alar que el utilizar conjuntos distintos para entrenamiento a n y fitness es adecuado para prevenir la sobreadaptaci´ n. -26.31 + 2.) Dominio heart sonar musk ionosphere dermatology DNA splice Promedio Gana/pierde C 4.82 + 22. 4. es evidente que la utilizaci´ n de dos conjuntos de datos evita. a pesar que en algunos dominios experimenta un leve decremento.45 + 35. 20.71 + 37. 10.40 + 42.46 . 6. la sobreadaptaci´ n de las soluciones. . si se analiza la evoluci´ n de las curvas que o reflejan el fitness. -24.2. -20. EVALUACION 43 Tabla 5. o 5.12 . Por otro lado los resultados sobre el conjunto de test. Estos par´ metros van.38 . -18.16 .65 .

EVALUACION 44 Dermatology 100 99 98 Precisión 97 96 95 94 93 1 2 3 4 5 6 7 Generaciones 8 9 10 Fitness Test (a) Dermatology 100 99 98 Precisión 97 96 95 94 93 1 2 3 4 5 6 7 Generaciones 8 9 10 Fitness Test (b) Figura 5.´ ´ CAPITULO 5. .2: Comparaci´ n de la evoluci´ n del fitness utilizando el mismo conjunto de datos o o para entrenar y calcular el fitness (a) o distintos conjuntos (b) en el dominio Dermatology.

ionosphere y heart. .´ ´ CAPITULO 5. EVALUACION 45 Dermatology 100 99 Precisión 98 97 96 95 1 2 3 4 5 6 7 8 9 10 Generaciones Entrenamiento Fitness Test Ionosphere 98 Precisión 96 94 92 90 1 2 3 4 5 6 7 Generaciones 8 9 10 Entrenamiento Fitness Test Heart 92 90 Precisión 88 86 84 82 80 1 2 3 4 5 6 7 Generaciones 8 9 10 Entrenamiento Fitness Test Figura 5.3: Evoluci´ n del fitness de las soluciones comparado con la precisi´ n sobre el cono o junto de entrenamiento y el conjunto de test para los dominios de dermatology.

.5 1 2 3 4 5 6 7 Generaciones 8 9 10 Precisión Entrenamiento Fitness Test Figura 5.4: Evoluci´ n del fitness de las soluciones comparado con la precisi´ n sobre el o o conjunto de entrenamiento y el conjunto de test para los dominios de sonar. musk y DNA splice.5 97 96. EVALUACION 46 Sonar 95 Precisión 90 85 80 75 1 2 3 4 5 6 7 8 9 10 Generaciones Entrenamiento Fitness Test Musk 100 98 96 94 92 90 88 86 84 82 1 2 3 4 5 6 7 Generaciones 8 9 10 Precisión Entrenamiento Fitness Test DNA Splice 97.´ ´ CAPITULO 5.5 96 95.

. Este es un algoritmo basado en instancias que utiliza una medida de la distancia basada en la entrop´a . Hyper Pipes [144].2. 5. el cual contiene todos los puntos de esa categor´a . basado en intervalos de valores de los o atributos. se ampli´ el n´ mero de posibles algoritmos de aprendizaje que pueden ser o u utilizados para generar los miembros del conjunto. ı ı . Decision Stump y Decision Table. ı VFI [27]. En adici´ n a los algoritmos utilizados en los primeros experimentos. Es un algoritmo que genera un clasificador simple de reglas conjuntivas .4 se explica la configuraci´ n de los experimentos realizados. Un algoritmo de generaci´ n de reglas proposicionales . No lleva a cabo ninguna poda . JRip [25].2.(VFI) Conjunctive Rule. K* [22].´ ´ CAPITULO 5. Por ultio o mo en la secci´ n 5. Algoritmos de Aprendizaje Con el prop´ sito de ampliar el espacio de configuraciones en el cual los AG’s o llevan a cabo la b´ squeda de la configuraci´ n optima de los par´ metros de Stacu o ´ a king. Este algoritmo construye un arbol que considera K atributos al azar en cada nodo.(JR IP).2. En la a o ´ secci´ n 5.(K*).(RT). se han incorporado los siguientes algoritmos: Random Forest [14].(C R). I Bk. Es un algoritmo que genera un clasificador que lleva a cabo la tarea de clasificaci´ n mediante votos.(N NGE). Un arbol de regresi´ n multirespuesta (multi-response model o tree) . PART.(H P).5. Genera un clasificador que construye un Hyper Pipe para cada categor´a. Una regresi´ n lineal de multirespuesta (multi-response linear o regression .(MLR). EVALUACION 47 se detallan los par´ metros involucrados en la configuraci´ n de GA-Stacking. o Nnge [92].( MRMT). MLR [132]. ´ Random Tree [144]. ´ MRMT [40].5 se muestran los resultados obtenidos en la comparaci´ n de o o las diferentes configuraciones. C 4.1. Algoritmo del tipo vecino m´ s cercano el cual utiliza ejemplos a generalizados no jerarquizados . o Naive Bayes. Este algoritmo construye un Bosque Aleatorio que se ´ forma combinando una gran cantidad de arboles de decisi´ n no podados o (R F). Estos algoritmos pueden ser utilizados para generar tanto los clasificadores base como el meta clasificador.

Si est´ fijado. No se desarrolla ning´ n sub-´ rbol. a Establece el umbral de confianzar para llevar a cabo la poda (por omisi´ n: o 0. Par´ metros de Aprendizaje de los Algoritmos Utilizados a En los todos los trabajos relacionados con la configuraci´ n de Stacking.. se utiliza un suavizado a Laplace para la predicci´ n de probabio lidades.7 se detallan los par´ metros de aprendizaje de a los algoritmos utilizados que han sido seleccionados para ampliar el espacio de b´ squeda.7: Par´ metros de aprendizaje los algoritmos utilizados por GAa Stacking para generar el conjunto de clasificadores. Utilizar divisi´ n binaria para atributos o nominales. EVALUACION 48 Para utilizar los clasificadores MLR y MRMT se utiliza un m´ todo de clasifie caci´ n denominado “clasificaci´ n por regresi´ n” (C P R) implementado en W EKA. Utiliza la poda para reducir el error.2. el algoritmo utilizado es MLR. u .2. se utilizan los par´ metros de aprendizaje por omisi´ n.´ ´ CAPITULO 5. Por omisi´ n.25). Contin´ a . los alo goritmos que se utilizan tanto. Algoritmo Naive Bayes Opci´ n o -K PART -B -C C 4. Establece el umbral de confianza para llevar a cabo la poda (por omisi´ n: o 0. En la Tabla 5. Dado a o que estos par´ metros pueden influir en los resultados que obtiene cada clasificador. o o o De esta forma. o Utilizar divisi´ n binaria para atributos o nominales. para construir los clasificadores de nivel-0 como el clasificador de nivel-1.25).5 -R -U -B -S -C -A Descripci´ n o Utilizar estimaci´ n del n´ cleo para o u atributos num´ ricos en vez de una sime ple distribuci´ n normal. u Tabla 5. u a ´ Utiliza arbol sin podar. la selecci´ n de MLR o MRMT es un par´ metro de aprendizaje del o a m´ todo mencionado. e o 5.. a GA-Stacking adem´ s de seleccionar entre los algoritmos de aprendizaje disponia bles. puede realizar una b´ squeda en el espacio de par´ metros de cada uno de los u a algoritmos utilizados. No desarrollar sub-´ rboles.

. a Utiliza el vecino m´ s cercano en vez de a mayor´a global de la tabla. o No se utiliza normalizaci´ n. Fija el n´ mero m´nimo de instancias u ı por nodo. o cuando K es seleccionado por validaci´ n cruzada para atributos num´ rio e cos. o Fija el n´ mero de atributos a consideu rar. u o Fija el n´ mero de atributos a tener en u cuenta en cada nodo. ı Especifica el nombre del algoritmo de predicci´ n num´ rica que ser´ utilizado o e a como base del clasificador. o Se asigna un peso a los vecinos equivalente al inverso de su distancia cuando se vota (por omisi´ n: igual peso). M es el o n´ mero de entradas.. o o No posee par´ metros configurables.0). (por omisi´ n: logM + 1. EVALUACION Algoritmo I Bk Opci´ n o -F 49 Descripci´ n o Se asigna un peso a los vecinos equivalente su similitud cuando se vota (por omisi´ n: igual peso). Fija el n´ mero de los vecinos m´ s ceru a canos que se utilizar´ n para llevar a caa bo la predicci´ n (por omisi´ n: 1). o -D -N -S -K Decision Stump Decision Table Clasificaci´ n por Regresi´ n o o -I -W Random Tree -S -K -M Random Forest -I -K -S K* -B -E -M VFI Contin´ a . o Establece si se utiliza mezcla entr´ pica o autom´ tica. minimiza el error cuadr´ tico mea dio (por omisi´ n: error medio absoluo to).´ ´ CAPITULO 5. u o Fija la mezcla global (por omisi´ n:20). u Fija la semilla para el generador de n´ mero aleatorios (por omisi´ n:1). a Establece el m´ todo para manejar vae lores desconocidos (por omisi´ n: curva o media de la entrop´a de la columna). ı Fija el bias exponencial hacia intervalos confidentes (por omisi´ n: 1. u -B . Fija la semilla para el generador de n´ meros aleatorios (por omisi´ n:1). ´ Fija el n´ mero de arboles en el bosque u (por omisi´ n: 10).

o Fija los pesos m´nimos de las instancias ı en el proceso de divisi´ n (por omisi´ n: o o 2. o o Fija el n´ mero de carpetas para calcular u la informaci´ n mutua.0). EVALUACION Algoritmo Opci´ n o -C -S -R -E -N 50 Descripci´ n o No pesa los intervalos de votaci´ n por o confianza. o Fija si se considera expresiones exclusivas para atributos nominales. Fija el n´ mero de ejecuciones en el u proceso de optimizaci´ n (por omisi´ n: o o 2). como son el tama˜ o del conjunto de n . o Fija si no se usa aleatorizaci´ n. o 5. Si no se verifica que la tasa error >= 0. Fija la semilla para la aleatorizaci´ n o (por omisi´ n:1). o Fija el n´ mero de carpetas.0). puesto que se han utilizado los que se consideran de mayor relevancia en la construcci´ n del clasificador. Fija el n´ mero de intentos de la geneu ralizaci´ n (por omisi´ n: 5). Una carpeta u es utilizado para llevar a cabo la poda (por omisi´ n: 3).2. exisa a ten otros aspectos ligados a GA-Stacking. Otros Par´ metros a Adem´ s de los algoritmos de aprendizaje y sus par´ metros configurables. o Fija los pesos m´nimos de las instancias ı en el proceso de divisi´ n (por omisi´ n: o o 2. a Conjunctive Rule -M JR IP -O -P -E -F -N N NGE -G -I Hyper Pipes - Es importante se˜ alar que en algunos casos no se han utilizado todos los par´ men a tros configurables de un algoritmo dado. o No posee par´ metros configurables.3.5 dentro del criterio de parada (por omisi´ n: verificar). Si no se utiliza poda. Fija el n´ mero de carpetas. Una carpeta u es utilizada para llevar a cabo la poda (por omisi´ n: 3).´ ´ CAPITULO 5.

la codificaci´ n binaria es la codificaci´ n utio o o lizada para representar las soluciones dentro de GA-Stacking. la utilizaci´ n de los par´ metros de aprendiu o a zaje de dichos algoritmos y el n´ mero m´ ximo de clasificadores base dentro del u a conjunto de clasificadores. De esta manera se reduce el n´ mero de clasifia u cadores base generados. Tomando en cuenta estos factores. E. Representaci´ n de las Soluciones o Como se detalla en la secci´ n 4. En esta secci´ n se abordan en detalle estos par´ metros. EVALUACION 51 clasificadores.´ ´ CAPITULO 5. De esta forma. se incluyen el n´ mero de clasificadores utilizado por los estudios previos reflejados u en la literatura. o Para llevar a cabo un estudio detallado de la influencia del n´ mero de clau sificadores base que forma el conjunto de clasificadores. m. Por ejemplo. mientras que Seewald [117] utiliza seis alˇ goritmos. se estableci´ como par´ metro de GA-Stacking la determinaci´ n del tao o a o ma˜ o del conjunto en donde s´ lo se fija el n´ mero m´ ximo de posibles clasificadon o u a res base. u a n. La representaci´ n de o las soluciones depende esencialmente de tres factores previamente mencionados: el n´ mero de algoritmos disponibles. Recientemente Dˇ eroski y Zenko [41] utilizan tres y siete clasificadores z base para llevar a cabo la comparaci´ n entre los distintos m´ todos de construcci´ n o e o de conjuntos. est´ dada por: a C m+1 n p(E) = −C m+1 n m n C en donde C es la combinaci´ n de m elementos en grupos de n elementos. el n´ mero m´ ximo de u a clasificadores base se ha fijado en cuatro y diez clasificadores. Como se puede apreciar no hay un consenso en cuanto al n´ mero de clasificau dores base que deben formar parte del conjunto de clasificadores. Ting y ı u Witten [132] utilizan tres algoritmos. y el n´ mero de algoritmos disponibles. la representaci´ n de las soluciones y los par´ metros ligados a los o a AG’s.2. Para que el n´ mero de clasificadores base fuese variable. En vista de tal situaci´ n. se consider´ la u o posibilidad de no utilizar ning´ n algoritmo de aprendizaje como una alternativa u m´ s a los algoritmos disponibles. Es decir. dado un n´ mero m´ ximo de clasificadores base. la probabilidad de que un algoritmo u o la ausencia de algoritmos se encuentre codificada en la soluci´ n encontrada por o GA-Stacking. se han desarrollado . o a ˜ Tamano del Conjunto de Clasificadores El n´ mero de algoritmos que deben ser utilizados para generar los clasificadou res de nivel-0 var´a de un estudio a otro seg´ n la literatura.

u n ´ G A S5 SP II. “I” o “II” (7 y 15 respectivamente). o o nivel−1 0 1 0 0 1 1 1 1 0 0 0 1 1 1 0 1 nivel−0 0 0 1 1 Figura 5. En estos experimentos m = 7 y n = 5. EVALUACION 52 nivel−1 0 1 0 1 1 1 0 0 0 1 1 0 nivel−0 0 0 1 Figura 5. El n´ mero de alo a u goritmos disponibles es siete (m = 7). Debido a la cantidad 2 El nombre de las configuraciones de GA-Stacking deriva de. “5” y “11” (incluyendo el meta-clasificador). o o seis configuraciones de GA-Stacking con la finalidad de determinar la mejor de ´ estas. “G A S”.5: Codificaci´ n binaria de la configuraci´ n G A S5 SP I. G A S5 SP I2 . La primera de las configuraciones de GA-Stacking en estos experimentos es similar a la utilizada en los experimentos previos (secci´ n 5.6 se puede apreciar la codificaci´ n de las soluciones utilizada o en estos experimentos. el n´ mero de algoritmos disponibles es 15 (m = 15). la utilizaci´ n o no de los par´ metros de aprendizaje de los algoritmos. En la Figura 5.5 se puede apreciar la codificaci´ n de las soluciones utilizada en estos experimentos.1). u En la Figura 5. el n´ mero u de clasificadores que pueden formar el conjunto. en este caso.´ ´ CAPITULO 5. o El n´ mero de genes del cromosoma es Tc = 5 y el tama˜ o en bits es Tb = 15. Esta configuraci´ n es similar a la anterior. y la versi´ n del o a o experimento dependiendo del n´ mero de algoritmos disponibles.6: Codificaci´ n binaria de la configuraci´ n G A S5 SP II. u n G A S5 CP I. o ´ La unica diferencia es que en estos experimentos se considera la no presencia de algoritmos en una posici´ n dada del cromosoma. El n´ mero de genes del cromosoma es Tc = 5 y el tama˜ o en bits es Tb = 20. con la unica diferencia o de que. A continuaci´ n se detallan las codificaciones utilizadas para cada una de las o configuraciones. “CP” y “SP”. El n´ mero m´ ximo o u a de posibles clasificadores base es cuatro (n = 4) y no se incluyen en la soluci´ n los par´ metros de aprendizaje de los algoritmos. GA-Stacking. En esta configuraci´ n de GA-Stacking se incorpora a la tarea de o optimizaci´ n la b´ squeda de los par´ metros de aprendizaje de cada uno de o u a los algoritmos con la finalidad de encontrar la combinaci´ n adecuada para un o dominio dado. u .

en la Figura 5. n Figura 5. a En la Figura 5. Como se puede apreciar. G A S5 CP II. En la Figura 5. En esta configuraci´ n de GA-Stacking se amplia el n´ mero m´ xio u a mo de clasificadores base que pueden formar parte del conjunto. esta est´ dada por Tc = 11 y Tb = 44. En cuanto o ´ a la longitud del cromosoma. En la ultima de las configuraciones de GA-Stacking evaluadas el n´ mero m´ ximo de clasificadores base que pueden formar parte del conjunto u a . o o de algoritmos que se pueden utilizar y la diversidad de sus par´ metros de a aprendizaje. se opt´ por crear una representaci´ n general que incorporase la o o mayor´a de los par´ metros disponibles. EVALUACION 53 nombre 0 1 1 0 1 0 0 1 1 1 1 0 par´metros a . En la Tabla 5. o o nombre 0 0 1 1 0 1 0 0 1 1 1 1 0 par´metros a .7: Codificaci´ n binaria de un clasificador dentro de la configuraci´ n G A S5 CP I. n o a aunque esto implique que en algunos casos los genes no representen ning´ n u par´ metro debido al algoritmo de aprendizaje. o a G A S11 SP.. se dise˜ o una codificaci´ n lo m´ s general posible. Por otra parte. Dado que el n´ mero y tipo de par´ metros de aprendizaje var´a u a ı de un algoritmo a otro y. En este caso m = 10 y la codificaci´ n es similar a la utilizada por G A S5 SP II. En esta configuraci´ n el valor de m = 15. n Figura 5.8: Codificaci´ n binaria de un clasificador dentro de la configuraci´ n G A S5 CP II. uno para el nombre y cinco para codificar los par´ metros de aprendizaje del mismo. a ´ G A S11 CP..´ ´ CAPITULO 5.5.. se utilizan seis genes para representar un clasificador.7 se muestra la codificaci´ n de un clasificador dentro del croo mosoma que representa las soluciones en estos experimentos. a El n´ mero de genes del cromosoma es Tc = 30 y el tama˜ o en bits es Tb = u n 60.9 se muestra un ejemplo o de la codificaci´ n de un clasificador que se generar´ a partir de C 4.8 se puede apreciar la ı a relaci´ n de los par´ metros de aprendizaje de cada algoritmo y el gen que los o a representa.8 se puede observar la codificaci´ n utilizada.. que para un mismo algoritmo existen par´ metros a mutuamente excluyentes. Por esta raz´ n el o o tama˜ o en bits del cromosoma es Tb = 65 mientras que el n´ mero de genes n u del cromosoma sigue siendo Tc = 30.

pero en este caso se incluyen o los par´ metros de aprendizaje de los algoritmos. Tb = 143.35 -A Figura 5.5 -R -C 0. o es 10 al igual que la configuraci´ n anterior. Para estos experimentos la a codificaci´ n es similar a la utilizada por G A S5 CP II.´ ´ CAPITULO 5. . esta est´ dada por a Tc = 66 y su longitud en bits. En cuanto a la longitud del cromosoma. tomando en cuenta el o ´ nuevo valor de m.5 y sus par´ metros de aprendizaje mediante o a una codificaci´ n binaria.9: Ejemplo de la representaci´ n de C 4. EVALUACION 54 gen 1=3 gen 3=0 gen 5=5 0 0 1 1 0 1 gen 2=1 Gen 1 2 3 4 5 6 0 0 gen 4=0 0 1 0 1 1 gen 6=1 Valor 3 1 0 0 5 1 Opci´ n o c4.

50 -C 0.10 -C 0.50 -C 0.25 -C 0.10 -C 0.0 -B 4.40 -C 0.50 -C 0.30 -C 0. EVALUACION Gen # 4 Gen # 5 Gen # 6 Valor 0 1 2 3 0 1 0 1 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 0 1 NA4 0 NB 1 -K 3 -R -U -B -S -C 0.20 -C 0.50 -C 0.50 -C 0.40 -C 0.5 ``` Genes Algoritmo3 ``` ``` ` Gen # 2 Gen # 3 ´ ´ CAPITULO 5.50 -C 0.50 -C 0.Tabla 5.15 -C 0.50 -C 0.45 -C 0. Ning´ n Algoritmo.50 -C 0.25 -C 0. .50 I Bk 4 -F -D -N -S -K 1 -K 2 -K 3 -K 4 -K 5 -K 6 -K 7 -K 8 -K 9 -K 10 -K 11 -K 12 -K 13 -K 14 -K 15 -K 16 DS 5 DT 6 -I RT 8 -S 1 -S 2 -S 3 -K 10 -K 5 -K 10 -K 15 -K 20 -K 25 -K 30 -K 35 -K 40 -K 45 -K 50 -K 55 -K 60 -K 65 -K 70 -K 75 -M 5 RF 9 -S 1 -S 2 -S 3 -K 10 -I 2 -I 4 -I 6 -I 8 -I 10 -I 12 -I 14 -I 16 -I 18 -I 20 -I 22 -I 24 -I 26 -I 28 -I 30 K* 10 -B 10 -B 30 -B 40 -E -M m -M n -M a -M d VFI 11 -B 2.50 -C 0.35 -C 0.50 -C 0.35 -C 0.50 -C 0.0 -B 3. u 5 Las opciones −A y −B del gen #3 corresponden a utilizar MLR y MRMT respectivamente.0 -C CR 12 -S 2 -S 3 -S 4 -R -E -N 4 -N 5 -N 6 -N 7 -N 8 -N 9 -N 10 -M 3 JR IP 13 -O 3 -O 4 -O 5 -P -E -F 4 -F 5 -F 6 -F 7 -F 8 -F 9 -F 10 -N 3 C P R5 7 -W A -W B - N NGE 14 -G 2 -G 3 -G 4 -I 2 -I 3 -I 4 -I 5 -I 6 -I 7 -I 8 -I 9 -I 10 - HP 15 - 3 4 55 Es representado por el Gen #1.30 -C 0. o C 4.50 -C 0.45 -C 0.8: Correspondencia entre los par´ metros de aprendizaje de los algoritmos utilizados por GA-Stacking y el gen que los representa dentro de la a codificaci´ n binaria.50 -C 0.50 -A PART 2 -B -C 0.20 -C 0.15 -C 0.

Tabla 5. EVALUACION 56 5. y la parte B que es utilizada como conjunto de entrenamiento para encontrar la configuraci´ n optima. Con el prop´ sito de evaluar o GA-Stacking con un grupo de instancias distintas a las que utiliza como conjunto de entrenamiento.´ ´ CAPITULO 5. Configuraci´ n Experimental o En esta secci´ n se describe en detalle la configuraci´ n de los experimentos o o llevados a cabo con la finalidad de evaluar las diferentes versiones de GA-Stacking. En la Tabla 5.9: Descripci´ n de dominios utilizados.4. Dominios Para la prueba experimental de las distintas configuraciones de GA-Stacking se han utilizado 18 dominios del repositorio del UCI.9 se muestran las caracter´sticas o ´ ı de los dominios utilizados.2. o Dominio australian balance breast-w car chess diabetes echo german glass heart hepatitis hypo image ionosphere iris soya vote wine Atributos 14 4 9 6 36 8 6 20 9 13 19 25 19 34 4 35 16 13 Instancias 690 625 699 1728 3196 768 132 1000 214 270 155 3163 2310 351 150 683 435 178 Parte A 345 312 349 1382 2876 384 66 500 100 135 77 2846 1848 175 75 341 217 89 Parte B 345 313 350 346 320 384 66 500 100 135 78 317 462 176 75 342 218 89 Clases 2 3 2 4 2 2 2 2 6 2 2 2 7 2 3 19 2 3 . Estos dominios han sido ampliamente utilizados en otros estudios sobre Stacking. se ha dividido cada dominio en dos partes: la parte A utilizada para evaluar las configuraciones encontradas por cada una de las versiones de GA-Stacking.

1) es la tasa o de mutaci´ n que se vio incrementada con la finalidad de generar cambios en los o individuos en menos generaciones. o ´ o Este individuo no es un conjunto de clasificadores construido a partir de Stacking.40 0. El mejor individuo de estas ejecuciones es tomado como la configuraci´ n optima de Stacking encontrada por una versi´ n dada de GA-Stacking. o u o u Otra diferencia con respecto a los primeros experimentos (secci´ n 5.10 Comparaci´ n de las Versiones de GA-Stacking o Con el prop´ sito de evaluar las distintas versiones de GA-Stacking.´ ´ CAPITULO 5. EVALUACION Par´ metros de los AG’s a 57 En vista que el espacio de b´ squeda de configuraciones se ve incrementado con u ´ la incorporaci´ n de m´ s algoritmos y los par´ metros de aprendizaje de estos. a e Par´ metro a Poblaci´ n o Generaciones ´ Tasa de elite Tasa de desecho Tasa de mutaci´ n o Valores 50 50 0.10.10: Par´ metros de los algoritmos gen´ ticos. sino una configuraci´ n de los algoritmos que se deben utilizar para generar los o clasificadores nivel-base y el clasificador del meta-nivel.10 0. o Un t-test pareado se utiliza para medir la significaci´ n estad´stica con un nivel del o ı 95 %. . se calcula la mejora relativa media (MRM) sobre todos los dominios utilizados. Todas las configuraciones encontradas por las versiones de GA-Stacking son comparadas entre s´ mediante ı una validaci´ n cruzada estratificada de 10 carpetas sobre el conjunto de datos A. Con el prop´ sito de calcular la mejora relativa obtenida por las configuraciones o de Stacking encontradas por una versi´ n de GA-Stacking dada sobre el resto de o versiones. Los valores de los par´ metros de los AG’s para a estos experimentos se muestran en la Tabla 5. se o a a increment´ el n´ mero de individuos de la poblaci´ n y el n´ mero de generaciones. Tabla 5. cada una de o las configuraciones de GA-Stacking fue ejecutada tres veces en cada dominio con el conjunto de datos B.

1. El valor del fitness es el promedio de aciertos de la validaci´ n cruzada.10: C´ lculo del fitness mediante una validaci´ n cruzada de 2 carpetas. Es decir. El n´ mero de carpetas utilizadas en este u proceso. corresponden a la versi´ n 3. o carpeta 1 datos A entrenamiento datos validación B ∀ p ∈P conjunto M C2 . En la Figura 5. Stacking cuenta con menos datos para generar los clasificadores que formar´ n parte del conjunto. Stacking lleva a cabo un proceso de validaci´ n cruzada interna o para construir los datos del meta-nivel.4 de W EKA. por omisi´ n. Adem´ s puede existir alg´ n sesgo a a u hacia el conjunto de fitness. Cm Stacked Generalization % de aciertos (fitness_2) C1 fitness(p) = (fitness_1 + fitness_2)/2 Figura 5. ı o Analizando los resultados obtenidos en los experimentos para evitar la sobreadaptaci´ n a los datos de entrenamiento (secci´ n 5. EVALUACION Otros 58 Tanto las implementaciones de los algoritmos de aprendizaje utilizados. Sin embargo..´ ´ CAPITULO 5. a o Por otra parte. Cm 1010101010101010 A1 A2 A3 A4 An Stacked Generalization C1 % de aciertos (fitness_1) datos disponibles A B carpeta 2 datos B datos A entrenamiento validación conjunto M C2 .10 o se muestra el proceso llevado a cabo para obtener el fitness de todos los individuos de la poblaci´ n. a o . primero se entrena con una de ellas y se obtiene el porcentaje de aciertos sobre la otra parte y viceversa... Por esta raz´ n la funci´ n de fitness en estos experimeno o tos se calcula mediante un proceso de validaci´ n cruzada de 2 carpetas. como la prueba estad´stica utilizada (t-test). no se ha o incluido como par´ metro en la evoluci´ n de las soluciones. el o conjunto de datos disponibles se divide en dos partes. es 10 y al igual que en los experimentos previos.2) se puede apreciar que se o o evita que los AG’s se sobreadapten tanto a los datos de fitness como a los datos de entrenamiento..

00 62.60 74.28 97.55 82.44 80.00 73.75 94.23 95.00 76.11: Resultados de la validaci´ n cruzada de 10 carpetas de las configuraciones de o Stacking encontradas por las distintas versiones de GA-Stacking.86 % y 1.82 %).36 95.47 99.00 82.57 95.93 93.32 93. El porcentaje de aciertos de los conjuntos de clasificadores formados a partir de las configuraciones de Stacking encontradas por las distintas versiones de GAStacking se muestran en la Tabla 5.89 99.08 94.02 93.27 75.94 89.89 90. .82 97.14 97.62 90.40 63.80 78. o Tabla 5.27 93. con la finalidad de comparar el rendimiento de las soluciones encontradas por las distintas versiones de GAStacking.93 90.17 73. EVALUACION 59 5.17 75.50 71.78 G A S11 SP 88.27 82.24 90.64 99.67 G A S5 CP I 88.21 94.27 73.18 95.00 67. en diferencia global.5.93 84.03 99.45 82.12 es m´ s interesante: esta tabla refleja la mejora relativa media a de X sobre Y para cada par de soluciones X e Y .07 96.23 97.34 74.57 98.´ ´ CAPITULO 5.87 97.95 95.15 99.18 91. est´ n por encima de las que no incora 6 En el Ap´ ndice B se muestran las comparaciones individuales de cada una de las versiones de e GA-Stacking con el resto.22 92.26 94.41 86.45 83.00 92.22 96.24 87.23 75.93 90.12 se puede ver que la diferencia en la media de la mejora relativa en todos los dominios entre la distintas configuraciones de ´ Stacking es baja (entre -1.22 Examinando en detalle la Tabla 5.57 97.95 97. si se analiza la ultima columna de la tabla en donde se refleja la cantidad de veces en que las soluciones encontradas por las versiones de GA-Stacking son significativamente mejores o peores.54 97.23 98.30 97.18 99. la Tabla 5. Dominios australian balance breast car chess diabetes echo german glass heart hepatitis hypho images ionosphere iris sonar vote wine G A S5 SP I 86.17 71.32 94.00 66.27 94.32 95.71 95.23 96.08 95.89 G A S5 CP II 87.03 79.88 99.27 75.26 97.98 98.57 91.02 99.87 94.84 98.67 74.24 73.89 99.56 91.61 92.64 99.116 .23 92. Sin embargo.16 89.09 94.75 79.36 95.42 96.10 90.12 97.44 G A S5 SP II 87.31 G A S11 CP 88.75 80. al igual que el n´ mero de u ganados:perdidos calculado a partir de un t-test realizado sobre los resultados de una validaci´ n cruzada de 10 carpetas (1 × 10 t-test). Sin embargo.99 97.71 98. las versiones GA-Stacking que incorporan los par´ metros a de aprendizaje de los algoritmos utilizados.57 80.99 84. Resultados Experimentales En esta secci´ n se muestran los resultados obtenidos en la evaluaci´ n de las o o diferentes configuraciones de GA-Stacking.11 94.00 75.2.

los resultados son comparables con la mejor de las versiones de GA-Stacking.´ ´ CAPITULO 5.60 1:3 1. en todas las versiones de GA-Stacking o se nota un incremento constante en casi todos los dominios (ver Ap´ ndice B) a e excepci´ n de los dominios echo y sonar en donde se alcanza el fitness m´ ximo en o a la primera generaci´ n. sin embargo G A S5 CP I es.33 0:2 -0. En cuanto a la evoluci´ n del fitness. Sin embargo. G A S5 CP I (+8)7 . si se combinan la utilizaci´ n de los par´ metros de aprendizaje de los o a algoritmos.02 1:4 -0.35 0.82 1:0 G A S5 CP II 1. En otras palabras.22 3:1 -0. en un caso m´ s. Rendimiento de GA-Stacking Con la finalidad de medir el rendimiento de GA-Stacking. el n´ mero de configuraciones u exploradas es relativamente peque˜ o en comparaci´ n con el espacio de b´ squeda.03 4:1 -1. En otras palabras. EVALUACION 60 Tabla 5. ambos son tres veces significativamente peores que otra configuraci´ n o de GA-Stacking. a Como se puede apreciar.22 -1. o 5. u G A S5 SP I G A S5 SP I G A S5 SP II G A S5 CP I G A S5 CP II G A S11 SP G A S11 CP -0. n o u Por otra parte. Pero.47 0:2 0.48 0.68 1:4 -0.12 1:1 -0.67 -1.82 0:3 Total 8:11 3:7 11:3 11:6 3:16 10:3 ´ poran estos. si se compara G A S5 CP I y G A S11 CP.81 0:1 0. se ha llevado a cabo una comparativa de los resultados obtenidos mediante la aplicaci´ n de GA-Stacking o 7 El n´ mero entre par´ ntesis indica la diferencia absoluta entre ganados y perdidos u e .46 2:3 1. si se comparan las diferencias o significativas entre uno y otro.49 2:0 2:0 0:2 2:0 G A S5 CP I 0.3.12: Mejora relativa de las soluciones encontradas por las distintas configuraciones de GA-Stacking.86 3:0 G A S11 CP 1.80 1:3 0. con el incremento del n´ mero de algoritmos y el n´ mero m´ ximo de u u a miembros del conjunto (G A S11 CP).36 -1. Las entrenadas en la fila X y columna Y muestran la mejora relativa de X sobre Y en % y en n´ mero de ganados:perdidos (de acuerdo a un 1 × 10 t-test). Esto puede ı deberse a que el espacio de b´ squeda se incrementa significativamente y dado que u se llevan a cabo 50 generaciones de 50 individuos. significativamente a mejor que otra configuraci´ n de GA-Stacking.14 -0.67 2:0 1.63 1:1 3:1 3:2 1:3 3:1 G A S5 SP II 0.67 0:2 1.81 -1. G A S11 CP (+7) y G A S5 CP II (+5). G A S5 SP II (-4) y G A S11 SP (-13).14 1:2 G A S11 SP -0.36 2:0 -1. G A S11 CP es la mejor de las dos versiones (+1).71 4:1 -1.14 2:1 1. el incremento o del n´ mero de algoritmos disponibles y el n´ mero de posibles clasificadores en el u u conjunto no parece que mejoren el fitness de las soluciones por s´ solos. est´ n por encima de G A S5 SP I (-3). la utilizaci´ n de los par´ metros de aprendizaje de los o a algoritmos con el prop´ sito de ampliar el espacio de b´ squeda de los AG’s obtienen o u mejores resultados en comparaci´ n a no utilizarlos.66 0:2 -0.

Estos algoritmos son los utilizados por GA-Stacking y los otros sistemas de construcci´ n de conjuntos basados en Stacking para generar los o miembros del conjunto. se ha utilizado un subconjunto de los dominios utilizados o en la evaluaci´ n de las diferentes versiones de GA-Stacking (secci´ n 5. los algoritmos de generaci´ n o o .10.2. car. balance. Boosting y Bagging. diabetes y glass. Esta versi´ n tiene como m´ xio o a mo 10 clasificadores base e incluye la configuraci´ n de los par´ metros de aprendio a zaje de cada uno de los algoritmos utilizados para generar. La primera de estas categor´as incluye los algoritmos de generaci´ n de claı ı o sificadores individuales. o o Dominios Con el prop´ sito de comparar GA-Stacking con los diferentes m´ todos de geo e neraci´ n de conjuntos.´ ´ CAPITULO 5. Los dominios seleccionados son: australian. EVALUACION 61 (versi´ n G A S11 CP) y los resultados obtenidos aplicando los conocidos algoritmos o de generaci´ n de conjuntos homog´ neos. adem´ s de otros o e a algoritmos de generaci´ n de conjuntos heterog´ neos basados en Stacking. tanto los clasificadores base como el clasificador del meta-nivel. Par´ metros de los AG’s a Como se ha mencionado al principio de esta secci´ n. Los par´ metros de los AG’s utilizados a son los mismos utilizados en los experimentos de comparaci´ n de las distintas o configuraciones de GA-Stacking y que est´ n reflejados en la Tabla 5. la configuraci´ n de GAo o Stacking utilizada para comparar el rendimiento de este m´ todo con el resto de ale goritmos de generaci´ n de conjuntos es G A S11 CP. e o Los algoritmos de generaci´ n de clasificadores individuales utilizados son los o que aparecen detallados en los experimentos de comparaci´ n de las distintas vero siones de GA-Stacking (secci´ n 5. La o o selecci´ n de estos dominios se llev´ a cabo tomando en cuenta el n´ mero de clao o u ses.1).1.3. Configuraci´ n Experimental o En esta secci´ n se muestran en detalle la configuraci´ n de los experimentos o o llevados a cabo con la finalidad de comparar GA-Stacking con otros m´ todos de e generaci´ n de conjuntos y combinaci´ n de clasificadores. Por otra parte. a Algoritmos de Aprendizaje Dentro de los algoritmos utilizados en estos experimentos existen dos categor´as. o e 5. instancias y atributos con la finalidad de utilizar dominios representativos.4).2. La otra categor´a incluye los algoritmos de generaci´ n de ı o conjuntos y m´ todos de combinaci´ n de clasificadores.

Al igual que en los otros algoritmos o basado en Stacking.´ ´ CAPITULO 5. o M EJOR CV: Sistema que selecciona al mejor clasificador basado en una validaci´ n cruzada del conjunto de entrenamiento. Boosting (AdaBoostM1) El algoritmo base utilizado es C 4. MLR y K*). Kernel Density. MLR y Kernel Density.3. Se han utilizado tres grupos de o algoritmos para generar los clasificadores del nivel-base. se ha llevado a cabo un t-test paa reado (1 × 10) con la finalidad de estimar si la mejora obtenida por GA-Stacking es estad´sticamente significativa. se han utilizado los grua ˇ pos de tres y siete algoritmos utilizados por Dˇ eroski y Zenko [41] descritos z en el punto anterior. I Bk y Naive Bayes.5. se han utilizado los grupos de tres y siete algoritmos descritos anteriormente. e o Comparaci´ n de los Resultados o Con el prop´ sito de estimar la tasa de precisi´ n de los algoritmos usados se o o ha utilizado una validaci´ n cruzada estratificada de 10 carpetas. EVALUACION 62 de conjuntos y combinaci´ n de clasificadores utilizados se describen a continuao ci´ n: o VOTO: Sistema de combinaci´ n de predicciones mediante votos. En primera instancia. se ha usado el grupo utilizado por Seewald [117] (Decision Table. Adem´ s. Naive Bayes. El algoritmo base utilizado es C 4. o Bagging. ı .5. S MLR: Stacking con regresi´ n lineal multi-respuesta (MLR) propuesta por o Ting y Witten [132]. se ha llevado a cabo el calculo de la mejora relativa que obtiene GA-Stacking sobre otro algoritmo en cada dominio. Dado que un estudio reciente utiliza grupos de tres y o siete algoritmos para generar los clasificadores base [41].3.5. ´ S MRMT: Stacking con modelo de arboles multi-respuesta como se describe en la secci´ n 3. El primer grupo esta compuesto por C 4.2.5. se han utilizado dos versiones de este algoritmo con dos grupos de clasificadores base.2.3. S CMLR (StackingC): Stacking con un n´ mero reducido de atributos del metau nivel como se describe en la secci´ n 3. Decision Table. ˇ En un estudio reciente realizado por Dˇ eroski y Zenko [41] se lleva a cabo z una comparativa entre los m´ todos de construcci´ n de conjuntos basados en Stace o king. En este estudio se concluye que S MRMT tiene un mayor rendimiento que cualquiera de los otros m´ todos de construcci´ n de conjuntos basados en Stacking. C 4. Ver secci´ n 3. mientras que en el segundo grupo se agregan K*. Adem´ s. A fin de comparar o los resultados obtenidos por GA-Stacking con cada uno de los algoritmos utilizados.2.

. la mejora relativa media en o o todos los casos es superior al 50 %. es similar en las versiones S CMLR 5 y S CMLR 7 (2+). al comparar GA-Stacking con las dos versiones de S MRMT (tres y siete clasificadores base). En cuanto a las o comparaciones con las tres versiones de S CMLR (tres. Por otra parte. con el prop´ sito de comparar el rendimiento de GA-Stacking o con cada uno de los algoritmos utilizados. Como se puede apreciar en la Tabla 5. si se compara GA-Stacking con M EJOR CV.14 se muestra la mejora relativa en porcentaje que obtiene GA-Stacking al compararlo con los otros algoritmos de combinaci´ n y su significaci´ n estad´stica basado en un t-test de 1 × 10. Al comparar GA-Stacking con los m´ todos de combinaci´ n por votos (VOTO) e o y la selecci´ n del mejor por validaci´ n cruzada (M EJOR CV). Por otra parte. este es mejor significativamente en todos los dominios. En el caso de Bagging. el n´ mero de dominios en u que GA-Stacking es significativamente mejor se ve duplicado si se compara con la versi´ n de s´ lo tres clasificadores base. cinco y siete clasificadores base). se observa que el n´ mero de veces en que GA-Stacking es significativamente mejor u var´a de acuerdo al n´ mero de clasificadores base que formen el conjunto de claı u sificadores generados por S MRMT. Sin embargo. con una mejora relativa que ronda el 60 %. los dominios en que GA-Stacking es mejor significativamente. supera el 58 %. en la Tabla 5. GA-Stacking es significativamente mejor que Boosting. GA-Stacking es mejor significativamente en tres de los cinco dominios. Resultados Experimentales El porcentaje de aciertos que obtienen los diferentes algoritmos utilizados en estos experimentos se encuentra reflejado en la Tabla 5. en los cinco ´ dominios utilizados.´ ´ CAPITULO 5.14. Es decir. la a mejora relativa en comparaci´ n con ambas versiones ronda el 29 %. las mejoras significativas se reducen a dos de los cinco dominios. en cuatro de los cinco dominios utilizados. Sin embargo.13.3. o o ı Los resultados ser´ n analizados en m´ s detalle a continuaci´ n. a a o Comparaciones En primera instancia se analizar´ n los resultados de GA-Stacking en comparaa ci´ n con los m´ todos de construcci´ n de conjuntos homog´ neos Bagging y Booso e o e ting. pero o la mejora relativa media sigue estando por arriba del 52 %. Como se puede apreciar los resultados obtenidos por GA-Stacking son mejor en 4 de los 5 dominios utilizados. Una vez analizados los resultados comparativos de los m´ todos de construce ci´ n de conjuntos homog´ neos y otros m´ todos de combinaci´ n de clasificadores. Por otra parte. En primera instancia.2. S CMLR. al compararlo con el esquema de votaci´ n. S MLR). se obtienen resultao o dos distintos. o e e o se compara GA-Stacking con los otros m´ todos de construcci´ n de conjuntos bae o sados en Stacking (S MRMT. GA-Stacking es significativamente mejor en un dominio m´ s si compara con S MRMT 7 en lugar de con S MRMT 3. EVALUACION 63 5. la mejora relativa en ambos casos. Por otra parte.

Estos resultados demuestran que el n´ mero de clasificadores base que formen u ´ parte del conjunto influye en el error que puede cometer este al igual que el tipo de meta-clasificador que se utilice. como se aprecia en la ultima fila de la Tabla 5. que en ningun no de los dominios GA-Stacking es significativamente peor que cualquiera de los algoritmos con los que se compara.´ ´ CAPITULO 5. GA-Stacking es significativamente mejor que S MLR. pero adem´ s a en tres de los cinco dominios utilizados. . ´ Cabe se˜ alar. EVALUACION 64 Por otra parte.14. si se comparan los resultados de GA-Stacking con los obtenidos por S MLR en sus dos versiones (tres y siete clasificadores base) la mejora relativa media al igual que en los resultados de S CMLR es superior al 50 %.

75 70.82 + 28.10 96.61 + 60.76 3 + /0− S CMLR 5 8. 69.80 82.11 . 56.74 + 14.65 92.18 S MRMT 7 85.88 + 88.47 + -3. 50.18 .31 . 19.39 2 + /0− S MRMT 3 10.22 .02 77.18 + 59.56 S MLR 3 85.94 89.42 75.90 + 91.00 + 71.84 + diabetes 12.29 76.14: Mejora relativa en la precisi´ n (en %) de GA-Stacking al compararlo con los otros m´ todos de generaci´ n y combinaci´ n de clasificadores.92 95.38 + -4.35 .37 + -7.92 76.21 96. 29.37 + -7.94 70. 22.05 + 76.92 94. 69.06 ´ ´ CAPITULO 5.25 93.82 + 90. EVALUACION Dominio australian balance car diabetes glass G A S11 CP 87.85 + 90. 82.77 .03 .73 76.28 95.16 66.87 73.86 + 88.51 90.10 . 52.16 .30 72.85 76.22 2 + /0− S CMLR 3 11.28 3 + /0− S MLR 7 11.28 + 59.51 89.40 + car 84. 33.91 .00 + glass 21.82 + balance 85.29 73.74 S CMLR 5 85.23 3 + /0− Dominio Boosting australian 19.54 + 54.80 + 29. 69.25 .80 .88 + 88.75 S MLR 7 85. e o o Bagging 85. 50.Tabla 5. 36.10 .67 + 87.92 95.48 gana/pierde 4 + /0− Bagging 9.91 79.00 + 67.25 78.50 98. 76.07 76.11 S CMLR 7 85.43 .90 M EJOR CV 82. o e o o (+/− significa mejor/peor.34 .18 71.28 2 + /0− S MLR 3 8.95 . 10.49 76.96 99.76 + -5.52 3 + /0− 65 .13 76. -4.’. 11.94 Boosting 83.88 94.62 S MRMT 3 85.80 92.02 68.58 5 + /0− VOTO 1. M EJOR CV 27.45 .58 .32 86.83 + 33.02 .94 89.50 VOTO 86.25 .15 70.97 99.88 93.’ significa que no hay diferencia significativa).56 76. -3.51 + 44.29 2 + /0− S MRMT 7 9. 50.37 . 12.29 4 + 0− S CMLR 7 10.17 + -7. 9.81 + 29.96 86.02 76.96 76.33 Tabla 5.08 S CMLR 3 85.01 + -3.94 76.95 . MRM 58.56 93.65 89.13: Tasa de acierto (en %) de los m´ todos de construcci´ n de conjuntos y combinaci´ n de clasificadores.94 76.65 + 54.87 + 89.

15: N´ mero medio de clasificadores base en las soluciones encontradas por GAu Stacking.3 balance 9. Por ejemplo. el n´ mero de clasificadores est´ entre u a 9 y 10 clasificadores base que es el n´ mero m´ ximo que permite la configuraci´ n u a o G A S11 CP de GA-Stacking. los algoritmos utilizados por GA-Stacking para generar el clasificador del meta-nivel var´an de acuerdo al dominio. en la Figura 5. Random Forest (10/10) para los dominios car y balance. ı Naive Bayes (8/10) para australian. Como se puede ver. tienden a utilizar el mismo algoritmo para generar el clasificador de nivel-1.5 diabetes 9.4 glass 9. MLR (8/10) en diabetes y I Bk (7/10) en glass. Sin embargo.´ ´ CAPITULO 5. Como se puede apreciar.11 se muestran el n´ mero de carpetas (superiores a seis) en las que u aparece un algoritmo.15 se muestra la media del n´ mero de clasificadores base que u poseen las soluciones. se ha analizado el mejor de los individuos de la ejecuci´ n con mayor valor o en la funci´ n de fitness. Esto indica que de acuerdo al dominio. o Por otra parte.6 Descripci´ n de las Soluciones (Individuos) o Con la finalidad de observar la estructura de las configuraciones de Stacking obtenidas mediante GA-Stacking. en cuanto al clasificador del meta-nivel. o En la Tabla 5. los mejores individuos de cada carpeta. 117] o MRMT [40] para n generar el clasificador del meta-nivel proporciona buenos resultados sin importar los clasificadores base. de las tres ejecuo ciones de GA-Stacking llevadas a cabo en cada una de las carpetas de la validaci´ n o cruzada. En cuanto a los algoritmos utilizados para generar los clasificadores base. EVALUACION 66 Tabla 5. el algoritmo utilizado para generar el clasificador del meta-nivel en todas las carpetas es Random Forest. Estos resultados muestran . Por ejemplo. Dominio # de bases australian 9. la b´ squeda u realizada por los AG’s tiende a converger en un mismo algoritmo para generar el clasificador de nivel-1. en cada dominio existen entre tres y cuatro algoritmos que est´ n presentes por lo menos en 7 de las 10 carpetas de la a validaci´ n cruzada.4 car 9. se han analizados los mejores individuos de cada una de las carpetas de la validaci´ n cruzada estratificada. Es decir. Como se puede ver. Otros investigadores se˜ alan que utilizar MLR [132.12 se muestran los algoritmos utilizados para generar los clasificadores del meta-nivel en cada uno de los dominios utilizados. tanto en el dominio de balance como en el de car. en la Figura 5.

Los datos utilizados corresponden a la media del fitness observado en la validaci´ n cruzada.11: N´ mero de carpetas (seis o m´ s) en la validaci´ n cruzada en la que se utilizan u a o los algoritmos para generar los clasificadores de nivel-base en cada uno de los dominios utilizados.´ ´ CAPITULO 5. El comportamiento del fitness es muy parecido en todos los dominios: se produce el mayor incremento en las primeras generaciones y luego se mantiene en constante ´ crecimiento. EVALUACION 67 10 9 8 7 glass diabetes 6 Naive Bayes Part car c4. dado el conso a tante incremento del fitness. Adem´ s. incluso al llegar a la ultima generaci´ n. El fitness de cada o carpeta es el promedio de las tres ejecuciones llevadas a cabo en dicha carpeta. que adem´ s de las soluciones propuestas por otros investigadores.13 se puede apreciar la evoluci´ n de la funci´ n o o o de fitness para cada uno de los dominios utilizados. existen alternaa tivas a los algoritmos propuestos. Evoluci´ n del Fitness o Otro aspecto a tomar en cuenta en estos experimentos es el comportamiento de la funci´ n de fitness. Esto indica que existe una o evoluci´ n en las soluciones encontradas por GA-Stacking.5 IBk Decision Stump Decision Table MRMT Random Tree balance VFI Conjunctive Rule JRip Nnge Hyper Pipes australian Random Forest K* Figura 5. que dependen del dominio. es viable incrementar el n´ mero de generaciones con u la finalidad de encontrar mejores individuos. En la Figura 5. para el meta-nivel. MLR .

y basado en el trabajo de Frank et al. Discusi´ n de los Resultados o Al igual que los algoritmos basados en Stacking utilizados son variantes de S MLR.5 IBk Decision Stump Decision Table MRMT Random Tree Random Forest K* balance australian VFI Conjunctive Rule JRip Nnge Hyper Pipes MLR diabetes Figura 5. Seewald [117] presenta resultados experimentales en donde argumenta que S MLR se comporta peor en dominios multiclase (si se compara con dominios de dos clases).3. argumentan que en situaciones con z pocos clasificadores base.´ ´ CAPITULO 5.2). ˇ Recientemente. .12: N´ mero de carpetas en la validaci´ n cruzada en la que se utilizan los algoritu o mos para generar el clasificador del meta-nivel en cada uno de los dominios utilizados. se u ´ ve reducida. GA-Stacking est´ basado en Stacking con distribuciones de probabilidades a como datos del meta-nivel. Por ultimo. se˜ alan que Stacking con arboles de decisi´ n multi-respuesta o o n o (S MRMT) presenta un mejor rendimiento que Stacking con regresi´ n lineal multio respuesta dado el uso de distribuciones de probabilidades en el meta-nivel. la utilizaci´ n de la certeza de las predicciones prevaleo ce. Dˇ eroski y Zenko [41]. Esto es llevado a cabo mediante un algoritmo denominado S MLRE (ver secˇ ci´ n 3. la ventaja comparativa de S MLRE sobre S MLR. lo mismo que S MLR. EVALUACION 68 10 9 8 7 6 5 4 3 2 glass 1 car 0 Naive Bayes Part c4. En sus resultados Dˇ eroski y Zenko muestran que al incrementar el o z n´ mero de clasificadores base. [46] sobre la clasifi´ caci´ n por regresi´ n. Seewald argumenta que este decremento puede ser causado por la dimensionalidad de los datos del meta-nivel y sugiere como mejora la reducci´ n de esta dimensionalidad (lo que lleva a cabo o S CMLR).

4 87. EVALUACION 69 australian 88. GA-Stacking es capaz de encontrar configuraciones de Stacking con distribuciones de probabilidades en el metanivel.8 87. o ˇ Dˇ eroski y Zenko [41] concluyen que S MRMT posee un mejor rendimiento z que S MLR y que S CMLR.5 94 93.8 88.2 88 87.6 78.2 77 0 5 10 15 diabetes 20 25 30 35 Generaciones resumen 40 45 50 glass 80 79 78 77 76 75 74 73 72 71 0 5 10 15 20 25 30 Generaciones resumen 35 40 45 50 Precisión Figura 5. argumentan que.13: Evoluci´ n del fitness en los dominios utilizados.2 87 86.2 97 96.4 97.5 92 0 5 10 15 balance Precisión Precisión 20 25 30 35 Generaciones resumen 40 45 50 car 98 97.4 0 5 10 15 20 25 30 35 Generaciones resumen 40 45 50 Precisión 79 78.6 Precisión 97. aparentemente.8 77. que en el 80 % de los dominios utilizados logra una mejora relativa sobre todos los m´ todos de construcci´ n de conjuntos y combinaci´ n de clasificadores e o o superior al 29 %. Se˜ alan que la ventaja de S CMLR sobre S MLR es la n reducci´ n de la dimensionalidad de los datos del meta-nivel.5 95 94.6 88. pero que se deja a o un lado informaci´ n importante.4 78.8 0 5 10 15 20 25 30 35 Generaciones resumen 40 45 50 96. o o S MRMT es capaz de manejar el problema de la dimensionalidad sin dejar datos a un lado y haciendo uso de estos.6 77.2 78 77. Y en un 40 % de los dominios la mejora es significativamente mejor si se compara con S CMLR y S MRMT.4 77. En ninguno de los dominios utiliza- .4 88.6 87.6 96. Como se ha visto en las secciones anteriores.8 97.5 96 95.5 93 92.´ ´ CAPITULO 5. Por esta raz´ n.8 78.8 96.

las soluciones propuestas por GA-Stacking tienden a converger en un mismo algoritmo para generar el clasificador del meta-nivel el cual puede variar de acuerdo al dominio. o . Por otra parte. qu´ y cu´ ntos algoritmos tienen que ser e a utilizados para generar el conjunto de clasificadores depende en gran medida de los datos del dominio. En resumen. por lo que fijar una configuraci´ n “a priori” puede llevar a o obtener conjuntos de clasificadores sub-´ ptimos. EVALUACION 70 dos. cualquiera de los m´ todos utilizados son significativamente mejores que las e soluciones encontradas por GA-Stacking.´ ´ CAPITULO 5.

Cap´tulo 6 ı

Conclusiones y Trabajos Futuros
En esta primera parte de la tesis se ha presentado un m´ todo que combina e algoritmos gen´ ticos y un algoritmo de generaci´ n de conjuntos de clasificadores e o heterog´ neos con la finalidad de obtener la mejor configuraci´ n de clasificadores e o para un dominio dado (GA-Stacking). Como se ha visto, Stacking es una t´ cnica e de generaci´ n de conjuntos de clasificadores heterog´ neos que utiliza dos niveles o e de aprendizaje. En el primer nivel de aprendizaje o nivel base se utilizan datos del dominio como entrada. Por otra parte, en el segundo nivel o meta-nivel, los datos son generados a partir de las predicciones de los clasificadores del nivel base. Al utilizar el conjunto generado por Stacking para clasificar un nuevo ejemplo, este es dado a los clasificadores del nivel base y bas´ ndose en las predicciones a ´ de estos, el clasificador del meta-nivel determina la clase a la que pertenece el ejemplo. Un problema inherente a Stacking es determinar cu´ les algoritmos deben a ser utilizados para generar los clasificadores del primer nivel y qu´ algoritmo debe e ser utilizado para generar el clasificador del segundo nivel. A pesar de que existen diversos estudios relacionados con la configuraci´ n de estos par´ metros, no existe o a un consenso sobre los valores que deben tomar los mismos. En esta tesis se propone un m´ todo basado en algoritmos gen´ ticos para dee e terminar la configuraci´ n optima de los par´ metros de Stacking para un dominio o ´ a dado. Bas´ ndose en la variante de Stacking que utiliza distribuciones de probabia lidades como datos del segundo nivel, GA-Stacking lleva a cabo una b´ squeda en u el espacio de combinaciones de algoritmos y sus par´ metros de aprendizaje, con a el prop´ sito de determinar la configuraci´ n optima de Stacking para un dominio o o ´ dado. A fin de estimar la influencia de los par´ metros de aprendizaje asociados al a m´ todo propuesto, se han realizado experimentos en dieciocho dominios con el fin e de determinar la mejor configuraci´ n de estos par´ metros. o a Con el prop´ sito de validar el m´ todo propuesto, se han llevado a cabo experio e mentos utilizando cinco dominios para medir su rendimiento frente a variantes de 71

´ CAPITULO 6. CONCLUSIONES Y TRABAJOS FUTUROS Stacking y otros m´ todos de generaci´ n de conjuntos. e o

72

6.1.

Conclusiones

Las principales conclusiones que se extraen al analizar los resultados obtenidos en la evaluaci´ n del m´ todo propuesto se exponen a continuaci´ n. o e o GA-Stacking posee, adem´ s de los par´ metros inherentes a los algoritmos gen´ tia a e cos, tres par´ metros adicionales: el n´ mero m´ ximo de posibles clasificadores baa u a se, el n´ mero de algoritmos de aprendizaje disponibles y la opci´ n de incluir los u o par´ metros de aprendizaje de estos algoritmos en el proceso de b´ squeda. Coma u binando estos par´ metros se han evaluado seis configuraciones de GA-Stacking. a Analizando los resultados obtenidos por las configuraciones evaluadas se demuestra que el ampliar el espacio de b´ squeda, no implica que se obtendr´ una mejora u a significativa en las soluciones encontradas. Por ejemplo, si s´ lo se incrementa el o n´ mero de posibles clasificadores base, los resultados muestran que, a igual n´ meu u ro de generaciones, se pueden obtener resultados inferiores a los obtenidos por configuraciones de GA-Stacking con menos clasificadores. Sin embargo, si adem´ s a de incrementar el n´ mero de clasificadores, se incluyen los par´ metros de aprendiu a zaje de los algoritmos que los generan, los resultados mejoran significativamente. Con el prop´ sito de comparar GA-Stacking con otros algoritmos de generao ci´ n de conjuntos, incluyendo las variantes m´ s recientes de Stacking, se utiliz´ la o a o versi´ n de GA-Stacking cuyo espacio de b´ squeda es mayor. o u Los resultados emp´ricos demuestran que las soluciones que encuentra GAı Stacking generan conjuntos de clasificadores que al ser comparados con los m´ toe dos de generaci´ n de conjuntos homog´ neos, Bagging y Boosting, muestran meo e jores resultados. De igual forma, si se compara con el mejor de los clasificadores generados por los algoritmos disponibles seleccionado por validaci´ n cruzada o o con la combinaci´ n estos a trav´ s de votos, los resultados de GA-Stacking siguen o e siendo mejores. Por otro lado, al comparar los resultados de GA-Stacking con las variantes de Stacking m´ s recientes, los resultados var´an de acuerdo a la configuraci´ n propia a ı o de cada algoritmo. Pero, en cualquier caso, GA-Stacking obtiene mejores resultados en la mayor´a de los dominios utilizados. ı Las principales diferencias de GA-Stacking con respecto a los trabajos previos ´ relacionados con Stacking es que en este no se seleccionan “a priori” algunos de los par´ metros de Stacking. Por ejemplo, no se determinan con anterioridad a la consa trucci´ n del conjunto de clasificadores par´ metros como: qu´ algoritmo debe ser o a e utilizado para generar el clasificador del meta-nivel, los par´ metros de aprendizaje a de este algoritmo, el n´ mero de clasificadores base, cu´ les de los algoritmos dispou a nibles utilizar para generar los clasificadores base, ni los par´ metros de aprendizaje a

´ CAPITULO 6. CONCLUSIONES Y TRABAJOS FUTUROS de estos algoritmos.

73

La principal ventaja de GA-Stacking es su flexibilidad y el no fijar “a priori” de los par´ metros de aprendizaje de Stacking. Este sistema es muy extensible. a GA-Stacking se puede beneficiar de nuevos algoritmos de aprendizaje puesto que estos pueden ser f´ cilmente incorporados en el grupo de algoritmos disponibles, a al igual que sus par´ metros de aprendizaje, con cambios leves en la codificaci´ n a o del cromosoma. Otra ventaja de GA-Stacking es que las soluciones que encuentra son dependientes del dominio en el cual se aplica, como se puede ver en el an´ lia sis de las soluciones encontradas. De esta manera, GA-Stacking se adapta a los bias y atributos del dominio, mientras de los otros enfoques establecen la misma configuraci´ n, independientemente del dominio en el que se apliquen. o

6.2.

Limitaciones

La principal limitaci´ n de GA-Stacking es el recurso computacional que reo quiere para encontrar la configuraci´ n optima de Stacking si se compara con el o ´ resto de los algoritmos que utilizan una configuraci´ n fija. Sin embargo, es imporo tante se˜ alar que, una vez encontrada la configuraci´ n y construido el conjunto de n o ´ clasificadores, la eficiencia de este es id´ ntica a la de un conjunto de clasificadores e construido por otro m´ todo de generaci´ n de conjuntos de clasificadores, depene o diendo, evidentemente, del n´ mero de clasificadores que formen parte del mismo. u

6.3.

L´neas de Investigaci´ n Futuras ı o

El trabajo desarrollado en esta parte de la tesis plantea l´neas de investigaci´ n ı o que pueden ser estudiadas y desarrolladas en un futuro. Entre estas l´neas se proı ponen las siguientes: Al incrementar la cantidad de algoritmos disponibles e incluir los par´ metros a ´ de aprendizaje de estos, el espacio de b´ squeda se incrementa de manera u notable. Al llevar a cabo la comparaci´ n de las diferentes configuraciones o de GA-Stacking, se opt´ por seleccionar la versi´ n que llevaba a cabo la o o b´ squeda en el espacio m´ s amplio. Los resultados demuestran que el valor u a de la funci´ n de fitness mantiene un constante crecimiento incluso al llegar o al l´mite de generaciones fijado. Es necesario llevar a cabo un estudio con ı la finalidad de determinar el n´ mero adecuado de generaciones necesarias u para lograr la convergencia de las soluciones en las distintas versiones de GA-Stacking. Otro factor a tomar en cuenta en futuros trabajos, es la influencia de la codificaci´ n de las soluciones utilizadas. Se plantea la utilizaci´ n de una codio o

Dados los resultados obtenidos al utilizar AG’s e en el proceso de optimizaci´ n de los par´ metros de Stacking. o e o . con una tabla de dominancias. si dos conjuntos poseen la misma precisi´ n. CONCLUSIONES Y TRABAJOS FUTUROS 74 ficaci´ n diploide en donde se codifiquen por separado los algoritmos y sus o par´ metros de aprendizaje. a Dos de las variantes de Stacking estudiadas. Adem´ s de Stacking. ambos tienen el mismo fitness. Sin embargo. Por esta raz´ n se plantea modificar la funci´ n de fitness con o a o o la finalidad de encontrar configuraciones simples y precisas. se plantea la o a ´ posible aplicaci´ n de estos a otras t´ cnicas de generaci´ n de conjuntos. o Al evaluar la funci´ n de fitness. o o Estas variaciones pueden ser incluidas en GA-Stacking con la finalidad de determinar el tipo de datos de meta-nivel m´ s adecuado a un dominio o cona figuraci´ n de Stacking dada. deber´a primar la soluı ci´ n m´ s simple. S MRLE y S CMLR. existen otras t´ cnicas de generaci´ n de conjuntos de a e o clasificadores heterog´ neos.´ CAPITULO 6. con el fin de hacer a m´ s flexible el proceso de aprendizaje. llevan a cabo una ampliaci´ n o reducci´ n de los datos del meta-nivel respectivamente. o pero siguiendo el principio de la navaja de Occam. GA-Stacking s´ lo toma en cuenta la precisi´ n o o o de un conjunto de clasificadores generado a partir de Stacking.

Parte III Modelado de Agentes mediante Aprendizaje Autom´ tico a 75 .

pero esta vez el nuevo entrenador emplea la tecn nolog´a como parte del entrenamiento de su equipo y hace que sus jugadores obserı ven una y otra vez una serie de v´deos de partidos anteriores del equipo contrario. La experiencia y los conocimientos de los miembros del equipo pasan a ser de vital importancia para llevar a cabo la misi´ n. Los ejemplos que se han mencionado pueden corresponder a situaciones de la vida real en donde el conocimiento que se posea de los miembros del equipo contrario. ı Los defensas observan detalladamente las jugadas ensayadas de los delanteros rivales y los delanteros hacen lo propio con relaci´ n a la posici´ n y distribuci´ n de la o o o defensa rival. pero la defensa del equipo est´ preparada a y observa cuidadosamente el comportamiento del rival y utiliza esta informaci´ n o para evitar que los delanteros profundicen por las bandas y puedan penetrar en su ´ area. o de los otros miembros del equipo del que forma parte. de tal forma que pueda utilizar este conocimiento en busca de mejor rendimiento. aquel rival al que no ha u ´ podido ganar en los ultimos a˜ os.Cap´tulo 7 ı Introducci´ n o Un equipo de f´ tbol vuelve a jugar con un antiguo rival. en el caso de situaciones competitivas. el equipo est´ preparado y da comienzo ı a el partido pero el equipo contrario est´ alineando delanteros no habituales y que a no juegan como juegan los habituales. Cada uno de o los miembros del equipo puede utilizar la informaci´ n de su radar para detectar o los movimientos de los dem´ s miembros del equipo y es capaz de interpretar los a ´ mismos de tal manera que se lleve a cabo una estrategia colectiva y el area enemiga sea reconocida sin ninguna baja. o o 76 . Lo que el entrenador busca es que su equipo aprenda de lo sucedido en el pasado. en caso de situaci´ n colaborativa. Una vez llegado el gran d´a. Un comando de elite del ejercito est´ realizando un reconocimiento a´ reo del a e ´ area enemiga y el comandante en jefe da la orden de silencio absoluto. no puede haber ninguna comunicaci´ n entre los miembros del equipo para evitar ser deteco tados por el enemigo. proporcionan informaci´ n o o ´ util a la hora de tomar una decisi´ n y de llevar a cabo una acci´ n.

o Por esta raz´ n. Por otro lado. Con tal fin se han utilizado una variedad de t´ cnicas e para obtener el modelo de un agente. INTRODUCCION 77 ´ El incremento en la investigaci´ n en la ultima d´ cada en lo referente a los o e agentes y sistemas multiagentes ha propiciado que existan ambientes simulados en donde los agentes se enfrentan a situaciones de la vida real como las descritas ´ con anterioridad. es decir. En primera instancia. Este tipo de t´ cnicas denominadas IOAM (del e ´ ingl´ s Input-Output Agent Modeling). se propone un nuevo enfoque que utiliza t´ cnicas de aprendizaje o e autom´ tico para superar esta dificultad. entre otras. modelar a los otros agentes. [81] el modelado de agentes se puede definir como el mou delado y razonamiento acerca de las metas. En esta tesis doctoral se utiliza el enfoque que plantean las t´ cnicas IOAM.´ ´ CAPITULO 7. La propuesta para llevar a cabo la tarea de modelar un agente utilizando t´ cnicas de aprendizaje autom´ tico se describe e a en el cap´tulo 9. en el cap´tulo 8 se da una panor´ mica general del estado del arte en ı a cuanto a modelado de agentes se refiere. ı Otra manera de modelar el comportamiento de un agente es considerarlo como una caja negra e intentar modelar su comportamiento en t´ rminos de la relaci´ n e o existente entre sus entradas y salidas. a Seg´ n Kitano et al. entre las que se pueden mencionar las que han utilizado t´ cnicas recursivas [55. en la mayor´a de los entornos en donde intervienen agentes no se ı puede tener acceso directo a las entradas y salidas del agente a modelar. en el cap´tulo 12 se presentan las conclusiones ı y trabajos futuros. capacidades o emociones de otro agente. Adem´ s. una de las areas de investigaci´ n que m´ s auge o a ha tenido en cuanto a lo que agentes se refiere. Esta situaci´ n plantea un problema al enfoque basado en las entradas y salidas del agente. a o A fin de introducir al lector en el tema tratado en esta segunda parte de la tesis doctoral. se propone utilizar t´ cnicas de a a e aprendizaje autom´ tico en la fase de utilizaci´ n del modelo. planes. e Es decir. A diferencia de otros enfoques IOAM utilizados en el ´ area de modelado de usuarios. que los agentes se pueden modelar a partir de sus entradas y salidas. campo relacionado con el modelado de agentes. se plantea la utilizaci´ n de t´ cnicas de aprendizaje autom´ tico o e a con la finalidad de construir modelos de los agentes que interact´ an con el agente u que construye el modelo. es la capacidad de un agente de obtener informaci´ n del oponente o de un compa˜ ero e intentar saber cu´ l es el o n a comportamiento que est´ llevando a cabo. se pretende aplicar el enfoque propuesto a dominios din´ micos y complejos con la finalidad de identificar el tipo de t´ cnicas necesarias a e para construir el modelo del agente. Recientemente. . Finalmente. 58]. conocimientos. En el cap´tulo 10 muestran los resultados obtenidos al evaluar la ı ı propuesta presentada. han sido utilizadas con exito en el modelado e de usuarios. aut´ matas finitos [17] y t´ cnicas probae o e bil´sticas [126].

Adem´ s. Una de las definiciones m´ s a aceptadas es la de Wooldridge [146] en donde establece como requisitos fundamentales que debe poseer el agente. el modelado de agentes. ¿Qu´ es un Agente? e A pesar del creciente n´ mero de investigaciones que se han realizado y se est´ n u a ´ ´ realizando dentro del area de agentes en los ultimos a˜ os. se puede encontrar un compendio de definiciones y teor´as de ı agentes. 147]. y en lo que todas estas definiciones parecen estar de acuerdo es en el concepto de autonom´a (i. benevolencia. o o ´ A continuaci´ n se presentan las investigaciones relacionadas con el area de moo delado de agentes. representado por la teor´a de juegos a ı hasta el reconocimiento de planes. Existe una e gran cantidad de definiciones de lo que es un agente. que puede ı actuar independiente de otros). su autonom´a. veracidad y racionalidad. sociabilidad. La revisi´ n de la literatura comienza con la definici´ n del concepto de agente. Las dem´ s cualidades que debe tener un agente dea penden del entorno en donde se defina el concepto. capacidad para ı reaccionar y para tomar la iniciativa. no existe una definici´ n n o aceptada por todos los implicados en lo referente al t´ rmino “agente”.e.Cap´tulo 8 ı Estado del Arte En este cap´tulo se da una perspectiva global de las investigaciones relacionaı das con el segundo tema abordado en esta tesis doctoral. agrega otras caracter´sticas menos a ı convencionales a los agentes como movilidad. 78 . 8.1. En [70. desde el enfoque cl´ sico.

las investigaciones sobre modelado de agente se han visto incrementadas especialmente desde el punto de vista de los Sistemas Multiagentes [122. Modelado de Agentes En dominios competitivos. monitorizaci´ n de aplicaciones distribuidas o o y modelado de usuario. diagn´ stico. o o ´ Las investigaciones dentro del area de modelado de agentes se han desarrollado en una gran variedad de dominios tales como modelado de oponentes en situaciones competitivas. Por ejemplo.2. seguimiento de o agentes y coordinaci´ n basada en observaci´ n. detecci´ n de fallos.1. el poseer informaci´ n acerca de un compa˜ ero adquirida mediante la o n observaci´ n del comportamiento del mismo. conlleva un ahorro de recursos y permite utilizar los conocimientos o ı adquiridos en el momento de tomar una decisi´ n de c´ mo actuar [127]. en dominios coo o laborativos. modelado de usuario. entre otras. capacidades o emociones de otro agente [81]. Otros conceptos que se asocian con el modelado de agentes son: el reconocimiento de planes. el objetivo es poder jugar optimamente contra un oponente. 8. desde el punto de vista cl´ sico. En ı un principio los enfoques se centraban en la mec´ nica del juego pero despu´ s se a e comprendi´ que la utilizaci´ n del conocimiento acerca del oponente pod´a increo o ı mentar la eficacia del sistema. lo que va a hacer el oponente o y actuar en funci´ n de dicha predicci´ n [137]. ESTADO DEL ARTE 79 8. u La utilizaci´ n de un modelo del oponente no es algo nuevo. Enfoque cl´ sico . Es por eso que se puede considerar a la Teor´a de ı Juegos como la base del modelado de agentes. planes. En las siguientes secciones se hace una revisi´ n de o o los distintos modos de abordar este problema. de alguna manera. Recientemente. la Teor´a de Juegos examina el comportamiento ese ı trat´ gico para la toma de decisiones por parte de los participantes en situaciones de e conflicto.2. 78] y la Interacci´ n Hombre-M´ quina debido sobre todo a la utilidad de poo a seer un modelo de los agentes con que se interact´ a (agente o humano) [9]. razonamiena to bayesiano. De igual forma. reconocimiento de comportamiento.´ CAPITULO 8.Teor´a de Juegos a ı En t´ rminos generales. Tambi´ n son muchas las t´ cnicas que se han e e utilizado para abordar este tema como son el aprendizaje autom´ tico. etc. sin tener que recurrir a una comunicao ci´ n expl´cita. dado que se puede utilizar esta informaci´ n para predecir. monitorizaci´ n de agentes. en o ´ Teor´a de Juegos. se basa en la construcci´ n ı a o . o o La tarea de modelar un agente se puede definir como el modelado y razonamiento acerca de las metas. el conocer datos acerca del conocimiento que posee un oponente u oponentes proporciona una clara ventaja. La Teor´a de Juegos. conocimientos.

el o objetivo de esta tesis doctoral es la creaci´ n de un marco que permita el modelado o de agentes en entornos con informaci´ n incompleta. se asume a que el oponente (AGENTE A) act´ a para maximizar sus beneficios lo cual. Por otra parte. Otra de las suposiciones que se encuentran detr´ s del algoritmo minimax es a que no se posee informaci´ n acerca del proceso de toma de decisiones del opoo nente. hace que la comprobaci´ n u o recursiva de todos los posibles estados no sea factible. luego aplica el modelo del oponente sobre ´ cada sucesor para obtener la respuesta del oponente. puede resultar dif´cil la creaci´ n de una funci´ n de evaluaci´ n eficiente y precisa. En dicho trabajo u se asume que existe un conjunto fijo de modelos que abarcan a todos los posibles oponentes. Al seleccionar una acci´ n que llevar a cabo. ruidosa. Sin embargo. En otras palabras. sea lo peor para el modelador (AGENTE B). ı o o o En un trabajo posterior [17]. Carmel y Markovitch presentan un m´ todo donde e el modelo del oponente es inferido bas´ ndose en su comportamiento previo (ena . seg´ n [74] en juegos u complejos un agente puede actuar de manera sub-´ ptima puesto que es muy dif´cil o ı ´ o imposible encontrar una estrategia optima.´ CAPITULO 8. minimax es un algoritmo dise˜ ado para dominios con contrinn cantes (por turno). Tambi´ n se asume e que los jugadores son racionales. Carmel y Markovitch definen el modelo del oponente como una estructura recursiva que est´ formada por la funci´ n de evaluaci´ n del oponente y su a o o modelo de jugador. ESTADO DEL ARTE 80 de una matriz que permite entender el conflicto entre las partes involucradas y sus posibles soluciones. Por esta raz´ n Carmel y Markovitch [16] proponen una generalizaci´ n del o o mismo para que incorpore modelos de oponentes en la b´ squeda. el algoritmo M ∗ o genera los sucesores del estado actual. Al igual que el minimax. De la misma manera se asume que el jugador conoce la utilidad propia y la del contrario. En el enfoque cl´ sico. es decir. Por ultimo. que pueden recibir al llevar a cabo una jugada. con un espacio cono tinuo de acciones y en donde no hay turnos. Por otra parte. Un ejemplo de t´ cnicas utilizadas en Teor´a de Juegos para juegos con opoe ı nentes es el algoritmo de b´ squeda minimax. que buscan el m´ ximo beneficio propio a (utilidad). este algoritmo est´ dise˜ ado para juegos de turnos y a n no se pueden aplicar directamente a sistemas multiagente en donde se interact´ e u por turnos. informaci´ n completa y acciones discretas. Por otra parte. eval´ a cada una de u estas respuestas aplicando el algoritmo de manera recursiva (con una profundidad definida). Minimax asume que se conocen las u posibles acciones que puede llevar a cabo el oponente al igual que se supone que ´ dicho contrincante est´ actuando de manera optima. Por el contrario. probau blemente. se asume que un jugador posee un a conjunto de las posibles acciones que puede realizar y que en cada jugada conoce dicho conjunto. al igual que conoce el conjunto de acciones que puede realizar el oponente. la utilizaci´ n de este algoritmo en sistemas en donde el o n´ mero de acciones posibles a realizar no sea discreto.

ı La mayor parte de las aplicaciones del aprendizaje autom´ tico al modelado a de usuarios se centran en los dos primeros puntos. las investigaciones dentro del area de recuperaci´ n de la informaci´ n se han visto incrementadas. Este tipo de t´ cnicas han sido utilizadas con exito en el modelado e de estudiantes. se utiliza este (predicciones) para dise˜ ar n la estrategia que maximice la recompensa del agente modelador en un entorno de juego repetitivo de dos jugadores. ı Entre los distintos enfoques utilizados para encarar el problema del modelado de usuarios se encuentra el aprendizaje autom´ tico.´ CAPITULO 8. Seg´ n Webb [143]. En principio este campo era designado con el nombre de modelado de estudiantes. dependiena u ´ do del prop´ sito para el cual se desee adquirir el modelo del usuario.2. o caracter´sticas del usuario. los modelos de usuarios pueden buscar describir: o u los procesos cognitivos detr´ s de las acciones del usuario a las diferencias entre las habilidades del usuario y las habilidades del experto los patrones de comportamiento del usuario o preferencias del usuario.RBM) [86]. De igual forma posee una alta sensibilidad al ruido. o Se define modelo de estudiante como una aproximaci´ n.FBM) que se centra en la adquisici´ n de patrones de comportamiento o del usuario y no en intentar modelar el proceso cognitivo subyacente. de una representaci´ n cualitativa del conocimiento del estudiante sobre un o dominio. Puesto que el AFD utiliza una tabla de observaciones para mantener un modelo consistente con el comportamiento del oponente. lo que ha provocado el o o cambio de denominaci´ n [143]. ESTADO DEL ARTE 81 trada/salidas). este var´a en o ı su formaci´ n. posiblemente paro cial. tema o caracter´stica del dominio particular. Sin embargo en [142] Webb presenta un paradigma para el modelado basado-en-caracter´stica (Feature-Based ı Modeling. Una vez que se posee el modelo. Por ejemplo el modelado basado en la relaci´ n (Relational Based o Modeling . El trabajo de Webb es un ejemplo del tipo de t´ cnicas denominadas IOAM (Input-Output e ´ Agent Modeling). teniendo en cuenta total o ı parcialmente los aspectos espec´ficos del comportamiento del estudiante [119]. este enfoque se ve limitado a dominios discretos. el FBM y el C4.5-IOAM [21] han demostrado una alta . 8. Carmel y Markovitch limitan las estrategias del oponente a estrategias que puedan ser modeladas con un AFD.2. Seg´ n Webb. Modelos de Usuarios ´ Otra area de estudio relacionada con el modelado de agentes es el modelado de usuario o user modeling. pero debido al el incremento del comercio electr´ nico o ´ y las aplicaciones en la world-wide-web. Este modelo es representado como un aut´ mata finito determinista o ´ (AFD).

o En [136] van Beek y Cohen estudian el reconocimiento de planes en sistemas pregunta-respuesta. o ´ Existe una gran cantidad de investigaciones realizadas en el area de recono´ cimiento de planes en las ultimas dos d´ cadas.5. Pollack [104] hace una formalizaci´ n l´ gica del reconocimiento de planes en o o situaciones en donde los agentes pueden construir planes inv´ lidos. Esta investigaci´ n es considerada como la base de una gran parte de los trabajos de o reconocimiento de planes [60]. a diferencia o de la planificaci´ n tradicional. Por ejemplo.3. Es decir. sino como actitudes mentales complejas. no como una f´ rmula est´ tica que determina o a una acci´ n. 8. permita generar una respuesta apropiada. e a con representaci´ n atributo-valor. a continuos. Este trabajo est´ relacionado con [68]. Tanto el FBM como o o el RBM utilizan m´ todos de inducci´ n dise˜ ados para esta tarea. mantiene una relaci´ n o con la planificaci´ n tradicional en Inteligencia Artificial.5-IOAM utiliza C 4. ESTADO DEL ARTE 82 precisi´ n en la predicci´ n en el dominio de la resta elemental. mientras que e o n C4. a principios de los e a˜ os 80 Cohen et al. en donde Hua ber et al. en donde los atributos son las caracter´sticas de o ı las acciones y del contexto de las tareas. u o Charniak y Goldman [19] proponen un enfoque probabil´stico general para el ı reconocimiento de planes que puede expl´citamente razonar sobre la incertidumı bre en sistemas multiagente. [24] distinguen entre dos clases de reconocimiento de planes.5 [110] como mecanismo de inducci´ n. etc). en donde X es un conjunto de caracter´sticas del entorno y ı a es una acci´ n simple. Kautz y Allen [80] definen el reconocimiento de planes como el problema de identificar un conjunto m´nimo de ı acciones de alto nivel suficientes para explicar el conjunto de acciones observadas. n los denominados “Key hole” y los intencionados. argua a menta que un plan puede ser visto. Plantean la necesidad de resolver o no la ambig¨ edad utilizando la comunicaci´ n con el usuario. en la cual la tarea principal es la generaci´ n de una o o serie de pasos a seguir para llegar a una meta y la ejecuci´ n de dicho plan consiste o en la aplicaci´ n secuencial de las acciones planificadas. o En esta tesis se utilizan t´ cnicas de aprendizaje autom´ tico. aunque se aplica a otro tipo de dominios (din´ micos. detr´ s de las a preguntas del usuario. como su nombre indica. El presente trabajo utiliza este enfoque a la hora de adquio rir el modelo de otro agente. Adem´ s. en el reconocimiento de o planes la tarea principal es la inferencia del plan o planes que est´ siguiendo un a agente a partir de la observaci´ n de sus acciones. entre ellas C 4. Reconocimiento de Planes El reconocimiento de planes. de tal forma que este reconocimiento del plan.´ CAPITULO 8. ruidosos.2. describen m´ todos que trasladan los posibles planes que puede ejecutar e otro agente generados por un planificador a redes de creencias probabil´sticas para ı . Sin embargo. el modelo adquirido posee relaciones del tipo X → a.

Al igual que Charniak y Goldman [19] y Huber [68]. Huber estudia el uso del reconocimiento probabil´stico de planes aplicados a la coordinaci´ n por observaci´ n en el ı o o 1 . reconocimiento de planes y seguimiento de objetos para el reconocimiento de t´ cticas militares durante batallas de entrenamiento. Recientemente Goldman et al. Esta t´ cnica est´ basada en lo que se conoe a ce como reconocimiento de planes reactivos y elaborado para funcionar en tiempo real y con aplicaci´ n pr´ ctica en dominios militares con informaci´ n parcialmente o a o ´ observable. Intille y a Bobick [73] presentan un marco probabil´stico para reconocer jugadas de f´ tbol ı u americano. Las jugadas est´ n descritas en forma de metas para los agentes y lia mitadas por restricciones temporales entre las acciones. RESC utiliza una t´ cnica de retroceso para recuperarse de los fallos a e que se puedan dar por la presencia de ambig¨ edades. Adem´ s. Huber utiliza el enfoque anterior aplic´ ndolo a la monitorizaci´ n del trabajo de equipos en un dominio mia o litar de reconocimiento. incentivado. o Tambe [128] presenta un algoritmo para el “seguimiento de agentes” en entornos flexibles y reactivos (RESC: REal-time Situated Commitments). Algunos autores no consideran esta investigaci´ n dentro del area de o reconocimiento de planes porque no se ci˜ e estrictamente a la definici´ n dada por n o Kautz y Allen [80]. En [69].´ CAPITULO 8. Mediante RESC un agente puede llevar a cabo el seguimiento de otro agente infiriendo una jerarqu´a de operadores (del agente modelado) aprovechando su propia arquitecı tura. sobre todo. Cabe se˜ alar que en esn te trabajo el agente que monitoriza no ejerce ninguna influencia sobre el agente monitorizado. por lo poco fiable y costoso de las comunicaciones en este dominio. De esta forma ejecuta el modelo del otro agente y compara las predicciones generadas por el modelo con las acciones del otro agente para verificar posibles fallos. Devaney y Ram [29] realizan una combinaci´ n de reconocimiento de patroo nes. Los agentes se desarrollan u utilizando la arquitectura SOAR [88]. En [67]. En cambio otros autores la consideran como reconocimiento 1 Netrek es un juego de simulaci´ n de batalla multijugador basado en Start Trek o . utilizan redes de creencias para incorporar las observaciones. Washington [139] propone una variante del reconocimiento de planes en la coordinaci´ n con otros agentes o procesos representados como Procesos de Decio si´ n de Markov Parcialmente Observables (POMDP). Huber demuestra que los agentes que utilizan el reconocimiento dominio Netrek de planes para coordinarse superan a los agentes que utilizan comunicaci´ n para o coordinarse. [60] presentaron un marco probabil´stico para el ı reconocimiento de planes basado en la ejecuci´ n de los planes y no en la concepo ci´ n de los planes como objeto formal. ESTADO DEL ARTE 83 respaldar la tarea de reconocimiento de planes. De igual forma. Ambas investigaciones utilizan datos generados a partir de agentes humanos. Washington se enfoca sobre o todo en hacer este proceso computacionalmente tratable.

4. La representaci´ n que utiliza RESL es similar a la que utiliza RESCteam con la difeo rencia de que cuando RESCteam se utiliza en entornos no colaborativos utiliza una heur´stica del peor-coste. La tarea del agente ı entonces es identificar cu´ l de estos planes es el que est´ siguiendo el otro agente. u Las investigaciones sobre reconocimiento de planes citadas hasta este punto asumen que el agente modelador posee cierto conocimiento acerca de los planes que puede ejecutar el agente modelado.e. Otros Enfoques en Sistemas Multiagentes Adem´ s de los m´ todos utilizados para el modelado de agentes que se han a e mencionado. un agente puede representar y utilizar el ı conocimiento que posee sobre sus pagos esperados al realizar una acci´ n y el pago o que reciben los dem´ s mediante las matrices de pago. como equipos y no como agentes individuales. 57. Mediante RMM. librer´a de planes. Los o o o modelos de equipo que utiliza est´ n basados en el Marco de Intenciones Conjuna tas [23]. complejas. [78]. en series temporales de comportamientos at´ micos reconocidos que luego o son analizados para encontrar subsecuencias repetidas de eventos que caractericen el comportamiento de un equipo. ESTADO DEL ARTE de planes reactivos. desarrollan un algoritmo de reconocimiento de planes reactivos llamado RESL (REal-time Situated Least-commitment). 39. Para llevar a cabo esto. RESCteam se enfoca expl´citamente en la explotaci´ n del razonamiento ı o del trabajo en equipo. existen ı otro grupo de trabajos relacionados con el modelado de agentes propiamente dicho. Una vez almacenados los eventos en un trie [82] utiliza t´ cnicas estad´sticas que permitan e ı realizar un an´ lisis estad´stico de los eventos en busca de secuencias de comportaa ı miento. continuas y multivariadas correspondientes a los estados del a mundo.´ CAPITULO 8. RESCteam est´ basado en RESC. Entre estos m´ todos se puede se˜ alar el M´ todo de Modelado Recursivo (Ree n e cursive Modeling Method . 101] muy relacionado con la teor´a de juegos. 8.2. Kaminka et al. proponen t´ cnicas para convertir entradas e din´ micas. i. basados en la teor´a de juegos y el reconocimiento de planes. Este m´ todo es recursivo porque un agente A puede modelar a o e . a a Por otra parte. 56. [79]. 58. asignaci´ n de roles y desviaci´ n de sub-equipos. De esta manera un agente a puede modelar el estado interno de otro agente y sus estrategias a la hora de llevar a cabo una acci´ n. pero incluye mejoras para afrontar la tarea de a formaci´ n de sub-equipos.RMM) [38. En cambio. 84 En [127] Tambe ampl´a el trabajo realizado en [128] con el fin de reconoı cer planes ejecutados por equipos. Kaminka et al. 55. RESL o permite la representaci´ n de varias hip´ tesis y la utilizaci´ n de distintos m´ todos o o o e de eliminar la ambig¨ edad. De esta forma s´ lo razona sobre las hip´ tesis que impliı o o can el mayor costo para el agente que realiza la monitorizaci´ n. se utilizan “reconocedores” que interpretan las entradas de los sensores en busca de “eventos”.

Presentan un marco para crear modelos de agentes basados en sus capacidades. Este trabajo considera la versi´ n “on-line” del modelado de agentes y utilio za como dominio de prueba un sistema de subastas (doble). Hu y Wellman [66] llevan a cabo una serie de experimentos en donde crean modelos de otros agentes utilizando m´ todos de regresi´ n. Parten de modelos previos. hasta eso trategia de or´ culo en donde el agente supone correctamente toda la informaci´ n a o acerca del otro agente. Mediante la primera s´ lo se toma en cuenta el comportamiento o ´ previo del otro agente y se modela este utilizando series temporales sin intentar modelar el proceso de decisi´ n del agente. Adicionalmente. Utilizan distintos tipos de estrategias. o Mediante estos modelos un agente puede interactuar con otros agentes y predecir su comportamiento. es decir cuano do no se posee informaci´ n del agente que est´ siendo modelado. creencias y preferencias. [53] llevan a cabo un estudio emp´rico cuyo fin es cuantificar los ı beneficios que puede obtener un agente al modelar a otro. Hu y Wellman asumen que todos los estados del otro agente son observables y que cada agente conoce su funci´ n de pago. Esta suposici´ n es poco realista puesto que en entornos reales se o tiene poca o ninguna informaci´ n del estado interno de los otros agentes. A pesar de que las matrices de pago utilizadas en RMM resumen la informaci´ n contenida en los diagrama de influencia [101]. ı Un problema del enfoque del RMM es que asume que conoce el estado interno de los otros agentes. Suryadi y Gmytrasiewicz [126] o ´ utilizan estos para representar los modelos de los agentes indicando que los diagramas de influencia [65] brindan una mejor percepci´ n del problema de aprendizaje. ı S´ lo se deja de modelar cuando se alcanza el conocimiento cero. ESTADO DEL ARTE 85 ´ otro agente B y este a su vez modelar al agente A y el agente A a su vez modelar ´ lo que cree que el agente B sabe de el y as´ sucesivamente (modelos anidados).´ CAPITULO 8. En el segundo caso. Se pueden construir nuevos modelos ajustando los par´ metros del diagrama a de influencia que representa el modelo. Este o m´ todo posee niveles de recursividad atendiendo al tipo de forma funcional que se e asuma. representados como diagramas de influencia. se asume que el o otro agente est´ intentando maximizar su recompensa. Esta estrategia o a puede llegar a conducir a jerarqu´as (matrices de pago) muy profundas y costosas ı de analizar. desde una estrategia aleatoria en donde el agente no utiliza informaci´ n acerca de los otros agentes. o Garrido et al. Realizan las predicciones e o de dos maneras. y de un historial del comportamiento de un agente. Vidal y Durfee [137] y Durfee [37] proponen t´ cnicas para limitar la e profundidad de la jerarqu´a de matrices. Para esto utilizan como dominio de aplicaci´ n el Juego de Asignaci´ n de Reuniones (Meeting Scheduling o o Game) [52]. crean estrategias que van decrementando el conocimiento que posee el agente acerca del otro agente e incrementan la capa- . problema o que se busca abordar en esta tesis doctoral. al igual que sus posibles acciones con el fin de construir la matriz de pago. de tal forma que existe una a relaci´ n funcional entre las acciones de los agentes y sus estados internos.

En esta tesis doctoral se busca realizar un modelao do a bajo nivel (agente-agente) y no reconocer formaciones del oponente. Cabe destacar que la mayor´a de los ı trabajos relacionados con el modelado de agentes dentro de la liga de simulaci´ n o se basan en la utilizaci´ n del agente coach o entrenador.´ CAPITULO 8. Las ligas 2D y 3D son partidos de o f´ tbol simulados en donde interact´ an 22 agentes. Uno de estos entornos simulados est´ basado en un sistema cliente/servidor denominado Soccer Server System [100]. los 22 agentes que interact´ an son est´ ndar y la competici´ n u a o consiste en crear un agente entrenador que d´ consejos al equipo que entrena con e ´ la finalidad de aprovechar la visi´ n del partido que este posee. ESTADO DEL ARTE 86 cidad de modelado utilizando modelos probabil´sticos. Quiz´ s uno de los dominios de prueba m´ s utilizados. utilizan una red de neuronas artificiales para clasificar los posibles tipos de formaci´ n del equipo contrario con el fin de comunicar a los o agentes una contra-formaci´ n. Es o o decir. existen categor´as que incluyen agentes f´sicos ı ı y otras que se desarrollan en entornos simulados. o . 11 por equipo. Este comportamiento ideal es independiente del o ´ agente. a Basados en este servidor. En [54] ampl´an el trabajo ı ı arriba mencionado e introducen un agente capaz de modelar a otros agentes utilizando modelos probabil´sticos y capaz de actualizar dichos modelos de manera ı incremental e iterativa mediante un mecanismo bayesiano. De esta forma. Druecker et al. la liga 3D y la competici´ n de entrenadores (coach). Stone lleva a cabo un modelado de bajo-nivel (agente-agente). o Stone et al. en cuanto a agentes se a a refiere. Cabe ´ se˜ alar que asumir que el contrario est´ actuando de manera optima podr´a llevar a n a ı conclusiones err´ neas.. Dado que en los o ´ ultimos a˜ os las ligas de simulaci´ n se han convertido en un conocido testbed en n o ´ el area de agentes. este puede ser calculado bas´ ndose s´ lo en un modelo de la a o din´ mica del entorno (dominio). [124] proponen IMBBOP (Ideal Model Based Behavior Outcome Prediction). es el simulador de f´ tbol de la RoboCup [81]. Esta t´ cnica predice las acciones de otro agente (compa˜ ero u oponene n te) en relaci´ n con el comportamiento ideal del agente en una situaci´ n dada. han sido desarrolladas una serie de investigaciones relacionadas con el modelado de agentes en estos dominios. la liga 2D. u En [112]. aunque esta informaci´ n pueda servir como informaci´ n adicional a la hora de resolver o o ambig¨ edades. existen actualmente tres competiciones. en u la liga de coach. IMBBOP no asume que el agente est´ llevando a cabo las acciones definidas e como “´ ptimas” para el agente. A excepci´ n de los trabajos que se detallan posa o teriormente. sino que describe su comportamiento esperado coo ´ mo una desviaci´ n de este optimo. o En [34]. Riley asume que se conocen “a priori” un n´ mero de “clases de u adversarios” e intenta clasificar el comportamiento del equipo oponente bas´ ndose a en la equiparaci´ n de los datos de los sensores con las clases predefinidas. Por otra parte. simulando un u u partido de f´ tbol en dos y tres dimensiones respectivamente. Ejemplos de estos trabajos o se detallan a continuaci´ n. Dentro de las competiciones u que se llevan a cabo en la RoboCup.

una gran parte u ´ de estas se centra en el modelado a alto-nivel (equipos). . En cuana o o to a las investigaciones que han utilizado como dominio de prueba el simulador de f´ tbol de la RoboCup. presentaron ATAC (Adaptive Team .´ CAPITULO 8. De esta forma. Bas´ ndose en [112]. Algunos de estos trabajos asumen la existencia de informaci´ n completa o alguna suposici´ n de conocimiento o o interno de los otros agentes. Riley y Veloso [113]. ESTADO DEL ARTE 87 Recientemente.3. Dicho comportaı miento puede ser formalizado utilizando una extensi´ n del lenguaje que utiliza el o agente “entrenador” para comunicarse con el resto de los jugadores en el simulador. cuando se observa el comportamiento de un equipo. Por ejemplo. de agente a agente. Esta tesis doctoral tiene por objetivo el modelado de agentes a bajo-nivel. uno de los dominios de prueba de esta tesis.Adversarial Coaching) en donde el agente coach (entrenador) genera planes on-line en forma de “Redes Temporales Simples” [26] basadas en el reconocimiento de los planes del oponente y luego los comunica a sus compa˜ eros de equipo para que n lleven a cabo el plan de manera distribuida. En esta tesis doctoral se busca la creaci´ n del modelo o de otros agentes bas´ ndose s´ lo en la observaci´ n de su comportamiento. 8. A la hora de seleccionar un modelo utilizan Naive Bayes [77]. y de esta manera actuar en consecuencia. Steffens [122] presenta un marco llamado FBDOM (Feaa ture Based Declarative Opponent Modeling) para el modelado de oponentes en sistemas multiagente. se busca emparejar este comportamiento con alguno de los modelos de oponentes que se poseen “a priori”. es decir. El agente coach posee “a priori” un conjunto de modelos del oponente los cuales son representaciones probabil´sticas ı de las posiciones de los oponentes. Este sistema asume que un agente puede identificar ciertas caracter´sticas en el oponente que describen su comportamiento. un delantero podr´a aprender a predecir si el portero va a salir en busca o ı no de la pelota. Conclusiones Se ha presentado una serie de investigaciones relacionadas con el modelado de agentes aplicadas a una amplia gama de dominios.

se presupone que el agente modelador tiene acceso directo a las entradas y salidas del agente a modelar. 107]. Si se piensa en todas las posibles entradas. Es decir. a la cual se le ha denominado Modelado de Agentes Basado en Trazas (MABT). o en el simulador de f´ tbol (sistema cliente-servidor) de la RoboCup. Por lo tanto. uno de los dou minios seleccionados para probar la viabilidad de esta propuesta. hay una a clara analog´a con la tarea de clasificaci´ n en la cual cada par´ metro de entrada ı o a del agente puede ser representado como un atributo que puede tener tantos valores como el correspondiente par´ metro. En t´ rminos de una tarea o o e de clasificaci´ n. o o ´ se propone utilizar t´ cnicas de aprendizaje autom´ tico como arboles de decisi´ n o e a o generadores de reglas. En la realizaci´ n de esta tesis doctoral se han tomando dos vertientes. arboles de decisi´ n [105]. En relaci´ n con la salida. Sin embargo. o redes de o neuronas [114]. la tarea de modelado se convierte en una tarea de clasificaci´ n. cualquier t´ cnica de clao e sificaci´ n puede ser empleada para resolver esta tarea: aprendizaje basado en inso ´ tancias [1]. se quiere a que este modelo sea relativamente f´ cil de entender y depurar para lo cual se necea sita utilizar algoritmos que utilicen una representaci´ n declarativa. se ı 88 . adem´ s de obtener el modelo de un agente. De esta mao nera. a Una vez se ha determinado la tarea de clasificaci´ n. mas no as´ a su estructura interna. Por esta raz´ n. se puede pensar en estas como salidas at´ micas. puesto que se han a o seleccionado un grupo de tareas que poseen la caracter´stica de generar decisiones ı en un paso (soluciones que no requieren de un conjunto de pasos. aprendizaje de reglas [94. como en planifi´ caci´ n). Por ejemplo. auditivo y de e visi´ n (enviados por el servidor) y la salida son las posibles acciones que puede o llevar a cabo (envi´ ndolas al servidor). En la o primera. las entradas del agente son los datos que recibe a trav´ s de sus sensores de cuerpo.Cap´tulo 9 ı Modelado de Agentes Se supone que el comportamiento de un agente puede ser descrito en t´ rminos e ´ de sus entradas y salidas. estas pueden ser representadas como un grupo de par´ metros de entrada. esto permite definir una clase por cada posible salida.

o 9. En la Figura 9. el o o modelado en s´. el o modelado debe realizarse en dos fases. Por esta raz´ n. Como se puede apreciar.1. Modelado de Agentes Basado en Trazas (MABT) Una suposici´ n inherente a MABT es el acceso directo a las entradas y salidas o del agente a modelar. el proceso de modelado requiere una etapa previa en donde se registran las interacciones del AGENTE A con el entorno y con el propio AGENTE B. MABT propone la incorporaci´ n o de dos m´ dulos a la arquitectura del agente con la finalidad de llevar a cabo la tarea o . En esta etapa se forman los pares entrada/salida en donde la entradas son los datos recibidos por los sensores del AGENTE A y la salida es la ´ acci´ n llevada a cabo por este.´ CAPITULO 9. El esquema propuesto para resolver esta tarea ha sido denominado ı Modelado de Agentes Basado en la Observaci´ n (MABO). La segunda de las vertientes desarrolladas en esta tesis.1 se muestra el marco general del Modelado de Agentes Basado en Trazas. Es decir.1: Marco general del Modelado de Agentes Basado en Trazas (MABT). aborda la tarea de modelado en situaciones m´ s complejas. o Registro de Trazas Entradas Modelado Razonamiento Entradas Agente A salidas Agente A módulo de construcción del modelo m:modelo del Agente A módulo de razonamiento Registro de Datos traza del Agente A Agente B salidas Agente B Entorno Figura 9. el agente modelador. en donde el agente modelador no tiene a acceso directo a las entradas y salidas del agente a modelar. tiene acceso a los pares entrada/salida generados por el AGENTE A en situaciones pasadas. AGENTE B. la observaci´ n y recolecci´ n de datos y. En cuanto al AGENTE B o agente modelador. MODELADO DE AGENTES 89 poseen datos del comportamiento del agente a modelar generados en interacciones previas.

puesto que en la pr´ ctica en la gran mayor´a a ı de los dominios en donde intervienen agentes. la arquitectura del MRA puede ser desde el modelo del AGENTE A. se extendi´ el marco propuesto anteriormente a un nuevo enfoque que o o incluye un m´ dulo para la obtenci´ n de estos datos. Por ejemplo. Sin embargo. e o El n´ cleo del MCM son una o varias t´ cnicas de aprendizaje autom´ tico capau e a ces de generar el modelo del AGENTE A. El objetivo de este esquema es conocer el l´mite superior que se puede alcanzar ı en el modelado de otros agentes. no tiene acceso directo a las entradas del oponente (o compa˜ ero) en tiempo real.´ CAPITULO 9. bas´ ndose en los datos adquiridos en a la etapa del registro de trazas. FMB es aplicado al modelado de estudiantes. El primero de estos m´ dulos. El otro m´ dulo propuesto o o dentro de MABT se denomina M´ dulo de Razonamiento. el simulador de f´ tbol o u de la RoboCup. Tampoco conoce a qu´ acci´ n ha realizado. en uno de los o o dominios utilizados para la evaluaci´ n de esta propuesta. como su nombre indica. Los enfoques IOAM asumen que se puede modelar a un agentes a partir de sus entradas y salidas. es decir. MODELADO DE AGENTES 90 de modelado del AGENTE A. La tarea de modelado llevada a cabo en este enfoque. 9. Los dominios de aplicaci´ n del MABT van m´ s alla del modelado de o a estudiantes. en el caso m´ s simple. es el encargado. Un enfoque similar al utilizado en MABT es el modelado basado-en-caracter´sticas ı (Feature Based Modelling . Por esta raz´ n. de o llevar a cabo la construcci´ n del modelo del AGENTE A. no se tiene acceso directo a las entradas/salidas del agente a modelar. Modelado de Agentes Basado en la Observaci´ n o (MABO) En MABT se dispone de antemano de un conjunto de datos que representan las entradas y salidas del agente a modelar. en gran parte de los dominios en donde intervienen agentes no se puede contar “a priori” con este conjunto de datos. Por esta raz´ n el agente modelador tiene que obtener datos e o o sobre el oponente desde su punto de vista e inferir la acci´ n que ha llevado a cabo. m. denominado M´ dulo o o de Construcci´ n del Modelo (MCM). cuya funci´ n o o principal es utilizar el modelo del AGENTE A en el proceso de tomar la decisi´ n o sobre qu´ acci´ n llevar a cabo. un equipo o en este caso un jugador. o .FMB) [142]. Este enfoque se puede aplicar en dominios est´ ticos en donde se disponga de los datos “a priori” y se desee obtener a un modelo del AGENTE A. hasta procesos de razonaa miento complejos que incorporen parte de la arquitectura original del AGENTE B con t´ cnicas de aprendizaje autom´ tico con el fin de determinar la mejor acci´ n en e a o un momento dado. Por otra parte. a lo que realmente n est´ observando para tomar decisiones de que acciones ejecutar.2. entra dentro de las t´ cnie cas conocidas como IOAM (Input/Ouput Agent Modelling). (MRA).

cuya o o o finalidad es la de utilizar el modelo generado en la etapa previa. en MABO se propone la incorporao ci´ n de un m´ dulo adicional denominado M´ dulo de Razonamiento (MRA). se muestra el marco general del Modelado de Agentes Basado en la Observaci´ n. La primera de estas fases es la creaci´ n de un o ´ m´ dulo gen´ rico capaz de etiquetar la ultima acci´ n llevada a cabo por el AGENTE o e o ´ A basado en la observaci´ n del comportamiento de este (M´ dulo de Etiquetado de o o Acciones .2. o Fase I características acerca del Agente A + características entorno acciones del Agente A datos de interacciones previas traza del Agente B traza del Agente A modelado de acciones modelos de acciones características del Agente A + Agente A sensores del Agente B (entradas) características entorno Módulo de Etiquetado de Acciones acciones etiquetadas del Agente A Módulo de Construcción del Modelo Fase II m:modelo del Agente A Modulo de Razonamiento Agente B Acción del Agente B Entorno Figura 9. Dada la necesidad de adquirir los datos para llevar a cabo la tarea de modelado MABO lleva a cabo en dos fases.MEA). o . La Figura 9. La segunda fase dentro de MABO o es la creaci´ n del modelo del otro agente basado en los datos generados por MEA.2: Marco general del Modelado de Agentes Basado en la Observaci´ n (MABO). MODELADO DE AGENTES 91 En otras palabras. Dado o o que el poseer el modelo del agente con que se est´ interactuando proporciona una a ´ ventaja comparativa s´ lo si este es utilizado. o Esta tarea es llevada a cabo por el M´ dulo de Creaci´ n del Modelo(MCM). el agente que lleva a cabo la tarea de modelado debe ser capaz de inferir las acciones que ha realizado el agente a modelar en instantes anteriores a partir de sus propias entradas. La necesidad de utilizar MEA surge al querer modelar el comportamiento de otros agentes en dominios din´ micos en donde no se tiene acceso a directo a las entradas y salidas de los dem´ s agentes que interact´ an en el entorno a u (lo que exactamente est´ percibiendo el otro agente a trav´ s de sus sensores y la a e acci´ n que lleva a cabo en un momento dado).´ CAPITULO 9.

F. X registros F. M´ dulo de Etiquetado de Acciones (MEA) o Con el prop´ sito de predecir el comportamiento del agente a modelar (AGEN o TE A). Fn . acci´ n del agente A en donde los datos del AGENTE o ´ A son generados por el AGENTE B. tal y como este lo percibe cuando realiza la acci´ n. E 2 . F. . C . En este caso. o El prop´ sito del MEA es clasificar las acciones llevadas a cabo por el AGENTE o ´ A bas´ ndose en las observaciones de este realizadas por el AGENTE B. F.V . C. existe una serie de acciones gen´ ricas que se ejee . en la mayor´a de los dominios en donde intervienen agentes. .3: Creaci´ n del M´ dulo de Etiquetado de Acciones. MODELADO DE AGENTES 92 9. E. n. las acciones del AGENTE A deben ser inferidas por ´ el AGENTE B mediante la observaci´ n del comportamiento de este. E. E. se necesitan instancias de o la forma datos del agente A. X 2. de tal forma que estas puedan ser utilizadas para aprender. C 1 . C n−1. o Una descripci´ n general del m´ dulo de etiquetado de acciones se muestra en o o la Figura 9.3 datos de interacciones previas Agente B Sensores (entradas) 1. C n Agente A Sensores (entradas) 1. . E. Esto puede a ser visto como una tarea de clasificaci´ n. . C 2. es necesario obtener un n´ mero suficiente de instancias de la forma entrau ´ da/salida.2.1. C. Sin embargo. X registros 1. X 2. F1 . E. o o Dependiendo del dominio. . mejor dicho. . F. C 2 . C generación de instancias C (acción) instancias Proceso de aprendizaje modelos Módulo de Etiquetado de Acciones F: características sobre el Agente A E: variables del entorno C: acción del Agente A V: atributos calculados X: otras variables Figura 9. C. E registros conjunto de entrenamiento F2 . X . F. V . Fn−1. . . E. E n . E 1 . n.´ CAPITULO 9. F. n. las entradas y saliı das del AGENTE A no son accesibles directamente por parte del agente modelador (AGENTE B). O. X . E n−1.

se debe partir de ejemplos de la forma Ft . Cada ejemplo I en la traza est´ compuesto por tres partes: un grupo de atria butos relacionados con el AGENTE A. 9. Sea D el conjunto completo de los ejemplos disponibles de la traza del AGENTE A. 4. D.2. en un inso tante de tiempo dado. ´ Una vez que el clasificador o los clasificadores han sido construidos. En m´ s detalle. Ct−1 . a(di ) = a Ft . constituyen el n´ cleo u del MEA. M´ dulo de Construcci´ n del Modelo (MCM ) o o Una vez construido e incorporado MEA en la arquitectura del AGENTE B. A partir de esta traza es f´ cil obtener una serie de ejemplos. Et . Et−1 . V representan una serie de atributos calculados bas´ ndose en la comparaci´ n de las diferencias de variables a o entre los instantes de tiempo. Cada ejemplo di ∈ D est´ compuesto por dos partes: un veca tor n-dimensional que representa los atributos. algunas variables relacionadas con el AGENTE A. el siguiente paso consiste en crear un modelo capaz de predecir el comportamiento del AGENTE A basado en las observaciones realizadas desde el punto de vista del AGENTE B. variables relacionadas con el entorno obtenidas por el AGENTE B. Para llevar a cabo esta tarea. 2. MODELADO DE AGENTES 93 cutan de la misma manera independientemente del agente que la ejecute. este s´ lo se o construye una vez. Et . estos son utilizados con la finalidad de etiquetar la acci´ n llevada a cabo por el o AGENTE A. Este clasificador o grupo de clasificadores. basado en los cuales el a AGENTE B puede inferir mediante la aplicaci´ n de t´ cnicas de aprendizaje o e autom´ tico. E.´ CAPITULO 9. utilizando ejemplos a o de dos instantes de tiempos consecutivos. a(di ) y el valor de c(di ) que representan la clase a la que pertenece el ejemplo. V y c(di ) = Ct . Ft−1 . F .2. y las acciones del AGENTE A son registradas para producir una traza del comportamiento del AGENTE A desde el punto de vista del AGENTE B. A continuaci´ n se detallan los pasos llevados a cabo en la construcci´ n del o o MEA : 1. t. en donde Cmeat es la acci´ n etiquetada por MEA a partir de las observaciones o en t y t − 1. 3. Por esta raz´ n. El AGENTE A y el AGENTE B interact´ an un n´ mero determinado de veces. . Dada la generalidad del clasificador. y puede ser utilizado para inferir o ´ las acciones de cualquier agente. u u En cada instante. Cmeat registradas durante las interacciones del AGENTE A con el AGENTE B. la acci´ n llevada a cabo por el AGENTE A. algunas variables relacionadas con el entorno. el MEA es independiente del AGENTE A. C. En otras palabras It = Ft + Et + Ct . y la acci´ n llevada a cabo por el AGENTE A.

con caracter´sticas acerca a ı del AGENTE A. En m´ s detalle.2. las tuplas de aprendizaje son de la forma a It . Et−1 . 5.. Ct−1 . ´ MEA se incorpora a la arquitectura del AGENTE B.It−(w−1) . Cada ejemplo di ∈ D esta compuesto por dos partes: un vector n-dimensional que representa los atributos. cada ejemplo. 3. Los pasos llevados a cabo para obtener el modelo del AGENTE A son los siguientes: 1. y la acci´ n que o el AGENTE B infiere que ha llevado a cabo el AGENTE A. el AGENTE B obtiene informaci´ n acerca del AGENTE o A al igual que la acci´ n llevada a cabo. A partir de D se crea al clasificador capaz de predecir la acci´ n que lleva a o cabo el AGENTE A en un instante de tiempo dado. I s. Adem´ s. 2. Sea D el conjunto completo de los ejemplos disponibles en un instante de tiempo dado. E. C (etiquetada por el MEA). t.. Et−(w−1) . se consideran varios instantes de tiempo en una o misma instancia de aprendizaje. V . En cada u instante de tiempo. en un instante de tiempo dado. En otras palabras It = Ft + Et + Ct .Ft−(w−1) . algunas variables relacionadas con el entorno. Al igual que en la construcci´ n del MEA. algunas variables relacionadas con el entorno. y la acci´ n llevada a o cabo por el AGENTE A.. En vez de considerar utilizar s´ lo un instante de tiempo. 9. a(di ) = a Ft .. . .´ CAPITULO 9. De esta manera.3. en donde w es el tama˜ o de la ventana de tiempo considerada. V y c(di ) = Ct . a(di ) y el valor de c(di ) que representan la clase a la que pertenece el ejemplo. F . It−1 . n Al igual que en MEA se han utilizado atributos calculados. MODELADO DE AGENTES 94 En m´ s detalle. En donde V representa una serie de atributos calculados bas´ ndose en la comparaci´ n a o de las diferencias de variables entre los instantes de tiempo. Ft−1 . Et . 4. este puede etiquetar (inferir) las acciones del AGENTE A. I. En este caso se quiere predecir la acci´ n que lleva a cabo el AGENTE A en un instante de tiempo dado o ´ y se necesita informaci´ n acerca de este de unos instantes de tiempo atr´ s. Las predicciones se deben utilizar de manera tal que el agente modelador se pueda anticipar y reaccionar a las . la cual es etiquetada por el MEA. El AGENTE A y el AGENTE B interact´ an en diferentes situaciones. los datos consisten en tuplas. M´ dulo de Razonamiento (MRA ) o Predecir las acciones de un agente no es suficiente. o a El n´ mero de instantes de tiempo utilizados para llevar a cabo la tarea de u modelado es denominada w. en la traza est´ como a puesto por tres partes: un grupo de atributos relacionados con el AGENTE A. o Toda esta informaci´ n es registrada con la finalidad de producir una traza o del comportamiento del AGENTE A.

o colaborar con el compa˜ ero n en situaciones colaborativas.´ CAPITULO 9. En el m´ s simple de los casos. Al igual que en el MEA y el MCM. en este m´ dulo se pueden aplicar t´ cnicas o e de aprendizaje autom´ tico con la finalidad de aprovechar el modelo que se posee a del agente o agentes con los cuales se interact´ a. . MODELADO DE AGENTES 95 acciones del oponente en situaciones competitivas. el u a n´ cleo de este m´ dulo puede ser hecho a mano aprovechando la arquitectura del u o agente que utiliza MABO.

el n´ cleo de este. para posteriormente generar el modelo de este. se considera que el AGENTE A est´ basado en un clasificador o a generado a partir de un algoritmo de aprendizaje.2). A efectos de o la experimentaci´ n. Modelado de Agentes en Dominios Est´ ticos a Con vistas a determinar la viabilidad del MABT. Por esta raz´ n. considerado como una caja negra.1. antes de registrar o ´ el comportamiento del AGENTE A. Es decir.1. o se ha simulado la interacci´ n del agente modelador y el agente a modelar en situao ciones denominadas est´ ticas. Configuraci´ n Experimental o Para determinar si el conocimiento generado por el AGENTE B es capaz de modelar el comportamiento del AGENTE A. se han utilizado dominios de clasificaci´ n a o a partir de los cuales se ha generado el comportamiento del agente a modelar o ´ AGENTE A.3). o 10. el o Modelado de Agentes Basado en Trazas ( MABT). partiendo de sus entradas y salidas. Con la finalidad de llevar a cabo la evaluaci´ n del MABT. 10. se ha realizado una o serie de experimentos que van desde aqu´ llos en donde se pretende demostrar la e viabilidad de la propuesta (secci´ n 10.1). debe ser generado. hasta la evaluaci´ n del MABT en domio o nios complejos (secci´ n 10.Cap´tulo 10 ı Evaluaci´ n: MABT o En el cap´tulo anterior se han descrito dos propuestas para llevar a cabo la ı tarea de modelar el comportamiento de un agente. En la u 96 . como primera aproximaci´ n. En este cap´tulo se muestran los ı resultados obtenidos en la evaluaci´ n del primero de los enfoques propuestos. se ha llevado a cabo una serie de pasos que se detallan a continuaci´ n. pasando por la aplicaci´ n del enfoque con vistas a o o utilizar el modelo generado (secci´ n 10.1.

3. Igualmente se muestra el proceso de generaci´ n u o del modelo. Sea T el conjunto completo de las instancias disponibles. estas diferencias se miden a partir de un conjunto de datos llamado T 3 cuyo vector de atributos corresponde a los atributos que posee T 3 y la clase a la que corresponden estos atributos es la predicci´ n que realiza el AGENTE A. o De esta forma. EVALUACION: MABT 97 Figura 10. El conjunto T se divide aleatoriamente en tres partes distintas. i ˆ i ˆ El nuevo conjunto T 2 es utilizado como entrada al MCM del AGENTE B. AGENTE A y AGENTE B. Las salidas producidas tanto por el AGENTE A como por el AGENTE B se comparan. Esto quiere decir que el conocimiento adquirido por el AGENTE B deber´a ser capaz de predecir ı la salida del AGENTE A. Cada ejemplo ti ∈ T consta de dos partes: un vector n-dimensional que representa los atributos a(ti ) y un valor c(ti ) que representa la clase a la cual pertenece. Para determinar la capacidad de modelado del AGENTE B sobre el comportamiento del AGENTE A se lleva a cabo el siguiente proceso: 1. T 2 y T 3 . Como la clase de los ejemplos en ˆ T 2 son las salidas del AGENTE A. 2. A continuaci´ n. sin importar si las predicciones que el AGENTE A realiza son correctas o no. como se muestra en la Figura 10. el cual genera un modelo del AGENTE A. el cual genera una predicci´ n de clase de t2 . a Las entradas que recibe el AGENTE A son los atributos de los ejemplos y la ´ salida que produce este es la clase a la que el clasificador generado determina que pertenecen estos ejemplos. la precisi´ n que logre el AGENTE B sobre este conjunto de o datos brinda una estimaci´ n de la precisi´ n del modelo. c(t2 ). los atributos de cada ejemplo. en T 2 son utilizados o i como entrada al AGENTE A. o o . Por razones experimentales. Despu´ s.1 se muestra el proceso llevado a cabo para generar el clasificador que sirve de base al AGENTE A. un nuevo conjunto de ejemplos T2 es ˆ i e creado a partir de cada par a(t2 ). Se asumen que se dispone de ejemplos para poder generar al n´ cleo del AGENTE A. 4. a(t2 ). llamadas T 1 . las reglas obtenidas (modelo) deben ser capaces de modelar el comportamiento del AGENTE A. se detallan a continuaci´ n: o 1. T 1 es utilizado para generar el clasificador que ser´ la base del AGENTE A. El proceso de generaci´ n del n´ cleo del AGENTE A y la posterior generaci´ n o u o ´ del modelo de este por parte del AGENTE B.2. o i ˆ Esta clase se denomina c(t2 ).´ ´ CAPITULO 10. El conjunto de datos T 3 es utilizado como entrada para ambos. Esta comparaci´ n se mide como el n´ mero de ejemplos en que la o u clase que predice el modelo en el AGENTE B difiere de la dada por el AGEN TE A supuestos los mismos atributos de entrada. 2.

´ ´ CAPITULO 10. se ha utilizado como n´ cleo o u del AGENTE A una red de neuronas generada mediante el algoritmo de retropropagaci´ n y. como t´ cnica de aprendizaje autom´ tico base del MCM del AGENTE B. Datos de registros de votos del Congreso de los Estados Unidos de Am´ rica. o En cuanto a los datos de prueba utilizados. se o e a ´ ha utilizado el algoritmo de generaci´ n de arboles de decisi´ n C 4.2: Validaci´ n del modelo obtenido por el AGENTE B. El Stutto o gart Neural Network Simulator (SNNS) [149] ha sido utilizado como herramienta para la generaci´ n de la red de neuronas del AGENTE A. EVALUACION: MABT Datos disponibles Construcción del núcleo del Agente A clasificador 98 T1 instancias predicción ^2 T Agente B módulo de construcción del modelo T2 a(T2 ) 2 c(T ) Agente A a(T2 ) ^ 2 c(T ) instancias atributos m:modelo del Agente A T3 módulo de razonamiento Figura 10. puede ayudar a decidir . se han utilizado tres dominios del conocido repositorio de datos del UCI [6]. el o modelo del otro agente generado por el AGENTE B.5 [107].1: Registro de trazas y construcci´ n del modelo del AGENTE A. La selecci´ n de estos dominios se ha o llevado a cabo tomando en consideraci´ n la tarea de aprendizaje de cada uno de o ´ estos. En este caso. o A continuaci´ n se detalla la tarea de clasificaci´ n en cada dominio y el posible uso o o del proceso de modelado. o Para la comprobaci´ n experimental de este enfoque. considerando que estos dominios son ejemplos t´picos en donde un modelado ı entrada/salida a partir de la interacci´ n de dos agentes resulta de gran importancia. e Este es un ejemplo de un posible agente de negociaci´ n. o Agente A predicción T3 instancias comparación Agente B MRA predicción diferencias Figura 10.

El modelo obtenido en este dominio podr´a ser a ı un ejemplo de cu´ n util puede ser este enfoque cuando los datos utilizados a ´ para construir el AGENTE A no est´ n disponibles y alg´ n tipo de conocia u miento sobre este agente es necesario. Tabla 10. o ı Datos de C´ ncer de Senos. el modelo aprendido del oponente puede ser utilizado para predecir la salida del otro agente. o los resultados que se muestran son el promedio de una validaci´ n cruzada de diez o 1 . o a Dominio Registros de votos Tic-Tac-Toe C´ ncer de Senos a Atributos 16 9 30 Clases 2 2 2 Instancias 435 958 569 . y puede no poseer los datos originales con el que fue creado. en este caso.´ ´ CAPITULO 10. Para ı obtener una estimaci´ n apropiada de la capacidad de modelado del AGENTE B. las redes de neuronas. Esto permite podar el resto de ´ ´ las ramas. Cuando la b´ squeda alfa-beta tiene e u que expandir el grupo de posibles movimientos del oponente a un n´ mero u ´ impar de niveles del arbol. una b´ squeda alfa-beta puede ser transformada en un tipo u de t´ cnica de b´ squeda del mejor-primero. que son el n´ cleo del AGENTE A. La caracter´sticas de los dominios utilizados se reflejan en la Tabla 10. permitiendo una b´ squeda m´ s e u u a profunda en ramificaciones de inter´ s. Este dominio es un ejemplo de dominios en donde poseer informaci´ n sobre el comportamiento de los otros agentes es o de mucha importancia. Registrando su comportamiento. EVALUACION: MABT 99 c´ mo negociar con el otro agente observando y categorizando los rasgos o pol´ticos de un tercer agente. Si se posee un modelo del comportamiento del oponente en cualquier juego de conocimiento completo de suma-cero.1: Dominios utilizados para evaluaci´ n del MABT en situaciones est´ ticas. en el pasado. se obtienen a partir u del entrenamiento del algoritmo de aprendizaje hasta alcanzar la convergencia. y utilizando el esquema propuesto. T 2 y T 3 . se han generado diez grupos diferentes de T parte. u o En estos casos.1. se puede ´ utilizar este en la b´ squeda de la mejor jugada dada una situaci´ n de juego. ı Datos Tic-Tac-Toe (Endgame). convirtiendo un arbol minimax en un arbol max (el movimiento seleccionado es aqu´ l cuyas ramas llevan al nodo hoja con el m´ ximo valor e a de la funci´ n heur´stica). Por ejemplo. un sistema de diagn´ stico baı o sado en agentes cuyo motor de inferencia son redes de neuronas. un hospital podr´a haber creado. se podr´a tener acceso a un ı conjunto de reglas que declarativamente pueden describir este conocimiento. Es decir. Por otra carpetas. como en las t´ cnicas de envoltura e (wrappers) para el desarrollo de agentes [75].

2 se muestran los resultados obtenidos en el proceso de evaluaci´ n del modelo generado por el AGENTE B.0 AGENTE B/ T 3 96. Utilizaci´ n del Modelo Generado o Una vez determinada la viabilidad de la construcci´ n de modelos de agentes o mediante la aplicaci´ n del MABT en el caso de dominios de clasificaci´ n.6 90.2: Tasa de aciertos (en %) del AGENTE A y del modelo de este generado por el AGENTE B sobre el conjunto de datos T 3 y la tasa de aciertos del modelo sobre el conjunto de datos T 3 . se plantea la necesidad de aplicar MABT a dominios a en donde la tarea de aprendizaje sea distinta.6 97. adem´ s de utilizar MABT en dominios con tareas o a de aprendizaje distintas a las denominadas tareas de clasificaci´ n. La segunda columna muestra la o tasa de aciertos obtenida por el AGENTE A (basado en redes de neuronas) sobre el conjunto de datos T 3 .2. o pretende. lo que indica que el modelo o generado reproduce de forma aproximadamente correcta la misma salida que el AGENTE A. el modelo del AGENTE A generado por el AGENTE B basado en el algoritmo de aprendizaje C 4.4 90. El objetivo es comprobar si el comportamiento original del AGENTE A y el comportamiento generado por el modelo son similares.2. en donde se refleja la precisi´ n del modelo creado por el MCM del AGENTE o B sobre el conjunto de datos a partir de T 3 . 10. el poseer un modelo del agente con el cual se est´ . los resultados m´ s interesantes son los que se muestran en la ultima coa lumna. Dominio Votos Tic-Tac-Toe C´ ncer a AGENTE A/T 3 95. obtiene una tasa de precisi´ n superior al 90 % sobre el conjunto de datos T 3 .5.9 97. AGENTE B sobre T ´ Tabla 10. esta columna refleja las diferencias entre la salida del AGENTE A y la predicci´ n realizada por el o 3. . EVALUACION: MABT 100 10. denoo o minados dominios est´ ticos. En la segunda columna se muestra la precisi´ n del modeo lo generado por el MCM del AGENTE B sobre el mismo conjunto de prueba.2 94. Sin ´ embargo.5 En los tres dominios utilizados. Por esta raz´ n.1.7 94. en esta serie de o experimentos se utiliza el modelo adquirido por el agente modelador mediante el MCM como reemplazo del motor de inferencia del AGENTE B ( MRA ). En otras palabras. Por otra parte. Resultados En la Tabla 10. interactuar puede proporcionar una a ventaja s´ lo si este modelo es utilizado en el proceso de razonamiento del agente o que los posee.4 AGENTE B/T 3 94.´ ´ CAPITULO 10.

hasta un punto marcado como meta. basado en la traza del comportamiento de este. m pasa a ser el MRA del AGENTE B. De esta manera.SimDai [121]. El a objetivo del robot es moverse. ´ m. el objetivo de la red de neuronas es controlar la o velocidad de la rueda dos. el robot puede llevar a cabo giros. SimDai permite la simulaci´ n o o de robots aut´ nomos equipados con una serie de sensores y distintas arquitecturas o de control. se considera constante. o Con vistas a aplicar MABT. ´ En cuanto al AGENTE B o agente modelador. El control de este agente est´ basado en el esquema de a Braitenberg [10] en donde las relaciones entre los sensores y los actuadores son definidas por una red de neuronas obtenida mediante Coevoluci´ n Uniforme [5]. Configuraci´ n Experimental o El dominio seleccionado para evaluar el MABT en este caso es el Simulador Distribuido de Agentes Aut´ nomos . de manera eficiente. la velocidad de la rueda 1. y por esta raz´ n. las dos ruedas est´ n en a movimiento. se considera constante. El robot posee dos ruedas o a que se pueden mover a distintas velocidades v1 y v2 1 .´ ´ CAPITULO 10. El MCM del AGENTE B utiliza como t´ cnica de aprendizaje autom´ tico un e a ´ algoritmo de generaci´ n de arboles de regresi´ n y un algoritmo de generaci´ n de o o o ´ arboles de decisi´ n.1. La situaci´ n simulada es el movimiento de un robot en un entorno bidimeno sional en el cual se encuentran presentes obst´ culos con diversidad de formas.3 muestra la descripci´ n del robot. es decir. La Figura 10. el MCM construye off-line el modelo del AGENTE A. pero la direcci´ n del robot se controla mediante v2 .0. el AGENTE A. por razones experimentales.2. o Como se ha mencionado. v2 . Posteriormente. Tres de ellos informan al robot sobre cu´ n cerca est´ n los obst´ culos (sensores a a a de proximidad). v1 . tal y como se describe o m´ s adelante. el robot es considerado como el agente a modelar. . Sin embargo. Es decir. El mismo posee cinco sensoo res. dependiendo de la tarea de aprendizaje. este se considera como un robot id´ ntico al AGENTE A con la salvedad de que es controlado por el modelo adquirie do del AGENTE A. v1 . EVALUACION: MABT 101 10.0]. a En todos los experimentos realizados en este dominio para estimar la precisi´ n o en la tarea de generaci´ n del modelo del AGENTE A. 1. 1 La velocidad se encuentra en el rango [-1. En otras palabras. Los otros dos miden cu´ n lejos se encuentra el robot de la posia ´ ci´ n final y cu´ l es el angulo a ese punto de destino. es decir. la velocidad de una de las ruedas del robot. se ha utilizado una validaci´ n o o cruzada de diez carpetas.

o o ´ Una vez que el modelo del AGENTE A.5. es necesario transformar los datos correspondientes a la velocidad de la rueda dos. en datos discretos. EVALUACION: MABT s1 . A pesar de que los arboles a de regresi´ n son relativamente m´ s f´ ciles de entender que una red de neuronas.3. s3 : Sensor de proximidad s4 : Angulo a la meta s5 : Distancia a la meta v1 .3: Descripci´ n del robot utilizado en SimDai. El n´ mero total de instancias es de 976 y el valor u ´ a predecir es la velocidad de la rueda dos.1.´ ´ CAPITULO 10. o a a los modelos lineales asociados a cada clase disminuyen en cierta medida su comprensibilidad. m. v2 . o Modelo Basado en Arboles de Regresi´ n o En la fase del registro de trazas. Para generar el arbol de regresi´ n se ha aplicado el algoritmo M 5 [111]. Con vistas a superar este problema. El n´ mero de instancias utilizadas en estos experimentos es igual que en la u ´ generaci´ n de arboles de decisi´ n del punto anterior (976 instancias). se han obtenido los datos correspondientes a seis simulaciones del AGENTE A. Dado que C 4. La versi´ n de M 5 utilizada es la o o implementada en W EKA (versi´ n 3. o Modelo Basado en Arboles de Decisi´ n o Adem´ s de demostrar la viabilidad de aplicar el MABT a este tipo de domia nios. ha sido generado. Se han considerado o o un total de 11 clases que se muestran en la Tabla 10. del robot. se reemplaza la predicci´ n de m por un valor o correspondiente a la media de los datos incluidos en el intervalo discretizado uti- ¤¡¡¡ £¡¡¡£¤ £¤ £¤ ¡¡¡ £¤¡¡¡£¤ £¤ £¤ ¡¡¡ £¤¡¡¡£¤ £¤ £¤ ¡¡¡ £¤¡¡¡£¤ £¤ £¤ £¤ £¤ £¤ ¡¡¡£¤ ¡ ¡¡ ¡¡¡ ¢  ¢ ¢  ¢ ¡ ¡¡ ¡¡¡ ¢  ¢ ¢  ¢ ¡ ¡¡ ¡¡¡ ¢  ¢ ¢  ¢ ¡ ¡¡ ¡¡¡ ¢  ¢ ¢  ¢ ¢   ¢  ¢ ¡¡¡ ¢ v2 .v2 : Velocidad de las ruedas Wij : Pesos entre los sensores y las ruedas 102 Entradas sensoriales: s5 s1 s3 Wij s4 s2 v1 Figura 10. para pao sar de clases discretas a continuas.5 s´ lo puede trabajar con o o o clases discretas. se utiliza este como si fuese el MRA del AGENTE B. Esta discretizaci´ n ha sido realizada manualo mente tomando en consideraci´ n la distribuci´ n de los datos. otro objetivo de estos experimentos es obtener un modelo del AGENTE A m´ s a ´ f´ cil de entender si se compara con una red de neuronas. se ha aplicado el algoritmo de ´ generaci´ n de arboles de decisi´ n C 4. Cabe se˜ alar que m es capaz de predecir n valores discretos y la velocidad v2 tiene que ser continua. s2 .7) [144]. v2 . Por esta raz´ n.

Una vez configurado el AGENTE B. La distancia recorrida se refiere a la distancia que recorre el robot desde el punto de partida al punto en donde se encuentra el objetivo. De igual forma.7501 a -0. se han utilizado las variables distancia recorrida y tiempo utilizado. se muestran o a los resultados del proceso de utilizaci´ n del modelo por parte del AGENTE B.´ ´ CAPITULO 10.2501 a -0. Para comparar el comportamiento del AGENTE B con el comportamiento del agente modelado.5000 0.0001 a -0.3: Intervalos de velocidad de la rueda dos (v2 ) y su equivalencia en clases discretas.0001 a 0. Por razones experimentales el tiempo m´ ximo est´ fijado a 2000 ciclos. Por ejemplo.2. Adem´ s.5001 y −0. a a 10.2501 a 0. EVALUACION: MABT 103 Tabla 10.2.5001 a 0. Resultados En esta secci´ n de muestran los resultados obtenidos en el proceso de generao ci´ n del modelo del AGENTE A por parte del AGENTE B. o . intervalo -1. se realizaron 50 ejecuciones (simulaciones de b´ squeda de blancos) tanto para el u AGENTE A como para el AGENTE B.7500 -0. 6206 equivalente a la media del valor de la clase de las instancias incluidas en dicho intervalo.4) y consiste en alcanzar la meta de manera eficiente.0000 clase discreta m´nima ı baja medio baja poco baja cerca 0 negativo nula cerca 0 positivo poco alta media alta alta m´ xima a instancias 158 60 101 58 94 6 102 81 158 145 13 lizado para entrenar. el tiempo utilizado representa al tiempo que consume el robot en alcanzar el objetivo.2500 0. cuyo MRA es m.9999 -0.7500 0.9999 1. AGENTE A.7500 correspondiente a la etiqueta poco baja el valor asignado es −0. para el intervalo comprendido entre −0. Concretamente. Cada ejecuci´ n comienza o desde un punto distinto en un mundo bi-dimensional (Figura 10.7501 a 0.2500 0.5000 -0. se utiliza el simulador para crear situaciones con el fin de comparar al AGENTE A con el AGENTE B.5001 a -0.0000 -0.0000 0.

tanto C 4.´ ´ CAPITULO 10. Tabla 10.6) que estima el valor de la clase (velocidad de la rueda 2 del robot). generan un modelo que. o Coeficiente de Correlaci´ n o Media del Error Absoluto Ra´z Media Error Cuadr´ tico ı a 0.0641 Arboles de Decisi´ n o En la Tabla 10.4 se muestran los resultados que obtiene M 5 en el proceso de generaci´ n del modelo del AGENTE A. o ´ Cada nodo hoja del arbol tiene asociado un modelo lineal (Tabla 10.4: Resultados de la aplicaci´ n de M 5.5 se muestra el resumen del arbol de regresi´ n generado por M 5.5. Arboles de Regresi´ n o En la Tabla 10.0342 0.7 se muestran los resultados obtenidos al utilizar C 4. Por otra parte.4: Mundo Bi-dimensional utilizado en SimDai.5 como t´ cnica de aprendizaje autom´ tico dentro del MCM del AGENTE B. Como se puede e a apreciar. lo que indica que el modelo adquirido por o el AGENTE B es muy similar al comportamiento del AGENTE A. ´ en la Tabla 10.9954 0.5 como C 4. genera la misma salida que el AGENTE A para los mismos . EVALUACION: MABT 104 Figura 10. en alrededor del 84 % de los casos. se obtiene un o coeficiente de correlaci´ n cercano al 1. Como se puede apreciar.RULES.

´ ´ CAPITULO 10. EVALUACION: MABT

105

´ Tabla 10.5: Reglas del arbol de regresi´ n generado por M 5. o

Sensor 1 ≤ 0.0333 ≤ 0.0333 ≤ 0.0333 ≤ 0.0333 ≤ 0.0333 ≤ 0.0333 ≤ 0.0333 ≤ 0.0333 ≤ 0.0333 > 0.0333 and ≤0.22 >0.22 and ≤0.587 >0.22 and ≤0.587 >0.587 ≤0.193 ≤0.193 ≤0.193 >0.193

Sensor 2 -

Sensor 3 ≤ 0.233 ≤ 0.233 ≤ 0.233 ≤ 0.233 ≤ 0.233 ≤ 0.233 ≤ 0.233 ≤ 0.233 > 0.233 ≤0.213 >0.213 -

Sensor 4 ≤ -0.841 > -0.841 and ≤ -0.743 > -0.743 ≤-0.59 ≤-0.59 ≤-0.59 >-0.59 and ≤ -0.453 >-0.453 ≤-0.161 ≤-0.161 ≤-0.161 ≤-0.161 ≤-0.161 >-0.161 and ≤0.134 >0.134 and ≤0.711 >0.711 >-0.161

Sensor 5 ≤0.29 ≤0.29 ≤0.29 >0.29 and ≤0.761 >0.761 and ≤0.975 >0.975 -

Modelo LM1 LM2 LM3 LM4 LM5 LM6 LM7 LM8 LM9 LM10 LM11 LM12 LM13 LM14 LM15 LM16 LM16

Tabla 10.6: Modelos lineales generados por M 5.
Modelo LM1: LM2: LM3: LM4: LM5: LM6: LM7: LM8: LM9: LM10: LM11: LM12: LM13: LM14: LM15: LM16: LM17: Predicci´ n o clase = clase = clase = clase = clase = clase = clase = clase = clase = clase = clase = clase = clase = clase = clase = clase = clase = Factor 0.36 0.358 0.0201 0.201 0.886 0.933 0.0814 -0.0041 -0.00956 -0.073 -0.149 -0.427 -0.719 -0.0313 -0.0435 -0.408 -0.839 Sensor 1 -0.0936 -0.0936 -0.0936 -0.0936 -0.0936 -0.0936 -0.0936 -0.0936 -0.0936 -2.6 -2.23 -1.33 -0.62 -2.87 -2.25 -0.757 -0.126 Sensor 2 +0.0711 +0.129 +0.0288 +0.0751 +0.0365 +0.0365 +0.0257 +0.0202 +0.0155 +0.0441 +0.0065 +0.0065 +0.0065 +0.0897 +0.0879 +0.0364 +0.013 Sensor 3 -0.895 -1.25 -1.2 -1.29 -1.11 -1.11 -0.312 -1.22 -1.14 -0.964 -0.407 -0.424 -0.226 -1.14 -1.11 -0.38 -0.129 Sensor 4 -0.723 -0.668 -1.15 -0.969 -0.427 -0.427 -1 -1.2 -1.12 -1.03 -0.895 -0.488 -0.305 -1.13 -1.11 -0.652 -0.135 Sensor 5 - 0.276 -0.35 -0.423 -0.531 -0.859 -0.943 -0.134 -0.453 -0.166 -0.264 -0.0413 -0.0413 -0.0413 -0.33 -0.329

valores de los atributos de entrada. Estos resultados dan una idea de la precisi´ n del o modelo, pero no permiten estimar su utilidad en una situaci´ n real. Por esta raz´ n o o el modelo, m, se utiliza como si fuese el MRA del AGENTE B como se explic´ en o la configuraci´ n experimental. o Como se puede ver en la Figura 10.5, la distancia cubierta por el AGENTE A y el AGENTE B es muy similar. De igual manera, el tiempo consumido en alcanzar la meta, (Figura 10.6) es similar. El AGENTE A no alcanza la meta en una ocasi´ n o (tiempo > 2000) mientras que el AGENTE B controlado por m, no alcanza la meta

´ ´ CAPITULO 10. EVALUACION: MABT

106

Tabla 10.7: Tasa de aciertos (en %) de C 4.5 y C 4.5- RULES en el proceso de generaci´ n del o modelo. Aciertos/C 4.5 84.44 % 3.8624 Aciertos/C 4.5Rules 84.02 % 4.2424

Promedio Desviaci´ n o

Tabla 10.8: Ejemplo de reglas generadas por C 4.5- RULES.
Rule 13: sensor5 Rule 1: sensor1 sensor3 sensor4 sensor5 Rule 73: sensor1 sensor2 sensor5 Rule 80: sensor1 Rule 69: sensor1 sensor4 > class = ≤ ≤ ≤ ≤ class = > ≤ ≤ class = > class = > > class = 0.940451 null [79.4 %] 0.08 AND 0.426667 AND -0.863739 AND 0.298303 very-high [89.9 %] 0.346667 AND 0.16 AND 0.141961 AND very-low [98.1 %] 0.573333 super-low [98.0 %] 0.28 AND -0.039041 super-low [97.1 %] ...

1600 1400 1200 distancia cubierta 1000 800 600 400 200 0 0 5 10 15 20 25 30 ejecución 35 Agente B 40 45 50

Agente A

Figura 10.5: Distancia recorrida por el AGENTE A y el AGENTE B (controlado por el modelo generado utilizando C 4.5) antes de alcanzar el objetivo.

´ ´ CAPITULO 10. EVALUACION: MABT
2200 2000 1800 1600 1400 tiempo 1200 1000 800 600 400 200 0 0 5 10 15 20 25 30 ejecución 35 Agente B 40 45 50

107

Agente A

Figura 10.6: Tiempo consumido por el AGENTE A y el AGENTE B (controlado por el modelo generado utilizando C 4.5) en alcanzar el objetivo.

en dos ocasiones. Estos resultados indican que a pesar de que la precisi´ n en la o construcci´ n del modelo no sobrepasa el 85 %, el conocimiento reflejado en el o modelo captura en gran medida el comportamiento del AGENTE A.

10.3.

Modelado en Entornos Din´ micos a

La Robot World Cup Initiative (RoboCup) [81] es una iniciativa internacional que busca promover la investigaci´ n en Inteligencia Artificial y Rob´ tica propoo o niendo un problema est´ ndar donde un amplio rango de tecnolog´as pueden ser a ı integradas y estudiadas. La RoboCup ha seleccionado el f´ tbol como t´ pico cenu o tral de la investigaci´ n, teniendo como objetivo innovaciones que puedan ser aplio ´ cadas en problemas sociales significativos y de la industria. La ultima meta del proyecto de la RoboCup es que para el a˜ o 2050 se haya desarrollado un equipo n de robots humanoides totalmente aut´ nomos que pueda ganar en un partido contra o el campe´ n del mundo de f´ tbol de humanos. Entre las tecnolog´as que pueden ser o u ı integradas en un equipo de robots est´ n el dise˜ o de agentes aut´ nomos, colaboraa n o ci´ n multiagente, adquisici´ n de estrategias, razonamiento en tiempo real, rob´ tica o o o y fusi´ n de sensores. o A pesar de que el objetivo final de la RoboCup contempla el desarrollo de robots , actualmente existen simuladores que permiten el desarrollo de investigaciones enfocadas, sobretodo, en la adquisici´ n de estrategias y el comportamiento o de los agentes y no en las caracter´sticas f´sicas de estos. La liga o categor´a de ı ı ı f´ tbol simulada se basa en el Soccer Server System [100]. Este es un sistema que u permite que dos equipos de 11 agentes, implementados en diversos lenguajes de programaci´ n, jueguen un partido de f´ tbol. o u

As´.7) que dan idea a los jugadores de d´ nde o est´ n situados los diversos elementos del entorno (como las porter´as y el centro a ı del campo). Esto significa que un agente no recibe nunca un meno saje visual de que. proporciona un campo virtual y simula los movimientos de los jugadores y el bal´ n. los clientes o ı ı pueden ser implementados en cualquier arquitectura que permita comunicaciones de este tipo. y tambi´ n a trav´ s de dicha conexi´ n env´a sus ordenes. el bal´ n est´ en la posici´ n x e y del campo. sino o a o ´ ´ que el bal´ n est´ a una distancia d de el. o a a Si se a˜ ade a esto que la informaci´ n que se recibe del simulador. Pueden o recibir informaci´ n sobre la posici´ n del bal´ n. de los jugadores. Toda esta informaci´ n que reciben los agentes es subjetiva. Los clientes definen el comportamiento de los jugadores.7: Marcas o banderas del campo de f´ tbol dentro del simulador de la RoboCup. se recibe con un n o ruido proporcional a la distancia de los objetos. y que lo est´ “viendo” con un angulo a. y sobre marcas o o o situadas por el campo (ver Figura 10. o lo e e o ı que es lo mismo. controlando sus movimientos de forma que cada uno de ellos dirige a un jugador. EVALUACION: MABT 108 Para ello. se utiliza una arquitectura cliente-servidor. por ejemplo. (flag t l 50) (flag t l 40) (flag l t 30) (flag l t) (line l) (flag l t 20) (flag p l t) (flag p r t) (flag t l 30) (flag t l 20) (line t) (flag c t) (line r) (flag r t 20) (flag t l 10) (flag t 0) (flag t r 10) (flag t r 20) (flag t r 30) (flag t r 40) (flag r t) (flag r t 30) (flag t r 50) (flag l t 10) (flag g l t) (flag l 0) (goal l) (flag g l b) (flag p l c) (flag c) (flag p r c) (flag g r t) (goal r) (flag g r b) (flag r t 10) (flag r 0) (flag l b 10) (flag r b 10) (flag l b 20) (flag p l b) (flag p r b) (flag r b 20) (flag l b 30) (line b) (flag l b) (flag b l 40) (flag b l 20) (flag b l 30) (flag b l 10) (flag b 0) (flag b r 10) (flag c b) (flag b r 20) (flag b r 30) (flag r b) (flag b r 40) (flag b r 50) (flag r b 30) Límite físico (flag b l 50) Figura 10.´ ´ CAPITULO 10. es decir. auditiva y sobre el estado de su cuero ´ po) desde el servidor. las acciones que quiere ejecutar sobre el entorno. Mediante la conexi´ n o UDP/IP. La comunio caci´ n entre el servidor y los clientes se realiza v´a sockets UDP/IP. se comprende una de las principales dificultades del dominio consistente en obtener una representaci´ n completa de o la realidad. o relativa a su propia posici´ n. La informaci´ n visual que los agentes reciben del entorno es variada. El servidor. recibe informaci´ n sensorial (visual. u .

la generaci´ n de trazas y el o proceso de modelado. considerado como una caja negra. se ha aplicado el enfoque utilizado o en las secciones anteriores con el fin de obtener el modelo del J UGADOR A. En el modelado simple. mientras que en el modelaa do jer´ rquico se utilizan C 4. n El J UGADOR A es utilizado en una situaci´ n en donde no tiene contrarios o ni compa˜ eros en el terreno de juego. El proceso de generaci´ n de trazas se detalla a continuaci´ n: o o 1. ´ Selecci´ n de un jugador de un equipo situado entre los mejores de las ultimas o competiciones como J UGADOR A. EVALUACION: MABT 109 El simulador de f´ tbol ha sido seleccionado como dominio de prueba del MABT u con vistas a determinar su aplicabilidad en entornos din´ micos. Al seleccionar un jugador de un equipo ´ situado entre los mejores. a Para determinar que el conocimiento generado por el agente. Una vez que ha sido adquirida la traza del J UGADOR A. se procede a obtener ´ el conocimiento que intenta modelar el comportamiento de este.5 como t´ cnica de a e aprendizaje autom´ tico para generar el modelo. 10. Es estos experimentos se ha utilizado un jugao dor del equipo TsinghuAeolus [148].1. Su objetivo es dirigir el bal´ n hacia la porter´a contraria y disparar o ı el bal´ n con el fin de marcar gol.3. 2. puesto que se desea determinar si n se puede obtener un modelo correcto del oponente en el caso m´ s sencillo a posible. El detalle de la fase de construcci´ n del modelo se detalla a continuaci´ n: o o 1. equipo campe´ n de la competici´ n del o o a˜ o 2001. s´ lo se ha utilizado un conjunto de entrenamiento con 291 instancias o correspondientes a medio tiempo de un partido de f´ tbol simulado. Por razones experimentales la experimentaci´ n relacionada con el J UGADOR o B se limita a la generaci´ n del modelo del J UGADOR A mediante el m´ dulo o o de construcci´ n del modelo (MCM). u . o J UGADOR B es capaz de modelar el comportamiento del agente o J UGADOR A. En este caso. Ambos algoritmos de aprendizaje est´ n a a implementados en W EKA [144].5 y M 5. se asegura que el comportamiento de este sea correcto en una situaci´ n dada. Se han dise˜ ado dos tareas de aprendizaje: modelado simple y el moden lado jer´ rquico.´ ´ CAPITULO 10. Modelado Simple Como primera aproximaci´ n al problema. se utiliza C 4. se han llevado a cabo dos etapas. o 2. Es decir. el J UGADOR B no llega a ser o implementado en el simulador.

Se u e e aplic´ nuevamente la variante del algoritmo de Lloyd generalizado para discretizar o . los resultados se pueden catalogar como regulares. Los resultados de este experimento est´ n etiquetados como ejecuci´ n 01 en a o la Tabla 10. o dos atributos relacionados con el tipo de visi´ n. direcci´ n. la maa yor´a de estas acciones tiene asociado uno o varios par´ metros num´ ricos. Si se considera que existen 51 clases y que se utiliza como entrada 140 atributos. say. Todos los resultados reflejados en la Tabla 10. Estos valores e num´ ricos son obtenidos discretizando los valores originales con una variante del e algoritmo de Lloyd generalizado [44]. Con el prop´ sito de mejorar los resultados anteriores. la informaci´ n sobre el sensor del cuerpo est´ compuesta o o a por 16 atributos (el tiempo de simulaci´ n. Por otra parte. kick.9 han sido obtenidos mediante una validaci´ n cruzada de o diez carpetas.g. En esta ejecuci´ n el n´ mero de clases se incrementa debido a la exisı o u tencia de un mayor n´ mero de instancias. move. se ha utilizado un total de 140 atributos. turn y turnneck). los atributos relacionados con el bal´ n son recibidos a partir del sensor de o visi´ n. o e Se han utilizado 120 atributos con informaci´ n sobre la posici´ n relativa del J U o o GADOR A con respecto a las banderas de localizaci´ n y l´neas del terreno de juego o ı (distancia y direcci´ n a cada punto y l´nea en un instante de tiempo dado).13). Un jugador puede llevar a cabo entre 6 y 7 acciones distintas dependiendo del tipo de jugador (i. Como consecuencia de la introducci´ n de estos nuevos atributos. se increment´ el n´ meo o u ro de instancias aumentando la duraci´ n del partido. el n´ meo u ro de total de atributos se reduce de manera dr´ stica al eliminar la mayor´a de los a ı que est´ n relacionados con las banderas de campo (s´ lo se conservan los atributos a o relacionados con el centro del campo y los relacionados con el centro de ambas porter´as). De esta manera. En estos ı a e experimentos la clase de cada instancia es la combinaci´ n de las acciones que se o pueden ejecutar en el mismo ciclo (e. o ı a cuatro atributos relativos a la posici´ n del bal´ n (distancia. dos atributos relacionados con la fuerza. En resumen. Al igual que los atributos relacionados con el terreno de juego. cambio de o o o ´ radio. Adem´ s. catch. se a˜ ade informaci´ n sobre la posici´ n del J UGADOR A n o o en lugar de que el modelo intente deducirla mediante los atributos de banderas del campo. cambio de angulo).9. el angulo de la cabeza.e. Algunas de estas acciones se pueden llevar a cabo en el mismo instante de tiempo. y ocho contadores de acciones realizadas). dash − turn neck) con el correspondiente ´ valor num´ rico si este es el caso (e. Adem´ s. El MCM del J UGADOR B obtiene m´ s de un 45 % de precisi´ n en a o la predicci´ n de la acci´ n que va a ejecutar el oponente asociada con el par´ metro o o a discretizado. dash. dash100 − turn neck103. dos atributos relacionados con la o ´ velocidad. y el rango num´ rico tambi´ n crece.g.´ ´ CAPITULO 10. EVALUACION: MABT 110 La informaci´ n que se ha utilizado para generar el modelo del J UGADOR A o ´ corresponde a la informaci´ n en bruto que recibe este a trav´ s de sus sensores. Adicionalmente se a˜ adieron o n dos nuevos atributos: las coordenadas X e Y dadas por la arquitectura del J UGA DOR A mediante un pre-procesado de los datos en bruto recibidos a trav´ s de los e sensores.

sin valores desconocidos). se observ´ que atria o butos con un gran n´ mero de valores desconocidos generaban un modelo muy u dif´cil de entender. o Tabla 10.72 % 55. wide-high.36 % 55. Por ejemplo. o Al analizar la matriz de confusi´ n de la ejecuci´ n 03. se observ´ que muo o o chas clases solo estaban instanciadas en pocos casos. Los resultados de esta ejecuci´ n se muestran en la Tabla 10. una bandera que se encuentra muy o lejos para ser vista).13 son compactadas a dash − turn neck.57 % 69.´ ´ CAPITULO 10.9: Resultados obtenidos en el proceso de generaci´ n del modelo del AGENTE A.57 %) pero el modelo obtenido ten´a m´ s sentiı o ı a do. dash.82 % (ejecuci´ n o o 05. lo que provoca una gran disminuo a ci´ n en el n´ mero de clases. con valores desconocidos) y 72. Esta precisi´ n en o la predicci´ n es razonable dado el nivel de ruido que existe en el simulador. o u En el an´ lisis del modelo obtenido en este experimento. Por esta raz´ n se ı o o decidi´ realizar pruebas limitando la tarea de aprendizaje a la predicci´ n de la o o acci´ n.9 etiquetados como o ejecuci´ n 03. y turnneck.66 % 72. El n´ mero de clases a u es de 7: narrowhigh-turn-turnneck. como se muestra en la Tabla 10. sin incluir el par´ metro correspondiente. EVALUACION: MABT 111 las clases continuas. o * sin valores desconocidos. con lo cual se hac´a muy ı dif´cil obtener reglas para la clasificaci´ n de estas instancias. turn. kick. Llevando a cabo este reemplazo. Como en la ejecuci´ n anterior. llevar a cabo el aprendizaje de los par´ metros. se llev´ a cabo la experimentao o ci´ n reemplazando los valores desconocidos. La precisi´ n en la predicci´ n mejora o o o hasta el 69.66 % (ejecuci´ n 04. En este caso se logra un 55. todas las instancias con clase del tipo o u dash100 − turn neck103. la precisi´ n en la predicci´ n o o permanec´a casi sin variaci´ n (55. Por lo tanto.72 % de o precisi´ n. Ejecuci´ n o 01 02 03* 04 05* Instancias 291 2595 2595 2595 2595 Atributos 140 32 32 32 32 Clases 51 69 69 7 7 Precisi´ n o 45.82 % .9. se sustituyeron los valores desconocidos por valoı res num´ ricos muy elevados para representar objetos que se encontraban fuera del e campo de visi´ n del J UGADOR A (por ejemplo. a pesar del incremento en el n´ mero de clases. La clase dash-turnneck quiere decir que las acciones se llevan a cabo de manera concurrente. dash-turnneck. Los resultados de este experimento se pueden apreciar en la Tabla 10. para con posterioridad.9 etiquetados como ejecuci´ n 02.

.3. a 10. En la Figura 10. a Conjuntamente. con el fin de modelar o los par´ metros (con valores continuos). Estos par´ metros son: Turn-Angle (TA). A este tipo de aprendizaje secuencial a se le ha llamado aprendizaje jer´ rquico. Modelado Jer´ rquico a Una vez analizados los resultados obtenidos..5. se decidi´ realizar un aprendizaje o de las acciones y los par´ metros por separado.8 se muestra la arquitectura a general del modelado jer´ rquico.83 C. Los resultados son mostrados en la Tabla 10. se utiliza el conjunto completo de instancias de entrenamiento para obtener el modelo que es capaz de predecir la acci´ n del oponente utilizando para o ello C 4. o al igual que en las ejecuciones 02. respectivamente). Los resultados de esta experimentaci´ n est´ n reflejados en la Tabla 10. resultado simio o lar las ejecuciones 04 y 05 mostradas en la Tabla 10.04 y 05 reflejadas en la Tabla 10.. a a Dash-Power (DP). o o kick y turn) que son mutuamente excluyentes ya que son las m´ s relevantes a la a hora de utilizar el modelo aprendido.98 C. dash + parámetro turn + parámetro Modulo de Razonamiento acción a realizar Figura 10...9.C. Kick-Power (KP) y Kick-Direction (KD).´ ´ CAPITULO 10.03. para cada acci´ n e o ´ se genera un arbol de regresi´ n utilizando el algoritmo M 5. y 0. EVALUACION: MABT entrada de sensores 112 Modelos ^ T T (traza) Aprendizaje de Reglas Modelador de Acciones ^ Tdash ^ T turn acciones Aprendizaje de Parámetros . Pero en los par´ metros rea . Primero.10 o a etiquetados como ejecuci´ n 01. En estos experimentos se han utilizado 32 atributos (las banderas de campo principales e informaci´ n del sensor de cuerpo). Se obtiene un 72. estimador de parámetro para la acción DASH estimador de parámetro para la acción TURN . dash.10. etiquetados como ejecuciones 02 a la 05.74 % de precisi´ n.9. se decidi´ aprender s´ lo las acciones principales (view.2.8: Arquitectura del aprendizaje jer´ rquico. Despu´ s. Los resultados para Dash-Power (DP) y Kick-Power (KP) se pueden considerar como buenos (0.C.

C. Turn-Angle (TA) y Kick-Direction (KD).91 % NB NB ´ lacionados con angulos.10: Tasa de acierto (en % y coeficiente de correlaci´ n .5 se obtienen mejores resultados (62. izquierda (100o a 180o ).C. entonces M 5 y C 4. respectivamente).30 % TA) que con Naive Bayes (45 % KD y 48. En relaci´ n al Turn-Angle. y si se o considera que una salida discreta es lo que hace falta a la hora de la utilizaci´ n del o modelo obtenido. etc) son todo lo que se necesita a la hora de utilizar el modelo.N B) que trabajan con clases discretas. Clase e a o C indica clase continua. tomando en cuenta la distribuci´ n de los datos.10 % 62.5 y Naive a Bayes .5 pueden ser comparados discretizando la salida de M 5 en 5 clases y calculando el porcentaje de precisi´ n. Tambi´ n se quieren comparar los resultados sobre e el conjunto de datos discretizados con los resultados obtenidos sin la discretizaci´ n. ree o o a -50o ).C. Pero asumiendo que las 5 clases discretas (centro.91 % TA).10 % KD y 62.52 C.74 % 0. Ejecuci´ n o 01 02 03 04 05 06 07 08 09 Predicci´ n o acci´ n o principal TA DP KP KD KD TA KD TA Algoritmo C 4. Esta tarea resulta dif´cil.58 C. Por ejemplo. Despu´ s de la discretizaci´ n. Los resultados son denominados a ejecuciones 06. dado que los resultados sobre datos discretizados o ı obtenidos utilizando C 4.´ ´ CAPITULO 10. a centro-derecha.5 es la mejor opci´ n.5 M5 M5 M5 M5 C 4.5 y 44 % para M 5. los coeficientes de correlaci´ n son peores (0. Para llevar a cabo esta comparaci´ n.5 Instancias 2594 321 1331 929 929 929 321 929 321 Clases 4 C C C C 5 5 5 5 Precisi´ n o 72.83 C.52 C. y 0. los valores de o estos par´ metros y se ha aplicado sobre estos datos dos algoritmos (C 4.5 obtiene 64 % mientras que o M 5 da un 54 % de precisi´ n. 62. y derecha (-100o a -180o ). se considera que es mas util predecir a ´ la direcci´ n del movimiento (o la direcci´ n de un disparo) cuando el oponente se o o dirige hacia adelante que cuando va hacia atr´ s. Se trata de ´ discretizar de la mejor manera estos angulos en donde la predicci´ n del comportao ´ miento del oponente es m´ s util. o o se han discretizado. o .C. 0.30 % 45. 0. centro-derecha sultan 5 clases: centro (50 (-50o a -100o ).94 C.64 % 48. 07..5 C 4.C.C.C. C 4. Por esta raz´ n. De esta manera. Estos muestran que utilizando C 4. Resultados similares se han obtenidos en la predico ci´ n de Kick-Direction: 61 % para C 4.58 C. C 4.5 son menos precisos que los valores dados por el modelo generado por M 5.) obtenidas por las o distintas t´ cnicas de aprendizaje autom´ ticos utilizadas en la generaci´ n del modelo. y 09 en la Tabla 10.10. 08. y por lo tanto la predicci´ n sobre el comportamiento del opoo nente posee m´ s incertidumbre. 0. se ha o o dividido aleatoriamente las instancias en conjunto de entrenamiento y conjunto de prueba (80 %/20 %).C. EVALUACION: MABT 113 Tabla 10. centro-izquierda (50o a 100o ).

MABT solo puede ser aplicado con prop´ sitos experimentales. 114 . las entradas que son consideradas no son u las entradas directas que recibe el agente a trav´ s de los sensores. En este cap´tulo se muestran los resultados obtenidos en las diferentes etapas ı de la aplicaci´ n de MABO al dominio del simulador de f´ tbol. m´ dulo o o o de construcci´ n del modelo y el m´ dulo de razonamiento. o Dado que esta situaci´ n es com´ n a la gran mayor´a de los dominios en donde o u ı interact´ an agentes. u A diferencia de los experimentos realizados sobre el dominio del simulador de f´ tbol aplicando el MABT. o a El AGENTE A utilizado en estos experimentos es un portero del equipo ORCA [99] y el AGENTE B o agente modelador es un delantero basado en el c´ digo o del equipo CMUnited-99 [125].1. Dado que cada uno de o o estos m´ dulos involucra una serie de experimentos.Cap´tulo 11 ı Evaluaci´ n: MABO o Es evidente que en dominios como el simulador de f´ tbol de la RoboCup. en este caso. En este caso. Configuraci´ n Experimental o El MABO consta de tres m´ dulos: m´ dulo de etiquetado de acciones. en u donde el agente modelador no tiene acceso directo a las entradas y las salidas del agente a modelar. el AGENTE A debe evitar que el AGENTE B marque goles. El objetivo del AGENTE B es conducir la pelota hacia la porter´a que defiende el AGENTE A con el fin de marcar un gol. Por el ı contrario. se ha creado una situaci´ n o o simulada com´ n con el fin de determinar la utilidad de MABO en este dominio. o u 11. tanto e en la creaci´ n del MEA como en el MCM y el MRA. se aprovecha la arquitectura del o agente modelador el cual realiza un procesado de las entradas de los sensores con la finalidad de utilizar informaci´ n de m´ s alto nivel. es necesaria la utilizaci´ n de MABO con la finalidad de llevar u o a cabo la tarea de modelado en este tipo de dominios.

44 son datos acerca del AGENTE A y del entorno en dos instancias de tiempo consecutivas. En la ultima columna se muestra la precisi´ n obe o .007 C. ´ Existen tres filas en la Tabla 11. kick. turn y dash. por razones experimentales. se o simul´ una situaci´ n en donde interviene un atacante (AGENTE B y un portero o o AGENTE A. Para generar el clasificador que etiqueta la clase prino cipal se ha utilizado PART mientras que los par´ metros num´ ricos son etiquetados a e por un clasificador generado por M 5. se genera un conjunto de entrenamiento con un total de 68 atributos (ver Ap´ ndice C). A partir de la traza generada por el AGENTE B.C. o u Tarea Instancias Atributos Principal 5095 69 Turn 913 69 Dash 3711 69 C. se procede a generar los clasificadores capaces de deducir las acciones realizadas por el oponente. Una vez que se han generado los datos. t y t − 1.1: Resultados de la creaci´ n de los clasificadores que forman el n´ cleo del MEA.2.1. e De estos atributos.3.21 C. Dado que el AGEN a e TE A es un portero. 24. dash y none. el n´ mero de atributos utilizados y el n´ mero de clases u u ´ (continua para clases num´ ricas). la clase asociada a cada instancia es tomada de la traza del comportamiento del AGENTE A. Mientras ambos agentes est´ n interactuando.C. mientras que las otras dos filas muestran la predicci´ n o o de los par´ metros num´ ricos de dos acciones. Para generar los datos necesarios para la construcci´ n del MEA. son atributos calculados mediante la comparaci´ n de los atributos relacionados con el AGENTE o A y el entorno. La primera de estas refleja la predicci´ n de o la acci´ n del AGENTE A. El resto de los atributos. Las columnas representan el n´ mero de instancias utilizadas o u en la tarea de aprendizaje. EVALUACION: MABO 115 11.´ ´ CAPITULO 11. Adem´ s existe otra clase denominada desconocida que es asiga nada a una instancia para la cual no se posee la clase real por motivos del ruido existente en el dominio. Por otra parte.81 % 0. se lleva a cabo un regisa ´ tro del comportamiento de estos. Cabe mencionar que para la creaci´ n MEA se ha seguido el enfoque jer´ rquico o a descrito en la secci´ n 10.C. Tabla 11. Los resultados obtenidos en la generaci´ n de o estos clasificadores se detallan en la Tabla 11. s´ lo se consideran relevantes los o par´ metros de estas acciones y no se consideran los par´ metros num´ ricos asociaa a e dos a la acci´ n kick.1. 0. M´ dulo de Etiquetado de Acciones o Los datos utilizados para la creaci´ n del MEA son una combinaci´ n de la pero o cepci´ n acerca del AGENTE A que posee el AGENTE B y la acci´ n real llevada o o a cabo por el AGENTE A basada en registros de interacciones previas (partidos anteriores). Los valores de la clase puede ser turn.: coeficiente de correlaci´ n o Clases 5 continua continua Precisi´ n o 70.

´ ´ CAPITULO 11. EVALUACION: MABO

116

tenida en la predicci´ n. Para los par´ metros num´ ricos, se muestra el coeficiente de o a e correlaci´ n. Estos resultados han sido obtenidos utilizando una validaci´ n cruzada o o estratificada de 10 carpetas. El clasificador generado para etiquetar las acciones del AGENTE A y que forma parte del MEA, obtiene un 70 % de precisi´ n, lo cual es un resultado aceptable si o se considera que el simulador a˜ ade ruido a la ya incierta tarea del etiquetado de la n acci´ n. Por otro lado, los resultados obtenidos en la predicci´ n de los par´ metros o o a num´ ricos asociados a las acciones son pobres. Quiz´ s las t´ cnicas utilizadas para e a e construir los modelos num´ ricos no son las m´ s apropiadas, o quiz´ s se pueden e a a obtener mejores resultados discretizando los valores continuos de la clase. Generalmente no es necesario predecir los valores num´ ricos con gran precisi´ n; una e o estimaci´ n aproximada es suficiente si se busca tomar ventaja de la predicci´ n. Por o o ejemplo, puede ser suficiente predecir si el portero va a girar hacia la derecha o a ´ la izquierda en vez de predecir el angulo exacto en que va a girar. En estos experimentos se utilizar´ solo la predicci´ n de la acci´ n principal con la finalidad de a o o llevar a cabo una acci´ n en una situaci´ n dada. o o

11.3.

M´ dulo de Construcci´ n del Modelo o o

Una vez que han sido generados los clasificadores que son el n´ cleo del MEA, u ´ se incorpora este a la arquitectura del agente con el fin de generar informaci´ n o sobre el oponente. La situaci´ n simulada es la misma que la utilizada en la conso trucci´ n del MEA. De igual forma, se han utilizado los mismos atributos que al o ´ construir el MEA con la unica salvedad de que esta vez se incluyen los atributos correspondientes a la clasificaci´ n de la acci´ n llevada a cabo por el oponente. Un o o total de tres atributos por cada uno de los dos instantes de tiempo tomados en consideraci´ n son a˜ adidos. En cada instante de tiempo se incluyen la acci´ n realizada o n o por el oponente y sus dos par´ metros num´ ricos asociados. Por otra parte, se sua e prime el atributo OpponentNumber por considerarlo de poca utilidad en la tarea de aprendizaje. En tanto que el n´ mero de clase se ve incrementado en uno ya que se u a˜ ade la clase no hay que se asigna a las instancias a las cuales el MEA no puede n clasificar. Al igual que en el proceso de creaci´ n del MEA se ha utilizado PART y M 5 para o construir los modelos. Los resultados obtenidos a la hora de crear estos modelos se encuentran reflejados en la Tabla 11.2. Como se puede apreciar, el clasificador que genera el MCM con la finalidad de predecir la acci´ n que llevar´ a cabo el AGENTE o a A, obtiene una precisi´ n por encima del 80 % lo cual es un resultado aceptable o en esta tarea. Por otra parte, los clasificadores generados por el MCM para llevar a cabo la predicci´ n de los par´ metros num´ ricos asociados a las acciones turn y o a e dash obtienen resultados mejorables.

´ ´ CAPITULO 11. EVALUACION: MABO

117

Tabla 11.2: Resultados de la creaci´ n de los clasificadores que forman parte del modelo o del AGENTE A llevado a cabo por el MCM.

Tarea Instancias Atributos Principal 5352 73 Turn 836 73 Dash 4261 73 C.C.: coeficiente de correlaci´ n o

Clases 6 C C

Precisi´ n o 81.13 % 0.67 C.C. 0.41 C.C.

11.4.
11.4.1.

M´ dulo de Razonamiento o
Utilizaci´ n del Modelo o

Una vez que el J UGADOR B ha adquirido el modelo, m, del J UGADOR A y ha sido incorporado a su arquitectura (probablemente dentro de un m´ dulo de razoo ´ ste puede ser utilizado para predecir las acciones del oponente en una namiento), e situaci´ n dada. La tarea seleccionada para probar el modelo adquirido es cuando o disparar [124]. Cuando el jugador atacante se aproxima a la porter´a, este tiene que ı ´ decidir si dispara a la porter´a o si sigue avanzando con el bal´ n. En este caso, el ı o AGENTE B (el atacante) tomar´ esa decisi´ n basado en el modelo del comportaa o miento del portero (AGENTE A). Cuando decide disparar, el AGENTE B primero selecciona un punto dentro de la porter´a como el blanco del lanzamiento. En este caso, un punto a cada lado la ı porter´a. El agente entonces considera su propia posici´ n y la posici´ n del portero ı o o para seleccionar que punto ser´ el blanco del lanzamiento. Una vez que el agente a esta cerca de la porter´a, utiliza el modelo del portero construido por el MCM con el ı prop´ sito de predecir la reacci´ n del portero y decide si disparar o no en un instante o o de tiempo dado. Por ejemplo, si se predice que el portero permanecer´ quieto, el a atacante avanza con el bal´ n hacia la porter´a. o ı Con el prop´ sito de estimar la efectividad del MABO en un partido de f´ tbol o u simulado, se han realizado 100 simulaciones en donde solo dos jugadores est´ n a presentes en el terreno de juego. Para cada simulaci´ n, el atacante (AGENTE B) y o el bal´ n son colocados en 30 posiciones diferentes del campo seleccionadas aleatoo riamente. Esto hace un total de 3000 oportunidades de ataque. El portero se coloca cerca de la porter´a. La tarea del atacante es marcar gol mientras que la del portero ı es evitarlo. Para probar la utilidad del modelo se compara a un atacante que utiliza el modelo del portero con un atacante que no utiliza dicho modelo. En todas las situaciones, el atacante conduce el bal´ n hacia la porter´a hasta que decide cu´ ndo disparar. El o ı a delantero que no utiliza el modelo decide cu´ ndo disparar bas´ ndose s´ lo en la disa a o

´ ´ CAPITULO 11. EVALUACION: MABO

118

tancia hasta la porter´a, mientras que el atacante que utiliza el modelo, considera la ı distancia a la porter´a y la predicci´ n de la acci´ n del portero. ı o o En la Figura 11.1 se muestra la situaci´ n simulada. La distancia a la cual el o atacante toma de decisi´ n de disparar es de 25 metros. Por otra parte el blanco de o ´ lanzamiento depender´ de la posici´ n del portero. Si el angulo que hace el portero a o con el blanco de lanzamiento m´ s cercano al delantero es inferior a 20o , el disparo a se dirige a ese punto en concreto. En caso contrario se elegir´ como blanco de a lanzamiento el lado opuesto de la porter´a. En el caso del atacante que utiliza el ı modelo, adem´ s de la distancia, utiliza la predicci´ n de la acci´ n que llevar´ a a o o a ´ cabo el portero. Es decir, si el atacante se encuentra dentro del area que comprende los 25 metros desde el centro de la porter´a, y el modelo predice que el portero ı avanzar´ hacia su posici´ n (realizar´ un dash suponiendo que la direcci´ n es hacia a o a o el bal´ n), el atacante llevar´ a cabo el disparo, en caso contrario seguir´ avanzando o a a ´ con el bal´ n. Adicionalmente, se ha fijado un area de 15 metros desde el centro o de la porter´a en donde el atacante disparar´ siempre que est´ en ella, ya que se ı a e encuentra muy cerca del portero el cual puede evitar que siga avanzando.

25 m.

15 m.

blanco de lanzamiento portero atacante balón

Figura 11.1: Situaci´ n simulada para estimar la utilidad del modelo del portero adquirido o por el atacante.

Los resultados obtenidos en la realizaci´ n de estos experimentos se muestran o en la Tabla 11.3. Como muestran los resultados, la media de goles utilizando el modelo es superior a la media de goles sin utilizar el modelo. Estos resultados pueden ser resumidos como que, de cada 30 disparos, un gol extra es marcado si se utiliza el modelo. Adem´ s, los tiros dirigidos hacia fuera de la porter´a se reducen si se utia ı

Al igual que en la secci´ n anterior.65 5.4. con vistas o e a ı a utilizar de forma autom´ tica el modelo del AGENTE A adquirido por el AGENTE a B.3: Resultados de comparativos de la utilizaci´ n del modelo. en la arquitectura del agente modelador. Utilizaci´ n Autom´ tica del Modelo o a En el apartado anterior se utiliz´ el modelo del AGENTE A para ayudar al o AGENTE B a decidir que acci´ n ejecutar. el AGENTE B marca gol. se llev´ a cabo un nuevo experimento en donde la decisi´ n de disparar a poro o ter´a o seguir avanzando se realiza de manera autom´ tica mediante un clasificador ı a (CAu ).4. Cada ejemplo est´ formado por 18 atributos (ver Tabla 11. el ejemplo es considerado ı como positivo. decide aleatoriamente si disparar o no. EVALUACION: MABO 119 Tabla 11. 11. Pero la estrategia era fija y programada o a mano.´ ´ CAPITULO 11. u u ´ Una vez que el AGENTE B se encuentra en el area de 25 metros.18 10. Un atacante (agente modelador) y un portero (agente a o modelar) interact´ an un n´ mero elevado de veces. El proceso llevado a cabo con vistas a generar los datos necesarios para la construcci´ n de o CAu se detalla a continuaci´ n: o La situaci´ n simulada para generar los datos es la misma que se utiliz´ en o o la secci´ n 11. En caso contrario se considera negativo.2.05. el modelo del AGENTE A y CAu son s´ lo o o ´ una parte del MRA ya que este se basa.4) que correspona den a los valores de algunas variables del entorno adem´ s de las predicciones a . Para construir CAu es necesario generar una gran cantidad de datos. En este apartado se quiere generar de manera autom´ tica dicha estrategia a mediante la utilizaci´ n de t´ cnicas de aprendizaje autom´ tico.47 liza el modelo. en gran medida. o Delantero sin modelo con modelo Media de Goles 4. Si al disparar a porter´a. Los resultados demuestran que s´ existe diı ferencia significativa entre utilizar el modelo o no. Se ha realizado un prueba t-test para determinar si estas diferencias son significativas con un α = 0.88 Media de tiros fuera 11. A pesar de que el AGENTE B utiliza de una manera muy simple el modelo del AGENTE A. se obtiene una mejora significativa. As´ pues.1.

o Nombre BallKickable OpponentX OpponentY OpponentDistance BallX BallY MyX MyY Distance RM Their Goal Distance RM LF Flag Distance RM RF Flag AngleFromBody RM Their GR Flag LastAction LastAngle LastPower OpponentActionPrediction OAPrediction OPPrediction class Descripci´ n o ¿se puede disparar el bal´ n? o coordenada X del oponente coordenada Y del oponente distancia al oponente coordenada X del bal´ n o coordenada Y del bal´ n o coordenada X del agente modelador coordenada Y del agente modelador distancia hasta la porter´a ı distancia al poste izquierdo de la porter´a ı distancia al poste derecho de la porter´a ı ´ angulo a la porter´a ı ´ ultima acci´ n realizada o ´ ´ angulo de la ultima acci´ n o ´ fuerza de la ultima acci´ n o predicci´ n de la acci´ n del oponente o o ´ predicci´ n de el angulo de la acci´ n del oponente o o predicci´ n de la fuerza de la acci´ n del oponente o o positivo si se marca gol. se han ´ realizado experimentos en donde no se incluyen estas. se decidi´ incrementar el n´ mero de instancias positivas cuadrio o u plicando las existentes para hacer un total de 8328 instancias positivas. se incorpora el CAu generado a la arquitectura del AGENTE B para decidir cu´ ndo disparar. se utiliza un algoritmo de aprendizaje generar el CAu .06 % sobre el conjunto de datos que si las incorpora. a Puesto que se quiere determinar la influencia de las predicciones realizadas por el modelo del AGENTE A incorporado en la arquitectura del AGENTE B. Por esta raz´ n. En este caso se ha utilizado el algoritmo de generaci´ n de reglas o PART [47]. Adem´ s de estos atributos. Estos . cada instancia es etiquetada a positivo o negativo seg´ n sea el caso. esta o revela que la practica totalidad de los ejemplos eran clasificados como negativos. negativo en caso contrario llevadas a cabo por el modelo del AGENTE A en el instante de tiempo en que realiza el disparo. el clasificador es generado a partir de 15 atributos y la clase.49 % de aciertos sobre el conjunto de datos que no incorpora las predicciones del modelo y un 68. De esta manera. EVALUACION: MABO 120 Tabla 11. PART obtiene un 63.´ ´ CAPITULO 11. Pero al analizar la matriz de confusi´ n. La distribuci´ n original de los datos generados en el proceso de simulaci´ n o o posee 7414 casos negativos y 2082 casos positivos. ´ Por ultimo.85 %. Al aplicar PART. u Una vez generado los datos. se lograba un porcentaje de aciertos del 77.4: Atributos utilizados en la creaci´ n del CAu . El nuevo conjunto de datos posee 15742 instancias y el n´ mero de atributos es 19 cuando se u utilizan las predicciones del modelo y de 16 cuando no se utilizan.

al menos. se utiliza este en el simulador con las mismas condiciones en las cuales se evaluaron el delantero sin modelo y con modelo cuyos resultados se reflejan en la secci´ n anterior. Estos resultados indican que la utilizaci´ n del CAu por parte del AGENTE B. . obtiene resultados. En cuanto a la media de tiros fuera. Una vez que el CAu es parte de la arquitectura del ´ AGENTE B.´ ´ CAPITULO 11. EVALUACION: MABO 121 resultados y el an´ lisis del conjunto de reglas generados. Los resultados obtenidos en la generaci´ n del CAu muestran que la utilizaci´ n o o del modelo del AGENTE A incrementa el porcentaje de aciertos en el proceso de decisi´ n de si disparar o no (positivo y negativo respectivamente). como parables a la utilizaci´ n del modelo mediante la programaci´ n del comportamiento o o realizado por un experto. o Por otra parte.47 9.88 5. se incorpora este a o la arquitectura del AGENTE B. indican que la utilizaci´ n a o de las predicciones influye positivamente a la hora de generar el CAu .61 Como se puede apreciar. Sin embargo al aplicar un t-test con una significaci´ n del 95 %. el delantero con modelo y el delantero con modelo y el CAu . no existe diferencia significativa con el o AGENTE B que utiliza el modelo mediante una programaci´ n realizada a mano.5 se muestran los resultados obtenidos por el o delantero sin modelo. el cual determina la acci´ n a llevar a cabo.65 5. ´ el agente que utiliza el modelo y el CAu reduce de manera significativa estos si se compara con cualquiera de los otros dos agentes. el AGENTE B que utiliza autom´ ticamente el modea lo mediante el CAu obtiene un media superior de goles. la utilizaci´ n del modelo con CAu por parte del AGENTE B es sigo nificativamente mejor que no utilizar modelo.97 Media de tiros fuera 11.18 10. o Tabla 11. Pero como se o ´ ´ quiere determinar si este clasificador es util con esa precisi´ n. En la Tabla 11. o a Delantero sin modelo con modelo con modelo + CAu Media de Goles 4.5: Resultados comparativos de la utilizaci´ n autom´ tica del modelo.

Esto da origen al esquema denominado Modelado de Agentes Basado en la Observaci´ n (MABO). Algunas de ellas equiparan las observaciones realizadas sobre el comportamiento del agente con modelos previa´ mente construidos. se extiende el esquema anterior con la finalidad de poder utilizarlo en a dominios en donde no se tiene acceso directo a las entradas y salidas del agente a modelar. o o Con la finalidad de evaluar el MABT se han llevado a cabo experimentos tanto 122 . MABT est´ compuesto esencialmente a por dos m´ dulos. el m´ dulo de construcci´ n del modelo (MCM) y el m´ dulo de o o o o razonamiento (MRA). asumen que el agente se comporta de manera optima y parten de esta suposici´ n para construir un modelo. conocido como modelado de agentes entrada/salida ´ ´ (IOAM por sus siglas en ingl´ s). Este nuevo esquema incorpora un m´ dulo encargao o do de inferir las acciones llevadas a cabo por el agente a modelar bas´ ndose en a informaci´ n de interacciones previas (m´ dulo de etiquetado de acciones . Adem´ s. Este tipo de modelado. Estos esquemas aplican t´ cnicas de aprene e dizaje autom´ tico con la finalidad de construir el modelo del agente.Cap´tulo 12 ı Conclusiones y Trabajos Futuros En esta parte de la tesis se han presentado dos enfoques para la obtenci´ n del o modelo de un agente basado en la observaci´ n de su comportamiento. ha sido aplicado con exito en el area de modelado e de usuarios. el conocimiento que se posea sobre estos proporciona una clara ventaja al agente que es capaz de adquirir dicho conocimiento. Una manera de modelar el o ´ comportamiento de un agente es considerar a este como una caja negra y realizar el modelado intentando inferir la relaci´ n existente entre las sus entradas y salio das. En primer a lugar se propone un esquema denominado Modelado de Agentes Basado en Trazas (MABT) en donde se asume que el agente modelador tiene acceso a los datos de entrada y salida del agente a modelar. Existen diversas formas de obtener el modelo de un agente.MEA). Otras. En entornos o ´ en donde intervienen agentes. En esta tesis se presentan dos esquemas para el modelado de agentes los cu´ les a entran dentro de las t´ cnicas IOAM.

se puede considerar que los resultados son aceptables para el uso que se pretende dar al modelo.1. el agente modelador u se comporta de manera muy similar al agente modelado. MEA En cuanto a los resultados obtenidos en la creaci´ n del modelo (MCM) se puede o considerar que el aprendizaje jer´ rquico obtiene resultado aceptables. u 12. o En la evaluaci´ n del MCM de MABT se ha observado que la utilizaci´ n de o o t´ cnicas de aprendizaje autom´ tico con el prop´ sito de generar el modelo de un e a o agente han demostrado una alta precisi´ n. e e a se obtienen resultados muy distintos. reflejan que la complejidad de las entradas tiende a limitar la calidad del modelo adquirido. A pesar de esto. A pesar a o de que el agente que incorpora MABO dentro de su arquitectura utiliza el modelo ´ de una forma simple. en un dominio en donde las entradas son complejas y las acciones realizadas por el agente a modelar involucran una combinaci´ n de par´ metros. CONCLUSIONES Y TRABAJOS FUTUROS 123 en dominios est´ ticos como din´ micos. en el cu´ l asume que no se tiene acceso directo a las ena tradas y salidas del agente a modelar. En cuanto al proceso de evaluaci´ n del MABO se pueden extraer las siguientes o conclusiones. . Para validar MABO. en uno de los dominios de o a prueba.´ CAPITULO 12. Sin embargo. Por otra parte se quiere determinar el l´mite a a ı superior al que se puede llegar utilizando las entradas y salidas del agente a modelar como base del proceso de modelado. Es decir. Al aplicar el aprendizaje jer´ rquico con la finalidad de construir el n´ cleo del a u se obtienen resultados diversos. Los resultados obtenidos en el proceso de construcci´ n del u o modelo en este dominio. al utilizar el modelo generado como n´ cleo del MRA. de acuerdo a la tarea de aprendizaje que est´ n llevando a cabo las t´ cnicas de aprendizaje autom´ tico utilizadas. este obtiene mejores resultados que un agente que no utiliza MABO. se o a hace necesaria la utilizaci´ n de un enfoque de aprendizaje autom´ tico jerarquizado o a como n´ cleo del MCM. Conclusiones Las principales conclusiones que se extraen de la evaluaci´ n de los resultados o del MABT se exponen a continuaci´ n. se han realizado experimentos en el conocido dominio del simulador de f´ tbol de la RoboCup. Pero quiz´ s a a los resultados m´ s interesantes son los obtenidos en la evaluaci´ n del MRA. Adem´ s.

Se propone la utilizaci´ n del modelo adquirido en comportamientos m´ s o a complejos.´ CAPITULO 12. dependiendo de la complejidad de las entradas y/o salidas en un dominio dado. 12. Otra limitaci´ n de MABO. o La calidad del modelo generado depende en gran medida de la calidad de los datos etiquetados por el MEA.2. Un ejemplo de estas t´ cnicas u a e . Para este tipo de situaciones se propone la utilizaci´ n de t´ cnicas de aprendizaje autom´ tico con la finalidad automatizar la o e a utilizaci´ n del modelo. MABT se puede utilizar en dominios en donde esto sea cierto. A continuaci´ n se detallan alo gunas de estas l´neas. en el simulador a de f´ tbol de la RoboCup se podr´an crear situaciones en donde el agente mou ı delador tenga que utiliza el modelo en una situaci´ n que involucre oponentes o y/o compa˜ eros. quiz´ s la m´ s importante puede ser a a ´ el tiempo necesario para construir el modelo del agente si este se utiliza en un dominio en donde el tiempo es un factor determinante. en dominios o o como el simulador de f´ tbol de la RoboCup es la cantidad de datos necesarios para u construir el modelo. MABT puede ver limitado su rendimiento. Por esta raz´ n se propone la utilizaci´ n de o o otras t´ cnicas de aprendizaje y/o estad´sticas con la finalidad de incrementar e ı la calidad de los datos etiquetados por el MEA. dependiendo del dominio se pueden establecer estrategias para limitar el tiempo de construcci´ n o y actualizaci´ n de los modelos generados. Por otra parte. se propone que se utilice este en comportamientos en donde se vean involucrados m´ s de dos agentes.3. Puesto que el MRA utiliza de una forma simple el modelo ad´ quirido por el agente. el uso de t´ cnicas de e aprendizaje autom´ tico se limita a la creaci´ n del modelo del agente. En cuanto a las limitaciones de MABO. L´neas de Trabajo Futuro ı La realizaci´ n de este trabajo plantea l´neas de investigaci´ n que pueden ser o ı o estudiadas. Sin embargo. Por ejemplo. n Utilizaci´ n de otras t´ cnicas de aprendizaje autom´ tico en el MRA que pueo e a dan aprovechar a´ n m´ s el modelo adquirido. Sin embargo. CONCLUSIONES Y TRABAJOS FUTUROS 124 12. ı En las evaluaciones de MABT realizadas hasta ahora. Sin ema o bargo existen situaciones donde no basta con reemplazar el n´ cleo del MRA u por el modelo adquirido. desarrolladas y evaluadas en un futuro. Limitaciones ´ Una de las principales limitaciones de MABT es que este asume que puede tener acceso directo a las entradas/salidas del agente a modelar.

Por esta raz´ n o se propone modelar series de acciones y no una acci´ n en especifico para o intentar eliminar las ambig¨ edades presentes en este tipo de dominios. ı 125 El proceso de modelado realizado en el simulador de f´ tbol de la RoboCup u es un modelado agente-agente. MABO podr´a ser utilizado en ı entornos multiagentes como el dominio de subastas electr´ nicas o el de la o competici´ n de agentes entrenadores dentro del propio simulador de f´ tbol o u de la RoboCup. Tomando en considerao ´ ci´ n las restricciones de MABT. Por otra parte. CONCLUSIONES Y TRABAJOS FUTUROS ser´a el aprendizaje por refuerzo. . u Evaluaci´ n de MABT y MABO en otros dominios. este puede ser utilizado en otros dominios o en donde intervienen agentes. considerado de bajo nivel.´ CAPITULO 12.

Parte IV Conclusiones Generales 126 .

En este tipo de entornos. ha sido desarrollar un esquema ge127 . En otros entornos en donde los resolvedores de problemas no s´ lo cooperan o ´ con otros resolvedores de problemas. la experimentao e ci´ n ha permitido determinar la configuraci´ n adecuada del m´ todo propuesto con o o e la finalidad de resolver una tarea asignada. Dentro de estos entornos se encuentran los conocidos conjuntos de clasificadores. ı e utiliza algoritmos gen´ ticos con el prop´ sito de encontrar la configuraci´ n optima e o o ´ de los par´ metros del algoritmo de generaci´ n de conjuntos heterog´ neos conocido a o e como Stacking.Cap´tulo 13 ı Conclusiones Generales 13. Sumario Como se ha mencionado en la introducci´ n de esta memoria. un grupo optimo de resolvedores de o problemas para un problema espec´fico. los cuales combinan las decisiones de un grupo de clasificadores (resolvedores de problemas) con la finalidad de llevar a cabo la tarea de asignada. Este m´ todo. la funci´ n de fitness necesaria para la utilizaci´ n de los o o AG’s al igual que la evaluaci´ n del m´ todo propuesto. sino que pueden llegar a competir con estos. los resolvedores de problemas poseen cierto grado de autonom´a.1. relacionaı do con este tipo de resolvedores de problemas. cualquier informaci´ n que se posea sobre los dem´ s individuos que interact´ an en o a u el entorno resulta de mucha utilidad. existen distintas o maneras de resolver un problema mediante la aplicaci´ n de t´ cnicas que implican o e la utilizaci´ n de la Inteligencia Artificial. denominado GA-Stacking. Para conseguir este objetivo ha sido necesario el dise˜ o y desarrollo de las codin ficaciones de las soluciones. Finalmente. El objetivo de este trabajo. Uno de los objetivos de esta tesis ha consistido en el desarrollo y experimentaci´ n de un m´ todo capaz de encontrar. o Existen entornos en donde t´ cnicas o resolvedores de problemas deben colaboe rar con la finalidad de cumplimentar la tarea asignada. bas´ ndose o e a ´ en un algoritmo de generaci´ n de conjuntos.

´ CAPITULO 13. Araceli Sanchis y Daniel Borrajo RoboCup 2004 Symposium por publicar 2004 From Continuous Behaviour to Discrete Knowledge Agapito Ledezma. el Modelado de Agentes Basado en Trazas (MABT) y el Modelado Basado en la Observaci´ n (MABO).2. Ricardo Aler a 7th International Work-Conference on Artificial and Natural Neural Networks Proceedings of IWANN 2003 Espa˜ a n 2003 . e 13. Con el prop´ sito de conseguir este objetivo. Fernando Fern´ ndez. Cabe se˜ alar que en realidad se han desarrollado dos esquemas cuyo fin es n el modelado del comportamiento de otros agentes. Ricardo Aler. Ambos o han sido evaluados experimentalmente. CONCLUSIONES GENERALES 128 neral que permita adquirir el modelo de un agente bas´ ndose en el comportamiento a ´ de este. Por otra parte. y Daniel Borrajo The 16th IEEE International Conference on Tools with Artificial Intelligence por publicar 2004 Predicting Opponent Actions by Observation Agapito Ledezma. Este marco experimental ha e permitido validar el correcto funcionamiento de los m´ todos propuestos. o T´tulo: ı Autores: Congreso: Publicaci´ n: o Lugar de publicaci´ n: o A˜ o: n T´tulo: ı Autores: Congreso: Publicaci´ n: o Lugar de publicaci´ n: o A˜ o: n T´tulo: ı Autores: Congreso: Publicaci´ n: o Lugar de publicaci´ n: o A˜ o: n Empirical Evaluation of Optimized Stacking Configurations Agapito Ledezma. Publicaciones En esta secci´ n se enumeran las publicaciones a las que ha dado origen la o elaboraci´ n de esta tesis doctoral. Adem´ s. ha sido necesaria la conceptualio zaci´ n y desarrollo de los m´ dulos que se incorporan a la arquitectura del agente o o modelador. fue necesario determinar las relaciones existente entre estos a m´ dulos. Ricardo Aler. ha sido necesario el desarrollo de un esquema experimeno tal que permitiese evaluar los m´ todos propuestos. Araceli Sanchis.

CONCLUSIONES GENERALES 129 T´tulo: ı Autores: Congreso: Publicaci´ n: o Lugar de publicaci´ n: o A˜ o: n Predicting Opponent actions in the RoboSoccer Agapito Ledezma. Antonio Berlanga y Ricardo Aler 6th International Work-Conference on Artificial and Natural Neural Networks Proceedings of IWANN 2001 799-806 Espa˜ a n 2001 T´tulo: ı Autores: Congreso: Publicaci´ n: o P´ ginas: a Lugar de publicaci´ n: o A˜ o: n Extracting Knowledge from Reactive Robot Behavior Agapito Ledezma. Ricardo Aler. Araceli Sanchis y Daniel Borrajo 2002 IEEE International Conference on Systems. Ricardo Aler.Workshop on ”Learning Agents” Proceeding of the AGENTS-00/ECML-00 Workshop on ”Learning Agents” 1-5 Espa˜ a n 2000 . Man and Cybernetics Proceedings of the SMC 02 T´ nez u 2002 T´tulo: ı Autores: Libro: Editorial: P´ ginas: a Lugar de publicaci´ n: o A˜ o: n Heuristic Search-Based Stacking of Classifiers Agapito Ledezma. Antonio Berlanga y Ricardo Aler AGENTS-01 Workshop on ”Learning Agents” Proceeding of the AGENTS-01 Workshop on ”Learning Agents” 7-12 Canad´ a 2001 T´tulo: ı Autores: Congreso: Publicaci´ n: o P´ ginas: a Lugar de publicaci´ n: o A˜ o: n Learning Models of Other Agents Agapito Ledezma. Daniel Borrajo e In´ s Galv´ n e a AGENTS-00/ECML-00 .´ CAPITULO 13. Ricardo Aler y Daniel Borrajo Heuristic and Optimization for Knowledge Discovery Idea Group Publishing 54-67 Reino Unido 2001 T´tulo: ı Autores: Congreso: Publicaci´ n: o P´ ginas: a Lugar de publicaci´ n: o A˜ o: n Automatic Symbolic Modelling of Co-evolutionarily Learned Robot Skills Agapito Ledezma.

A multiagent architecture for a web-based adaptive educational system. 1999. Massachusets. [10] V. Boticario and E. 6(1):37–66. Error reduction through learning multiple descriptions. editors.edu/∼mlearn/MLRepository. pages 24– 27. 1995.uci. Iba. Kohavi. IEEE Press. and M. pages 9–18. Lazy incremental learning of control knowledge for efficiently obtaining quality plans. [9] J. Adaptive User Interfaces. AI Review Journal. Rivest. Learning to act using real-time dynamic programming. AAAI Press. UCI repository of machine learning databases. K. In S. [6] C. Special Issue on Lazy Learning. Merz. Rogers and W. W. databases http://www. [7] A. Pazzani. Blum and R. Vehicles: experiments on synthetic psychology. Isasi. and J. Berlanga. In Proceedings of the Congress on Evolutionary Computation. Machine Learning. and variants. Ali and M. [8] D. 1998. A. Bradtke.ics. CA. P. Molina. Instance-based learning algorithms. M. 11(1-5):371–405. San Francisco.Bibliograf´a ı [1] D. Machine Learning. Braitenberg. 24(3):173–202. A general coevolution method to generalize autonomous robot navigation behavior. Barto. Morgan Kaufmann. Sanchis. Training a 3-node neural network is NP-complete (extended abstract). 36(1):105– 139. pages 769–776. S. boosting. MIT Press. and S. Bauer and R. 1996. 130 . In In Proceedings of th 1988 Workshop on Computational Learning Theory. J. [2] K.html. G. [3] A. J. Standford. Aha. February 1997. March 2000. jan 1991. Blake and C. July 2000. M. Albert. Gaudioso. Borrajo and M. Veloso. San Diego (CA) USA. D. Artificial Intelligence. P. [4] E. 1984. La Jolla. 1(72):81–138. Papers from the 2000 AAAI Spring Symposium. Kibler. Machine Learning. [5] A. CA. An empirical comparison of voting classification algorithms: bagging. Singh. G. 1988.

Machine Learning. Cleary and L. pages 90–98. 1991. and J. Chan and S. [23] P. [18] P. Random forests. J. Kaufmann. [20] K. pages 108–114. Webb. Carmel and S. 2001. Cohen and H. pages 83–102. Machine Learning: An Artificial Intelligence Approach (Volume III). Gil. AAAI Press. 35. In Proceedings of the 7th European Conference on Machine Learning (ECML-94). [15] J. Markovitch. Gama. 1981. 1997. Cagliari. [22] J. . Lawrence Erlbaum Associates. Springer-Verlag. Machine Learning. Using C4. chapter Beyond Question Answering. Chiu and G. Oregon. Breiman. 1(24):49–64. 1996. A comparative evaluation of voting and meta-learning on partitioned data. 45(1):5–32. 24(2):123–140. CA. pages 65–67. Brazdil. Nous. Incorporating opponent models into adversary search. Carbonell and Y. K*: an instance-based learner using an entropic distance measure. Learning by experimentation: The operator refinement method. In Working Notes of the AAAI Workshop on Integrating Multiple Learned Models. 1990. 1995. 1996. 1993. Italy. pages 191–213. Levesque. Michalski. 1996. Human expert-level performance on a scientific image analysis task by a system using combined artificial neural networks. Henery. Allen. Cohen. Goldman. Stolfo. Characterizing the applicability of classification algorithms using meta-level learning. Carmel and S. Learning models of intelligent agents. C. In Proccedings of Thirteenth National Conference on Artificial Intelligence (AAAI96). [14] L. Teamwork. editor. and B. In Proceedings of the Thirteenth National Conference on Artifial Intelligence (AAAI). S.5 as an induction engine for agent modelling: An experiment of optimisation. Strategies for Natural Language Processing. 64(1):53–79. Machine Learning. pages 15–21. San Mateo. Markovitch. 1996. I. Perrault. [21] B. Oregon. A bayesian model of plan recognition. G. 1994. [24] P. In Proceedings of the User Modelling Conference UM’97. Proceedings of Twelfth International Conference on Machine Learning. [12] L. Breiman. Breiman. Bagging predictors. 1995. In M. [13] L. [16] D. In Y. Charniak and R. 1996. Cherkauer. [19] E. C. Artificial Intelligence. editors. In Proceedings of the 12th International Conference on Machine Learning. Kaufmann. pages 245–274. E.´ BIBLIOGRAFIA 131 [11] P. Portland. Portland. Kodratoff and R. Stacked regressions. [17] D. Trigg.

Multiple Classifiers Systems: first international workshop. G. Jain. [31] T. WI. 18(4):97–136. pages 85–92. Devaney and A. Visser. Technical report. Gasser. Cohen. In J. [26] R. 1998. Springer. B. Ensemble methods in machine learning. Weland. [29] M. Durfee. Duda and P. A. and A. proceedings /MCS 2000. C. Machine Learning. G. Machine-learning research:four current directions. 1995. Artificial Intelligence. In Proceedings of the Fithteenth National Conference on Artificial Intelligence (AAA1-98). An experimental comparison of three methods for constructing ensembles of decisions trees: Bagging. [36] D. Italy. editors. Rubin. Pattern Classification and Scene Analysis. 1977. Duddeck. Dempster. G. 49(1-3):61–95. Dietterich. 1973. [30] T. August 2000. Solving multiclass learning problems via error-correcting output codes. Laird. [33] T. G. 1997. and J. M. 2000. Needles in a haystack: Plan recognition in large spatial domains involving multiple agents. E. volume 1857 of Lecture Notes in Computer Science. Temporal constraint networks. Neumann. H. Bakiri. Madison. [32] T. Dietterich. 1995. Schmidt. B. 40(2):139–157. Virtualweder: Using the online-coach to change team formations. [37] E. [28] A. In Proceedings of the 9th European Conference on Machine Learning.-G. Classification by voting feature intervals. Dietterich. June 2000. pages 942–947. S. Meiri. I. Lesser and L. L. editors. Fast effective rule induction. Evolutionary Computation. 2:263–286. P. 1997. Lazzerini. 1(38):1–38. Blissful ignorance: Knowing just enough to coordinate well. [27] G. Dumitrescu. In V. boosting and randomization. C. CRC Press.´ BIBLIOGRAFIA 132 [25] W. Proceedings of the First International . pages 1–15. Druecker. Dumitrescu. Roli. Demiroz and H. Pearl. AI Magazine. 2000. Kittler and F. Journal of Artificial Intelligence Research. Cagliari. Maximum likelihood from incomplete data via the EM algorithm (with discussion). University of Bremen. Huebner. Ram. Journal of the Royal Statistical Society B. TZI-Center for Computing Technologies. N. W. [34] C. and H. Guvenir. H. and D. [35] R. U. Dechter. 1991. Dietterich and G. AddisonWesley. Hart. In Machine Learning: Proceedings of the Twelfth International Conference.

Witten. [40] S. USA. editor. number 1856 in Lecture Notes in Artificial Intelligence. Faupel. 2004. Proceedings of the Second European Conference on Computational Learning Theory. In Proceedings of the ICML99 Workshop on Recent Advances in Meta-Learning and Future Work. [47] E. VQQL. 1995. Washington. [38] E. [44] F.com/gajit/index. Stolfo. 2(2):139–172. 1995. Menlo Park. Dzeroski and B. [41] S. P. and I. Chan. Rosenschein. Fisher. pages 23–37. Durfee. K. [46] E. 1998. Generating accurate rule sets without global optimization. 2002. DC. H. 1987. . Using conflicts among multiple base classifiers to measure the performance of stacking. 2000. Y. Third International Workshop. Freund and R. [48] Y.´ BIBLIOGRAFIA 133 Conference on Multi-Agent Systems (ICMAS-95). [39] E. [45] D. J. 1993. Morgan Kaufmann. and J. http://www. Durfee. Frank. Gmytrasiewicz. Knowledge acquisition via incremental conceptual clustering. Fern´ ndez and D. H. Using model trees for classification. In Proceedings of the Thirteenth International Distributed Artificial Intelligence Workshop. A decision-theoretic generalization of on-line learning and an application to boosting. and P. pages 85–93. Proceedings of Multiple Classifier Systems. G. In RoboCup-99: Robot Soccer World Cup III. Schapire. pages 292–303. Fabio Roli. In J. The AAAI Press/The MIT Press. 1998. Stacking with multi-response model trees. Machine Learning. S. 32(1):63–76. Zenko. pages 406–413. In Proceedings of the Fifteenth International Conference on Machine Learning. Wang. Frank and I. Fan. Cagliari. In Proceedings of the 11th National Conference on Artificial Intelligence. editor. pages 225–230. Holmes. Witten. pages 144–151. 54(3):255–273. Machine Learning. Overeager reciprocal rationality and mixed strategy equilibria. and P. AAAI Press. Applying vector quantization to reina forcement learning. 1998. Is combining classifiers better than selecting the best one? Machine Learning. Borrajo. 1994. MCS 2002. Springer. H. [42] D. Inglis. J. The utility of embedded communications: Toward the emergence of protocols. S. Gmytrasiewicz. Dzeroski and B. 1999. [43] M. J. Lee. Italy. In Springer-Verlag. CA.html. Lecture Notes in Computer Science. S. Springer Verlag. pages 10–17.micropraxis. Zenko.

1998. Garc´a-Mart´nez and D. A decision-theoretic approach to coordinating multi-agent interactions. Sycara. [56] P. 1991. In Proceedings of the Fifth International Conference on User Modeling. A Decision-Theoretic Model of Coordination and Communication in Autonomous Systems (Reasoning Systems). [51] R. AAAI Press. A rigorous. ı ı planning. J. Gmytrasiewicz. September 2000. Multi-Agent Systems and Agent-Based Simulation. Gmytrasiewicz and E. Goldberg. 1989. Gasser. Garrido. Journal of Intelligent and Robotic Systems. e [53] L. In M. editors. 2000. Miller. Monterrey. Schapire. pages 125–132. [59] D. Durfee. Kaufmann. J. John Mylopoulos. E. Prade. PhD thesis. C. [57] P. H. 1996. 1999. Morgan Kaufmann Publishers. . pages 148–156. University of Michigan. 1534. [54] L. R. Gama and P. and C. Wehe. 1992. Addison-Wesley. Machine Learning. and machine learning. The meeting scheduling game: a multiagent testbed. Center for Artificial Intelligence ITESM-Campus Monterrey. K. and K. Menlo Park. Proceedings of the Thirteenth International Conference on Machine Learning. Geib. H. Borrajo. J. Technical report. [50] J. Sycara. Garrido. In R. Garrido and R. Sydney. Brena. Proceedings of the 12th International Joint Conference on Artificial Intelligence. K. Proceedings of the Fifteenth Conference on Uncertainty in Artificial Intelligence. In V. B. [52] L. Brena. and R. Laskey and H. Goldman. A new model of plan recognition. editors. Towards modeling other agents: A simulation-based study. and execution. Brazdil. Freund and R. [60] R. Genetic Algorithms in search. Durfee. Morgan Kaufmann. J. and D. pages 121–128.´ BIBLIOGRAFIA 134 [49] Y. In Proceedings of the Learning Agents Workshop at the Fourth International Conference on Autonomous Agents (Agents 2000). Quantifying the utility of building agents models: An experimental study. Cascade generalization. LNAI Series. [58] P. editor. Lesser and L. Gmytrasiewicz. Brena. CA. optimization. An approach to user modeling in decision support systems. Experiment with a new boosting algorithm. Gmytrasiewicz. R. 1995. 1998. 29(1):47–78. An integrated approach of learning. pages 62–68. [55] P. 1996. E. editor. operational formalization of recursive modeling. Australia. 2000. M´ xico. In K. Proceedings of the First International Conference on Multi-Agent Systems (ICMAS-95). 41(3).

[62] S. Readings on the Principles and Applications of Decision Analysis. Menlo Park. In Proceedings of the Ninth International Conference on Machine Learning. CA.´ BIBLIOGRAFIA 135 [61] L. 1976. Proceedings of the 10th Conference on Uncertainty in Artificial Intelligence. Wellman. Wellman. 5(1):15–17. . Morgan Kaufmann. Langley. Huber. Holland. The University of Michigan Press. Durfee. Huber and E. 12(10):993–1001. L. [72] W. Infomation Processing Letters. [63] J. [71] L. [66] J. 2nd edition. 1995. de Mantaras and D. editors. volume 2. editors. [67] M. E. 1997. P. P. CA. Durfee. Rivest. 1975. San Francisco. Salamon. Hansen and P. Induction of one-level decision trees. MIT Press. dynamic environment: Autonomous netrek agents. Huhns and M. Hyafil and R. Morgan Kaufmann. Adaptation in Natural and Artificial Systems. 1994. Strategic Decisions Group. Singh. 1990. Howard and J. Matheson. Marina del Rey. [70] M. Huber and T. Adaptation in Natural and Artificial Systems. Neural network emsembles. The automated mapping of plans for plan recognition. 1998. Morgan Kaufmann Publishers. Holland. 1984. H. pages 344–351. Poole. ACM Press. pages 233– 240. 1998. Stanford. CA. 2a edition. Prentice Hall. IEEE Transactions on Pattern Analysis and Machine Intelligence. H. [64] J. [69] M. USA. P. and M. pages 60–71. Haykin. Iba and P. 1999. Constructing optimal binary decision trees is NPcomplete. [68] M. In Proceedings of the second International Conference on Autonomous Agents (Agents-98). Hadley. American Association for Artificial Intelligence. Multiple roles. chapter Influence diagrams. 1992. On acting together: Without communication. pages 332–339. Readings in Agents. In R. N. Hu and M. 1992. In Working Notes of the AAAI Spring Symposium on Representing Mental States and Mechanisms. multiple teams. Neural networks: a comprehensive foundation. pages 719–762. [65] R. In Proceedings of the First International Conference on Autonomous Agents (Agents’97). pages 239–246. H. Online learning about other agents in a dynamic multiagent system. H.

and P. S. Proceedings of the Eleventh Conference on Uncertainty in Artificial Intelligence. A framework for recognizing multi-agent action from visual evidence. 1997. Springer. M. The robocup synthetic agent challenge. 1993. Knuth. 1995. and M. Skarek. A. Pollack. I. [80] A. Kaufmann. Langley. Kaminka. Jennings. Estimating continuous distributions in Bayesian classifiers. Chang. Varga. Kohavi. [83] R. and C. 1991. John and P. Chess and Cognition. 1986. pages 860– 867. Langley. Allen. 1990. Intille and A. Volume 3 of The Art of Computer Programming. pages 24–49. Computers. pages 338–345. Tambe. [85] J. New York. Learning the sequential behavior of teams from observations. 1995. M. In Proceedings of the Fifth National Conference on Artificial Intelligence (AAAI). A. In Proceedings of the Fifteenth International Joint Conference on Artificial Intelligence (IJCAI97). and M. Jansen. M. [81] H. R. Asada. Tambe. Back propagation is sensitive to initial conditions. P. In Proceedings of the Sixteenth National Conference on Artificial Intelligence (AAAI-99). Stone. Aarnts. L. Kaminka. Osawa. In Proceedings of the Eleventh Conference on Uncertainty in Artificial Intelligence. San Francisco. In M. Matsubara. In Proeedings of the 2002 RoboCup Symposium. M. Addison-Wesley. Hopper. [75] N. Estimating continuous distribution in bayesian classifiers. pages 338–345. In Advances in Neural Information Processing Systems. CA. pages 32–37. Engineering Applications of Artificial Intelligence. Kolodner. M. Bobick. pages 169–182. Veloso. Kitano. Generalized plan recognition. Morgan Kaufmann. F. pages 518–525. Coradeschi. 2002. [74] P. 1998.´ BIBLIOGRAFIA 136 [73] S. 1993. AAAI Press. [84] J. In Proceedings of the Eighth European Conference on Machine Learning. Menlo Park. F. editor. H. . [77] G. E. [82] D. Noda. 1999. B. [76] G. 1973. Veloso. S. Transforming standalone expert systems into a community of cooperating agents. [78] G. The power of decision tables. CA. Kautz and J. Sorting and Searching. J. Fuchs. Fidanboylu. The role of agent-modeling in agent robustness. 1995. Kolen and J. [79] G. chapter Problematic Positions and Speculative Play. Case-Based Reasoning. In Working Notes of AI Meets the Real-World: Lessons Learned (AIMTRW-98). AAAI Press. 6(4):317–331. John and P.

Etzioni. volume 1813 of Lecture Notes in Computer Science. [94] R. Gil. MIT Press. Artificial Intelligence. H. Martin. Diedrich. [96] T. 1990. Artificial Intelligence. 13(3-4):245–286. O. In Technical Report 9318. Univesity of Toronto. and T. Nie. Amsterdam. Rogowski. Steffens.´ BIBLIOGRAFIA 137 [86] M. Laird. In IEEE Transactions on Information Theory. A theory and methodology of inductive learning. editors. Lanzi. Combining estimates in regression and classification. 12(2-3):233– 250. C. The osnabrueck robocup agents project. Minton. Master’s thesis. Matsubara. C. A. Inverse entailment and Progol. W. [92] B. Instance-based learning : Nearest neighbor with generalization. A. Hennig. Lloyd. Deparment of Statistic. North-Holland. [100] I. [91] S. pages 185–190. Mitchell. Stolzmann. Technical report. . March 1982. and Y. Machine Learning. M. M. Learning Classifier Systems From Foundations to Applications. 2001. A dynamic vocabulary for student modelling. In Uncertainty in Artificial Intelligence 4. Carter. G. number 28 in IT. 1989. Newell. ExplanationBased Learning: A problem-solving perspective. 36(1-2):33–58. Institute of Cognitive Science. 1993. 1995. A. Frank. Wilson. 1998. 1995. Tibshirani. Least squares quantization in PCM. Honemann. Multiple decision trees. Knoblock. S. and I. Carbonell. Applied Artificial Intelligence. Buttinger. [87] S. 2000. Kuzmycz. Using correspondence analysis to combine classifiers. K. LeBlanc and R. E. Rosenbloom. McGraw-Hill. Pegam. and P. Merz. Hugelmeyer. [89] P. L. University of Waikato. Machine Learning. [88] J. 1999. Special issue on Inductive Logic Programming. [93] C. M. Mitchell. pages 127–135. [95] S. An Introduction to Genetic Algorithms. Kwok and C. J. Springer Verlag. P. [99] A. 1983. 33:1–64. Artificial Intelligence. 1996. New Generation Computing. 1997. S. [97] T. W. [98] S. Soccer server: A tool for research on multi-agent systems. 20. J. In Proceedings of the Fourth International Conference on User Modeling. Muggleton. Osnabrueck. and S. Hiraki. 40. Michalski. P. pages 327–335. [90] M. 1987. SOAR: An architecture for general intelligence. 1994. Noda.

In Proceedings of the Sixth International Conference on User Modeling. MIT Press. R.5: Programs for Machine Learning. In A. Stanford. editors. pages 236–243. Press and the MIT Press. Singapore. pages 343–348. Proceedings of the Thirteenth National Conference on Artificial Intelligence. [103] B. World Scientific. Planning for distributed execution through use of probabilistic opponent models. MA. Quinlan. Noh and P.5: Programs for Machine Learning. In Proceedings of the fifth Australian Joint Conference on Artificial Intelligence. M. Veloso. P. pages 725–730. 2000. San Mateo. San Mateo. In Proceedings of the Sixth International Conference on AI Planning and Scheduling (AIPS-2002). 1990. Munro. Veloso. H. G. Pfahringer. and H. Morgan Kaufmann. Machine Learning. E. Hasselmo. pages 882–888. Quinlan. 1996. Distributed Autonomous Robotic Systems. Induction of decision trees. [112] P. 1993. Riley and M. In Proceedings of the 17th International Conference on Machine Learning. and C. boosting. CA. [107] J. chapter Plans as Complex Mental Attitudes. [108] J. Quinlan. J. E. In D. R.5. [102] B. June 1993. R. 1993. 5(3):239–266. Meta-learning by landmarking various learning algorithms. and M. 1990. Touretzky. [111] J. Gmytrasiewicz. Morgan Kaufmann. CA. Mozer. chapter On Behavior Classification in Adversarial Environments. 1986. 1992. Morgan Kaufmann. In Proceedings of the Tenth International Conference on Machine Learning. Quinlan. editors. Pollack. [113] P. [104] M. Advances in Neural Information Processing Systems. Springer-Verlag. C4. CA. C4. 1997. Improving committe diagnosis with resampling techniques.´ BIBLIOGRAFIA 138 [101] S. S. Learning with continuous classes. 2000. 1(1):81–106. Quinlan. Combining instance-based and model-based learning. Bagging. pages 371–380. Doyle. Riley and M. Agent modeling in antiair defense. pages 389–400. Amherst. [105] J. [109] J. 2002. Giraud-Carrier. [106] J. Parmanto. volume 4. Quinlan. [110] J. . Bensusan. Machine Learning. Quinlan. Intention in Communication. Learning logical definitions from relations. volume 8. 1996. and C4. MIT Press.

K. Defining and using ideal teammate and opponent agent models. . Lecture Notes in Computer Science. Parallel Distributed Processing Foundations. 1998. Guimar˜ es. Stone. Hoffmann. Institute of Cognitive Science Osnabr¨ ck. stacking and bi-level stacking: Methods for classification learning. Banf. [121] L. pages 115– 124. Sison and M. V. Stone. 1996. Stone. Oldford. Lecture Notes in Computer Science. 1999. [126] D. pages 393–399. [120] D. Riley. In Proceedings of the Twelfth Innovative Applications of Artificial Intelligence Conference (IAAI-2000). N. [124] P. PA. Fisher. The strength of weak learnability. Veloso. Suryadi and P. H. Cross-validation. In A. [122] T. Adams. Sommaruga. [115] C. McClelland. and G. [119] R. In P. and M. 1994. Pittsburgh. H. Cambridge. In u F. PhD thesis. Skalak. An evaluation of grading classifiers. 2002. Carnegie Mellon University. Schapire. Claude Sammut. CA. Selecting models from data: Artificial Intelligence and Statistics IV. Riley. editor. Springer-Verlag. 1999. K. pages 51–59. 2001. Layered Learning in Multi-Agent Systems. [116] R. Shimura. Rummelhart.´ BIBLIOGRAFIA 139 [114] D. editors. Merino. 1604:61–76. J. 1999. July 2002. and J. Hand. MA. Molina. Learning models of other agents using influence diagrams. How to make stacking better and faster while also taking care of an unknown weakness. M. u [123] P. 1997. Advances in Intelligent Data Analysis. 1990. E. 5:197– 227. P. A distributed simulaa tor for intelligent autonomous robots. pages 223–232. I. D. 2000. Master’s thesis. and the PDP Research Group. 4th International Conference. a editors. Machine Learning. J. Australia. Student modelling and machine learning. International Journal of Artificial Intelligence in Education. F¨ rnkranz. Feature-based declarative opponent-modelling in multi-agent systems. G. Prototype Selection for Composite Nearest Neighbor Classifiers. [118] A. Matell´ n. IDA 2001. 1986. PhD thesis. [117] A. J. Veloso. Gmytrasiewicz. M. Cheeseman and W. Morgan Kaufmann. Seewald. Seewald and J. Steffens. In Proceedings of the Seventh International Conference on User Modeling. Schaffer. In In Proccedings of Fourth International Symposium on Intelligent Robotic Systems. and P. Proceedings. B. D. Sidney. University of Massachusetts Amherst. The CMUnited-98 champion simulator team. 9:128–158. The MIT Press. [125] P. School of Computer Science. Proceedings of the Nineteenth International Conference on Machine Learning (ICML 2002).

Towell. W. Wang. O. Portland. [138] X. [128] M. MA. 1(1-4):181–205. Witten. Montr´ al. In Artificial Intelligence Planning Systems. e Qu´ bec. Multi-agent reinforcement learning: Independent vs. pages 103–111. J. Ting and I. Decision combination based on the characterisation of predictive accuracy. and M. In Proceedings of the International Joint Conference on Artificial Intelligence (IJAIT-91). [132] K. dynamic agent tracking. 1990. Amherst. Tambe and P. AAAI Press. In Proceedings of the Tenth International Conference on Machine Learning. 10:271–289. Ting. Morgan Kaufmann. Oregon. CA. [133] L. Gasser. AAAI 96. In Proceedings of the Thirteenth National Conference on Artificial Intelligence and Eighth Innovative Applications of Artificial Intelligence Conference . Shavlik. Menlo Park. pages 938–944. 1999. Tumer and J. (IJCAI 95). The MIT Press. e [129] M. [135] K.´ BIBLIOGRAFIA 140 [127] M. In Proceedings of the 8th National Conference on AI (AAAI-90). Australia. Morgan Kaufman. Tracking dynamic team activity. pages 80–87. 2000. editors. In Proceedings of the Fourteenth International Joint Conference on Artificial Intelligence. 1996. G. Rosenbloom. van Beek and R. 1994. Recursive agent modeling using limited rationality. Sidney. Issues in stacked generalization. 1997. [137] J. Refinement of approximate domain theories by knowledge based neural network. RESC: An approach for real-time. M. IAAI 96. Error correlation and error reduction in ensemble classifiers. Canada. Stacked generalization: when does it work? In Proceedings of the International Joint Conference on Artificial Intelligence. Resolving plan ambiguity for cooperative response generation. 1995. Vidal and E. Ghosh. 1996. [131] K. M. pages 330–337. pages 335–340. Dzeroski. Ting and I. June 1993. H. In V. 1995. Lesser and L. Todorovski and S. [134] G. pages 54–64. In Proceedings of the 4th European Conference on Principles of Data Mining and Knowledge Discovery. [130] K. Combining multiple models with meta decision trees. Journal of Artificial Intelligence Research. . Cohen. Proceedings of the First International Conference on Multi-Agent Systems (ICMAS-95). M. cooperative agents. Intelligent Data Analysis. Witten. Tan. [136] P. Tambe. Connection Science. 1991. Noordenier. pages 376–383. 1997. Learning planning operators by observation and practice. 8(3-4):385–403. volume 2. Durfee. pages 861–866.

Snns: Stuttgart neural network simulator. [146] M. Cambridge. editors. Technical report. UK. [143] G. Sommer. Mache. [145] D. and D. 1992. In M. R. [147] M. Frank. 1995. Agent theories. J. 1992. N. R. Artificial Intelligence. 137(1-2). [140] C. Wolpert. 5:241–259. and languages: A survey. PhD thesis.´ BIBLIOGRAFIA 141 [139] R. editors. Proceedings. and T. Coradeschi. 2000. In A. pages 70–77. J. Machine Learning. [141] C. Schmalzl. 2002. Y. Wooldridge and N. 1995. 1998. Pazzani. [149] A. Jennings. 8:279–292. Yunpeng. 1992. Dayan. Wooldridge and N. Witten and E. User Modeling and User Assisted Interaction. Huebner. Webb. Watkins. M. Intelligent agents: Theory and practice. Machine learning for user modeling. Learning from Delayed Rewards. pages 1–39. [142] G. Billsus. [148] C. H. University of Stuttgart. Architectures. Tang. ACM Press. number 890 in Lecture Notes in Computer Science. Tadokoro. dynamically changing models of agents’s competencies. Knowledge Engineering Review. Markov tracking for agent coordination. 1996. . architectures. Birk. Morgan Kaufmann. 5(2):117–150. Jinyi. Zhou. Data mining: practical machine learning tools and techniques with Java implementations. Kuzmycz. C. Watkins and P. Wooldridge and N. and W. Jiang. 1989. and L. and S. J. R. Zell. R. 2(10). and Languages. Feature based modelling: A methodology for producing coherent. Webb and M. 11(19-20). Global planning from local perspective: An implementation of observation-based plan coordination in robocup simulation games. Shi. Korb. S. Jennings. Stuttgart. Springer-Verlag. [144] I. Q-Learning. 2001. Springer. Neural Networks. Intelligent Agents · ECAI-94 Workshop on Agent Theories. User Modeling and User-Adapted Interaction. RoboCup-2001: The Fifth RoboCup Competitions and Conferences. Wu. consistent. M. Jennings. [150] Z. Stacked generalization. Washington. Ensembling neural networks: Many could be better than al. In Proceedings of the Second International Conference on Autonomous Agents (Agents-98). 2002. T. King’s College.

en la Figura A.2 se detalla el algoritmo AdaBoostM1 conocido algunas veces como Boosting.1 se muestra el algoritmo de generaci´ n e a o de conjuntos de clasificadores homog´ neos denominado Bootstrap Aggregating o e Bagging.Ap´ ndice A e Algoritmos de Generaci´ n de o Conjuntos de Clasificadores En este ap´ ndice se detallan los algoritmos de construcci´ n de conjuntos hoe o mog´ neos m´ s utilizados. Por otro lado. En la Figura A. 142 .

ALGORITMOS Algoritmo Bagging Entradas Conjunto de entrenamiento. . B N´ mero de muestras bootstrap.´ APENDICE A. T u Procedimiento Para i = 1 hasta T { S = muestra bootstrap de S(S es una muestra con reemplazo de S) C = B(S ) (crea un nuevo clasificador a partir de S ) X } C ∗ (x) = arg max 1(etiqueta ”y” mayoritaria) y∈Y iCi (x)=y 143 Salida Clasificador C ∗ Figura A. S Algoritmo de aprendizaje base.1: Algoritmo de generaci´ n de conjuntos homog´ neos Bootstrap Aggregating o e (Bagging).

.´ APENDICE A. 2.. i = 1. yi ). ALGORITMOS Algoritmo AdaBoostM1. La f´ rmula [[E]] es 1 cuando es E es cierto y 0 de otra forma o Entradas Conjunto de entrenamiento S.. .. . o e .2: Algoritmo de generaci´ n de conjuntos homog´ neos AdaBoostM1 (Boosting). de instancias etiquetadas: S {(xi ... K} Algoritmo de aprendizaje base (clasificador d´ bil) B e N´ mero de iteraciones T u Procedimiento Inicializar para todo i : w1 (i) = 1/m Para t = 1 a T { P para i : pt (i) = wt (i)/( i wt (i)) Ct = B(pt ) P εt = i pt (i)[[Ct (xi ) = yi ]] si εt > 1/2 entonces T =t−1 termina bucle βt = εt /(1 − εt ) 1−[ t (xi )=yi ] [C ] Para todo i : wt+1 (i) = wt (i)βt } Salida Clasif icador C ∗ = arg max y∈Y T X„ 1 « [[Ct (xi ) = yi ]] βt t=1 144 = Asigna el mismo peso a todas las instancias Normaliza el peso de las instancias Aplica el algoritmo base con los pesos normalizados Calcula el error de Ct c´ lculo de nuevos pesos a Figura A. m} Clases yi ∈ Y = {1.

B. Las gr´ ficas correspondientes a los dominios de echo a y sonar no se muestran pues en la primera generaci´ n se alcanzaba el fitness m´ xio a mo. B. En la Tabla B.7 se muestran los resultados de la comparaci´ n de los individuos encontrados por las diferentes configuo raciones de GA-Stacking.3.Ap´ ndice B e Configuraciones de GA-Stacking En este ap´ ndice se muestran los resultados obtenidos en el proceso de evaluae ci´ n de las diferentes configuraciones de GA-Stacking. B.6.5. B.1 se puede o apreciar la evoluci´ n del fitness en los dominios utilizados de las diferentes confio guraciones de GA-Stacking. 145 .4. en las Tablas B. B.2. Por otro lado.

146 australian 88.5 86 85.5 85 0 5 10 15 20 25 30 35 Generaciones 40 45 50 GaS5sinPI GaS5sinPII GaS5conPI GaS5conPII GaS11sinP GaS11conP balance 93 92. El valor reflejado es el promedio de las tres ejecuciones del algoritmo sobre el conjunto de datos.5 88 Precisión 87.5 90 89. CONFIGURACIONES DE GA-STACKING Tabla B.1: Evoluci´ n del fitness en los distintos dominios con cada una o de las configuraciones de GA-Stacking.´ APENDICE B.5 87 86.5 91 90.5 88 0 5 10 15 20 25 30 35 Generaciones 40 45 50 Precisión GaS5sinPI GaS5sinPII GaS5conPI GaS5conPII GaS11sinP GaS11conP (Contin´ a en la siguiente p´ gina) u a .5 92 91.5 89 88.

5 0 5 10 15 20 25 30 35 Generaciones 40 45 50 Precisión GaS5sinPI GaS5sinPII GaS5conPI GaS5conPII GaS11sinP GaS11conP car 93 92 Precisión 91 90 89 88 87 86 0 5 10 15 20 25 30 Generaciones 35 40 45 50 GaS5sinPI GaS5sinPII GaS5conPI GaS5conPII GaS11sinP GaS11conP (Contin´ a en la siguiente p´ gina) u a . CONFIGURACIONES DE GA-STACKING Tabla B.7 97.2 98.1 98 97.3 98.5 98.1. (Continuaci´ n) o 147 breast−w 98.9 97.6 97.4 98.8 97.´ APENDICE B.

2 97 96.5 77 0 5 10 15 20 25 30 35 Generaciones 40 45 50 GaS5sinPI GaS5sinPII GaS5conPI GaS5conPII GaS11sinP GaS11conP (Contin´ a en la siguiente p´ gina) u a . (Continuaci´ n) o 148 chess 97.6 96.´ APENDICE B.5 78 77.4 96.2 96 95. CONFIGURACIONES DE GA-STACKING Tabla B.4 97.1.8 0 5 10 15 20 25 30 35 Generaciones 40 45 50 Precisión GaS5sinPI GaS5sinPII GaS5conPI GaS5conPII GaS11sinP GaS11conP diabetes 80.5 79 78.5 80 Precisión 79.8 96.

5 75 74.´ APENDICE B. (Continuaci´ n) o 149 german 77 76.5 74 73.1.5 73 0 5 10 15 20 25 30 35 Generaciones 40 45 50 Precisión GaS5sinPI GaS5sinPII GaS5conPI GaS5conPII GaS11sinP GaS11conP glass 76 74 Precisión 72 70 68 66 64 62 0 5 10 15 20 25 30 Generaciones 35 40 45 50 GaS5sinPI GaS5sinPII GaS5conPI GaS5conPII GaS11sinP GaS11conP (Contin´ a en la siguiente p´ gina) u a . CONFIGURACIONES DE GA-STACKING Tabla B.5 76 75.

5 87 86.5 90 89.5 89 88. CONFIGURACIONES DE GA-STACKING Tabla B.1.´ APENDICE B.5 85 0 5 10 15 20 25 30 35 Generaciones 40 45 50 Precisión GaS5sinPI GaS5sinPII GaS5conPI GaS5conPII GaS11sinP GaS11conP hepatitis 92 91 Precisión 90 89 88 87 86 85 0 5 10 15 20 25 30 Generaciones 35 40 45 50 GaS5sinPI GaS5sinPII GaS5conPI GaS5conPII GaS11sinP GaS11conP (Contin´ a en la siguiente p´ gina) u a .5 88 87. (Continuaci´ n) o 150 heart 90.5 86 85.

2 Precisión 99 98.4 98. CONFIGURACIONES DE GA-STACKING Tabla B.5 97 96.1.5 96 95.5 94 93.5 0 5 10 15 20 25 30 35 Generaciones 40 45 50 Precisión GaS5sinPI GaS5sinPII GaS5conPI GaS5conPII GaS11sinP GaS11conP (Contin´ a en la siguiente p´ gina) u a .´ APENDICE B.8 98.4 99. (Continuaci´ n) o 151 hypo 99.6 98.5 95 94.2 98 0 5 10 15 20 25 30 35 Generaciones 40 45 50 GaS5sinPI GaS5sinPII GaS5conPI GaS5conPII GaS11sinP GaS11conP ionosphere 97.

(Continuaci´ n) o 152 image 96. CONFIGURACIONES DE GA-STACKING Tabla B.5 0 5 10 15 20 25 30 35 Generaciones 40 45 50 Precisión GaS5sinPI GaS5sinPII GaS5conPI GaS5conPII GaS11sinP GaS11conP (Contin´ a en la siguiente p´ gina) u a .5 93 0 5 10 15 20 25 30 35 Generaciones 40 45 50 GaS5sinPI GaS5sinPII GaS5conPI GaS5conPII GaS11sinP GaS11conP iris 100 99.5 97 96.5 96 95.5 98 97.5 96 Precisión 95.5 95 94.´ APENDICE B.5 94 93.1.5 99 98.

CONFIGURACIONES DE GA-STACKING Tabla B.6 0 5 10 15 20 25 30 35 Generaciones 40 45 50 Precisión GaS5sinPI GaS5sinPII GaS5conPI GaS5conPII GaS11sinP GaS11conP wine 100 99.8 95.4 97.1.4 96.8 98.4 99. (Continuaci´ n) o 153 vote 97.6 99.4 98.´ APENDICE B.6 96.8 96.6 97.2 96 95.8 99.2 97 96.6 98.2 98 0 5 10 15 20 25 30 35 Generaciones 40 45 50 Precisión GaS5sinPI GaS5sinPII GaS5conPI GaS5conPII GaS11sinP GaS11conP .2 99 98.

20 93.40 98.60 97.80 + 99.20 97.50 82.50 80.60 − 95.40 63.10 G A S11 C P 88.00 73.3: Comparaci´ n de los resultados obtenidos por los individuos seleccionados meo diante G A S5 S PII con el resto de los individuos encontrados con las dem´ s configuraciones a de GA-Stacking y su significaci´ n estad´stica (+/− es mejor/peor significativamente).50 83.50 + 82.20 90.90 84.40 G A S5 C PI 88.00 67.10 94.00 67.30 79.70 75.20 93.20 92.50 82.10 86. o ı Dominio australian balance breast car chess diabetes echo german glass heart hepatitis hypho images ionosphere iris sonar vote wine G A S5 S PI 86.10 90.70 + 94.70 80.50 99.70 91.10 95.40 99.60 95.30 90.20 97.70 75.50 + 95.80 99. CONFIGURACIONES DE GA-STACKING 154 Tabla B.50 94.60 95.70 75.50 71.20 Tabla B.90 94.20 90.70 82.10 90.30 + 99.50 95.40 90.60 − 95.30 75.70 73.40 + 97.60 91.10 94.70 75.80 91.30 98.30 + 95.70 G A S5 C PI 88.30 95.90 99.10 94.70 94.80 97.30 75.00 76.70 94.30 92.10 94.90 99.70 G A S5 S PI 86.50 99.40 74.80 95.20 94.70 − 96.40 90.60 74.30 93.10 G A S11 C P 88.50 − 97.80 − 98.30 90.40 99.90 99.70 80.70 97.2: Comparaci´ n de los resultados obtenidos por los individuos seleccionados meo diante G A S5 S PI con el resto de los individuos encontrados con las dem´ s configuraciones a de GA-Stacking y su significaci´ n estad´stica (+/− es mejor/peor significativamente).70 96.10 98.30 97.80 − 95.00 73.90 G A S5 C PII 87.00 66.50 − 94.10 98.50 97.80 G A S11 S P 88.10 92.10 86.70 98.70 98.70 91.00 62.20 + 96.80 78.40 73.30 84.60 91.70 93.50 79.80 94.50 + 82.80 91.90 84.20 96.40 99.30 + 99.30 97.20 97.20 97.80 94.80 78.20 .40 98.10 95.40 + 97.20 93.70 73.60 89.40 97.50 71.20 95.80 99.40 87.20 96.70 + 99.00 92.00 + 82.´ APENDICE B.70 95.90 99.20 93.60 89. o ı Dominio australian balance breast car chess diabetes echo german glass heart hepatitis hypho images ionosphere iris sonar vote wine G A S5 S PII 87.30 90.40 + 87.70 71.40 63.10 92.20 95.70 73.70 71.90 94.50 83.70 82.60 94.40 89.30 92.50 79.70 93.90 97.40 89.20 96.30 84.80 98.90 G A S5 C PII 87.20 99.90 90.30 93.40 97.40 73.40 99.00 76.70 95.40 − 80.80 95.90 97.30 96.20 92.40 G A S5 S PII 87.80 + 99.30 97.30 98.70 73.40 − 80.30 79.80 97.00 75.00 75.20 94.70 74.00 − 92.00 82.00 62.60 94.90 90.30 90.70 74.60 74.00 − 66.70 75.70 97.80 95.70 + 97.70 94.50 80.40 74.60 97.20 99.70 + 99.30 + 96.70 97.80 G A S11 S P 88.30 97.70 75.

50 − 94.50 71.20 93.90 90.30 84.30 90.10 − 92.80 78.30 90.90 90.80 − 99.30 95.20 93.70 80.20 93.70 95.70 80.70 73.20 Tabla B.30 84.´ APENDICE B.60 89.50 71.70 94.20 − .30 + 97.90 97.40 98.40 97.40 90.30 98.40 97.80 + 95.30 92.10 94.70 97.40 99.00 73.80 − 98.10 94.30 99.80 G A S5 S PI 86.50 80.00 62.30 95.30 96.70 74.00 67.20 97.50 79.60 95.70 98.50 80.30 92.00 82.20 96.20 97.90 G A S11 S P 88.20 − 99.40 87.70 73.30 96.60 74.00 − 92.00 − 66.50 − 99.20 96.70 − 96.00 67.00 76.70 G A S5 C PII 87.40 99.90 99.70 97.20 96.20 92.50 83.30 99.30 93.90 84.90 84.70 95.70 75.20 95.40 74. o ı Dominio australian balance breast car chess diabetes echo german glass heart hepatitis hypho images ionosphere iris sonar vote wine G A S5 C PII 87.80 99.40 89.30 75.40 63.40 99.00 75.10 G A S11 C P 88.20 97. CONFIGURACIONES DE GA-STACKING 155 Tabla B.00 82.20 94.40 G A S5 S PII 87.10 − G A S11 C P 88.30 97.30 79.40 G A S5 S PII 87.70 98.70 74.40 − 80.50 95.50 83.20 94.30 97.70 73.80 97.80 78.50 82.60 + 97.20 93.80 − 95.60 91.60 74.70 75.5: Comparaci´ n de los resultados obtenidos por los individuos seleccionados meo diante G A S5 C PII con el resto de los individuos encontrados con las dem´ s configuraciones a de GA-Stacking y su significaci´ n estad´stica (+/− es mejor/peor significativamente).4: Comparaci´ n de los resultados obtenidos por los individuos seleccionados meo diante G A S5 C PI con el resto de los individuos encontrados con las dem´ s configuraciones a de GA-Stacking y su significaci´ n estad´stica (+/− es mejor/peor significativamente).40 89.10 98.40 87.30 + 93.10 − 95.40 − 80.20 90.90 94.90 94.80 − 95.30 79.30 + 98.80 + 91.30 90.50 − 94.30 97.20 90.70 94.70 82.60 94.10 − 86.20 97.80 94.20 95.80 + 91.50 − 99.00 62.70 93.30 75.70 93.60 89.80 94.70 75.50 97.80 98.80 G A S11 S P 88.90 99.70 75.70 G A S5 C PI 88.70 71.70 97.10 95.10 94.40 73.70 71.70 75.40 63.60 91.20 92.70 91.10 90.50 82.10 90.40 99.70 75.00 66.90 G A S5 S PI 86.90 99.40 97.10 92.00 73.70 94.90 99.20 96.00 92.60 97.70 73.80 97.40 74.80 99.70 91.40 73.60 95.70 + 94.80 − 99.70 99.90 97.50 95.80 + 95.70 82.70 99.40 97.70 97.10 86.30 90.40 90.50 − 82.60 94.10 98.10 94.40 98.50 79.60 95.50 97. o ı Dominio australian balance breast car chess diabetes echo german glass heart hepatitis hypho images ionosphere iris sonar vote wine G A S5 C PI 88.20 − 99.70 96.50 82.60 95.00 76.00 75.

00 76.20 92.70 71.30 90.90 97.40 63.70 98.10 94.70 75.30 99.70 75.00 82.20 Tabla B.80 78.10 94.40 89.20 G A S5 S PI 86. o ı Dominio australian balance breast car chess diabetes echo german glass heart hepatitis hypho images ionosphere iris sonar vote wine G A S11 C P 88.10 92.20 93.20 99.90 94.10 G A S5 S PI 86.90 99.70 73.60 94.90 G A S5 C PII 87.60 − 95.40 74.20 96.60 91.40 73.90 90.30 97.10 94.10 95.50 + 79.60 89.80 − 95.70 73.40 98.70 71.00 67.20 96.70 82.50 − 83.30 92.90 99.20 94.30 97.40 + 98.40 99.50 95.20 90. CONFIGURACIONES DE GA-STACKING 156 Tabla B.40 99.90 84.60 74.90 90.70 G A S5 C PI 88.40 87.00 62.80 − 98.00 92.50 82.20 97.30 95.70 91.60 97.70 95.50 71.30 96.70 G A S5 C PI 88.10 90.30 93.60 89.70 82.70 + 97.70 95.60 94.30 + 79.80 97.20 97.40 73.70 73.70 94.40 99. o ı Dominio australian balance breast car chess diabetes echo german glass heart hepatitis hypho images ionosphere iris sonar vote wine G A S11 S P 88.10 86.80 95.70 + 99.70 97.20 93.30 + 98.00 75.80 94.30 84.70 75.30 75.80 + 78.50 99.40 97.90 99.70 99.70 75.40 87.80 99.70 + 80.20 95.70 96.00 73.90 99.80 97.50 80.70 93.40 74.50 + 80.20 − 99.40 99.70 91.70 97.50 − 82.20 95.70 94.40 90.40 97.40 90.70 73.80 95.7: Comparaci´ n de los resultados obtenidos por los individuos seleccionados meo diante G A S11 C P con el resto de los individuos encontrados con las dem´ s configuraciones a de GA-Stacking y su significaci´ n estad´stica (+/− es mejor/peor significativamente).20 96.80 − 95.60 95.10 98.00 92.10 95.00 82.80 91.6: Comparaci´ n de los resultados obtenidos por los individuos seleccionados meo diante G A S11 S P con el resto de los individuos encontrados con las dem´ s configuraciones a de GA-Stacking y su significaci´ n estad´stica (+/− es mejor/peor significativamente).40 80.30 98.90 97.90 + G A S5 C PII 87.30 + 97.50 94.40 G A S5 S PII 87.00 + 76.00 75.50 79.20 96.50 − 99.10 .30 90.80 + 99.10 86.40 G A S5 S PII 87.00 66.10 98.70 75.90 84.50 71.60 − 95.30 + 99.50 − 97.10 94.20 97.30 92.70 + 97.70 80.70 + 94.20 97.60 91.80 94.50 97.90 94.50 83.20 93.00 73.70 74.30 84.40 97.30 79.50 82.80 91.50 82.30 93.70 98.70 + 94.30 97.30 90.20 94.20 90.40 − 80.70 74.30 90.60 97.50 95.40 89.80 G A S11 C P 88.80 − 99.70 93.20 92.10 92.00 66.00 67.30 96.70 75.80 98.70 96.30 75.80 99.60 − 95.30 95.60 74.´ APENDICE B.50 94.40 + 63.20 93.40 97.00 62.10 90.80 + G A S11 S P 88.

Ap´ ndice C e Detalles de la Evaluaci´ n del o MABO En este ap´ ndice se muestran en detalle las caracter´sticas de los datos utilizae ı dos con el prop´ sito de evaluar el proceso de generaci´ n del m´ dulo de etiquetado o o o de acciones. o 157 . En la Tabla C.1 se muestran los atributos del conjunto de datos utilizados y la descripci´ n de los mismos.

u Nombre SeeOpponent OpponenteNumber BallKickableForOpponent CanFaceOpponentWithNeck CanSeeOpponentWithNeck BallMoving BallKickable OpponentPositionValid OpponentDistance OpponentSpeed OpponentAngleFromBody OpponentAngleFromNeck BallPositionValid BallSpeed BallDistance BallAngleFromBody BallAngleFromNeck MyBodyAng MySpeed MyAction MyActionAngle MyActionPower Iguales a los anteriores DIF-BKFO DIF-CFOWN DIF-CSOWN DIF-BM DIF-BK DIF-OX DIF-OY DESP-O DIF-OD DIF-OS DIF-OAFB DIF-OAFN DIF-BX DIF-BY DESP-Ball DIF-BS DIF-BD DIF-BAFB DIF-BAFN DIF-MyX DIF-MyY DESP-My DIF-MyBA DIF-MyS CLASS Descripci´ n o ATRIBUTOS DEL INSTANTE t ¿puedo ver al oponente? n´ mero del oponente u ¿puede el oponente disparar el bal´ n? o ¿puedo encarar al oponente girando el cuello? ¿puedo ver al oponente girando el cuello? ¿el bal´ n se esta moviendo? o ¿puedo disparar el bal´ n? o grado de certeza sobre la posici´ n del oponente o distancia al oponente velocidad del oponente ´ angulo del oponente desde mi cuerpo ´ angulo del oponente desde mi cuello grado de certeza sobre la posici´ n del bal´ n o o velocidad del bal´ n o distancia del bal´ n o ´ angulo del bal´ n desde mi cuerpo o ´ angulo del bal´ n desde mi cuello o ´ angulo de mi cuerpo mi velocidad mi acci´ n o ´ el angulo asociado a mi acci´ n o el poder asociado a mi acci´ n o ATRIBUTOS DEL INSTANTE t − 1 se utilizan los mismos que en el instante t ATRIBUTOS CALCULADOS diferencia en dos instantes de tiempo del atributo BallKickableForOpponent diferencia en dos instantes de tiempo del atributo CanFaceOpponentWithNeck diferencia en dos instantes de tiempo del atributo CanSeeOpponentWithNeck diferencia en dos instantes de tiempo del atributo BallMoving diferencia en dos instantes de tiempo del atributo BallKickable diferencia en dos instantes de tiempo de la coordenada X del oponente diferencia en dos instantes de tiempo de la coordenada Y del oponente desplazamiento del oponente de un instante de tiempo a otro diferencia en dos instantes de tiempo del atributo OpponentDistance diferencia en dos instantes de tiempo del atributo OpponentSpeed diferencia en dos instantes de tiempo del atributo OpponentAngleFromBody diferencia en dos instantes de tiempo del atributo OpponentAngleFromNeck diferencia en dos instantes de tiempo de la coordenada X del bal´ n o diferencia en dos instantes de tiempo de la coordenada Y del bal´ n o desplazamiento del bal´ n de un instante a otro o diferencia en dos instantes de tiempo del atributo BallSpeed diferencia en dos instantes de tiempo del atributo BallDistance diferencia en dos instantes de tiempo del atributo BallAngleFromBody diferencia en dos instantes de tiempo del atributo BallAngleFromNeck diferencia en dos instantes de tiempo de mi coordenada X diferencia en dos instantes de tiempo de mi coordenada Y mi desplazamiento de un instante a otro diferencia en dos instantes de tiempo del atributo MyBodyAng diferencia en dos instantes de tiempo del atributo MySpeed acci´ n llevado a cabo por el agente a modelar en el instante t − 1 o .1: Atributos utilizados en el proceso de construcci´ n de los clasificadores que son o el n´ cleo del MEA dentro de MABO.´ ´ APENDICE C. DETALLES DE LA EVALUACION DEL MABO 158 Tabla C.