Toma de Decisiones en Eventos Temporales Utilizando Aprendizaje Por Reforzamiento

Toma de decisiones en eventos temporales utilizando aprendizaje por reforzamiento
Diego Vel asquez R os diego.velasquez@ucsp.edu.pe Universidad Cat olica San Pablo Ciencia de la Computaci on Arequipa - Per u 15 de Mayo de 2012
Introducci on
Cuando uno se encuentra ante un problema, denido por un estado inicial, un estado nal deseado, una variedad de posibles acciones que emprender, y un entorno sobre el que se ejercen estas acciones (del que se posee un modelo quiz a incompleto o parcialmente err oneo), se est a ante un problema de decisi on. Este problema consiste en decidir qu e acciones emprender, de entre las posibles acciones alternativas, y en qu e orden, para conseguir el resultado deseado. Los problemas de decisi on surgen de manera continua en la vida cotidiana. El determinar por qu e camino volver a casa, c omo invertir los ahorros, o c omo modicar la temperatura del hornillo en el que hierve el agua de los macarrones, se reduce a resolver un problema de decisi on. Las herramientas para las decisiones tecnol ogicas tales como los modelos matem aticos han sido aplicados a una amplia gama de situaciones en la toma de decisiones dentro de diversas areas de la gerencia. En la toma consciente de decisiones bajo incertidumbre, siempre realizamos pron osticos o predicciones. Podr amos pensar que no estamos pronosticando, pero nuestras opciones estar an dirigidas por la anticipaci on de resultados de nuestras acciones o inacciones. Por ejemplo uno de los elementos m as importantes para un ejecutivo de alta gerencia es la capacidad de conducir su propia vida ecientemente, y luego modelar todas aquellas habilidades de liderazgo en los empleados de la organizaci on. La mayor a de las decisiones gerenciales est an basadas en pron osticos. Cada decisi on se hace efectiva en alg on punto en el futuro, por lo tanto deber an estar basadas en pron osticos de las condiciones futuras. Los responsables de la toma de decisiones utilizan modelos de predicci on como mecanismos de soporte en el proceso de toma de decisiones. Generalmente en la toma de decisiones se utilizan procesos basados en modelos, de manera de poder investigar el impacto de acciones retrospectivas en diferentes cursos. El pron ostico es una predicci on de lo que ocurrir a en el futuro, y esto es un proceso incierto. A causa de la incertidumbre, la exactitud del pron ostico 1
es tan importante como el resultado predicho por el mismo. Los sistemas de toma de decisi on constituyen hoy, sin duda, uno de los campos de aplicaci on m as f ertiles de las t ecnicas de la Inteligencia Articial. La amplia aplicabilidad de estas t ecnicas reside en el hecho de que una gran cantidad de problemas (e.g. control de sistemas din amicos, predicci on, optimizaci on, clasicaci on, planicaci on, b usqueda heur stica, diagnosis) se reduce, o conlleva, un problema de decisi on. El estudio de los sistemas de toma de decisi on es por tanto especialmente interesante, pues promete grandes posibilidades de aplicaci on, y satisface una necesidad creciente de sistemas de apoyo a la toma de decisi on.
2
2.1
Inteligencia Articial y la Toma de Decisiones

Sistemas Monol ticos de Toma de Decisi on
Hasta mediados de los a nos ochenta, los sistemas de toma de decisi on fruto de la aplicaci on de las t ecnicas de la Inteligencia Articial eran de tipo monol tico exclusivamente, en el sentido de que utilizaban un u nico formalismo de representaci on del conocimiento, un u nico formalismo de razonamiento, y posiblemente un u nico formalismo de aprendizaje y generalizaci on. De entre estos sistemas, los m as representativos fueron los sistemas expertos (por ejemplo [Buchanan and Feigenbaum, 1978], [Shortliife et al, 1975]). Los sistemas monol ticos inteligentes, han dado una soluci on adecuada a muchos problemas, pero adolecen de una serie de limitaciones.
2.2
Inteligencia Articial Distribuida
A mediados de los 80, empezaron a aparecer los primeros sistemas que aplicaban las t ecnicas de la incipiente Inteligencia Articial Distribuida (lAD), en los que pod an coexistir diferentes formalismos implantados en plataformas posiblemente dispersas, y con autonom a [Gir aldez and Borrajo, 1996]. Los problemas del mundo real involucran sistemas abiertos y distribuidos [Hewitt, 1986], lo que sugiere emplear para la resoluci on de estos problemas sistemas igualmente distribuidos y adaptativos. Los sistemas abiertos se caracterizan por [Burkhard, 1994]: La necesidad de continua disponibilidad, lo que permite la delegaci on de tareas, y posiblemente, la tolerancia al fallo de un componente, cuya carga puede ser asumida por el resto; La extensibilidad, los componentes de un sistema pueden abandonarlo y nuevos componentes entrar a formar parte; El control descentralizado, muchas veces motivado por la complejidad de la tarea global; El funcionamiento asincrono, y porque puede haber informaci on inconsistente. De hecho, en general no hay un medio que asegure la consistencia
global de toda la informaci on distribuida, por lo que la consistencia se reduce al ambito local; y La coexistencia de diversas visiones parciales del problema, lo que permite simplicar a nivel local el problema, al precio de la aparici on de inconsistencias. La lAD se divide en dos areas: la Soluci on Distribuida de Problemas (SDP) y los Sistemas Multi-Agente (SMA). En SDP se pretende dividir el trabajo necesario para la soluci on de un problema entre diversos m odulos, llamados fuentes de conocimiento (FC), que pueden ser procedimientos, conjuntos de reglas, clasicadores u otros (ver, por ejemplo, [Erman et al., 1980]). En el caso de los SMA, se pretende coordinar el comportamiento de un conjunto de entidades inteligentes aut onomas resolvedoras de problemas (llamadas agentes) para resolver problemas de manera conjunta. Algunas diferencias signicativas entre SDP y SMA son: Los agentes est an dotados de un comportamiento, que puede variar con el tiempo, mientras que una FC no tiene comportamiento, si no que se reduce a una serie de c alculos que siempre son los mismos. Un SMA es adaptativo ante cambios del entorno o nuevas evidencias, mientras que un sistema de SDP no lo es. Los SMA son din amicos en el sentido de que es posible la salida e incorporaci on de nuevos agentes del sistema, mientras que en un sistema de SDP, la falta de un componente deja al sistema inoperativo, y no est a preparado para aprovechar nuevas incorporaciones. El acoplamiento entre las FC es jo y muy fuerte, mientras que el acoplamiento entre agentes es muy d ebil, de tal manera que entre ellos pueden elegir si interactuan o no. Por otro lado, el modelo que un agente tiene de sus conocidos, puede estar sujeto a variaciones; mientras que una FC no contempla el que lo que espera obtener de otra pueda variar en el tiempo.
2.3
Sistemas de Decisi on Multi-Agente SDMA
En este trabajo se propone el uso del concepto de Sistema de Decisi on MultiAgente (SDMA) para distinguir un tipo particular de SMA, construido espec camente para la soluci on de problemas de decisi on [Gir aldez and Borrajo, 1998]. Este prop osito espec co de los SDMA es la causa de que tengan algunas caracter sticas diferenciadoras de los SMA en general: Un SDMA sirve s olo para la soluci on de problemas de decisi on, en los que, de cara al exterior, el sistema toma una u nica decisi on, mientras que los SMA en general, pueden resolver muy distintos tipos de problemas. En un problema de decisi on, el SDMA se enfrenta con una situaci on en la que hay varias alternativas de proceder, y responde con una de ellas. Esta respuesta es una respuesta globlal del SDMA, y es lo u nico que trasciende del proceso interno del SDMA al exterior. Las acciones individuales de los agentes no trascienden al exterior (salvo para la comunicaci on de la respuesta del grupo al problema). 3
Un SDMA emprende una u nica acci on sobre el mundo como respuesta al enfrentamiento con un problema de decisi on. Esta acci on consiste en tomar una decisi on. No hay acciones aisladas de cada agente sobre el mundo, si no que las acciones de los agentes tienen efecto s olo internamente en el SDMA. Esta es una diferencia importante entre los SDMA y los SMA en general, pues en la mayor a de los SMA, los agentes interactuan con el mundo directamente, sin necesidad de consenso global. Sin embargo, por la naturaleza de los problemas de decisi on, la respuesta del SDMA debe ser u nica, lo que no quita el que se llegue a ella a partir de un proceso de toma de decisones distribuido entre diveros agentes decisores aut onomos. El comportamiento entre los agentes de un SDMA es totalmente colaborativo, ya que todos comparten un objetivo com un. Por lo tanto, un agente siempre responde armativamente a las peticiones de colaboraci on que le llegan de otros compa neros. Si una petici on de colaboraci on llega cuando el agente del SDMA est a ocupado, esta petici on entra en una cola de peticiones y recibe una respuesta colaborativa cuando le llega su turno. Todo esto contrasta con el planteamiento general de los SMA, en el que los objetivos particulares de los agentes no coinciden necesariamente entre s , ni con el objetivo global del sistema (aunque sean compatibles con el). Estas caracter sticas diferenciadoras de los SDMA justican su catalogaci on como una clase aparte dentro de los SMA.
2.4
Predicci on basada en m etodos no lineales
Los m etodos de predicci on no lineales son aquellos que intentan modelar el comportamiento de una serie temporal mediante una funci on no lineal. Esta funci on no lineal suele ser combinaci on lineal de funciones no lineales cuyos par ametros hay que determinar. Los m etodos globales se basan en encontrar una funci on no lineal que modele los datos de salida en funci on de los datos de entrada. Dentro de los m etodos globales no lineales se encuentran las redes neuronales articiales que presentan la ventaja de que no necesitan conocer la distribuci on de los datos de entrada, las m aquinas de vector soporte (SVM) que son unos clasicadores muy potentes de losof a similar a las RNA y la Programaci on Gen etica (PG) donde se puede elegir qu e tipo de funci on no lineal modela el comportamiento de los datos. 2.4.1 Redes neuronales
Las redes neuronales buscan una soluci on a determinados problemas como la evoluci on de unos sistemas inspirados en el cerebro humano y no como una secuencia de pasos, tal y como se hace habitualmente. Estos sistemas, por tanto, poseen una cierta inteligencia que resultante de combinar elementos simples de proceso interconectados, neuronas, que operan de manera paralela son capaces de resolver determinadas tareas entre las que destacan la predicci on, la optimizaci on, el reconocimiento de patrones o el control. Existen cuatro aspectos que caracterizan una red neuronal: su topolog a, el mecanismo de aprendizaje, tipo de asociaci on realizada entre la informaci on de entrada y salida, y la forma de representaci on de estas informaciones. 4
1. Topolog a de las redes neuronales. La arquitectura de las redes neuronales consiste en la organizaci on y disposici on de las neuronas formando capas m as o menos alejadas de la entrada y salida de la red. En este sentido, los par ametros fundamentales de la red son: el n umero de capas, el n umero de neuronas por capa, el grado de conectividad y el tipo de conexiones entre neuronas. 2. Mecanismo de aprendizaje.El aprendizaje es el proceso por el cual una red neuronal modica sus pesos en respuesta a una informaci on de entrada. Los cambios que se producen durante el proceso de aprendizaje se reducen a la destrucci on, modicaci on y creaci on de conexiones entre las neuronas, la creaci on de una nueva conexi on implica que el peso de la misma pasa a tener un valor distinto de cero, una conexi on se destruye cuando su peso pasa a ser cero. Se puede armar que el proceso de aprendizaje ha nalizado (la red ha aprendido) cuando los valores de los pesos permanecen estables. 3. Tipo de asociaci on entre las informaciones de entrada y salida. Las redes neuronales articiales no son mas que sistemas que almacenan cierta informaci on aprendida. Dicha informaci on se registra de forma distribuida en los pesos asociados a las conexiones entre neuronas de entrada y salida. Existen dos formas primarias de realizar esa asociaci on de entrada/salida. Una primera ser a la denominada heteroasociaci on, que se reere al caso en el que la red aprende en parejas de datos [(A1 ,B1 ), (A2 ,B2 )...(An ,Bn )], de tal forma que cuando se presente cierta informaci on de entrada Ai , deber a responder generandola correspondiente salida Bi . La segunda se conoce como autoasociaci on, donde la red aprende ciertas informaciones A1 ,A2 ...An , de tal forma que cuando se le presenta una informaci on de entrada realizar a una autocorrelaci on, respondiendo con uno de los datos almacenados, el m as parecido al de la entrada. Estos dos mecanismos de asociaci on de asociaci on dan lugar a dos tipos de redes neuronales: las redes heteroasociativas y las autoasociativas. 4. Representaci on de la infomaci on de entrada y salida. Las redes neuronales pueden tambien clasicarse en funci on de la forma en que se representan las informaciones de entrada y las respuestas o datos de salida. As un gran n umero de redes, tanto los datos de entrada como de salida son de naturaleza anal ogica, cuando esto ocurre, las funciones de activaci on de las neuronas ser an tambi en continuas, del tipo lineal o sigmoidal. Otras redes s olo admiten valores discretos o binarios a su entrada, generando tambi en unas respuestas en la salida de tipo binario. En este caso, las funciones de activaci on de las neuronas son de tipo escal on.
Series Temporales
Una serie temporal es una secuencia de valores observados a lo largo del tiempo, y, por tanto, ordenados cronol ogicamente. Aunque el tiempo es una variable continua, en la pr actica se usan mediciones en periodos equidistantes. Dada esta denici on, resulta dif cil imaginar alg un area cient ca en la que no aparezcan datos que puedan ser considerados como series temporales. Hoy en d a el an alisis de colecciones de datos ordenados en el tiempo es fundamental en muchos campos como la ingenier a, la medicina o el mundo de los negocios. Estudiar c omo se ha comportado una variable hasta el momento puede ser de gran valor a la hora de predecir su comportamiento futuro. Del mismo modo, determinar qu e otros valores han tenido un comportamiento similar puede ayudar a decidir las acciones que se deber an llevar a cabo, bien sea para conservar la evoluci on actual o bien para modicarla radicalmente. Se puede pensar que con una comparaci on secuencial de dos series temporales dadas bastar a para saber si son similares o no. Sin embargo, no se trata de realizar un rastreo secuencial de dos secuencias temporales sino que se trata de encontrar m etodos o t ecnicas que ayuden a disminuir ese rastreo. Esto es muy importante si se tiene en cuenta la cantidad de informaci on que se puede encontrar en determinadas bases de datos, sobre todo si se tiene que extraer informaci on espec ca de un dominio concreto. Las t ecnicas que facilitan la extracci on de informaci on de estas bases de datos forman parte del campo de la miner a de datos. Lo primero que se necesita para poder hacer miner a de datos con series temporales es una medida de la distancia ([2] , [3]) entre dos secuencias temporales. Lo que se pretende es buscar secuencias temporales que se parecen entre s , buscar aquellas secuencias que se parecen a una dada o buscar patrones de comportamiento dentro de una secuencia temporal. En denitiva, se necesita estudiar cu ando dos secuencias temporales son similares o no y por lo tanto una primera cuesti on importante es establecer una medida de la distancia. Sin embargo, en muchos casos, esto no es suciente dado que es necesario un paso previo de limpieza y transformaci on de las secuencias temporales antes de proceder a la comparaci on propiamente dicha. Estas transformaciones forman parte del an alisis de las series temporales, tanto lineales [4], como no lineales. Los trabajos desarrollados hasta la fecha buscan series o secciones de series temporales que se parecen entre s . Sin embargo, en algunos ambitos puede ser necesario buscar una secci on de la serie caracter stica, normalmente denominada patr on. Existen varios trabajos relacionados con la b usqueda de patrones, campos como la estad stica, el procesamiento de la se nal [5], algoritmos gen eticos, y el reconocimiento de voz, los cuales ofrecen una variedad de t ecnicas que se pueden elegir para formalizar una algoritmo de comparaci on. Encontrar patrones ha sido una de las tareas b asicas de la Ciencia. En ocasiones se encuentran simetr as que sirven para la predicci on del comportamiento de ciertos fen omenos, incluso antes de que se entienda la raz on o causa que justica esa conducta.
Si dados los valores pasados de una serie no es posible predecir con total abilidad el siguiente valor esperado de la variable objeto de estudio, se dice que la serie es no determinista o aleatoria. Este comportamiento es el que, en principio, parecen tener las series temporales de la demanda econ omica nanciera. En este contexto se engloba este estudio: se pretende demostrar la existencia de un comportamiento l ogico y ordenado de las curvas de precios utilizando procedimientos propios de miner a de datos. Evidentemente, aunque el valor futuro de una serie temporal no sea predecible con total exactitud, para que tenga inter es su estudio, el resultado tampoco puede ser completamente aleatorio, existiendo alguna regularidad en cuanto a su comportamiento en el tiempo haciendo posible su modelado y, por ende, su predicci on. Por tanto, el objetivo nal es el de realizar una estimaci on de valores futuros de la demanda en funci on del comportamiento pasado de la serie, ya que este hecho servir a para hacer una buena planicaci on de recursos en funci on de la demanda esperada en el futuro prevista por el modelo.
3.1
Modelado de Series Temporales
La forma t pica de comenzar a analizar una serie temporal es mediante su representaci on gr aca. Para tal n, se utiliza un sistema cartesiano en el que los valores o periodos de tiempo se llevan al eje de abscisas y los valores de la serie, se llevan al eje de ordenadas. El resultado es un diagrama de dispersiv on, con la particularidad de que el eje de abscisas se reserva siempre a la misma variable: el tiempo. Mediante este tipo de representaci on se pueden detectar las caracter sticas m as sobresalientes de una serie, tales como la amplitud de las oscilaciones, la posible existencia de ciclos, los puntos de ruptura o la presencia de valores at picos o an omalos. La metodolog a utilizada para estudiar las series temporales se basa fundamentalmente en descomponer las series en varias componentes: tendencia,variaci on estacional o peri odica y otras uctuaciones irregulares. 1. Tendencia. Es la direcci on general de la variable en el periodo de observaci on, es decir el cambio a largo plazo de la media de la serie. Para determinar claramente si una serie responde a una determinada ley (crecimiento, decrecimiento o estabilidad) se requiere que esta posea un n umero bastante elevado de muestras. Dicha tendencia puede corresponder a diversos perles, tales como lineal, exponencial o parab olico. Cuando se analiza este factor, se prescinde de las variaciones a corto y medio plazo. Este par ametro resulta de vital importancia al aplicar t ecnicas de clustering, ya que ser a precisamente este par ametro el que se utilizar a para modelar los diferentes grupos generados y sobre el que se realizar an las medidas de distancia para ver si un elemento pertenece a un grupo o a otro. 2. Estacionalidad. Corresponde a uctuaciones peri odicas de la variable, en periodos relativamente cortos de tiempo. Esta componente tiene un marcado car acter econ omico. 3. Otras uctuaciones irregulares (Aleatoriedad). Despu es de extraer de la serie la tendencia y variaciones c clicas, nos quedar a una serie de valores residuales, que pueden ser, o no, totalmente aleatorios. Se trata 7
de una circunstancia similar a la del punto de partida, pues ahora tambi en interesa determinar si esa secuencia temporal de valores residuales puede o no ser considerada como aleatoria pura. Los factores que causan estas variaciones son de diferente ndole y son muy dif ciles de aislar y predecir. No obstante, si por alguna causa se es capaz de determinar qu e factores son los que afectan a una serie temporal y se asume una inuencia determinista una vez ocurridos, se podr a pensar en estos valores como precursores de cambios en la tendencia de la serie.
3.2
Defnici on de volatilidad
En nuestros d as el t ermino volatilidad ha adquirido una gran importancia para cualquier persona relacionada con los mercados nancieros, aunque solo sea como espectador. Para la mayor a volatilidad es sin onimo de riesgo, pero para los operadores nancieros este t ermino adquiere diferentes signicados seg un sea el rol que desempe nen en el mercado. Por lo tanto, se debe entender a la volatilidad no como un u nico par ametro, sino como un conjunto de conceptos relacionados entre s . Ejemplo: Volatilidad de una acci on: Par ametro que mide el riesgo total de una acci on, esto es, el riesgo diversicable y el riesgo de mercado. Proporciona una medida de la dispersi on o variabilidad de la rentabilidad de dicha acci on. Matem aticamente es la desviaci on est andar de la rentabilidad de las acciones de una empresa. Volatilidad de una opci on: Hace referencia a la volatilidad del activo subyacente al que se reere la opci on. Volatilidad impl cita: Es la volatilidad que, de acuerdo con las caracter sticas de la opci on, se ha de introducir en la f ormula de valoraci on para obtener el precio al que cotiza la opci on Volatilidad de las instituciones nancieras: El riesgo administrativo de las entidades nancieras puede ser calculado mediante la estimaci on de probabilidad de riesgo de default, comparando las garant as y plazos de los valores prestados con los plazos de los valores tomados. La propia estructura del mercado nos presenta los precios de los activos nancieros como un proceso que evoluciona a lo largo del tiempo, de igual forma la rentabilidad derivada de esos cambios posee una estructura temporal asociada a los cambios en los precios, por ende es adecuado considerar a la volatilidad como una serie temporal y no como un u nico par ametro que se mantiene a lo largo del tiempo. Podemos, entonces, denir inicialmente a la volatilidad como una medida de la intensidad de los cambios aleatorios o impredecibles en la rentabilidad o en el precio de un valor. Gr acamente se asocia la volatilidad con la amplitud de las uctuaciones del rendimiento en torno a su valor medio. La cl asica visi on de la volatilidad como una constante de la funci on de distribuci on de los rendimientos de un activo nanciero qued o obsoleta hace ya mucho tiempo, para dar paso a una nueva idea del concepto de volatilidad que se ajusta mucho m as a la visi on del fen omeno de la gran variabilidad de los
mercados nancieros. Los modelos nanciero-econom etricos se adaptan a esta nueva realidad de la volatilidad. Introducen que cada vez m as nuevos factores, tal vez algo m as subjetivos, pero m as adecuados a esta cambiante realidad. 3.2.1 Caracter sticas de la Volatilidad
Repasando la literatura nanciera se puede admitir que la volatilidad se caracteriza por: Exceso de curtosis: La distribuci on de los rendimientos presenta un elevado grado de concentraci on alrededor de los valores centrales de la variable. Existencia de clusters: periodos de alta y baja volatilidad. Si la volatil c ndolo; si es baja en un idad es alta en un periodo, tiende a seguir siA periodo tiende a seguir siendo baja en el periodo siguiente. Discontinuidades de saltos en los precios: De manera ocasional se pueden producir valores altos de volatilida en momentos concretos. Los periodos de alta y baja volatilidad acostumbran a venir seguidos de periodos en los que la volatilidad es m as moderada a largo plazo. Comportamiento asim etrico de las series: La volatilidad puede ser on afectada de forma diferente (con rendimientos positivos o negativos) segA lleguen al mercado buenas o malas noticias. Los rendimientos negativos, infrecuentes llevan a incrementos mayores en las futuras mayores y mAs volatilidades. Movimientos conjuntos de la volatilidad: cuando se estudian diferentes series endito mercado, se observa como los movimientos importantes relacionados con movimientos importantes en otros en un mercado estAn mercados. Esto pone en evidencia la utilidad de los modelos multivariantes para serie temporales, pues permiten analizar estas relaciones cruzadas.
4
4.1
Toma de decisiones en eventos temporales utilizando aprendizaje por refuerzo

Aprendizaje por Refuerzo
El aprendizaje por refuerzo parte de un enfoque totalmente distinto. Se trata de aprender de la experiencia y no de un conjunto de ejemplos. Est a dirigido por objetivos. Este objetivo se expresa por una recompensa que devuelve el entorno al realizar una acci on sobre el. No se conoce cual es la salida adecuada para el sistema. Tan solo que el efecto que debe producir esta salida sobre el entorno sea tal que se maximice la recompensa recibida a largo plazo. El comportamiento del entorno es, en general, desconocido y puede ser estoc astico, es decir, que la evoluci on del entorno y la recompensa generada pueden obedecer a una cierta funci on de probabilidad. La recompensa puede tener un cierto retardo. Es decir, la bondad de una acci on tomada por el sistema puede que no se reeje hasta un cierto n umero de evaluaciones posteriores. Dado que el comportamiento del entorno es desconocido, el aprendizaje por refuerzo conlleva una fuerte carga de ensayo y error. Uno de los problemas asociados es el balance exploraci on-explotaci on. Se trata de evaluar si es mejor explorar el entorno para mejorar el conocimiento del problema (a costa de empeorar a corto plazo la recompensa obtenida) o explotar el conocimiento acumulado (intentando maximizar la recompensa). Es importante se nalar las diferencias respecto al aprendizaje por analog a. El aprendizaje por analog a tambi en est a basado en la experiencia, pero se limita a almacenar experiencias pasadas y buscar correspondencias. Aprendizaje por refuerzo es un m etodo computacional para la comprensi on y la automatizaci on dirigida a objetivos de aprendizaje y toma de decisiones. Se distingue de otros m etodos de c alculo por su enfasis en el aprendizaje por parte del individuo de la interacci on directa con su entorno, sin depender de la supervisi on de ejemplares o modelos completos del medio ambiente. El aprendizaje por refuerzo es el primer campo para abordar seriamente los problemas de c alculo que se presentan en el aprendizaje de la interacci on con un entorno en el n de alcanzar metas a largo plazo. 4.1.1 Elementos
1. Agente: Es el sujeto del aprendizaje por refuerzo. Su funcionamiento consiste en leer el estado del entorno, realizar acciones sobre el entorno y leer las recompensas que producen estas acciones. 2. Entorno: Es el objeto sobre el que opera el agente. El entorno recibe las acciones del agente y evoluciona. Su comportamiento suele ser desconocido y estoc astico. Es el responsable de generar las recompensas asociadas a las acciones y cambios de estado. 3. Pol tica: Dene el comportamiento del agente. Puede verse como un mapeo de estado a acci on, es decir, establece las reglas de asociaci on entre el estado del entorno y la acci on a tomar. Puede ser estoc astica. 10
4. Funci on de refuerzo: Establece la recompensa a generar en funci on del estado del entorno y la acci on realizada sobre el. Puede ser estoc astica. El objetivo del aprendizaje por refuerzo es maximizar la recompensa total obtenida a largo plazo. 5. Funci on de evaluaci on (funci on de valor): reeja una estimaci on de la recompensa que se va a recibir a partiendo de un cierto estado y siguiendo una cierta pol tica. Esta funci on sirve de base para escoger la acci on a realizar (aquella que conduzca al estado con mayor valor). El objetivo de los algoritmos de aprendizaje por refuerzo es construir esta funci on. 6. Modelo del entorno: permite predecir el comportamiento del entorno y aprovechar esta informaci on para resolver el problema.
Figure 1: La interacci on entre el agente y el medio ambiente en el aprendizaje por refuerzo
4.2
Procesos de Decisi on de Markov - MDP
Las t ecnicas Markovianas se han convertido en un est andar para la planicaci on basada en teor a de decisiones. Una de las razones es que simult aneamente el formalismo asume no determinismo en las acciones y distintos grados de preferencia en las metas. Otra raz on ha sido el exito de las t ecnicas Markovianas en areas como reconocimiento de voz, y el de sus muy cercanas t ecnicas de aprendizaje por refuerzo en control autom atico. Un problema de decisi on secuencial es un proceso en el cual un sistema evoluciona en el tiempo y es controlado por un agente. La din amica del sistema es gobernada por una funci on de transici on probabilista que asocia estados y acciones con nuevos estados. Esto es, la din amica del sistema se representa mediante una funci on que devuelve una distribuci on de probabilidades de transici on a otros estados, dado un estado actual y una acci on. En cada paso, el agente recibe una recompensa num erica que en general depende del estado actual y de la acci on aplicada. En este contexto, una acci on es un tipo de evento instigado por un agente con la intenci on de cambiar el estado de un sistema. Al problema de encontrar una estrategia reactiva de control o pol tica de acci on en un problema de decisi on secuencial que maximize la recompensa esperada en el tiempo se le conoce como proceso de decisi on de Markov.
11
Un ambiente satisface la propiedad de Markov si la se nal de su estado compacto resume el pasado, sin degradar la capacidad de predecir el futuro. Un MDP nito es un MDP con estados y conjuntos de acci on nitos. La mayor parte de la teor a actual del aprendizaje por refuerzo se limita a PDM nitos, pero los m etodos y las ideas se aplican de manera m as general. Un problema de aprendizaje por refuerzo se puede plantear de diferentes maneras dependiendo de las suposiciones sobre el nivel de conocimiento disponible inicialmente para el agente. En los problemas de un conocimiento completo, el agente tiene un modelo completo y preciso de la din amica del entorno. Si el ambiente es un MDP, entonces este modelo se compone de las probabilidades de transici on de un solo paso y recompensas esperadas para todos los estados y sus acciones permitidas. En los problemas de informaci on incompleta, un modelo completo y perfecto del medio ambiente no est a disponible.
4.3
Aprendizaje por Diferencia Temporal o TD - learning
Si hubiera que identicar una idea central y novedosa para el aprendizaje por refuerzo, sin duda ser a el aprendizaje por Diferencia Temporal TD. El aprendizaje TD es una combinaci on de las ideas de Monte Carlo y las ideas de programaci on c todos de TD din amica (DP). Al igual que los m etodos de Monte Carlo, los mA pueden aprender directamente de la experiencia en bruto sin un modelo de la din amica del entorno. Al igual que la Programaci on Din amica DP, los m etodos de las actualizaciones estimadas se basan en estimaciones ya aprendidas, sin esperar a que se de un resultado nal.
4.4
Q-learning - Algoritmo de Control fuera de la Pol tica TD
importantes en el aprendizaje por refuerzo fue el deUno de los avances mAs sarrollo de un algoritmo de control fuera de la polAtica de TD conocido como Q-learning (Watkins, 1989). Su forma mAs simple se dene por: Q(st , at ) Q(st , at ) + [rt+1 + maxQ(st+1 , at ) Q(st , at )] En este caso la funci on de acci on-valor aprendido Q se aproxima directamente a Q*, que vendr a a ser la funci on de acci on-valor optima y la cual es independiente de la pol tica seguida. Mientra que la pol tica seguir a teniendo un efecto que determinar a cual de los pares estado-acci on es visitado o actualizado.
Figure 2: Q-learning
12
4.5
M etodos Actor-Critic
Son los m etodos de TD que tienen una estructura de memoria independiente para representar expl citamente la pol tica independiente de la funci on de valor. El actor es la estructura de la pol tica porque es usada para seleccionar a las acciones y el cr tico es la funci on de valor estimado, ya que es el que critica las acciones realizadas por el actor; el cr tico debe aprender acerca de la pol tica y tambi en debe criticar cualquier pol tica siendo esta seguida por el actor.
Figure 3: La arquitectura de el m etodo Actor-Critic Por lo general, el cr tico es una funci on de estado-valor. Despu es de cada selecci on de la acci on, el cr tico eval ua el nuevo estado para determinar si las cosas han ido mejor o peor de lo esperado. a esta evaluaci on se le denomina error TD y se obtiene de la siguiente manera: t = rt+1 + V (st+1 ) V (st ) donde V vendr a a ser la funci on valor de actual implementada por el cr tico. Se requiere un m nimo de computaci on con el n de seleccionar acciones. Los actores pueden aprender de forma expl cita una pol tica estoc astica, es decir, que puedan aprender las probabilidades optimas de selecci on de diversas acciones.
13
Figure 4: Sistema de un m etodo Actor-Critic siguiendo un aprendizaje por reforzamiento
5 6
Implementaci on Propuesta
Los porcentajes de conabilidad que plantean las diferentes t ecnicas que se usan en estad sticas nancieras para que un empresario pueda descidir invertir o no en la bolsa de valores no son tan buenos, es por eso ellos optan por sus conocimientos y experiencia en el campo para disminuir los riesgos Una ves optenidos los datos procesados y transformados en una miner a de series temporales, usaremos una red neuronal para aumentar la conabilidad de los datos y disminuir el porcentaje de riesgos que puede tener un empresario al tomar una desici on de inversi on en la bolsa de valores.
14
References
[1] U. M. Fayyad, G. Piatetski-Shapiro, and P. Smith From data mining to knowledge discovery. AAAI-MIT Press, 1996. [2] T. H. Cormen and C. E. Leiserson. Introduction to algorithms. The MIT Press, 2003. [3] H. V. Jagadish. A retrieval technique for similar shapes. ACM SIGMO Symp, on the Management of Data, 1991. [4] A. Matus-Castillejos and R. Jentzsch. A time series data management framework. IEEE Proceedings of the International Conference on Information Technology: Coding and Computing, 2005. [5] R. Hippenstiel, H. El-Kishky, and P. Radev. On time-series analysis and signal classication. IEEE Conference Record of the 38th Asilomar Conference on Signals, Systems and Computers, 2004. [6] Rafael de Arce. Introducci on a los Modelos Autoregresivos con Heterocedasticidad condicional(ARCH). Programa de Doctorado en Modelizaci on Econ omica del Instituto LR Klein diciembre de 1998. http://www.uam.es/otroscentros/klein/doctras/doctra9806.pdf [7] Fabian Moerchen Algorithms For Time Series Knowledge Mining. HansMeerwein-Str., Marburg, Germany, Databionic Research Group [8] Hyong-Jun Kim, Seong-Min Yoon, Hwan-Gue Cho Capability and Limitation of Financial Time-Series Data. Prediction using Symbol String Quantization International Conference on Convergence and Hybrid Information Technology, 2009. [9] Jessica Lin Eamonn Keogh Stefano Lonardi Jerey P. Lankford Donna M. Nystrom Visually Mining and Monitoring Massive Time Series. Computer Science & Engineering Department University of California, Riverside [10] Bera, A. K. y M.L. Higgins A Ssurvey of ARCH models: properties, estimation and testing. Journal of economics surveys, num 7, 1993 [11] Marta Casas Monsegny, Edilberto Cepeda Cuervo MODELOS ARCH, GARCH Y EGARCH: APLICACIONES A SERIES FINANCIERAS. [12] De Arce, Rafael Introducci on a los modelos autoregresivos con heterocedasticidad condicional (ARCH).. I. L. Klein, diciembre de 1998 [13] De John Moody and Matthew Saell Learning to Trade via Direct Reinforcement.. IEEE TRANSACTIONS ON NEURAL NETWORKS, 2001 rg Rieskamp Reinforcement Learning in Repeated [14] De Linan Diao y JA Portfolio Decisions.. The JENA ECONOMIC RESEARCH PAPERS ISSN 1864-7057, 2011 [15] De Stelios D.Bekiros Heterogeneous trading strategies with adaptive fuzzy Actor - Critic reinforcement learning: A behavioral approach .. Journal of Economic Dynamics & Control , 2010 15
[16] De Erich Kutschinski, Thomas Uthmann, Daniel Polani Learning competitive pricing strategies by multi-agent reinforcement learning.. Journal of Economic Dynamics & Control , 2003 [17] De TetsuyaShimokawa, KyokoSuzuki , TadanobuMisawa , YoshitakaOkano Predicting investment behavior: An augmented reinforcement learning model.. Neurocomputing , 2009
16

Toma de Decisiones en Eventos Temporales Utilizando Aprendizaje Por Reforzamiento

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Toma de Decisiones en Eventos Temporales Utilizando Aprendizaje Por Reforzamiento

Cargado por

Copyright:

Formatos disponibles

Toma de decisiones en eventos temporales utilizando aprendizaje por reforzamiento

Inteligencia Articial y la Toma de Decisiones

Inteligencia Articial Distribuida

Sistemas de Decisi on Multi-Agente SDMA

Predicci on basada en m etodos no lineales

Modelado de Series Temporales

Toma de decisiones en eventos temporales utilizando aprendizaje por refuerzo

Figure 1: La interacci on entre el agente y el medio ambiente en el aprendizaje por refuerzo

Procesos de Decisi on de Markov - MDP

Aprendizaje por Diferencia Temporal o TD - learning

Q-learning - Algoritmo de Control fuera de la Pol tica TD

Figure 4: Sistema de un m etodo Actor-Critic siguiendo un aprendizaje por reforzamiento

También podría gustarte