Pronosticos en El Mercado de Derivados Utilizando Redes Neuronales y Modelos ARIMA PDF

Pronsticos en el mercado de derivados utilizando redes neuronales y modelos ARIMA: una aplicacin al Cete de 91 das en el MexDer.
Ivn Cruz Torres Facultad de Contadura y Administracin de la Universidad Nacional Autnoma de Mxico
Pronsticos en el mercado de derivados utilizando redes neuronales y modelos ARIMA: una aplicacin al Cete de 91 das en el MexDer
ndice
ndice . i ndice de tablas y figuras ..... iv Resumen ..... vi Introduccin ....... vii a. Planteamiento del problema ................................................................................. vii b. Hiptesis ...... viii c. Objetivos ... ix c.1 Objetivo general ... ix c.2 Objetivos especficos ...... ix d. Justificacin .. ix e. Tipo de investigacin ....... x f. Breve contenido de la tesis ...... x
Parte I. Marco Terico. Series de tiempo y redes neuronales 1 Captulo 1. Series de tiempo .... 2 1.1 Generalidades ........ 2 1.2 Algunos conceptos de las series de tiempo ...... 4 1.2.1 Proceso estocstico ..... 4 1.2.2 Proceso estacionario..... 4 1.2.3 Proceso puramente aleatorio ...... 4 1.2.4 Caminata aleatoria ....... 4 1.2.5 Procesos estocsticos integrados .. 5 1.2.6 Prueba de raz unitaria ........ 5 1.3 Modelos ARIMA ..... 6 1.3.1 Proceso autorregresivo (AR) ...... 6 1.3.2 Proceso de media mvil (MA) ..... 6 1.3.3 Proceso autorregresivo y de media mvil (ARMA) ..... 7 1.4 Caracterizacin de las series de tiempo: funcin de autocorrelacin ... 7 1.4.1 Funcin de autocorrelacin ..... 7 1.4.2 Funcin de autocorrelacin parcial .... 8 1.5 Propiedades de las series de tiempo financieras ..... 9 1.5.1 Hiptesis de los mercados eficientes .... 9 1.6 Datos usados en la prediccin de series de tiempo financieras .. 10 1.6.1 Datos tcnicos. .... 10
1.6.2 Datos fundamentales ..... 11 1.7 Suavizamiento de series de tiempo .. 13 1.8 Mtodos clsicos para el tratamiento de series de tiempo financieras ... 14
Captulo 2. Redes neuronales ... 16 2.1 Generalidades ...... 16 2.2 Teora y operacin ...... 17 2.3 Modelo General de una Neurona Artificial .. 18 2.4 Neurodinmica ..... 20 2.4.1 Entradas ... 20 2.4.2 Salidas ...... 20 2.4.3 Regla de propagacin .... 21 2.4.4 Funcin de activacin o funcin de transferencia .. 22 2.4.5 Funcin de salida .... 23 2.5 Modelo estndar de una neurona artificial ... 24 2.5.1 Neuronas todo-nada ...... 25 2.5.2 Neurona continua sigmoidea .... 25 2.6 Arquitecturas de redes neuronales ... 26 2.6.1 Redes Neuronales de dos capas. .... 27 2.6.2 Redes Neuronales multicapa. ...... 29 2.6.3 Una definicin formal de red neuronal .... 32 2.6.4 Actualizacin del estado de las neuronas ... 33 2.7 Modos de operacin de una red neuronal ... 34 2.7.1 Modo de aprendizaje .. 34 2.7.1.1 Aprendizaje supervisado ... 36 2.7.1.2 Aprendizaje no supervisado ..... 36 2.7.1.3 Aprendizaje hbrido 37 2.7.1.4 Aprendizaje reforzado ... 37 2.7.2 Algoritmo de retropropagacin .. 37 2.7.3 Fase de recuerdo o ejecucin ... 39 2.8 Clasificacin de los modelos neuronales ..... 40 2.9 Desarrollo de un modelo RNA ... 41 2.9.1 Seleccin del algoritmo de aprendizaje ... 41 2.9.2 Seleccin de las funciones de error y transferencia .. 42 2.9.2.1 Funciones de error ..... 42 2.9.2.2 Funciones de transferencia .. 42 2.9.3 Aspectos importantes en la prediccin con RNA ... 44
Captulo 3. Redes neuronales aplicadas a las series de tiempo financieras . 46 3.1 Generalidades ...... 46 3.2 Sistemas tradicionales .... 47 3.3 RNA como modelo no lineal ... 48
ii
3.4 Modelos paramtricos y no paramtricos 49 3.5 Modelos auto regresivos no lineales . 49 3.6 Modelos de promedio mvil ... 51 3.7 Algunas aplicaciones de redes neuronales a las series de tiempo . 53
Parte II. Desarrollo y aplicacin del modelo propuesto. Comparacin con la metodologa ARIMA. 55 Captulo 4. Metodologa para pronsticos mediante modelos ARIMA y RNA ... 56 4.1 Metodologa para pronsticos mediante modelos ARIMA .... 56 4.1.1 Anlisis exploratorio de la serie .... 56 4.1.2 Identificacin del modelo ....... 56 4.1.3 Estimacin de parmetros . 56 4.1.4 Verificacin de diagnstico .... 57 4.1.5 Pronstico ........ 57 4.2 Metodologa para prediccin mediante RNA ... 57 4.2.1 Seleccin de variables ...... 57 4.2.2 Coleccin de datos . 58 4.2.3 Pre procesamiento de datos ..... 58 4.2.4 Conjuntos de entrenamiento y prueba . 59 4.2.5 Paradigmas de las RNA ... 59 4.2.5.1 Nmero de capas ocultas ..... 59 4.2.5.2 Nmero de neuronas ocultas ... 60 4.2.5.3 Nmero de neuronas de salida .... 61 4.2.5.4 Funcin de transferencia .. 61 4.2.6 Criterio de evaluacin . 61 4.2.7 Entrenamiento de la red . 61 4.2.7.1 Nmero de iteraciones de entrenamiento .. 61 4.2.7.2 Tasa de aprendizaje y momento . 62 4.2.8 Implementacin .. 63
Captulo 5. Desarrollo y anlisis de resultados ... 64 5.1 Datos .. 64 5.2 Obtencin del modelo ARIMA para la serie MexDer Cete Dc08 . 64 5.2.1 Anlisis exploratorio de la serie 65 5.2.2 Identificacin del modelo 69 5.2.3 Verificacin de diagnstico 71 5.2.3.1 Contraste de validez del modelo . 72 5.2.4 Pronstico . 73 5.3 Obtencin del modelo RNA para la serie MexDer Cete Dc08 .. 74 5.3.1 Seleccin de variables ... 74 5.3.2 Coleccin de datos . 74 5.3.3 Pre-procesamiento de datos . 75
iii
5.3.4 Conjuntos de entrenamiento y prueba .... 76 5.3.5 Paradigma de la RNA . 76 5.3.5.1 Topologa de la red .... 76 5.3.5.2 Determinacin de las entradas .... 77 5.3.5.3 Nmero de neuronas en la capa oculta y entrenamiento 77 5.3.5.4 Algoritmo de entrenamiento ..... 78 5.3.5.5 Seleccin de pesos iniciales .... 78 5.3.6 Criterio de evaluacin . 78 5.3.7 Implementacin ... 79 5.4 Resultados obtenidos .. 81 5.4.1 Resultados obtenidos por medio del modelo ARIMA ... 81 5.4.2 Resultados obtenidos por medio del modelo RNA..... 82 5.4.3 Caractersticas de las series pronosticadas por ARIMA y RNA .. 82 5.5 Pruebas de hiptesis ... 84 5.5.1 Descripcin de variables .... 84 5.5.2 Pruebas de hiptesis especficas de los modelos dentro de muestra ... 84 5.5.2.1 Coeficiente de determinacin ... 84 5.5.2.2 Criterio de informacin de Akaike 85 5.5.2.3 Criterio de informacin de Schwarz .... 86 5.5.3 Pruebas de hiptesis especficas de los modelos fuera de muestra .. 87 5.5.3.1 Raz del Error Cuadrtico Medio . 87 5.5.3.2 Error Medio Absoluto Porcentual . 88 5.5.3.3 Coeficiente de desigualdad de Theil ... 89
Captulo 6. Conclusiones y propuestas para futuras investigaciones . 90
Captulo 7. Referencias ... 92
Apndices ... 100 Apndice A Equivalencias entre la literatura estadstica y la literatura RNA .. 100 Apndice B Datos de cierre del futuro del Cete CT91D-dc08 en el MexDer .. 101
ndice de tablas y figuras ..... iv
Tabla 1.1 Tabla 2.1 Tabla 5.1 Tabla 5.2 Tabla 5.3 Tabla 5.4
Patrones tericos de FAC y FACP ...... 8 Aspectos generales del trabajo con RNA en predicciones . 44 Pesos entre la capa de entrada y la capa oculta de la RNA estimada . 80 Pesos entre la capa oculta y la capa de salida de la RNA estimada 80 Caractersticas de la series pronosticadas del Cete en el MexDer .. 83 Caractersticas de la series pronosticadas del Cete, primeros 60 das ... 84
iv
Figura 2.1 Modelo de una neurona artificial ....... 19 Figura 2.2 Funciones de activacin comunes .... 23 Figura 2.3 Interaccin entre una neurona presinptica y otra postsinptica . 26 Figura 2.4 Red neuronal de dos capas ... 29 Figura 2.5 Red neuronal multicapa .. 30 Figura 2.6 Ejemplo para demostrar las ventajas de las capas ocultas .. 31 Figura 2.7 Efecto del sobreentrenamiento .. 35 Figura 2.8 Clasificacin de modelos de RNA por tipo de aprendizaje y arquitectura .. 41 Figura 2.9 Comparacin de las funciones de transferencia sigmoidea . 43 Figura 2.10 Esquema de trabajo con RNA . 45 Figura 3.1 Red neuronal unidireccional como modelo AR no lineal ... 51 Figura 3.2 Red neuronal conformando un modelo ARMA no lineal ... 52 Figura 4.1 Grficas del comportamiento de los errores en una RNA .... 62 Figura 5.1 Grfica del Cete Dc08 en el MexDer 65 Figura 5.2 Grfica de la serie del rendimiento logartmico (RCT) ... 66 Figura 5.3 Correlograma de la serie del futuro del Cete suavizada en niveles .... 68 Figura 5.4 Correlograma de la serie RCT ... 70 Figura 5.5 Grfica de los residuos de la serie RCT .. 72 Figura 5.6 Pronstico realizado mediante el modelo ARIMA sobre la serie RCT 73 Figura 5.7 Arquitectura de la RNA que proporciona los mejores resultados . 79 Figura 5.8 Pronstico realizado mediante el modelo RNA sobre la serie RCT .... 80 Figura 5.9 Pronstico realizado mediante el modelo ARIMA en niveles ... 81 Figura 5.10 Pronstico realizado mediante el modelo RNA en niveles ..... 82 Figura 5.11 Comparacin entre pronsticos mediante ARIMA y RNA en niveles ... 83
Resumen
El objetivo de esta tesis es proponer un modelo que permita pronosticar la tendencia de la serie del futuro del Cete de 91 das en el MexDer con vencimiento en diciembre de 2008, aplicando redes neuronales y series de tiempo, y comparar los pronsticos obtenidos de esta forma con los que se obtendra con un modelo ARIMA tradicional, con el fin de conocer que modelo ajusta mejor los datos dentro de muestra y que modelo pronostica mejor los datos fuera de muestra. La principal aportacin es demostrar que el modelo propuesto basado en redes neuronales es capaz de obtener buenas aproximaciones tanto en el ajuste como en el pronstico, adems de observar que, en este caso en particular, la aproximacin resulta mejor que la generada por medio de la metodologa ARIMA. As tambin, la tesis contiene una propuesta metodolgica para la aplicacin de las redes neuronales a las series de tiempo financieras. Este trabajo se divide en dos partes: Parte I, Marco terico. Series de tiempo y redes neuronales, en donde se establecen las bases tericas para el desarrollo de la tesis. Parte II. Desarrollo y aplicacin del modelo propuesto y, comparacin con la metodologa ARIMA, en la cual se muestran las hiptesis de la investigacin, su desarrollo y los resultados obtenidos, a partir de los cuales se presentan las conclusiones y algunas propuestas para futuras investigaciones.
vi
Introduccin
La importancia de saber el comportamiento de determinado activo financiero o instrumento derivado en un futuro permite tomar previsiones para evitar tomar riesgos innecesarios o tener la oportunidad de obtener mayores beneficios que la mayora de las personas no puede aprovechar. Las tcnicas de pronstico de series de tiempo por los mtodos estadsticos tradicionales permiten llevar a cabo esta labor como, por ejemplo, por medio de la metodologa Box-Jenkins, la cual permite obtener buenas aproximaciones en el caso de que dicho mtodo sea bien aplicado, ya que sta metodologa tiene una parte de arte en el sentido de que el proceso es iterativo hasta alcanzar el mejor modelo de acuerdo a la experiencia del investigador. Existen en general, dos grupos de modelos propuestos para pronosticar series de tiempo aplicadas a las finanzas, por un lado, los modelos estadsticos tradicionales como los ARIMA, los modelos GARCH y mixtos, y por otro, los modelos basados en reas nuevas como la inteligencia artificial, las redes neuronales y los algoritmos genticos. Mediante el uso de redes neuronales artificiales es posible realizar predicciones sobre el comportamiento de series financieras, en este caso, para pronosticar la tendencia del futuro del Cete de 91 das en el MexDer. De acuerdo a la mayor parte de la literatura existente, se espera un mejor desempeo de las RNA en comparacin con un modelo ARIMA utilizado como referencia, ya que las redes neuronales son capaces de identificar relaciones no lineales, las cuales, como se ha demostrado en algunos estudios, existen en los mercados financieros. Resulta muy recomendable tambin, saber cules son las virtudes de cada una de las tcnicas disponibles, por lo que en este trabajo se presentan las fortalezas y debilidades del modelo que emplea RNA como instrumento de prediccin aplicado a series de tiempo financieras.
a. Planteamiento del problema La prediccin de series de tiempo financieras ha adquirido gran atencin dentro de las investigaciones empricas, tanto que los econometristas han empezado a dedicar mayores esfuerzos a este tipo de informacin, tal y como se demuestra con el nmero de artculos publicados en la materia.
vii
Una de las tcnicas estadsticas tradicionales empleadas frecuentemente en el pronstico de series de tiempo es la metodologa Box-Jenkins, la cual permite obtener buenas aproximaciones cuando se aplica a series de tiempo estacionarias o que pueden convertirse en estacionarias mediante la transformacin o transformaciones adecuadas. Hasta ahora no se tiene conocimiento de la aplicacin de un modelo similar al mercado mexicano de derivados desde un enfoque de series de tiempo, las propuestas en trabajos de tesis se han enfocado al aprendizaje de las redes utilizando las variables de entrada con las cuales se calculara el valor de una opcin, por ejemplo, por medio de la frmula Black y Scholes (Prez, 1998), por lo que esta tesis pretende determinar la factibilidad de emplear redes neuronales en la prediccin de la serie del futuro del Cete en el MexDer. La pregunta general es: Es posible generar un modelo basado en redes neuronales capaz de ajustar y predecir la tendencia de los datos de la serie de tiempo del futuro del Cete en el MexDer, as como mejorar los resultados obtenidos por medio de un modelo ARIMA utilizado como referencia? A partir de la cual se plantean las siguientes preguntas especficas: El modelo propuesto basado en redes neuronales ajusta mejor los datos dentro de muestra que el modelo ARIMA usado como referencia? El modelo propuesto basado en redes neuronales pronostica mejor los datos fuera de muestra que el modelo ARIMA usado como referencia?
b. Hiptesis Hiptesis general: Un modelo basado en redes neuronales es capaz de ajustar y predecir la tendencia de los datos de la serie de tiempo del futuro del Cete en el MexDer, as como tambin mejorar los resultados obtenidos por medio de un modelo ARIMA utilizado como referencia. A partir de la cual se plantean las siguientes hiptesis especficas: El modelo propuesto basado en redes neuronales ajusta mejor los datos dentro de muestra que el modelo ARIMA usado como referencia. El modelo propuesto basado en redes neuronales pronostica mejor los datos fuera de muestra que el modelo ARIMA usado como referencia.
viii
c. Objetivos c.1 Objetivo general: Desarrollar un modelo basado en redes neuronales es capaz de ajustar y predecir la tendencia de los datos de la serie de tiempo del futuro del Cete en el MexDer, as como tambin realizar un anlisis comparativo con un modelo ARIMA utilizado como referencia para determinar que modelo proporciona los mejores resultados. c.2 Objetivos especficos: Determinar si el modelo propuesto basado en redes neuronales ajusta mejor los datos dentro de muestra que el modelo ARIMA usado como referencia por medio de criterios estadsticos. Determinar si el modelo propuesto basado en redes neuronales pronostica mejor los datos fuera de muestra que el modelo ARIMA usado como referencia por medio de criterios estadsticos.
d. Justificacin La intencin de esta tesis es mostrar la capacidad de las RNA de realizar pronsticos en series de tiempo financieras, en particular sobre la serie del futuro del Cete en el MexDer, como una herramienta alterna a las tcnicas estadsticas tradicionales como la metodologa ARIMA, adems de explicar de manera clara y sencilla -pero sin perder de vista la rigurosidad matemtica que involucran este tipo de temas-, el funcionamiento de una RNA. El estudio propuesto no est diseado para aquellas personas o empresas que se dedican de manera profesional a la inversin de valores, sino para aquellos inversionistas inquietos que deseen intentar una nueva forma de valuar instrumentos financieros con mayor precisin y poder subsanar de este modo la desventaja que presenta el no contar con todo un equipo de expertos en finanzas para poder determinar si el precio de determinado instrumento es el adecuado o no, basado en tecnologas que han demostrado su efectividad en otras disciplinas y que ahora se aplican a un sistema aparentemente catico, pero a la vez con cierto orden como lo es el mercado de derivados. Existen pocos estudios realizados por medio de redes neuronales relacionados al presente, y los que existen son aplicados sobre todo a mercados de pases desarrollados, por lo que se pretende que este estudio pueda aplicarse a distintas series de tiempo existentes en el MexDer, incrementando con ello el abanico de
ix
posibilidades que cualquier persona debe poseer para poder tomar las mejores decisiones. Es por esta razn que esta investigacin se considera novedosa. Por todo lo anterior, existe la necesidad de desarrollar un marco conceptual que permita fundamentar la propuesta metodolgica de la presente tesis, y elaborar una investigacin emprica con el fin de comprobar las hiptesis planteadas.
e. Tipo de investigacin Dado que no es posible realizar la manipulacin de los datos de manera arbitraria en cuanto a sus valores, puesto que stos son fijos dado que son los precios histricos de la serie de tiempo del futuro del Cete en el MexDer, este estudio no es experimental. Adems, como el objeto de estudio es una serie de tiempo, el anlisis ser en consecuencia longitudinal. Inherentemente este estudio es diacrnico puesto que se usan los datos histricos, mismos que se emplean para predecir los valores de la serie en el tiempo t+1. Los datos considerados son los precios histricos del futuro de la serie del Cete a 91 das que cotiza en el MexDer, debido a que se quiere mostrar la aplicacin de las redes neuronales artificiales al mercado mexicano. Se consideran los precios dentro del periodo del 1 de noviembre de 2002 al 12 de abril de 2007. Se pasar entonces por la etapa correlacional, donde se explicar la relacin de las diversas variables involucradas en la investigacin para finalmente emitir conclusiones con respecto a la mejor tcnica para realizar ajustes y predicciones dentro y fuera de muestra respectivamente, as como la complejidad, ventajas y limitaciones de la metodologa propuesta.
f. Breve contenido de la tesis La tesis comienza con una introduccin en donde se presenta un panorama general del tema, se plantea el problema, se proponen hiptesis, se dan a conocer los objetivos, se justifica la investigacin, se establece el tipo de investigacin y se describe brevemente su contenido. La tesis se divide en dos partes principales: la primera trata acerca de las bases tericas de las series de tiempo y de las redes neuronales, y la segunda parte utiliza el marco terico para desarrollar los modelos ARIMA y RNA en el ajuste y prediccin de series de tiempo financieras. Parte I. Marco terico. Series de tiempo y redes neuronales, en la cual se establecen las bases tericas para el desarrollo de la investigacin, presentando los aspectos relevantes de dichos temas, sus propiedades, aplicaciones, utilidad, complejidad y su poderoso alcance en el rea de las finanzas. En el primer captulo se revisan los conceptos de las series de tiempo, procesos estocsticos, estacionarios, modelos ARIMA, funciones de auto correlacin, tipos de
datos empleados en pronsticos, y mtodos clsicos para el tratamiento de series financieras. El segundo captulo incluye la teora y operacin de las redes neuronales, as como el modelo general, la arquitectura, los modos de operacin, la clasificacin de los modelos y los pasos generales en el desarrollo de un modelo con RNA. El tercer captulo relaciona los primeros dos captulos por medio de la revisin de la literatura en la cual las redes neuronales son aplicadas al pronstico de series de tiempo financieras, incluyendo el estudio de los sistemas tradicionales, los modelos lineales y no lineales, los paramtricos y no paramtricos, los modelos autorregresivos no lineales, que sern la base del modelo propuesto con RNA, as como la descripcin de algunas aplicaciones seleccionadas de las RNA a las finanzas. Parte II. Desarrollo y aplicacin del modelo propuesto. Comparacin con la metodologa ARIMA. En esta parte se aplica tanto la metodologa ARIMA como la de RNA, se realiza un estudio comparativo de los resultados obtenidos y se emiten las conclusiones respectivas as como tambin algunas propuestas para investigaciones futuras. El captulo cuarto trata acerca de la metodologa para pronsticos mediante modelos ARIMA y RNA, en donde se explica a detalle la metodologa a seguir para realizar pronsticos mediante modelos ARIMA, como son, el anlisis exploratorio de la series, la identificacin del modelo, la estimacin de parmetros, la verificacin de diagnstico as como el pronostico respectivo. Tambin se proporciona la metodologa para prediccin mediante RNA, la cual incluye, la seleccin de variables, la coleccin de datos, el preprocesamiento de datos, los conjuntos de entrenamiento y prueba, los paradigmas de las RNA, el criterio de evaluacin, el entrenamiento de la red y la implementacin respectiva. En el captulo quinto se realiza el desarrollo y el anlisis de resultados, abarcando la descripcin de los datos, la obtencin del modelo ARIMA, la obtencin del modelo RNA, los resultados obtenidos y las pruebas de hiptesis especficas planteadas al inicio de la tesis. En el captulo sexto se presentan las conclusiones obtenidas a travs del desarrollo de la tesis, as como algunas propuestas para el desarrollo de futuras investigaciones afines al tema. Finalmente se proporciona la bibliografa empleada as como los apndices referidos en el texto y la base de datos utilizada.
xi
Captulo 1: Series de tiempo
Parte I. Marco terico Series de tiempo y redes neuronales
En esta parte se establecen las bases tericas para el desarrollo de la tesis, incluyendo tambin la revisin de la literatura relacionada con la aplicacin de las RNA en la prediccin de series de tiempo financieras.
Captulo 1 Series de tiempo
1.1 Generalidades Una serie de tiempo es una secuencia cronolgica de observaciones de una variable en particular (Bowerman y OConnel, 1993). En trminos formales, una serie de tiempo se define como una secuencia de vectores, dependientes del tiempo transcurrido t:
x(t )
donde t = 0, 1, 2, Tericamente, x se puede ver como una funcin continua de la variable de tiempo t. Sin embargo, para cuestiones prcticas, el tiempo generalmente se ve en trminos de pasos de tiempo discretos, conduciendo a una instancia de x en cada punto de un intervalo de tiempo, generalmente de tamao fijo (Dorffner, 1996). De acuerdo a Chatfield (1978), son varios los objetivos por los cuales se desea analizar una serie de tiempo: Descripcin: Al tener una serie de tiempo, el primer paso en el anlisis es graficar los datos y obtener medidas descriptivas simples de las propiedades principales de la serie. Explicacin: Cuando las observaciones son tomadas sobre dos o ms variables, es posible usar la variacin en una serie para explicar la variacin en las otras series. Prediccin: Dada una serie de tiempo se intenta predecir los valores futuros de la serie. Este es el objetivo ms frecuente en el anlisis de series de tiempo. Control: Si una serie de tiempo se genera por mediciones de calidad de un proceso, el objetivo del anlisis puede ser el control del proceso.
Una serie de tiempo generalmente se examina con la intencin de descubrir patrones histricos que puedan ser tiles en la prediccin. Para identificar esos patrones es conveniente pensar que una serie de tiempo consiste de varios componentes:
Tendencia. Una serie de tiempo tiene tendencia cuando por largos periodos los valores crecen o disminuyen consistentemente. Tambin puede definirse como cambios en la media. Ciclos. Se refiere a movimientos hacia arriba o hacia abajo alrededor del nivel de la tendencia. Estas fluctuaciones, medidas de pico a pico, pueden tener una duracin larga. Variaciones estacionales. Son patrones histricos que ocurren y se repiten cada determinado tiempo, por ejemplo, anualmente. Estas variaciones son causadas tpicamente por factores como el clima y las costumbres. Fluctuaciones irregulares. Son movimientos irregulares en una serie de tiempo que no siguen un patrn regular, ni reconocible. Tales movimientos representan lo que queda en una serie de tiempo despus de que la tendencia, ciclos y variaciones estacionales han sido explicados.
Pueden obtenerse valores futuros de una serie de tiempo observada mediante una gran cantidad de mtodos de prediccin. Estos mtodos pueden clasificarse fundamentalmente en tres grupos: Subjetivos. Las predicciones se hacen sobre bases subjetivas usando el criterio, la intuicin, el conocimiento en el rea y otra informacin relevante. Entre estos mtodos se encuentran: Ajuste de una curva subjetiva, el mtodo Delphi 1 y comparaciones tecnolgicas en tiempo independiente. Univariados. Con este tipo de mtodo se obtienen valores futuros de la serie basndose en el anlisis de sus valores pasados, se intenta conseguir un patrn en estos datos, se asume que este patrn continuar en el futuro y se extrapola para conseguir predicciones. Son muchos los mtodos que encajan en esta categora, entre estos se encuentran: Extrapolacin de curvas de tendencia, suavizacin exponencial, mtodo de Holt-Winters 2 y mtodo de Box-Jenkins (ARIMA). Este ltimo es un mtodo ampliamente utilizado. Causales o multivariados. Involucra la identificacin de otras variables que estn relacionadas con la variable a predecir. Una vez que esas variables han sido identificadas, se desarrolla un modelo estadstico que describe la relacin entre esas variables y la variable a pronosticar. Entre estos mtodos
El mtodo Delphi pretende extraer y maximizar las ventajas que presentan los mtodos basados en grupos de expertos y minimizar sus inconvenientes. Para ello se aprovecha la sinergia del debate en el grupo y se eliminan las interacciones sociales indeseables que existen dentro de todo grupo. De esta forma se espera obtener un consenso lo ms fiable posible del grupo de expertos. 2 El modelo de Holt-Winters es una ampliacin perfeccionada del suavizamiento exponencial.
se pueden identificar: Regresin mltiple, modelos economtricos y mtodos de Box y Jenkins (Modelo de funcin de transferencia 3 ).
1.2 Algunos conceptos de las series de tiempo 1.2.1 Proceso estocstico Un proceso estocstico 4 o aleatorio es una coleccin de variables aleatorias ordenadas en el tiempo. Si Y denota una variable aleatoria y continua, se denota como Y(t), pero si es discreta se expresa como Yt. 1.2.2 Proceso estacionario Un proceso estocstico es estacionario si su media y su varianza son constantes en el tiempo y si el valor de la covarianza entre dos periodos depende solamente de la distancia o rezago entre estos dos periodos de tiempo y no del tiempo en el cual se ha calculado la covarianza. En otras palabras, una serie de tiempo no estacionaria tendr una media que vara con el tiempo o una varianza que cambia con el tiempo o ambas (Gujarati, 2004). 1.2.3 Proceso puramente aleatorio Un proceso puramente aleatorio es un tipo especial de proceso estocstico que tiene una media igual a cero, una varianza constante 2 y no esta serialmente correlacionada 5 . 1.2.4 Caminata aleatoria Es una serie de tiempo estocstica en la que cada cambio sucesivo en Yt, expresado como ut es extrado en forma independiente de una distribucin de probabilidad con media 0 y varianza 2 (Pindick y Rubinfeld, 2001). Por lo tanto, Yt est determinada por: Yt = Yt-1 + ut
Este modelo es una extensin del modelo ARIMA, tambin conocido como modelo de promedio autorregresivo mvil multivariado (MARMA). 4 El trmino estocstico proviene de la raz griega stokhos que significa blanco y, hace alusin a la forma aleatoria en que se distribuyen los proyectiles lanzados contra un blanco. 5 Si tambin es independiente, dicho proceso se conoce estrictamente como ruido blanco.
1.2.5 Procesos estocsticos integrados El modelo de caminata aleatoria es un caso especfico de una clase ms general de procesos estocsticos conocidos como procesos integrados. Se puede demostrar de manera sencilla que la primera diferencia del modelo de caminata aleatoria es estacionaria. Si expresamos la caminata aleatoria como: (Yt Yt-1) = Yt = ut Resulta fcil probar que mientras Yt no es estacionaria, su primera diferencia si lo es, ya que por definicin ut tiene media constante cero y una varianza de 2. Por tanto, se llama al modelo de caminata aleatoria sin variaciones proceso integrado de orden 1 y se denota como I(1). De manera similar, si una serie de tiempo tiene que diferenciarse dos veces para hacerla estacionaria, se llamar a esa serie de tiempo integrada de orden 2 I(2). En consecuencia, para convertir una serie no estacionaria en estacionaria se toman tantas diferencias como sea necesario, y se dice que el nmero de diferencias que se requiere para alcanzar la estacionariedad es el orden de integracin de la serie. 1.2.6 Prueba de raz unitaria Es una prueba para determinar la estacionariedad o no estacionariedad de una serie de tiempo. Si se considera la siguiente serie: donde -1 1 Yt = Yt-1 + ut
Si = 1, como se demostr anteriormente, el proceso no es estacionario. De esta manera, si se realiza la regresin de Yt sobre Yt-1 y se determina que la es estadsticamente igual a 1, se concluira que Yt no es estacionaria. Ahora, al diferenciar la serie se tiene la siguiente ecuacin: Yt Yt-1 = Yt-1 Yt-1 + ut o expresndola de otra manera: Yt = Yt-1 + ut donde = - 1
Si = 0, entonces = 1 y se dice que tiene una raz unitaria, lo cual significa que la serie de tiempo bajo estudio no es estacionaria, pero al mismo tiempo Yt = ut. En consecuencia al tomar las primeras diferencias de la serie se obtiene una estacionaria. Para saber si = 0, la mayora de los estudios aplican pruebas de races unitarias introducidas por Dickey y Fuller (1979) conocidas como DF o DFA (Dickey-Fuller aumentada), las cuales vienen integradas en la mayora de los paquetes economtricos actuales.
1.3 Modelos ARIMA Box y Jenkins (1978) propusieron un modelo novedoso para la prediccin de series de tiempo. Popularmente es conocida como metodologa Box-Jenkins aunque tcnicamente se conoce como metodologa ARIMA, en la que se analizan las propiedades probabilsticas o estocsticas de las series de tiempo econmicas bajo la filosofa de permitir que la informacin hable por s misma. 1.3.1 Proceso autorregresivo (AR) En el proceso autorregresivo de orden p la observacin actual Yt es generada por un promedio ponderado de observaciones pasadas que se remontan p periodos, junto con una perturbacin aleatoria en el periodo actual. Se denota este proceso como AR(p) y la ecuacin que lo describe es:
Yt = 1Yt 1 + 2Yt 2 + ... + pYt p + + ut
Donde es un trmino constante que se relaciona con la media del proceso estocstico. Es interesante observar que el modelo anterior solamente considera los valores actuales y anteriores de Yt, no hay otros regresores. 1.3.2 Proceso de media mvil (MA) En el proceso de media mvil de orden q cada observacin Yt es generada por un promedio ponderado de perturbaciones aleatorias que se remontan q periodos. Se denota este proceso como MA(q) y su ecuacin respectiva es:
Yt = + 0ut + 1ut 1 + 2ut 2 + ... + q ut q
Donde = E(Yt).
El modelo de media mvil supone que las perturbaciones aleatorias estn distribuidas en forma independiente a lo largo del tiempo, es decir, son generadas por un proceso de ruido blanco. 1.3.3 Proceso autorregresivo y de media mvil (ARMA) Muchos procesos aleatorios estacionarios no pueden modelarse como autorregresivos puros o de medias mviles puras, ya que tienen cualidades de ambos tipos de procesos. De esta forma, se puede concebir un modelo mixto autorregresivo de media mvil de orden (p, q). Se denota este proceso como ARMA (p, q) y se representa por medio de la ecuacin:
Yt = 1Yt 1 + ... + pYt p + + ut + 1ut 1 + ... + q ut q
Adems, las series de tiempo econmicas generalmente no son estacionarias, es decir, son integradas, razn por la cual si agregamos el concepto de integracin explicado anteriormente, de manera que se tenga que diferenciar una serie de tiempo d veces para hacerla estacionaria y luego aplicar a esta el modelo ARMA(p, q) se dice que la serie de tiempo original es del tipo ARIMA(p, d, q), es decir, es una serie de tiempo autorregresiva integrada de media mvil.
1.4 Caracterizacin de las series de tiempo: funcin de autocorrelacin Existen dos funciones importantes en el anlisis de series de tiempo a partir de las cuales es posible extraer los parmetros del proceso ARMA. De acuerdo con Box y Jenkins, stas son la funcin de autocorrelacin de la muestra y la funcin de autocorrelacin parcial. La apariencia de cada una de estas funciones da una indicacin de la naturaleza del proceso bajo estudio y, en teora, la tarea de identificar el modelo y de obtener sus parmetros se puede llevar a cabo con base en ellas. 1.4.1 Funcin de autocorrelacin Dada una muestra Y0, Y1, , Yn-1 de n observaciones, la funcin de autocorrelacin muestral (FAC) de la muestra al rezago k, denotada por k, se define como:
k k = 0 1 donde:
para k = 1, ..., n - 1 para k = 0
0 es la varianza de la muestra dada por:

7
0 =
1 n 2 (Yt Y ) n t =1
k es la covarianza al rezago k definida como:
k =
1 n k (Yt Y )(Yt +k Y ) n t =1
La funcin de autocorrelacin indica cunta correlacin existe entre datos individuales contiguos en la serie Yt (Pindick, op. cit. p. 520). Conforme el valor del retraso aumenta, el nmero de observaciones comprendidas en la autocovarianza disminuye hasta el elemento final. Al graficar k frente a k, la grfica obtenida se conoce como correlograma. Cuando se grafica k se debe omitir el valor 0 el cual es invariablemente 1. Adems, al interpretar la grfica se debe tener cuidado de dar demasiada importancia a correlaciones en valores de retrasos que estn significativamente altos en relacin con el tamao de la muestra. 1.4.2 Funcin de autocorrelacin parcial La funcin de autocorrelacin parcial (FACP) de la muestra kk en el retraso k es la correlacin entre observaciones (series de tiempo) que estn separadas k periodos de tiempo, manteniendo constantes las correlaciones en los rezagos intermedios (es decir rezagos menores de k). En otras palabras, la autocorrelacin parcial es la correlacin entre Yt y Yt-k despus de eliminar el efecto de las Y intermedias. En la tabla 1.1 se dan algunos lineamientos generales acerca de los patrones tpicos de las funciones de correlaciones muestral y parcial (Gujarati, op. cit., p. 818).
Tipo de modelo AR(p) Patrn tpico de FAC Disminuye exponencialmente o con un patrn sinusoidal decreciente o ambos Picos grandes a lo largo de los q rezagos Decrece exponencialmente Patrn tpico de FACP Picos grandes a lo largo de los p rezagos Decrece exponencialmente Decrece exponencialmente
MA(q) ARMA(p, q)
Tabla 1.1 Patrones tericos de FAC y FACP
1.5 Propiedades de las series de tiempo financieras
La prediccin de series de tiempo financieras es una tarea altamente complicada debido a las siguientes razones: - Las series de tiempo financieras se comportan casi como un proceso de caminata aleatoria, impidiendo desde un punto de vista terico la prediccin (Hellstrm y Holmstrm, 1998). La prediccin de las series de tiempo ms comunes (precios de acciones, niveles de ndices) es un tema controversial y ha sido cuestionado en funcin de la hiptesis de mercados eficientes.
-
Las series de tiempo financieras estn sujetas al cambio en el tiempo, por ejemplo, las propiedades estadsticas de las series de tiempo son diferentes en distintos puntos del tiempo (el proceso de variacin en tiempo, Hellstrm y Holmstrm, ibid.). Las series de tiempo financieras son generalmente muy ruidosas, ya que existe una gran cantidad de aleatoriedad (impredecible) en las variaciones da a da (Magdon-Ismail, et. al., 1998). En el largo plazo, una nueva tcnica de prediccin llega ser parte del proceso a ser predicho, por ejemplo, se influencia el proceso en prediccin (Hellstrm y Holmstrm, op. cit.).
1.5.1 Hiptesis de los mercados eficientes La hiptesis de los mercados eficientes o HME fue desarrollada por Fama (1965) y ha encontrado una gran aceptacin en el medio financiero, Anthony y Biggs (1965), Malkiel (1987), Tsibouris (1995), White (1988), Lowe y Webb (1991) y Lawrence et. al. (1996). La hiptesis de los mercados eficientes establece que el precio actual de mercado refleja la asimilacin de toda la informacin disponible. Esto significa que dada la informacin, no se pueden hacer predicciones en cambios futuros de precios. Conforme nueva informacin entra al sistema, se descubren inmediatamente los ajustes y se eliminan rpidamente corrigiendo el precio de mercado. Dependiendo del tipo de informacin considerada, existen tres formas de HME (Hellstrm y Holmstrm, op. cit.): La forma dbil. Solamente se consideran los datos de precios pasados. Este tipo de HME elimina cualquier forma de prediccin basado en los precios solamente, porque los precios siguen una caminata aleatoria en la cual, los cambios sucesivos tienen correlacin cero.
La forma semifuerte. Se considera toda la informacin pblica disponible. Esta incluye informacin adicional como volmenes y datos fundamentales como pronsticos de utilidades y predicciones de ventas. La forma fuerte Toda la informacin disponible ya sea pblica o privada es considerada. En aos recientes, la HME lleg a ser un asunto controversial debido a varias razones. Por una parte, se mostr en algunos estudios que se pueden lograr utilidades en exceso usando slo los datos de precios histricos (Tino, et al, 2000), por otra parte es muy difcil de probar la forma fuerte debido a la falta de datos. Otro argumento razonable en contra de la HME se refiere a las diferentes perspectivas de tiempo que tienen los inversionistas cuando hacen negocios. Por ejemplo, un accionista mayoritario reaccionar de manera diferente a un vendedor de piso cuando el precio de una accin cae repentinamente. Estas perspectivas de tiempo causarn anomalas en los precios de mercado an si no entra informacin nueva al sistema. Puede ser entonces posible identificar estas situaciones y eventualmente predecir cambios futuros (Hellstrm y Holmstrm, op. cit.). De manera ms frecuente, los argumentos a favor de la HME se refieren a las pruebas estadsticas que muestran que no existe calidad predictiva en los modelos probados e indicadores tcnicos. La mayora de los argumentos en contra de la HME se refieren a un retraso en tiempo entre el punto cuando la nueva informacin entra al sistema y el punto cuando es asimilada.
1.6 Datos usados en la prediccin de series de tiempo financieras
Existen varios tipos de datos que pueden ser empleados en la prediccin de series de tiempo, los cuales generalmente son agrupados en dos categoras: datos tcnicos y datos fundamentales (Hellstrm y Holmstrm, op. cit.). 1.6.1 Datos tcnicos. Estos incluyen datos como precios de acciones, volumen, volatilidad, etc. De hecho, el trmino series de tiempo financieras usualmente se refiere a series de tiempo de datos tcnicos. Los tpicos datos tcnicos involucrados en la prediccin de series de tiempo financieros son:
-
yC: precio de cierre; ltimo precio negociado del da. yH: precio ms alto negociado durante el da
10
yL: precio ms bajo negociado durante el da V: volumen total negociado durante el da
Mientras que en la mayora de los casos se utilizan los datos diarios para modelar el comportamiento de precios de acciones, tambin estn disponibles algunos datos de negociacin intrada. Tales datos son usados en su mayora no para modelar el mercado, sino para determinar el tiempo correcto de la intencin de negociacin en una operacin real. La opcin ms comn de prediccin es la serie de tiempo que emplea precios de cierre. Esta opcin tiene algunas deficiencias, entre ellas:
-
Los precios de cierre varan grandemente y hacen difcil crear un modelo para un periodo largo de tiempo. Los precios de cierre para diferentes acciones pueden diferir grandemente sobre varias dcadas o incluso aos, y por lo tanto, no pueden ser usadas como el mismo tipo de entrada en un modelo.
En lugar de modelar precios de cierre, una buena opcin en muchos casos es usar el rendimiento como tipo de dato. 1.6.2 Datos fundamentales El anlisis del valor de una compaa se realiza usualmente por analistas de mercado profesionales de manera regular. Sus anlisis proporcionan una base para evaluar el valor real de la accin de la empresa. Los analistas fundamentales toman en consideracin los siguientes factores:
-
El estado real de la economa medida por la inflacin, la tasa de inters, el balance comercial, etc. La situacin de la industria a la cual pertenece la empresa medida por medio de:
o ndices de precios de acciones (Dow Jones, DAX, FTSE 100, S&P 500, IPC, etc) o Precios de productos relacionados como el petrleo, metales diversos y monedas. o El valor de las acciones de la competencia.
La situacin de la compaa medida por:

o La razn precio de la accin dividido entre el rendimiento por accin durante los 12 meses anteriores.
11
o Valor en libros por accin (activos netos divididos entre el nmero total de acciones) o Margen de ganancia neta o ingreso neto dividido entre las ventas totales. o Razn de deuda o deudas divididas entre el total de activos. o Pronsticos de ganancias futuras. o Pronsticos de ventas futuras.
Adems de los anteriores, existen otros tipos que son generados al transformar y combinar datos tcnicos y/o fundamentales como los siguientes: Rendimientos El rendimiento a un paso se define como el incremento relativo en el precio anterior de la serie de tiempo: R (t ) = y (t ) y (t 1) y (t 1)
El rendimiento logartmico se define como: R(t ) = log y (t ) y (t 1)
Los datos as transformados son muy similares, con cambios pequeos y usados muy frecuentemente en la prediccin de series de tiempo financieras por las siguientes razones:
-
R(t) tiene un rango relativamente constante an si se usan datos de varios aos como entradas. Los precios de y pueden variar mucho y hacer difcil la creacin de un modelo vlido para un periodo de tiempo grande. R(t) para diferentes acciones pueden ser comparadas de igual forma. Es fcil de evaluar un algoritmo de prediccin para R(t) calculando la exactitud de la prediccin del signo de R(t).
Volatilidad La volatilidad es sinnimo de la desviacin estndar de algn valor (por ejemplo el precio de una accin). La volatilidad es una medida del riesgo, pero tambin de posibilidades de ganancias. En las llamadas estrategias de negociacin deltaneutral (para contratos de opciones), la ganancia o prdida de una operacin no depende del precio, sino de la volatilidad del precio de la accin respectiva
12
(Tompkins, 1997). As, la volatilidad no slo es una medida del riesgo, sino un producto negociable. 1.7 Suavizamiento de series de tiempo Dependiendo de la serie de tiempo, algunas veces resulta necesario suavizarla para de esta manera eliminar algunas de las fluctuaciones a corto plazo ms voltiles. Dicho suavizamiento puede realizarse antes de generar un pronstico o tambin para contar con una serie de tiempo ms fcil de analizar e interpretar. Una forma sencilla de suavizar una serie es tomar un promedio mvil de periodo n. La serie Yt suavizada de esta manera queda expresada por:
1 Yt = (Yt + Yt 1 + ... + Yt n +1 ) n
Mientras ms grande sea la n, ms suave resultar la serie. Otro mtodo de suavizamiento es el exponencial, el cual hace uso del modelo de promedio mvil con ponderaciones decrecientes en forma de progresin geomtrica:
Yt = Yt + (1 )Yt 1 + (1 )2Yt 2 + ...
Donde el coeficiente puede tomar valores entre 0 y 1. La suma de los coeficientes siempre dar la unidad, ya que:
(1 ) =
s s =0
1 (1 )
=1
Por lo tanto, se necesitan menos trminos de la media mvil cuanto mayor sea el valor de . Para = 1, la media coincidir con el valor del periodo. Con un cercano a cero, las ponderaciones de los valores sern todas muy pequeas y el nmero de trminos ser mayor. La eleccin del parmetro debe ajustarse para cada serie en particular, aunque muchos programas permiten el clculo automtico del valor ptimo de , en el sentido de seleccionar aquel que minimiza el error cuadrtico medio. Algunas veces se requiere hacer una mayor suavizacin de una serie pero no dar mucho peso a los datos individuales pasados. En este caso, el uso de la ecuacin con un valor pequeo de no sera aceptable, pero en su lugar puede aplicarse un suavizamiento exponencial doble. Como su nombre lo indica, la serie suavizada inicialmente se suaviza otra vez.
13
La frmula de suavizamiento exponencial simple tambin puede modificarse incorporando cambios promedio en la tendencia (incremento o disminucin) a largo plazo de la serie. Esto fundamenta el mtodo de suavizamiento exponencial lineal con dos parmetros o tcnica de Holt-Winters.
1.8 Mtodos clsicos para el tratamiento de series de tiempo financieras
Los mtodos tradicionales de series de tiempo financieras incluyen los siguientes modelos:
-
Modelo de media.
y t = y
Por ejemplo, el valor a predecir es igual al valor de la media de la muestra de la serie de tiempo.
-
Modelo de tendencia lineal y t = + t Es equivalente a ajustar una lnea a una serie de observaciones de manera tal que los residuos sean minimizados. Modelo de caminata aleatoria y t = y t 1 + El valor estimado es equivalente al valor previo ms una diferencia aleatoria, y es aplicable a series de tiempo que no son estacionarias pero que sus primeras diferencias s lo son.
Modelo de caminata aleatoria geomtrica log( y t ) = log( y t 1 ) +

y t = y t 1e
y t y t 1(1 + ) Aplicable a series de tiempo que exhiben un crecimiento exponencial irregular, pero cuya transformacin logartmica de dicho crecimiento es ms o menos lineal y puede ser aproximada por el modelo de caminata aleatoria.
14
Modelos AR, MA, ARMA, ARIMA, ARFIMA as como modelos basados en ellos (que pueden incluir algunas transformaciones especficas que ayudan a quitar tendencias estacionarias). Modelos de la familia ARCH (ARCH, GARCH, I-GARCH, GARCH-M, etc) que son usados para modelar series de tiempo cuyas varianzas cambian en el tiempo (Gujarati, op. cit., p. 829). Modelos de valuacin de activos de capital (CAPM), utilizan el rendimiento para activos individuales o portafolios (Bodie y Merton, 2003). Modelos basados en Black y Scholes empleados para modelar precios de opciones tomando en consideracin las propiedades especficas de ellas.
15
Captulo 2: Redes neuronales
Captulo 2 Redes neuronales
2.1 Generalidades Las Redes Neuronales Artificiales (RNA) forman parte de una tecnologa de procesamiento de informacin que surge a raz de los ltimos desarrollos en software computacional aplicados al rea de inteligencia artificial. Representan una herramienta muy innovadora para simular y analizar sistemas de relaciones complejas y cambiantes. Las RNA son modelos matemticos desarrollados con base en el funcionamiento de los sistemas nerviosos biolgicos. De esta manera, se intenta contar con un sistema que imite el funcionamiento natural de las neuronas, es decir, que puedan pensar y aprender como el cerebro humano, el cual se puede ver como un conjunto interconectado de neuronas. La primera interpretacin matemtica de las redes neuronales fue realizada en 1865 cuando Mach, un fsico y filsofo austriaco, intent explicar la interaccin recproca e inhibitoria de los elementos que rodean a la retina (Peel y Wilson, 1996). Los trabajos sobre el desarrollo de modelos matemticos detallados comienzan desde hace ms de cuarenta aos, con los trabajos de McCulloch y Pitts (1943), Hebb (1949), Rosenblatt (1959), Widrow (1960) y Posch (1968), entre otros. Sin embargo, cuando se pretende analizar un conjunto de datos con relaciones complejas y condiciones adicionales, la cantidad de procesamiento requerida se eleva considerablemente, lo cual ocasion que los primeros intentos por utilizar este tipo de modelos fueran abandonados debido a la limitada capacidad de los sistemas de cmputo disponibles en la poca. Fue hasta los aos 80 cuando se retoma el inters por su empleo de forma ms generalizada. Esto debido a los avances en la potencia de clculo de las nuevas computadoras, aunado a un mayor conocimiento del funcionamiento del propio cerebro humano. As, los estudios realizados en este campo por Hopfield (1982, 1984, 1986), Rumelhart y McClelland (1986), Sejnowski y Rosemberg (1986), Feldman (1982), Grossberg (1986) y otros, permitieron el resurgimiento de esta nueva rea del conocimiento. Este nuevo inters se debi al desarrollo de algoritmos y nuevas topologas de red, nuevas tcnicas de implementacin de circuitos VLSI 6 analgicos (Mead, 1986) y algunas demostraciones intrigantes por parte de Senowski (op. cit.) y
6
Very Large Scale Integration (escala de integracin muy grande). Se refiere a una gran cantidad de circuitos elctricos que puede ser colocados en un rea muy pequea.
16
Hopfield (op. cit.), as como por la creciente fascinacin por el funcionamiento del cerebro humano.
2.2 Teora y operacin Para poder entender el funcionamiento de un sistema nervioso biolgico es necesario conocer las partes que lo componen, as como la interaccin que existe entre sus propios elementos y su relacin con el exterior. Ramn y Cajal (1899) proporciona un buen estudio e introduccin en este sentido. Tambin Berumen (1998) en su tesis de maestra realiza una completa sntesis de las redes neuronales y algunas aplicaciones a las finanzas. Lo importante del presente trabajo es el de tratar de imitar el extraordinario funcionamiento de los sistemas nerviosos por medio de redes neuronales artificiales, y aprovechar las ventajas que ofrecen en la resolucin de problemas prcticos, gracias a la capacidad innata que tienen los sistemas biolgicos de aprender a partir de ejemplos. Algo que la propia naturaleza ha logrado a lo largo de millones de aos para adaptarse al medio que lo rodea y, resolver problemas que involucran el tratamiento de informacin masiva, imprecisa y distorsionada proveniente del entorno natural. Sin embargo, dada la complejidad de los sistemas neuronales biolgicos, es necesario hacer una abstraccin de las funciones y elementos que los componen para poder emplear modelos capaces de ser implementados con la tecnologa disponible. De esta manera, y considerando a las neuronas desde un punto de vista prctico, stas pueden ser vistas como pequeos procesadores de informacin. Las cuales -haciendo una analoga con los sistemas informticos tradicionales- poseen un canal de entrada de informacin, las dendritas, un rgano de cmputo, el soma, y un canal de salida, el axn 7 . La conexin funcional entre dos neuronas para el transporte del impulso nervioso se denomina sinapsis. En relacin a la sinapsis, se mencionan dos tipos de neuronas, presinpticas (las que envan seales) y postsinpticas (las que reciben seales). La intensidad de una sinapsis no es fija, sino que puede cambiar, dependiendo de determinadas condiciones. Esta variabilidad en la intensidad de la sinapsis constituye en buena medida el aprendizaje propiamente dicho, tal y como lo postul Hebb (op. cit.), encontrndose evidencias experimentales de ello en Nieto (1989), Alkon (1989) y, Kandel y Hawkins (1992). Existen varias formas de modelar el sistema nervioso: por el establecimiento de nuevas conexiones, ruptura de otras, modelado de las intensidades sinpticas (plasticidad) o incluso mediante muerte neuronal. En especial, la modificacin de las intensidades sinpticas es el mecanismo ms empleado por los sistemas neuronales artificiales para llevar a cabo el aprendizaje.
Se trata solamente de recoger parte del funcionamiento de la neurona, ya que se sabe que su funcionamiento completo es mucho ms complejo.
17
Por medio de las redes neuronales artificiales se pretenden replicar tres caractersticas importantes de los sistemas nerviosos: el paralelismo de clculo, la memoria distribuida y la adaptabilidad. El paralelismo de clculo est relacionado con la existencia de varios elementos de clculo capaces de procesar informacin de manera simultnea -o en paralelo-, permitiendo al sistema un manejo de informacin mucho ms rpido que un sistema que ejecuta instrucciones de manera secuencial. La memoria distribuida se refiere a la posicin de las localidades de memoria que ocupa la informacin que a diferencia de las computadoras convencionales en las que ocupa posiciones de memoria bien definidas-, en las redes neuronales se encuentra definida de acuerdo a la sinapsis particular de la red. Por ltimo, la adaptabilidad se da por medio de la modificacin de las sinapsis existentes en la red y a su capacidad de aprender por medio de ejemplos o patrones tambin llamada experiencia-, para poder realizar generalizaciones a partir de ejemplos especficos y explotar esa caracterstica esencial y hasta distintiva del sistema nervioso humano. De acuerdo a lo anterior, se puede decir entonces que las redes neuronales son sistemas paralelos, distribuidos y adaptables. En un sistema neuronal biolgico, las neuronas son los elementos bsicos. Millones de neuronas se organizan en capas para formar sistemas con determinada funcionalidad, lo que en conjunto constituyen el sistema nervioso. En el caso de un sistema neuronal artificial se puede intentar copiar dicha estructura, en la cual, la neurona artificial se organiza en capas, varias capas forman una red y la red, con sus interfaces de entrada y salida constituyen un sistema neuronal completo.
2.3 Modelo General de una Neurona Artificial De acuerdo con lo establecido por el grupo PDP 8 , el funcionamiento de una neurona o procesador elemental se puede modelar por medio de una funcin (Rumelhart y McClelland, op. cit.). Por lo que la operacin de una neurona i se puede expresar de la siguiente forma:
y i (t ) = Fi (fi [ai (t 1), i (w ij , x j (t ))])
Donde: xj(t) representa el conjunto de entradas,
Parallel Distributed Processing Research Group. Es un grupo de investigacin en RNA, a quienes se atribuye en gran medida el renacimiento de las redes neuronales en la dcada de los 80. Su trabajo se public en dos volmenes considerados clsicos (Rumelhart y McClelland, 1986).
18
wij son los pesos sinpticos de la neurona i, que representan la intensidad de la relacin entre la neurona presinptica j y la neurona postsinptica i, i[wij, xj(t)] es la regla de propagacin que proporciona el valor del potencial postsinptico hi(t) = [wij, xj(t)] de la neurona i en funcin de sus pesos y entradas, fi[ai(t-1), hj(t)] es la funcin de activacin que proporciona el estado de activacin actual ai(t) = fi[ai(t-1), hj(t)] de la neurona i, en funcin de su estado anterior ai(t-1) y de su potencial postsinptico actual. Fi[ai(t)] es la funcin de salida que proporciona la salida actual yi(t) = Fi[ai(t)] de la neurona i en funcin de su estado de activacin. Una representacin grfica de lo anterior se puede ver en la figura 2.1 (Rumelhart, 1986).
Pesos sinpticos wij
Entradas xj Salida yi
hi = (wij, xj) ai = f(hi)
yi = F(ai)
Regla de propagacin
Funcin de activacin
Funcin de salida
Figura 2.1 Modelo de una neurona artificial.
De acuerdo a Nelson e Illingworth (1991), existe una infinidad de formas de organizar una red neuronal aunque, tal vez slo una docena de modelos son de uso comn. Una red neuronal se puede describir en trminos de su neurodinmica y arquitectura. La neurodinmica se refiere a las propiedades de una neurona artificial individual que consiste de lo siguiente: Combinacin de entradas
19
Produccin de salidas Tipo de funciones de transferencia (o activacin) Esquemas de pesos, v. gr. inicializacin de pesos, y algoritmos de entrenamiento.
Estas propiedades tambin pueden ser aplicadas a la red en su conjunto de un sistema bsico. La arquitectura de red o topologa define la estructura de la red e incluye las siguientes caractersticas bsicas: Tipos de interconexiones entre neuronas Nmero de neuronas Nmero de capas
2.4 Neurodinmica 2.4.1 Entradas Las variables de entrada y salida pueden ser tanto analgicas como digitales, dependiendo del modelo como de las aplicaciones. La capa de entrada de una red neuronal comnmente funciona como un regulador de las entradas, transfiriendo datos a la siguiente capa. Se puede requerir realizar un preprocesamiento para que la red slo maneje datos numricos. Esto puede involucrar el escalamiento de los datos de entrada y convertir o codificar los datos de entrada a una forma numrica que pueda ser usada por la red. 2.4.2 Salidas La capa de salida de una red neuronal funciona de una forma similar a la capa de entrada excepto que transfiere la informacin de la red al exterior. Frecuentemente se utiliza un postprocesamiento para convertir la informacin a una forma comprensible y til hacia fuera de la red. Dependiendo del tipo de salida, las neuronas reciben nombres especficos. Por ejemplo, las neuronas estndar cuya salida slo puede tomar el valor de 1 0 se conocen como tipo McCulloch-Pitts, mientras que las que toman a su salida los valores de -1 y +1 se llaman del tipo
20
Ising 9 , si puede adoptar diversos valores en la salida, v. gr. -2, -1, 0, 1, 2, se dice que se trata de una neurona tipo Potts (Mller,1990). 2.4.3 Regla de propagacin La regla de propagacin permite calcular el valor del potencial post-sinptico hi de la neurona a partir de las entradas y pesos correspondientes. La funcin ms comn es la suma ponderada de las entradas y los pesos sinpticos.
hi (t ) = w ij x j
j
Utilizando la notacin de vectores, se puede representar como el producto escalar del vector de entrada y el de pesos. hi (t ) = w T x i El peso sinptico wij se interpreta como la intensidad de la relacin entre la neurona presinptica j y la postsinptica i. Dependiendo de la entrada, si el peso es positivo y la entrada tambin positiva, se tender a excitar a la neurona postsinptica, pero si el peso es negativo se tender a inhibirla. Por lo que se habla entonces de sinapsis excitadoras (con peso positivo) o inhibidoras (con peso negativo). Una regla de propagacin no lineal es la siguiente:
hi (t ) =
j 1 j 2... jp
i j 1 j 2... jp
x j 1x j 2 ...x jp
que involucra la multiplicacin de todas las entradas de la neurona, lo cual se acerca mucho a la funcionalidad de la neurona biolgica, pero aumenta su complejidad tanto en su anlisis como en el hardware necesario para implementarla. Este tipo de neurona se denomina de orden superior o neurona sigma-pi, debido al empleo de sumas y multiplicaciones (Rumelhart, op. cit.).
Ising, debido al paralelismo con el modelo de Ising que es un modelo fsico propuesto para estudiar el comportamiento de materiales ferromagnticos. En el modelo se emplea el espn i o espn de la partcula isima, que puede tomar slo dos valores, +1 y -1.
21
Otra regla de propagacin empleada comnmente en los modelos que emplean el clculo de distancias entre vectores (como RBF, mapas de Kohonen o LVQ), es la distancia eucldea:
hi (t ) = ( x j w ij )2
2 j
la cual determina la distancia entre el vector de entradas y el de pesos. Cuando los vectores de entrada y de pesos son similares, la distancia es muy pequea, y cuando son diferentes la distancia se incrementa. 2.4.4 Funcin de activacin o funcin de transferencia Esta funcin determina el estado de activacin actual ai(t) a partir del potencial postsinptico hi(t) y del estado de activacin anterior ai(t-1)
ai (t ) = fi (ai (t 1), hi (t ))
Aunque en muchos modelos slo se considera su estado actual, la funcin se expresa como sigue:
ai (t ) = fi (hi (t ))
Existen varias funciones de activacin, algunas de las cuales se muestran en la figura 2.2 La variable x representa el potencial postsinptico, mientras que la variable y = f(x) representa el estado de activacin. La funcin identidad, la funcin escaln y la funcin lineal por intervalos son las ms sencillas. Aunque dependiendo del algoritmo de aprendizaje, algunas veces se requiere que la funcin de activacin sea derivable, las ms empleadas en este caso son las funciones del tipo sigmoideo.
22
Figura 2.2 Funciones de activacin comunes.
La funcin gaussiana tambin es ampliamente utilizada junto con reglas de propagacin que involucran el clculo del cuadrado de las distancias entre los vectores de entrada y pesos, como se mencion anteriormente. Las funciones sinusoidales tambin se emplean en los casos en los que es necesario expresar una periodicidad temporal. 2.4.5 Funcin de salida La funcin de salida determina la salida total de la neurona yi(t) en funcin de su estado de activacin actual ai(t). Frecuentemente se usa la funcin identidad y = x, de tal forma que el estado de activacin de la neurona se considera como la propia salida:
y i (t ) = Fi (ai (t )) = ai (t )
23
La funcin de salida tambin puede ser un escaln, para que la neurona dispare la salida hasta que se alcance cierto nivel de umbral.
2.5 Modelo estndar de una neurona artificial El modelo anterior es muy general, por lo que de manera prctica se emplea un modelo estndar ms sencillo. Adems, en algunas ocasiones se agrega al conjunto de pesos de la neurona un parmetro adicional i en las unidades de i, llamado umbral 10 quedando el argumento de la funcin de la siguiente manera:
w
j
ij
x j i
Lo anterior implica agregar un grado de libertad a la neurona. Para el caso de las neuronas todo-nada mencionadas ms adelante, el parmetro representar el nivel mnimo o umbral que debe alcanzar el potencial postsinptico para que la neurona se active. De esta forma, el modelo de la neurona queda:
y i (t ) = fi w ij x j i j
Para expresar el modelo de una forma ms compacta, los ndices i y j se hacen que comiencen en cero, definiendo wi0 i y x0 -1. Finalmente, el modelo se puede expresar de la siguiente manera:
y i (t ) = fi w ij x j i j
donde: xj(t) es el conjunto de entradas, wij son los pesos sinpticos,
hi (t ) = w ij x j es la regla de propagacin y
10
Tambin es conocido como sesgo y se le asigna un valor numrico de uno.
24
y i (t ) = fi (hi (t )) es la funcin de activacin que representa tanto la salida de la neurona como su estado de activacin.
Con el modelo de la neurona establecido solo es necesario especificar la forma de la funcin de activacin para caracterizarla por completo. A continuacin se muestran algunos de los modelos de neuronas ms comunes. 2.5.1 Neuronas todo-nada Tomando como referencia al modelo de la neurona estndar, considerando que las entradas son discretas, por ejemplo xi = {0, 1}, y que la funcin de activacin es el escaln H(x), definido entre 0 y 1, se tiene:
y i (t ) = H w ij x j i j
y como la funcin H(x) = 1 cuando x 0, y H(x) = 0 cuando x < 0, se tiene lo siguiente:
1, si w ij x j i yi = 0, si w ij x j < i
Por lo que, cuando el potencial de entrada supera el umbral i la neurona se activa, de lo contrario permanece inactiva. Debido a lo anterior este modelo se conoce tambin como dispositivo de umbral dada su forma de activacin. 2.5.2 Neurona continua sigmoidea Si el modelo de neurona estndar puede tener entradas tanto discretas como continuas pero la salida solamente continua, se puede emplear como funcin de activacin a la funcin sigmoidea, que es una funcin continua y diferenciable en determinado intervalo. Las dos funciones ms comunes son las siguientes:
1 , con y [0,1] 1+ e x e x ex y= x = tgh( x ), con y [-1,1] e + e x y=
El motivo de emplear funciones diferenciables es que algunas reglas de aprendizaje as lo requieren, tal como sucede con la retropropagacin BP 11 .
11
Back-propagation por sus siglas en ingls.
25
2.6 Arquitecturas de redes neuronales La arquitectura es la topologa, estructura o patrn de conexin de una red neuronal. En una RNA los nodos se conectan por medio de sinapsis, por lo que la configuracin de estas sinapsis determina el comportamiento de la red. Las conexiones sinpticas son direccionales, por lo que la informacin slo puede viajar en un solo sentido, de la neurona presinptica a la neurona postsinptica. Ver figura 2.3.
(j)
yj
xj wij (i) yi
Neurona presinptica (j)
Neurona postsinptica (i)
Figura 2.3 Interaccin entre una neurona presinptica y otra postsinptica.
Las neuronas se pueden agrupar en capas, las capas a su vez pueden agruparse en grupos neuronales o clusters. El conjunto de una o ms capas se denomina red neuronal. Existen tres tipos de capas: de entrada, salida y ocultas. La capa de entrada est compuesta por neuronas que reciben informacin proveniente del entorno. La capa de salida es la que proporciona la respuesta de la red neuronal. La capa oculta es la que no tiene relacin alguna con el exterior. Este tipo de capa agrega a la red, grados de libertad adicionales, con los cuales es posible representar diversas configuraciones y mejorar la capacidad de clculo. Las conexiones entre las neuronas pueden permitir su excitacin o inhibirla de acuerdo al peso sinptico, por lo que se define como una conexin inhibitoria a aquella que tiene un peso sinptico negativo y a una conexin excitatoria aquella con un peso sinptico positivo. Generalmente no se establece una conexin determinada desde el inicio, sino que es a travs del aprendizaje que se obtiene el valor correspondiente a su signo y magnitud.
26
Se pueden identificar dos tipos de conexiones: intra-capa e inter-capa. Las conexiones intra-capa o laterales son conexiones entre neuronas pertenecientes a una misma capa, mientras que las conexiones inter-capa tienen lugar entre neuronas de diferentes capas. Existen tambin conexiones realimentadas, e incluso con realimentacin de una neurona consigo misma. Tambin, dependiendo del flujo de datos dentro de la red, se pueden identificar dos tipos: redes unidireccionales (o feedforward) y redes recurrentes (o feedback). En las redes unidireccionales, la informacin fluye en un nico sentido, de las neuronas de entrada a las de salida. En las redes recurrentes o realimentadas la informacin puede circular en cualquier sentido entre las capas. De acuerdo a Chatterjee (2000) la RNA puede tener varias formas, debido a que las neuronas estn conectadas de formas diferentes y a que algunos de los elementos de proceso pueden realizar los clculos de manera simultnea. La habilidad de una RNA de ejecutar los procesos paralelos o serie, proviene de las caractersticas del modelo de red. A continuacin se describe la forma simple de una RNA llamada red de dos capas seguida por formas ms complejas de RNA llamadas redes multicapa 12 . 2.6.1 Redes Neuronales de dos capas La teora de redes neuronales, de acuerdo con algunos estudios como los de Tam y Kiang (1992), Altman, Marco y Varetto (1994), Medsker, Trippi y Turban (1996), estn basadas en la forma conexionista. Los modelos conexionistas 13 contienen un gran nmero de capas simples de unidades de proceso. En la red, cada unidad se interconecta con otras unidades del sistema y cada unidad realiza un conjunto de clculos predeterminados. El comportamiento colectivo de las unidades individuales y no del comportamiento individual aislado de las mismas genera el resultado de la red de procesamiento. Las relaciones entre las unidades se determinan y se modifican si se considera necesario, a travs de un proceso de aprendizaje de la interaccin entre la red y el mundo externo. La estructura ms simple de un sistema de red es a travs de una red neuronal de dos capas. Bajo un sistema de dos capas, las entradas se relacionan con las salidas sin ninguna capa oculta. Por lo tanto, la red se determina slo a travs de las funciones de entrada y de salida. Bajo estas consideraciones, la funcin de entrada se expresa como:
Hi = nij X j Si
j =1
12 13
Tambin llamadas Layered Networks Conocidos tambin como modelos de red.
27
donde: Hi representa el potencial de todas las entradas de la i-sima neurona. Xj es la entrada externa recibida en la i-sima neurona para cada j, ij representa la intensidad de la entrada externa (o peso) de Xj, Si representa el umbral de respuesta de cada neurona a cada estmulo de las entradas externas, y n representa el nmero de neuronas en la red. Si el umbral se elimina por alguna variable de entrada auxiliar o dummy (q) donde (Xq = 1) y (iq = Si), entonces la expresin general de la funcin de entrada se representa por:
H i = nij X j ;
j =1
q X j
En esta expresin, la funcin de entrada se asume que est separada de la funcin de salida. Por otra parte, si existe una retroalimentacin continua y diferenciable entre las funciones de entrada y salida, la funcin de entrada modificada se expresa como:
Ii = ijO j + i
j =1
En este caso, Ii representa la funcin de entrada, ij representa el peso de la conexin entre las neuronas i y j, mientras que i representa el sesgo o error de la neurona i. La funcin de salida representa la respuesta de la neurona al potencial de entrada. La expresin ms comn de la funcin de salida se representa por la funcin sigmoidea donde la funcin de salida sigue una distribucin logstica. La funcin se representa de la siguiente manera:
Oi = 1 1 + e Ii
Aqu Oi representa la correspondiente funcin de salida. Las redes de dos capas han probado ser tiles en una gran variedad de aplicaciones cuando se conocen los patrones especficos de los sistemas. En la figura 2.4 se puede apreciar la representacin de una red neuronal de dos capas (Chatterjee, op. cit.).
28
Figura 2.4 Red neuronal de dos capas.
2.6.2 Redes Neuronales multicapa La desventaja de un sistema de dos capas es su incapacidad de desarrollar relaciones internas. Lo anterior es especialmente til cuando los patrones no se conocen de antemano. Una red neuronal multicapa con capas ocultas tiene la habilidad de desarrollar representaciones internas y modificaciones en el sistema. Salchenberger, Cinar y Lash (1992) y, Tam y Kiang (op. cit.) observaron que una red multicapa tiene la habilidad de permitir a la red hacer generalizaciones razonables. Los nodos de la capa intermedia se caracterizan generalmente como detectores de caractersticas, lo cual combina observaciones de los renglones en caractersticas de alto orden. La forma ms comn de una red multicapa es conocida como unidireccional. En este tipo de red, se involucran tres tipos de unidades de procesamiento o funciones, llamadas funciones de entrada, funciones de salida y funciones ocultas. Las unidades de entrada estn en la capa ms baja de la red y reciben seales del medio ambiente, mientras que las unidades de salida mandan seales al medio ambiente y residen en la capa ms alta. Las unidades ocultas, por otra parte, no interactan directamente con el medio. La conectividad de una red unidireccional est determinada por el vector:
[ij = Wi j = (i1 , i 2 ,...in ),1 i k ,1 j n]

asociado con las conexiones correspondientes. Una red unidireccional con los pesos apropiados puede ser usada para modelar la relacin causal entre el conjunto de variables. Se puede cambiar el modelo a travs de aprendizaje o algoritmo de aprendizaje modificando el peso asociado con cada conexin. Los pesos apropiados se asignan para una tarea especfica permitiendo que la red aprenda su tarea a travs de un entrenamiento por medio de ejemplos. En
29
consecuencia, el algoritmo de aprendizaje busca a travs de todos los pesos para encontrar un conjunto de pesos que proporcionen el mejor ajuste. Rumelhart, Hinton y Willians (1986), Dutta y Shekbar (1998) y, Tam y Kiang (op. cit.) proponen al algoritmo de aprendizaje de retropropagacin como un predictor preciso de los modelos financieros basados en redes neuronales. Una representacin de una red neuronal multicapa se muestra en la figura 2.5 (Chatterjee, A. et al. op. cit.).
Figura 2.5. Red neuronal multicapa.
La nica diferencia entre las RNA y los modelos de regresin es la manera en que se establecen los valores para los pesos. Las RNA emplean una forma de programacin dinmica para ajustar de manera iterativa los pesos hasta que el error se minimiza, mientras que los modelos de regresin calculan los pesos usando alguna tcnica matemtica que minimiza el error cuadrtico. En una RNA sin capas ocultas o unidad de clculo simple se pueden separar los datos que caen en los lados opuestos de un hiperplano 14 (ver el panel izquierdo de la figura 2.6). Comparado con un modelo lineal, el hiperplano generado por el modelo RNA ser no lineal, de hecho tiene una gran seccin lineal pero se curva en los extremos. En este ejemplo, los modelos lineales y no lineales produciran resultados con precisiones similares, cada uno clasificara mal 4 de los 49 puntos. Si se agrega una capa oculta sencilla, entonces cada nodo en la capa oculta formar un hiperplano. Los nodos en la capa de salida de esta red con capa oculta
Hiperplano es una generalizacin del concepto de plano. En un espacio de una nica dimensin (como una recta), un hiperplano es un punto; divide una lnea en dos lneas. En un espacio bidimensional (como el plano xy), un hiperplano es una recta; divide el plano en dos mitades. En un espacio tridimensional, un hiperplano es un plano corriente; divide el espacio en dos mitades. Este concepto tambin puede ser aplicado a espacios de cuatro dimensiones y ms, donde estos objetos divisores se llaman simplemente hiperplanos.
14
30
sencilla combina los hiperplanos para crear regiones convexas abiertas o cerradas. En el panel central de la figura 2.6 se muestra un modelo de RNA con dos nodos en una capa oculta sencilla. En este ejemplo, un nodo sencillo en la capa de salida selecciona cul de los hiperplanos aplicar. La precisin en la clasificacin de este modelo con capa oculta increment a 48 de los 49 puntos. Si se usan dos capas ocultas, entonces la segunda capa oculta combina los hiperplanos de la primera capa oculta en regiones convexas, y los nodos en la capa de salida combinan las regiones convexas para formar regiones cncavas. El modelo RNA mostrado a la derecha de la figura 2.6 tendra seis nodos en la primera capa oculta y cuatro nodos en la segunda. En consecuencia, el nodo sencillo en la capa de salida seleccionar una de las cuatro regiones convexas. En este caso ya se es capaz de obtener una precisin del 100% con el modelo RNA propuesto (Coakley y Brown, 2000).
Figura 2.6. Ejemplo para demostrar las ventajas de las capas ocultas.
Las investigaciones han mostrado que con dos capas ocultas se puede aproximar un conjunto particular de funciones con una determinada precisin (Cybenko, 1988, 1989). Tambin se ha mostrado que es posible usar una capa oculta nica para aproximar una funcin continua y lograr el nivel deseado de precisin (Hectch-Nielsen, 1990). Como un modelo con una sola capa oculta es menos complejo, la mayora de los investigadores ha preferido trabajar con una sola capa oculta. Hasta ahora no han existido referencias en la literatura en donde se empleen ms de dos capas ocultas. Las redes que contienen conexiones de retroalimentacin se llaman recurrentes. Las redes recurrentes recirculan las salidas hacia las entradas. La caracterstica de recurrencia de una RNA considera de manera inherente el movimiento de un factor promedio en una serie de tiempo y supera a las redes de multicapa. Sin embargo, en la mayora de las aplicaciones de las RNA en contabilidad y finanzas slo se han empleado arquitecturas multicapa y unidireccionales.
31
2.6.3 Una definicin formal de red neuronal Por medio del empleo del concepto de matemtico de grafo 15 se puede describir la arquitectura del sistema y proporcionar la forma para representar su dinmica. Existen diferentes tipos de grafos, como los grafos dirigidos (directed) y no dirigidos (undirected). En el primer caso, las conexiones slo se realizan en un sentido, mientras que en el segundo son bidireccionales. Tambin es posible clasificarlos en grafos densos, si todos o casi todos los nodos estn conectados y en grafos dispersos, cuando hay pocas conexiones entre los nodos. Un grafo puede componerse de diferentes tipos de nodos y diferentes tipos de conexiones. Grficamente los nodos se pueden representar con crculos y las conexiones con lneas o flechas, dependiendo si son en un solo sentido o bidireccionales. Otra forma de representacin es por medio de una matriz de conexiones. En el caso de que el grafo sea no dirigido, la matriz de conexiones ser simtrica. Una forma adicional de representacin es por medio de una lista de conexiones en donde se indica la manera en que los nodos se conectan entre s. Tambin existe la posibilidad de definir matemticamente un grafo, tal y como se muestra a continuacin (Mller, op. cit.): Una red neuronal es un grafo dirigido, con las siguientes propiedades: 1. A cada nodo i se asocia una variable de estado xi, 2. A cada conexin (i, j) de los nodos i y j se asocia un peso wij . 3. A cada nodo i se asocia un umbral i. 4. Para cada nodo i se define una funcin fi(xj, wij, i), que depende de los pesos de sus conexiones, del umbral y de los estados de los nodos j a l conectados. Esta funcin proporciona el nuevo estado del nodo. Generalmente se dice que los nodos son las neuronas y las conexiones las sinapsis, por lo que es posible distinguir diferentes tipos de neuronas: 15
Una neurona de entrada es una neurona que no tiene sinapsis de entrada. Una neurona de salida es una neurona sin sinapsis de salida. Una neurona oculta es una neurona que no es ni de entrada ni de salida. Una red es unidireccional cuando no tiene bucles cerrados de conexiones.
Objeto consistente en un conjunto de nodos o vrtices, ms un conjunto de conexiones establecidas entre ellos.
32
Una red es recurrente cuando existe realimentacin en la informacin.
2.6.4 Actualizacin del estado de las neuronas Existen dos formas o dinmicas en las que las neuronas de cierta red actualizan sus estados: sncrona y asncrona. En los modelos con dinmica sncrona, los estados se actualizan en funcin de un reloj comn. Generalmente el proceso se realiza por capas, por lo que las neuronas de una misma capa se actualizan al mismo tiempo, empezando con la capa de entrada y propagndose hasta la salida. Este tipo de actualizacin es la ms empleada. Los modelos con dinmica asncrona no tienen un reloj comn, de tal manera que cada neurona se actualiza de manera independiente. En general, una dinmica asncrona involucra a neuronas de respuesta continua. sta es la dinmica que presentan los sistemas biolgicos. Si los dos tipos de dinmicas se aplican a una misma red y con un mismo patrn de entrada pueden arrojar resultados diferentes. Un claro ejemplo es el modelo de Hopfield discreto, sobre el cual pueden implementarse ambas dinmicas (Bruck, 1990). En el caso de la dinmica asncrona 16 , si la matriz de pesos de la red es simtrica, la red converge a un estado estable. Sin embargo, si a esa misma red se aplica una dinmica sncrona 17 , la red puede o no converger a un estado estable. Tambin es posible introducir una dinmica no determinista o estocstica para forzar a que la salida posea un carcter probabilstico. Por ejemplo, si consideramos neuronas de activacin sigmoidea, la salida de la neurona i ser:
y i (t + 1) = f [hi (t )] =
1 1 + e hi ( t )
que pertenece al rango [0, +1]; esta neurona es determinista. Pero si consideramos neuronas de salida discreta {0, +1}, podemos interpretar el valor proporcionado como la probabilidad de que su salida sea +1, es decir,
p[ y i (t + 1) = +1] = 1 1 + e hi ( t )
de esta manera, se ha incluido una dinmica estocstica en la operacin de la red. La estructura de neurona probabilstica y de salida discreta son empleados en modelos neuronales como el denominado mquina de Boltzmann (Hinton y Sejnowski, 1986)
16 17
Tambin llamada dinmica de Glauber. Tambin llamada dinmica de Little.
33
2.7 Modos de operacin de una red neuronal Existen principalmente dos modos de operacin en las redes neuronales: el modo de aprendizaje o entrenamiento y el modo de recuerdo o ejecucin. 2.7.1 Modo de aprendizaje El aprendizaje o entrenamiento es un proceso por medio del cual se produce un ajuste de los parmetros de la red como consecuencia de un proceso de estimulacin. La forma en que se ajustan los parmetros determina el tipo de aprendizaje de la red. Generalmente, el aprendizaje consiste en determinar el valor de los pesos sinpticos para que la red pueda funcionar de manera tal que arroje resultados con base en la informacin almacenada en su propia estructura. El entrenamiento se puede llevar a cabo por medio de dos etapas. Generalmente, en la primera etapa se modifican los pesos sinpticos por medio de la optimizacin de una funcin de error que mide la eficiencia de la red neuronal. De esta manera, si llamamos wij(t) al peso que conecta a la neurona presinptica j con la postsinptica i en la iteracin t, el valor wij(t) que representa la modificacin en dicho peso se expresa de la siguiente forma:
w ij (t + 1) = w ij (t ) + w ij (t )
El proceso de aprendizaje es iterativo, actualizndose los pesos hasta que la red alcanza el rendimiento deseado. Otros modelos incluyen una etapa extra en el aprendizaje, la creacin o destruccin de neuronas, en la cual se modifica la propia estructura de la red. El entrenamiento de la red involucra la propagacin del error para ajustar el conjunto de pesos para minimizar la funcin de error. El factor de momento en el algoritmo acta como un promedio mvil de los ajustes de los pesos. As, si el error de cada entrada se propaga antes de que el prximo registro se procese, la red capturar la informacin temporal entre los conjuntos de registros individuales. Si se usa la RNA para clasificacin, entonces todos los registros de entrada deben ser procesados antes de que el error se propague. El algoritmo de retropropagacin garantiza que el error total en el conjunto de entrenamiento continuar decreciendo conforme el nmero de iteraciones se incremente. Con cada iteracin los pesos se modifican para disminuir el error en los patrones de entrenamiento. Conforme avanza el entrenamiento, la cantidad de cambio en la funcin de error se hace cada vez ms pequeo. La convergencia
34
ocurre cuando el cambio en el valor de la funcin de error es menor que un umbral especificado. Sin embargo, el entrenamiento con muchas iteraciones sobre el mismo conjunto de datos puede resultar en el fenmeno de sobreentrenamiento. El sobreentrenamiento ocurre cuando una RNA intenta ajustar exactamente el limitado conjunto de puntos perdiendo su habilidad de interpolar entre estos puntos (HetchNielsen, op. cit.). El problema de sobreentrenamiento se muestra en la figura 2.7, donde se desarroll una RNA para prediccin de series de tiempo (Coakley, op. cit.). Los primeros 48 periodos fueron usados para entrenar la red y los ltimos 12 para prediccin. Despus de 10 iteraciones, la RNA mostr el promedio de los datos (lnea punteada gruesa). La mejor prediccin ocurri a las 300 iteraciones. Note que la lnea de mejor ajuste no coincide exactamente con los datos tanto en el periodo de entrenamiento como en el de prediccin. Despus de 3000 iteraciones, la RNA casi ajusta los puntos de los datos en el periodo de entrenamiento, sin embargo, en el periodo de prediccin es muy pobre.
Figura 2.7. Efecto del sobreentrenamiento. Comparacin entre los valores objetivo y los valores de salida.
Existen dos tipos bsicos de aprendizaje que son el supervisado y el no supervisado. En el aprendizaje supervisado se proporciona informacin sobre las funciones de entada y salida, mientras que en el no supervisado no se proporciona
35
informacin alguna. Las reglas de aprendizaje supervisadas suelen ser ms complejas pero tambin ms exactas en sus resultados. Adems de los dos tipos de aprendizaje mencionados, existen otros tipos, sin embargo, slo se mencionarn adicionalmente aqu el aprendizaje hbrido y el reforzado. 2.7.1.1 Aprendizaje Supervisado En el aprendizaje supervisado se presenta a la red un conjunto de patrones, junto con la salida deseada u objetivo y, de manera iterativa se ajustan los pesos sinpticos hasta que se obtiene la salida deseada. As, la red es capaz de estimar relaciones de entrada y salida a partir de la informacin almacenada en su arquitectura. De manera ms formal, se puede definir una funcin E[W] que representa el error esperado de la operacin de la red, expresado en funcin de sus pesos sinpticos W. En el aprendizaje supervisado se pretende estimar una cierta funcin multivariable desconocida f : n m (la que representa la red neuronal) a partir de muestras (x,y) ( x n , y m ) tomadas aleatoriamente, por medio de la minimizacin iterativa de E[W] mediante aproximacin estocstica 18 . 2.7.1.2 Aprendizaje no supervisado En el aprendizaje no supervisado o autoorganizado se presentan a la red varios patrones sin proporcionar la respuesta deseada. La red, por medio de la regla de aprendizaje, estima las regularidades en el conjunto de entradas, extrae rasgos caractersticos o agrupa patrones segn su similitud. El ejemplo clsico del modelo que emplea este tipo de aprendizaje son los mapas autoorganizados 19 (Kohonen, 1982). De manera formal, en el aprendizaje no supervisado se pretende estimar la funcin de densidad de probabilidad p(x), la cual describe la distribucin de los patrones x pertenecientes al espacio de entrada n a partir de muestras o ejemplos.
Las tcnicas de aproximacin estocstica estiman valores esperados a partir de cantidades aleatorias observadas. Usualmente se implementan en forma de algoritmo discreto del tipo descenso por el gradiente (estocstico). (Kohonen , 1989). 19 Los mapas autoorganizados tratan de reproducir la representacin de la informacin en la corteza cerebral.
18
36
2.7.1.3 Aprendizaje hbrido En este tipo de aprendizaje coexisten en la red los dos tipos de aprendizaje bsicos mencionados anteriormente, el supervisado y el no supervisado. Los cuales actan en distintas capas de la red neuronal. El modelo de contrapropagacin (HetchNielsen, op. cit.) y las RBF 20 son ejemplos de redes que hacen uso de este tipo de aprendizaje. 2.7.1.4 Aprendizaje reforzado El aprendizaje por medio de este mtodo combina parte de las caractersticas de los dos tipos de aprendizaje bsicos. Por una parte, utiliza la informacin sobre el error cometido pero a diferencia del aprendizaje supervisado no existe una nica seal de error, que represente el rendimiento global de la red, sino que slo se le indica que tan bien o mal se estn obteniendo los resultados sin dar ms detalles. En ocasiones se denomina aprendizaje por premio o castigo. Muchos de los algoritmos de aprendizaje se basan en mtodos numricos iterativos que tratan de minimizar una funcin de error, lo que puede ocasionar problemas en la convergencia del algoritmo. Como la convergencia no es general para todos los algoritmos, se tiene que abordar para cada caso en particular. La convergencia es una forma de verificar que determinada configuracin, junto con la regla de aprendizaje puede resolver un problema dado, pues el grado de error durante el proceso de aprendizaje describe la precisin de ajuste del mapping 21 . Durante el proceso de entrenamiento es importante conocer no solamente el error mnimo obtenido durante la fase de aprendizaje sino tambin el error que se alcanza para valores no utilizados durante el aprendizaje, lo cual mide la capacidad de generalizacin de la red. Dicha capacidad de generalizacin indica si la red ha capturado correctamente el mapping subyacente de los datos. 2.7.2 Algoritmo de retropropagacin El algoritmo de retropropagacin de errores BP proporciona la solucin al problema de entrenar los nodos de las capas ocultas de una red con arquitectura multicapa (Rumelhart, op. cit., Hecht-Nielsen, op. cit.). Es el algoritmo ms popular y ms ampliamente utilizado por los investigadores en redes neuronales artificiales. Su popularidad se debe a su simplicidad en el diseo e implementacin. Este algoritmo tiene la habilidad de entrenar una red de mltiples capas por medio del reconocimiento de las irregularidades y excepciones en la muestra de
RBF son funciones de base radial. En la mayora de las reas de matemticas, los trminos map, mapping y transformacin son frecuentemente sinnimos de funcin.
21
20
37
entrenamiento. El algoritmo consiste de dos fases, llamadas: 1) paso hacia delante, y 2) paso hacia atrs. Bajo el algoritmo de aprendizaje, se proponen k ejemplos de la poblacin para entrenar a la red. Cada ejemplo propuesto de la poblacin puede ser definido exactamente por un vector de entrada [ X il = ( xi1 , x2 ,...xim ),1 i k ,1 l m] y por un vector de salida actual o deseado [ Z il = ( zi1 , z2 ,...zin ),1 i k ,1 l n] . En este caso, m representa el nmero de entradas que explican el k-simo ejemplo. Bajo la propagacin hacia delante (paso 1), el vector de entrada alimenta la capa de entrada para producir un vector de salida llamado l [Yi = ( yi1 , y2 ,... yin ), ij ,1 i k ,1 l n] . Las funciones de salida estimada y actual se comparan para calcular el error cuadrtico para cada unidad de salida en el sistema, por ejemplo, [eil = ( yi1 zij ) 2 , ij ,1 i k ,1 l n] . Sumando las diferencias de las salidas individuales, se genera una funcin E de error, descrita de la siguiente manera:
E = e2ij =
i =1 j =1
2 1 k n ( yij zij ) 2 i =1 j =1
El objetivo es entonces minimizar la funcin de error E, cambiando apropiadamente y a travs de ejemplos los pesos, de manera que todos los vectores de entrada estn correctamente mapeados con su correspondiente vector de salida. Por lo tanto, la funcin objetivo se define como:
Mininizar{E} Wi j , X il , Yi j
En el paso 2 (propagacin hacia atrs), la direccin y magnitud del cambio de los pesos se calcula para localizar la solucin ptima. En otras palabras, el error cuadrtico total del paso 1 se calcula y se propaga hacia atrs, capa por capa, de las unidades de salida a las unidades de entrada para lograr la convergencia de la funcin de error E. La direccin y magnitud del cambio en los pesos se calcula como: E ij = ,0 < <1 ij Donde, representa la convergencia del algoritmo bajo iteraciones sucesivas (capas). El trmino es la tasa de aprendizaje que determina el tamao del paso que es utilizado para moverse hacia el mnimo de E. Valores de demasiado grandes conducen a oscilaciones alrededor del mnimo, mientras que valores demasiado pequeos pueden conducir a una lenta convergencia de la red.
38
Los ajustes en los pesos se determinan por la forma en que ocurre la propagacin en cada nivel. Para todas las funciones continuas y diferenciables Ii, Oi E y E, el valor del cambio en los pesos en cada nivel se calcula como: ij
ij = E E Oi I i = ij Oi I i ij
En este proceso, el peso del vector W, se actualiza para cada par entradasalida [Xi, Zi] para cada ejemplo, o se acumula el cambio de los pesos [ij] para todos los ejemplos y se actualizan al final de cada iteracin. Estos dos pasos se ejecutan en iteraciones sucesivas del algoritmo de propagacin hacia atrs hasta que la funcin de error E, converge al nivel deseado, produciendo en consecuencia la solucin ptima. 2.7.3 Fase de recuerdo o ejecucin. Una vez que el sistema ha sido entrenado, por lo general el sistema se desconecta, por lo que los pesos y la estructura permanecen fijos y listos para procesar datos. Este modo de operacin se conoce como fase de recuerdo o ejecucin. Existen varios teoremas que establecen las condiciones de estabilidad para varias configuraciones de redes neuronales bajo ciertas condiciones. Para demostrar la estabilidad de un sistema, estos teoremas se basan en el mtodo Lyapunov (Simpson, 1989), como alternativa al mtodo directo pero ms complejo de integrar el sistema de ecuaciones diferenciales que lo describen. El mtodo Lyapunov establece que si en un sistema dinmico de variables de entrada (x1, x2, xn) descrito por el siguiente sistema de ecuaciones diferenciales:
xi
dx i = F (t , x1, x2 ,..., x n ) dt
se cumplen las condiciones: el sistema est en reposo exclusivamente en el origen existen las derivadas de las ecuaciones que lo describen en todo el dominio las variables estn acotadas
39
y se puede encontrar una funcin Lyapunov 22 V de las variables xi, V : n , tal que:
V =
V 0, x i & i =1 x i
n
entonces el sistema converge para todas las posibles entradas (x1, x2,, xn), y es globalmente estable. Esta funcin es muy importante porque permite estudiar la estabilidad de un sistema dinmico. Tambin Cohen, Grossberg y Kosko han aplicado esta tcnica en sus teoremas para demostrar la estabilidad de una amplia clase de redes neuronales realimentadas, autoasociativas y heteroasociativas (Martn del Bro, 2002).
2.8 Clasificacin de los modelos neuronales Dependiendo del modelo de neurona empleado, de la arquitectura y del algoritmo de aprendizaje, se tendr el modelo concreto de red neuronal. Sin embargo, las dos caractersticas que sobresalen ms son el tipo de aprendizaje y la topologa de la red, por lo que son estos dos conceptos en los que se basa la siguiente clasificacin, la cual fue originalmente propuesta por (Simpson, op. cit.). As, en cuanto al tipo de aprendizaje se clasifican en supervisados, no supervisados, hbridos y de aprendizaje reforzado. Por otra parte, de acuerdo a la topologa de la red, se identifican dos grandes grupos de redes, realimentadas y unidireccionales (o no realimentadas). Dicha clasificacin se muestra en la figura 2.8.
La funcin de Lyapunov se denomina frecuentemente funcin de energa de Lyapunov pues constituye una gneralizacion del concepto fsico de energa.
22
40
MODELOS DE REDES NEURONALES ARTIFICIALES
Hbridos
Supervisados
No supervisados
Reforzados
Realimentados BSB Fuzzy Cog. Map. BP Through time
Unidireccionales
Realimentados
Unidireccionales LAM y OLAM Mapas de Kohonen Neocognitrn Redes PCA
RBF Contrapropagacin
ART Perceptrn Hopfield Adalina/Madalina BAM Perceptrn multicapa Backpropagation Time-Delay NN CMAC Correlacin en cascada Mquina de Boltzmann LVQ GRNN Support Vector Machines
Premio-castigo asociativo Crtico adaptativo
Figura 2.8. Clasificacin de los modelos de RNA por el tipo de aprendizaje y arquitectura.
Se puede observar que el grupo ms numeroso de redes neuronales incluye a las redes supervisadas y no realimentadas como lo es el caso del perceptrn simple, la adalina y el perceptrn multicapa o MLP (Multilayer Perceptron). Dichos modelos son importantes por varias razones como son su generalidad, aspecto histrico y empleo cotidiano en aplicaciones prcticas.
2.9 Desarrollo de un modelo RNA Una vez que ya se tom la decisin de usar un modelo RNA, surgen nuevas preguntas como la seleccin del algoritmo de aprendizaje, escoger el error y funciones de transferencia, especificacin de la arquitectura, preparacin de los datos para la arquitectura y el entrenamiento de la red (Coakley, op. cit.). 2.9.1 Seleccin del algoritmo de aprendizaje Las RNA filtran las entradas de manera efectiva para producir salidas. Ms especficamente, una RNA busca patrones en un conjunto de ejemplos aplicados en la capa de entrada de la red y, aprende de esos ejemplos para producir nuevos patrones (la salida). El conocimiento dentro de las RNA se mantiene en los pesos. El proceso de aprendizaje se implementa cambiando los pesos hasta que se obtiene la respuesta deseada en los nodos de salida. En una RNA con funciones de transferencia lineales, los pesos se pueden obtener empleando manipulacin de matrices. En una RNA con funciones de transferencia no lineales, se pueden usar dos mecanismos de aprendizaje para encontrar los pesos: aprendizaje supervisado y no supervisado.
41
2.9.2 Seleccin de las funciones de error y transferencia 2.9.2.1 Funciones de error La funcin suma de los cuadrados de los errores (SSE) es una de las ms ampliamente utilizadas en la literatura contable y financiera. Como la funcin SSE es diferenciable y se puede minimizar cuando sus argumentos son iguales, la superficie del error resultante (en tres dimensiones) parece un tazn. El fondo del tazn corresponde al conjunto de pesos que producen el mnimo error. En un punto dado de la superficie del tazn, la derivada de la funcin de error proporciona la pendiente de la superficie con respecto a los pesos. Para minimizar el error, los pesos se ajustan para disminuir la pendiente hacia el fondo del tazn. 2.9.2.2 Funciones de transferencia Levich y Thomas (1993) y Kao y Ma (1992) encontraron que los mercados financieros son no lineales y tienen memoria, sugiriendo que las funciones de transferencia no lineales son las ms apropiadas. Las funciones de transferencia sigmoideas se utilizan comnmente para datos de series de tiempo porque son no lineales y continuamente diferenciables, propiedades que son deseables para el entrenamiento de la red. La funcin de transferencia se usa para obtener la salida de un nodo, dados sus pesos ajustados por ponderacin. El uso de funciones de transferencia lineales requiere que los patrones de entrada sean linealmente independientes. Si se usan funciones de transferencia no lineales, no se requiere independencia lineal de los patrones de entrada. As, las funciones de transferencia no lineales permiten a los modelos RNA ser aplicados a una amplia variedad de problemas (Hertz, et. al., 1991). Se han propuesto cuatro funciones de transferencia no lineales para su uso con modelos RNA: Sigmoidales (logsticas), medio-sigmoidales, seno (o coseno), y tangente hiperblico (Anderson y Rosenfeld, 1998). La funcin sigmoidea es una funcin real diferenciable y acotada que est definida para todos los valores reales de las entradas y tiene una derivada positiva en todo su dominio. Como se muestra en la figura 2.9, la funcin sigmoidea es una funcin semilineal que hace un cambio rpido de la seccin central a los extremos. La funcin sigmoidea se centra en 0.5 y proporciona un rango de salida de cero a uno.
42
Figura 2.9 23 Comparacin de las funciones de transferencia sigmoidea, medio- sigmoidea y de tangente hiperblico.
G ( h) =
High Low + Low 1 + e Gain ( h Center )
donde: High es el lmite superior para la salida. Low es el lmite inferior para la salida. Center es el valor de la entrada en el cual la salida es igual a (High + Low)/2. Gain es directamente proporcional a la derivada de la funcin en el punto central. Con ganancia alta (Gain >> 1), la funcin sigmoidea se aproxima a una funcin escaln, mientras que con ganancias bajas (Gain << 1) se aproxima a una funcin lineal. h es la suma de las conexiones ponderadas. Con una funcin sigmoidea es posible obtener un valor de salida igual a cero en un nodo, lo cual lleva a no modificar la ponderacin correspondiente. Para lograr una respuesta que cambie el rango de salida de la funcin de transferencia sigmoidea, se agrega un sesgo de . Esta funcin sigmoidea modificada es llamada comnmente como media- sigmoidea, la cual da menos peso a aquellos valores cercanos a la media. Otra alternativa es la funcin tangente hiperblica, que al igual que la sigmoidea est centrada en cero. Sin embargo, el rango para los valores de salida
23
Coakley, J. op. cit. p. 131.
43
es ms amplio. Esta funcin es ms lineal por naturaleza y produce un efecto similar a truncar las partes lejanas en un modelo lineal. 2.9.3 Aspectos importantes en la prediccin con RNA Las Redes Neuronales Artificiales son modelos de prediccin, que al igual que los indicadores tcnicos, usan datos del pasado, pero con la ventaja de permitir incorporar la informacin de mltiples indicadores junto con informacin fundamental, explotando la ventaja de ser un modelo no paramtrico. Los principales aspectos de la prediccin con RNA se exponen en la tabla 2.1. En dicha tabla se pueden observar tres apartados principales: la obtencin, seleccin y pre procesamiento de los datos, la seleccin y entrenamiento apropiado de la red, y por ltimo, la evaluacin de resultados (Olmedo, 1996).
Deteminar qu vamos a predecir, obtener las series de datos que tienen relacin con el hecho en concreto y verificar que estos datos no contienen errores y las series estn completas. Preprocesar y combinar los datos con el objeto de hacer la informacin ms til. Por ejemplo, el Obtencin, seleccin y cambio en el precio de un valor aporta ms preproceso de los datos informacin a la red que el precio de dicho valor en un instante dado. Extraer los conjuntos de entrenamiento, prueba y validacin. Elegir cuidadosamente el tamao del conjunto de datos a utilizar en cada caso, y conocer las tcnicas adecuadas en caso de poseer un conjunto de datos escaso. Seleccionar la arquitectura de red y el algoritmo de entrenamiento adecuados. No siempre el mismo modelo de red es adecuado, ni el mismo algoritmo de entrenamiento permite obtener los resultados deseados. Seleccin y Elegir los parmetros iniciales de la red. En entrenamiento apropiado algoritmos como el de retropropagacin, elegir de la red cuidadosamente los parmetros iniciales de entrenamientos puede ser decisivo para la convergencia de la red. Entrenar la red seleccionando un criterio de convergencia adecuado. Evaluar los resultados de la red con el objeto de determinar la necesidad de un nuevo Evaluacin de resultados entrenamiento, previa modificacin, si as se estima necesario, de alguno de los criterios tomados anteriormente. Tabla 2.1 Aspectos generales del trabajo con RNA en predicciones.
44
En la mayora de las aplicaciones se da ms importancia a la seleccin apropiada del modelo de red as como su uso de forma adecuada, en el caso de las predicciones, los datos que le son suministrados a sta cobran una importancia vital debido a la necesidad de un preprocesamiento de los mismos, a la vez que se pone ms atencin a la fuente de la que provienen. Un conjunto de datos defectuosos o mal preprocesados har intiles todos los esfuerzos por encontrar el mejor modelo de red. La evaluacin de los resultados, y la toma de decisiones forman el ltimo paso del proceso. En la figura 2.10 se muestra un diagrama general que muestra la dinmica anterior (Olmedo, ibid.).
Conseguir mejores datos Preproceso de datos Modificar el modelo Elegir otro modelo Seleccin del modelo de red Ajustar los parmetros Seleccin de parmetros iniciales Entrenar la red Modificar criterio Criterio de parada del entrenamiento Evaluar la red entrenada
No
Objetivo logrado?
Figura 2.10. Esquema de trabajo con RNA.
Una red neuronal artificial no lineal puede implicar muchos problemas (Kohonen, 1998). En particular los sistemas de redes neuronales pueden tener entradas incompletas o confusas por lo que a veces resulta ms conveniente para quien decide emplear datos cualitativos ms que cuantitativos.
45
Captulo 3: Redes neuronales aplicadas a las series de tiempo financieras
Captulo 3 Redes neuronales aplicadas a las series de tiempo financieras
3.1 Generalidades Las aplicaciones de las RNA en los negocios se dividen en dos principales categoras: clasificacin y modelado (Peel, op. cit.). La clasificacin se refiere a la forma de discriminar entre observaciones con caractersticas comunes en diferentes grupos, v. gr. prediccin de fallas corporativas, asignacin de crditos y clasificacin de bonos. Por otra parte, el modelado consiste en simular el comportamiento o las reacciones de una entidad o variable dado un estmulo externo, basado en observaciones pasadas. v. gr, predecir los movimientos de los precios de las acciones o fluctuaciones en el tipo de cambio. El primer artculo sobre redes neuronales que manejan informacin financiera fue realizado por White (op. cit.), quien estudi la prediccin de los precios de las acciones con un modelo de red neuronal. Posteriormente la prediccin de la cotizacin de las acciones, del tipo de cambio y de otras variables econmicas ha sido uno de los temas ms atractivos para los investigadores y analistas financieros. Algunos de los principales autores que han incursionado en la aplicacin de las redes neuronales artificiales en las finanzas son: Dutta y Shekhar (op. cit.), Bosarge (1989), Trippi (1990), Hawley, et. al. (1990), Salchenberger, Cinar y Cash (op. cit.), Tam y Kiang (op. cit.), Altman, Marco y Varetto (op. cit.) y Grudnitski y Osburn (1993). Hasta el momento se han presentando muchas ventajas de las redes neuronales con respecto a otras tcnicas, pero en relacin a lo que se conoce de la aplicacin de las redes neuronales en el campo de la prediccin burstil, es interesante sealar que si fuera una herramienta infalible nadie lo publicara sino ms bien lo guardara para s y tratara de sacar el mayor provecho posible. Lo anterior es difcil todava de afirmar, pero en el mbito acadmico se tiene la creencia de que es slo un modelo ms que realiza su funcin de prediccin y optimizacin y, que realiza su tarea de una manera ms eficiente puesto que considera a la informacin de una manera mejor organizada. Para la valuacin de bonos, las tcnicas por redes neuronales artificiales ya han rebasado a los mtodos de regresin (Dutta, op. cit). La aplicacin de las redes neuronales al comportamiento accionario, sin embargo, slo haba mostrado un xito moderado a finales de 1990 (Hawley, op. cit). En la literatura existen varios modelos de redes neuronales diferentes aplicadas al procesamiento de series de tiempo de acuerdo al tipo de mecanismo a tratar con la informacin temporal. Como la mayora de las redes neuronales han
46
sido previamente definidas para reconocimiento de patrones con patrones estticos, la dimensin temporal tiene que ser suministrada de una forma apropiada. Ulbritch (1996) distingue los siguientes mecanismos de manejo de series de tiempo por medio de redes neuronales: Capa de retraso sin realimentacin (o ventanas de tiempo) Capa de retraso con realimentacin Unidad de retraso sin realimentacin Unidad de retraso con realimentacin (bucles auto recurrentes)
El uso de las redes neuronales en este campo se puede ver en el contexto de la aproximacin de funciones y clasificacin, por lo que los principales tipos de redes neuronales se vern desde una forma ms tradicional de procesamiento de secuencias.
3.2 Sistemas tradicionales La forma tradicional de modelar los datos consiste en el anlisis de series de tiempo. Pueden consistir ya sea de valores continuos o discretos. Hay dos tipos de modelos disponibles para modelar el comportamiento de las series de tiempo: los lineales y los no lineales. I) Sistemas lineales. Los mtodos lineales clsicos estn basados generalmente en realizar regresiones lineales de las series de tiempo sobre una funcin lineal que posteriormente se utiliza para pronosticar valores futuros. La evidencia reciente muestra que los mercados financieros son no lineales (Bollerslev, 1992), sin embargo, estos mtodos lineales proporcionan una buena aproximacin para describir el comportamiento de los sistemas no lineales presente en las series de tiempo de los mercados financieros. Existen adems, otros dos mtodos para modelar series de tiempo: el anlisis espectral de mxima entropa y la transformada rpida de Fourier. Sin embargo, para poderlos utilizar es necesario que exista cierta ciclicidad y poderla identificar. II) Modelos no lineales. Estas tcnicas intentan reconstruir las series de tiempo con base en un muestreo de datos para pronosticar los valores futuros. Aunque estas tcnicas son estadsticamente potentes, no han tenido mucho xito en su aplicacin en la prediccin de los mercados financieros. En el mundo real, los precios de mercado se generan por factores que incluyen las creencias, las relaciones atpicas entre los participantes, coberturas, arbitrajes, etc. Lo anterior crea un ambiente que contiene ruido
47
estadstico, en donde aplicar las tcnicas no lineales se vuelve complicado y donde estadsticamente se vuelve indeseable. Existen numerosos estudios que comparan a los sistemas tradicionales con las redes neuronales artificiales en cuanto a qu modelo describe mejor el comportamiento de los mercados financieros y se ha encontrado que las RNA proporcionan un mejor estimado. Bell, Ribar y Verchio (1990) compararon a la regresin con las redes neuronales artificiales para predecir fallas en los bancos y observaron que las RNA proporcionan mejores estimaciones, particularmente en el rea gris donde los bancos parecen tener menos dificultades financieras. Huang, Dorsey y Boose (1994) comparan las RNA con el anlisis de discriminantes y encuentran que las RNA proporcionan mejores estimaciones para predecir la insolvencia de las aseguradoras de vida. Se han usado tambin tanto el anlisis de discriminantes mltiples como las RNA para predecir dificultades financieras. El resultado de las pruebas muestra que el mtodo por RNA es ms eficiente en reconocimiento de patrones y en la anticipacin de problemas financieros. En estudios recientes, se comparan a las RNA con otros modelos de prediccin tradicionales y concluyen que las estimaciones de las RNA son superiores cuando las entradas estn altamente correlacionadas, cuando faltan datos o cuando los sistemas son no lineales. Tambin se comparan a las RNA con la regresin logstica y el suavizamiento exponencial al predecir el volumen de pasajeros por aerolnea y como resultado las RNA proporcionan un mejor estimado.
3.3 RNA como modelo no lineal Una RNA sin capas ocultas es similar a un modelo lineal generalizado. Mientras que las RNA con alimentacin hacia delante son un subconjunto de una clase ms grande de modelos de regresin y discriminacin no lineales. Generalmente se escoge un modelo no lineal sobre uno lineal cuando se sabe a priori que las relaciones entre las variables son no lineales o desconocidas. Los modelos econmicos lineales no son capaces de capturar patrones no lineales y tendencias en las relaciones de la mayora de las variables de prediccin economtricas usadas en contabilidad y finanzas. Por ejemplo, una serie de tiempo puede ser dividida en cuatro componentes, tendencia secular, variacin cclica, fluctuacin estacional y fluctuacin irregular. La fluctuacin irregular puede a su vez ser dividida en comportamiento catico determinista y ruido estocstico. Las tcnicas lineales convencionales no pueden distinguir entre estos dos subcomponentes de ruido aleatorio y relaciones no lineales (Wong, 1991). Cuando las RNA se aplican a tareas de clasificacin, muestran la habilidad de inducir algoritmos para el reconocimiento de patrones. As, la base del conocimiento es inferido del entrenamiento que se d a la red. La desventaja, sin embargo, es que estas redes no tienen la facilidad de explicar como se llega a determinada conclusin. En general, una RNA no debe ser usada para modelar
48
relaciones lineales inherentes. Las RNA deben ser aplicadas cuando exista alguna evidencia de no linealidad en las relaciones entre las variables dependientes y explicativas.
3.4 Modelos paramtricos y no paramtricos Los modelos paramtricos y en particular los modelos de regresin han llegado a abusar de los mtodos estadsticos. Las pruebas se realizan de manera rutinaria y se hacen inferencias sin verificar la normalidad de los errores, independencia de los errores y constancia en la varianza del error (Marques, 1991). Las RNA pueden ser usadas como modelos paramtricos, as que son necesarias las mismas consideraciones de distribucin para los trminos de error que para los modelos estadsticos. Sin embargo, las RNA aplicadas como modelos no paramtricos pueden incorporar fcilmente mltiples fuentes sin simplificar consideraciones relativas a la forma funcional de la relacin entre las variables de salida y las predictivas. Se considera a las RNA como mtodos estadsticos no lineales que ofrecen ciertas ventajas sobre sus contrapartes paramtricas. De esta forma, la primera decisin fundamental que se debe tomar es, si es apropiado usar una RNA para resolver problemas de contabilidad y financieros o modelos estadsticos paramtricos tradicionales.
3.5 Modelos autorregresivos no lineales Entre las redes neuronales ms ampliamente utilizadas en clasificacin y aproximacin de funciones son las redes con alimentacin hacia delante, como los perceptrones multicapa (MLP 24 ; unidades ocultas con funciones de transferencia sigmoidales (Rumelhart, op. cit.)) y las redes con funcin de base radial (RBFN 25 ; unidades ocultas usando una regla de propagacin de distancia y una funcin de transferencia gaussiana u otra (Broomhead y Lowe, 1988)). Ambos tipos de redes han sido probadas para ser aproximadores universales (Cybenko, op. cit. y Hornik, 1989) para el MLP y (Kurkova, 1992 y Girosi, 1990) para la RBFN, es decir, aproximar cualquier funcin razonable por medio de las redes neuronales respectivas. La aproximacin de la no linealidad se realiza por medio del empleo de la funcin de transferencia no lineal, ya sea sigmoidea o gaussiana. Con un nmero fijo de neuronas ocultas (como en el caso de la mayora de las aplicaciones) el mtodo podra ser llamado aproximacin semiparamtrica de funciones. No hace consideraciones especficas acerca de la forma de la funcin (como lo hara un
24 25
MLP, multilayer perceptrons por sus siglas en ingls. RBFN, radial basis function network por sus siglas en ingls.
49
mtodo paramtrico), pero no puede aproximar cualquier funcin compleja arbitrariamente (como lo podra hacer una tcnica no paramtrica) (Dorffner, op. cit.). De esta forma, los MLP y RBFN ofrecen una extensin a la forma clsica de modelar series de tiempo: los modelos autorregresivos lineales. El modelado autorregresivo lineal de series de tiempo (Box y Jenkins, op. cit.) considera a la funcin objetivo como una combinacin lineal de un nmero fijo de valores previos de la serie, incluyendo un trmino de error :
x (t ) = i x (t i ) + (t )
i =1 p
x (t ) = F L ( x (t 1)..., x (t p )) + (t ) Si se toman los p valores previos de la secuencia, se habla de un modelo AR(p) de la serie de tiempo (modelos autorregresivo de orden p) (Dorffner, op. cit.). Encontrar un modelo AR(p) apropiado significa escoger un p apropiado y estimar los coeficientes i. Esta tcnica, aunque potente, es limitada, porque asume una relacin lineal entre la secuencia de los elementos. Ms an, asume estacionariedad de la serie de tiempo, es decir, que los principales momentos (media y desviacin estndar) no cambian en el tiempo. Es claro que un MLP RBFN puede reemplazar la funcin lineal FL por una funcin no lineal arbitraria FNN (Dorffner, op. cit.): x (t ) = F NN [ x (t 1),..., x(t p )] + (t ) Esta funcin no lineal se puede estimar con base en las muestras de la serie, usando una de las tcnicas de aprendizaje u optimizacin de las redes neuronales. Haciendo FNN dependiente de los p valores previos es igual a tomar p entradas adyacentes como se muestra en la figura 3.1. Esta entrada es conocida generalmente como ventana de tiempo, porque proporciona una vista limitada de la serie. Se puede ver tambin como una forma simple de transformar la dimensin temporal en una dimensin espacial (Dorffner, op. cit.).
50
^ x(t)
FNN[x(t-1),]
x(t-1)
x(t-2)
x(t-3)
x(t-p)
Figura 3.1 Red neuronal unidireccional con ventana de tiempo como modelo AR no lineal
Los modelos autorregresivos no lineales son potencialmente ms poderosos que los lineales debido a que: Es posible modelar caractersticas ms complejas de las series. Tericamente no tienen que asumir estacionariedad.
Sin embargo, al igual que en el reconocimiento de patrones estticos, se requiere mucho ms cuidado y precaucin que los mtodos lineales porque: Requieren un gran nmero de datos de muestra, debido a su gran nmero de grados de libertad. Pueden caer en un gran nmero de problemas, como sobre ajuste, obtencin de mnimos subptimos como resultado de la estimacin (aprendizaje) etc., que son mucho ms severos que en el caso lineal. No incluyen necesariamente el caso lineal de una forma trivial.
Especialmente el primer punto es importante en muchas aplicaciones del mundo real donde los datos son limitados.
3.6 Modelos de promedio mvil Una forma alternativa de modelar una serie de tiempo es considerar a la serie como una combinacin lineal de q seales de ruido (Dorffner, op. cit.):
51
x ( t ) = i (t i ) + ( t ) = F [ (t 1),..., (t q )] + (t )
L i =1
La cual, como ya se vio es un promedio mvil de orden q MA(q). De igual manera la combinacin de componentes AR y MA generan un modelo ARMA(p, q), los cuales son limitados debido a su linealidad, y tambin a su necesidad de estacionariedad. As, una extensin del caso no lineal mediante el uso de redes neuronales parece una propuesta adecuada. Al ser un modelo no lineal, la red es potencialmente ms poderosa que los tradicionales modelos ARMA. Sin embargo, como se mencion anteriormente, se debe tener ms cuidado debido al gran nmero de grados de libertad y las potenciales limitaciones de los algoritmos de aprendizaje. La red de la figura 3.2 se puede considerar como un caso especial del tipo de red recurrente generalmente llamada red Jordan (Jordan, 1986). Esta red consiste de un MLP con una capa oculta y un bucle de realimentacin de la capa de salida a una capa de entrada adicional o de contexto. La ecuacin que describe este modelo se puede escribir de la siguiente manera:
x (t ) = F NN [ x (t 1),..., x (t p ), (t 1),..., (t q )]
Siempre que p = q.
^ x(t)
FNN[x(t-1),]
x(t-1) x(t-2) x(t-p) ^ x(t-1)
Figura 3.2 Red neuronal con realimentacin en la capa de salida, conformando un modelo ARMA no lineal.
52
3.7 Algunas aplicaciones de redes neuronales a las series de tiempo Hill, OConnor y Remus (1996), realizan un estudio en donde comparan el desempeo de las predicciones de series de tiempo basadas en redes neuronales con mtodos estadsticos tradicionales (incluyendo el suavizamiento exponencial y Box-Jenkins). Encontraron que el modelo basado en redes neuronales realiz las predicciones significativamente mejor que los estadsticos tradicionales cuando se emplearon datos trimestrales y mensuales, aunque sin embargo, con datos anuales, ambos modelos fueron comparables. El estudio se llev a cabo como si fuera parte de la conocida competicin de Makridakis (Makridakis, 1982). Shang-Wu (1999) emplea redes neuronales para realizar pronsticos y arbitraje sobre el futuro del ndice de accionario del Nikkei, en donde de acuerdo con los resultados empricos, las redes neuronales superaron al modelo ARIMA en las predicciones, as como tambin fue capaz de proporcionar al operador mayores ganancias por arbitraje que por los modelos tradicionales an cuando se observa un menor intervalo de tiempo redituable. Zang y Berardi (2001), utiliza redes neuronales y series de tiempo para predecir el tipo de cambio entre la libra britnica y el dlar estadounidense, especficamente utilizan un mtodo de particionamiento sistemtico para construir conjuntos de redes neuronales. Encuentran que la aproximacin bsica conjunta creada con arquitecturas de red entrenadas con diferentes pesos iniciales aleatorios no es efectiva para mejorar la precisin de la prediccin, mientras que los modelos en conjunto de diferentes estructuras neuronales pueden mejorar de manera consistente las predicciones de una nica red. Sus resultados tambin muestran que las redes conjuntas basadas en diferentes particiones de datos son ms eficientes que aquellas desarrolladas con el conjunto de datos de entrenamiento completo en la prediccin fuera de muestra. Medeiros, Veiga y Pedreira (2001), presentan y comparan diferentes alternativas para modelar y predecir series de tiempo del tipo de cambio mensual. Los modelos que proponen son autorregresivos de transicin suave de neurocoeficientes, lineales autorregresivos y de caminata aleatoria. Encuentran que la no linealidad slo es relevante en algunos periodos de la serie, especialmente al inicio y al final de la muestra, que los modelos no lineales se desempean mejor solo en los casos en donde la linealidad esta uniformemente distribuida. Tambin que no hay diferencias significativas con respecto a un modelo lineal actual. Collantes (2001) realiza un estudio para comparar las metodologas Box y Jenkins, ARIMA y funcin de transferencia en dos aplicaciones, la primera, sobre la serie de tiempo del nmero de nacimientos mensuales ocurridos en Espaa de enero 1960 a diciembre de 1999 y, la segunda sobre dos series de tiempo, el gasto de publicidad mensual y el nmero de ventas mensuales, en donde se lleg a la conclusin de que la metodologa ARIMA se puede utilizar como herramienta de preprocesamiento de datos, considerando como entradas a los retrasos
53
involucrados en el modelo proporcionado por esa metodologa, adems de que los resultados de la prediccin tanto dentro como fuera de muestra por parte de la red neuronal propuesta result ser superior a las otras metodologas. Haefke y Helmenstein (2002) presentan una estrategia de negocio que explota la diferencia en informacin que implican los principios de construccin de ndices de mercado de diferentes acciones. Esto para ganar ventaja competitiva sobre otros participantes de mercado, empleando redes neuronales para predicciones de un da y generar seales de compra y venta de acuerdo a la regla de negociacin. Para ilustrar como trabaja el sistema, se aplica al ndice de comercio austriaco (ATX). Sus resultados muestran que las redes seleccionadas se desempean bien con respecto a R2, MSE y MAPE. Encuentran una relacin positiva y significativa con los datos dentro de muestra, mientras que en algunos casos las correlaciones fuera de muestra son ya sea insignificativas o tienen el signo incorrecto. Garca (2003) disea un modelo no lineal para el anlisis y prediccin de la serie de tiempo del precio externo del caf colombiano utilizando redes neuronales artificiales en donde lo compara con un modelo clsico de prediccin lineal ARIMA. La red utilizada utiliza una capa oculta, emplea el algoritmo de retropropagacin y una funcin sigmoidea como funcin de activacin de la red. Los resultados obtenidos indican que la varianza del error del modelo RNA es menor que el del modelo ARIMA aproximadamente en un 22%, por lo que el modelo de redes neuronales se considera mejor. Stansell y Eakins (2004) proponen usar redes neuronales para predecir la direccin de cambio en ndices de acciones de 19 sectores sobre un intervalo de cinco meses en el 2001 y de tres en el 2002. Los resultados fueron evaluados solamente en trminos de la direccin de cambio y tambin en trminos del nmero de puntos ganados en el ndice del sector. Concluyen que un inversionista puede obtener ventaja de la habilidad de prediccin de las redes neuronales utilizando los datos econmicos pblicamente disponibles.
54
Captulo 4: Metodologa para pronsticos mediante modelos ARIMA y RNA
Parte II. Desarrollo y aplicacin del modelo propuesto Comparacin con la metodologa ARIMA
En esta parte se presenta la metodologa de la investigacin, el desarrollo de los modelos propuestos, las pruebas de hiptesis y los resultados obtenidos, a partir de las cuales se derivan las conclusiones y recomendaciones para futuras investigaciones.
55
Captulo 4. Metodologa para pronsticos mediante modelos ARIMA y RNA
4.1 Metodologa para pronsticos mediante modelos ARIMA Para construir un modelo ARIMA que aproxime aceptablemente las caractersticas de una serie de tiempo se hace uso de la metodologa de Box-Jenkins, la cual puede ser estructurada en cinco etapas.
4.1.1 Anlisis exploratorio de la serie Se grafica la serie a travs del tiempo, de manera que se puedan observar a priori sus componentes: tendencia, estacionalidad y ciclos. Podra notarse tambin la necesidad de aplicar diferencias, en la parte estacional o regular, para hacer que la media sea constante, as como su varianza homognea.
4.1.2 Identificacin del modelo Se debe sugerir un conjunto reducido de posibles modelos: a) Seleccin del conjunto de estimacin: conjunto de datos que se usar para la estimacin y adecuacin del modelo y el conjunto de prediccin: conjunto de datos para evaluar las predicciones. b) Determinacin de la funcin de autocorrelacin, la funcin de autocorrelacin parcial y sus correspondientes correlogramas. c) Determinacin del orden del componente autorregresivo p y promedio mvil q del modelo ARMA (p, q), haciendo uso de los patrones que se observan en los correlogramas simple y parcial. d) Estudio de la estacionariedad. Si la serie no es estacionaria, se debe convertir en estacionaria antes de aplicar la metodologa Box-Jenkins. e) Especificacin del modelo ARIMA identificado.
4.1.3 Estimacin de parmetros Una vez identificado el modelo, se obtienen los parmetros mediante la minimizacin de la suma del cuadrado de los errores. Los parmetros se estimarn siguiendo los pasos descritos en Pulido y Lpez (1999).
56
4.1.4 Verificacin de diagnstico Despus de seleccionar un modelo ARIMA particular y de estimar sus parmetros, se trata entonces de ver si el modelo seleccionado se ajusta a los datos en forma razonablemente buena, ya que es posible que exista otro modelo ARIMA que tambin lo haga. Es por esto que el diseo de modelos ARIMA de Box-Jenkins se ve algunas veces como arte ms que como ciencia; se requiere gran habilidad para seleccionar el modelo ARIMA correcto. Una prueba simple del modelo seleccionado es ver si los residuales estimados a partir de este modelo son de ruido blanco, si lo son, puede aceptarse el ajuste particular, si no lo son, debe empezarse nuevamente. Por tanto, la metodologa Box-Jenkins es un proceso iterativo.
4.1.5 Pronstico El pronstico se basa en el modelo ARIMA seleccionado. Se predicen m periodos correspondientes al tamao del conjunto de prediccin con sus intervalos de confianza. Se calculan los errores de prediccin. Es importante determinar la adecuacin del modelo en funcin de qu tan bien se pronostican los datos no empleados para la estimacin del modelo (fuera de muestra). Para evaluar qu tan cercano es el valor pronosticado y el real, se utilizan tres tipos de medicin de bondad de ajuste y error de prediccin, el error medio absoluto porcentual (MAPE) y la raz de error cuadrtico medio (RMSE), adems del coeficiente de desigualdad de Theil.
4.2 Metodologa para predicciones mediante RNA Se seguir la metodologa propuesta por Kaastra y Boyd (1996) en el diseo de modelos de redes neuronales para prediccin de series de tiempo financieras y econmicas, la cual est compuesta por ocho pasos descritos a continuacin. Aunque existen muchas similitudes entre los modelos de RNA y los modelos estadsticos, la terminologa usada en ambos campos son muy diferentes, por lo que en el apndice A, se proporciona una lista de la terminologa estadstica y su equivalencia respectiva en la literatura de RNA.
4.2.1 Seleccin de variables Determinar qu variables de entrada son importantes en el pronstico de series de tiempo es un asunto crtico. En este caso, el inters en la prediccin involucra emplear como entradas datos tcnicos en lugar de fundamentales por las
57
caractersticas mismas de la investigacin. La forma ms simple de modelar redes neuronales involucra emplear valores retrasados de la variable dependiente o sus primeras diferencias como entradas. Generalmente, en las aplicaciones en mercados accionarios y de derivados es ms probable de usar datos diarios en el diseo de una red neuronal como un componente de todo un sistema completo (Kaastra, op. cit., p. 220). Sin embargo, tambin es posible emplear datos semanales o mensuales como entradas de la red en el caso de que se requiera formular una estrategia diferente que involucre intervalos de tiempo mayores.
4.2.2 Coleccin de datos Al seleccionar las variables del paso anterior tambin se debe considerar su costo y disponibilidad. Tpicamente los datos tcnicos son ms fcilmente disponibles por parte de varios proveedores a cierto costo, mientras que la informacin fundamental es ms difcil de conseguir. El tiempo dedicado a la recoleccin de datos no puede ser usado para el pre procesamiento, entrenamiento y la evaluacin del desempeo de la red. El vendedor de los datos debe tener la reputacin de proporcionar datos de alta calidad, sin embargo, todos los datos debe ser revisados para evitar inconsistencias lgicas y falta de datos. En este caso los datos se obtuvieron por medio de Economtica, el cual se considera un proveedor serio. Es importante tambin mencionar que se deben calcular los retrasos de los datos apropiadamente de manera que se puedan introducir a la red.
4.2.3 Pre-procesamiento de datos El pre-procesamiento de datos se refiere al hecho de analizar y transformar las variables de entrada y salida para minimizar el ruido, enfatizar relaciones importantes, detectar tendencias, y aplanar la distribucin de la variable para ayudar a la red neuronal en el aprendizaje de patrones relevantes. Como las redes neuronales son buscadores de patrones, la representacin de los datos es crtica en el diseo de una red exitosa. Las variables de entrada son raramente ingresadas a la red en su forma original. Al menos los datos deben ser escalados entre los lmites inferior y superior de la funcin de transferencia (generalmente entre 0 y 1 -1 y 1). Dos de las transformaciones de datos ms comunes tanto en mtodos tradicionales como en redes neuronales es tomar las primeras diferencias y calcular el logaritmo natural de la variable independiente. La primera diferenciacin es para quitar tendencias lineales en los datos. La transformacin logartmica es til para datos que pueden tomar valores muy pequeos o muy grandes y que estn caracterizados por una distribucin de cola derecha extendida. Las transformaciones logartmicas tambin convierten las
58
relaciones multiplicativas o de razones en aditivas lo cual se cree que simplifica y mejora el entrenamiento de la red. Otra transformacin de datos muy popular es la que emplea las razones de las variables de entrada. Tales razones resaltan las relaciones importantes al mismo tiempo que se conservan los grados de libertad debido a que se necesitan menos neuronas para generar las variables independientes.
4.2.4 Conjuntos de entrenamiento y prueba Comnmente el total de datos de la muestra se divide en dos conjuntos, llamados de entrenamiento y prueba. El conjunto de entrenamiento es el ms grande y es utilizado por la red neuronal para aprender los patrones existentes en los datos. El conjunto de prueba, que vara del 10% al 30% del conjunto de entrenamiento se utiliza para evaluar la capacidad de generalizacin de una red ya entrenada. El investigador selecciona la red que se desempea mejor de acuerdo al conjunto de prueba. Algunas veces tambin se incluye un conjunto de validacin el cual debe consistir de las observaciones ms recientes. El conjunto de prueba puede ser seleccionado ya sea aleatoriamente del conjunto de entrenamiento o consistir de un conjunto de observaciones ubicadas inmediatamente despus del conjunto de entrenamiento. La ventaja de utilizar las observaciones ms recientes como hechos de prueba es que dichas observaciones pueden ser ms importantes que los datos anteriores.
4.2.5 Paradigmas de las redes neuronales Existe un nmero infinito de maneras de construir una red neuronal; como ya se mencion en la Parte I, la neurodinmica y la arquitectura son dos trminos usados para describir la forma en que se organiza una red. La combinacin de la neurodinmica y la arquitectura define el paradigma de la red neuronal. De acuerdo a Caudill (1992), la red de retropropagacin es la red multicapa ms comn utilizada casi en el 80% de las aplicaciones.
4.2.5.1 Nmero de capas ocultas Las capas ocultas dan a la red la habilidad de generalizar, y en la prctica las redes neuronales con una dos capas ocultas son las ms utilizadas y han tenido un buen desempeo. El incremento en el nmero de capas tambin incrementa el tiempo de procesamiento y el peligro de sobreajuste lo que conduce a un pobre desempeo en la prediccin fuera de muestra. El sobreajuste ocurre cuando un modelo de prediccin tiene muy pocos grados de libertad. En otras palabras, se tienen relativamente pocas observaciones en relacin con sus parmetros y por lo
59
tanto es capaz de memorizar datos individuales en lugar de aprender patrones generales. Por lo tanto, se recomienda que todas las redes neuronales comiencen de preferencia con una o a lo mucho con dos capas. En esta investigacin se emplear una sola capa oculta, ya que una capa es suficiente, de acuerdo a lo mencionado en el marco terico para aproximar cualquier funcin razonable.
4.2.5.2 Nmero de neuronas ocultas Se traza una grfica del criterio de evaluacin (v. gr. la suma del cuadrado de los errores) en el conjunto de entrenamiento como una funcin del nmero de neuronas ocultas para cada red neuronal. Dicha grfica produce una forma de tazn, en la cual, la red que genere el menor error en el fondo del tazn ser la red que sea capaz de generalizar mejor. Este mtodo consume mucho tiempo pero generalmente da buenos resultados. Para determinar el nmero de neuronas en la capa oculta no existen reglas generales o teoras, aunque existen algunas recomendaciones sugeridas por varios investigadores: Shih (1994), sugiere que la topologa de la red debe tener una forma piramidal, esto es, tener el mayor nmero de neuronas en la capa de entrada y menos en las posteriores. Recomienda que el nmero de neuronas en cada capa este ms o menos entre la mitad de la capa siguiente y el doble del nmero de la capa anterior. De acuerdo con Azoff (1994), son suficientes 2N+1 neuronas para N entradas. Baum y Haussler (1998) sugieren que el nmero de neuronas sea calculado me donde j es el nmero de neuronas en la capa oculta, m es el por: j = n+z nmero de datos en el conjunto de entrenamiento, e es la tolerancia al error, n es el nmero de entradas y z es el nmero de salidas.
La mayora de los investigadores no estn convencidos de las recomendaciones anteriores ya que argumentan que no hay forma de determinar una buena topologa de la red a partir slo del nmero de entradas y salidas. De acuerdo al Neural Network FAQ (1996), lo recomendable es empezar a probar con un nmero pequeo de neuronas ocultas e incrementarlo gradualmente slo si la red neuronal parece no aprender. De esta forma, el problema del sobreajuste que puede ocurrir al existir ms pesos (parmetros) que muestras de datos puede ser reducido. Este es el mtodo que se emplear para determinar el
60
nmero de neuronas en la capa oculta de la red. Sin embargo, Lawrence et. al. (op. cit.) dicen que utilizar redes ms grandes ayuda a reducir tanto el error de entrenamiento como el de generalizacin.
4.2.5.3 Nmero de neuronas de salida Decidir el nmero de neuronas de salida es algo ms sencillo porque hay muchas razones para emplear slo una neurona de salida. Las redes neuronales con mltiples salidas, especialmente si stas salidas estn ampliamente espaciadas, producirn resultados inferiores en comparacin con una red con una nica salida. Lo recomendable es tener una red especializada para cada una de las salidas deseadas en cada prediccin.
4.2.5.4 Funciones de transferencia Siempre es recomendable ver los histogramas de las variables escaladas de entrada y salida, de manera que se pueda identificar la necesidad de realizar un escalamiento que produzca una distribucin uniforme y poder emplear el nmero de neuronas disponibles de manera eficiente.
4.2.6 Criterio de evaluacin En redes neuronales la funcin de error ms comn a minimizar es la suma del cuadrado de los errores.
4.2.7 Entrenamiento de la red Entrenar una red neuronal para aprender patrones involucra el presentarle ejemplos de manera iterativa de las respuestas correctas. El objetivo del entrenamiento es encontrar un conjunto de pesos entre las neuronas que determinan el mnimo global de la funcin de error. A menos que el modelo est sobreajustado, el conjunto de pesos debera proporcionar una buena generalizacin. Un trmino de momento y de cinco a diez conjuntos aleatorios de pesos iniciales pueden mejorar las oportunidades de alcanzar un mnimo global.
4.2.7.1 Nmero de iteraciones de entrenamiento Muchas veces el procedimiento de agregar un nmero mayor de iteraciones en el entrenamiento producir un menor error en el entrenamiento, pero ste a su vez no garantiza que se obtendr el menor error en con el conjunto de prueba, tal y como se ilustra en la figura 4.1
61
Error Datos de prueba
Datos de entrenamiento
Nmero de iteraciones de entrenamiento
Figura 4.1 Grficas posibles del comportamiento de los errores en los conjuntos de entrenamiento y prueba de una RNA.
El objetivo de la convergencia en el entrenamiento es alcanzar un mnimo global. El punto en el cual la red ya no mejora se llama convergencia. Esto requiere entrenamiento para un nmero suficiente de operaciones utilizando un nmero razonable de pesos iniciales seleccionados aleatoriamente. Un mtodo para determinar un valor razonable para el mximo nmero corridas es dibujar la grfica de la correlacin de la media, la suma de los cuadrados de los errores o cualquier otra medida de errores apropiada para cada iteracin o en intervalos predeterminados hasta el punto en donde la mejora es imperceptible. Cada iteracin se puede dibujar fcilmente si el software crea un archivo de estadsticas o, si la correlacin de la media puede ser grabada a intervalos de 100 200. Despus de dibujar la correlacin de la media para un nmero valores iniciales de los pesos seleccionados aleatoriamente, se debe escoger el mximo nmero de corridas basado en el punto donde la correlacin de la media deja de incrementar y se estabiliza. El entrenamiento es afectado por varios factores como la tasa de aprendizaje y los valores de momento, mejoras de los programas comerciales al algoritmo de BP, entre otros, lo cual difiere entre estudios y por lo tanto es difcil determinar un valor general para el mximo nmero de corridas. Tambin, la precisin numrica del software de la red neuronal puede afectar el entrenamiento debido a que la pendiente de la derivada del error puede llegar a ser muy pequea provocando que se mueva en una direccin incorrecta y no se alcance el mnimo global.
4.2.7.2 Tasa de aprendizaje y momento La tasa de aprendizaje es una constante de proporcionalidad que determina el tamao del cambio de los pesos. El cambio de los pesos de una neurona es proporcional al impacto del peso de las neuronas sobre el error. Un mtodo de incrementar la tasa de aprendizaje y por lo tanto agilizar el tiempo de entrenamiento sin caer en oscilaciones, es incluir un trmino de momento en la regla de
62
aprendizaje de BP. El trmino de momento determina cmo los cambios pasados de los pesos afectan a los actuales cambios en los pesos. Este trmino suprime oscilaciones lado a lado filtrando variaciones de alta frecuencia. Cada nueva direccin de bsqueda es una suma ponderada de los gradientes actuales y previos. La mayora de los programas de software proporcionan valores por default para la tasa de aprendizaje y trminos de momento que generalmente funcionan bien. Las tasas de aprendizaje usadas en los trabajos previos varan de 0.1 a 0.9. Es comn empezar el entrenamiento con una tasa de aprendizaje como 0.7 y disminuirla conforme avanza el entrenamiento. Muchos de los programas disminuyen la tasa de aprendizaje y aumentan los valores de momento conforme se alcanza la convergencia.
4.2.8 Implementacin La mayora de los vendedores de software proporcionan los medios para implementar las redes obtenidas ya sea por el programa mismo o como un programa ejecutable. Tambin es posible replicar la respuesta de la red en una hoja de clculo conociendo su arquitectura, funciones de transferencia y pesos. As como tambin es importante tomar en cuenta todas las transformaciones de datos, escalamiento, y otros parmetros empleados en la etapa de pruebas. En un mercado cambiante, es necesario re-entrenar la red peridicamente para que no pierda su habilidad de adaptacin. Una vez implementada, el desempeo de la red se degradar con el tiempo, sin embargo, an cuando se realice un entrenamiento peridico, no se garantiza el desempeo de la red porque se puede dar el caso de que las variables independientes seleccionadas cambien de importancia.
63
Captulo 5: Desarrollo y anlisis de resultados
Captulo 5 Desarrollo y anlisis de resultados
5.1 Datos Los datos a utilizar pertenecen a la serie de cotizaciones de cierre del Futuro sobre Cetes a 91 das en el Mercado Mexicano de Derivados del 1 de noviembre de 2002 al 12 de abril de 2007 que vencen en diciembre de 2008. Estos futuros tienen como activo subyacente a los Certificados de la Tesorera de la Federacin con un plazo de 91 das (en adelante slo Cetes). Cada contrato de Futuro sobre Cetes a 91 das ampara una cantidad de 10,000 (diez mil) Cetes, equivalente a un valor nominal de 100,000 pesos (cien mil 00/100 pesos). El smbolo o clave de pizarra del Contrato de Futuro es CE91 DC08. La celebracin del Contrato de Futuro de Cetes a 91 das en MexDer tendr como unidad de cotizacin de la Tasa Futura a la tasa porcentual anualizada, expresada en tantos por ciento, con dos dgitos despus del punto decimal 26 . Los datos de los Cetes de 91 das es empleado en varios estudios como la tasa de referencia, como ejemplo, Guzmn, Leyva y Crdenas (2007), realizan un estudio del futuro del ndice de Precios y Cotizaciones (IPC) de la Bolsa Mexicana de Valores (BMV) empleando como tasa de largo plazo a los Cetes de 91 das, por lo que se considera un indicador importante dentro del sistema financiero mexicano. De acuerdo a Kaastra y Boyd (1996, op. cit), suavizar tanto los datos de entrada como los de salida, empleando ya sea promedios mviles simples o exponenciales, puede ser una forma recomendable en el caso de que se intente predecir la tendencia de una serie, en lugar de intentar predecir los cambios en precios alrededor de la tendencia, en cuyo caso, lo mejor es modelar las series de tiempo financieras por medio de modelos ARCH. En este trabajo, se realiza un suavizado exponencial de los datos, de manera que se obtengan pronsticos sobre la tendencia de la serie en lugar de los valores originales, tanto para el modelo ARIMA como para el modelo con RNA.
5.2 Obtencin del modelo ARIMA para la serie MexDer Cete Dc08 La muestra usada para ajustar el modelo de la serie de la TIIE contiene el 80% del total de los datos y se usarn los componentes AR y MA como las variables explicativas. Los das en los que no hubo negociacin en el mercado no se consideran, de esta manera, se obtienen 1115 datos. Para poder realizar los anlisis de una manera ms gil, se utiliza el software economtrico Eviews 27
26 27
Fuente: MexDer. Eviews versin 4.1 desarrollado por Quantitative Micro Software.
64
5.2.1 Anlisis exploratorio de la serie Realizando un suavizamiento exponencial por medio del mtodo Holt-Winters sin estacionalidad con un factor de 0.3 se obtiene un valor de suma de residuos al cuadrado (SRC SSR) de 71.54030 y un valor de la raz del error cuadrtico medio (RMSE) de 0.2832, en comparacin con un factor de 0.64 que es el valor ptimo calculado por el programa, en donde se obtiene un SSR de 58.8 y un RMSE de 0.256750. La grfica tanto de la serie original como de la suavizada exponencialmente se muestra en la figura 5.1.
Figura 5.1 Grfica del Cete Dc08 en el MexDer del 1-Nov-02 al 12-Abr-07.
Se puede observar de la grfica que la serie tiene una cierta tendencia, por lo que ser necesario trabajar en diferencias. Tomando logaritmos se reduce, adems, la dispersin de la serie. El resultado de la serie as calculada (en lo sucesivo RCT o rendimiento logartmico) se presenta en la figura 5.2.
65
Figura 5.2 Grfica de la serie del rendimiento logartmico (RCT).
La aplicacin de modelos ARIMA debe realizarse sobre series estacionarias. La estacionariedad implica que se cumpla con un doble requisito en la prctica: a) una media aproximadamente constante en el tiempo y, b) una varianza o dispersin tambin constante. Esto implica que si dividimos la serie en sub-periodos arbitrarios, la media y la varianza sean aproximadamente iguales en cada uno de ellos. De la serie RCT se puede observar que la media de la serie es cero y la varianza en general no sobrepasa el valor del intervalo de 0.02. Ser entonces esta serie la que habr de modelarse con un ARMA(p, q), con d = 1, en el modelo ARIMA correspondiente. Dado que la metodologa de Box-Jenkins requiere que las series sean estacionarias, es importante comprobar esta situacin antes de trabajar con ellas. El mtodo formal para analizar si la serie RCT es estacionaria es el empleo de la prueba de races unitarias. La prueba de races unitarias ms empleada es la prueba de Dickey-Fuller y su variante Dickey-Fuller Aumentada (DFA) que es la considerada en este estudio. Tambin se emplear adicionalmente la prueba de Phillips-Perron. Tanto la prueba de Dickey-Fuller como la de Phillips-Perron plantean como hiptesis nula la existencia de una raz unitaria H0 : = 1.
66
Se prueba entonces la existencia de una raz unitaria mediante el estadstico de Dickey y Fuller. La prueba se especifica con intercepto y tendencia, agregando 20 rezagos (prueba aumentada). Para el caso de la serie en niveles, el valor del estadstico es de -3.319381 por lo que no se puede rechazar la hiptesis nula, incluso al 5% de significatividad. Lo anterior dado que la hiptesis nula se acepta si el estadstico es menor que los valores crticos de MacKinnon, y tales valores son -3.968406 al 1%, -3.414877 al 5% y -3.129612 al 10%. Mediante la aplicacin de la prueba de Phillips-Perron especificada con intercepto y tendencia a la serie en niveles, el valor del estadstico es de 3.070658 por lo que no se puede rechazar la hiptesis nula, incluso al 10% de significatividad. Los valores crticos de MacKinnon son -3.968383 al 1%, -3.414866 al 5% y -3.129605 al 10%. Otro procedimiento para comprobar la existencia de una raz unitaria en la serie en niveles consiste en observar el correlograma de la misma. Como se puede apreciar en la figura 5.3, la funcin de auto correlacin decrece exponencialmente y de forma lenta, mientras que la funcin de auto correlacin parcial presenta un valor significativo en el retardo uno, con un coeficiente de auto correlacin cercano a la unidad.
67
Figura 5.3 Correlograma de la serie del futuro del Cete suavizada en niveles.
Como la serie en niveles no es estacionaria, se aplican las pruebas anteriores a la serie RCT. La prueba DFA arroja un valor del estadstico de 13.68947, no significativo, valor que permite rechazar la hiptesis nula, puesto que el valor del estadstico DFA es superior a los valores crticos de MacKinnon. Por medio de la prueba Phillips-Perron especificada con intercepto y tendencia a la serie RCT, el valor del estadstico es de -20.05657 por lo que se rechaza la hiptesis nula, para todos los niveles de significatividad. Los valores crticos de MacKinnon son -3.968394 al 1%, -3.414872 al 5% y -3.129608 al 10%.
68
5.2.2 Identificacin del modelo El siguiente paso consiste en determinar el tipo de modelo ms adecuado de la serie RCT. Los valores de p y q se determinan a partir de las funciones de auto correlacin y auto correlacin parcial. Mediante la aplicacin de intervalos de confianza al 95% y considerando que las funciones de auto correlacin siguen una distribucin normal, se determinan qu retrasos o rezagos son estadsticamente significativos. Para un intervalo de confianza del 95%, de las tablas de distribucin normal se tiene que Z = 1.96. El intervalo de confianza entonces ser Z/n = 0.065625654, donde n es el tamao de la muestra. Al observar el correlograma en la figura 5.4 se aprecia que la funcin de auto correlacin disminuye exponencialmente 28 , mientras que la funcin de auto correlacin parcial tiene los dos primeros coeficientes significativos de acuerdo con los lmites del intervalo de confianza, el cual permite identificar un modelo AR de orden 2. Existen tambin otros rezagos significativos como el 27 pero dada su distancia y debido a que es un coeficiente aislado no se le da ninguna validez.
28
Los correlogramas se obtuvieron con un tercio del total de los datos de la muestra.
69
Figura 5.4 Correlograma de la serie RCT.
El modelo AR(2) queda en consecuencia de la siguiente forma: RCTt = 0 + 1RCTt 1 + 2RCTt 2 + t Se procede entonces a la estimacin de los coeficientes . La ecuacin estimada queda:
70
RCTt = 0.000393 + 0.347720RCTt 1 + 0.160996RCTt 2 El error estndar de 0 es 0.000509, el de 1 es 0.033146 y el de 2 es 0.033147. 5.2.3 Verificacin de diagnstico Revisando el estadstico se puede contrastar la hiptesis bsica de que el parmetro terico sea nulo. Para el nmero de datos empleado, con dos grados de libertad, el valor de es aproximadamente 1.96, por lo que al comparar los estadsticos de cada uno de los componentes se rechaza claramente la hiptesis de nulidad del parmetro terico al ser superiores al valor mnimo, excepto por el trmino constante. Los valores de para cada uno de los parmetros estimados son: -0.771925 para 0, 10.49014 para 1 y 4.857713 para 2. En trminos de probabilidad (valor estimado = 0) es prcticamente imposible que con un coeficiente nulo y unos errores estndar como los estimados se obtengan coeficientes tan elevados como los obtenidos. Otra forma de determinar la validez del modelo estimado es por medio de la matriz de covarianzas y el grfico de los residuos. La matriz de covarianzas proporciona un punto de referencia sobre la relacin entre parmetros del modelo.
C AR(1) AR(2) C 2.59E-07 -1.43E-08 -8.52E-09 AR(1) -1.43E-08 0.00109866 0.00045533 AR(2) -8.52E-09 0.00045533 0.00109873
Las covarianzas relativamente altas indican parmetros en cierta forma redundantes, algunos de los cuales se podran eliminar sin disminuir la capacidad predictiva del modelo. En este caso, dado que las covarianzas son reducidas, es conveniente conservar todos los coeficientes del modelo. Si se revisan los residuos en la figura 5.5, se confirma que, dado que la varianza en el primer cuarto de la muestra fue muy alta, se obtienen residuos que rebasan el intervalo establecido, aunque en general los residuos del modelo pueden considerarse como ruido blanco.
71
Figura 5.5 Grfico de los residuos de la serie RCT.
5.2.3.1 Contraste de validez del modelo Con base en algunos criterios de anlisis se determina la validez del modelo a partir de ciertas medidas de error. El valor de R2 del modelo calculado es de 0.193335. El valor de R2 ajustado por los grados de libertad es de 0.191514. En cualquier aplicacin es importante aclarar si el coeficiente de determinacin (o cuadrado del coeficiente de correlacin) est referido a la variable original o a la transformada. En este caso R2 se calcula sobre el rendimiento logartmico de la serie, y esto implica trabajar con unos valores sensiblemente ms bajos que si se calcularan en trminos de la variable inicial. Como punto de referencia, es bueno tener presente que coeficientes de correlacin de 0.5 a 0.7 en una variable en diferencias pueden ser equivalentes a coeficientes frecuentemente superiores a 0.9 en la variable original. Para este modelo en particular la bondad de ajuste puede considerarse baja. El error estndar de la regresin es de 0.007449. Otro criterio para la validacin de un modelo es el contraste del conjunto de nulidad de todos los parmetros del modelo, que se realiza por medio de la prueba F. Slo se aceptar la hiptesis si el valor calculado de la prueba F es menor que el
72
establecido en las tablas de la distribucin F con (k-1) y (n-k) grados de libertad al nivel de confianza del 95%. El estadstico F tiene un valor de 106.1744 que es mucho mayor al valor de 3 para la distribucin F del modelo obtenido, en consecuencia se rechaza la hiptesis. El contraste de Durbin-Watson permite verificar la hiptesis alterna de un proceso autorregresivo de primer orden en los residuos con respecto a la nula. Dado que al elaborar un modelo ARMA se desean obtener residuos que se comporten como ruido blanco y que, por lo tanto, no muestren auto correlacin de ningn orden, el valor ideal sera de 2. En la prctica, se consideran como valores aceptables valores relativamente cercanos a 2, por ejemplo, entre 1.5 y 2.5. El valor estimado de este modelo es de 2.001275. 5.2.4 Pronstico Una vez seleccionado el modelo, se puede pasar a la etapa de prediccin, la grfica de pronstico se muestra en la figura 5.6
Figura 5.6 Pronstico realizado mediante el modelo ARIMA sobre la serie RCT.
73
5.3 Obtencin del modelo RNA para la serie MexDer Cete Dc08 A continuacin se especifican los pasos a seguir para construir, entrenar y probar una red neuronal para predecir valores futuros en el tiempo t+1, basndose nicamente en los valores histricos de la serie correspondiente al futuro sobre el Cete de 91 das en el MexDer. 5.3.1 Seleccin de variables Los datos a utilizar son los obtenidos por medio del suavizamiento exponencial de la serie de tiempo calculada en el punto 5.2.1. Se propone utilizar como programa de desarrollo al Neural Network Toolbox de Matlab 29 , ya que es una herramienta genrica de programacin muy potente en la manipulacin de matrices, redes neuronales y gran flexibilidad en la manipulacin de parmetros. 5.3.2 Coleccin de datos Para poder introducir la serie de tiempo a la red neuronal es necesario tener los datos de tal forma que se puedan manipular con facilidad en la RNA, es por eso que se propone copiar los datos a un vector columna A como el siguiente:
at n ... a t 3 A= a t 2 at 1 at A partir del vector anterior se genera la matriz de retrasos Br que contiene los elementos de retraso que sern utilizados como entradas a la red neuronal artificial. La primera columna se considerar como el objetivo, mientras que las dems columnas sern las correspondientes a los retrasos hasta un mximo de r, el cual ser fijado de acuerdo a los criterios mencionados en la determinacin de las entradas.
B
29
Matlab versin 6.5 desarrollado por MathWorks Inc.
74
at n a t n +1 at n + 2 Br = ... at 2 at 1 a t donde:
0 at n
0 0
... ... ... ... ... ... ...
at n +1 at n ... ... at 3 a t 4 at 2 at 1 at 3 at 2
0 0 0 ... at r 2 at r 1 at r
n es el nmero total de elementos de la serie r es el nmero de retrasos 5.3.3 Pre-procesamiento de datos El entrenamiento de la red neuronal se puede hacer ms eficiente si se lleva a cabo un pre procesamiento en las entradas y objetivos de la red, que consiste en reescalar las entradas (Demuth y Beale, 1998). En este caso, los datos de la serie se normalizan o transforman a valores comprendidos entre -1 y 1 empleando la siguiente ecuacin:
zt = 2y t (y max + y min ) y max y min
Donde: yt: valores originales de la serie de tiempo ymax: valor mximo de la serie de tiempo ymin: valor mnimo de la serie de tiempo zt: serie de tiempo transformada en valores entre -1 y 1. Se escalan los datos en el intervalo [-1, 1] para emplear la funcin tangente hiperblica cuyo codominio se encuentra en el mismo intervalo, ya que de acuerdo a Kalman y Wasny (1992) es la funcin de transferencia ideal. Masters (1993), la forma de la funcin tiene un pequeo efecto en la red aunque tiene un impacto significativo en la rapidez de entrenamiento. Al terminar de realizar la prediccin, los datos obtenidos se re-escalan a su valor original invirtiendo la ecuacin anterior.
75
5.3.4 Conjuntos de entrenamiento y prueba Los valores de la serie de tiempo se dividen en dos conjuntos de datos: 1. Conjunto de entrenamiento. Lo constituye el conjunto del 80% de los datos de la serie. Se seleccionan de forma consecutiva y ordenada. Este conjunto de datos es el que se utiliza para el entrenamiento de la RNA. 2. Conjunto de prueba. Esta formado por el conjunto del 20% de los datos de la serie. Corresponde a los datos restantes, una vez seleccionados los patrones de entrenamiento. Este conjunto de datos se utiliza para evaluar la capacidad de generalizacin o prediccin de la red. Los conjuntos de entrenamiento y prueba se obtienen a partir de la matriz Br. Primero se eliminan los primeros r renglones de la matriz. A los elementos que no tienen retrasos se les asigna cero (dado que ya no hay ms datos anteriores). Posteriormente, la matriz restante se divide en dos partes, una que contiene el 80% de los renglones y otra con el 20% restante, correspondiente a los conjuntos de entrenamiento y prueba respectivamente. De esta manera, para seleccionar un retraso especfico y considerarlo en el entrenamiento basta con incluir la columna correspondiente a tal retraso. La primera columna ser invariablemente el objetivo a perseguir, es decir, lo que la red deber aprender con base en los retrasos proporcionados. 5.3.5 Paradigma de la red neuronal 5.3.5.1 Topologa de la red Se propone una topologa de red con las siguientes caractersticas:
-
Red multicapa unidireccional o perceptrn multicapa (MLP), es decir una red con conexiones que pasan las salidas en una nica direccin a neuronas en la siguiente capa. Red totalmente interconectada en la que la salida de cada neurona es conectada a cada una de las otras neuronas de la siguiente capa. Nmero de entradas: p Nmero de capas ocultas: 1 Nmero de neuronas en la capa oculta: q Funcin de transferencia o activacin de las neuronas de la capa oculta: tangente hiperblica.
76
Funcin de transferencia o activacin de la capa de salida: lineal.
5.3.5.2 Determinacin de las entradas Como no existe una regla para determinar qu entradas son las mejores para realizar la prediccin, se consideran dos opciones para determinar las entradas de la red neuronal:
-
Se sugiere emplear 10 retrasos y como lo sugiere Faraway y Chatfield (1998), analizar los pesos correspondientes a cada entrada para seleccionar las entradas con los pesos de mayor magnitud, adems de comparar el error generado tanto en el ajuste como en la prediccin con las entradas seleccionadas. Una vez determinado el modelo ARIMA, se seleccionan como entradas los retrasos correspondientes de este modelo (coeficientes estadsticamente significativos).
5.3.5.3 Determinacin del nmero de neuronas en la capa oculta y entrenamiento Al igual que en la determinacin de las entradas, no existe una regla general para la obtencin de los parmetros de la red que se desempea mejor en cada situacin. Se realiza entonces un procedimiento automtico de bsqueda, por medio de un "barrido" de los parmetros que determinan el comportamiento de la red, por lo que, para obtener los parmetros de la red neuronal que arroja el menor error tanto en el ajuste como en la prediccin, se realizan tres ciclos anidados que evalan diversas redes en donde se establecen como parmetros de variacin, el porcentaje de error mximo permitido de 0.01 a 0.1, con incrementos de 0.01, el nmero de neuronas en la capa oculta de 1 a 10 con incrementos de 1, as como el nmero de retrasos tambin de 1 a 10 con incrementos de 1. Debido a la gran cantidad de recursos de cmputo requeridos -sobre todo cuando el porcentaje de tolerancia al error es pequeo-, se evalan 2 redes por cada una de las combinaciones de parmetros cuando el error permitido va de 0.01 a 0.04, 50 redes cuando el error permitido es de 0.05 y 200 redes cuando el error permitido va de 0.06 a 0.1, esto para evitar evaluar slo una red y evitar obtener una red que quede atrapada en un mnimo local, lo cual no permita decidir si la red es adecuada o no con los parmetros establecidos. El error permitido determina la posibilidad de sobreentrenamiento y la disminucin en la capacidad de generalizacin, el nmero de neuronas ocultas establece la capacidad de encontrar relaciones no lineales de ms alto orden en los datos conforme el nmero de neuronas aumenta y, el nmero de retrasos permite identificar en nmero de entradas que conducen a la obtencin de un menor error.
77
Con base en el ciclo de clculos mencionado, se escoge la red que presenta el menor error promedio de la suma del cuadrado de los errores tanto en el ajuste o etapa de entrenamiento (SSE-E) como en la etapa de prediccin (SSE-P). La red obtenida de este modo tiene 6 neuronas ocultas, 6 retrasos y un porcentaje de error permitido de 0.06. Grficamente la red as obtenida se puede observar en la figura 5.7. 5.3.5.4 Algoritmo de entrenamiento Se propone emplear el algoritmo de retropropagacin, el cual es por mucho el algoritmo ms popular y ms ampliamente usado por los investigadores en redes neuronales artificiales adems de estar implementado en casi todos los paquetes de software comercial. Su popularidad se debe a la simplicidad en el diseo e implementacin. La red neuronal se entrena en particular con el algoritmo Levenberg-Marquardt de Matlab, que es el mtodo ms rpido para entrenar redes de hasta varios cientos de pesos (Qi, 1999). 5.3.5.5 Seleccin de pesos iniciales La eleccin de los pesos iniciales es importante y se recomienda probar con diferentes conjuntos de valores iniciales para obtener los mejores resultados. Los pesos iniciales se generan aleatoriamente 50 veces (Faraway y Chatfield, op. cit.) y se selecciona el modelo que tenga menor promedio entre la suma de cuadrados de los errores de ajuste y prediccin. 5.3.6 Criterio de evaluacin En redes neuronales la funcin de error ms comn a minimizar es la suma de los cuadrados de los errores. El error tanto en el ajuste como en la prediccin se calcula mediante:
S = (x t x t )
t 2
Donde: xt es el valor de la serie original y xt es el valor de la serie ajustada
78
5.3.7 Implementacin Por medio de la ecuacin de prediccin definida por la red neuronal, se obtiene el valor de la prediccin en el tiempo t + 1. Se calcula entonces el error de generalizacin. A partir de los errores de entrenamiento y generalizacin se comparan las redes obtenidas y se selecciona aquella en la que ambos valores son mnimos. Como ya se explic anteriormente, no es conveniente que el error de entrenamiento sea muy pequeo en comparacin con el error de generalizacin, pues esto indica un sobreajuste o memorizacin. La correlacin entre los valores originales de la serie y los estimados por la red neuronal puede usarse como una medida de la exactitud de la prediccin. La arquitectura del modelo de red estimada puede observar en la figura 5.7.
x(t)
no1
no2
no6
x(t-1)
x(t-2)
x(t-3)
x(t-6)
Figura 5.7 Arquitectura de la RNA que proporciona los mejores resultados.
Los pesos resultantes entre la capa de entrada y la capa oculta del modelo se muestran en la tabla 5.1.
79
Entradas
t-1 t-2 t-3 t-4 t-5 t-6
no1 -0.2969 -0.8582 -2.084 -0.9691 -0.98 -0.5264
no2 -1.5023 1.0048 0.7195 -0.0573 0.69 -0.5593
Neuronas ocultas no3 no4 -0.5185 1.7265 0.7723 -0.461 1.5533 -0.8571 -1.8619 0.2886 -1.2869 -1.4761 -1.1919 0.809
no5 -0.1343 0.8479 0.647 0.6284 0.6151 1.3209
no6 -0.5926 0.3574 1.0996 -0.5658 0.9811 -0.6468
Tabla 5.1 Pesos entre la capa de entrada y la capa oculta de la RNA estimada.
Los pesos entre la capa de oculta y la capa de salida se muestran en la tabla 5.2.
no1 0.667 no2 0.6094 Neuronas ocultas no3 no4 -0.4595 -0.1782 no5 0.0871 no6 -0.9801
Salida
ns
Tabla 5.2 Pesos entre la capa oculta y la capa de salida de la RNA estimada.
Una vez seleccionado el modelo, se puede pasar a la etapa de prediccin, la grfica del pronstico se muestra en la figura 5.8
Figura 5.8 Pronstico realizado mediante el modelo RNA sobre la serie RCT.
80
5.4 Resultados obtenidos
5.4.1 Resultados obtenidos por medio del modelo ARIMA Para obtener la grfica de pronstico de la serie estimada, respecto a niveles en lugar de sus cambios, se deshace la transformacin de primeras diferencias logartmicas que se haba utilizado para obtener los cambios. La grfica de la serie pronosticada por el mtodo ARIMA se presenta en la figura 5.9.
Figura 5.9 Pronstico realizado mediante el modelo ARIMA en niveles.
81
5.4.2 Resultados obtenidos por medio del modelo RNA La grfica de la serie pronosticada por el mtodo RNA en niveles se presenta en la figura 5.10.
Figura 5.10 Pronstico realizado mediante el modelo RNA en niveles.
5.4.3 Caractersticas de las series pronosticadas por ARIMA y RNA Los pronsticos de la series pronosticadas por ARIMA y RNA en niveles se muestran en la figura 5.11, de la que se puede observar que el modelo obtenido por RNA pronostica mejor los datos en las primeras 60 observaciones, mientras que despus, el modelo ARIMA sigue ms de cerca la tendencia original, sin embargo, la forma de la serie obtenida por RNA es ms parecida a la original, aunque sobrevala los datos.
82
Figura 5.11 Comparacin entre pronsticos mediante ARIMA y RNA en niveles.
Se evala tambin si los valores generados los ambos modelos son capaces de reproducir los primeros cuatro momentos de la distribucin de los valores de la serie suavizada exponencialmente sobre los 223 datos pronosticados.
Media Mediana Mximo Mnimo Desv. est. Sesgo Curtosis Observaciones Cete 7.686204 7.565988 8.778021 7.139742 0.400236 1.037646 3.195469 223 Cete ARIMA 7.665720 7.590327 8.337034 7.322352 0.277075 0.910380 2.613966 223 Cete RNA 7.856051 7.788938 8.553452 7.506110 0.249297 0.952238 3.275114 223
Tabla 5.3 Caractersticas de las distribuciones de la serie del Cete de 91 das en el MexDer y sus series pronosticadas por ARIMA y RNA.
De la comparacin entre los momentos de la distribucin de los valores observados y los correspondientes pronsticos (tabla 5.3), se desprende que la media, la mediana y la desviacin estndar de los valores del pronstico realizado con el modelo ARIMA se encuentran ms cerca de los valores correspondientes a la distribucin de los valores observados para la serie original, sobre todo por la sobre
83
valuacin de los datos a partir del dato pronosticado 60. Sin embargo, el modelo se desempea mejor para los datos del periodo ms cercano de prediccin (tabla 5.4).
Media Mediana Mximo Mnimo Desv. est. Sesgo Curtosis Observaciones Cete 8.256858 8.227721 8.778021 7.659780 0.282291 -0.082628 2.498411 60 Cete ARIMA 8.075380 8.058860 8.337034 7.748821 0.147812 -0.159937 2.579405 60 Cete RNA 8.189274 8.177933 8.557499 7.792983 0.200125 -0.010964 2.377994 60
Tabla 5.4 Caractersticas de la serie del Cete de 91 das en el MexDer y sus series pronosticadas por ARIMA y RNA en los primeros 60 das.
5.5 Pruebas de hiptesis
Con el afn de someter a prueba o escrutinio emprico las hiptesis planteadas al inicio y determinar si son apoyadas o refutadas, se calculan algunos estadsticos comnmente utilizados para determinar la bondad de ajuste y la capacidad de los modelos para efectuar pronsticos. 5.5.1 Descripcin de variables Las variables involucradas en la presente tesis son: Y1: Rendimiento logartmico de la serie de Cetes a 91 das en el MexDer suavizada exponencialmente. Y2: Rendimiento logartmico ajustado por medio de ARIMA (dentro de muestra). Y3: Rendimiento logartmico pronosticado por medio de ARIMA (fuera de muestra). Y4: Rendimiento logartmico ajustado medio de RNA (dentro de muestra). Y5: Rendimiento logartmico pronosticado por medio de RNA (fuera de muestra). 5.5.2 Pruebas de hiptesis especficas de los modelos dentro de muestra 5.5.2.1 Coeficiente de determinacin El coeficiente de determinacin se calcula por medio de la siguiente ecuacin:
84
R = 1
2
(Y
u
i
2 i
Y )2
R2 necesariamente est entre 0 y 1. Mientras ms cerca est de 1, mejor ser el ajuste. Esta medida proporciona la bondad de ajuste dentro de la muestra, en el sentido de saber qu tan cercano est un valor estimado de Y de su valor real en la muestra dada. La hiptesis de investigacin es: A mayor capacidad de identificacin de relaciones no lineales proporcionada por las redes neuronales artificiales, el coeficiente de determinacin es mayor para datos ajustados medio de RNA que para los datos ajustados por medio de ARIMA (dentro de muestra): Ha: R2Y4 > R2Y2 La hiptesis nula es: El coeficiente de determinacin es menor o igual para los datos ajustados por RNA que por ARIMA (dentro de muestra). H0a: R2Y4 R2Y2 Dado que los valores calculados son, para R2Y4 = 0.201745 y para , R2Y2 = 0.193335, se rechaza la hiptesis nula H0a y se acepta la hiptesis de la investigacin Ha. 5.5.2.2 Criterio de informacin de Akaike La funcin logartmica de verosimilitud se calcula por medio de:
ui 2 n L = 1 + ln(2 ) + ln n 2
donde ui2 son los residuos al cuadrado. En consecuencia el criterio de informacin de Akaike (CIA) se calcula por medio de la ecuacin:
85
CIA = 2
L k +2 n n
donde: n es el nmero total de datos de la muestra k es el nmero de variables explicativas incluidas en la estimacin el parmetro k se calcula de la siguiente manera: k = p + 1 + q (p + 2) El trmino 2k/n es el factor de penalizacin por aadir regresoras al modelo, por lo que al comparar dos o ms modelos, se preferir el que tenga el menor valor CIA. La hiptesis de investigacin es: A mayor capacidad de identificacin de relaciones no lineales proporcionada por las redes neuronales artificiales, el CIA es menor para los datos ajustados por medio de RNA que para los datos ajustados medio de ARIMA (dentro de muestra). Hb: CIAY4 < CIAY2 La hiptesis nula es: El CIA es mayor o igual para los datos ajustados por RNA que por ARIMA (dentro de muestra). H0b: CIAY4 CIAY2 Dado que los valores calculados son, para CIAY4 = -6.7772 y para CIAY2 = 6.958082, se rechaza la hiptesis nula H0b y se acepta la hiptesis de la investigacin Hb. 5.5.2.3 Criterio de informacin de Schwarz El criterio de informacin de Schwarz (CIS) impone una penalizacin mayor por la incorporacin de coeficientes adicionales y se calcula por medio de:
CIS = 2 L ln n +k n n
El CIS impone una penalizacin mayor que CIA, y al igual que en CIA, mientras menor sea el valor de CIS, mejor ser el modelo.
86
La hiptesis de investigacin es: A mayor capacidad de identificacin de relaciones no lineales proporcionada por las redes neuronales artificiales, el CIS es menor para los datos ajustados por medio de RNA que para los datos ajustados medio de ARIMA (dentro de muestra). Hc: CISY4 < CISY2 La hiptesis nula es: El CIS es mayor o igual para los datos ajustados por RNA que por ARIMA (dentro de muestra). H0c: CISY4 CISY2 Dado que los valores calculados son, para CISY4 = -6.477920 y para CISY2 = 6.941917, se rechaza la hiptesis nula H0c y se acepta la hiptesis de la investigacin Hc. 5.5.3 Pruebas de hiptesis especficas de los modelos fuera de muestra Pueden emplearse varias estadsticas diferentes para medir en forma cuantitativa qu tan cerca est la variable pronosticada de su serie de datos correspondiente. Algunas de las cuales son las que se muestran a continuacin. 5.5.3.1 Raz del Error Cuadrtico Medio La raz del error cuadrtico medio (RMSE) se calcula por medio de:
RMSE = 1 (Yi Yi )2 n
La RMSE es una medida de la desviacin de la variable simulada de su curso en el tiempo. La magnitud de este error slo puede evaluarse comparndola con el tamao promedio de la variable en cuestin. La hiptesis de investigacin es: A mayor capacidad de identificacin de relaciones no lineales proporcionada por las redes neuronales artificiales, la raz del error cuadrtico medio es menor para los datos pronosticados por medio de RNA que para los datos pronosticados por medio de ARIMA (fuera de muestra):
87
Hd: RMSEY5 < RMSEY3 La hiptesis nula es: La RMSE es mayor o igual para los datos pronosticados por RNA que por ARIMA (fuera de muestra). H0d: RMSEY5 RMSEY3 Dado que los valores calculados son, para RMSEY5 = 0.004642 y para RMSEY3 = 0.004842, se rechaza la hiptesis nula H0d y se acepta la hiptesis de la investigacin Hd. 5.5.3.2 Error Medio Absoluto Porcentual El error medio absoluto porcentual (MAPE) se calcula de la siguiente manera:
MAPE =
1 Yi Yi Y n i
El MAPE es el error medio que en su clculo evita la cancelacin de errores positivos y negativos. La hiptesis de investigacin es: A mayor capacidad de identificacin de relaciones no lineales proporcionada por las redes neuronales artificiales, el error medio absoluto porcentual es menor para los datos pronosticados por medio de RNA que para los datos pronosticados por medio de ARIMA (fuera de muestra): He: MAPE Y5 < MAPE Y3 La hiptesis nula es: El MAPE es mayor o igual para los datos pronosticados por RNA que por ARIMA (fuera de muestra). H0e: MAPE Y5 MAPE Y3 Dado que los valores calculados son, para MAPE Y5 = 204.8512 y para MAPE Y3 = 186.9167, se acepta la hiptesis nula H0e y se rechaza la hiptesis de la investigacin He.
88
5.5.3.3 Coeficiente de desigualdad de Theil El coeficiente U de Theil se calcula de la siguiente manera: 1 (Yi Yi )2 n 1 1 2 2 Yi + n Yi n
U=
El numerador de U es la RMSE del pronstico, pero la escala del denominador es tal que U siempre caer entre 0 y 1. Si U = 0, existe un ajuste perfecto. Si U = 1, el desempeo predictivo del modelo es extremadamente malo. La hiptesis de investigacin es: A mayor capacidad de identificacin de relaciones no lineales proporcionada por las redes neuronales artificiales, el coeficiente de desigualdad de Theil es menor para los datos pronosticados por medio de RNA que para los datos pronosticados por medio de ARIMA (fuera de muestra): Hf: U Y5 < U Y3 La hiptesis nula es: El U de Theil es mayor o igual para los datos pronosticados por RNA que por ARIMA (fuera de muestra). H0f: U Y5 U Y3 Dado que los valores calculados son, para U Y5 = 0.597587 y para U Y3 = 0.675264, se rechaza la hiptesis nula H0f y se acepta la hiptesis de la investigacin Hf.
89
Captulo 6: Conclusiones y propuestas para futuras investigaciones
Captulo 6 Conclusiones y propuestas para futuras investigaciones
A partir del desarrollo de ambos modelos, de los resultados obtenidos y de las pruebas de hiptesis es posible concluir lo siguiente: Existen varios modelos de prediccin de series de tiempo, algunos ms sofisticados que los desarrollados en esta tesis como la familia de modelos ARCH, sin embargo, para poder realizar un estudio comparativo entre distintas tcnicas, es necesario hacerlo sobre las mismas bases, es decir, en este estudio se emple una configuracin de red neuronal equivalente a un modelo autorregresivo (AR) no lineal, razn por la cual se utiliz un modelo ARIMA como referencia. Siempre es bueno contar con un modelo que realice predicciones ms precisas, como lo es el modelo propuesto, ya que conocer el comportamiento futuro, o al menos contar con una aproximacin ms cercana a la real, nos brinda la posibilidad de tomar mejores decisiones en un ambiente incierto como lo es el financiero. Los resultados y las pruebas de hiptesis, tanto de la bondad de ajuste representada por R2, y los estadsticos de Akaike y Schwarz indican que el modelo basado en RNA es mejor que el modelo ARIMA calculado y empleado como referencia para dentro de muestra. Para fuera de la muestra, tambin se logr una ligera mejora expresada por los estadsticos RMSE y U de Theil, sin embargo, el error medio absoluto porcentual MAPE result mayor al planteado en la hiptesis, por lo que se considera que es mejor modelo para pronsticos aunque no absolutamente. Se puede decir entonces que el mtodo cumple su objetivo de generar mejores pronsticos de la tendencia del futuro del Cete de 91 das con vencimiento en diciembre de 2008 en comparacin con el modelo ARIMA usado como referencia, pero slo en la primeros datos del intervalo de prediccin (60 das) ya que posteriormente el modelo arroja valores que sobrevalan a los originales e incluso el ARIMA proporciona mejores resultados. El modelo propuesto puede ser empleado como una herramienta adicional a las ya disponibles, ms no como sustituto, pues el modelo lineal es ms sencillo de generar y eventualmente genera buenas aproximaciones. Tambin, con base en los resultados obtenidos y a que es un modelo autorregresivo capaz de identificar relaciones no lineales en los datos de la serie, se puede decir que la serie del futuro del Cete de 91 das con fecha de vencimiento en
90
Captulo 6: Conclusiones y propuestas para futuras investigaciones
diciembre de 2008 presenta relaciones no lineales identificadas por el modelo propuesto, sin embargo, no son de gran magnitud, puesto que la red no fue capaz de superar de manera muy significativa a los resultados del modelo lineal, en cuyo caso se esperaran resultados mucho mejores a los obtenidos. En general, el proceso de encontrar un modelo basado en redes neuronales es ms complejo y delicado que el desarrollo de un modelo ARIMA ya que implica la estimacin de muchos ms parmetros y a que la estabilizacin de la red requiere de mayores recursos de cmputo y tiempo, pues la forma de estimacin de sus parmetros es inherentemente a prueba y error. El modelo propuesto es importante porque se puede utilizar tambin como parte integral de la operacin financiera de las empresas, ya que sus aplicaciones son amplias, desde la planeacin y administracin de la tesorera, los pronsticos de ventas hasta la identificacin de problemas financieros, y por supuesto, la valuacin de instrumentos derivados en la cobertura de riesgos. Como trabajo futuro se puede recomendar el empleo de un modelo de redes neuronales que tenga la configuracin de un modelo ARCH de manera que pueda captar de mejor manera la volatilidad existente en las series financieras, y aunque el modelo propuesto tambin es capaz de ser comparado de esta forma, no se efectuara bajo las mismas consideraciones. Dado que el modelo de RNA diseado es puramente no lineal, sera conveniente utilizar un modelo mixto que incluya la parte lineal de manera simultnea, para aprovechar las ventajas de ambos enfoques en un mismo modelo. Otra aplicacin interesante sera la evaluacin de varias RNA aplicadas a otros mercados financieros como el de divisas, de capitales, adems de otros instrumentos dentro del mercado de derivados para determinar su utilidad y conveniencia.
91
Referencias
Referencias
Alkon, D. L. (1989), Almacenamiento de memoria y sistemas neurales. Investigacin y ciencia, septiembre, pp. 14-23. Altman, E. I., Marco, G. y Varetto, F. (1994), Corporate Distress Diagnosis: Comparisons Using Discriminant Analysis and Neural Networks, Journal of Banking and Finance, Vol. 18, pp. 505-529. Anderson, J. y Rosenfeld, E. (1998). Neurocomputing: Foundations of Research. USA: MIT Press. p. 176. Anthony, M. y Biggs, N. L., (1995), A computacional learning theory view of economic forecasting with neural nets, Neural Networks in the Capital Markets, USA: Jhon Wiley & Sons. Azoff, E. M., (1994), Neural Network Time Series Forecasting of Financial Markets, Inglaterra: John Wiley & Sons, pp. 50-51. Baum, E. B. y Haussler, D., (1988), Neural Computation 1, pp. 151-160. Bell, T., Ribar, G. y Verchio, J. (1990), Neural Nets vs. Logistic regression. USA: Proceedings of the 1993 Deloitte Touche/University of Kansas Symposium on Auditing Problems, pp. 29-53. Berumen, G. (1998), La teora del caos y las redes neuronales aplicadas a las finanzas, Tesis de maestra en ingeniera econmica y financiera, Mxico: Universidad La Salle. Bodie, Z. y Merton, R. (2003), Finanzas, Mxico: Pearson, p. 343. Bollerslev, T., et. al. (1992), ARCH Modelling in Finance: A Review of Theory and Empirical Evidence, Journal of Economics, vol. 52. pp. 5-59. Bosarge, W. (1989), A Non Random Walk Down Wall Street. USA: Princeton University Press, p. 45. Bowerman, B. y OConnel, R. (1993), Forecasting and time series: an applied approach (3. Ed.), California: Duxbury Press. Box, G. P. E. y Jenkins, G. M. (1978), Time Series Analysis: Forecasting and Control, edicin revisada, San Francisco: Holden Day.
92
Referencias
Broomhead, D. S. y Lowe, D. (1988), Multivariable Functional Interpolation and Adaptive Networks, Complex Systems 2, pp. 321-355. Bruck, J. (1990), On the convergence properties of the Hopfield model, Proceedings of the IEEE, octubre, pp. 1579-1585. Caudill, M. (1992), The view from now, AI Expert, junio, pp. 24-31. Chatfield, C. (1978), The analysis of time series: theory and practice, Londres: Chapman and Hall. Chatterjee, A. et al. (2000). Artificial neural network and the financial markets: A survey. Managerial Finance, p. 38. Coakley, J. y Brown, C. (2000), Artificial neural networks in accounting and finance: modeling issues, International Journal on Intelligent Systems in Accounting, Finance and Management. p. 122. Collantes, J. V. (2001), Prediccin con redes neuronales: Comparacin con las metodologas de Box y Jenkins, Tesis de maestra. Universidad de los Andes. Cybenko, G. (1988). Continuos valued neural networks with two hidden layers are sufficient, Technical Report, Department of Computer Science, Tufts University, p. 56. Cybenko, G. (1989), Approximation by Superpositions of a Sigmoidal Function, Math. Control Signals Syst, 2, pp. 303-314. Demuth, H. y Beale, M. (1998), Neural Network Toolbox Users Guide, The Mathworks, Inc. Dickey, D. A. y Fuller W. A., (1979), Distribution of the Estimators for Autorregresive Time Series with a Unit Root, Journal of the American Statistical Association, vol. 74, pp. 427-431 Dorffner, G. (1996), Neural Networks for Time Series Processing, Neural Network World 4/96, pp. 447-468. Dutta, S. y Shekbar, S. (1988), Bond Rating: A Non-conservative Application of Neural Networks, Proceedings of the IEEE International Conference on Neural Networks, pp. II443-II450. Fama, E. F. (1965), The behavior of stock market prices, Journal of Business, enero, pp. 34-105. Faraway, J. y Chatfielf, C. (1998), Time series forecasting with neural networks: a comparative study using the airline data, Applied Statistic, vol. 47 (2), pp. 231-250.
93
Referencias
Feldman, J. A. y Ballard, D. H. (1982), Connectionist Models and Their Properties, Cognitive Science, vol. 6, pp. 205-254. Garcia, I. (2003), Anlisis y prediccin de la serie de tiempo del precio externo del caf colombiano utilizando redes neuronales artificiales, Revista de la facultad de ciencias, Pontificia Universidad Javeriana, vol. 8, pp. 45-50. Girosi, F. y Poggio, T. (1990), Networks and the Best Approximation Property, Biological Cybernetics 63, pp. 169-176. Grossberg, S. (1986), The adaptive Brain I. Cognition, Learning, Reinforcement, and Rhythm, and The Adaptive Brain II: Vision, Speech, Language, and Motor Control. Elsevier/North-Holland, Amsterdam. Grudnitski, G., y L. Osburn. (1993), Forecasting S&P and Gold Futures Prices: An Application of Neural Networks, The Journal of Futures Markets 13, pp. 631-643. Gujarati, D. N. (2004), Econometra, (4. Ed.), Mxico: Mc Graw-Hill, pp. 771-780. Guzmn, M, Leyva, S. y Crdenas, A. (2007), El futuro del ndice de Precios y Cotizaciones de la Bolsa Mexicana de Valores, Anlisis Econmico, Num. 49, vol. XXII, UAM, pp. 53-83. Haefke, C. y Helmenstein, C. (2002), Index Forecasting and Model Selection, International Journal of Intelligent Systems in Accounting, Finance and Management, Abr/Jun, 11, 2, ABI/INFORM Global, pp. 119-135. Hawley, D. et al. (1990). Artificial Neural Systems. A new Tool for Financial Decision-Making, Financial Analysts Journal, pp. 90-113. Hebb, D.O. (1949), The Organization of Behavior, Nueva York: John Wiley & Sons. Hectch-Nielsen, R. (1990). Neurocomputing, USA: Addison-Wesley. p. 126. Hertz, J., et al. (1991), Introduction to the Theory of Neural Computation, USA: Addison-Wesley, p. 234. Hellstrm, T. y Holmstrm, K. (1998), Predicting the Stock Market, Technical Report IMa-TOM-1197-07, Center of Mathematical Modeling, Suiza: Mlardalen University. Hill, T., OConnor, M. y Remus, W. (1996), Neural Network Models for Time Series Forecasts, Management Science, 42, 7, pp. 1082-1092. Hinton, G. E. y Sejnowski, T. J. (1986), Learning and relearning in Boltzmann machines, en (Rumelhart, 1986), pp. 282-317.
94
Referencias
Hopfielfd, J. J. (1982), Neural Networks and Physical Systems with Emergent Collective Computational Abilities, Proc. Natl. Acad. Sci, USA, vol. 79, abril. pp. 2554-2558. Hopfielfd, J. J. (1984), Neurons with Graded Response Have Collective Computational Properties Like Those of Two-State Neurons, Proc. Natl. Acad. Sci., USA, vol. 81, mayo, pp. 3088-3092. Hopfielfd, J. J. and Tank, D. W. (1986), Computing with Neural Circuits: A Model, Science, vol. 233, agosto, pp. 625-633. Hornik, K., Stinchcombe, M. y White, H. (1989), Multi-layer Feedforward Networks are Universal Approximators, Neural Networks 2, pp. 359-366. Huang C., Dorsey R., y Boose, M. (1994), Life insurer financial distress prediction: a neural network model, Journal of Insurance Regulation, pp. 131-167. Jordan, M. I. (1986), Serial Order: A Parallel Distributed Processing Approach, ICS-UCSSD, Report No. 8604. Kaastra, I. y Boyd, M. (1996), Designing a neural network for forecasting financial and economic time series, Neurocomputing, 10, Elsevier Science, pp. 215-236. Kalman, B. L. y Kwasny, S. C. (1992), Why Tanh? Choosing a Sigmoidal Function, International Joint Conference on Neural Networks, Baltimore, MD, USA. Kandel, E. R. y Hawkins, R. D., Bases biolgicas del aprendizaje y de la individualidad, Investigacin y ciencia, noviembre, p. 58. Kao, G. W. y Ma, C. K. (1992), Memories, heteroscedasticity and prices limit in currency futures markets, J. Futures Markets, 12, pp. 672-692. Kohonen, T. (1982), Self-organized formation of topology correct feature maps, Biological Cybernetics, 43, pp. 59-69. Kohonen, T. (1998), An Introduction to Neural Computing, USA: Neural Networks 1, pp. 3-16. Kurkova, V. (1992), Universal Approximation Using Feedforward Networks with Gaussian Bar Units, en Neumann B. (ed.): Proceedings of the Teenth European Conference on Artificial Intelligence (ECAI92), UK: Wiley, Chichester, pp. 193-197. Levich, R. M. y Thomas, L. R. (1993), The significance of technical trading rule profits in the foreign exchange market: A bootstap approach, en Strategic Currency Investing Trading and Hedging in the Foreign Exchange Market, Chicago: Probus, pp. 336-365.
95
Referencias
Lawrence, S., Tsoi, A. C. y Giles, C. L. (1996), Noisy time series prediction using symbolic representation and recurrent neural network grammatical inference, Technical Report UMIACS-TR-96-27 y CS-TR-3625, USA: University of Maryland. Lowe, D. y Webb, R. (1991), Time series prediction by adaptive networks: A dynamical systems perspectives, USA: IEEE Computer Society Press. Magdon-Ismail M., Nicholson A. y Abu-Mustafa Y. S., (1998). Financial Markets: Very Noisy Information Processing, Proceedings of the IEEE, noviembre, 86(11). Makridakis, S., (1982), et. al., The Accuracy of Extrapolation (Time Series) Methods: Results of a Forecasting Competition, Journal of Forecasting, 1, pp. 111153. Malkiel, B. G., (1996), Efficient Market Hipothesis, Londres: Macmillan. Masters, T., (1993), Practical Neural Network Recipes in C++, USA: Academic Press Inc., p 6. Marques, L. et al. (1991), Neural networks models as an alternative to regression, Proceedings of the 24th Annual Hawaii International Conference on Systems Sciences, pp. 129-146. Martn del Bro, B y Sanz, A. (2002), Redes Neuronales y Sistemas Difusos, (2. Ed.), Mxico: Alfaomega, pp. 10-32. McCulloch, W. S. y Pitts, W. (1943), A Logical Calculus of the Ideas Imminent in Nervous activity, Bulletin of Mathematical Biophysics, vol. 5, 1943, pp. 115-133. McClelland, J. L. y Rumelhart, D. E. (1986), Parallel Distrubuted Processing, vol 2: Psychological and biological models. USA: MIT press. Mead, C. A. (1986), Analog VLSI and Neural Systems, Course Notes. Computer Science Dept., California Institute of Technology. Medeiros, M., Veiga, A. y Pedreira, C. (2001), Modeling Exchange rates: Smooth Transitions, Neural Networks, and Linear Models, IEEE Transactions on Neural Networks, vol. 12, no. 4, julio, pp. 755-764. Medsker, L. Trippi, R. R. y Turban, E. (1996), Neural Network fundamentals for Financial Analysts. Neural Networks in Finance and Investing, eds. R. R. Trippi and E. Turban. Chicago, IL: Irwin Professional Publishing. Mller, B y Reinhardt, J. (1990), Neural Networks. An Intoduction, Springer-Verlag.
96
Referencias
Nelson, M. N. e Illingworth, W. T., (1991), A Practical Guide to Neural Nets, USA: Addison-Wesley. Neural Network FAQ, Maintainer: Sarle, W. S., How Many Hidden Units Should I Use?, Julio 27, 1996, Neural Network FAQ Part 1-7, Disponible en: ftp://ftp.sas.com/pub/neural/FAQ3.html, [1996, agosto 30]. Nieto, S. (1989), Plasticidad sinptica, Investigacin y ciencia, febrero, pp. 40-49. Olmedo, I. (1996). Avances Recientes en Prediccin Burstil, Espaa: Ed. Universidad de Alcal, pp. 212-215. Peel, M. y Wilson, N. (1996), Neural network simulation: A new approach to risk assessment and business forecasting. Management Research News, vol. 19, 6, ABI/INFORM Global, pp. 50-54. Prez, G. (1998), Las redes neuronales artificiales: una herramienta ciberntica para la estimacin de precios en el mercado mexicano de productos derivados. (Tesis de licenciatura), Ingeniera en ciberntica y ciencias de la computacin, Mxico: Universidad la Salle. Pindick, R. S. y Rubinfeld, D. L. (2001), Econometra: Modelos y pronsticos, (4. Ed.), Mxico: Mc Graw-Hill, pp. 515. Posch, T. E. (1968), Models of the Generation and Processing of Signals by Nerve Cells: A Categorically Indexed Abridged Bibliography, USCEE Report 290, agosto. Pulido, A. y Lpez, A. (1999), Prediccin y simulacin aplicada a la economa y gestin de empresas, Madrid: Pirmide, pp. 259-37. Qi, M. (1999), Nonlinear Predictability of Stock Returns Using Financial and Economic Variables, Journal of Business & Economic Statistics, octubre, 17, 4, pp. 419-429. Ramon y Cajal, S. (1899), Textura del Sistema Nervioso del Hombre y de los vertebrados, Madrid: N. Moya. Rosenblatt, R. (1959), Principles of Neurodynamics, Nueva York: Spartan Books. Rumelhart, D. E., Hinton, G. E. y Williams, R. J. (1986). Learning representation by Back-Propagating Errors, Nature, pp. 533-536. Rumelhart, D. E. y McClelland J. L. (1986), Parallel Distributed Processing: Explorations in the Microstructure of Cognition, USA: MIT Press. Salchenberger L., Cinar E., y Lash. (1992). Neural Networks: a new tool for predicting thrift failures, Decision Sciences, vol 23. pp. 899-916.
97
Referencias
Sejnowski, T. y Rosenberg, C. R. (1986), NETtalk: A Parallel Network That Learns to Read Aloud. Technical Report JHU/EECS-86/01, Johns Hopkins Univ. Shang-Wu, Y. (1999), Forecasting and Arbitrage of the Nikkei Stock Index Futures: An Application of backpropagation Networks, Asia-Pacific Financial Markets, diciembre, 6, pp. 341-354. Shih, Y., (1994), Neural Users Guide, Cheshire Engineering Corporation, USA, p. 21. Simpson, P. K. (1989), Artificial Neural Systems, USA: Pergamon press. Stansell, S. y Eakins, S. (2004), Forecasting the direction of change in sector stock indexes: An application of neural networks, Journal of Asset Management, jun, 5, 1. ABI/INFORM Global, pp. 37-48. Tam, K. Y. y Kiang, M. Y. (1992), Predicting Bank Failures: A Neural Network Approach. Management Science, vol. 38, No. 7, pp. 926-947. Tino, P., Schittenkopf, C. y Dorffner, G., (2000), Temporal Pattern Recognition in Noisy Non-stationary Time Series Based on Quantization into Symbolic Streams: Lessons Learned from Financial Volatility Trading, Austria: Austrian Research Institute for Artificial Intelligence. Tompkins, R., (1994), Options Explained, USA: Macmillan Press. Trippi, R. (1990), Intelligent Systems for Investment Decision Making. Managing Institutional Assets, USA: Fabozzi, p. 251. Tsibouris, G. y Zeidenberg, M. (1996), Testing the efficient market hypothesis with gradient descent algorithms, Neural Networks in the Capital Markets, USA: Jhon Wiley & Sons. Ulbritch, C. (1995), State Formation in Neural Networks for Handling Temporal Information, Disertation, Institute fuer Med. Kybernetik u. AI, Univeristy of Vienna. White, H. (1988), Economic prediction using neural networks: The case of IBM daily stock returns, IEEE International Conference on Neural Networks, USA, pp. 451459. Widrow, B. y Hoff, M. E. (1960), Adaptive Switching Circuits. IRE WESCON Conv. Record, Part 4, agosto, pp. 96-104. Wong, F. (1991), A 3D neural network for business forecasting, Proceedings of the 24th Annual Hawaii International Conference on Systems Sciences, pp. 113-123.
98
Referencias
Zhang, G. P. y Berardi, V. L. (2001), Time series forecasting with neural network ensambles: an application for exchange rate prediction, Journal of the operational research society, 52, pp. 652-664.
99
Apndices
Apndices
Apndice A
Tabla A.1 Equivalencias entre la terminologa estadstica y la literatura RNA.
Terminologa estadstica Variables Variables independientes Valores de prediccin Variables dependientes Residuos Estimacin Criterio de estimacin Observaciones Parmetros estimados Regresin y anlisis por discriminantes Anlisis por cmulos o reduccin de datos Interpolacin y extrapolacin Intercepto Trmino de error Pronstico
Terminologa de RNA Caractersticas Entradas Salidas Objetivos o variables de entrenamiento Errores Entrenamiento, aprendizaje, adaptacin o auto-organizacin Funcin de error, funcin de costo o funcin Lyapunov Patrones o pares de entrenamiento Pesos (sinpticos) Aprendizaje supervisado Aprendizaje no supervisado, autoorganizacin o aprendizaje competitivo Generalizacin Sesgo Ruido Prediccin
100
Apndices
Apndice B Tabla B.1 Datos de cierre del futuro del Cete de 91 das con vencimiento en diciembre de 2008 en el MexDer.
Fecha 11/1/2002 11/4/2002 11/5/2002 11/6/2002 11/7/2002 11/8/2002 11/11/2002 11/12/2002 11/13/2002 11/14/2002 11/15/2002 11/18/2002 11/19/2002 11/21/2002 11/22/2002 11/25/2002 11/26/2002 11/27/2002 11/28/2002 11/29/2002 12/2/2002 12/3/2002 12/4/2002 12/5/2002 12/6/2002 12/9/2002 12/10/2002 12/11/2002 12/13/2002 12/16/2002 12/17/2002 12/18/2002 12/19/2002 12/20/2002 12/23/2002 12/24/2002 12/26/2002 12/27/2002 12/30/2002
Cierre 11.2 11.41 11.58 11.55 10.83 11.53 11.5 11.83 11.02 11.56 11.3 11.57 11.47 11.3 11.69 11.08 11.4 11.29 11.29 10.87 10.87 10.71 10.29 10.32 10.13 10.48 10.22 10.42 10.18 9.59 10.05 10.55 9.92 10.18 9.03 9.55 9.39 9.38 9.63
12/31/2002 1/2/2003 1/3/2003 1/6/2003 1/7/2003 1/8/2003 1/9/2003 1/10/2003 1/13/2003 1/14/2003 1/15/2003 1/16/2003 1/17/2003 1/20/2003 1/21/2003 1/22/2003 1/23/2003 1/24/2003 1/27/2003 1/28/2003 1/29/2003 1/30/2003 1/31/2003 2/3/2003 2/4/2003 2/6/2003 2/7/2003 2/10/2003 2/11/2003 2/12/2003 2/13/2003 2/14/2003 2/17/2003 2/18/2003 2/19/2003 2/20/2003 2/21/2003 2/24/2003 2/25/2003 2/26/2003
9.31 9.64 9.77 10.01 9.9 10.14 10.17 10.09 10.24 10.3 10.39 9.86 9.92 9.99 10.61 10.44 10.49 9.94 10.38 10.56 10.83 10.79 11.05 10.73 10.76 10.78 10.66 10.73 11.18 11.13 10.9 10.72 10.39 10.09 10.5 10.51 10.98 10.93 11.3 11.47
2/27/2003 2/28/2003 3/3/2003 3/4/2003 3/5/2003 3/6/2003 3/7/2003 3/10/2003 3/11/2003 3/12/2003 3/13/2003 3/14/2003 3/17/2003 3/18/2003 3/19/2003 3/20/2003 3/24/2003 3/25/2003 3/26/2003 3/27/2003 3/28/2003 3/31/2003 4/1/2003 4/2/2003 4/3/2003 4/4/2003 4/7/2003 4/8/2003 4/9/2003 4/10/2003 4/11/2003 4/14/2003 4/15/2003 4/16/2003 4/21/2003 4/22/2003 4/23/2003 4/24/2003 4/25/2003 4/28/2003
11.52 10.69 11.47 12.06 13.02 12.87 12.72 12.67 12.48 11.85 12.31 12.96 11.5 11.23 11.4 11.28 11.22 10.94 11 10.4 9.98 9.82 10.05 10.56 10.31 10.27 10.32 10.1 10.59 10.38 10.64 10.55 10.44 10.41 10.46 10.4 10.83 10.72 10.65 10.63
101
Apndices
4/29/2003 4/30/2003 5/2/2003 5/5/2003 5/6/2003 5/7/2003 5/8/2003 5/9/2003 5/12/2003 5/13/2003 5/14/2003 5/15/2003 5/16/2003 5/19/2003 5/20/2003 5/21/2003 5/22/2003 5/23/2003 5/26/2003 5/27/2003 5/28/2003 5/29/2003 5/30/2003 6/2/2003 6/3/2003 6/5/2003 6/6/2003 6/9/2003 6/10/2003 6/11/2003 6/12/2003 6/13/2003 6/16/2003 6/17/2003 6/18/2003 6/19/2003 6/20/2003 6/23/2003 6/24/2003 6/25/2003 6/26/2003 6/27/2003 6/30/2003 7/1/2003 7/2/2003 7/3/2003 7/4/2003 7/7/2003 7/8/2003
9.9 10.87 10.95 11.07 10.87 11.3 11 10.97 11.62 11.46 11.62 10.93 11.41 11.05 11.57 10.97 11.1 11.9 10.01 11.45 10.4 10.35 10.54 10.43 10.21 11.01 11.14 10.17 10.17 11.09 10.09 9.83 10.2 10.49 10.26 11.08 10.22 10.1 10.19 10.7 10.7 10.4 10.62 11.03 9.53 10.72 10.57 10.18 11.69
7/9/2003 7/10/2003 7/11/2003 7/14/2003 7/15/2003 7/16/2003 7/17/2003 7/18/2003 7/21/2003 7/22/2003 7/23/2003 7/24/2003 7/25/2003 7/28/2003 7/29/2003 7/30/2003 7/31/2003 8/1/2003 8/4/2003 8/5/2003 8/6/2003 8/7/2003 8/8/2003 8/11/2003 8/12/2003 8/13/2003 8/14/2003 8/15/2003 8/18/2003 8/19/2003 8/20/2003 8/21/2003 8/22/2003 8/25/2003 8/26/2003 8/27/2003 8/28/2003 8/29/2003 9/1/2003 9/2/2003 9/3/2003 9/4/2003 9/5/2003 9/8/2003 9/9/2003 9/10/2003 9/11/2003 9/12/2003 9/15/2003
10.9 11.75 11.49 11.53 11.53 11.95 10.59 11.48 10.97 11.25 11.01 11.24 11.53 11.51 11.48 10.68 10.96 10.94 11.24 11.26 11.2 11.25 11.06 11.11 11.39 11.13 11.18 11.18 11.05 11.05 11.28 11.43 11.25 11.33 10.98 10.71 10.75 10.89 10.63 10.62 10.58 10.39 10.44 10.35 10.42 10.32 10.05 10.26 10.12
9/17/2003 9/18/2003 9/19/2003 9/22/2003 9/23/2003 9/24/2003 9/25/2003 9/26/2003 9/29/2003 9/30/2003 10/1/2003 10/2/2003 10/3/2003 10/6/2003 10/7/2003 10/8/2003 10/9/2003 10/10/2003 10/13/2003 10/14/2003 10/15/2003 10/16/2003 10/17/2003 10/20/2003 10/21/2003 10/22/2003 10/23/2003 10/24/2003 10/27/2003 10/28/2003 10/29/2003 10/30/2003 10/31/2003 11/3/2003 11/4/2003 11/5/2003 11/6/2003 11/7/2003 11/10/2003 11/11/2003 11/12/2003 11/13/2003 11/14/2003 11/17/2003 11/18/2003 11/19/2003 11/21/2003 11/24/2003 11/25/2003
10.32 10.05 10.08 9.7 9.64 9.75 9.88 9.9 10.29 9.94 9.73 10 10.55 10.41 10.47 10.36 10.13 10.32 10.08 10.39 10.02 10.25 9.91 9.87 9.78 9.47 9.42 9.58 9.61 9.35 9.46 9.32 9.53 9.26 9.38 9.59 9.78 9.81 9.89 10.01 10.14 10.2 9.82 9.89 9.71 9.59 9.76 10 10.54
102
Apndices
11/26/2003 11/27/2003 11/28/2003 12/1/2003 12/2/2003 12/3/2003 12/4/2003 12/5/2003 12/8/2003 12/9/2003 12/10/2003 12/11/2003 12/15/2003 12/16/2003 12/17/2003 12/18/2003 12/19/2003 12/22/2003 12/23/2003 12/24/2003 12/26/2003 12/29/2003 12/30/2003 12/31/2003 1/2/2004 1/5/2004 1/6/2004 1/7/2004 1/8/2004 1/9/2004 1/12/2004 1/13/2004 1/14/2004 1/15/2004 1/16/2004 1/19/2004 1/20/2004 1/21/2004 1/22/2004 1/23/2004 1/26/2004 1/27/2004 1/28/2004 1/29/2004 1/30/2004 2/2/2004 2/3/2004 2/4/2004 2/6/2004
10.41 10.47 10.48 10.5 10.62 10.42 10.41 10.43 10.29 10.22 10.15 10.31 10.07 10.34 10.17 10.03 10.27 10.09 9.94 10.09 10.04 10.06 9.99 10.02 10.12 9.91 9.6 9.48 9.48 9.74 9.68 9.29 9.31 9.33 9.3 9.42 9.37 9.43 9.62 9.55 9.27 9.48 9.09 9.14 9.17 9.19 9.35 9.69 9.65
2/9/2004 2/10/2004 2/11/2004 2/13/2004 2/16/2004 2/17/2004 2/18/2004 2/19/2004 2/20/2004 2/23/2004 2/24/2004 2/25/2004 2/26/2004 2/27/2004 3/1/2004 3/2/2004 3/3/2004 3/4/2004 3/5/2004 3/8/2004 3/9/2004 3/10/2004 3/11/2004 3/12/2004 3/15/2004 3/16/2004 3/17/2004 3/18/2004 3/19/2004 3/22/2004 3/23/2004 3/24/2004 3/25/2004 3/26/2004 3/29/2004 3/30/2004 3/31/2004 4/1/2004 4/2/2004 4/5/2004 4/6/2004 4/7/2004 4/12/2004 4/13/2004 4/14/2004 4/15/2004 4/16/2004 4/19/2004 4/20/2004
9.45 9.41 9.56 9.45 9.44 9.41 9.46 9.44 9.38 9.51 9.72 9.65 9.85 9.73 9.71 9.8 9.76 9.5 9.51 9.58 9.77 9.74 9.7 9.59 9.55 9.37 9.41 9.57 9.18 8.87 8.95 8.85 8.87 8.93 9.05 8.99 9.36 9.3 9.01 9.05 9.52 9.48 9.54 9.59 9.45 9.64 9.62 9.72 9.75
4/21/2004 4/22/2004 4/23/2004 4/26/2004 4/27/2004 4/28/2004 4/29/2004 4/30/2004 5/3/2004 5/4/2004 5/5/2004 5/11/2004 5/12/2004 5/13/2004 5/14/2004 5/17/2004 5/18/2004 5/19/2004 5/20/2004 5/21/2004 5/24/2004 5/25/2004 5/26/2004 5/27/2004 5/28/2004 5/31/2004 6/1/2004 6/2/2004 6/3/2004 6/4/2004 6/8/2004 6/9/2004 6/10/2004 6/11/2004 6/14/2004 6/15/2004 6/16/2004 6/17/2004 6/18/2004 6/21/2004 6/22/2004 6/23/2004 6/24/2004 6/25/2004 6/28/2004 6/29/2004 6/30/2004 7/1/2004 7/2/2004
9.96 9.9 10.03 10.36 10.49 10.16 10.21 10.17 9.64 9.98 10.36 10.4 10.37 10.35 11.05 11.03 10.87 10.88 10.57 10.61 10.08 10.49 10.84 11.16 11.12 11.27 11.32 11.12 11.18 11.22 10.97 10.77 10.41 10.36 10.53 10.48 10.44 10.38 10.52 10.48 10.63 10.8 11.12 10.84 11.28 11.38 11.07 11.01 10.94
103
Apndices
7/5/2004 7/6/2004 7/7/2004 7/8/2004 7/9/2004 7/12/2004 7/13/2004 7/14/2004 7/15/2004 7/16/2004 7/19/2004 7/20/2004 7/21/2004 7/22/2004 7/23/2004 7/26/2004 7/27/2004 7/28/2004 7/29/2004 7/30/2004 8/2/2004 8/3/2004 8/4/2004 8/5/2004 8/6/2004 8/9/2004 8/10/2004 8/11/2004 8/12/2004 8/13/2004 8/16/2004 8/17/2004 8/18/2004 8/19/2004 8/20/2004 8/23/2004 8/24/2004 8/25/2004 8/26/2004 8/27/2004 8/30/2004 8/31/2004 9/1/2004 9/2/2004 9/3/2004 9/6/2004 9/7/2004 9/8/2004 9/9/2004
10.84 10.86 10.7 10.62 10.66 10.58 10.35 10.27 10.11 10.35 10.16 10.15 10.55 10.58 10.62 10.68 10.77 10.73 10.62 10.59 10.38 10.47 10.51 10.62 10.7 10.48 10.46 10.34 10.54 10.54 10.69 10.73 10.54 10.63 10.75 10.86 10.84 10.64 10.75 10.94 10.96 11.05 10.72 10.97 10.74 11.09 11.09 11.52 11.19
9/10/2004 9/13/2004 9/14/2004 9/15/2004 9/17/2004 9/20/2004 9/21/2004 9/22/2004 9/23/2004 9/24/2004 9/27/2004 9/28/2004 9/29/2004 9/30/2004 10/1/2004 10/4/2004 10/5/2004 10/6/2004 10/7/2004 10/8/2004 10/11/2004 10/12/2004 10/13/2004 10/14/2004 10/15/2004 10/18/2004 10/19/2004 10/20/2004 10/21/2004 10/22/2004 10/25/2004 10/26/2004 10/27/2004 10/28/2004 10/29/2004 11/1/2004 11/2/2004 11/3/2004 11/4/2004 11/5/2004 11/8/2004 11/9/2004 11/10/2004 11/11/2004 11/12/2004 11/15/2004 11/16/2004 11/17/2004 11/18/2004
11.21 11.2 10.96 10.89 10.88 10.73 10.57 10.62 10.4 10.44 10.51 10.51 10.27 10.5 10.48 10.38 10.24 10.35 10.2 10.03 9.93 9.73 9.52 9.58 9.66 9.7 9.77 9.84 9.8 9.86 9.97 9.84 10.19 10.75 10.71 10.64 10.69 10.6 10.64 10.74 10.64 10.66 10.88 10.87 10.92 10.59 10.73 10.97 10.93
11/19/2004 11/22/2004 11/23/2004 11/24/2004 11/25/2004 11/26/2004 11/29/2004 11/30/2004 12/1/2004 12/2/2004 12/3/2004 12/6/2004 12/7/2004 12/8/2004 12/9/2004 12/10/2004 12/13/2004 12/14/2004 12/15/2004 12/16/2004 12/17/2004 12/20/2004 12/21/2004 12/22/2004 12/23/2004 12/24/2004 12/27/2004 12/28/2004 12/29/2004 12/30/2004 12/31/2004 1/3/2005 1/4/2005 1/5/2005 1/6/2005 1/7/2005 1/10/2005 1/11/2005 1/12/2005 1/13/2005 1/14/2005 1/17/2005 1/18/2005 1/19/2005 1/20/2005 1/21/2005 1/24/2005 1/25/2005 1/26/2005
11.01 11.39 11.22 11.26 10.99 10.8 10.8 10.87 11.06 10.93 10.98 10.91 10.31 10.23 10.4 10.56 10.51 10.34 10.3 10.31 10.16 10.26 10.05 9.9 10 10 10.01 10.03 10.44 10.43 10.43 10.43 10.57 10.47 10.56 10.61 10.33 10 9.88 9.7 9.38 9.49 9.49 9.46 9.49 9.32 9.36 9.35 9.52
104
Apndices
1/27/2005 1/28/2005 1/31/2005 2/1/2005 2/2/2005 2/3/2005 2/4/2005 2/7/2005 2/8/2005 2/9/2005 2/10/2005 2/11/2005 2/14/2005 2/15/2005 2/16/2005 2/17/2005 2/18/2005 2/21/2005 2/22/2005 2/23/2005 2/24/2005 2/25/2005 2/28/2005 3/1/2005 3/2/2005 3/3/2005 3/4/2005 3/7/2005 3/8/2005 3/9/2005 3/10/2005 3/11/2005 3/14/2005 3/15/2005 3/16/2005 3/17/2005 3/18/2005 3/22/2005 3/23/2005 3/28/2005 3/29/2005 3/30/2005 3/31/2005 4/1/2005 4/4/2005 4/5/2005 4/6/2005 4/7/2005 4/8/2005
9.35 9.46 9.3 9.37 9.57 9.63 9.74 9.77 9.71 9.76 9.48 9.71 9.48 9.56 9.61 9.28 9.38 9.55 10.11 9.92 9.78 9.88 9.93 9.66 9.69 9.98 9.87 9.61 9.58 9.77 9.71 10.01 10.09 10.21 10.24 10.05 9.94 9.95 9.91 10.23 10.2 10.2 10.35 10.45 10.63 10.85 10.78 10.74 10.65
4/11/2005 4/12/2005 4/13/2005 4/14/2005 4/15/2005 4/18/2005 4/19/2005 4/20/2005 4/21/2005 4/22/2005 4/25/2005 4/26/2005 4/27/2005 4/28/2005 4/29/2005 5/2/2005 5/3/2005 5/4/2005 5/5/2005 5/6/2005 5/9/2005 5/10/2005 5/11/2005 5/12/2005 5/13/2005 5/16/2005 5/17/2005 5/18/2005 5/19/2005 5/20/2005 5/23/2005 5/24/2005 5/25/2005 5/26/2005 5/27/2005 5/30/2005 5/31/2005 6/1/2005 6/2/2005 6/3/2005 6/6/2005 6/7/2005 6/8/2005 6/9/2005 6/10/2005 6/13/2005 6/14/2005 6/15/2005 6/16/2005
10.57 10.43 10.82 10.74 10.7 10.77 11.01 10.6 10.47 10.58 10.48 10.18 10.26 10.19 10.49 10.55 10.58 10.25 10.28 10.26 10.3 10.27 10.28 10.14 10.07 10.01 9.96 9.78 9.73 9.65 9.63 9.7 9.77 9.58 9.47 9.42 9.45 9.42 9.54 9.5 9.6 9.48 9.38 9.3 9.25 9.25 9.26 9.15 9.24
6/17/2005 6/20/2005 6/21/2005 6/22/2005 6/23/2005 6/24/2005 6/27/2005 6/28/2005 6/29/2005 6/30/2005 7/1/2005 7/4/2005 7/5/2005 7/6/2005 7/7/2005 7/8/2005 7/11/2005 7/12/2005 7/13/2005 7/14/2005 7/15/2005 7/18/2005 7/19/2005 7/20/2005 7/21/2005 7/22/2005 7/25/2005 7/26/2005 7/27/2005 7/28/2005 7/29/2005 8/1/2005 8/2/2005 8/3/2005 8/4/2005 8/5/2005 8/8/2005 8/9/2005 8/10/2005 8/11/2005 8/12/2005 8/15/2005 8/16/2005 8/17/2005 8/18/2005 8/19/2005 8/22/2005 8/23/2005 8/24/2005
9.2 9.37 9.32 9.32 9.25 9.18 9.17 9.02 9.14 9.22 9.38 9.34 9.38 9.24 9.25 9.2 9.09 9.08 8.87 8.91 8.93 8.94 8.98 9.2 9.52 9.29 9.46 9.43 9.43 9.48 9.39 9.38 9.22 9.12 9.27 9.35 9.44 9.46 9.59 9.28 9.39 9.37 9.34 9.15 9.29 9.09 8.95 9.25 9.21
105
Apndices
8/25/2005 8/26/2005 8/29/2005 8/30/2005 8/31/2005 9/1/2005 9/2/2005 9/5/2005 9/6/2005 9/7/2005 9/8/2005 9/9/2005 9/12/2005 9/13/2005 9/14/2005 9/15/2005 9/19/2005 9/20/2005 9/21/2005 9/22/2005 9/23/2005 9/26/2005 9/27/2005 9/28/2005 9/29/2005 9/30/2005 10/3/2005 10/4/2005 10/5/2005 10/6/2005 10/7/2005 10/10/2005 10/11/2005 10/12/2005 10/13/2005 10/14/2005 10/17/2005 10/18/2005 10/19/2005 10/20/2005 10/21/2005 10/24/2005 10/25/2005 10/26/2005 10/27/2005 10/28/2005 10/31/2005 11/1/2005 11/2/2005
9.04 8.71 8.73 8.71 8.65 8.58 8.53 8.53 8.43 8.68 8.48 8.31 8.31 8.09 8.09 8.37 8.53 8.22 8.22 8.27 8.31 8.47 8.28 8.24 8.16 8.31 8.25 8.18 8.12 8.25 8.16 8.16 8.26 8.44 8.55 8.55 8.52 8.33 8.4 8.42 8.46 8.41 8.44 8.41 8.39 8.41 8.35 8.34 8.32
11/3/2005 11/4/2005 11/7/2005 11/8/2005 11/9/2005 11/10/2005 11/11/2005 11/14/2005 11/15/2005 11/16/2005 11/17/2005 11/18/2005 11/21/2005 11/22/2005 11/23/2005 11/24/2005 11/25/2005 11/28/2005 11/29/2005 11/30/2005 12/1/2005 12/2/2005 12/5/2005 12/6/2005 12/7/2005 12/8/2005 12/9/2005 12/13/2005 12/14/2005 12/15/2005 12/16/2005 12/19/2005 12/20/2005 12/21/2005 12/22/2005 12/23/2005 12/26/2005 12/27/2005 12/28/2005 12/29/2005 12/30/2005 1/2/2006 1/3/2006 1/4/2006 1/5/2006 1/6/2006 1/9/2006 1/10/2006 1/11/2006
8.31 8.38 8.41 8.32 8.43 8.43 8.41 8.43 8.43 8.49 8.45 8.37 8.33 8.16 8.11 8.13 8.13 8.11 8.16 8.12 8.09 8.14 8.1 7.98 7.94 7.94 7.8 7.71 7.88 7.84 7.98 7.91 7.86 7.88 7.81 7.82 7.82 7.85 7.81 7.81 7.75 7.76 7.71 7.64 7.67 7.78 7.64 7.72 7.7
1/12/2006 1/13/2006 1/16/2006 1/17/2006 1/18/2006 1/19/2006 1/23/2006 1/24/2006 1/25/2006 1/26/2006 1/27/2006 1/30/2006 1/31/2006 2/1/2006 2/2/2006 2/3/2006 2/7/2006 2/8/2006 2/9/2006 2/10/2006 2/13/2006 2/14/2006 2/15/2006 2/16/2006 2/17/2006 2/20/2006 2/21/2006 2/22/2006 2/23/2006 2/24/2006 2/27/2006 2/28/2006 3/1/2006 3/2/2006 3/3/2006 3/6/2006 3/7/2006 3/8/2006 3/9/2006 3/10/2006 3/13/2006 3/14/2006 3/15/2006 3/16/2006 3/17/2006 3/20/2006 3/22/2006 3/23/2006 3/24/2006
7.67 7.72 7.65 7.72 7.61 7.61 7.49 7.51 7.56 7.56 7.49 7.56 7.55 7.57 7.73 7.8 7.74 7.64 7.66 7.56 7.77 7.76 7.65 8 8.33 8.39 8.36 8.04 7.98 8.09 8.06 7.97 7.9 7.9 7.86 8.26 7.97 8.32 8.27 8.14 8.43 8.12 7.67 7.59 7.59 7.68 7.79 7.73 7.88
106
Apndices
3/27/2006 3/28/2006 3/29/2006 3/30/2006 3/31/2006 4/3/2006 4/4/2006 4/5/2006 4/6/2006 4/7/2006 4/10/2006 4/11/2006 4/12/2006 4/17/2006 4/18/2006 4/19/2006 4/20/2006 4/21/2006 4/24/2006 4/25/2006 4/26/2006 4/27/2006 4/28/2006 5/2/2006 5/3/2006 5/4/2006 5/5/2006 5/8/2006 5/9/2006 5/10/2006 5/11/2006 5/12/2006 5/15/2006 5/16/2006 5/17/2006 5/18/2006 5/19/2006 5/22/2006 5/23/2006 5/24/2006 5/25/2006 5/26/2006 5/29/2006 5/30/2006 5/31/2006 6/1/2006 6/2/2006 6/5/2006 6/6/2006
7.83 8.05 8.08 8.03 7.85 8.08 8.13 8.11 8.45 8.32 8.32 8.21 8.17 8.2 8.23 8.26 8.26 8.26 8.28 8.28 9.18 9.28 9.14 9.1 8.07 8.06 8.04 7.95 7.86 7.8 7.85 8.07 7.86 7.86 8.03 8 8 8 8 8.41 8.27 8.16 8.18 8.23 8.6 8.43 8.46 8.42 8.63
6/7/2006 6/8/2006 6/9/2006 6/12/2006 6/13/2006 6/14/2006 6/15/2006 6/16/2006 6/19/2006 6/20/2006 6/21/2006 6/22/2006 6/23/2006 6/26/2006 6/27/2006 6/28/2006 6/29/2006 6/30/2006 7/3/2006 7/4/2006 7/5/2006 7/6/2006 7/7/2006 7/10/2006 7/11/2006 7/12/2006 7/13/2006 7/14/2006 7/17/2006 7/18/2006 7/19/2006 7/20/2006 7/21/2006 7/24/2006 7/25/2006 7/26/2006 7/27/2006 7/28/2006 7/31/2006 8/1/2006 8/2/2006 8/3/2006 8/4/2006 8/7/2006 8/8/2006 8/9/2006 8/10/2006 8/11/2006 8/14/2006
8.39 8.65 8.46 8.51 8.85 8.87 8.74 8.82 8.84 8.84 8.67 8.67 8.38 8.53 8.21 8.45 8.42 8.38 8.09 7.97 8.42 7.91 7.98 8.1 8 8.22 8.3 8.28 8.17 8.06 9.08 7.86 8.4 8.19 8.18 8.22 8.19 7.88 7.92 7.89 7.84 7.74 7.75 7.7 7.63 7.63 7.71 7.57 7.63
8/15/2006 8/16/2006 8/17/2006 8/18/2006 8/21/2006 8/22/2006 8/23/2006 8/24/2006 8/25/2006 8/28/2006 8/29/2006 8/30/2006 8/31/2006 9/1/2006 9/4/2006 9/5/2006 9/6/2006 9/7/2006 9/8/2006 9/11/2006 9/12/2006 9/13/2006 9/14/2006 9/15/2006 9/18/2006 9/19/2006 9/20/2006 9/21/2006 9/22/2006 9/25/2006 9/26/2006 9/27/2006 9/28/2006 9/29/2006 10/2/2006 10/3/2006 10/4/2006 10/5/2006 10/6/2006 10/9/2006 10/10/2006 10/11/2006 10/12/2006 10/13/2006 10/16/2006 10/17/2006 10/18/2006 10/19/2006 10/20/2006
7.59 7.61 7.55 7.51 7.57 7.51 7.56 7.52 7.59 7.49 7.5 7.45 7.54 7.54 7.54 7.53 7.5 7.54 7.56 7.57 7.57 7.45 7.46 7.44 7.43 7.43 7.42 7.53 7.59 7.66 7.66 7.65 7.61 7.58 7.53 7.55 7.56 7.56 7.55 7.61 7.66 7.63 7.58 7.6 7.6 7.63 7.59 7.56 7.56
107
Apndices
10/23/2006 10/24/2006 10/25/2006 10/26/2006 10/27/2006 10/30/2006 10/31/2006 11/1/2006 11/3/2006 11/6/2006 11/7/2006 11/8/2006 11/9/2006 11/10/2006 11/13/2006 11/14/2006 11/15/2006 11/16/2006 11/17/2006 11/21/2006 11/22/2006 11/23/2006 11/24/2006 11/27/2006 11/28/2006 11/29/2006 11/30/2006 12/4/2006 12/5/2006 12/6/2006 12/7/2006 12/8/2006 12/11/2006 12/13/2006 12/14/2006 12/15/2006 12/18/2006 12/19/2006 12/20/2006 12/21/2006
7.54 7.51 7.51 7.51 7.41 7.46 7.37 7.36 7.33 7.39 7.34 7.41 7.36 7.38 7.31 7.23 7.23 7.2 7.23 7.29 7.27 7.3 7.38 7.4 7.47 7.37 7.34 7.29 7.16 7.2 7.19 7.19 7.16 7.17 7.2 7.19 7.2 7.18 7.11 7.13
12/22/2006 12/26/2006 12/27/2006 12/28/2006 12/29/2006 1/2/2007 1/3/2007 1/4/2007 1/5/2007 1/8/2007 1/9/2007 1/10/2007 1/11/2007 1/12/2007 1/15/2007 1/16/2007 1/17/2007 1/18/2007 1/19/2007 1/22/2007 1/23/2007 1/24/2007 1/25/2007 1/26/2007 1/29/2007 1/30/2007 1/31/2007 2/1/2007 2/2/2007 2/6/2007 2/7/2007 2/8/2007 2/9/2007 2/12/2007 2/13/2007 2/14/2007 2/15/2007 2/16/2007 2/19/2007 2/20/2007
7.14 7.15 7.25 7.23 7.24 7.25 7.18 7.17 7.3 7.35 7.39 7.39 7.43 7.49 7.54 7.64 7.66 7.72 7.7 7.66 7.76 7.83 7.75 7.74 7.87 7.84 7.73 7.63 7.66 7.62 7.59 7.55 7.59 7.6 7.53 7.45 7.53 7.54 7.51 7.52
2/21/2007 2/22/2007 2/23/2007 2/26/2007 2/27/2007 2/28/2007 3/1/2007 3/2/2007 3/5/2007 3/6/2007 3/7/2007 3/8/2007 3/9/2007 3/12/2007 3/13/2007 3/14/2007 3/15/2007 3/16/2007 3/20/2007 3/21/2007 3/22/2007 3/23/2007 3/26/2007 3/27/2007 3/28/2007 3/29/2007 3/30/2007 4/2/2007 4/3/2007 4/4/2007 4/9/2007 4/10/2007 4/11/2007 4/12/2007
7.52 7.56 7.69 7.64 7.74 7.78 7.75 7.61 7.59 7.55 7.48 7.5 7.54 7.66 7.62 7.6 7.53 7.66 7.53 7.55 7.48 7.5 7.55 7.49 7.44 7.4 7.35 7.35 7.36 7.35 7.35 7.36 7.36 7.4
108

Pronosticos en El Mercado de Derivados Utilizando Redes Neuronales y Modelos ARIMA PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Pronosticos en El Mercado de Derivados Utilizando Redes Neuronales y Modelos ARIMA PDF

Cargado por

Copyright:

Formatos disponibles

Pronsticos en el mercado de derivados utilizando redes neuronales y modelos ARIMA: una aplicacin al Cete de 91 das en el MexDer.

Captulo 6. Conclusiones y propuestas para futuras investigaciones . 90

Captulo 7. Referencias ... 92

ndice de tablas y figuras ..... iv

Captulo 1: Series de tiempo

Parte I. Marco terico Series de tiempo y redes neuronales

Captulo 1: Series de tiempo

Captulo 1 Series de tiempo

Captulo 1: Series de tiempo

Captulo 1: Series de tiempo

Captulo 1: Series de tiempo

Captulo 1: Series de tiempo

Captulo 1: Series de tiempo

para k = 1, ..., n - 1 para k = 0

0 es la varianza de la muestra dada por:

Captulo 1: Series de tiempo

k es la covarianza al rezago k definida como:

Tabla 1.1 Patrones tericos de FAC y FACP

Captulo 1: Series de tiempo

1.5 Propiedades de las series de tiempo financieras

Captulo 1: Series de tiempo

1.6 Datos usados en la prediccin de series de tiempo financieras

Captulo 1: Series de tiempo

yL: precio ms bajo negociado durante el da V: volumen total negociado durante el da

La situacin de la compaa medida por:

Captulo 1: Series de tiempo

El rendimiento logartmico se define como: R(t ) = log y (t ) y (t 1)

Captulo 1: Series de tiempo

Captulo 1: Series de tiempo

1.8 Mtodos clsicos para el tratamiento de series de tiempo financieras

Modelo de caminata aleatoria geomtrica log( y t ) = log( y t 1 ) +

Captulo 1: Series de tiempo

Captulo 2: Redes neuronales

Captulo 2 Redes neuronales

Captulo 2: Redes neuronales

Captulo 2: Redes neuronales

Donde: xj(t) representa el conjunto de entradas,

Captulo 2: Redes neuronales

hi = (wij, xj) ai = f(hi)

Figura 2.1 Modelo de una neurona artificial.

Captulo 2: Redes neuronales

Captulo 2: Redes neuronales

Captulo 2: Redes neuronales

Captulo 2: Redes neuronales

Figura 2.2 Funciones de activacin comunes.

Captulo 2: Redes neuronales

Tambin es conocido como sesgo y se le asigna un valor numrico de uno.

Captulo 2: Redes neuronales

Back-propagation por sus siglas en ingls.

Captulo 2: Redes neuronales

Neurona presinptica (j)

Neurona postsinptica (i)

Figura 2.3 Interaccin entre una neurona presinptica y otra postsinptica.

Captulo 2: Redes neuronales

Tambin llamadas Layered Networks Conocidos tambin como modelos de red.

Captulo 2: Redes neuronales

Captulo 2: Redes neuronales

Figura 2.4 Red neuronal de dos capas.

[ij = Wi j = (i1 , i 2 ,...in ),1 i k ,1 j n]

Captulo 2: Redes neuronales

Figura 2.5. Red neuronal multicapa.

Captulo 2: Redes neuronales

Captulo 2: Redes neuronales