ISlumaef

Universidad Nacional De San Agustín de Arequipa Facultad De Ingeniería De Producción Y
Servicios
Ingeniería De Sistemas
Tesis profesional
MODELO ESTOCÁSTICO BASADO EN REDES NEURONALES

NO TRADICIONALES APLICADA A LA GENERACIÓN DE
CAUDALES MENSUALES CASO: CUENCA DEL RIO CHILI,
AREQUIPA
presentada por el Bachiller: Edson Francisco Luque Mamani
supervisado por:
Phd. Jose Alfredo Herrera Quispe
23 de mayo de 2018
A mis padres, José y Dina por su capacidad de creer en mi
Resumen
Las investigaciones en recursos hídricos pueden involucrar la generación de datos y/o pronóstico no sólo
de variables hidrológicas sino de otras variables derivadas que permitan reducir pérdidas de tipo económicas
y sociales, dimensionando y escenificando el impacto de una sequía, inundación y principalmente la demanda
poblacional. Por lo tanto, la búsqueda de un diseño óptimo en un proyecto de gestión del agua frecuentemente
involucra encontrar un método o técnica que genere largas secuencias de las características de los flujos(caudales)
en este caso de un río en cuestión. Estas secuencias consideradas como series temporales pueden ser usadas para
analizar y optimizar el desempeño del proyecto diseñado. Con el fin de cubrir esos requerimientos, este trabajo
tiene como objetivo la elaboración de un nuevo modelo de proceso estocástico para ser aplicado en problemas
que envuelven fenómenos de comportamiento estocástico y de características periódicas en sus propiedades
probabilísticas como media y varianza. Para esto fueron usados dos componentes, el primero, un tipo de red
neuronal recurrente introducido en la literatura denominado Echo State Network(ESN), siendo el componente
determinista. Una característica interesante de ESN es que a partir de ciertas propiedades algebraicas, entrenar
solamente la capa de salida de la red es a menudo suficiente para alcanzar un desempeño excelente en aplicaciones
prácticas. La segunda parte del modelo, es un componente aleatorio que incorpora al modelo la incertidumbre
asociada a los procesos hidrológicos. El modelo finalmente es llamado MEESN. Este fue calibrado y validado en
series temporales mensuales de cuatro cuencas hidrográficas de MOPEX, así como en el ámbito local en series de
la cuenca del Chili. El nuevo modelo fue comparado con modelos presentes en la literatura como el modelo; PEN,
Thomas & Fiering y ANFIS. Los resultados muestran que MEESN y su versión modificada MEESN+TSM
(que considera una variable exógena) ofrecen una alternativa prometedora para propósitos de simulación, con
potencial interesante en el contexto de los recursos hidrometeorológicos.
Palabras Clave: Hidrológicas, Caudal, ESN, Optimización, Determinista, Series Temporales,Redes Neuro-
nales, Estocástico, Sistema Dinámico.
2
Lista De Abreviaturas y Siglas
ANFIS Adaptive Neuro-fuzzy Inference System

BP BackPropagation
GST Generador de Escenarios de series Temporales
MAE Error Medio Absoluto

MAPE Error Porcentual Absoluto Medio
MEESN Modelo Estocástico ESN
MEESN Modelo Estocástico ESN

MOPEX Model Parameter Estimation Experiment
MSE Error Medio Cuadrático
PE Proceso Estocástico
PEN Proceso Estocastico Neural
PEs Unidades de Procesamiento
RC Reservoir Computing
RMSE Raíz del Error Medio Cuadrático
RNA Redes Neuronales Artificiales
RNAR Redes Neuronales Artificiales Recurrentes

RNAR-esn Red Neuronal Recurrente ESN
RSL Revisión Sistemática de Literatura
3
Índice general
Resumen 2
1. Introducción 6
1.1. Definición del problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2. Justificación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.4. Objetivos Específicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.4.1. Contribuciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4.2. Organización de Capítulos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2. Marco Teórico 10
2.1. Procesos estocásticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.1.1. Serie Temporal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.1.2. Proceso Estrictamente Estacionario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.1.3. Proceso Débilmente Estacionario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2. Ruido Blanco . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.3. Modelos Estadísticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.3.1. Modelos Auto-Regresivos(AR) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.3.2. Modelo de Medias Móviles(MA) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.3.3. Modelo Autorregresivo de Media Móvil ARMA(p,q) . . . . . . . . . . . . . . . . . . . . . 13
2.3.4. Modelo Autorregresivo Integrado de Media Móvil(ARIMA) . . . . . . . . . . . . . . . . . 14
2.3.5. Modelo SARIMA(ARIMA estacional) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.4. Test de Hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.4.1. Pruebas de bondad de Ajuste(adherencia) . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.4.1.1. Test t . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.4.1.2. Test de Levene . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.4.2. Estimadores de Primer Orden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.5. Modelos De Aprendizaje De Maquina . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.5.1. Redes Neuronales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.5.2. Redes Neuronales Recurrentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.5.3. Entrenamiento de una Red Neuronal Recurrente . . . . . . . . . . . . . . . . . . . . . . . 21
2.6. Reservoir Computing y Redes Echo State . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.6.1. Reservoir Computing(RC) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.6.2. Liquid State Machines(LSM) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.6.3. Redes Echo State(RNAR-esn) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.6.4. Dinámica una Red ESN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.6.4.1. Entrenamiento De Una Red ESN . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.6.4.2. Aprendizaje De Una Red ESN . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.6.4.3. Validaciones De Una Red ESN . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.7. Consideraciones Finales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3. Estado del Arte 28

3.1. Planificación Y Ejecución De Mapeo Sistemático . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
4
3.2. Enfoques Clásicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.3. Enfoques De Aprendizaje Automático (Machine learning) . . . . . . . . . . . . . . . . . . . . . . 29
4. Propuesta 31
4.1. Descripción del Modelo MEESN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.2. Componente Estocástico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
4.2.1. Proceso de Márkov de primer orden: modelo de Thomas & Fiering . . . . . . . . . . . . . 32
4.3. Componente Determinista . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
4.3.1. Formalización de los parámetros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.3.2. Parámetros de ESN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.3.2.1. Tamaño del reservorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.3.2.2. Radio Espectral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.3.2.3. Conectividad y Topología . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4.3.2.4. Optimización aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4.4. Generación de Escenarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
5. Experimentos 39
5.1. Usando Bases Ortonormales como Matriz de Conectividad . . . . . . . . . . . . . . . . . . . . . . 39
5.2. Estimación de parámetros para generar escenarios Hidrológicos . . . . . . . . . . . . . . . . . . . 42
5.2.1. Pre-procesamiento de datos, entradas y salidas . . . . . . . . . . . . . . . . . . . . . . . . 42
5.2.2. Datos de prueba . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
5.2.3. Configuración de aprendizaje de la red RNAR-echo . . . . . . . . . . . . . . . . . . . . . . 43
5.3. Generación de escenarios sintéticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
5.3.1. Caso de Estudio: MOPEX . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
5.3.2. Análisis de escenarios sintéticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
5.3.3. Análisis de Adherencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
5.3.4. Análisis visual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
5.3.5. Caso de Estudio: Cuenca del Rio Chili, Arequipa . . . . . . . . . . . . . . . . . . . . . . 47
5.3.6. Caracterización del área de estudio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
5.3.7. Contexto del caso de estudio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
5.3.7.1. Generador de escenarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
5.3.8. Estaciones de Medición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
5.3.8.1. Estación El Pañe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
5.3.8.2. Estación el Frayle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5.3.8.3. Estación Aguada Blanca . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5.3.9. Experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5.3.9.1. Análisis de Adherencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5.3.10. Inspección Visual de los Escenarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5.4. Incorporando información adicional, variable exógena . . . . . . . . . . . . . . . . . . . . . . . . . 67
5.4.1. Re-formulación del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
5.5. Experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
5.5.1. Inspección Visual de los Escenarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
5.5.2. Consideraciones finales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
6. Conclusión y trabajos futuros 76

6.0.1. Limitaciones del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
6.0.2. Trabajos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
6.0.3. Publicaciones Generadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
5
Capítulo 1
Introducción
1.1. Definición del problema

Según Autodema 2002; ANA 2013, 2017, dentro de los problemas identificados en la región de Arequipa se
encontraron una ineficiente y desintegrada gestión del recurso hídrico en la Cuenca del Río Chili, generando
baja disponibilidad del recurso. Se atribuyen estos problemas de gestión como causantes de pérdidas físicas,
económicas, sociales y ambientales.
Existen limitaciones por el uso de modelos tradicionales en la operación de la oferta de agua. Según (Concytec-
UNSA, 2012) podemos definir los siguientes problemas:
La operación y control en el manejo de la oferta del agua.
La operación de embalses con métodos tradicionales.
La Pérdida de agua de riego hasta en un 50 % por ineficiencia en uso y distribución 3.80 % de terrenos
productivos tiene rendimiento bajo, debido a una mala distribución del recurso hídrico.
Por lo tanto cada vez es más difícil ignorar la necesidad de modelos eficientes y efectivos en la generación de esce-
narios de predicción basados en variables hidrológicas. Actualmente se proponen modelos basados en conceptos
de inteligencia artificial como las Redes Neuronales Artificiales que permiten representar tareas de naturaleza
dinámica (predicción de variables hidrológicas) con mejor desempeño que los modelos lineales. El tipo de redes
neuronales que presenta un notable desempeño en el área de hidrología según (Lukoševičius und Jaeger (2009),
Coulibaly (2010), Chang et al. (2002), Chiang et al. (2004)) son las llamadas Redes Neuronales Recurrentes,
que debido a su estructura de conexiones cíclicas permite un modelado más parsimonioso de propiedades diná-
micas. Sin embargo, la recurrencia presente en su estructura puede ocasionar incremento en la complejidad de
aprendizaje y posteriormente ocasionar problemas de convergencia(Lukoševičius und Jaeger, 2009). Debido a lo
anterior mencionado, esta investigación representa un intento de responder a la siguiente pregunta: ¿Puede ser
considerada como alternativa válida un modelo de generación de escenarios para predicción de variables hidroló-
gicas basado en Redes Neuronales Recurrentes, usando nuevos métodos como ESN para reducir la complejidad
en su construcción?.
1.2. Justificación
El desarrollo de modelos de pronóstico de series temporales para el uso de los estudios hidrológicos, que
sean precisos y fiables sigue siendo una de las tareas más importantes y difíciles en la hidrología (de Vos, 2013).
Problemas reales como pronóstico presentan características complejas de tipo no lineal y algunas veces de com-
portamiento caótico, a fin de modelar el comportamiento de este tipo de fenómenos, realizar una aproximación
lineal (BOX, 1970) puede generar un modelo poco eficiente (Luna et al., 2006).
Estas series hidrológicas mensuales tienen como característica un comportamiento periódico que se manifiesta
en sus propiedades como la media, varianza, asimetría y estructura de auto-correlación (THOMAS (1962),
6
MACEIRA (Rio de Janeiro, RJ, 1989.)). Su análisis puede llevarse acabo mediante el uso de modelos auto-
regresivos dentro de los cuales destaca el modelo PAR(p)(Maceira, 2005.). Sin embargo, estos modelos son
estadísticos y lineales, eso implica que su aplicación en series hidrológicas (de comportamiento caótico) puede
no capturar sus características reales, y por lo tanto generar resultados inconsistentes.
Entre las metodologías que intentar modelar problemas complejos no lineales actualmente, las Redes Neuro-
nales Artificiales (RNA)(de Vos und Rientjes, 2008) destacan como métodos de aprendizaje de maquina. Aunque
muchos investigadores de RNA demostraron el buen desempeño de estas técnicas. Su comportamiento de ”caja
negra” tiene observaciones planteadas con respecto a su fiabilidad y validez como modelos hidrológicos(Cunge
(2003), de Vos und Rientjes (2005)).
De hecho, en muchos trabajos sobre modelos de pronóstico(hidrológico) en la literatura las RNA’s en especial
del tipo feedforward han sido ampliamente usadas, en contraste con las RNA’s de tipo Recurrente (de Vos,
2013). Las RNA’s recurrentes son capaces de representar mapas dinámicos no lineales comúnmente encontradas
en las tareas de pronóstico de series temporales(Sun et al., 2016). Estudios sobre su desempeño muestran un
desempeño superior que sus similares feedforward(Brezak et al., 2012). Pero, la principal razón de la preferencia
en uso de RNA’s feedforward sobre RNA’s recurrentes es la recurrencia que ocasiona mayor complejidad sobre
todo en el proceso de aprendizaje de la RNA.
Lo anterior mencionado motivó en este proyecto la elaboración de un nuevo modelo de proceso estocástico
utilizando Redes Neuronales Artificiales Recurrentes (RNAR) a fin de aprovechar sus ventajas sobre las RNA’s
feedforward. Para esto, se aplicó un paradigma típico de RNAR introducido denominado Reservoir Computing
(RC)(Lukoševičius und Jaeger, 2009). RC es un enfoque de aprendizaje que se perfila como simple y rápido en
comparación a otros enfoques usados en RNAR, todo esto con el fin de reducir su complejidad de construcción
y aprovechar su capacidad comprobada de representar mejor las características de las series temporales. Además,
como parte de nuestra propuesta se considerará un componente no determinista que representa un ruido aleatorio
con distribución normal, esto con el fin de tener en cuenta la incertidumbre que afecta típicamente los procesos
hidrológico (Awchi und Srivastava, 2004). En consecuencia, nuestro modelo es una propuesta novedosa en la
literatura.
Finalmente, este modelo puede ser aplicado en la solución de problemas de la región de Arequipa que invo-
lucran fenómenos climatológicos como caudales, precipitación, temperatura e incluso de tipo económico como
fluctuaciones de precios entre otros.
1.3. Objetivos
Proponer un modelo de Proceso Estocástico para la generación de series temporales hidrológicas mediante
el uso de técnicas de inteligencia artificial relativamente novedosas, como ESN y un ruido aleatorio basado en
la incertidumbre que afecta típicamente procesos hidrológicos.
1.4. Objetivos Específicos

Estudiar los modelos lineales, entre los cuales destacamos el modelo de Thomas & Fiering (THOMAS,
1962).
Revisar en la literatura los distintos modelos basados en aprendizaje de maquina como: Redes Neuronales
feedforward, Redes Neuronales Recurrentes, el enfoque de Reservoir Computing y redes ANFIS.
Aplicar el modelo propuesto en la generación y pronóstico de series temporales para 2 casos de estudio
basados en variables hidrológicas(Caudales, Precipitación): El primero usando series temporales de MO-
PEX, en 4 cuencas seleccionadas de manera aleatoria. El segundo, usando series temporales de la cuenca
del Chili, en tres estaciones de medición: el Pañe, Aguada blanca y el Frayle.
Evaluar el modelo propuesto en comparación con los modelos: Estocásticos Neuronal(PEN) de (Campos
et al., 2011), (THOMAS, 1962) y ANFIS (Jang, 1993a).
Analizar la media, desviación estándar, asimetría como parámetros utilizados para evaluar el modelo
propuesto y su habilidad para representar series sintéticas igualmente probables a la población histórica.
A fin de contrastar nuestra propuesta con los modelos en la literatura anteriormente mencionados.
7
Comprobar si nuestro modelo basado en ESN puede ser considerado como una alternativa válida a las
redes neuronales feedforward y recurrentes tradicionales.
Establecer las conclusiones, contribuciones, limitaciones, y trabajo futuro del modelo.
1.4.1. Contribuciones
Las principales contribuciones de esta tesis son:
El desarrollo de un nuevo modelo de proceso estocástico MEESN basado en redes neuronales recurrentes
y un componente aleatorio, usando técnicas de aprendizaje ESN, como una alternativa válida capaz de
simular series sintéticas igualmente probables a la serie histórica.
Este nuevo modelo puede ser aplicado para modelar series temporales que presentan características perió-
dicas.
Nuestro modelo aprovecha virtudes de sus dos componentes para realizar la estimación de un proceso
estocástico: en primer lugar, la capacidad de aprendizaje y generalización mediante ejemplos, por parte
de la RNA Recurrente (componente determinista) y en segundo lugar, la incertidumbre de un valor
aleatorio(componente no determinista) que afecta típicamente procesos hidrológicos.
El proceso de aprendizaje de una RNAR es realizado usando el enfoque ESN, donde solamente es
necesario ajustar los pesos de salida para poder capturar el comportamiento de una serie temporal, los
pesos de entrada y del reservorio son establecidos aleatoriamente. De esa manera se logra reducir el costo
computacional de aprendizaje.
Para entrenar nuestro modelo es necesario solamente la serie temporal histórica. La única transformación
necesaria es una normalización de esos datos en un intervalo pre-establecido. No es necesario suponer
ningún comportamiento de la serie histórica para utilizarlo en nuestro modelo. Todo el comportamiento
de la serie es capturado por las RNA Recurrentes en sus estados internos. Esta característica permite a
nuestro modelo descartar el uso de técnicas de «ventana» y términos auto regresivos.
1.4.2. Organización de Capítulos

Este trabajo esta organizado de la siguiente forma:
En el Capítulo 2, se presenta un breve resumen sobre conceptos fundamentales del modelo propuesto en
esta tesis, como son; la teoría de procesos estocásticos, redes neuronales artificiales, recurrentes y enfoques de
aprendizaje (se destaca ESN). Además, se presenta una breve descripción sobre métodos de muestra aleatoria y
los test de hipótesis utilizados en la validación del desempeño de nuestro modelo.
En el Capítulo 3, Se utiliza el método estándar de revisión sistemática de literatura (RSL) basada en
las directrices originales propuestas por Kitchenham (2004). Se emplea una búsqueda manual de revistas y
publicaciones en congresos que cumplen los criterios de exclusión e inclusión establecidos en el protocolo de
revisión.
En el Capítulo 4, se describe detalladamente los 2 componentes principales del modelado completo del nuevo
proceso estocástico MEESN, con el fin de procesar series temporales hidrológicas mensuales. El ajuste del
modelo consiste en: estimar sus parámetros, configuración de la red neuronal recurrente ESN (RNAR-esn),
mediante métodos de optimización aleatoria. El objetivo principal es generar escenarios sintéticos en el contexto
de una arquitectura para la planificación de Recursos Hídricos, vinculada a un sistema de soporte de decisiones,
con miras a la planificación a medio plazo que permitirán proyectar posibles escenarios de condiciones climáticas
y de demanda de agua.
En el Capítulo 5, se muestran los resultados obtenidos en cada caso de estudio en este trabajo. Primero, se
presenta la validación (test de adherencia, RMSE, NRMSE, CE, MAD) de los escenarios generados por nuestro
modelo comparado con los escenarios generados por los modelos presentes en la literatura como PEN (Campos
et al., 2011), (THOMAS, 1962) y ANFIS (Jang, 1993a), para tratar series temporales mensuales de MOPEX
en 4 cuencas elegidas aleatoriamente. En segundo lugar, se evalúa la propuesta en la generación escenarios de
variables hidrológicas (caudales, precipitación) en la cuenca del Chili-Arequipa, en tres estaciones de medición(el
Pañe, Aguada blanca y el Frayle, en periodos mensuales), siguiendo el mismo procedimiento de validación.
8
El Capítulo 6, finaliza este trabajo presentando las conclusiones generales y las propuestas de trabajos
futuros.
9
Capítulo 2
Marco Teórico
Este capítulo ofrece un resumen de los fundamentos teóricos necesarios para entender nuestro nuevo modelo.
el capítulo inicia con la Sección 2.1, donde se comenta sobre procesos estocásticos y sus propiedades. La sección
2.2 presenta el concepto de Ruido blanco, que es utilizado en la generación de series temporales sintéticas
por parte de nuestro modelo. La sección 2.3 cubre algunos de los mas conocidos modelos estadísticos para la
predicción de series temporales. En la Sección 2.4 son presentados algunos Test de hipótesis, utilizados para
la validación de la bondad de ajuste (test de adherencia) de los escenarios generados por nuestro modelo en
comparación con la serie histórica. Se encuentra en la Sección 2.5 los conceptos principales de Redes Neuronales,
que es considerada la base del modelo de esta tesis. Para finalizar la Sección 2.6 ofrece los conceptos básicos
sobre reservoir computing y echo state networks, paradigmas que son usados para entrenar de manera simple e
igualmente efectiva una Red Neuronal Recurrente, que es el componente mas importante en nuestro modelo.
2.1. Procesos estocásticos

Por lo general, se representa un Proceso Estocástico(PE) como {Z (t) : t ∈ T }, donde t representa el instante
de tiempo, Z (t) es una variable aleatoria llamada estado del proceso en el instante t y T es el conjunto de índices
denominado espacio paramétrico de PE.
Por lo tanto, un PE es un modelo matemático caracterizado por una colección de variables aleatorias orde-
nadas, en el tiempo y en el espacio, y definidas en un conjunto, continuo o discreto, que describe la evolución de
algún fenómeno con características aleatorias (Muller, 2007).
Si el conjunto T es un intervalo finito o infinito de números reales, se dice que {Z (t) : t ∈ T } es un proceso
continuo. Por otra parte, si T es un conjunto finito o contable, como por ejemplo T = {1, 2, 3, . . .}o T =
{1, 9, 43, 279}, se dice que PE es un proceso discreto (Barros, 2009). El espacio de estados de un PE es el conjunto
de todos los posibles valores de variables Z (t), que también puede ser discreto o continuo. La combinación de
los posibles valores de T y Z (t) conduce a cuatro clases de proceso estocástico (para mas información véase
(Barros, 2009)).
2.1.1. Serie Temporal

El concepto de proceso estocástico proporciona el análisis probabilístico de series temporales. Así, una serie
temporal puede ser considerada una realización de un PE, esto es, una posible trayectoria del proceso. Por lo
tanto, un PE es un proceso generador de datos cuya serie temporal es una realización muestral entre todas las
series posibles a ser generadas por este modelo. Por ejemplo, nosotros podemos considerar el siguiente proceso
estocástico definido como:
Zt = Zt−1 + at (2.1)
Donde podemos asumir que Z0 = 0, y at es una variable independiente e idénticamente distribuida N 0, σ 2 .

Este proceso es conocido como camino aleatorio (vea Figura 2.1).

Con el fin de obtener un modelo adecuado para una serie temporal, se necesita de una secuencia de estudio
de la misma. Donde dado un PE (fenómeno real) se obtiene una serie temporal (muestra finita de observaciones
10
Figura 2.1: Proceso estocástico de camino aleatorio, se muestra 200 realizaciones de este proceso.
equidistantes en el tiempo) y a través del análisis de series temporales (estudio de la muestra) se identifica un
modelo cuyo objetivo es inferir sobre el comportamiento de la realidad. A partir de la expresión matemática de
ese modelo, se pueden obtener las fórmulas para sus momentos como media, varianza, entre otros. Por lo tanto,
una manera de describir un PE es a través de los momentos de las variables aleatorias, en especial, la media, la
varianza y autocovarianza del proceso (Barros, 2009). La media y la varianza de un PE discreto son funciones
de instante de tiempo t, definidas, respectivamente, por las ecuaciones 2.2 y 2.3.
µ (t) = E [Z (t)] (2.2)

n o
2
σ 2 (t) = V ar [Z (t)] = E [Z (t) − µ (t)] (2.3)
Siendo E [•], el valor esperado y Z (t)el estado del proceso en el instante t. La autocovarianza de un PE
discreto es una función definida, entre los instantes t1 y t2 por:
γ (t1 , t2 ) = Cov [Z (t1 ) , Z (t2 )] = E {[Z (t1 ) − µ (t1 )] · [Z (t2 ) − µ (t2 )]} (2.4)
Esto es, la autocovarancia de un PE discreto es sólo la covarianza entre instantes de tiempo diferentes. Por
lo tanto, la varianza del PE es sólo un caso particular de la autocovariancia, donde t1 = t2 .
Los momentos de orden más alto se pueden definir de manera similar, pero son poco usados en la práctica.
Las definiciones de los momentos para un PE continuo son análogas a las de un PE discreto.
Estas características de procesos estocásticos están íntimamente ligadas a la noción de estacionariedad de un
proceso (Barros, 2009). Se dice que un proceso es estacionario si no hay cambios en sus características, es decir,
si es invariante en relación al tiempo. Según la estacionariedad, un proceso puede clasificarse en:
2.1.2. Proceso Estrictamente Estacionario

Cuando sus estadísticas no son afectadas por variaciones debido a la selección del origen del tiempo, osea, la
distribución de probabilidad conjunta no cambia al desplazar el tiempo o el espacio. De esta forma, la distribución
de probabilidad conjunta P {Z (t1 ) = z1 , Z (t2 ) = z2 , . . . , Z (tn ) = zn } es la misma que P {Z (t1 + k) = z1 , Z (t2 + k) = z2 , . . . , Z
para cualquier ti , k y n. La media y la varianza son constantes para todo instante de tiempo t ∈ T y la función
de autocovarianza solo depende del desplazamiento ti+k − ti . La media del proceso esta dada por la ecuación 2.5
y la autocovarianza de retraso k puede ser escrita como la ecuación 2.6.
µ (t) = E [Z (t)] = E [Z (t + k)] (2.5)
11
γ (k) = E {[Z (t) − µ] · [Z (t + k) − µ]} (2.6)
Por lo tanto cuando k = 0, se tiene la varianza constante del proceso:
n o
2
σ 2 = γ (0) = E [Z (t) − µ] (2.7)
2.1.3. Proceso Débilmente Estacionario

La condición de estacionariedad es mas débil porque se impone condiciones solamente sobre los dos primeros
momentos, que no garantizan condiciones sobre la estacionariedad de la función de probabilidad. Por lo tanto,
la media del proceso es constante y su autocovarianza depende sólo de k = ti+k − ti .
En la práctica, son 3 los tipos de series temporales: aquellas con propiedades de estacionariedad en periodos
largos(estrictamente estacionarias); las que poseen estacionariedad en periodos cortos(débilmente estaciona-
rias) y finalmente aquellas que no son estacionarias(sus propiedades están cambiando con el tiempo). Algunos
métodos estadísticos tratan la no-estacionariedad de series temporales, mediante técnicas que filtran la parte
no-estacionaria, trabajando solamente con la parte estacionaria (Muller, 2007).
Existen algunos procesos estocásticos que son muy usados en la especificación de modelos para series tem-
porales, y son usados en la construcción de procesos mas complicados, un ejemplo de esos PE básicos es el ruido
blanco o secuencia aleatoria.
2.2. Ruido Blanco

Un PE discreto es llamado ruido blanco si es un proceso puramente aleatorio, es decir, si los Z (t) constituyen
una secuencia de variables aleatorias independientes e idénticamente distribuidas.
Un ruido blanco tiene la media, varianza constante y la función de auto-correlación nula en todos los retrasos
k, es decir son totalmente descorrelacionadas. Presentan distribución normal de media cero y de desviación 1,
Z (t) ∼ N (0, 1).
Los procesos de ruido blanco aparecen en la construcción de otros procesos mas complejos, como, por ejemplo
los modelos de Box y Jenkins (BOX, 1970). Estos modelos tienen como propósito que los datos de series de tiempo
puedan usarse en pronóstico(tarea a realizar en esta tesis). Es decir, el uso de las observaciones de una serie de
tiempo disponible en el momento t Para predecir su valor en el tiempo t + l; Donde l se denomina horizonte de
previsión o tiempo de avance (Douglas C. Montgomery, 2008). El horizonte de previsión es el número de etapas
de tiempo en el futuro para las cuales las previsiones deben producirse.
Un método de pronóstico es un procedimiento que calcula Zb (t), para el tiempo t a partir de valores pasados(
Z (t − 1) , Z (t − 2) , Z (t − 3) , . . .). Se han propuesto numerosos algoritmos de aprendizaje de máquina y esta-
dísticos. Los modelos estadísticos estándar son los más predominantes en la literatura seguida por los modelos
de redes neuronales artificiales de aprendizaje automático.
2.3. Modelos Estadísticos

Esta sección cubre algunos algoritmos comunes utilizados para la predicción de series temporales en esta-
dística. El campo de predicción ha sido influenciado, durante mucho tiempo, por métodos estadísticos lineales
tales como el modelo auto-regresivo (AR), el modelo de media móvil (MA) y los modelos híbridos que derivan
de ellos como ARMA (media móvil auto-regresiva), ARIMA (Media móvil integrada auto-regresiva) y SARIMA
(ARIMA estacional).
2.3.1. Modelos Auto-Regresivos(AR)

En el proceso auto-regresivo, una variable de salida Z (t), depende linealmente de sus propios valores ante-
riores (Z (t − 1) , Z (t − 2) , . . . , Z (t − p)), y algún ruido blanco εt (Casella und Berger, 2002). Por definición, se
dice que un proceso {Z (t)}, es un proceso auto-regresivo de orden p denotado como AR(p) si Z (t), puede ser
descrito por:
12
Z (t) = φ1 · Z (t − 1) + φ2 · Z (t − 2) + . . . + φp · Z (t − p) + εt (2.8)
Dónde εt , es el ruido blanco con media cero y varianza finita fija σ , y φ1 , . . . φp , son los parámetros del
2
modelo. El orden p del modelo determina el número de observaciones pasadas utilizadas para predecir el valor
actual. El ejemplo más simple de un proceso AR es el caso de primer orden, denotado como AR(1), dado por:
Z (t) = φ1 · Z (t − 1) + εt (2.9)
En el caso multivariable donde hay múltiples observaciones para cada paso de tiempo, podemos considerar un
modelo auto-regresivo multivariante o un vector auto-regresivo (VAR). Considere M series temporales generadas
a partir de M variables, un modelo VAR (p) se define por la siguiente ecuación:
p
X
Z (t) = Ak · Z (t − k) + εt (2.10)
k=1
T
Donde Z (t) = Z (1) (t) , Z (2) (t) , . . . , Z (M ) (t) , es un vector columna M-dimensional de serie temporal con

índice t. Cada Ak , es una matriz M-por-M de parámetros donde φki,j , es el elemento en la posición (i, j) en la
h iT
(1) (M )
matriz Ak , y εt = εt , . . . εt , es un vector columna de ruidos blancos.
La ecuación 2.10 puede ser reescrita de la forma:
       
(k) (k) (1)
Z 1 (t) φ1,1 · · · φ1,M Z 1 (t − 1) εt
p 
..  .. .. .. ..   .. 
  X     
. . · (2.11)
 . . .   . 
= +
   
       
   
k=1 (k) (k) (M )
Z M (t) φM,1 · · · φM,M Z M (t − 1) εt
2.3.2. Modelo de Medias Móviles(MA)

Supongamos que {εt } es un proceso puramente aleatorio con una media de cero y una varianza σ 2 , entonces
se dice que un proceso {Z (t)}, es un proceso de media móvil de orden q denotado MA(q), si Z (t), puede ser
expresado por:
Z (t) = εt + θ1 · εt−1 + θ2 · εt−2 + . . . + θq · εt−q (2.12)

Donde θ1 , θ2 , . . . θq , son parámetros del modelo (Casella und Berger, 2002).
La media móvil también describe un método en el que la siguiente muestra depende de la suma ponderada
de las entradas pasadas o presentes de una serie temporal exógena {X (t)}, de N dimensiones descritas en la
ecuación2.13.
Z (t) = θ0 · X (t) + θ1 · X (t − 1) + θ2 · X (t − 2) + . . . + θq · X (t − q) (2.13)

Similar al modelo AR(p), en el caso de series temporales múltiples, un modelo multivariado de MA(q) de
dimensión M puede escribirse como:
q
X
Z (t) = Bk · X (t − k) (2.14)
k=1
Donde Xt es una serie de tiempo exógena N-dimensional y Bk , es una M-por-N matriz de parámetros.
2.3.3. Modelo Autorregresivo de Media Móvil ARMA(p,q)

El modelo ARMA es uno de los más utilizados ya que combina las ventajas de los modelos AR(p) auto-
regresivo y MA(q). El modelo ARMA fue originalmente propuesto en 1951 por Peter Whittle en su tesis "Hy-
pothesis testing in time series analysis" y fue adaptado por George E. P. Box y Gwilym Jenkins en 1971 (BOX,
1970). Un modelo ARMA (p, q) de orden (p, q) se define por:
13
Z (t) = φ1 · Z (t − 1) + . . . + φp · Z (t − p) + εt + θ1 · εt−1 + . . . + θq · εt−q (2.15)
Donde Z (t) es la serie original y εt , es una serie de errores aleatorios desconocidos que se supone siguen
una distribución de probabilidad normal. La versión multivariable del modelo ARMA se llama auto-regresivo
vectorial de media móvil (VARMA) que es dada por:
p
X q
X
Z (t) = Ak · Z (t − k) + Bk · X (t − k) (2.16)
k=1 k=1
Donde Z (t) es la salida, Z (t − k) y X (t − k), son respectivamente las variables de salidas pasadas y las
variables pasadas de variables exógenas. Ak y Bk , son M-por-M y M-por-N las matrices de parámetros respec-
tivamente.
2.3.4. Modelo Autorregresivo Integrado de Media Móvil(ARIMA)

Los modelos definidos anteriormente como AR, MA, y ARMA se utilizan en el análisis de series de tiempo
estacionarias (Campos et al., 2011). En la práctica, la mayoría de las series de tiempo son no estacionarias, por
lo que para adaptarse a los modelos estacionarios, es indispensable deshacerse de las fuentes no estacionarias de
variación (De Almeida, 2008). Una solución a esto, fue introducida por Box y Jenkins (BOX, 1970), el modelo
ARIMA que generalmente supera esta limitación mediante la introducción de un proceso de diferenciación que
transforma efectivamente los datos no estacionarios en estacionarios (Conover und Conover, 1980). Esto se hace
restando la observación en el periodo actual de la observación anterior. Por ejemplo, una diferenciación de primer
0
orden se realiza reemplazando Z (t) por Z (t) = Z (t) − Z (t − 1). Por lo tanto, el modelo ARIMA se denomina
ARMA "Integrado" debido al modelo estacionario que se ajusta a los datos diferenciados que tienen que sumarse
o integrarse para proporcionar un modelo para los datos originales no estacionarios. La forma general del proceso
ARIMA(p,d,q) se describe como:
0 0 0
Z (t) = ∇k Z (t) = φ1 · Z (t − 1) + . . . + φp · Z (t − p) + εt + θ1 · εt−1 + . . . + θq · εt−q (2.17)
Donde los parámetros p, d y q son números enteros no negativos que se refieren al orden de la parte autorre-
gresiva, el grado de primera diferenciación implicada y el orden de la parte media móvil respectivamente. Esta
capacidad para hacer frente al proceso no estacionario ha convertido el modelo ARIMA en uno de los enfoques
más populares y ampliamente utilizados en la predicción de series temporales.
2.3.5. Modelo SARIMA(ARIMA estacional)

SARIMA(De Almeida, 2008) es una extensión del modelo ARIMA. Se utiliza cuando los datos presentan
una característica periódica que se debe conocer de antemano. Por ejemplo, el componente estacional que repite
todas las observaciones s puede ser mensual S = 12,(12 en 1 año) o trimestral S = 4, (4 en 1 año). El modelo
SARIMA se denomina normalmente ARIMA (p, d, q)X(P, D, Q)s , donde P = número de términos estacionales
autorregresivos (SAR), D = número de diferencias estacionales, Q = número de términos de media móvil
estacional (SMA).
En general la metodología para el ajuste de modelos estocásticos de la familia ARIMA a series temporales,
sugerida por BOX & Jenkis, puede ser extendida para otros modelos como los de la familia PAR(p). Esta
metodología esta compuesta por 3 etapas:
Identificación del modelo: Escoger el orden del modelo, en el modelo autorregresivo consiste en determinar
el vector p.
Estimación del modelo: Obtener estimativas para los parámetros del modelo.
Verificación del modelo: Verificar mediante test estadísticos si el modelo seleccionado es adecuado. Si es
capaz de generar ruidos blancos después de la aplicación del filtro auto-regresivo.
Si el modelo estimado se considera adecuado, esto significa que es capaz de generar series sintéticas, igualmente
probables a la serie histórica (Maceira, 2005.).
14
H0 Aceptar Rechazar
Verdadero Correcto Error Tipo I, Falso Positivo

Falso Error Tipo II, Falso Negativo Correcto
Cuadro 2.1: Resultados de un Test de hipótesis, los dos errores que pueden ser cometidos al realizar un Test de
hipótesis son: Rechazar la hipótesis H0 , cuando tal hipótesis es verdadera(error tipo I), No rechazar la hipótesis
H0 , cuando tal hipótesis es falsa(error tipo II).
2.4. Test de Hipótesis

Esta hipótesis estadística corresponde a una suposición que se hace en relación con un valor de un parámetro
poblacional o una afirmación dada sobre la naturaleza de la población (Campos et al., 2011).
En la prueba se consideran dos hipótesis:
H0 : Hipótesis Nula - es la hipótesis a ser probada.
Ha : Hipótesis Alternativa - es la hipótesis que rechaza H0 .

La realización de la prueba consiste en aceptar una de las hipótesis. Los posibles resultados de una prueba de
hipótesis son:
Una parte importante de la prueba de hipótesis es controlar la probabilidad de cometer los errores:
α = p (rechazar H0 | H0 es verdadero) − probabilidad de error tipo I
β = p (no rechazar H0 | H0 es f also) − probabilidad de error tipo II

Una situación ideal es aquella donde ambas probabilidades α y β son próximas a cero, entre tanto, a medida
que disminuye α, la probabilidad de β tiende a aumentar.
Se da el nombre de nivel de significación del test, a la probabilidad α del error del tipo I. Por convención, se
acostumbra utilizar un nivel de significación del 5 % ó 1 %, pero cualquier valor entre 0 y 1 puede ser utilizado.
Normalmente, los métodos emplean un Test estadístico de prueba y una distribución de muestreo. El Test puede
ser una media, una proporción, diferencia entre las medias, z-score, entre otros, calculada a partir de los datos
de la muestra. La elección de Test depende del modelo de probabilidad elegido y de las hipótesis de la prueba.
Si la probabilidad estadística del Test es inferior al nivel de significación α, la hipótesis nula H0 es rechazada. Se
calcula también la probabilidad de obtener un test estadístico, como mínimo tan significativo en cuanto a lo que
fue efectivamente observado en la muestra, suponiendo que la hipótesis nula es verdadera. A esta probabilidad
se le da el nombre de p-valor. La interpretación directa es que si el p-valor es inferior al nivel de significación
exigido, entonces se dice que la hipótesis nula es rechazada al nivel de significación determinado.
2.4.1. Pruebas de bondad de Ajuste(adherencia)

Las pruebas de ajuste son instrumentos de la matemática estadística (corresponden a una clase de Test de
hipótesis) para determinar si una muestra se adhiere o no a un determinado modelo distributivo, es decir, para
saber cuál es el modelo que describe el comportamiento probabilístico de la muestra dada(Montgomery und
Runger, 1971).
A continuación se presentan las pruebas de bondad de ajuste elegidas para ser utilizadas en ese trabajo.
Estas pruebas son muy utilizadas en la comparación de muestras y sus modelos distributivos, que serán útiles
para validar nuestro modelo.
2.4.1.1. Test t
Para saber si una muestra es diferente de otra, se debe comparar varianzas y medias de las muestras. estas
deben ser estadísticamente iguales, no se deben diferenciar significativamente. La comparación directa de las
15
muestras no es adecuada, pues es necesario considerar la dispersión de estas medidas(Casella und Berger, 2002).
Por lo tanto, es preciso establecer si existe desvío significativo entre las varianzas y medias de las dos muestras.
Dada dos muestras X1 y X2 , la primera con n1 y la segunda con n2 observaciones, el test trabaja con las
siguientes hipótesis:
H0 : X 1 − X 2 = 0
Ha : X 1 − X 2 6= 0
Donde, X 1 es la media de la muestra X1 y X 2 la media de la muestra. Considerando s21 y s22 , como las
varianzas de las muestras X1 y X2 , el parámetro t es determinado por la ecuación 2.18.

X 1 − X 2
t= q 2 (2.18)
s1 s22
n1 + n2
Para el uso del test de significación, la distribución de la estadística del test es aproximada por una distribución
t-Student(Campos et al., 2011).
El análisis de este test puede basarse en el p-valor, que impide rechazar H0 en el caso que su valor este encima
del nivel de significación α (probabilidad de cometer el error de tipo I).
2.4.1.2. Test de Levene

Este test verifica la homogeneidad de varianzas(Conover und Conover, 1980). Sean consideradas K ≥ 2
muestras aleatorias independientes entre si. La muestra i representa una colección de ni variables aleatorias
independientes e idénticamente distribuidas, con distribución Gi , media µi y varianza σi2 , siendo Gi , µi , σi2
desconocidos.
El test trabaja con las hipótesis:
H0 : σi = ... = σk
Ha : σq 6= σr , para algun q 6= r, q = 1, ..., k y r = 1, ..., k
La ecuación 2.19 presenta los desvíos absolutos de las variables Xi,j con relación a la media muestral del
grupo Xi , denotado por X i :
Pni
j=1 Xi,,j
Xi =
ni
Zi,,j =| Xi,j − X i | (2.19)
con j = 1, ..., ni e i = 1, ..., k.
La estadística del test de levene es denotado por W0 y es calculada por la ecuación 2.20.
Pk 2

n−k
ni . Z i − Ẑ
i=1
W0 = . Pk Pn 2 (2.20)
k−1
j=1 Zi,j − Z i
i
i=1
Donde:
Pni
j=1 Zi,j
Zi =
ni
Pk
i=1 ni .Z i
Ẑ =
n
k
X
n= ni
i=1
16
Medida Nombre Ecuación
MSE Error Medio Cuadrático

= media e2t
MAE Error Medio Absoluto = media (|et |)

√
RMSE Raíz del Error Medio Cuadrático = M SE
MAPE Error Porcentual Absoluto Medio = media (|pt |)
Cuadro 2.2: Los estimadores de precisión utilizados con frecuencia de acuerdo a (Gooijer und Hyndman, 2006).
No pueden ser usadas para hacer comparaciones entre series que están en diferentes escalas.
El test de Levene rechaza la hipótesis Ho si la estadística del test Wo es mayor que el cuartil de orden 1-α de
la distribución F(k−1,n−k) , siendo α la probabilidad de cometer un error de tipo I.
2.4.2. Estimadores de Primer Orden

Además de los Test de hipótesis estadísticos a menudo los modelo de predicción necesitan de los llamados
estimadores de primer orden, para esto los datos se dividen en dos conjuntos (Hyndman und Athanasopoulos,
2013). El primer conjunto sirve para estimar los parámetros del modelo. El segundo conjunto, se denomina
conjunto de pruebas que contiene datos no vistos por el modelo utilizados para estimar las predicciones usando
los parámetros antes calculados.
El conjunto de pruebas sirven para validar el modelo en datos que no estaban disponibles cuando se calcularon
los parámetros por primera vez. A partir de esto, podemos ver el desempeño cuando el modelo realiza pronóstico
de otros datos para los cuales sabemos el resultado real con el fin de comparar estos con el resultado previsto.
A continuación se presentan los estimadores de precisión de pronóstico que serán útiles para validar el modelo
de esta tesis.
Las medidas más utilizadas son el Error Medio Cuadrático (MSE), el Error Medio Absoluto (MAE), Raíz
del Error Medio Cuadrático (RMSE) y Error Porcentual Absoluto Medio (MAPE). En la Tabla 2.21 (Gooijer
und Hyndman, 2006) se presenta una lista de las medidas de exactitud de uso común.
Todas las métricas anteriores pueden ser usadas sobre series temporales de distinta naturaleza, pero, en este
trabajo necesitamos también evaluar el poder de predicción de un modelo hidrológico, para esto, decidimos
utilizar el índice de eficiencia de Nash-Sutcliffe, ampliamente usado en el campo de la hidrología(Xu, 2002).
Esta medida es definida como:
Pn 2
(yt − ybt )
E = 1 − Pnt=1 2 (2.21)
t=1 yt − y t )
(b
Donde, y t es la media de las observaciones, e yt , es el valor producido por el modelo, ybt , es el valor real
observado en el tiempo t.
La eficiencia de Nash-Sutcliffe puede variar de −∞ a 1. Una eficiencia de 1 (E = 1) corresponde a
una correspondencia perfecta modelada con los datos observados. Una eficiencia de 0 (E = 0) indica que las
predicciones del modelo son tan precisas como la media de los datos observados, mientras que una eficiencia
menor que cero (E < 0) ocurre cuando la media observada es un mejor predictor que el modelo ó en otras
palabras, cuando la varianza residual (descrita por el numerador en la expresión anterior) es mayor que la
varianza de datos (descrita por el denominador). Esencialmente, cuanto más cerca la eficiencia del modelo es 1,
más preciso es el modelo. Este método se puede utilizar para describir la precisión predictiva de otros modelos.
Por ejemplo, la eficiencia de Nash-Sutcliffe ha sido reportada en la literatura para modelos de simulaciones
de descarga, y simulación de los constituyentes de la calidad del agua como sedimento, nitrógeno y carga de
fósforo(Moriasi et al., 2007).
1 El
Pn
error de predicción es definido como et = yt − ybt , y pt = t=1 |yt − ybt /yt | · 100
17
Redes Neuronales/
Estimulos Receptores Efectores Respuesta
Cerebro
Figura 2.2: El sistema nervioso humano donde los receptores recogen información del medio ambiente(los fotones
en la retina). Seguidamente, los efectores generan interacciones con el medio ambiente(activar los músculos).
2.5. Modelos De Aprendizaje De Maquina

2.5.1. Redes Neuronales
Según Haykin en (Campos et al., 2011), son modelos computacionales no-lineales, inspirados en la estructura
paralela del cerebro humano. Desde un punto de vista práctico, son sólo un sistema paralelo computacional que
consiste en muchos elementos de procesamiento conectados entre sí de una manera específica con el fin de realizar
una tarea particular(Vasighi, 2016). A continuación se describen conceptos que vale la pena diferenciar:
Las Redes Neuronales(NNs), son redes de neuronas, por ejemplo, como los encontrados en los cerebros
reales.
Las Neuronas Artificiales, son aproximaciones en bruto de las neuronas encontradas en el cerebro.
Pueden ser dispositivos físicos, o construcciones puramente matemáticas.
Las Redes Neuronales Artificiales(RNAs), son redes de neuronas y, por lo tanto, constituyen apro-
ximaciones a algunas partes del cerebro. Pueden ser dispositivos físicos, o simulados en ordenadores.
Inspiración Biológica
El sistema nervioso humano se puede dividir en tres etapas que pueden representarse en forma de diagrama
de bloques como en la Figura 2.2.
Naturalmente, en este trabajo nos ocuparemos principalmente de la red neuronal que se encuentra en el
medio del diagrama (Figura 2.2).
El cerebro contiene estructuras anatómicas a gran y pequeña escala y diferentes funciones que tienen lugar
en niveles superiores e inferiores. Hay una jerarquía de niveles de organización:
1. Moléculas e Iones
2. Sinapsis
3. Microcircuitos neuronales
4. Árboles dendríticos
5. Neuronas
6. Circuitos locales
7. Circuitos interregionales
8. Sistema nervioso central
Las RNAs que estudiamos son aproximaciones de los niveles 5 y 6. Las neuronas artificiales están inspirados
en las neuronas biológicas, cuyo esquemas es representado de manera simplificada en la Figura 2.3. Como se
puede observar, una neurona biológica está formada por: un cuerpo celular o soma que contiene el núcleo de la
célula; diversas dendritas, a través de las cuales se reciben los impulsos eléctricos; y un axón, a través del cual
se envían esos impulsos eléctricos. Las interconexiones entre neuronas se efectúan a través de sinapsis, puntos
de contacto (controlados por impulsos eléctricos y por reacciones químicas debidas a las sustancias llamadas
neurotransmisores) entre dendritas y axones, formando una red de transmisión de información (Campos et al.,
2011).
18
Dendritas Terminación
Axónica
Soma
Salida
Entrada
Axón
Procesamiento
de la información
Núcleo Sinapsis
Figura 2.3: Modelo simplificado de una neurona biológica
Sinapsis
axón
Entradas Salida
bias
dentritas
Figura 2.4: Esquema básico de una Neurona Artificial
Se considera que el aprendizaje ocurre justamente en las sinapsis, en las conexiones axón-sinapsis-dendritas,
donde ocurre la traducción de la señal que pasa por el axón de una neurona y que puede excitar (o inhibir) la
neurona siguiente. El cerebro humano posee cerca de 1011 neuronas y el número de sinapsis y es de más de 1014 ,
posibilitando la formación de interconexiones muy complejas que permiten un procesamiento altamente paralelo.
La Figura 2.4 presenta una neurona artificial que tiene un conjunto de entradas representadas por, x1 , x2 , . . . , xm−1 , xm ,
que simulan las dendritas, y una salida yi , que simula el axón. Las entradas a la neuraP son ponderadas por los
pesos sinápticos representados por wi1 , wi2 , wi3 , . . . , wim−1 , wim , que son sumadas por (que simula el cuerpo
celular), la unidad de bias, es representado por θi , que es un termino de polarización cuyo valor siempre es 1,
su objetivo es aumentar o disminuir la influencia del valor de la combinación linear de las entradas(Campos
et al., 2011). La salida de la neurona se obtiene aplicando una función de activación, representada por ϕ, como
se puede ver en la ecuación 2.22.
 
Xm
yi = ϕ (N eti ) = ϕ  xj ∗ wij + θi  (2.22)
j=1
La función de activación es utilizada para limitar la amplitud de salida de una neurona, y algunas veces
introducir no linealidad al modelo. Son cuatro tipos de funciones de activación que son muy utilizadas en RNA
(para mas detalle vea (Barron, 1993)).
Tres características básicas identifican a los diversos tipos de RNAs(Campos et al., 2011):
1. La función de activación de la Neurona Artificial.
2. La topología de la red neural(interconexión entre neuronas)

3. Regla de aprendizaje.
Básicamente existen dos tipos de topologías de RNAs que son ampliamente usados en la literatura:
19
Capa de Salida
Capa oculta
Figura 2.5: Red Neuronal Feedforward, donde la primera capa recibe sus entradas del entorno, se activa y su
salida sirve como entrada para la siguiente capa. Este proceso se repite hasta alcanzar la capa final (capa de
salida).
Figura 2.6: Red Neuronal Recurrente(RNAR), este tipo de redes resultan ser muy eficientes en las tareas de
predicción de secuencia, aunque no pueden recordar la información relevante para muchos pasos en el pasado.
Redes Neuronales No Recurrentes(sin memoria o Feedforward ):

Son aquellas redes sin conexiones entre neuronas de una misma capa, no presentan realimentación de sus
salidas para sus entradas. La Figura 2.5, ilustra una red feedforward. Donde la red posee un conjunto de nodos de
entrada, que solamente distribuyen los patrones de entrada para la red; una o varias capas intermedias ocultas,
cuyas salidas son las entradas de la capa de neuronas siguientes; y una capa de salida con neuronas que procesan
el resultado final de la red.
Redes Neuronales Recurrentes:

Son aquellas redes que contienen conexiones de realimentación. En su estructura las redes neuronales re-
currentes pueden presentar interconexiones entre neuronas de la misma capa y entre neuronas de capas no
consecutivasAwchi und Srivastava (2004). Como se puede ver en la Figura 2.6, su arquitectura presenta interco-
nexiones mas complejas que las redes feedforward.
Determinar la arquitectura(número de: neuronas, capas; tipo de activación) de una RNA es una elección
decisiva para obtener un aprendizaje ideal, esto depende de la necesidad y la tarea a cumplir en su aplica-
ción(Sutskever, 2013a). Un punto crucial es el numero de neuronas por capa, aunque un mayor número pueda
ser beneficioso, esto puede llevar a problemas de overffiting(Hallac et al., 2017). Por otra parte, un número muy
pequeño de neuronas puede no ser suficiente para modelar el problema adecuadamente. Por lo tanto para que
una red neuronal tenga un buen desempeño, ella debe ser lo suficientemente grande para aprender el problema
pero también lo bastante pequeña para generalizar bien(Campos et al., 2011).
Una red neuronal necesita pasar por un proceso de entrenamiento, esto con el fin de producir una sali-
da consistente. El entrenamiento de una RNA básicamente es un algoritmo que ajusta los pesos sinápticos
wi1 , wi2 , . . . wim , de forma que estos pesos almacenen conocimiento.
Los procedimientos de entrenamiento pueden ser clasificados en 3 tipos(da Silva et al., 2017):
20
Entrenamiento Supervisado:
Los patrones de entrada contienen salidas deseadas, durante este proceso las entradas son presentadas a la
RNA y el valor de salida que generan es comparado con la salida deseada respectiva, generando así señales de
error(diferencia entre las dos salidas). El algoritmo de entrenamiento ajusta los pesos sinápticos con el objetivo
de minimizar ese error. Este proceso es repetido hasta obtener un error con valor mínimo aceptable.
Entrenamiento No Supervisado:
Los patrones de entrada no contienen salidas deseadas, no existe señales de error, este proceso extrae las
propiedades estadísticas del conjunto de patrones de entrada, formando finalmente agrupaciones con patrones
similares.
Entrenamiento Reforzado:
Los métodos basados en el aprendizaje de refuerzo se consideran una variación de las técnicas de aprendizaje
supervisado, ya que analizan continuamente la diferencia entre la respuesta producida por la red y la salida
deseada correspondiente. Los algoritmos de aprendizaje utilizados en el aprendizaje de refuerzo ajustan los
pesos neuronales internos basándose en cualquier información cualitativa o cuantitativa adquirida a través de la
interacción con el sistema (entorno) que se mapea.
El proceso de aprendizaje de una red suele hacerse por ensayo y error, debido a que la única respuesta
disponible para una entrada dada es si, este fue satisfactorio o insatisfactorio. Si es satisfactorio, los pesos y
umbrales sinápticos se incrementan gradualmente para reforzar (recompensar) esta condición de comportamiento
involucrada con el sistema. Varios algoritmos de aprendizaje utilizados por el aprendizaje de refuerzo se basan
en métodos estocásticos que seleccionan probabilísticamente las acciones de ajuste, considerando un conjunto
finito de posibles soluciones que pueden ser recompensadas si tienen posibilidades de resultados satisfactorios.
Esta estrategia de ajuste tiene algunas similitudes con algunas técnicas de programación dinámica (da Silva et
al., 2017).
Después del entrenamiento de la red neuronal, es presentada a la misma un conjunto de patrones que nunca
fueron presentadas a la red, si el aprendizaje fue bien realizado, la RNA tiene que ser capaz generar una salida
correcta para esos patrones de Test. Por lo tanto se dice que una red neuronal tiene una buena capacidad de
generalización cuando permite hacer un mapeo entrada-salida correcto.
El desempeño de entrenamiento de una RNA también depende de la cantidad de datos disponibles para el
entrenamiento, por lo que una cantidad pequeña de datos puede comprometer su desempeño.
2.5.2. Redes Neuronales Recurrentes

La topología de red utilizada en este trabajo es Recurrente. Las redes neuronales recurrentes(RNARs) son una
subclase de RNAs caracterizada por presentar grafos cíclicos en su estructura. Estos ciclos acumulan actividades
previas y permiten que la red almacene estados internos. Estos estados evitan la necesidad de alimentar la red
con el historial de entradas y salidas anteriores como la Red Neuronal con Retardo de Tiempo (Kuna, 2015). Y
puede utilizar las secuencias de entrada para realizar tareas temporales como previsión. La salida de una RNAR
se puede describir mediante:
Outputt+1 ∼
= P ronóstico (RN N state, Inputt , Outputt )
La figura 2.7 b) y a) muestran los dos tipos de modelos recurrentes tradicionales de RNA, la red recurrente
Elman (Elman, 1990) y la red completamente recurrente Willians-Zipser (Williams und Zipser, 1989). Estas redes
neuronales tienen conexiones cíclicas en su estructura. Por ejemplo, la red Elman conecta su entrada a todas las
neuronas, incluyendo las de salida, las neuronas ocultas y de salida están completamente interconectadas.
2.5.3. Entrenamiento de una Red Neuronal Recurrente

Un método de entrenamiento ampliamente usado es el algoritmo estándar de Backpropagation(BP) (Ru-
melhart et al., 1986). La retropropagación es un método para calcular el gradiente de la función de error con
respecto a los pesos de la red W . Esta técnica se aproxima al mínimo local cambiando estos pesos a lo largo de
21
a) S al i da
b) S al i da
Neur onas de Capa oculta Neur onas de Capa oculta
Uni dades deContexto Uni dades deContexto
Ent r adas Ent r adas
Figura 2.7: (b) Red Neuronal Artificial Recurrente de Elman . a) Red Neuronal Artificial Recurrente totalmente
conectada de William-zipser.
la dirección del gradiente de error negativo. La función objetivo E(W ) se calcula después de que BP aplique una
actualización a los pesos en la red:
∂E
4ωji = −η (2.23)
∂ωji
Donde η es un valor positivo constante llamado tasa de aprendizaje. La velocidad de movimiento β se puede
agregar al cambio de peso actual, esto a menudo acelera el proceso de aprendizaje (Sutskever, 2013a):
0 ∂E
4ωji = β4ωji − η (2.24)
∂ωji
El ajuste de pesos se puede realizar en modo online o en base al error medio sobre todos los datos de entrena-
miento (que se denomina modo bach). Además, se han encontrado alternativas más sofisticadas al algoritmo BP,
como el método Levenberg-Marquardt(LM), para encontrar un algoritmo de convergencia más rápido (de Vos
und Rientjes, 2005). En este algoritmo la actualización de pesos se obtiene mediante la siguiente ecuación:
−1
∆ω = − [H + µI] JT ρ (2.25)
Donde µ es una tasa de aprendizaje, J la matriz jacobiana, que es la primera derivada del error de red con
respecto a los pesos y bias, y ρ es un vector de errores de red. Finalmente, H es una aproximación de la matriz
Hessiana.
En la práctica el algoritmo BP estándar no es adecuado para redes con ciclos en su estructura. Sin embargo,
podemos aplicar algunos artificios y ver una RNAR como una red feedforward, desplegándola en el tiempo como
se muestra en la Figura 2.8. La RNAR se interpreta como una red en capas que mantiene los mismos pesos
a reutilizar, asumimos el retardo de tiempo de 1 en cada conexión para crear una red feedforward equivalente
(Williams und Peng, 1990).
Esta extensión del método BP se llama Backpropagation Through Time(BPTT). En BPTT el número de
copias de la red es igual al paso de tiempo T . Este método no sería práctico en el entrenamiento online ya que
la memoria crece linealmente con el tiempo. Por lo tanto, el despliegue de la red se limita a una profundidad de
truncamiento elegida para mantener el método factible (de Vos, 2013).
En la literatura se desarrollaron métodos más sofisticados para superar las limitaciones de BPTT, por
ejemplo Real-Time Recurrent Learning(CW-RNAR), que divide la capa oculta en M módulos ejecutándose
en diferentes tiempos (Kuna, 2015), el método extendido de filtro de Kalman (EKF), que estima pesos óptimos,
cada vez dada una serie de resultados observados, para más detalles ver (Sum et al., 1998). Sin embargo, estos
métodos sufren deficiencias relacionadas con la complejidad de modelado y optimización(gradiente) (Lukoševičius
und Jaeger, 2009). Esto significa que muchas actualizaciones pueden ser necesarias y podría ser costoso desde
el punto de vista computacional, la información del gradiente puede llegar a ser inútil por el procedimiento de
actualizaciones de pesos (Doya, 1992).
22
T=3
W_1 W_2
W_1 W_2 W_3 W_4
T=2
Desplegar
W_1 W_2
W_3 W_4
T=1
Unidades ocultas
W_3 W_4
W_1 W_2
W_3 W_4
T=0
Tiempo
Figura 2.8: .La Red Neural Recurrente se desplegó en el tiempo, las unidades ocultas agrupadas en el tiempo T
reciben entradas de otras neuronas de tiempo anteriores(T − 1, T − 2, . . . T ).
Recientemente, con el fin de abordar las dificultades para entrenar redes RNAR, un modelo de cálculo de ”re-
servorio” fue introducido por Jaeger en (Lukoševičius und Jaeger, 2009) denominado Echo State Network (ESN).
Básicamente ESN es una forma inteligente de entrenar a una RNAR donde, un "reservorio" de unidades ocultas
están escasamente(esparsa) conectados entre sí y las entradas están conectadas a este ”reservorio”, los pesos
internos no se actualizan en todo el proceso de aprendizaje, estos se inicializan al azar.
En la siguiente sección abordaremos y comprenderemos el paradigma de Reservoir Computing al cual
pertenece el modelo ESN, describiendo como logra manejar la complejidad de entrenar redes RNAR.
2.6. Reservoir Computing y Redes Echo State

El aprendizaje de máquina fue dominado en buena parte de su historia por los modelos feedforward y las
redes bayesianas. Sin embargo, cuando se trata de una dinámica temporal intrínseca, es necesario realizar una
adaptación, una simplificación o una elección de modelo específico de modo que el tiempo se represente de
alguna manera esos modelos no-temporales. Algunos enfoques temporales de las redes neuronales incluyen: redes
neuronales con retrasos(Waibel et al., 1990) y redes neuronales recurrentes(RNAR)(Millea, 2014)(entre las que
también se incluyen las redes con memoria a largo plazo(LSTM) (Hochreiter und Schmidhuber, 1997)).
En general los más poderosos han demostrado ser las redes neuronales recurrentes(RNAR), aún cuando posean
un tipo de problema diferente, a saber, como su enfoque de aprendizaje. Hasta hace poco, el entrenamiento de
RNAR se realizaba mediante retro-propagación(BPTT). Sin embargo, además del hecho de que este proceso
es muy lento, no siempre garantiza una buena solución, debido al problema de la desaparición del gradiente
(Vanishing gradient problem)(Hammer und Steil, 2002). Un enfoque relativamente nuevo para entrenar redes
neuronales recurrentes es el enfoque de Reservoir Computing(Millea, 2014).
2.6.1. Reservoir Computing(RC)

Reservoir Computing(RC) es un framework novedoso para diseñar y entrenar redes neuronales recurren-
tes(Lukoševičius und Jaeger, 2009). Su arquitectura y diseño relativamente simple, hace que esta clase de redes
neuronales sea particularmente atractiva en comparación con otros tipos de redes, especialmente teniendo en
cuenta la fase de entrenamiento que casi siempre consiste en algún enfoque lineal, como regresión lineal, matriz
pseudo inversa u otros métodos simples. Se utiliza una metodología de ensayo y error para encontrar una buena
red que se inicializa de manera aleatoria, para una serie temporal o conjunto de datos específicos. En general,
estas redes y las máquinas de estado líquido o Liquid State Machines(Maass et al., 2002) se utilizan para la cla-
sificación de patrones, la extracción de características dinámicas, la predicción de series de tiempo, etc. (Klampfl
und Maass, 2010).
2.6.2. Liquid State Machines(LSM)

Son un tipo de RNAR que forman parte del paradigma de Reservoir Computing, desarrollados por Maass
en (Maass et al., 2002). Este es el enfoque computacional de la neurociencia para RC. Liquid State Machines
23
W
ytarget(n)
in
W out
W
u(n)
E
...
...
y(n)
...
1
...
x(n)
Figura 2.9: La arquitectura de red ESN básica utilizada en este trabajo. Las flechas sombreadas indican las cone-
xiones que están entrenadas con el enfoque de "echo state network" (en otros enfoques, todas las conexiones
pueden ser entrenadas). Las conexiones internas recurrentes dentro del reservorio(zona gris) permanecen fijas
durante todo el proceso de entrenamiento y validación. Fuente:(Jaeger, 2001)
transforma las entradas variables en el tiempo(las series de tiempo) en patrones espacio-temporales. LSM se
formuló al principio como una micro-columna cortical y desde entonces, se ha estudiado extensamente tanto
en el campo de la Inteligencia Artificial como también en el campo de la Neurociencia Computacional. Este
sencillo esquema de aprendizaje se ha combinado muy recientemente con un nuevo y muy interesante enfoque
de (aprendizaje por refuerzo) que impulsa el aprendizaje local de las neuronas internas, siendo así cada vez más
biológicamente plausible (Legenstein et al., 2008).
2.6.3. Redes Echo State(RNAR-esn)

Como se mencionó anteriormente, la red ESN fue desarrollada por Jaeger en (Jaeger, 2001; Jaeger und Haas,
2004), independiente del modelo LSMs propuesto por Maass. Se podría decir que se trata de un enfoque de
RC. La red ESN utiliza neuronas de valor real (normalmente con valores entre -1 y 1). De lo contrario, el
procedimiento de entrenamiento sería similar a los LSM.
2.6.4. Dinámica una Red ESN

La red ESN es un tipo de red recurrente que tiene un coste computacional muy bajo para la fase de entre-
namiento. Sus pesos internos se fijan aleatoriamente al comienzo del experimento y luego se entrena solamente
los pesos de salida (read-out), usando algún tipo de técnica de ajuste lineal (también se puede usar una técnica
no lineal que generalmente mejora el rendimiento) de manera que la suma de todas las neuronas, multiplicada
cada una por su peso de salida, coincida con el valor de la serie de tiempo deseado. La Figura 2.9 muestra la
arquitectura de una red ESN simple.
A primera vista puede parecer sorprendente que una RNAR con conexiones aleatorias pueda ser efectiva, pero
los parámetros aleatorios han sido exitosos en varios dominios. Por ejemplo, se han utilizado proyecciones alea-
torias en el aprendizaje mecánico y la reducción de la dimensionalidad (Datar et al., 2004), y más recientemente,
se ha demostrado que los pesos aleatorios son eficaces para redes neuronales convolucionales en problemas con
datos de entrenamiento muy limitados (Jarrett et al., 2009; Saxe et al., 2011). Por lo tanto, no debería sorprender
que las conexiones al azar sean efectivas al menos en algunas situaciones.
Aunque ESN no resuelve el problema de entrenar RNAR en su totalidad, su funcionamiento impresionante
sugiere que una inicialización basada en ESN podría ser acertada. Esto es confirmado por los resultados de
(Sutskever, 2013b) en su trabajo de tesis.
Ahora procederemos a dar la descripción formal de la red ESN.
24
Figura 2.10: A) Los métodos tradicionales de entrenamiento de RNAR basados en gradientes, estos adaptan
todos los pesos de conexión (flechas sombreadas), incluidos los pesos de entrada para el Reservorio, conexiones
internas y del Reservorio para salida. B) En el paradigma RC, sólo se adaptan los pesos entre el Reservorio y la
salida. Fuente: (Lukoševičius und Jaeger, 2009).
2.6.4.1. Entrenamiento De Una Red ESN

El paradigma RC evita las deficiencias de entrenamiento (gradiente descendente) en RNAR, creando una
RNAR aleatoria que permanece sin cambios durante todo el entrenamiento. Esta RNAR se llama ”Reservorio”,
que se excita pasivamente por la señal de entrada y mantiene en su estado una transformación no lineal del
historial de entrada. La Figura 2.10 contrasta gráficamente los métodos previos de entrenamiento RNAR con el
enfoque ESN.
La ecuación principal de ESN, donde no usamos ninguna entrada, sino sólo la realimentación de salida, es:
x(t + 1) = f (W ·x(t) + W f b ·y(t)) (2.26)

O alternativamente, con entradas:
x(t + 1) = f (W in ·u(t) + W ·x(t) + W f b ·y(t)) (2.27)

Donde x(t) es el vector que contiene todos los estados del reservorio en el tiempo t, W es la matriz del
reservorio, donde cada entrada Wij corresponde a la conexión entre la neurona i y j, W f b es la matriz del
vector de realimentación, y(t) es la salida en el tiempo t. En la segunda versión de la ecuación vemos u(t)
multiplicada por el vector de entrada W in . Esta ecuación representa la fase inicial de la red, donde la salida
realmente funciona como entrada, impulsando la dinámica de la red. La función f se elige generalmente para ser
la tangente hiperbólica para las neuronas internas (tanh) y la función de identidad para la neurona de salida.
En el algoritmo 2.2 se resume como es realizado el entrenamiento de una red ESN.
Algorithm 2.2 Algoritmo estándar de entrenamiento de una red ESN, los estados se recogen en una matriz M
que tiene en cada fila el vector de estado x(t) y en cada columna las neuronas del reservorio. Por lo tanto, M es
una matriz de: dimensión de ejemplos(filas) por la dimensión del reservorio(columnas).
1: i ← historicalSequencesize
2: j ← reservoirsize
3: M ← array(i, j) . Matriz de estado
4: F orgetpoints ← Z . numero de pasos iniciales a descartar
5: while t ≤ ejemplossize do
6: if t ≤ F orgetpoints then
7: continue;
8: else
9: M (t, :) ← x(t)
10: end if
11: end while
Cabe mencionar que los estados iniciales de la red se descartan al construir la matriz M con el propósito de
limpiar los estados iniciales, que son usualmente [0, 0..,0]Nx , con Nx = reservoirsize .
25
2.6.4.2. Aprendizaje De Una Red ESN
La capa de salida lineal de una red ESN se define como:
y (n) = Wout [1; u (n) ; x (n)] (2.28)

Donde, y (n) ∈ R , es el vector de salida con dimensión Ny de la red, Wout ∈ R
Ny Ny ×(1+Nu +Nx )
,es la matriz de
pesos de salida y [.; .; .] significa una concatenación de vector vertical (o matriz). Ahora obtener la matriz Wout ,
cuya i-ésima columna contiene los pesos de salida de todas las unidades de red a la i-ésima unidad de salida. Para
esto podemos usar procedimientos de álgebra lineal como la pseudo-inversa o regresion Ridge(Jaeger, 2001).
Moore-Penrose pseudo-inversa
Después de obtener los estados x (t) en todos los intervalos de tiempo, el procedimiento de aprendizaje usual
se realiza mediante una operación pseudo-inversa simple:
Wout = pinv(M ) ∗ T (2.29)

Donde, Wout , es el vector de pesos de salida, y T , es el vector de valores esperados (Un vector 1 × m, donde m
es el tamaño de la secuencia de entrenamiento, la secuencia donde se conoce la entrada, pero no se calcula). Por
lo tanto, tenemos un conjunto de m ecuaciones con n incógnitas, donde n es el número de neuronas el tamaño
y las entradas de Wout son las respectivas ponderaciones de los estados de las neuronas. La Pseudo-inversa, o
Pseudo-inversa de Moore-Penrose, es una generalización de una matriz inversa, pero para matrices que no son
rectangulares. Sea A una matriz m × n, entonces la inversa de Moore-Penrose es única, denotamos A∗, tiene el
tamaño n × m y satisface las cuatro condiciones siguientes:
1.
AA ∗ A = A
2.
A ∗ AA∗ = A∗
3.
T
(A ∗ A) = A ∗ A
4.
T
(AA∗) = AA∗
Regresión Ridge
En este método la ecuación 2.28 se puede escribir en una notación matricial como:
Y = Wout X (2.30)
Donde, Y ∈ R Ny ×T
, es y (n), y X ∈ R (1+Nu +Nx )×T
es [1 : u (n) : x (n)], todas estas matrices fueron produ-
cidas presentando al reservorio las u (n) entradas, ambas matrices son la concatenación de los vectores columna
horizontalmente durante el período de entrenamiento n = 1, . . . , T .
Encontrar los pesos óptimos, que minimizan el error al cuadrado entre y (n) y y target (n), equivale a resolver
un sistema de ecuaciones lineales típicamente sobre-determinado. El sistema está sobre-determinado, porque
típicamente T 1 + Nu + Nx .
Existen maneras estándar bien conocidas de resolver la ecuación 2.30, probablemente la solución más universal
y estable para 2.30 en este contexto es la regresión Ridge, también conocida como regresión con regularización
de Tikhonov:
−1
Wout = Y target X T XX T + βI (2.31)
Donde, β es un coeficiente de regularización , e I es la matriz de identidad.
Nosotros mostramos sólo dos de los métodos que pueden ser usados para resolver la ecuación 2.30, aunque
el último no sea muy trivial es preferido de usar. A continuación, se validarán los valores de salida de la red,
usando la matriz ajustada Wout .
26
2.6.4.3. Validaciones De Una Red ESN
En esta etapa, la red se ejecuta sobre los datos de prueba, donde los estados de las neuronas en el tiempo
t = 0 en la fase de validación son estados de las neuronas en el tiempo t = m en la fase de aprendizaje. La
diferencia ahora es que la salida es calculada por la red usando los pesos de Wout , por lo que no se conoce
anteriormente estos valores. Las ecuaciones para la fase de validación son:
yb(t) = f out x (t) ∗ W out (2.32)

x (t + 1) = f W · x (t) + W f b · yb (t) (2.33)

Donde, yb es la salida después del cálculo pseudo-inverso. Es común usar una función de salida de identidad,
sin embargo en la ecuación 2.29, se puede aplicar alguna transformación no lineal, como por ejemplo tanh.
También al calcular los pesos de lectura (Wout ) podríamos usar una técnica no lineal, como un perceptron, o una
SVM, o regresión Ridge, pero discutiremos sobre esto en más detalle más adelante. Finalmente, para evaluar la
red ESN, usualmente calculamos el Error Cuadrado Medio Normalizado (NRMSE) que es:
s
k yb − y k 2
N RM SE = (2.34)
m ∗ σy2
Donde, σy2 es la varianza de la salida deseada y, m es la secuencia de validación, y, es la salida esperada, yb

es la salida calculada por la red ESN después del proceso de aprendizaje.
2.7. Consideraciones Finales

Este capítulo presentó un resumen de los fundamentos teóricos de los modelos utilizados en este trabajo,
con un enfoque al uso de estos sobre series temporales hidrológicas. Primero fueron descritos los conceptos
puramente estadísticos, posteriormente fueron descritos métodos de aprendizaje de maquina para pronóstico,
dentro de los cuales resaltan las redes neuronales recurrentes y el paradigma reservoir computing como alternativa
de entrenamiento de RNARs. El próximo capítulo presenta el estado del arte para el modelo propuesto en esta
tesis, que consiste en un proceso de mapeo sistemático sobre la literatura.
27
Capítulo 3
Estado del Arte
En esta sección presentamos el proceso de mapeo sistemático usado en la planificación de la revisión y

la estrategia para investigar, catalogar y clasificar los trabajos recientes relacionados con predicción de series
temporales.
3.1. Planificación Y Ejecución De Mapeo Sistemático

El enfoque de este mapeo sistemático identifica, cataloga y clasifica los trabajos recientes en la literatura en
el área, con el fin de contribuir sustancialmente en la comprensión de los mismos.
Las palabras clave utilizadas como strings de búsqueda fueron los siguientes : "Water Inflow" , " Forecas-
ting " , “echo state network”
El método utilizado para la recolección de fuentes primarias incluye la realización de búsquedas en bi-
bliotecas digitales como ACM Digital Library 1 , IEEE Xplore Digital 2 , SciELO(Scientific Electronic Library
Online) 3 , DBLP(Computer Science Bibliography)4 , BDBComp (Biblioteca Digital Brasileña de Computación)
5
, Google Academy( Académicos), Springer 6 , Hydrology and Earth System Sciences 7 , American Geophysical
Union(AGU)8 .
Los criterios de inclusión de los estudios se presentan a continuación:
Los estudios deben haber sido publicados en las conferencias, workshops y revistas.
Los estudios deben ser escritos en Inglés, portugués o español.

Los estudios deben estar disponibles en la web.
Los estudios deben tener algunas de las cadenas de búsqueda en su título, resumen/abstract o palabras
clave.
Los estudios deben presentar la propuesta de uno o más modelos de predicción.

En base a los criterios mencionados el proceso de búsqueda encontró 50 estudios publicados entre 2005 y 2016.
Estos estudios fueron seleccionados para su posterior análisis. Después de leer el resumen y las conclusiones
fueron preseleccionados 13 estudios a través de los criterios de inclusión ya mencionados. De los 13 estudios
preseleccionados, 6 cumplen con los criterios de calidad previstos en el protocolo de revisión.
En la siguiente sección, se describirán los elementos seleccionados y serán comparados con nuestra propuesta.
1 http://dl.acm.org/
2 http://ieeexplore.ieee.org/
3 http://www.scielo.org/
4 http://dblp.uni-trier.de/
5 http://www.lbd.dcc.ufmg.br/bdbcomp/
6 http://www.springer.com/gp/
7 http://www.hydrology-and-earth-system-sciences.net/
8 http://onlinelibrary.wiley.com/
28
3.2. Enfoques Clásicos
Actualmente en la literatura existen muchos modelos para la generación y previsión de variables hidrológicas
(caudales, precipitación y evaporación) en una determinada zona. Estas variables son usadas en el planeamiento
de los sistemas de gestión de recursos hídricos.
Estos modelos usan las siguientes técnicas:
Regresión lineal simple
Regresión lineal múltiple
Modelos Autorregresivos (AR)
Modelos de Medias Móviles (ARMA)
Modelos de Medias Móviles con variable exógena ARMA y ARMAX con parámetros periódicos
En todos estos modelos, la relación lineal entre las variables hidrológicas relevantes es asumida pero no siempre
da los mejores resultados, y en algunos casos es inadecuado(Raman und Sunilkumar, 1995). Muchos estudios
emplean los modelos autorregresivos para la generación y previsión de caudales, mostrando de esta forma que
los modelos de bajo orden reproducen satisfactoriamente las características analizadas.
Por otro lado, los resultados de los modelos estocásticos pueden mejorar la precisión de la estimación del
diseño de la capacidad de los embalses. Un trabajo destacado es el de Peng und Buras (2000), que muestra que
no hay evidencia que los modelos AR(1) sean inadecuados.
Estudios iniciales como ((Singh, 1968), THOMAS (1962)) describen secuencias de caudales con modelos
matemáticos, los cuales pueden reproducir características especiales como la periodicidad y considerar los efectos
de la correlación lineal. La más importante contribución fue hecha por THOMAS (1962).
Todos estos estudios proponen que las series temporales pueden ser simuladas mediante una relación lineal
simple de sus valores previos.
3.3. Enfoques De Aprendizaje Automático (Machine learning )

El problema con los modelos anteriores es que tareas como predicción son tareas de naturaleza dinámica.
Por esta razón se buscaron alternativas en la literatura como los métodos de Inteligencia artificial, entre ellos
destacan las Redes Neuronales Artificiales (RNA) que han ido creciendo como alternativas y presentando un
buen desempeño en la predicción de series temporales de variables hidrológicas(Jain und Srinivasulu (2004),
de Vos und Rientjes (2008), Campos et al. (2011), Awchi und Srivastava (2004), Sun et al. (2016)). La mayoría de
investigaciones que usan RNA’s como modelos de predicción, han prestado mayor atención en las denominadas
RNA’s feedforward.
Por otra parte, las RNA’s Recurrentes que se caracterizan por tener conexiones cíclicas en su estructura,
permiten un modelado más parsimonioso de propiedades dinámicas (de Vos, 2013), es por esa razón que su capa-
cidad de representación temporal puede ser mejor que el de las RNA’s feedforwad. Sin embargo, la recurrencia
presente en su estructura puede ocasionar incremento en la complejidad de entrenamiento y posteriormente
ocasionar problemas de convergencia(Lukoševičius und Jaeger, 2009)(vea la Sección 2.5.2).
Como una alternativa a los problemas presentes en RNAR’s recurrentes tradicionales ha sido recientemente
introducido el concepto de Reservoir Computing(RC). Reservoir Computing es un enfoque de entrenamiento
que puede ser notablemente más simple y rápido que aquellos aplicados en RNA’s recurrentes tradicionales
(Hammer et al. (2009), Lukoševičius und Jaeger (2009)).
Pocas aplicaciones de RC en hidrología se han realizado hasta ahora(de Vos, 2013), a continuación los citamos
con mas detalle:
En Basterrech et al. (2015), se analiza el impacto de los parámetros de un modelo ESN(radio espectral
y matriz de conectividad) para predecir series de tiempo pseudo-periódicas. Para este análisis se evalúa el
rendimiento del modelo utilizando dos métricas, una es RME. Otra es una métrica que se genera usando el
factor de correlación entre los objetivos y los valores predichos, y la varianza de los residuos. Esta métrica
da una idea acerca de la capacidad de memoria del modelo. Este es el primer análisis de sensibilidad de los
parámetros globales de ESN cuando el modelo se aplica para pronosticar series de tiempo pseudo-periódicas.
29
En Li et al. (2015), se usa el mas popular modelo de RC denominado echo state network (ESN) con
una regularización bayesiana para el pronóstico de la producción de energía a corto plazo de plantas
hidroeléctricas pequeñas (SHP). Según la teoría bayesiana, los pesos de salida óptimos se obtienen mediante
la maximización de la distribución probabilística posterior. Con el fin de validar el modelo, se emplean las
RNA’s feedforward entrenadas con el algoritmo de Levenberg-Marquardt y la versión genérica de ESN.
Los resultados indican que el modelo propuesto supera tanto a las RNA’s feedforward y ESN en su
versión simple.
En de Vos (2013), el objetivo principal de este estudio es averiguar si los modelos ESN pueden ser con-
siderados como una alternativa válida a los enfoques de las RNA’s feedforwad y RNA’s recurrentes
tradicionales. La capacidad de predicción de estos modelos son evaluados sobre una variedad de cuencas
de gran escala. Los experimentos se llevan a cabo mediante la comparación de tres variaciones diferentes
de ESN con dos modelos simples de referencia, dos modelos RNA’s feedforward, y tres RNA’s recu-
rrentes. Además, varios aspectos del diseño de ESN’s se investigan con el fin de optimizar la información
hidrológicamente relevante. Sus resultados demuestran que ESN supera a las RNA’ s feedforward y son
competitivos con el estado del arte de las RNAR’s recurrentes.
Otro ejemplo del uso de métodos de Reservoir Computing en la literatura es Coulibaly (2010), quien
utiliza ESN’s para pronosticar los niveles mensuales de agua de cuatro grandes lagos Norteamericanos. Se
demostró que este modelo superó de manera general tanto a un modelo estándar de RNA’s recurrentes
así como a un modelo de RNA’s Bayesiano durante un intervalo de tiempos de pronóstico.
El trabajo anterior fue discutido y posteriormente ampliado en el 2012 por Abrahart et al. (2012) mediante
una simple operación de evaluación comparativa lineal, los autores demostraron que el buen desempeño de
las redes ESN en predicción puede ser atribuida a su estructura altamente no lineal y dinámica.
Finalmente en Sacchi et al. (2007), se utilizó el modelo más popular de RC denominado echo state network
ESN, como predictor con un mes de antelación, basada en los valores de flujo de entrada históricos en una
central hidroeléctrica de Brasil. El modelo ESN fue comparado con un modelo autorregresivo no lineal
auto-organizado con entrada exógena (SONARX ) d. A. Barreto und Araujo (2001), también con una
variante SONARX basada en una función de base radial (SONARX - RBF) R. Sacchi und Araujo
(2004) y con el modelo adaptativo de inferencia neurodifusa (ANFIS) (Jang, 1993b), Se concluyó que el
modelo basado en ESN se desempeñó significativamente mejor que SONARX, y ligeramente mejor que
los modelos ANFIS, SONARX-RBF.

Podemos apreciar que son pocos los modelos propuestos en la literatura, en el estudio de series temporales
hidrológicas y climatológicas, que utilizan el paradigma echo state networks, como alternativa a los métodos de
entrenamiento en RNA’s recurrentes. Muchos de los trabajos en predicción utilizan RNA’s feedfordward y mas
recientemente redes mas complejas como las redes convolucionales profundas (Lai et al., 2017). Por lo tanto, esta
es una área promisoria de estudio. Debemos considerar también, que dentro de los trabajos seleccionados descritos
solamente el trabajo de Li et al. (2015) presenta un sistema híbrido para predicción de variables hidrológicas,
por otra parte, es correcto mencionar algunos trabajos no publicados que sirvieron de base para realizar esta
investigación como el trabajo de Herrera Quispe (2013), en el cual se utiliza un sistema en base a razonamiento
basado en casos y un componente aleatorio. Nuestra propuesta MEESN considera dos componentes a fin de
aprovechar las ventajas que un sistema híbrido nos puede brindar; el primer componente, es uno determinista
representado por una RNAR usando ESN y finalmente un componente no determinista representado por un
ruido aleatorio con distribución normal con el fin de tener en cuenta la incertidumbre que afecta típicamente
procesos hidrológicos.
En el siguiente Capítulo se describirá, a un nivel de detalle significativo, nuestro nuevo modelo de proceso
estocástico, sus componentes, los parámetros necesarios para hacer posible su aplicabilidad en la generación de
series temporales hidrológicas.
30
Capítulo 4
Propuesta
4.1. Descripción del Modelo MEESN

El objetivo de este trabajo es proponer un modelo de proceso estocástico que puede ser aplicado en series
temporales de comportamiento estocástico y también en series temporales de comportamiento periódico en sus
propiedades probabilísticas, como; media, varianza, entre otras.
Nuestro modelo esta compuesto por dos componentes:
Componente Estocástico: Presenta alguna variable aleatoria con distribución de probabilidad, es esto-
cástico, en lugar de estadístico (probabilístico), para enfatizar la dependencia temporal de la variable (Xu,
2002).
Componente Determinista: Donde las variables se consideran libres de variación aleatoria, de modo
que no se considere que ninguna tenga una distribución de probabilidad (Xu, 2002).
El modelo tiene la finalidad de generar escenarios de datos sintéticos hidrológicos, en términos de intervalos
mensuales, para esto se utilizó una arquitectura basada en Redes Neuronales Recurrentes (RNAR) como el
componente determinista; el uso de RNAR permite que nuestro modelo sea no-lineal capaz de capturar las
características de una serie temporal sin la necesidad de realizar algún tipo de suposición a priori como retirar
algunas características de tendencia o periodicidad.
El componente estocástico Rt , es la misma parte estocástica del modelo de Thomas & Fiering. Los dos
componentes se calculan sobre las series de tiempo normalizadas y estandarizadas. La forma final del modelo
puede resumirse como la suma de ambos componentes, dada por la ecuación siguiente:
Yv,t = f (Rv,t + Ev,t ) (4.1)

Donde:
Yv,t , son los valores sintéticos producidos por el modelo,
Ev,t , son los valores producidos por la RNAR,
Rv,t , es el componente estocástico representado por las ecuaciones (4.4).
La función f representa la inversa de las transformaciones de preprocesamiento.
Para que nuestro modelo pueda sintetizar series temporales como las de tipo hidrológicas(periódicas, estaciona-
rias) con intervalos de tiempo mensuales, se tienen que ajustar los parámetros no sólo en intervalos de tiempo
de la serie, si no también en su periodo. Por ejemplo, si el periodo es mensual, nuestro modelo estará compuesto
por 12 componentes estocásticos. En ese caso el modelo es formado por un encadenamiento de sus componentes,
entre el valor de entrada a la RNAR(componente determinista) y el siguiente periodo, como se puede observar
en la figura 4.1.
Esta sección ofrece una visión general de nuestra propuesta de modelo de proceso estocástico, a continuación
se realiza una descripción detallada de cada uno de sus componentes.
31
... ...
Figura 4.1: Esquema del proceso estocástico propuesto, las esferas celestes y negras representan los componentes
estocásticos y deterministas respectivamente, se produce un encadenamiento entre el valor de la serie temporal
de un periodo que es parte de la entrada a la Red Recurrente del siguiente periodo.
4.2. Componente Estocástico

En términos de estadística, la variable Rv,t representa un ruido aleatorio normalmente distribuido, que
tiene en cuenta la incertidumbre que suele afectar a procesos hidrológicos. Rv,t se añade para proporcionar la
variabilidad en Yv,t que permanece incluso después de que se conozca Yv,t−1 (Loucks et al., 2005). Cada Rv,t es
independiente de valores pasados Yv,w , donde w ≤ t − 1, y Rv,t es independiente de Rv,w para w 6= t − 1. Como
se señaló al principio, este componente es la misma parte estocástica del modelo de Thomas & Fiering, por lo
tanto, en la siguiente sección se examina dicho modelo y sus implicaciones en la formulación final de nuestra
propuesta.
4.2.1. Proceso de Márkov de primer orden: modelo de Thomas & Fiering

En su forma más simple, el método consiste en el uso de doce ecuaciones de regresión lineal. Si, digamos,
doce años de registro están disponibles, los datos como caudal/flujo de doce eneros y de los doce diciembres se
abstraen y el valor de enero se calcula a partir del valor de diciembre; De manera similar, el valor de febrero se
regula a partir del valor de enero, y así sucesivamente para cada mes del año, fíjese en la ecuación 4.2.

Yenero =Y enero + benero Ydiciembre − Y diciembre + εenero
(4.2)

Yf ebrero =Y f ebrero + bf ebrero Yenero − Y enero + εf ebrero
... =...
De la ecuación 4.2, se desprende un análisis de regresión de Yt+1 en Yt sobre años de registros donde t =
1, 2, 3, ..., 12(enero,febrero,...diciembre), bj es el coeficiente de regresión entre el mes t + 1 y t. Los puntos de la
linea de regresión mensual pueden determinarse de valores de meses previos, mediante la ecuación general:
(4.3)

Ybt+1 = Y t+1 + bt Yt − Y t
La variabilidad de estos puntos trazados desde la línea de regresión que reflejan la varianza sobre esta línea,
es añadida por el componente adicional Rt (en rojo en la Figura 4.2):
q
Rt+1 = × σt+1 × (1 − rt2 ) (4.4)
Donde:
σt+1 , es la desviación estándar en el mes t + 1 .
rt , es el coeficiente de correlación entre los meses t + 1 y t (en todo el registro histórico).
= N (0, 1), un ruido aleatorio normalmente distribuido con media cero y desviación estándar uno.
32
Figura 4.2: Distribución condicional de Yt+1 dada Yt = yt para dos variables aleatorias normales. El óvalo rojo
representa el componente estocástico utilizado por nuestro modelo en su forma final.
El procedimiento para utilizar el componente estocástico Rt en nuestro modelo se describe en pseudocódigo

4.2:
Algorithm 4.2 Calcular Componente Aleatorio

1: n ← length of (registro historico)
2: for t = 0 → 11 do . mensual, t:=0,enero
3: v←t
4: j←1
5: sumt ← 0, sumt+1 ← 0
6: while v ≤ n do
7: sumt ← sumt + Yt,v
8: sumt+1 ← sumt+1 + Yt+1,v
9: j ← j + 1, v ← v + 12 ∗ j
10: end while
11: Y t = sum
n
t
. caudal medio
sumt+1
12: Y t+1 = n . caudal medio
13: j ← 1, v ← t
14: while v ≤ n do
15: temp1t ← temp1t + Yt,v − Y t
2
16: temp2t ← temp2t + Yt,v − Y t

17: temp1t+1 ← temp1t+1 + Yt+1,v − Y t+1
2
18: temp2t+1 ← temp2t+1 + Yt+1,v − Y t+1
19: j ← j + 1, v ← v + 12 ∗ j
20: end while
q
21: σt = (temp2
n−1
t)
. desviación standard
(temp1t )×(temp1t+1 )
22: rt = √ . coeficiente de correlación entre meses t y t + 1
(temp2t )×(temp2t+1 )
23: = N (0, 1) . ruido aleatorio normalmente distribuido
. Componente estocástico, El modelo es entonces un conjunto de doce
p
24: Rt+1 = × σt+1 × (1 − rt2 )
ecuaciones de regresión
25: end for
Finalmente para generar series de tiempo sintéticas se repite el procedimiento, generando una secuencia de
números aleatorios {1 , 2 , ...} que se sustituyen en el modelo.
En este trabajo se usó una topología recurrente de Redes Neuronales(RNAR) como componente determinista,
pero el modelo propuesto no se limita sólo a ese tipo de Redes neuronales. Pueden usarse otras arquitecturas de
33
RNA en su lugar. Las razones de la elección de RNAR para generación de series temporales en este trabajo se
abordan a continuación.
4.3. Componente Determinista

Conforme a lo anterior, las Redes Neuronales Recurrentes(RNAR) se distinguen de las redes feedforward
por presentar bucles de retroalimentación, creando así una memoria interna que es requerida para almacenar la
historia de los patrones de entrada. La adición de memoria en las RNAR’s tiene un propósito: extraer información
de las secuencias mismas(series temporales) y utilizarlas para realizar tareas que las redes de feedforward no
pueden.
Esa información secuencial es preservada en los estados internos ó unidades de procesamiento(PEs)
de la RNAR, y permite manejar valores en el tiempo t sin la necesidad de un pre-procesamiento o retraso de
lineas. Por lo tanto, nuestro modelo es clasificado como uno auto-regresivo, ya que las entradas utilizan valores
pasados de la serie temporal, como se puede ver en la Figura 4.4.
A fin de obtener un determinado valor para la serie en el instante de tiempo t, en nuestro modelo la RNAR
recibe como entrada los valores en el instante de tiempo t − 1. La estructura en detalle de la red neuronal
recurrente de tiempo discreto aplicada en este trabajo es presentada en la Figura 4.3, donde el valor de la unidad
de entrada en t es yt , las PEs o echo states son representadas por x (t), y las unidades de salida por Et+1 . La
activación de los PEs internos (echo states) se actualiza de acuerdo con:
x (t + 1) = ϑ W in yt+1 + θt+1 + W x(t) (4.5)

Donde:
x(t), es el vector de estados internos ó PEs.
W , es la matriz de pesos sinápticos con conexión recurrente.
yt+1 , es la señal de entrada, en el mes t + 1.
W in , es la matriz de pesos sinápticos entre la señal de entrada y los PEs.
ϑ, representa la función de activación de los estados internos(usualmente una función tangente hiperbólica).
θt+1 , bias.
La salida de la RNAR es calculada de acuerdo a la ecuación:
Et+1 = δ W out (x(t + 1) + yt ) + θt (4.6)

Donde: W out , es la matriz de pesos entre los estados internos x(t + 1) sumado a las señales de entrada yt y
las neuronas de salida. δ es la función de activación de las neuronas de salida, esta es una herramienta estándar
para condensar valores muy pequeños o muy grandes dentro de un espacio logístico.
Como se puede observar en la Figura 4.1, Los valores sintéticos Yt de una serie temporal en t es dada por la
suma de la salida de nuestra RNAR(Et ), y la parte estocástica del modelo de Thomas & Fiering(Rt ), descrita
por la ecuación 4.1. Con el fin de obtener una descripción matemática, se concatenan las ecuaciones 4.5, 4.6, 4.1,
para obtener la siguiente ecuación extendida de nuestro modelo:
Yt+1 =f δ W out × ϑ W in yt + θt + W x(t − 1) + yt + θt + Rt (4.7)

Conforme a lo mencionado en secciones anteriores, ocurre un encadenamiento de componentes, entre el valor

de entrada a la RNAR(Yt+1 ) y el siguiente periodo, es decir, cada término generado Yt de una serie temporal
sintética se obtiene a partir del valor anterior Yt−1 , como se puede observar en la figura 4.1. Esta información
secuencial es preservada en los estados internos de la RNAR(x(t)) que permiten abarcar muchos pasos en el
tiempo como cascadas para afectar el procesamiento de cada nueva entrada. Por lo tanto, no es necesario
incorporar técnicas de ”ventana” (Vafaeipour et al., 2014) en nuestro modelo, en contraste con trabajos similares
en la literatura (Campos et al., 2011; Awchi und Srivastava, 2004; Herrera Quispe, 2013).
34
Leyenda
+ suma de todas las entradas
g función de activación
+ g de neuronas internas(tanh)
O función de activación de salida
conexión entre las entradas
...
y las unidades internas,
conexión entre todas las unidades
y la capa de salida,
conexión recurrente entre
+ g + g las unidades internas,
estados internos(echo states)
reservorio (dynamic reservoir)
...
+ g
+ O
Figura 4.3: Esquema detallado de unidades internas (neuronas) de una Red Neuronal Recurrente
A menudo el uso de Redes Neuronales implica la tarea de estimar un gran número de parámetros, relacionados
a su estructura y desempeño. En este trabajo se utiliza un caso especial de RNAR-esn que fue desarrollado bajo
el nombre de Reservoir Computing(RC), específicamente se usa el método llamado Echo State Network(ESN)
(Jaeger, 2001). Es evidente que para generar series sintéticas es preciso ajustar nuestro modelo con la serie
temporal histórica. Podemos formalizar dicho problema como:
4.3.1. Formalización de los parámetros

Dada una serie temporal Y1 , Y2 , ..., Yt cada uno en un espacio real NY -dimensional, el objetivo consiste en
calcular una maquina de aprendizaje ϕ (•, p) con p parámetros tales que sea capaz de predecir (mejor posible)
el valor de cualquier observación de Yt+τ (τ ≥ 1). La función objetivo asociada a ϕ (•, p) para una sola tupla
(ϕ (Yt , p) , Yt+τ ), está definida por una función de distancia que mide la desviación entre el objetivo Yt+τ y la
predicción ϕ (Yt , p). En este trabajo se utiliza la distancia de Error Cuadrático Medio Normalizado para un
rango arbitrario de tiempo τ :
v
u τ XNY
u 1 X 2
N RM SE = t ϕi (Yt , p) − Yi,(t+τ ) (4.8)
σ (Yτ ) τ t=1 i=1
4.3.2. Parámetros de ESN

Las Redes ESN tienen algunos parámetros globales que impactan en su rendimiento. En este trabajo la con-
figuración de ESN básicamente depende de los siguientes parámetros: el tamaño del reservorio(estados internos),
el radio espectral de la matriz del reservorio, la densidad de la matriz del reservorio y la topología de la red del
reservorio(conectividad) (Lukoševičius und Jaeger, 2009; Basterrech et al., 2015). Decidimos explicar con más
detalle los tres más comunes a todas las arquitecturas y enfoques de aprendizaje en la literatura ESN.
4.3.2.1. Tamaño del reservorio

Según Jaeger (2001), un parámetro obviamente crucial del modelo 4.1 es Nx , el número de unidades en el
reservorio. Se sabe que cuanto más grande sea el reservorio, mejor será el rendimiento, siempre y cuando se tomen
las medidas de regularización apropiadas contra el overfitting. Cuanto más grande sea el espacio de las señales
del reservorio x(t), más fácil será encontrar una combinación lineal de las señales para aproximar y objetivo (t).
Dado que el entrenamiento y la ejecución de un ESN es computacionalmente barato en comparación con
otros enfoques RNAR, los tamaños del reservorio de orden 104 son comunes (Alomar et al., 2016).
4.3.2.2. Radio Espectral

Básicamente el radio espectral controla la estabilidad y tiene impacto en la capacidad de memoria del modelo.
El radio espectral de W , lo denotamos por ρ (W ). Si ρ (W ) es menor que 1, se puede asegurar la estabilidad
35
del ESN (Lukoševičius und
Jaeger,
2009). Para satisfacer esta condición, la matriz W se suele escalar de la
siguiente manera: W ← ρ(Wα
) W , donde α es una constante en < 0, 1]. Un radio espectral ρ (W ) cercano a 1
es apropiado para tareas de aprendizaje que requieren tiempos largos. Por otro lado, un valor de ρ (W ) cerca de
0 es adecuado para las tareas que requieren memoria corta (Verstraeten et al., 2007).
4.3.2.3. Conectividad y Topología

Para Song und Feng (2010) y Jaeger und Haas (2004), la conectividad es otro parámetro importante en el
diseño de una buena red ESN. Especialmente si se consideran todas las arquitecturas posibles. La conectividad
se define como el número de pesos distintos de cero del número total de pesos en la red (por ejemplo si tenemos
10 neuronas internas, tendremos 100 pesos, si ponemos la conectividad a 0.6 entonces el número de pesos en
0’s serán 0,4 × 100 = 40). En el caso en que se consideren matrices de peso ortonormal, la conectividad parece
ser uno de los parámetros críticos que definen el espacio de la solución. Según Millea (2014), esto ocurre sólo
para un ESN lineal. En el caso no lineal, es decir, cuando se utiliza una función de activación tanh 4.5, algunos
investigadores han informado de ningún efecto del valor de conectividad (Koryakin et al., 2012).
La topología del reservorio también puede impactar en el rendimiento del modelo. Con frecuencia, los pesos
se inicializan utilizando una distribución uniforme en un rango arbitrario. Se han estudiado varios enfoques
para encontrar mejores pesos de reservorio que los pesos aleatorios. Enfoques que utilizan mapas topográficos,
optimización de enjambres se pueden ver en (Basterrech et al., 2014, 2011). Pero, el enfoque más común sigue
utilizando la inicialización aleatoria (Basterrech et al., 2015).
Finalmente, con respeto a la conectividad, cabe indicar que en este trabajo usamos ESN’s no lineales (tanh
como función de activación de las neuronas). Basados en los estudios de Jaeger und Haas (2004) y Millea (2014),
sabemos que en la práctica a menudo se utiliza alrededor del 20 % de valores distintos de cero (Lukoševičius und
Jaeger, 2009), para definir las matrices del reservorio, esto debido a que el costo computacional del procesamiento
de matrices densas es mayor al costo de procesamiento de matrices esparsa. Por lo tanto y basados un estudio
preliminar, se consideró la inicialización aleatoria del reservorio y conectividad del 20 % como enfoque
estándar para inicializar los pesos de nuestro componente determinista.
Con el fin de encontrar una buena configuración de ESN para nuestro modelo, empleamos un método compu-
tacional(Optimización aleatoria) muy sencillo, en la que la conectividad no es considerada, solamente el tamaño
del reservorio y el radio espectral.
4.3.2.4. Optimización aleatoria

Hemos utilizado la optimización aleatoria (Matyas, 1965), para encontrar los mejores parámetros y mejorar
el rendimiento de la red. Como resultado de que, al evaluar un ESN pequeño toma muy poco tiempo, unos pocos
cientos de milisegundos con 3000 pasos de entrenamiento. Así que realizamos experimentos de Monte Carlo en
los cuales en cada repetición uno (o más) los pesos se cambian al azar y si da un error menor, entonces el peso se
guarda, de lo contrario no. Este es un algoritmo muy simple que dio muy buenos resultados cuando se probó en
las series hidrológicas temporales de MOPEX (Duan et al., 2006). Podemos ver el pseudo-código del algoritmo
en 4.4.
36
Algorithm 4.4 Optimización Aleatoria
1: Nx ← reservoriosize
2: α ←< 0, 1]
3: W1 ← M atrizEsparsa, i ← 0 . esparsa con 20 % conectividad
4: while i ≤ iteraciones do
5: W ← W1
6: wr ← pesos − aleatorios
7: for j = 1 → repeticiones do
8: reemplazarW (wr)
9: erroractual ← errorget (ϕ (•, W, α, Nx ))
10: if erroractual ≤ errormin then
11: W1 ← W
12: errormin ← erroractual
13: end if
14: end for
15: i←i+1
16: end while
El aumento del número de las ESN en 4.4 no significa ningún aumento sustancial en las demandas compu-
tacionales, ya que todo el proceso de formación ESN es sólo el cálculo de una matriz pseudo inversa(Kuna,
2015).
Una vez ajustados los parámetros p del componente determinista, es posible generar diferentes escenarios de
una serie temporal analizada.
4.4. Generación de Escenarios

El modelo propuesto es un modelo mixto estocástico determinista para la generación de datos sintéticos que
debe capturar el comportamiento estocástico de los registros históricos, por lo tanto debe ser capaz de generar
series sintéticas temporales igualmente probables con la serie histórica. Para hacer esto posible, es necesario usar
los primeros valores de los términos auto-regresivos que son obtenidos de las series históricas.
La Figura 4.4 ilustra el diagrama detallado de nuestro modelo en la generación de escenarios. Un valor de la
serie se obtiene por la concatenación de valores anteriores(bloques verdes en la Figura 4.4). Se puede definir el
número de años n a ser generado, en cada instante de tiempo t = (1, 2, ..., n × 12) en la ecuación 4.7.

En este informe tratamos de dar una visión detallada del modelo propuesto por nuestro trabajo. Se pueden
obtener reflexiones teóricas sobre el funcionamiento interno de los componentes de nuestra propuesta. Primero se
resalta la necesidad de una incertidumbre que suele afectar a procesos naturales hidrológicos, esta característica
es proporcionada por el componente estocástico. Seguidamente, se explica un caso especial de Redes Neuronales
Recurrentes(ESN), que tienen la capacidad de tener memoria interna resultante de sus conexiones de retroali-
mentación, característica muy potente en la literatura de redes neuronales. También se fundamenta las razones
de optimizar 2 parámetros (radio espectral y tamaño del reservorio) por encima de otros en el diseño de ESN.
37
2 Componente Estocástico
...
1 Componente Determinísta
Reservorio Dinámico Reservorio Dinámico
Bias
...
3 3
2.5 2.5
...
2 2
1.5 1.5
1 1
0.5 0.5
0 0
0 2 4 6 8 10 12 0 2 4 6 8 10 12
Figura 4.4: Generación de escenarios sintéticos, se observa en detalle el nuevo modelo MEESN en este trabajo.
38
Capítulo 5
Experimentos
En este capítulo, serán presentados los resultados que fueron alcanzados en las tareas de generación y predic-
ción de escenarios hidrológicos. La sección 5.1 describe el análisis de conectividad y su impacto en el desempeño
de las redes recurrentes Echo State( RNAR-esn) utilizando series de tiempo hidrológicas, las demás secciones,
describen los resultados obtenidos por nuestro modelo.
5.1. Usando Bases Ortonormales como Matriz de Conectividad

Trabajos como los de Millea (2014) y Koryakin et al. (2012) proponen que los pesos de una RNN-echo funcio-
nan como una clase de base dinámica para la señal original descomponiéndola en sub-componentes, utilizando
una base que maximiza la diferencia entre ellos, esto basado en un enfoque que tiene su base teórica en el
campo conocido como Compressed Sensing(Candes und Wakin, 2008). Por lo tanto, una base ortonormal como
la matriz de conectividad podría dar mejores resultados, en comparación con simplemente usar una matriz de
conectividad esparsa de pesos aleatorios simple.
A pesar de que los experimentos realizados por Koryakin et al. (2012) son de los primeros estudios en la
literatura sobre RNAR-echo que utiliza bases ortonormales como parámetro de conectividad. Estos experimentos
no fueron realizados sobre series temporales de tipo hidrológicas. Bajo esa premisa, en este trabajo se realizaron
experimentos con este tipo de series temporales (tomadas de MOPEX (Duan et al., 2006)). Los resultados
obtenidos se muestran a continuación.
El objetivo de estos experimentos es ver cuál es la diferencia entre usar una matriz de pesos ortonormal ó
una matriz esparsa de pesos aleatorios en el desempeño de la RNAR-echo. Para eso, se realizó una serie de 16
experimentos sobre los datos de series hidrológicas temporales, para cada valor de conectividad, que va de 0 a 1
en incrementos de 0,01, luego se calculó la probabilidad de que la RNAR-echo diera un error, como la relación
entre el número de veces que ese error (métrica RMSE) fue menor que un cierto umbral (como por ejemplo
P = 8,5 × 10−1 ) y las 16 repeticiones realizadas.
En la Figura 5.1 se muestra cómo se distribuyen los valores en una matriz ortonormal en comparación con
la matriz esparsa aleatoria.
En las Figuras 5.2 y 5.3 se muestra la probabilidad de alcanzar un error menor que P con P = 8 × 10−1 , 8,5 ×
10 , 9 × 10−1 , 9,5 × 10−1 en función de la conectividad para una matriz ortonormal de pesos y una matriz
−1
esparsa respectivamente.
A continuación, se realizó una prueba t de dos muestras no emparejadas para comprobar si de hecho la matriz
ortonormal funciona mejor. Se seleccionó como entrada para el t-test las probabilidades para P = 8 × 10−1 , 8,5 ×
10−1 , 9 × 10−1 , 9,5 × 10−1 de una matriz ortonormal (primera muestra) y para la matriz esparsa aleatoria con
el radio espectral establecido en 0.9 y tamaño de reservorio de 30 unidades (para la segunda muestra).
Donde:
La hipótesis nula: las dos muestras provienen de distribuciones con igual media (ver Tabla 5.1).
El intervalo de confianza: 100 × (1 − α).

Nivel de significación: α = 0,05.
39
Matrices
Esparsa Ortonormal
30 30
25 25
20 20
0.1
15 15
10 10
5 5
5 10 15 20 25 30 5 10 15 20 25 30
30 30
25 25
Conectividad
20 20
0.5
15 15
10 10
5 5
5 10 15 20 25 30 5 10 15 20 25 30
...
...
30 30
25 25
20 20
0.9
15 15
10 10
5 5
5 10 15 20 25 30 5 10 15 20 25 30
Figura 5.1: Distribución visual de pesos utilizando matrices esparsa y ortonormal para el reservorio de neuronas
(se fija el tamaño a 30 Neuronas) con conectividad desde 0.1 hasta 0.9.
40
Matriz Ortonormal de pesos
en series temporales hidrólogicas
1
0.9 P=8x 10 - 1
P=8.5x 10 - 1
0.8 P=9x 10 - 1
Probabilidad de RMSE < P

P=9.5x 10 - 1
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
Conectividad
Figura 5.2: Probabilidad de encontrar una red RNAR-echo con un NRMSE < P cuando se utiliza una matriz
de conectividad ortonormal para series temporales hidrológicas, en función de la conectividad y el tamaño de su
reservorio.
P=probabilidad p-valor Intervalo de confidencia IC
8 × 10−1 0,0972 [−0,0006; 0,0067]

8,5 × 10−1 3,0316e − 126 [0,8271; 0,8720]
9 × 10−1 7,8810e − 91 [0,6247; 0,6839]
9,5 × 10−1 1,1528e − 51 [0,2387; 0,2844]
Cuadro 5.1: Resultados de prueba t de dos muestras no emparejadas, se compara la probabilidad de obtener un
error menor que P usando una matriz ortogonal y matriz esparsa aleatoria como topología del reservorio de una
red RNAR-echo.
Vemos que los P -valores para el cual la hipótesis nula puede ser rechazada al nivel de significación del 5 %
son P = 8,5 × 10−1 , 9 × 10−1 , 9,5 × 10−1 . Así que la diferencia de rendimiento entre una matriz ortonormal y
una matriz esparsa aleatoria con radio espectral = 0,9 es significativa en esos valores de P . Por lo tanto, el uso
de matrices ortonormales en series temporales hidrológicas no presenta mejoras en el rendimiento de las redes
RNAR-echo, basado en lo anterior decidimos utilizar una topología de matriz esparsa aleatoria para nuestros
siguientes experimentos.
Comprobamos que la conectividad es crítica para encontrar una buena estructura de RNAR-echo para pre-
decir con mayor precisión valores futuros. En contraste con los resultados previos como los de Millea (2014) y
Koryakin et al. (2012), en este trabajo no se detectó que una topología de red con una matriz de conectividad
ortonormal tenga mejor o igual desempeño, que una matriz de conectividad aleatoria. A pesar de que cuando
usamos matrices de peso ortonormal (y una función de activación lineal), no necesitamos establecer el radio
espectral, no necesitamos escalar los pesos de la matriz, ni siquiera los pesos de entrada. Simplemente debemos
establecer el vector de entrada y generar una matriz ortonormal con pesos de una distribución uniforme entre 0
y 1. En la siguiente sección estudiaremos los parámetros como el tamaño del reservorio y el radio espectral de
una RNAR-esn.
41
Matriz Esparsa de pesos
en series temporales hidrólogicas
1
0.9 P=8x 10 - 1
P=8.5x 10 - 1
0.8 P=9x 10 - 1
Probabilidad de RMSE < P

P=9.5x 10 - 1
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
Conectividad
Figura 5.3: Probabilidad de encontrar una red RNAR-echo con un NRMSE < P cuando se utiliza una matriz
de conectividad esparsa aleatoria para series temporales hidrológicas, en función de la conectividad y el tamaño
de su reservorio.
5.2. Estimación de parámetros para generar escenarios Hidrológicos

Para generar escenarios de variables hidrometereológicas como caudal, los parámetros de nuestro modelo
(MEESN) como el número de unidades internas que representan el reservorio y el radio espectral de la matriz
de conectividad (vea Sección 5.1), son parámetros importantes relacionados a las propiedades de ESN. Por esta
razón un estudio de desempeño de RNAR-esn para cada serie histórica sobre los valores del radio espectral
(desde 0.1 hasta 0.9) y el tamaño del reservorio (10 a 70) fue llevado a cabo.
5.2.1. Pre-procesamiento de datos, entradas y salidas

Nuestro estudio toma en consideración un supuesto básico en la teoría de probabilidades y estadística aplicada
a series temporales hidrológicas, donde las variables tienen que ser distribuidas normalmente. Por lo tanto, se
requiere una transformación si las series temporales no cumplen con este supuesto básico. La operación que
se necesita es denominada estandarización estacional (variables normalmente distribuidas con media cero y
desviación estándar uno) (Awchi und Srivastava, 2004). Por otro lado, a fin de desarrollar esquemas de estimación
del radio espectral y tamaño del reservorio, en nuestro modelo se determinó usar series temporales apropiadas
como las de MOPEX.
5.2.2. Datos de prueba

Los datos utilizados en esta primera etapa están disponibles a la comunidad científica mediante la url: 1 , para
la investigación de modelos hidrológicas globales. MOPEX fue presentado por Duan et al. (2006) e incluye un
conjunto de datos con la precipitación mensual, evaporación potencial y caudal(descarga) de las cuencas en la
zona ”Este” de los Estados Unidos, entre enero de 1948 hasta 2000. Se decidió adoptar los registros históricos de
4 cuencas específicas. La Tabla 5.2 proporciona las características geográficas, hidrometereológicas y superficiales
de estas cuencas. La asimetría de los registros de caudal se expone en la última columna.
Se identificó mediante una pequeña inspección sobre el conjunto de datos de las 4 cuencas, que se necesitaba
una transformación para reducir el coeficiente de asimetría, esto fue posible usando la transformación logarítmica
escrita como:
(5.1)

Yv,t = log Hv,t + ct Ht
1 http://www.nws.noaa.gov/ohd/mopex/mo_datasets.htm
42
ID Mopex ID Cuenca Área(km2) Media Anual Coef. Asimetría
Caudal(mm/s)
A 12413000 East Fork White 4421 376 1.857748
B 01541500 Clearfield Creek 2170 179 0.78
C 03054500 Tygart Valley 2372 745 0.858691
D 01541000 Bluestone 1020 421 1.65
Cuadro 5.2: Resumen de las cuencas hidrográficas utilizadas en este trabajo (MOPEX) y sus características.
Los valores altos de asimetría indican la ocurrencia de eventos de caudal extremadamente altos.
a
ct = (5.2)
gt2
Donde:
Hv,t , son datos mensuales observados para el mes t(t = 1, . . . , 12) y el año v(v = 1, . . . , N ), N es el número
de años de registros de la serie.
Ht , es el caudal medio mensual para el mes t.
a es una constante (para este estudio el valor adoptado fue 0,8 mediante ensayo y error).
gt , es el coeficiente de asimetría para el H1,t , H2,t , ..., HN,t .
Yv,t , son los datos normalizados para mes t en el año v.
Una vez estandarizadas las series temporales, a continuación se buscó la configuración de red con mejor perfor-
mance en aprendizaje para cada una de las cuencas MOPEX seleccionadas.
5.2.3. Configuración de aprendizaje de la red RNAR-echo

No se usaron conexiones de retroalimentación desde las unidades de salida hasta el reservorio, su uso generó
una performance menor.
Los pesos de las conexiones entre la entrada y el reservorio determinan la intensidad con que un reservorio
es excitado, y por lo tanto el grado de no linealidad de su respuesta. Aquí, todos los pesos de conexión se
obtuvieron de una distribución normal.
Seguimos una práctica común de usar un reservorio escasa y aleatoriamente conectado(esparsa), permi-
tiendo que aproximadamente el 20 % de todas las conexiones estén activas, basados en los resultados de la
sección 5.1.
Los pesos de las conexiones entre el reservorio y la capa de salida de red fueron ajustados en modo batch por
los métodos: Regresión Ridge y la Pseudoinversa de Moore-Penrose. A menos que se indique lo contrario,
todas las estadísticas resumidas presentadas en la Tabla 5.4 se basan en 10 repeticiones de entrenamiento
independientes, con el fin de reflejar adecuadamente los efectos de la aleatoriedad en la inicialización y/o
ajuste de los valores de conectividad del modelo. Para este fin, usamos el algoritmo descrito en la sección
4.3.2.4.
La Figura 5.4 muestra el desempeño de aprendizaje, sobre un rango de valores para ambos parámetros como
el tamaño del reservorio y radio espectral. Para el cual los registros históricos de 4 cuencas se dividieron en
períodos de aprendizaje (1979-1996) y prueba (1997-2000).
43
A B C D
0.9 0.9 0.9 0.9
Reg. Contraida
0.8 0.8 0.8 0.8
0.7 0.7 0.7 0.7
0.6 0.6 0.6 0.6
0.5 0.5 0.5 0.5
0.4 0.4 0.4 0.4
0.3 0.3 0.3 0.3
0.2 0.2 0.2 0.2
0.1 0.1 0.1 0.1
10 20 30 40 50 60 70 10 20 30 40 50 60 70 10 20 30 40 50 60 70 10 20 30 40 50 60 70
0.9 0.9 0.9 0.9

0.8
Pseudoinversa
0.8 0.8 0.8
0.7 0.7 0.7 0.7
0.6 0.6 0.6 0.6
0.5 0.5 0.5 0.5
0.4 0.4 0.4 0.4
0.3 0.3 0.3 0.3
0.2 0.2 0.2 0.2
0.1 0.1 0.1 0.1
10 20 30 40 50 60 70 10 20 30 40 50 60 70 10 20 30 40 50 60 70 10 20 30 40 50 60 70
Figura 5.4: Mapas de calor que representan el NRMSE promediado en 10 repeticiones, en un rango de valores
como: el tamaño del reservorio (eje x) y el radio espectral (eje y). Corresponde a las 4 cuencas de MOPEX(East
Fork White, Clearfield, Tygart Valley, Bluestone). Los tonos más claros representan un alto NRMSE, los tonos
más oscuros un bajo NRMSE.
Propiedades de Reservorio ID Cuencas (MOPEX)
Tamaño de Reservorio Radio Espectral

14 0.7 A
16 0.9 B
24 0.9 C
15 0.9 D
Cuadro 5.3: Configuración final de la red RNAR-echo para cada una de las 4 cuencas de MOPEX, el tamaño
del reservorio representa el número de neuronas internas recurrentes.
A partir de la Figura 5.4 podemos ver que a mayor tamaño de los reservorios se genera un mayor valor
de NRMSE. Cada cuenca fue asignada con un tamaño de reservorio y radio espectral específico (la región mas
oscura en los mapas de calor). Esto se interpreta como la diferencia que existe entre las características y la
naturaleza dinámica de cada cuenca (vea la Tabla 5.3).
Se puede ver en la Tabla 5.4, las distintas configuraciones de red y su respectivo NRMSE, como resultado de
ejecutar el algoritmo 4.4. Esas configuraciones pueden ser: el método de aprendizaje (Ridge o Pseudo-inversa),
el tipo de Neuronas usadas en el reservorio (tanh o leaky) y la Normalización de los datos de entrada.
Las neuronas Leaky-integrator intentan dotar de una dinámica más lenta al reservorio, considerando la amplia
gama de escalas de tiempo en las que tienen lugar los procesos hidrológicos (meses, años, días). Sin embargo, se
puede ver que en la Tabla 5.4 estas neuronas no consiguen aumentar significativamente el contenido informativo
del reservorio (menor NRMSE), en contraste con las neuronas tanh. El método de aprendizaje de matriz pseudo-
inversa también no logra aumentar dicho contenido, en contraste con el método de regresión Ridge.
A partir de los datos de la Tabla 5.4, se evidencia que las configuraciones de red óptimas (con menor NRMSE)
para las 4 cuencas tienden a ser similares.
La siguiente sección presenta y evalúa los resultados alcanzados en la generación de escenarios sintéticos
44
ID Cuencas (MOPEX)
Configuración de Red A B C D
Reducción de
Tipo de Neuronas Método de
Asimetría NRMSE NRMSE NRMSE NRMSE
en el Reservorio aprendizaje
(input)
Regresión No 0.8341 0.7783 0.8013 0.7436

Ridge
Tangente 0.8591 0.9447 0.9559 0.9415
Si
hiperbólica(tanh)
No 0.8201 0.7613 0.8057 0.7258

Pseudo-inversa
Si 0.8618 0.9443 0.96 0.9279
Regresión No 0.8328 0.771 0.7972 0.7443

Ridge
Leaky-integrator Si 0.8581 0.9448 0.9562 0.9429
No 0.8242 0.7719 0.7982 0.7323

Pseudo-inversa
Si 0.8639 0.9453 0.959 0.9327
Cuadro 5.4: Valores NRMSE para las distintas configuraciones de la red RNAR-ESN, sobre las series temporales
hidrológicas de 4 cuencas MOPEX.
después del proceso de aprendizaje de red RNAR-esn, cuando aplicamos nuestro modelo MEESN en las 4
series temporales de las cuencas de MOPEX.
5.3. Generación de escenarios sintéticos

5.3.1. Caso de Estudio: MOPEX
Una vez seleccionada la configuración de las redes RNAR-esn (ver Tablas 5.3 y 5.4) nuestro modelo ya puede
ser utilizado para generar escenarios sintéticos de variables hidrológicas.
En esta sección, son presentados y validados los resultados obtenidos al aplicar nuestra propuesta, para
generar escenarios sintéticos de pronóstico usando las series temporales de MOPEX (vea 5.2). Estos resultados
son comparados con los resultados de los modelos, PEN, Thomas & Fiering, ANFIS. Todos estos modelos fueron
implementados utilizando MATLAB versión R2015b.
5.3.2. Análisis de escenarios sintéticos

El análisis de los escenarios sintéticos generados por cada modelo se realizó tomando en cuenta 3 horizontes
de planeamiento divididos en etapas mensuales. Fueron generados 100 escenarios de 12, 24 y 36 meses para cada
una de las 4 cuencas MOPEX. La configuración de validación se puede ver en la Sección 5.2.3.
5.3.3. Análisis de Adherencia

La comparación directa de las medidas no es adecuada, pues es necesario considerar la dispersión de esas
medidas(Campos et al., 2011). Por lo tanto, es preciso establecer si hay desvíos significativos entre las varianzas
y las medias de las dos muestras.
45
Horizonte
12 meses 24 meses 36 meses
XX
XXX
XXX Metrica
XXX RMSE MSE MAD NRMSE MPE NSE RMSE MSE MAD NRMSE MPE NSE RMSE MSE MAD NRMSE MPE NSE
Modelo XXX
X
TF 0.68528 0.471 0.59818 0.74254 123.67 0.39673 0.64384 0.41501 0.53775 0.73835 98.612 0.43049 0.66634 0.44425 0.54925 0.76337 97.466 0.40031
MEESN 0.61774 0.3818 0.5057 0.66936 98.937 0.51098 0.55925 0.31282 0.44525 0.64134 76.176 0.57072 0.56314 0.31716 0.44823 0.64514 73.336 0.57186
PEN 0.68959 0.47714 0.5934 0.74721 120.21 0.38887 0.69945 0.48996 0.58354 0.80212 106.03 0.32763 0.62606 0.39221 0.51054 0.71722 90.455 0.47055
01541500
ANFIS 0.68863 0.47559 0.59665 0.74617 120.97 0.39085 0.64236 0.41309 0.5323 0.73665 96.057 0.43312 0.65711 0.43202 0.5414 0.75279 94.931 0.41681
TF 1.4658 2.1549 1.0567 1.4564 156.42 -1.3207 1.3793 1.9048 0.99965 0.72012 160.2 0.45817 1.1786 1.3902 0.83088 0.58807 108.31 0.64401
MEESN 1.26 1.5903 0.93179 1.2519 154.03 -0.71271 1.306 1.7064 0.89157 0.68185 131.67 0.51463 1.1283 1.2737 0.76567 0.56299 92.11 0.67384
12413000
PEN 1.3454 1.8235 0.98366 1.3368 150.53 -0.9639 1.365 1.8667 0.98498 0.71267 157.32 0.46902 1.2252 1.5034 0.86512 0.61133 116.11 0.61503
ANFIS 1.2965 1.6952 0.94809 1.2881 142.2 -0.82572 1.3736 1.8903 0.99941 0.71717 162 0.4623 1.1741 1.3813 0.831 0.58582 109.67 0.64628
46
TF 1.1956 1.4316 1.045 0.69638 475.29 0.47014 1.1604 1.3471 0.94575 0.68206 312.91 0.51439 1.1098 1.2322 0.9073 0.6811 241.19 0.52267
Estación MOPEX
MEESN 1.0688 1.1425 0.90358 0.62255 363.55 0.57716 1.1167 1.2471 0.87742 0.65638 225.15 0.55042 1.0944 1.1978 0.86725 0.67166 178.23 0.53597
03054500
PEN 1.1793 1.3926 1.0242 0.68688 447.6 0.48458 1.1744 1.3796 0.95197 0.69026 316.54 0.50268 1.09 1.1885 0.87745 0.66893 210.24 0.53957
ANFIS 1.2063 1.457 1.0463 0.70264 457.65 0.46073 1.1611 1.3484 0.93855 0.68244 299.54 0.51391 1.1129 1.2391 0.9041 0.683 234.66 0.51998
TF 0.78917 0.6235 0.71423 0.77839 138.14 0.33828 0.7325 0.53715 0.62133 0.80215 97.899 0.32783 0.76608 0.58754 0.64806 0.81266 99.569 0.31995
MEESN 0.68499 0.46933 0.59049 0.67563 107.96 0.50191 0.6488 0.42102 0.52178 0.7105 76.572 0.47315 0.67068 0.44991 0.53489 0.71146 76.611 0.47925
01541000
PEN 0.77286 0.59814 0.69586 0.76229 130.29 0.36519 0.73998 0.5481 0.62001 0.81034 96.087 0.31413 0.76413 0.58472 0.63943 0.81058 94.173 0.32322
ANFIS 0.78557 0.61797 0.70885 0.77484 133.77 0.34415 0.73209 0.53651 0.6172 0.80171 95.867 0.32863 0.77316 0.59848 0.64511 0.82017 97.657 0.30729
Cuadro 5.5: Resumen de resultados (en RMSE, MSE, MAD, NRMSE, MPE y NSE) de todos los métodos en cuatro conjuntos de datos de series(caudal)
MOPEX: 1) cada columna tiene los resultados de un método específico en una métrica en particular; 2) cada fila compara los resultados de todos los
métodos en un conjunto de datos particular con un valor de horizonte específico; 3) las filas en negrita indican el mejor resultado de cada columna en
una métrica en particular.
El objetivo de esta sección es analizar la calidad de los escenarios obtenidos mediante los test estadísticos
(test presentado en la sección 2). Con el fin de verificar si las series sintéticas son igualmente probables a la serie
histórica de MOPEX.
Se aplicó el test-t para validar si la media de los escenarios es estadísticamente igual a la media del histórico.
El análisis fue basada en los p-valores obtenidos. Para esto, se calcula la media de los 100 valores de cada mes
en cada año de los escenarios. Por ejemplo, la media del escenario de Enero del año 1 es comparada con la media
histórica del mes de Enero, y así por delante, hasta comparar la media del escenario de Diciembre del año 3 con
la media histórica del mes de Diciembre. En cada test realizado se obtiene un p-valor. En el caso de que ese
p-valor esté encima del nivel de significación ( consideramos 1 %), se acepta la hipótesis del test:
h1 : la media del escenario de un mes ”x” es estadísticamente igual a la media histórica de ese mes.
Esto se hace para todos los meses de todos los años de los escenarios, dando un total de 36 p-valores. El porcentaje
de la cantidad de p-valores por encima del nivel de significación indica el desempeño de los escenarios generados.
Cuanto más cerca del 100 % es el resultado del test-t mayor es la indicación de que los escenarios lograron
reproducir el primer momento de la serie histórica.
De manera análoga se aplicó la prueba de Levene para evaluar si la varianza de cada periodo de los escenarios
es estadísticamente igual a la varianza del histórico del mes correspondiente. Si el resultado de la prueba de
Levene está cerca del 100 %, significa que los escenarios lograron reproducir bien el segundo momento de la
serie histórica.
En este estudio, se generaron 100 series sintéticas con una duración de 36 meses (3 años). Uno de los motivos
de que el aprendizaje de las series generadas para la estación 03054500 presente una menor adherencia en el
test de levene, puede ser el hecho de la poca dispersión de datos históricos, esto posiblemente debido a la
climatología constante de esta estación.
5.3.4. Análisis visual

Se observa que, en las estaciones de medición MOPEX, la media de los conjuntos históricos quedaron dentro
de las envolturas de los escenarios y se reprodujo mejor el comportamiento de la serie histórica del conjunto de
estimación.
Los cuadros 5.10, 5.11, 5.12, 5.13, presentan la envoltura de los escenarios generados en el modelo MEESN.
5.3.5. Caso de Estudio: Cuenca del Rio Chili, Arequipa

Para la evaluación de nuestro modelo en la generación de variables hidrometeorológicas (Caudales) en la
cuenca del Chili, se escogieron tres estaciones de medición: el Pañe, Aguada blanca y el Frayle, se estudiaron
periodos mensuales. Los modelos de comparación al igual que en la sección anterior son el Modelo de Thomas &
Fiering, el Modelo Estocástico Neuronal de Luciana y el modelo ANFIS. Los parámetros utilizados para evaluar
a nivel mensual son los estimadores de primer orden como el Error Medio Cuadrático (MSE), el Error Medio
Absoluto (MAE), Raíz del Error Medio Cuadrático (RMSE) y Error Porcentual Absoluto Medio (MAPE), como
también el índice de eficiencia de Nash-Sutcliffe(vea 2.4.2). Con el fin de analizar la calidad de los escenarios
obtenidos y si las series sintéticas son igualmente probables a la serie histórica, se utilizaron los test de adherencia
presentados en la sección 2.
Los registros en escala mensual fueron proporcionados por tesis realizadas entre los años 2002-2006. Estos
trabajos (tesis de Chavez (2002), Gainza (2006), Abuapara (2003), Autodema (2002)) se encargaron de obtener
datos mensuales consistentes, tomando como fuente los registros de las 3 estaciones hidrométricas antes mencio-
nadas. Para generar datos consistentes, los autores usaron técnica de estadística como análisis de normalidad,
estudio del coeficiente de asimetría, de las series temporales. En este trabajo se decidió usar como fuente (hojas
de calculo) las series históricas generadas por esos estudios, en un periodo desde el año 1970 hasta 2003. Los
registros son mensuales en metros cúbicos por segundo m3/s.
A continuación se presenta el contexto de aplicación del modelo, la caracterización de la cuenca, los experi-
mentos y finalmente la discusión de los resultados.
47
p-valores de Test de Medias t-Student p-valores de Test de Levene
ID
p_value p_value
1.00 1.00
0.01 ●
0.01
●
● ●
●
●
●
0.75 0.75
● ● ●
●
12413000
p−valores
p−valores
●
●
●
0.50 0.50
●
●
● ●
● ●
●
●
● ●
●
● ●
●
0.25 ● ● 0.25
● ●
●
●
●
● ● ● ●
● ● ● ● ●
● ●
●
● ● ● ● ● ●
● ● ● ● ● ● ●
0.00 ● ● ● ● ● ● 0.00 ● ● ● ● ●
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36
Meses Meses
Adherencia 83 % de los p-valores > 0.01 74 % de los p-valores > 0.01
Cuadro 5.6: Los resultados del análisis de Adherencia aplicada a los escenarios generados por el modelo MEESN
en la estación 12413000 de MOPEX, se observa una buena adherencia, con p-valores por encima del nivel de
significancia (linea azul). Los escenarios lograron reproducir el primer y segundo momento de la serie histórica.
48
ID
p_value p_value
1.00 1.00 ●
● 0.01 0.01
●
● ●
0.75 ● 0.75
●
● ●
01541500
● ●
p−valores
p−valores
●
● ●
●
● ●
● ●
0.50 0.50
●
●
● ●
●
●
●
●
● ● ●
● ●
0.25 0.25 ●
●
●
● ●
● ●
● ●
● ● ●
● ●
● ● ● ●
● ● ● ●
● ●
● ● ●
● ● ● ●
●
● ● ● ● ● ● ● ●
0.00 0.00
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36
Meses Meses
Adherencia 83.33 % de los p-valores > 0.01 94.44 % de los p-valores > 0.01
49
ID
p_value p_value
1.00 1.00
0.01 ●
0.01
●
●
● ● ●
0.75 ● 0.75
● ● ●
03054500
●
p−valores
p−valores
0.50 ●
● 0.50
●
● ●
●
● ●
●
●
● ●
0.25 ● ● 0.25
● ●
● ●
● ●
●
● ●
●
●
● ● ● ●
● ● ●
● ● ●
● ● ● ●
● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ●
0.00 ● ● 0.00
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36
Meses Meses
50
ID
p_value p_value
1.00 ●
1.00
0.01 ●
0.01
●
● ● ●
●
●
●
●
●
● ● ●
0.75 ● 0.75
● ●
● ●
●
●
●
p−valores
● p−valores ●
●
0.50 ● 0.50
● ●
●
●
●
● ● ●
●
● ●
01541000
0.25 0.25
● ●
● ●
●
●
● ●
● ●
● ●
● ●
● ● ●
●
● ●
●
●
● ● ● ●
● ● ●
● ● ●
0.00 ● ● 0.00 ●
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36
Meses Meses
51
PEstación
PP
1541500
Modelo PPP
P
P
Series temporales hidrólogicas
7
Series temporales Hidrólogicas
3.5
Escenarios
Observación Media de
6 escenarios
3 Observación
MEESN
5
2.5
4
Caudal
Caudal
3
1.5
2
1
1
0.5
0 0
0 5 10 15 20 25 30 35 40 0 5 10 15 20 25 30 35 40
Meses Meses

8
3.5
Escenarios
7 Observación Media de
escenarios
3 Observación
6
2.5
PEN
5
Caudal
2
Caudal
1.5
3
2 1
1 0.5
0 0
0 5 10 15 20 25 30 35 40 0 5 10 15 20 25 30 35 40
Meses Meses

8
3.5
Escenarios
Thomas-F
7
escenarios
3 Observación
6
2.5
5
Caudal
2
Caudal
1.5
3
2 1
1 0.5
0 0
0 5 10 15 20 25 30 35 40 0 5 10 15 20 25 30 35 40
Meses Meses
Cuadro 5.10: Izquierda) Series generadas(envoltura) por el modelo MEESN y los diferentes métodos usados para
evaluar sus resultados (Campos et al., 2011; Awchi und Srivastava, 2004). Derecha) Media de series generadas.
52
PEstación
PP
Modelo PPP
P 12413000
P
14
9
Escenarios
Observación Media de escenarios
12 8 Observación
MEESN
7
10
6
8
Caudal
Caudal
6 4
3
4
2
2
1
0 0
0 5 10 15 20 25 30 35 40 0 5 10 15 20 25 30 35 40
Meses Meses

50
9
Escenarios
45 Media de
Observación
8 escenarios
40 Observación
7
35
PEN
6
30
Caudal
5
Caudal
25
20 4
15 3
10 2
5 1
0 0
0 5 10 15 20 25 30 35 40 0 5 10 15 20 25 30 35 40
Meses Meses

14
9
Escenarios
Thomas-F
12 8 escenarios
Observación
7
10
6
8
Caudal
5
Caudal
6 4
3
4
2
2
1
0 0
0 5 10 15 20 25 30 35 40 0 5 10 15 20 25 30 35 40
Meses Meses
53
PEstación
PP
Modelo PPP
P 03054500
P
6
6
Escenarios
Observación Media de escenarios
5 Observación
MEESN
4
4
Caudal
Caudal
3
3
2
2
1
1
0 0
0 5 10 15 20 25 30 35 40 0 5 10 15 20 25 30 35 40
Meses Meses

Series temporales hidrólogicas 6
14
Media de
Escenarios escenarios
Observación Observación
12 5
10
PEN
8
Caudal
Caudal
2
4
1
2
0 0
0 5 10 15 20 25 30 35 40 0 5 10 15 20 25 30 35 40
Meses Meses

10
Media de
Thomas-F
9 Observación
Observación 5
7 4
6
Caudal
Caudal
3
5
4
2
3
2
1
0 0
0 5 10 15 20 25 30 35 40 0 5 10 15 20 25 30 35 40
Meses Meses
54
PEstación
PP
Modelo PPP
P 01541000
P
8
Media de
3.5
7 Observación Observación
MEESN
3
6
2.5
5
Caudal
Caudal
2
4
3 1.5
2 1
1 0.5
0 0
0 5 10 15 20 25 30 35 40 0 5 10 15 20 25 30 35 40
Meses Meses

Series temporales hidrólogicas 4.5
8
Media de
Escenarios 4 escenarios
7 Observación Observación
3.5
6
PEN
5
2.5
Caudal
Caudal
4
2
3
1.5
2
1
1 0.5
0 0
0 5 10 15 20 25 30 35 40 0 5 10 15 20 25 30 35 40
Meses Meses

Series temporales hidrólogicas 4.5
10
Media de
Thomas-F
Escenarios 4 escenarios
9 Observación
Observación
8 3.5
7 3
6
2.5
Caudal
Caudal
5
2
4
1.5
3
1
2
1 0.5
0 0
0 5 10 15 20 25 30 35 40 0 5 10 15 20 25 30 35 40
Meses Meses
55
W
ytarget(n)
W out
W in
u(n)
E
...
...
y(n)
...
1
...
x(n)
Propuesta
Fig. 1: An echo state network.
Generador de escenarios
where y(n) ∈R Ny
is network output, W ∈R out N y ×(1+N u +N x )
the output weight matrix, and [∙ ;∙
;∙]
(GST)
again stands for a vertical vector (or matrix) concatenation. An additional nonlinearity can be
fb
applied to y(n) in (4), as well as feedback connections W from y(n −1) to x̃(n) in (2). A graphical
representation of an ESN illustrating our notation and the idea for training is depicted in Figure 1.
The original method of RC introduced with ESNs [6] was to:
in
1. generate a large random reservoir RNN (W , W , α);
2. run it using the training input u(n) and collect the corresponding reservoir activation states
x(n);
3. compute the linear readout weights W out from the reservoir using linear regression, minimizing
the MSE between y(n) and y target (n);
4. use the trained network on new input data u(n) computing y(n) by employing the trained
output weights W out .
In subsequent sections we will delve deeper into the hidden intricacies of this procedure which
appears so simple on the surface, and spell out practical hints for the concrete design choices that
Simulación Evaluación Optimización

wait on the way. More specif cally, Step 1 is elaborated on in Section 3; Step 2 is done by Equations
(2) and (3), with initialization discussed in Section 4.5; Step 3 is formally def ned and options
explained in Section 4 with additional options for some particular applications in Section 5; and
Step 3 is again performed by Equations (2), (3), and (4).
Figura 5.5: Se muestra un flujo de datos, donde se toman los registros históricos de cada cuenca (DATA), poste-
riormente mediante el uso de modelos matemáticos (estadísticos/estocásticos), inteligentes(redes neuronales), y
el modelo propuesto; se generan datos sintéticos, con fines de simulación, evaluación y optimización, finalmente
estas series son almacenadas en una base de datos.
5.3.6. Caracterización del área de estudio

La cuenca del río Chili se encuentra ubicada al sur del Perú, y su ámbito esta comprendido entre las coorde-
nadas geográficas siguientes:
15°37’ y 16°47’ de Latitud Sur.
70°49’ y 72°26’ de Longitud
5.3.7. Contexto del caso de estudio

La generación de series temporales se da en el contexto de una arquitectura para la planificación de Recursos
Hídricos, vinculada a un Sistema de Soporte de Decisiones, las salidas del Nuevo Proceso Estocástico(modelo
propuesto) son probadas en el Generador de escenarios.
5.3.7.1. Generador de escenarios

Dentro del caso de estudio se enmarca el generador de escenarios de series temporales (GST), que permite
encontrar posibles series de datos (caudal, precipitación) para simulaciones a futuro, que permitirán proyectar
posibles escenarios de condiciones climáticas y de demanda de agua; para esto son usadas técnicas matemáticas
(estadísticas, estocásticas), inteligentes (redes neuronales) y complementariamente nuestra propuesta para la
generación de estos registros (Figura 5.5).
A continuación, se describe la climatología de las zonas geográficas donde se ubican las estaciones de medición
tomadas en consideración para realizar las pruebas en esta investigación y las características de estas.
5.3.8. Estaciones de Medición

5.3.8.1. Estación El Pañe
Ubicada en la sub-cuenca El Pañe, que esta localizada en el extremo norte de la cuenca del rıo Chili, esta
sobre los 4585 m.s.n.m. presenta un clima húmedo (tropical). Con las siguientes características:
56
Extensión(Km2 ) Precipitación(mm/d) evapotranspiración(mm/d) Caudal (m3 /s)
198 2.21 4 2.66
Cuadro 5.14: Características de la sub-cuenca El Pañe,(Oviedo Tejada, 2004)
Extensión(Km2 ) Precipitación(mm/d) evapotranspiración(mm/d) Caudal (m3 /s)
1041 386 4 3.32
Cuadro 5.15: Características de la sub-cuenca El Frayle,(Oviedo Tejada, 2004)
5.3.8.2. Estación el Frayle

Ubicada en la sub-cuenca El Fraile, que abarca desde el nacimiento de los ríos Yamanayo, Collpamayo,
Paltimayo, Cancusane, Pasto Grande (entre otros ríos menores); hasta el río Blanco (que nace de la confluencia
de los ríos ya mencionados) está ubicado sobre el río Blanco a una altitud media de 4000 m.s.n.m. Con las
siguientes características:
5.3.8.3. Estación Aguada Blanca

Ubicada en la sub-cuenca del mismo nombre, que presenta una climatología semi árida. La estación Aguada
Blanca, hasta antes de 1989 media las descargas reguladas y no reguladas del embalse Aguada Blanca. Desde
1989, las descargas reguladas del embalse se miden en la Central Hidroeléctrica de Charcani V. Desde 1989,
la estación mide la suma de derrames que se producen en el aliviadero Morning Glory y las descargas que se
efectúan por la compuerta de regulación. Consecuentemente, desde 1989, las salidas totales del embalse Aguada
Blanca, son la suma de lo que mide la estación Aguada Blanca (ó mas precisamente, la estimación que se hace
de las salidas por la compuerta de regulación, y los caudales que se obtienen del limnigrafo ubicado en la cresta
del vertedero) mas el caudal turbinado por la Central Hidroeléctrica. Cuenta con una estación climatológica y
limnimetrica (Oviedo Tejada, 2004).
5.3.9. Experimentos
5.3.9.1. Análisis de Adherencia
A fin de analizar la calidad de los escenarios generados, en esta sección se analizó mediante los test estadísticos
(test presentado en la sección 2), si las series sintéticas son igualmente probables a la series históricas de las
estaciones de medición de la cuenca del Chili (Pañe,Frayle,Aguada Blanca).
Se aplicó el test-t para validar si la media de los escenarios es estadísticamente igual a la media del histórico.
De manera análoga como en la sección 5.3.3, se aplicó la prueba de Levene para evaluar si la varianza de cada
periodo de los escenarios es estadísticamente igual a la varianza del histórico del mes correspondiente. El análisis
fue basada en los p-valores obtenidos. (como se puede observar en las Tablas 5.16, 5.17, 5.18).
Uno de los motivos de que el aprendizaje de las series generadas para la estación Frayle presenten una menor
adherencia en el test de levene, puede ser el hecho de la poca variabilidad de algunas variables hidrometereo-
lógicas y por lo tanto afectando la dispersión de datos, esto posiblemente debido a la climatología constante de
la estación Frayle. Esta estación de medición puede ser aún mejor investigada.
5.3.10. Inspección Visual de los Escenarios

Se observa en los Cuadros 5.19, 5.20, 5.21, los resultados de predicción sobre 3 años (36 meses desde Enero
del 2001 hasta Diciembre del 2003) representados en estimadores de primer orden, cada fila tiene los resultados
de un método específico en una métrica en particular; cada columna compara los resultados de todos los métodos
57
Estación
p_value p_value
1.00 1.00 ● ●
0.01 ● ●
0.01
●
●
●
● ●
● ●
● ●
●
●
● ●
●
0.75 ● 0.75
●
●
●
●
●
●
p−valores
p−valores
●
● ●
●
●
0.50 0.50
Pañe
● ●
● ●
● ● ●
●
●
●
●
●
●
● ●
● ●
● ●
●
0.25 0.25
●
● ●
● ●
● ●
●
● ●
● ●
● ● ●
●
●
● ●
●
● ●
0.00 0.00
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36
Meses Meses
Adherencia 97.22 % de los p-valores > 0.01 100 % de los p-valores > 0.01
Cuadro 5.16: Los resultados del análisis de Adherencia aplicada a los escenarios(caudal) generados por nuestro
modelo en la estación Pañe, se observa una buena adherencia, con p-valores por encima del nivel de significancia
(linea azul). Los escenarios lograron reproducir el primer y segundo momento de la serie histórica.
58
Estación
p_value p_value
1.00 1.00
● 0.01 0.01
●
●
●
●
●
●
0.75 0.75
●
●
●
p−valores
p−valores
●
Frayle
●
●
0.50 0.50
●
● ● ●
●
● ●
● ●
●
● ●
●
0.25 ● ● 0.25
● ● ● ●
● ●
● ●
● ● ● ●
●
●
● ● ● ● ●
● ● ●
● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ●
0.00 0.00 ●
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36
Meses Meses
modelo en la estación El Frayle, se observa una buena adherencia parcial, con p-valores por encima del nivel
de significancia (linea azul) y p-valores por debajo (puntos rojos). Los escenarios lograron reproducir el primer
momento y en menos porcentaje el segundo momento de la serie histórica.
59
Estación
p_value p_value
1.00 1.00
0.01 0.01
●
Aguada Blanca
●
●
●
●
0.75 0.75
●
p−valores
p−valores
● ●
0.50 0.50
●
●
●
● ●
0.25 0.25 ●
● ●
●
● ●
● ●
● ●
● ●
● ●
● ● ●
● ●
● ● ●
●
● ●
●
● ●
●
● ●
● ● ● ● ● ●
● ● ●
● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ●
0.00 0.00
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36
Meses Meses
Adherencia 80.55 % de los p-valores > 0.01 88.88. % de los p-valores > 0.01
modelo en la estación Aguada Blanca, se observa una buena adherencia, con p-valores por encima del nivel de
significancia (linea azul). Los escenarios lograron reproducir el primer momento y el segundo momento de la
serie histórica.
60
PPModelo
Meses Métrica
PP TF MEESN PEN ANFIS
P
RMSE 1.9296 1.6905 2.1006 1.9723
MSE 3.826 2.8597 4.5196 3.9714
MAD 1.2405 0.96298 1.3581 1.2753

12
NRMSE 0.52125 0.45667 0.56745 0.53277
MPE 394.65 301.73 429.64 392.59
NSE 0.69543 0.77235 0.64021 0.68385
RMSE 2.0728 1.8739 2.0744 2.0303
MSE 4.3494 3.5129 4.3433 4.155
MAD 1.3094 1.2161 1.3341 1.3094

24
NRMSE 0.56724 0.51282 0.56767 0.55561
MPE 257.81 189.74 329.56 279.76
NSE 0.66011 0.72548 0.66058 0.6753
RMSE 2.1495 2.0881 2.6785 2.1774
MSE 4.6203 4.3601 7.1744 4.7411
MAD 1.3898 1.3987 1.9359 1.418

36
NRMSE 0.50786 0.49336 0.63286 0.51446
MPE 223.92 320.57 781.42 238.49
NSE 0.73471 0.74965 0.58805 0.72777
Cuadro 5.19: Resumen de resultados (en RMSE, MSE, MAD, NRMSE, MPE y NSE) del modelo propuesto
comparado con 3 diferentes métodos para la predicción de series temporales(caudal) de la estación el Pañe.
en un conjunto de datos particular con un valor de horizonte específico; las columnas en negrita indican el mejor
resultado de cada fila en una métrica en particular.
Los mejores resultados y ajustes de predicción de Series temporales en las estaciones El Pañe, El Frayle y
Aguada Blanca pueden ser observados en los Cuadros 5.22, 5.23 y 5.24, estos cuadros presentan la envoltura
(series generadas) de 100 escenarios que comprenden un horizonte de 36 meses (3 años) de predicción desde
enero del 2001 hasta diciembre del 2003, generados por el modelo propuesto en este trabajo(MEESN). Además
de los escenarios, los gráficos contienen la curva de la serie real a predecir (azul), y media de cada mes en cada
año de los escenarios.
Se observa que, en la mayoría de las estaciones de medición, la media de los conjuntos históricos quedaron
dentro de las envolturas de los escenarios y se reprodujo mejor el comportamiento de la serie histórica del
conjunto de estimación.
El cuadro 5.22 presenta la envoltura de los escenarios generados en el modelo MEESN. Las medias de
los escenarios de la estación Pañe, acompañan bien el comportamiento de las medias del conjunto histórico de
estimación. De manera análoga, los escenarios de la estación Aguada Blanca, acompañan bien el comportamiento
del conjunto histórico de estimación (Cuadro 5.24). En la estación del Frayle (Cuadro 5.23), la envoltura de
todos los escenarios generados no engloba en su totalidad las medias de los conjuntos históricos, pero la media
de esos escenarios acompaña mejor a las medias del conjunto histórico de estimación, esto se relaciona con el bajo
porcentaje de adherencia obtenido por esta estación en la sección anterior (vea Sección 5.3.9.1). Las discrepancias
61
PPMetrica
Meses P TF MEESN PEN ANFIS
ModeloPP
RMSE 2.3392 1.6548 2.1516 2.1516
MSE 6.1387 2.7877 5.2766 5.2766
MAD 1.3704 0.97211 1.2706 1.2706

12
NRMSE 1.8903 1.3372 1.7387 1.7387
MPE 73.868 51.604 71.368 71.368
NSE -3.3732 -0.98593 -2.759 -2.759
RMSE 4.6003 4.6906 4.69 4.6735
MSE 22.132 22.147 22.644 22.624
MAD 2.4155 2.4661 2.4351 2.4376

24
NRMSE 0.74608 0.76071 0.76063 0.75795
MPE 92.742 96.832 92.59 91.749
NSE 0.39258 0.39217 0.37852 0.37907
RMSE 6.4348 6.0407 6.4262 6.4468
MSE 41.407 36.49 41.296 41.561
MAD 3.1024 3.0527 3.141 3.1257

36
NRMSE 0.78866 0.74036 0.7876 0.79012
MPE 86.908 103.5 89.798 88.165
NSE 0.36024 0.43621 0.36196 0.35787
comparado con 3 diferentes métodos para la predicción de series temporales(caudal) de la estación el Frayle.
62
PPMetrica
Meses P TF MEESN PEN ANFIS
ModeloPP
RMSE 7.1043 4.1013 8.0045 7.9779
MSE 59.026 16.833 75.824 74.652
MAD 3.7762 2.375 4.2294 4.2019

12
NRMSE 1.9529 1.1274 2.2003 2.193
MPE 45.168 29.795 50.043 49.251
NSE -3.8657 -0.38761 -5.2503 -5.1537
RMSE 14.362 14.161 14.22 14.509
MSE 206.68 200.54 202.74 210.86
MAD 6.7218 6.529 6.7178 6.804

24
NRMSE 0.85077 0.83887 0.84237 0.85946
MPE 54.006 55.899 56.562 53.626
NSE 0.24319 0.26567 0.25762 0.22788
RMSE 18.832 17.493 19.604 19.619
MSE 354.64 306 384.32 384.92
MAD 8.6566 8.7913 8.9432 8.9621

36
NRMSE 0.88338 0.82057 0.9196 0.92032
MPE 46.039 70.236 47.359 47.687
NSE 0.19734 0.43621 0.13017 0.1288
comparado con 3 diferentes métodos para la predicción de series temporales(caudal) de la estación Aguada
Blanca.
63
PEstación
PP
Panie
Modelo PPP
P
P
Series temporales hidrólogicas Series temporales Hidrólogicas
45 15
Escenarios Media de
40 Observación escenarios
Observación
MEESN
35
30 10
Caudal
25
Caudal
20
15 5
10
0 0
0 5 10 15 20 25 30 35 40 0 5 10 15 20 25 30 35 40
Meses Meses

100 15
Escenarios Media de
90 escenarios
Observación
Observación
80
70
10
PEN
60
Caudal
Caudal
50
40
5
30
20
10
0 0
0 5 10 15 20 25 30 35 40 0 5 10 15 20 25 30 35 40
Meses Meses

25 15
Escenarios Media de
Observación escenarios
Thomas-F
Observación
20
10
15
Caudal
Caudal
10
0 0
0 5 10 15 20 25 30 35 40 0 5 10 15 20 25 30 35 40
Meses Meses
Cuadro 5.22: Izquierda) Series generadas(envoltura) por nuestra propuesta (MEESN) y los diferentes métodos
usados para evaluar sus resultados (Campos et al., 2011; Awchi und Srivastava, 2004). Derecha) Media de series
generadas.
64
PEstación
PP
Modelo PPP
P Frayle
P
35 35
Escenarios Media de
30 30 Observación
MEESN
25 25
20 20
Caudal
Caudal
15 15
10 10
5 5
0 0
0 5 10 15 20 25 30 35 40 0 5 10 15 20 25 30 35 40
Meses Meses

40 35
Escenarios Media de
30 Observación
30
25
PEN
25
20
Caudal
Caudal
20
15
15
10
10
5 5
0 0
0 5 10 15 20 25 30 35 40 0 5 10 15 20 25 30 35 40
Meses Meses

40 35
Escenarios Media de
Thomas-F
35
30 Observación
30
25
25
20
Caudal
Caudal
20
15
15
10
10
5 5
0 0
0 5 10 15 20 25 30 35 40 0 5 10 15 20 25 30 35 40
Meses Meses
generadas.
65
PEstación
PP
Aguada Blanca
Modelo PPP
P
P
100 80
Escenarios Media de
90 escenarios
Observación 70
Observación
80
MEESN
60
70
60 50
Caudal
Caudal
50 40
40
30
30
20
20
10 10
0 0
0 5 10 15 20 25 30 35 40 0 5 10 15 20 25 30 35 40
Meses Meses

80 80
Escenarios Media de
70
Observación
60 60
PEN
50 50
Caudal
Caudal
40 40
30 30
20 20
10 10
0 0
0 5 10 15 20 25 30 35 40 0 5 10 15 20 25 30 35 40
Meses Meses

80 80
Escenarios Media de
Thomas-F
70 70
Observación
60 60
50 50
Caudal
Caudal
40 40
30 30
20 20
10 10
0 0
0 5 10 15 20 25 30 35 40 0 5 10 15 20 25 30 35 40
Meses Meses
generadas.
66
se presentan en los valores del ultimo año (12 meses), en las estaciones del Frayle y Aguada blanca, es probable
que esos valores generados por el componente estocástico de los meses de enero dificulte la estimación, además
se puede observar que se presentan fluctuaciones violentas en ese periodo. Este comportamiento puede estar
determinado por factores externos como variables exógenas. En la siguiente sección se presenta un estudio sobre
la influencia de esas variables en la predicción de caudales.
5.4. Incorporando información adicional, variable exógena

El cambio climático tiene un gran impacto en la marcha dentro de estaciones de medición, y la incorporación
de cambios de información sobre cambios en el tiempo de ejecución puede ayudar a la creación de más tiempo en
los plazos de planificación. En este documento, se ha desarrollado un modelo estocástico para mejorar la precisión
y la confiabilidad de la ejecución de los resultados de gran escala y los factores climáticos a escala local(Chu
et al., 2017). Dicho modelo emplea como datos de entrada las series históricas de caudales pero además considera
el valor esperado de una variable exógena(vea Figura 5.6). Tal variable es la Temperatura Superficial del Mar
(TSM) en la región del Niño 3.4 ó también llamado sea surface temperature (SST) la cual está relacionada,
no sólo estadística si no físicamente, con los caudales según Carlos Quispe (2011); Cadavid und Salazar (2008).
En el Perú, existen pocos trabajos sobre modelos de previsión usando la información TSM local, resaltando el
modelo autorregresivo de Quispe & Purca (2007), el modelo estadístico empírico de Matellini et al. (2007) y el
modelo no lineal de Carlos Quispe (2011).
5.4.1. Re-formulación del modelo

Si se quiere incorporar la información adicional que proviene de una variable exógena, como en el caso de
interés puede ser información climática (pronóstico de la temperatura superficial del mar en la zona Niño 3.4
TSM) se puede proceder de la siguiente manera:
Se realiza el preprocesamiento al pronóstico que se tenga de la TSM según el procedimiento descrito en este
documento (en la sección 5.2.1). Para obtener la variable exógena en este caso de TSM, se puede recurrir
a alguna entidad especializada como la de NOAA2 .
De esta manera se utiliza los valores mensuales TSM (ya preprocesado) para entrenar el componente
neuronal(determinista) ESN de nuestro modelo, el procedimiento se describe en este documento en la
sección 5.2, considerando ahora un valor de entrada adicional como la temperatura superficial del mar
T smt .
Se generan trazas sintéticas de TSM con el modelo de Thomas & Fiering, calculando previamente los
σt+1 ,rt , = N (0, 1), respectivos.
De esta manera se utiliza T smt para determinar el valor esperado de los caudales de cada río en un
horizonte determinado.
Entonces el valor esperado de los caudales para nuestro modelo se reescribe como (ecuación 5.2):
Yt+1 =f δ W out × ϑ W in yt + W in T smt + θt + W x(t − 1) + yt + T smt + θt + Rt

Volviendo al modelo y los experimentos, vamos a considerar de manera de ejemplo las siguientes 3 estaciones
de medición, como en la sección anterior, de la cuenca del Chili: Pañe, Frayle y Aguada Blanca. Sus aportes
mensuales medidos en mm/s para el período 1970 - 2000 y los resultados de pronóstico para el periodo 2001 -
2003, se ilustran en la siguiente sección.
5.5. Experimentos
5.5.1. Inspección Visual de los Escenarios
Se observa en los Cuadros 5.25, 5.26, 5.27, los resultados de predicción sobre 3 años (36 meses desde Enero del
2001 hasta Diciembre del 2003) representados en estimadores de primer orden, cada fila tiene los resultados de
2 http://www.cpc.ncep.noaa.gov/data/indices/ersst4.nino.mth.81-10.ascii
67
29
sea surface temperature(SST)
28
27 v. hidrológica
SST
26
25
1970 1980 1990 2000

Años
100
75
Caudal(mm)
El Niño
50 El Niño
25
0
1970 1980 1990 2000
Años
Figura 5.6: Variación temporal de la temperatura superficial del mar (SST ó TSM) desde Enero de 1970 hasta
Diciembre del 2003, se observa también el caudal en la estación de medición Aguada Blanca(linea azul), en el
mismo periodo de tiempo. Las áreas sombreadas indican periodos de ocurrencia de eventos El Niño.
68
PP Metrica
Meses P TF MEESN MEESN+TSM PEN ANFIS
ModeloPPP
RMSE 1.9296 1.6905 1.6764 2.1006 1.9723
MSE 3.826 2.8597 2.8102 4.5196 3.9714
MAD 1.2405 0.96298 1.1521 1.3581 1.2753

12
NRMSE 0.52125 0.45667 0.45284 0.56745 0.53277
MPE 394.65 301.73 343.81 429.64 392.59
NSE 0.69543 0.77235 0.77629 0.64021 0.68385
RMSE 2.0728 1.8739 1.8934 2.0744 2.0303
MSE 4.3494 3.5129 3.585 4.3433 4.155
MAD 1.3094 1.2161 1.2383 1.3341 1.3094

24
NRMSE 0.56724 0.51282 0.51816 0.56767 0.55561
MPE 257.81 189.74 260.94 329.56 279.76
NSE 0.66011 0.72548 0.71984 0.66058 0.6753
RMSE 2.1495 2.0881 1.8791 2.6785 2.1774
MSE 4.6203 4.3601 3.5311 7.1744 4.7411
MAD 1.3898 1.3987 1.2075 1.9359 1.418

36
NRMSE 0.50786 0.49336 0.44398 0.63286 0.51446
MPE 223.92 320.57 233.77 781.42 238.49
NSE 0.73471 0.74965 0.79725 0.58805 0.72777
incorporando información climática como TSM(variable exógena), comparado con 3 diferentes métodos, para la
predicción de series temporales(caudal) de la estación el Pañe.
un método(incluyendo la modificación a nuestra propuesta) específico en una métrica en particular, a diferencia

de los resultados obtenidos en la sección anterior, la adición de una variable exógena, efectivamente mejora la
predicción de nuestro modelo.
Los mejores resultados y ajustes de predicción de Series temporales en las estaciones El Pañe, El Frayle y
Aguada Blanca pueden ser observados en los Cuadros 5.28, 5.29 y 5.30, donde se muestra la habilidad predictiva
del modelo MEESN+TSM, estos cuadros presentan la envoltura (series generadas) de 100 escenarios que
comprenden un horizonte de 36 meses (3 años) de predicción desde enero del 2001 hasta diciembre del 2003,
generados incorporando información climática como la TSM. Además de los escenarios, los gráficos contienen la
curva de la serie real a predecir (azul), y media de cada mes en cada año de los escenarios.
Podemos observar que la variabilidad de las temperaturas TSM, depende con mayor peso del valor de
temperatura del mes anterior, y con menor peso de procesos registrados con un año de antelación. Esto se
interpreta en los valores de los estimadores de primer orden, donde los menores valores se obtienen en horizontes
largos.
Se observa también, que en este caso todas estaciones de medición(en contraste a cuando nuestro modelo
no consideraba una variable exógena en su formulación), la media de los conjuntos históricos quedaron dentro
de las envolturas de los escenarios y se reprodujo mejor el comportamiento de la serie histórica del conjunto de
estimación.
El cuadro 5.28 presenta la envoltura de los escenarios generados en el modelo MEESN+TSM. Las medias
de los escenarios de la estación Pañe, acompañan bien el comportamiento de las medias del conjunto histórico de
69
PP Metrica
Meses P TF MEESN MEESN+TSM
PEN ANFIS
ModeloPPP
RMSE 2.3392 1.6548 2.0242 2.1516 2.1516
MSE 6.1387 2.7877 4.0972 5.2766 5.2766
MAD 1.3704 0.97211 1.1681 1.2706 1.2706

12
NRMSE 1.8903 1.3372 1.6357 1.7387 1.7387
MPE 73.868 51.604 59.766 71.368 71.368
NSE -3.3732 -0.98593 -1.9189 -2.759 -2.759
RMSE 4.6003 4.6906 4.1385 4.69 4.6735
MSE 22.132 22.147 17.127 22.644 22.624
MAD 2.4155 2.4661 2.3698 2.4351 2.4376

24
NRMSE 0.74608 0.76071 0.67118 0.76063 0.75795
MPE 92.742 96.832 128.8 92.59 91.749
NSE 0.39258 0.39217 0.52994 0.37852 0.37907
RMSE 6.4348 6.0407 5.7486 6.4262 6.4468
MSE 41.407 36.49 33.057 41.296 41.561
MAD 3.1024 3.0527 3.2523 3.141 3.1257

36
NRMSE 0.78866 0.74036 0.70455 0.7876 0.79012
MPE 86.908 103.5 168.59 89.798 88.165
NSE 0.36024 0.43621 0.48926 0.36196 0.35787
predicción de series temporales(caudal) de la estación el Frayle.
70
PP Metrica
Meses P TF MEESN MEESN+TSM PEN ANFIS
ModeloPPP
RMSE 7.1043 4.1013 4.1035, 8.0045 7.9779
MSE 59.026 16.833 16.866 75.824 74.652
MAD 3.7762 2.375 2.3779 4.2294 4.2019

12
NRMSE 1.9529 1.1274 1.134 2.2003 2.193
MPE 45.168 29.795 29.842 50.043 49.251
NSE -3.8657 -0.38761 -0.55518 -5.2503 -5.1537
RMSE 14.362 14.161 12.699 14.22 14.509
MSE 206.68 200.54 161.27 202.74 210.86
MAD 6.7218 6.529 6.2856 6.7178 6.804

24
NRMSE 0.85077 0.83887 0.75228 0.84237 0.85946
MPE 54.006 55.899 70.567 56.562 53.626
NSE 0.24319 0.26567 0.40947 0.25762 0.22788
RMSE 18.832 17.493 15.966 19.604 19.619
MSE 354.64 306 254.92 384.32 384.92
MAD 8.6566 8.7913 7.6639 8.9432 8.9621

36
NRMSE 0.88338 0.82057 0.74896 0.9196 0.92032
MPE 46.039 70.236 54.242 47.359 47.687
NSE 0.19734 0.43621 0.42303 0.13017 0.1288
predicción de series temporales(caudal) de la estación Aguada Blanca.
71
PEstación
PP
Modelo PPP
P Pañe
P

45
15
Escenarios
40 Observación Media de
escenarios
Observación
MEESN
35
30
10
Caudal
25
Caudal
20
15
5
10
0 0
0 5 10 15 20 25 30 35 40 0 5 10 15 20 25 30 35 40
Meses Meses
MEESN+TSM

45
Escenarios
40 15
Observación
Media de
35 escenarios
Observación
30
10
25
Caudal
Caudal
20
15
5
10
0
-5
0 5 10 15 20 25 30 35 40
0 5 10 15 20 25 30 35 40
Meses
Meses
Cuadro 5.28: Izquierda) 100 Series generadas(envoltura) por nuestra propuesta (MEESN) VS el modelo
(MEESN+TSM) que considera/adiciona información climática como TSM(variable exógena). Derecha) Media
de series generadas(linea azul).
72
PEstación
PP
Modelo PPP
P Frayle
P

35
35
Escenarios
30 escenarios
30 Observación
MEESN
25
25
20
Caudal
20
Caudal
15
15
10
10
5
5
0 0
0 5 10 15 20 25 30 35 40 0 5 10 15 20 25 30 35 40
Meses Meses
MEESN+TSM

100
35
Escenarios
90 Media de
Observación
escenarios
80 30 Observación
70
25
60
Caudal
20
Caudal
50
40 15
30
10
20
5
10
0 0
0 5 10 15 20 25 30 35 40 0 5 10 15 20 25 30 35 40
Meses Meses
73
PEstación
PP
Modelo PPP
P Aguada Blanca
P

100
80
Escenarios
90 Media de
Observación
escenarios
70
80 Observación
MEESN
70 60
60 50
Caudal
Caudal
50
40
40
30
30
20
20
10 10
0 0
0 5 10 15 20 25 30 35 40 0 5 10 15 20 25 30 35 40
Meses Meses
MEESN+TSM

100
80
Escenarios
90 Media de
Observación
escenarios
70
80 Observación
70 60
60 50
Caudal
Caudal
50
40
40
30
30
20
20
10 10
0 0
0 5 10 15 20 25 30 35 40 0 5 10 15 20 25 30 35 40
Meses Meses
74
estimación. De manera análoga, los escenarios de la estación Aguada Blanca, acompañan bien el comportamiento
del conjunto histórico de estimación (Cuadro 5.30). En la estación del Frayle (Cuadro 5.29), la envoltura de todos
los escenarios generados ahora si engloba en su totalidad las medias de los conjuntos históricos, al igual que la
media.
Si bien existen mejoras significativas visualmente, en predecir los 36 meses, las discrepancias se siguen presen-
tando en los valores del ultimo año (12 meses), en las estaciones del Frayle y Aguada blanca, esas fluctuaciones
pueden estar determinadas por factores externos, como errores humanos de medición, etc.
Finalmente, diversos modelos provenientes de la hidrología estocástica con los que es posible modelar series
de caudales para varias estaciones, el presentado en este trabajo exhibe un enfoque novedoso en el sentido que
incorpora una variable exógena como es la TSM la cual condiciona las series sintéticas obtenidas sin dejar de
preservar ciertos estadísticos de interés como las varianzas y covarianzas(Test de Adherencia). Este aspecto
es especialmente importante si dichas series son utilizadas para el pronóstico y manejo apropiado del agua en
mercados con características como el peruano, en el que no solo las condiciones reales si no también la hidrología
esperada, tiene que jugar un papel fundamental.
5.5.2. Consideraciones finales

Este capítulo presentó el estudio de casos realizados con el modelo propuesto MEESN, tanto en la versión
original como en la versión modelada agregando una variable exógena como es la TSM. La temperatura superficial
del mar (TSM) es una de las variables físicas que mejor indica la variación temporal del ciclo El Niño y la
Oscilación del Sur (ENOS), por lo cual es ampliamente usada para estudiar la variabilidad a diferentes escalas
de tiempo en el Océano Pacífico(Purca Cuicapusa, 2005). A través de los resultados obtenidos, se observa que el
modelo ESN en la versión original logra generar escenarios tan adherentes a la serie histórica de las estaciones
de medición del Chili, como los modelos actualmente utilizados en la literatura para la generación de escenarios.
Por otra parte, los resultados obtenidos por el modelo MEESN+TSM, donde agregamos una variable exógena,
mejora los resultados obtenidos por su versión original. Finalmente, comprobamos que la conectividad es crítica
para encontrar una buena red de tipo RNAR-echo para predecir con mayor precisión valores futuros. En contraste
con los resultados previos como los de Millea (2014) y Koryakin et al. (2012), en este trabajo no se detectó que
una topología de red con una matriz de conectividad ortonormal tenga mejor o igual desempeño, que una matriz
de conectividad aleatoria que es el estándar.
75
Capítulo 6
Conclusión y trabajos futuros
Como se indicó en el capítulo 1, el principal objetivo de esta tesis fue la elaboración de un nuevo modelo
de proceso estocástico denominado MEESN, que pueda aplicarse en una gama de problemas envolviendo
fenómenos de comportamiento no lineales con características periódicas de sus propiedades, como las series
temporales hidrológicas.
Dado que las redes neuronales artificiales son modelos no lineales, de simple entendimiento e implemen-
tación, en especial las de tipo recurrentes, son capaces de representar mapas dinámicos no lineales
comúnmente encontradas en las tareas de pronóstico de series temporales(Sun et al., 2016). Estas son
capaces de identificar y asimilar características de series temporales históricas, tales como estacionalidad,
periodicidad y tendencia, se decidió entonces utilizarlas como base del nuevo modelo de proceso estocástico
MEESN. Una gran ventaja del uso de RNA’s recurrentes en nuestro modelo es que no necesitan conoci-
mientos a priori ó técnicas de «ventana» del ambiente de la serie o de una compleja formulación teórica
sobre su comportamiento, para ser aplicadas en una serie temporal, porque todas las características de la
serie son aprendidas a través de ejemplos (aprendizaje supervisado).
La meta de este modelo es generar escenarios de series temporales sintéticas igualmente probables a la
serie histórica, abordando cualquier periodo de tiempo, para ser utilizados en la solución de problemas que
envuelven fenómenos climatológicos (p.ejemplo temperatura, precipitación, etc) y económicos (p.ejemplo
inversión de prevención etc), entre otros.
El nuevo modelo MEESN propone una herramienta alternativa para la generación de caudales mensuales.
Este modelo presenta un tipo de red recurrente denominado Echo State Network (ESN), que poseen
una topología altamente inter-enlazada y recurrente, inicializada de manera aleatoria. ESN tiene dos in-
teresantes propiedades; la primera es que sólo se entrena la ultima capa, la segunda es gracias a su memoria
interna, que es el resultado de las conexiones recurrentes, no es necesario incrustar señales de entrada an-
teriores(meses anteriores). A primera vista puede parecer sorprendente que una red neuronal recurrente
con conexiones aleatorias pueda ser efectiva, pero los parámetros aleatorios han sido exitosos en varios
dominios Jarrett et al. (2009); Saxe et al. (2011); Datar et al. (2004). El proceso de aprendizaje de redes
recurrentes es realizado usando el enfoque ESN. De esa manera se logra reducir el costo computacional
de aprendizaje.
Los casos de estudio de esta tesis, aplicaron a la generación y pronóstico de series temporales basados en
variables hidrológicas(Caudales, Precipitación), para 2 casos : el primero en el contexto internacional de las
series temporales de MOPEX, en 4 cuencas seleccionadas de manera aleatoria. El segundo, en el contexto
local de las series temporales de la cuenca del Chili en Arequipa, en tres estaciones de medición: el Pañe,
Aguada blanca y el Frayle.
Como fue visto en el capítulo 5, se experimentó en primer lugar con varias estructuras del modelo MEESN,
con el objetivo de analizar las propiedades de conectividad y su impacto en el desempeño de las Redes
Echo State, utilizando series de tiempo hidrológicas. En estos experimentos llegamos a la conclusión
que el uso de una matriz de pesos ortonormal, en contraste con los resultados previos como los de Millea
76
(2014) y Koryakin et al. (2012), no presentan un mejor o igual desempeño, que una matriz de conectividad
aleatoria(prueba t de dos muestras no emparejadas).
Una vez determinado el tipo de matriz de conectividad, se generaron 100 escenarios sintéticos con un
horizonte de 36 meses, tanto para las series de MOPEX y para las series producidas por las estaciones de
medición local (cuenca CHILI). Se aplicó en cada escenario algunos test de adherencia para comprobar si
los escenarios son estadísticamente similares a las series históricas. Los resultados del análisis de Adherencia
aplicada a los escenarios(caudal) generados por nuestro modelo en las estaciones de la cuenca del Chilli
y MOPEX, mostraron una buena adherencia, con los p-valores por encima del nivel de significancia. Los
escenarios lograron reproducir el primer y segundo momento de la serie histórica.
En la inspección visual de los escenarios generados, se observó que nuestro modelo en su versión original
MEESN ajustado para las estaciones de la cuenca del Chili, no presenta un rendimiento de predicción
muy bueno en algunas estaciones como el Frayle y Aguada blanca, realizando algunos test se verificó que
el componente estocástico de los meses de enero dificulta la estimación. Este comportamiento puede estar
determinado por factores externos como variables exógenas.
Como fue presentado en el capitulo 5, se utilizó dos versiones del modelo MEESN, donde se incorpora
una variable exógena como la temperatura superficial del mar (TSM), que es una de las variables físicas
que mejor indica la variación temporal del ciclo El Niño, dicho fenómeno influye dramáticamente en el
clima en todo el Perú, por lo cual es ampliamente usada para estudiar la variabilidad a diferentes escalas
de tiempo en el Océano Pacífico. Los resultados obtenidos por el modelo re-formulado MEESN+(TSM),
donde agregamos una variable exógena, mejora de manera significativa los resultados obtenidos por su
versión original. Este trabajo exhibe un enfoque novedoso en el sentido que incorpora una variable exógena
como es la TSM la cual condiciona las series sintéticas obtenidas sin dejar de preservar ciertos estadísticos
de interés como las varianzas y covarianzas.
Es necesario mencionar sin embargo que la relación entre los caudales y la TSM fue abordada en este
trabajo por medio de una regresión lineal simple.
La presencia del componente aleatorio en el modelo MEESN, nos aleja parcialmente de la denominación
de caja negra, denominación inherente a los modelos de RNAs.
Finalmente, se puede usar el nuevo modelo MEESN y su modificación MEESN+TSM como comple-
mento en las tareas de análisis de escenarios junto a los modelos tradicionales, el modelo se destaca por
la habilidad de incluir características ocultas (ejemplo: datos extremos en las envolturas), lo que permite
evaluar eventos extremos (sequías, heladas, lluvias torrenciales) esto permitirá a un tomador de decisión
desarrollar acciones técnicas de previsión, que finalmente puedan evitar perdidas económicas y sociales ( im-
plantación de políticas de consumo de agua para mejorar la disponibilidad del recurso hídrico, ajustando el
impacto del evento sobre el área vulnerable correspondiente). Nuestro modelo puede ser considerado como
una alternativa válida a los modelos basados en redes neuronales feedforward y recurrentes tradicionales.
6.0.1. Limitaciones del modelo

Se debe notar que el modelo no siempre encuentra eventos extremos, es por eso que se recomiendo agregar
técnicas como las de clustering, para tener información que pueda ayudar al componente determinista
aprender las relaciones entre diferentes variables.
Al re-formular nuestro modelo, agregando una variable exógena, asumimos que la relación entre los caudales
y la TSM es abordada por medio de una regresión lineal simple. La limitación de este enfoque es que se
asume linealidad entre estas variables lo que no necesariamente es cierto, pero si es válido como una primera
aproximación.
6.0.2. Trabajos Futuros

En cuanto al modelo Proceso Estocástico MEESN, se pretende utilizarlo en la generación de escenarios
de otros tipos de series temporales, ya que se trata un modelo genérico de proceso estocástico.
77
Otro trabajo futuro consiste en utilizar otra topología de red neuronal artificial para el componente deter-
minista del domino MEESN, como por ejemplo las redes de creencia profunda (BNN).
Se debe considerar el uso de técnicas de Clustering en la estimación del componente aleatorio, basado en
la propuesta de Hallac et al. (2017); se cree que se mejoraría en la generación de escenario con eventos tan
extremos como los ocasionados por el fenómeno del Niño
6.0.3. Publicaciones Generadas

Se presenta las diferentes publicaciones logradas en el transcurso de esta investigación.
1. E. F. L. Mamani and J. A. Q. Herrera, "Stochastic generation and forecasting of monthly hydrometeoro-

logical data based on non-traditional neural network," 2017 XLIII Latin American Computer Conferen-
ce (CLEI), Córdoba, Argentina, 2017, doi: 10.1109/CLEI.2017.8226387 http://ieeexplore.ieee.org/
stamp/stamp.jsp?tp=&arnumber=8226387&isnumber=8226362
78
Bibliografía
d. A. Barreto, G. und A. F. R. Araujo (2001): A self-organizing NARX network and its application to prediction
of chaotic time series. In: Neural Networks, 2001. Proceedings. IJCNN ’01. International Joint Conference
on. Bd. 3, S. 2144–2149 vol.3.
Abrahart, Robert J.; Nick J. Mount und Asaad Y. Shamseldin (2012): Discussion of Reservoir Computing
approach to Great Lakes water level forecasting by P.Coulibaly[J. Hydrol. 381(2010) 76-88]. Journal of
Hydrology, 422-423:76–80.
Abuapara, Gabriel Peppe Riega (7 2003): Planeamiento Hidraúlico de la Cuenca Chili. Diplomarbeit, Escuela
de Ingenieria Civil, Universidad Nacional de San Agustín, Arequipa.
da Silva et al. (2017): Artificial Neural Networks A Practical Course. Springer International Publishing.
Alomar, Miquel L.; Vincent Canals; Nicolas Perez-Mora; Víctor Martínez-Moll und Josep L. Rosselló (Jan. 2016):
FPGA-based Stochastic Echo State Networks for Time-series Forecasting. Intell. Neuroscience, 2016:15:15–
15:15.
ANA, Autoridad Nacional del Agua (2013): Plan de Gestión de Recursos Hídricos de Cuen-
ca (PGRHC). http://www.ana.gob.pe/portal/gestion-del-conocimiento-girh/planes-de-gestion-de-recursos-
hidricos-de-cuencas. [Online; accessed 06-julio-2017.].
ANA, Autoridad Nacional del Agua (2017): Síntesis Del Informe Final Del Proyecto Monito-
reo Integrado De Las Metas Del Ods 6 Relacionadas Con Agua Y Saneamiento (GEMI).
http://www.ana.gob.pe/sites/default/files/publication/files/gemi-digital-21-abr. [Online; accessed 06-Mayo-
2017.].
Autodema (2002): Diagnóstico de Gestión de la Oferta de Agua de la Cuenca Quilca-Chili,Arequipa Peru.
Awchi, Taymoor A und D K Srivastava (2004): Artificial Neural Network Model Application in Stochastic
Generation of Monthly Streamflows for Mula Project.
Barron, A. R. (May 1993): Universal approximation bounds for superpositions of a sigmoidal function. IEEE
Transactions on Information Theory, 39(3):930–945.
Barros, Mônica (2009): Processos estocásticos. Papel Virtual Editora.

Basterrech, S.; E. Alba und V. Snášel (July 2014): An experimental analysis of the Echo State Network initia-
lization using the Particle Swarm Optimization. In: 2014 Sixth World Congress on Nature and Biologically
Inspired Computing (NaBIC 2014). S. 214–219.
Basterrech, S.; C. Fyfe und G. Rubino (Nov 2011): Self-Organizing Maps and Scale-Invariant Maps in Echo State
Networks. In: 2011 11th International Conference on Intelligent Systems Design and Applications. S. 94–99.
Basterrech, S.; G. Rubino und V. Snášel (Nov 2015): Sensitivity analysis of echo state networks for forecasting
pseudo-periodic time series. In: 2015 7th International Conference of Soft Computing and Pattern Recognition
(SoCPaR). S. 328–333.
BOX, G, G.; JENKINS (1970): Time series analysis: Forecasting and control.
79
Brezak, D.; T. Bacek; D. Majetic; J. Kasac und B. Novakovic (March 2012): A comparison of feed-forward and
recurrent neural networks in time series forecasting. In: 2012 IEEE Conference on Computational Intelligence
for Financial Engineering Economics (CIFEr). S. 1–6.
Cadavid, Julian Moreno und José Enrique Salazar (2008): Generación de series sinteticas de caudales usando un
Modelo Matalas con medias condicionadas. Avances en Recursos Hidráulicos, (17).
Campos, L. C. D.; M. M. B. R. Vellasco und J. G. L. Lazo (July 2011): A stochastic model based on neural
networks. In: The 2011 International Joint Conference on Neural Networks. S. 1482–1488.
Candes, E. J. und M. B. Wakin (March 2008): An Introduction To Compressive Sampling. IEEE Signal Proces-
sing Magazine, 25(2):21–30.
Carlos Quispe, Jorge Tam (2011): Peruvian Oscillation Index forecast using an autoregressive nonlinear neural
network model. http://www.senamhi.gob.pe/rpga/pdf/2010_vol02/art6.pdf. [Online; accessed 02-Diciembre-
2017].
Casella, G. und R.L. Berger (2002): Statistical Inference. Duxbury advanced series in statistics and decision
sciences. Thomson Learning.
Chang, F.-John; Li-Chiu Chang und Hau-Lung Huang (2002): Real-time recurrent learning neural network for
stream-flow forecasting. Hydrological Processes, 16(13):2577–2588.
Chavez, Jorge Eduardo Herrera (7 2002): Análisis y Optimización del Sistema Regulado del Rio Chili, Aplicando
el Programa HEC-5 de Simulación de Embalses. Diplomarbeit, Escuela de Ingenieria Civil, Universidad
Nacional de San Agustín, Arequipa.
Chiang, Yen-Ming; Li-Chiu Chang und Fi-John Chang (2004): Comparison of static feedforward and dynamic
feedback neural networks for rainfall-runoff modeling. Journal of Hydrology, 290(3-4):297–311.
Chu, Haibo; Jiahua Wei; Jiaye Li; Zhen Qiao und Jiongwei Cao (2017): Improved Medium-and Long-Term Runoff
Forecasting Using a Multimodel Approach in the Yellow River Headwaters Region Based on Large-Scale and
Local-Scale Climate Information. Water, 9(8):608.
Concytec-UNSA, SIGIRH (2012): Informe Técnico 1er año "Sistema Inteligente de Gestión Integrada del Recurso
Hídrico para las Cuencas del Pacífico. Caso: Cuenca del Río Chili-Arequipa".
Conover, William Jay und William Jay Conover (1980): Practical nonparametric statistics.
Coulibaly, Paulin (2010): Reservoir Computing approach to Great Lakes water level forecasting. Journal of
Hydrology, 381(1-2):76–88.
Cunge, Jean A. (2003): Of data and models. Journal of Hydroinformatics, 5(2):75–98.
Datar, Mayur; Nicole Immorlica; Piotr Indyk und Vahab S. Mirrokni (2004): Locality-sensitive Hashing Scheme
Based on P-stable Distributions. In: Proceedings of the Twentieth Annual Symposium on Computational
Geometry. ACM, New York, NY, USA, SCG ’04, S. 253–262.
De Almeida, Antonia (12 2008): Modifiçãoes e alternativas aos testes de Levene e de Brown e Forsythe para
igualdade de variâncias e médias. Revista Colombiana de Estadística, 31:241 – 260.
Douglas C. Montgomery, Murat Kulahci, Cheryl L. Jennings (2008): Introduction to Time Series Analysis and
Forecasting, Bd. 1 von 1. Wiley, 1. Aufl. 472-pages.
Doya, Kenji (1992): Bifurcations in the learning of recurrent neural networks 3. learning (RTRL), 3:17.
Duan, Q.; J. Schaake; V. Andréassian; S. Franks; G. Goteti; H.V. Gupta; Y.M. Gusev; F. Habets; A. Hall;
L. Hay; T. Hogue; M. Huang; G. Leavesley; X. Liang; O.N. Nasonova; J. Noilhan; L. Oudin; S. Sorooshian;
T. Wagener und E.F. Wood (2006): Model Parameter Estimation Experiment (MOPEX): An overview of
science strategy and major results from the second and third workshops. Journal of Hydrology, 320(102):3 –
17. The model parameter estimation experimentMOPEXMOPEX workshop.
80
Elman, Jeffrey L. (1990): Finding structure in time. COGNITIVE SCIENCE, 14(2):179–211.
Gainza, Derly Rommel Rosas (7 2006): Estudio Hidrológico y Operación de la infraestructura Hidraúlica existente
de la Subcuenca Oriental del Rio Chili-Arequipa. Diplomarbeit, Escuela de Ingenieria Civil, Universidad
Nacional de San Agustín, Arequipa.
Gooijer, Jan G. De und Rob J. Hyndman (2006): 25 years of time series forecasting. International Journal of
Forecasting, 22(3):443 – 473. Twenty five years of forecasting.
Hallac, David; Sagar Vare; Stephen Boyd und Jure Leskovec (2017): Toeplitz Inverse Covariance-Based Clustering
of Multivariate Time Series Data. arXiv preprint arXiv:1706.03161.
Hammer, B. und Jochen J. Steil (2002): Tutorial: Perspectives on Learning with RNNs. In: in: Proc. ESANN,
2002. S. 357–368.
Hammer, Barbara; B. Schrauwen und Jochen J. Steil (2009): Recent advances in efficient learning of recurrent
networks. In: European Symposium on Artificial Neural Networks, Hg. M. Verleysen. d-facto, S. 213–226.
Herrera Quispe, José Alfredo (2013): Modelo estocástico a partir de razonamiento basado en casos para la
generación de series temporales.
Hochreiter, Sepp und Jürgen Schmidhuber (Nov. 1997): Long Short-Term Memory. Neural Comput., 9(8):1735–
1780.
Hyndman, R. J. und G. Athanasopoulos (2013): Forecasting: principles and practice. OTexts. [Online; accessed
02-Ago-2017].
Jaeger, Herbert (2001): The ‘‘echo state’’ approach to analysing and training recurrent neural networks-with an
erratum note. Bonn, Germany: German National Research Center for Information Technology GMD Technical
Report, 148(34):13.
Jaeger, Herbert und Harald Haas (2004): Harnessing Nonlinearity: Predicting Chaotic Systems and Saving
Energy in Wireless Communication. Science, 304(5667):78–80.
Jain, Ashu und Sanaga Srinivasulu (2004): Development of effective and efficient rainfall-runoff models using
integration of deterministic, real-coded genetic algorithms and artificial neural network techniques. Water
Resources Research, 40(4):n/a–n/a. W04302.
Jang, J. S. R. (May 1993a): ANFIS: adaptive-network-based fuzzy inference system. IEEE Transactions on
Systems, Man, and Cybernetics, 23(3):665–685.
Jang, J. S. R. (May 1993b): ANFIS: adaptive-network-based fuzzy inference system. IEEE Transactions on
Systems, Man, and Cybernetics, 23(3):665–685.
Jarrett, K.; K. Kavukcuoglu; M. Ranzato und Y. LeCun (Sept 2009): What is the best multi-stage architecture
for object recognition? In: 2009 IEEE 12th International Conference on Computer Vision. S. 2146–2153.
Kitchenham, Barbara (2004): Procedure for undertaking systematic reviews. Computer Science Depart-ment,
Keele University (TRISE-0401) and National ICT Australia Ltd (0400011T. 1), Joint Technical Report.
Klampfl, Stefan und Wolfgang Maass (Dez. 2010): A Theoretical Basis for Emergent Pattern Discrimination in
Neural Systems Through Slow Feature Extraction. Neural Comput., 22(12):2979–3035.
Koryakin, Danil; Johannes Lohmann und Martin V Butz (2012): Balanced echo state networks. Neural networks
: the official journal of the International Neural Network Society, 36:35–45.
Kuna, Karol (2015): Time Series Prediction using Neural Networks. S. 47.
Lai, Guokun; Wei-Cheng Chang; Yiming Yang und Hanxiao Liu (2017): Modeling Long-and Short-Term Tem-
poral Patterns with Deep Neural Networks. arXiv preprint arXiv:1703.07015.
81
Legenstein, Robert; Dejan Pecevski und Wolfgang Maass (2008): A Learning Theory for Reward-Modulated
Spike-Timing-Dependent Plasticity with Application to Biofeedback. PLOS Computational Biology, 4(10):1–
27.
Li, Gang; Bao-Jian Li; Xu-Guang Yu und Chun-Tian Cheng (2015): Echo State Network with Bayesian Regu-
larization for Forecasting Short-Term Power Production of Small Hydropower Plants. Energies, 8(10):12228.
Loucks, Daniel P; Eelco Van Beek; Jery R Stedinger; Jozef PM Dijkman und Monique T Villars (2005): Water
resources systems planning and management: an introduction to methods, models and applications. Paris:
Unesco.
Lukoševičius, Mantas und Herbert Jaeger (August 2009): Reservoir computing approaches to recurrent neural
network training. Computer Science Review, 3(3):127–149.
Luna, Ivette; Rosangela Ballini und Secundino Soares (09 2006): Tecnicas identificacao de modelos lineares e
no-lineares de series temporais. Sba: Controle e Automacao Sociedade Brasileira de Automatica, 17:245 – 256.
Maass, Wolfgang; Thomas Natschläger und Henry Markram (Nov. 2002): Real-time Computing Without Stable
States: A New Framework for Neural Computation Based on Perturbations. Neural Comput., 14(11):2531–
2560.
Maceira, D. D. J. . D. J.M., M. E. P. ; Penna (2005.): Geracao de cenarios sinteticos de energia e vazao para o
planejamento da operacao energética. In: XVI Simposio Brasileiro de Recursos Hidricos,.
MACEIRA, M. E. P. (Rio de Janeiro, RJ, 1989.): Operacao Otima de reservatorios com previsao de afluencias.
S. 459–493.
Matyas, J (1965): Random optimization. Automation and Remote control, 26(2):246–253.
Millea, Adrian (2014): Explorations in Echo State Networks. Dissertation, University of Groningen.
Montgomery, Dc und Gc Runger (1971): Estatística Aplicada e Probabilidade para Engenheiros–463 páginas.
Moriasi, Daniel N; Jeffrey G Arnold; Michael W Van Liew; Ronald L Bingner; R Daren Harmel und Tamie L
Veith (2007): Model evaluation guidelines for systematic quantification of accuracy in watershed simulations.
Transactions of the ASABE, 50(3):885–900.
Muller, Daniel (1 2007): Processos Estocásticos e Aplicações, Bd. 4 von 2. Almedina, 2. Aufl. Coleção Económicas
- 2 Série.
Oviedo Tejada, J. M (2004): Propuesta de asignaciones de agua en bloque (volumenes anuales y mensuales) para
la formalizacion de los derechos de uso de agua en los valles chili regulado y chili no regulado del programa de
formalizacion de derechos de uso de agua - profodua (Inf. Tec.). Ministerio de Agricultura Instituto Nacional
de Recursos Naturales - Intendencia de Recursos Hídricos - Administracion Técnica del Distrito de Riego
Chili.
Peng, Cheng-shuang und Nathan Buras (2000): Dynamic operation of a surface water resources system. Water
Resources Research, 36(9):2701–2709.
Purca Cuicapusa, Sara (2005): Variabilidad temporal de baja frecuencia en el Ecosistema de la Corriente Hum-
boldt frente a Perú.
R. Sacchi, A. A. F. M. Carneiro und A. F. R. Araujo (Aug 2004): A RBF network trained by the SONARX
model and applied to obtain the operation policies of the hydropower systems. In: Brazilian Symposium on
Neural Networks - SBRN. S. 2403–2408.
Raman, H. und N. Sunilkumar (1995): Multivariate modelling of water resources time series using artificial
neural networks. Hydrolog. Sci. J, S. 145–163.
82
Rumelhart, David E.; James L. McClelland und CORPORATE PDP Research Group, Hg. (1986): Parallel
Distributed Processing: Explorations in the Microstructure of Cognition, Vol. 1: Foundations. MIT Press,
Cambridge, MA, USA.
Sacchi, R.; M. C. Ozturk; J. C. Principe; A. A. F. M. Carneiro und I. N. da Silva (Aug 2007): Water Inflow
Forecasting using the Echo State Network: a Brazilian Case Study. In: 2007 International Joint Conference
on Neural Networks. S. 2403–2408.
Saxe, Andrew; Pang W. Koh; Zhenghao Chen; Maneesh Bhand; Bipin Suresh und Andrew Y. Ng (2011): On
Random Weights and Unsupervised Feature Learning. In: Proceedings of the 28th International Conference on
Machine Learning (ICML-11), Hg. Lise Getoor und Tobias Scheffer. ACM, New York, NY, USA, S. 1089–1096.
Singh, Krishan P. (1968): Streamflow Synthesis by Myron B. Fiering; 139 pages; Harvard University Press,
Cambridge, Massachusetts; 1967. JAWRA Journal of the American Water Resources Association, 4(2):70–70.
Song, Qingsong und Zuren Feng (Juni 2010): Effects of Connectivity Structure of Complex Echo State Network
on Its Prediction Performance for Nonlinear Time Series. Neurocomput., 73(10-12):2177–2185.
Sum, John; Lai-wan Chan; Chi-sing Leung und Gilbert H. Young (Aug. 1998): Extended Kalman Filter-based
Pruning Method for Recurrent Neural Networks. Neural Comput., 10(6):1481–1505.
Sun, Y.; D. Wendi; D. E. Kim und S.-Y. Liong (2016): Technical note: Application of artificial neural networks
in groundwater table forecasting a case study in a Singapore swamp forest. Hydrology and Earth System
Sciences, 20(4):1405–1412.
Sutskever, Ilya (2013a): Training Recurrent neural Networks. PhD thesis, S. 101.
Sutskever, Ilya (2013b): Training Recurrent Neural Networks. Dissertation, Toronto.
THOMAS, M. B., H. A.; FIERINIG (1962): Mathematical synthesis of streamflow sequences for the analysis of
river basins by simulation. S. 459–493.
Vafaeipour, Majid; Omid Rahbari; Marc A. Rosen; Farivar Fazelpour und Pooyandeh Ansarirad (2014): Appli-
cation of sliding window technique for prediction of wind velocity time series. International Journal of Energy
and Environmental Engineering, 5(2):105.
Vasighi, M. (2016): Artificial Neural Networks, Part 1: Biological Inspiration. Neural Comput., 1(1).
Verstraeten, D; B Schrauwen; M D’Haene und D Stroobandt (2007): An experimental unification of reservoir
computing methods. Neural Networks, 20(3):391–403.
de Vos, N. J. (2013): Echo state networks as an alternative to traditional artificial neural networks in rainfall
runoff modelling. Hydrology and Earth System Sciences, 17(1):253–267.
de Vos, N. J. und T. H. M. Rientjes (2005): Constraints of artificial neural networks for rainfall-runoff modelling:
trade-offs in hydrological state representation and model evaluation. Hydrology and Earth System Sciences,
9(1/2):111–126.
de Vos, N. J. und T. H. M. Rientjes (2008): Multiobjective training of artificial neural networks for rainfall-runoff
modeling. Water Resources Research, 44(8):n/a–n/a. W08434.
Waibel, Alexander; Toshiyuki Hanazawa; Geofrey Hinton; Kiyohiro Shikano und Kevin J. Lang (1990): Readings
in Speech Recognition. Morgan Kaufmann Publishers Inc., San Francisco, CA, USA, Kap. Phoneme Recog-
nition Using Time-delay Neural Networks, S. 393–404.
Williams, Ronald J. und Jing Peng (1990): An Efficient Gradient-Based Algorithm for On-Line Training of
Recurrent Network Trajectories. Neural Computation, 2:490–501.
Williams, Ronald J. und David Zipser (Juni 1989): A Learning Algorithm for Continually Running Fully Recu-
rrent Neural Networks. Neural Comput., 1(2):270–280.
Xu, Chong-yu (2002): Hydrologic models. Uppsala University, Department of Earth Sciences and Hydrology.
83

ISlumaef

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

ISlumaef

Cargado por

Copyright:

Formatos disponibles

Universidad Nacional De San Agustín de Arequipa Facultad De Ingeniería De Producción Y

MODELO ESTOCÁSTICO BASADO EN REDES NEURONALES

presentada por el Bachiller: Edson Francisco Luque Mamani

ANFIS Adaptive Neuro-fuzzy Inference System

GST Generador de Escenarios de series Temporales

MAE Error Medio Absoluto

MEESN Modelo Estocástico ESN

RNAR Redes Neuronales Artificiales Recurrentes

3. Estado del Arte 28

6. Conclusión y trabajos futuros 76

1.1. Definición del problema

1.4. Objetivos Específicos

1.4.2. Organización de Capítulos

2.1. Procesos estocásticos

2.1.1. Serie Temporal

Este proceso es conocido como camino aleatorio (vea Figura 2.1).

µ (t) = E [Z (t)] (2.2)

2.1.2. Proceso Estrictamente Estacionario

µ (t) = E [Z (t)] = E [Z (t + k)] (2.5)

2.1.3. Proceso Débilmente Estacionario

2.2. Ruido Blanco

2.3. Modelos Estadísticos

2.3.1. Modelos Auto-Regresivos(AR)

2.3.2. Modelo de Medias Móviles(MA)

Z (t) = εt + θ1 · εt−1 + θ2 · εt−2 + . . . + θq · εt−q (2.12)

Z (t) = θ0 · X (t) + θ1 · X (t − 1) + θ2 · X (t − 2) + . . . + θq · X (t − q) (2.13)

2.3.3. Modelo Autorregresivo de Media Móvil ARMA(p,q)

2.3.4. Modelo Autorregresivo Integrado de Media Móvil(ARIMA)

2.3.5. Modelo SARIMA(ARIMA estacional)

Verdadero Correcto Error Tipo I, Falso Positivo

2.4. Test de Hipótesis

Ha : Hipótesis Alternativa - es la hipótesis que rechaza H0 .

α = p (rechazar H0 | H0 es verdadero) − probabilidad de error tipo I

β = p (no rechazar H0 | H0 es f also) − probabilidad de error tipo II

2.4.1. Pruebas de bondad de Ajuste(adherencia)

2.4.1.2. Test de Levene

MSE Error Medio Cuadrático

MAE Error Medio Absoluto = media (|et |)

MAPE Error Porcentual Absoluto Medio = media (|pt |)

2.4.2. Estimadores de Primer Orden

2.5. Modelos De Aprendizaje De Maquina

Figura 2.3: Modelo simplificado de una neurona biológica

Figura 2.4: Esquema básico de una Neurona Artificial

2. La topología de la red neural(interconexión entre neuronas)

Redes Neuronales No Recurrentes(sin memoria o Feedforward ):

Redes Neuronales Recurrentes:

2.5.2. Redes Neuronales Recurrentes

2.5.3. Entrenamiento de una Red Neuronal Recurrente

Neur onas de Capa oculta Neur onas de Capa oculta

Uni dades deContexto Uni dades deContexto

Ent r adas Ent r adas

2.6. Reservoir Computing y Redes Echo State

2.6.1. Reservoir Computing(RC)

2.6.2. Liquid State Machines(LSM)

2.6.3. Redes Echo State(RNAR-esn)

2.6.4. Dinámica una Red ESN

2.6.4.1. Entrenamiento De Una Red ESN

x(t + 1) = f (W ·x(t) + W f b ·y(t)) (2.26)

x(t + 1) = f (W in ·u(t) + W ·x(t) + W f b ·y(t)) (2.27)

y (n) = Wout [1; u (n) ; x (n)] (2.28)

Wout = pinv(M ) ∗ T (2.29)

yb(t) = f out x (t) ∗ W out (2.32)

x (t + 1) = f W · x (t) + W f b · yb (t) (2.33)

Donde, σy2 es la varianza de la salida deseada y, m es la secuencia de validación, y, es la salida esperada, yb