Está en la página 1de 44

Captulo 4

4 Mtodo propuesto basado en el Perceptrn Multicapa En este captulo se presenta el nuevo enfoque que se propone en esta tesis para la generacin de series sintticas de radiacin solar. Est basado en la red neuronal artificial (RNA) perceptrn multicapa (PMC), por lo que inicialmente se realizar una breve descripcin de este tipo de red neuronal artificial. En una primera seccin se resumen las principales caractersticas del PMC, sin particularizarlas para la aplicacin que se propone en esta tesis. Posteriormente, en la siguiente seccin se hace hincapi en la estructura especfica utilizada para generar las series de radiacin. Como en prcticamente todos los trabajos de investigacin, inicialmente se realiz un determinado prototipo que poco a poco fue evolucionando hasta alcanzar la forma final ms elaborada. En este sentido es interesante resumir muy brevemente cmo fue el proceso de gestacin de todo este trabajo. Inicialmente se parti de una serie de datos de la localidad de Madrid y sobre estos datos se cre la primera estructura neuronal artificial que gener valores sintticos horarios de radiacin. En la seccin 4.2 se describe la preparacin de dicha estructura y todo lo relacionado a las primeras pruebas y resultados. La primera conclusin destacable fue que el perceptrn creado era capaz de proporcionar resultados vlidos para la componente de tendencia de las series de radiacin solar horaria en Madrid. El siguiente paso fue tratar de aplicar dicho perceptrn a otras zonas con climas diferentes dentro de Espaa y tratar de comprobar si el perceptrn era capaz de universalizar los resultados. Para ello se aadieron nuevos datos a los ya existentes para Madrid, utilizando en este segundo estadio, adems, las localidades de Oviedo y Mlaga. Como se detallar en la seccin 4.3, el PMC presenta una serie de capacidades de universalizacin que lo hacen especialmente interesante y ventajoso frente a los mtodos clsicos. Puesto que ya se tena demostrado que el PMC se poda utilizar en cualquier localidad, el siguiente paso fue preparar una red neuronal nica para gran cantidad de localidades espaolas. En este punto surgi el problema de que la masa de datos con los que trabajar era demasiado grande, lo que resultaba bastante complejo de manejar. Una nueva idea surgi y fue la utilizacin del ao meteorolgico tpico (AMT), que ser descrito con detalle ms adelante, con el fin de concentrar los datos a manejar. De

49

Mtodo propuesto basado en el Perceptrn MultiCapa

nuevo el PMC proporcion una mejora en el entrenamiento y unos resultados totalmente satisfactorios que sern detallados en la seccin 4.4. Sin embargo, a pesar de los excelentes resultados hasta aqu obtenidos haba un pequeo inconveniente y era el hecho de que nicamente se obtena la componente de tendencia de las series. A continuacin se realiz un estudio exhaustivo de la componente aleatoria, el cual condujo a la incorporacin de nuevas redes neuronales para el cmputo de esta componente, que tambin fueron diseadas por medio del PMC, con resultados acordes a los de los mtodos clsicos. Este proceso ser expuesto en la seccin 4.5. Por ltimo, quedaba pendiente la generacin de series solares a escala diaria, problema que fue resuelto y se describe en la seccin 4.6.

4.1.- El Perceptrn multicapa De entre los diferentes modelos de RNA que existen, en esta tesis se ha utilizado el llamado perceptrn multicapa (PMC), por lo que en el presente captulo se describe dicha red neuronal artificial.

4.1.1.- El combinador lineal adaptativo El combinador lineal adaptativo o neurona artificial consiste en un elemento cuya salida es una combinacin lineal de sus entradas (figura 4.1). En cada instante k, la salida lineal se calcula como suma ponderada de las entradas x k = [ x0, x 1k, x2k, ..., xnk ] T , es decir, la salida es igual al producto escalar sk = x kT wk.. El conjunto de coeficientes wk = [wok, w1k , w2k , ..., wnk ]T se denomina vector de pesos. Las componentes del vector de entrada, pueden ser valores analgicos continuos o valores binarios. Los pesos son variables reales que pueden tomar valores tanto positivos como negativos. Durante el proceso de entrenamiento (aprendizaje), se presentan al combinador lineal los patrones de entrada, x k, y las respuestas deseadas correspondientes, dk. El algoritmo de aprendizaje ajusta los pesos de forma que las salidas se aproximen tanto como sea posible a los valores deseados. Un mtodo muy empleado para adaptar los pesos es el algoritmo de mnimos cuadrados (-LMS, Least Mean Square) tambin denominado regla delta de Widrow-Hoff.

50

Captulo 4

1 X1k

Wo W 1k sk dk Respuesta Esperada Salida

Patrn de Entrada Xk

W 2k X2k W nk Xnk Wk Vector de Pesos

Figura 4.1. Combinador Lineal Adaptativo

Este algoritmo minimiza la suma de los cuadrados de los errores lineales del conjunto de entrenamiento. El error lineal k se define como la diferencia entre la respuesta deseada y la salida en el instante k, o sea k = dk - sk . Esta seal de error es necesaria para adaptar los pesos.

4.1.2.- El perceptrn El elemento constitutivo bsico utilizado en muchas redes neuronales, es el Perceptrn [1]. Consiste en un combinador lineal adaptativo seguido de un elemento no lineal (figura 4.2).En esa figura el error lineal es k y el error en la salida no lineal es *k , siendo sus expresiones: k = dk - sk , *k = dk - yk .

Existen tres tipos comunes de no linealidades: los cuantizadores (funcin signo), los elementos con umbrales de saturacin y las no linealidades de tipo sigmoidal (figura. 4.2). El peso wo , conectado a una entrada constante x o =1, controla el nivel de umbral del elemento no lineal. Separacin Lineal: Con n entradas binarias y una salida, un perceptrn como el de la figura 4.2 es capaz, tan solo, de realizar un subconjunto de todas las posibles funciones lgicas: las funciones linealmente separables. El perceptrn separa el espacio de patrones de entrada en dos categoras, dependiendo dicha separacin de los valores de los pesos. Para un perceptrn de dos entradas, la condicin umbral crtica se produce cuando la salida lineal s se iguala a cero: s = x1 w1 +x 2w2 +wo= 0. Por tanto: x 2 = w1 /w2 x1 wo / w2 . (4.1) (4.2)

51

Mtodo propuesto basado en el Perceptrn MultiCapa

1 X1k

Wo W 1k

Salida Lineal k

Elemento No Lineal

Salida No Lineal yk

Patrn de Entrada Xk

W 2k X2k W nk Xnk Wk Vector de Pesos

k dk

Respuesta Esperada

Tipos de no linealidades fq (s) +1 fu (s) fs (s)

-1

Cuantizador

Elemento Umbral

Sigmoide

Figura. 4.2 Perceptrn y no-linealidades

En la figura 4.3. se muestra esta relacin lineal para un perceptrn con un elemento no lineal de tipo signo. Los tres pesos determinan la pendiente, y la ordenada en el origen, y los semiplanos, a ambos lados de la lnea de separacin, corresponden a salidas positivas y negativas. Para un perceptrn con tres entradas, la frontera de separacin es un plano; con ms de tres entradas la frontera es un hiperplano. Si el peso de polarizacin es cero, el hiperplano es homogneo, es decir, pasar por el origen del espacio de patrones de entrada. Como se muestra en la figura 4.3, los patrones de entrada binarios se clasifican como sigue: (+1, +1) +1, (+1, -1) +1, (-1, -1) +1, y (-1, +1) -1. Esta funcin constituye un ejemplo de funcin linealmente separable. Un ejemplo de funcin que no es linealmente separable es la funcin orexclusiva ( or); no existe ninguna lnea recta que pueda lograr la separacin de los x patrones de entrada, de forma que un simple perceptrn no puede realizar la funcin XOR.

52

Captulo 4

x2 = - (w1 / w2 )x1 - wo / w2 x2 (-1,+1) (+1,+1) x1

(-1,-1)

(+1,-1)

Figura. 4.3 Lnea de separacin en el espacio de los patrones

Los pesos de las conexiones y el umbral (w0 ) del perceptrn pueden adaptarse utilizando diversos algoritmos. El algoritmo de convergencia del perceptrn, o regla del perceptrn, debido a Rosenblatt [2], utiliza el error de cuantizacin, definido como la diferencia entre la respuesta deseada y la salida del elemento no lineal, *k =dk - sk . Los pesos slo se adaptan cuando el error es distinto de cero. Si la salida es diferente de la deseada, se efecta la adaptacin de los pesos, de forma que wk+1 = wk + (dk yk ) x k . (4.3)

Rosenblatt demostr que si el espacio de patrones de entrada es linealmente separable en dos clases, la regla del perceptrn converge, y sita el hiperplano de decisin entre ambas clases. Entre las diversas variantes propuestas a la regla del perceptrn, la ms extendida introduce un segundo trmino en la ecuacin de actualizacin de los pesos, de forma que wk+1 = wk + *k (dk yk )x k +( wk - wk -1 ) Al trmino dado por ( wk - wk

(4.4)

-1

), se le denomina trmino de momento.

Intuitivamente, si el cambio de los pesos en la iteracin previa fue grande, al aadir una fraccin de esta cantidad al peso actual, se acelerar el proceso de descenso del algoritmo hacia el punto de convergencia. Tambin puede emplearse el algoritmo -LMS o regla delta para el entrenamiento del perceptrn, sustituyendo en las ecuaciones (4.3) (4.4) el error de cuantizacin *k por el error lineal k . No existe, sin embargo, una garanta de

53

Mtodo propuesto basado en el Perceptrn MultiCapa

convergencia para este algoritmo, si bien en el caso de clases no separables linealmente, suele conducir a soluciones con menor error. Por el contrario, el algoritmo del perceptrn contina indefinidamente si los patrones no son linealmente separables, y no produce, necesariamente, soluciones con errores pequeos, an en el caso de que existan.

4.1.3.- El perceptrn multicapa Minsky y Papert (1969) [3], realizaron un estudio detallado de los tipos de representaciones posibles con el perceptrn, y demostraron que, en un gran nmero de casos, estos tipos de redes son incapaces de resolver los problemas de clasificacin. Por otro lado, tambin demostraron que un perceptrn constituido por varias capas, puede realizar cualquier aplicacin desde las capas de entrada a las de salida. El inconveniente que se tena en estos primeros estadios del manejo del perceptrn, era el desconocimiento de un algoritmo de entrenamiento eficiente para redes con ms de una capa. El problema de la separacin lineal limita la capacidad de representacin del perceptrn, ya que, como se muestra en la tabla 4.1, la probabilidad de que una funcin lgica sea linealmente separable es muy pequea, incluso para un nmero moderado de variables. Por esta razn el perceptrn de una sola capa oculta est limitado, en la prctica, a problemas muy sencillos.

n N Funciones 1 4 2 16 3 256 4 65.536 5 4.310 6 1.810


9 19

Funciones linealmente separables 4 14 104 1.882 94.572 5.028.134

Tabla 4.1. Funciones linealmente separables.

El perceptrn multicapa es una red acclica de propagacin directa con una o ms capas de nodos entre las entradas y las salidas. Estas capas adicionales contienen

54

Captulo 4

nodos denominados ocultos, ya que no son visibles directamente ni desde las entradas, ni desde las salidas. La capacidad de computacin del perceptrn multicapa procede de las funciones de activacin no lineales empleadas en los nodos. La salida de una capa lineal consiste en el producto del vector de entrada por el vector de pesos entrantes en esa capa, es decir, y1 =W1 x1 . Si a continuacin se conecta en cascada otra capa tambin lineal, cuyas entradas sean las salidas de la capa anterior, la salida de esta segunda capa ser y2 =W2 y1 = W2 W1 x1 = W x1. Por tanto, una red de dos (o ms) capas lineales, equivale a otra de una sola capa, cuya matriz de pesos sea igual al producto de las dos (o ms) matrices de pesos de partida. Como se ha visto en el apartado anterior, las redes de una sola capa estn muy limitadas en su capacidad de computacin; por tanto, las funciones de activacin no lineales son imprescindibles para extender la capacidad de las redes. Las posibilidades del perceptrn multicapa pueden considerarse desde tres perspectivas diferentes. La primera est relacionada con su capacidad para realizar expresiones booleanas, la segunda, con su capacidad para dividir el espacio de patrones en los problemas de clasificacin, y la tercera con su capacidad para realizar transformaciones no lineales en problemas de aproximaciones funcionales. Un perceptrn puede considerase como una unidad bsica de lgica binaria que es capaz de realizar todas las funciones booleanas excepto las funciones xor y xnor. Conectando en cascada varios perceptrones de forma adecuada, pueden llevarse a cabo expresiones booleanas arbitrarias. En el campo de las redes neuronales el inters se centra no tanto en realizar expresiones booleanas conocidas como en aprender dichas expresiones partiendo de ejemplos de entradas/salidas. Dado que son suficientes dos niveles de puertas lgicas para expresar funciones booleanas arbitrarias, no son necesarias ms que dos capas de perceptrones para, potencialmente, poder aprender dichas funciones. Tambin ha sido demostrado que un perceptrn de dos capas con funciones de activacin de tipo sigmoidal, es suficiente para realizar un mapa no lineal continuo arbitrario. A pesar de estos resultados, para algunos problemas, una red de tres capas puede requerir una cantidad mucho menor de nodos y pesos que una red con slo una capa oculta.

55

Mtodo propuesto basado en el Perceptrn MultiCapa

4.1.3.1.- El algoritmo de aprendizaje. Retropropagacin Una de las principales limitaciones de la formulacin original de Rosenblatt, fue la falta de un algoritmo de aprendizaje adecuado para el perceptrn multicapa. La publicacin de la tcnica de Retropropagacin (Backpropagation) por Werbos [4], perfeccionada posteriormente por Rumerhalt [5], supuso un hito clave en el resurgimiento de las redes neuronales, sumidas en una fase de letargo casi total desde la publicacin del trabajo de Minsky y Papert. La dificultad principal para la deduccin del algoritmo de aprendizaje del PMC estriba en que el gradiente del error es cero prcticamente en todo el espacio, cuando se utiliza como funcin de activacin no lineal el cuantizador. Dado que la investigacin inicial en el campo de las redes neuronales trataba casi exclusivamente con este tipo de no linealidad, la idea de reemplazarla no surgi durante casi dos dcadas. La no linealidad debe, no obstante, estar presente, pues como se ha visto, sin ella el PMC no realizara ms que una transformacin lineal en cada capa, en cuyo caso podra reducirse a una red equivalente de una sola capa. La solucin consiste en utilizar una funcin de activacin diferenciable, con la que es posible realizar una bsqueda de descenso del gradiente en el espacio de los pesos. Las funciones de activacin ms utilizadas son las denominadas semilineales. Una funcin de activacin semilineal es una funcin no decreciente y diferenciable aplicada sobre la salida lineal del nodo, es decir ypj = f(spj) en donde spj = wji ypi red, entonces ypi = xpi). Las funciones de activacin semilineales empleadas con mayor frecuencia son las funciones sigmoidal y tangente hiperblica: sgm (x) = 1 / (1 + e-x) , tanh (x) = (1 - e-2x ) / (1 + e-2x). (4.7a) (4.7b) (4.6) (4.5)

es la salida lineal del nodo j, para el patrn de entrada p (si el nodo i es una entrada de la

Ambas funciones tienen la misma forma, pero difieren en sus valores de saturacin de salida, y en la pendiente y amplitud del intervalo en el cual toman valores quasi-lineales.

56

Captulo 4

El algoritmo de retropropagacin es una generalizacin de la regla delta, que ajusta los pesos en la direccin opuesta al gradiente del error de cada patrn de entrenamiento. El cambio en los pesos, para cada presentacin de un patrn de entrada viene dado por la expresin p wji - Ep / wji, (4.8)

en donde E es la funcin de error, igual a la suma de los cuadrados de las diferencias entre los valores deseados y los valores de las neuronas de la capa de salida, para un patrn p: Ep = 1 / 2 (dpj ypj)2 . (4.9)

En el clculo de la derivada, se aplica la regla de la cadena para expresarla como producto de dos trminos: uno que refleja el cambio en el error, en funcin de las variaciones en la salida lineal de los nodos, y otro que representa el efecto de las variaciones de los pesos sobre dicha salida lineal. Por tanto, se puede escribir: Ep / wji = ( Ep / spj )( spj / wji ). De la ecuacin (4.5) se obtiene que el segundo factor vale spj / wji = (wjk ypk ) / wji = ypk . Definiendo pj = - Ep / spj. Se puede escribir la ecuacin (4.11) como - Ep / wji = pj ypi. pesos de acuerdo con p wji = pj ypi. (4.14) Tan solo falta por calcular el valor de pj para cada unidad de la red. El resultado de Rumelhart et al., consiste en la obtencin de una regla recurrente para el clculo de este factor, que puede realizarse propagando las seales de error, desde la salida hacia la entrada, a travs de la red. Para el clculo de (4.12), se aplica nuevamente la regla de la cadena, escribiendo la derivada parcial como producto de dos factores. El primero expresa las variaciones en el error en funcin de las variaciones en la salida del nodo. El segundo, el cambio en la salida no lineal, en funcin de los incrementos o decrementos de valor de la salida lineal de dicho nodo. Por tanto se tendr. pj = - Ep / spj = -( Ep / ypj )( ypj / spj ). (4.15)
57

(4.10)

(4.11)

(4.12)

(4.13)

Lo que indica que para realizar un descenso del gradiente en E, se deben actualizar los

Mtodo propuesto basado en el Perceptrn MultiCapa

El segundo factor, por la ecuacin (4.6), vale ypj / spj = f(spj). (4.16)

que es simplemente la derivada de la funcin semilineal para la unidad j, evaluada en el valor de salida lineal spj de dicha unidad. Para calcular el primer factor, se consideran dos casos. En primer lugar, supongamos que la unidad j es un nodo de salida de la red. En este caso, de la definicin de Ep se tiene que Ep / ypj = -(dpj ypj), y sustituyendo en la ecuacin (4.15) se obtiene pj = f(spj) (dpj ypj), cadena se tiene ( Ep / spk ) ( spk / ypj ) = - pk wkj. En este caso, sustituyendo nuevamente en la ecuacin (4.15) se obtiene pj = f(spj) pk wkj, (4.20) (4.19) (4.18) (4.17)

para cualquier neurona j de salida. Si el nodo j no es de salida, utilizando la regla de la

cuando j no es una unidad de salida. Las ecuaciones (4.18) y (4.20) dan un procedimiento recurrente para el clculo de pj para cada una de las neuronas (j) de la red, con cada patrn de entrenamiento p. Estos trminos se utilizan a su vez para el clculo de los nuevos pesos, de acuerdo con la ecuacin (4.14). Considerando el hecho de que E / wji = ( Ep / wji) (4.21)

se concluye que el cambio neto en wji despus de un ciclo completo de presentacin de los patrones, denominado poca, es proporcional a esta derivada y por tanto el mtodo de retropropagacin realiza un descenso del gradiente en E. De hecho, esto es estrictamente cierto solamente si los valores de los pesos no se cambian durante este ciclo. Si se actualizan los pesos despus de la presentacin de cada patrn, nos apartamos en cierta medida del descenso por el gradiente en E. No obstante, supuesto que la tasa de aprendizaje (es decir la constante de proporcionalidad ) sea suficientemente pequea, la desviacin es despreciable. Este esquema de actualizacin de los pesos se conoce como modo secuencial, mientras que el esquema clsico del descenso del gradiente se denomina modo batch. La aplicacin del mtodo de retropropagacin supone dos fases. Durante la primera fase, se presenta en las entradas de la red un patrn y se propaga hacia adelante
58

Captulo 4

a travs de la red, computando la salida de cada unidad ypj . Esta salida se compara con los valores deseados, resultando una seal de error para cada unidad de salida. La segunda fase supone una propagacin hacia atrs a travs de la red (anloga a la propagacin directa inicial), durante la que se propaga la seal de error y se modifican los pesos. La propagacin inversa tiene la misma complejidad computacional que la directa. En esencia, el mtodo de retropropagacin (en modo batch) consiste por tanto en una regla eficiente para el clculo del gradiente de la funcin de error.

4.1.3.2.- Capacidades y limitaciones del perceptrn multicapa El PMC es capaz de realizar mapas no lineales arbitrarios; adems, dado un conjunto de ejemplos, el algoritmo de retropropagacin es capaz de aprender a representar dichos mapas en los puntos de ejemplo. Existen sin embargo otros aspectos de tipo prctico que deben considerarse. Uno de dichos aspectos es la complejidad del aprendizaje, esto es, la posibilidad de aprender el mapa deseado en una cantidad razonable de tiempo. Se debe considerar tambin la capacidad de la red para generalizar, es decir, la habilidad para producir respuestas correctas para patrones fuera del conjunto de entrenamiento. En los siguientes prrafos se consideran estas y otras cuestiones. En primer lugar, los resultados tericos indican que el PMC es capaz de representar mapas no lineales arbitrarios, pero esto slo es cierto si el tamao de la red puede crecer arbitrariamente. Normalmente, no se conoce cul es el tamao adecuado de la red para un problema determinado, si bien no suelen ser necesarias ms de tres capas (dos capas ocultas). Seleccionar el nmero de nodos en cada capa no es tampoco una tarea trivial, y requiere un conocimiento especfico del problema, a pesar de que se han establecido ciertas reglas para clases de problemas especficos. Otra cuestin fundamental es la eleccin de los parmetros para el algoritmo de aprendizaje. Como se ha visto en el apartado anterior, uno de los parmetros clave es el paso de aprendizaje, cuyo valor ptimo depende del problema en consideracin. No obstante, las mayores tasas de convergencia suelen lograrse para valores grandes tanto de (siempre que el aumento en dicho valor no produzca inestabilidades) como el momento . La eleccin de los pesos iniciales es tambin importante, ya que la funcin de error para el PMC puede tener varios mnimos locales, y el punto final de

59

Mtodo propuesto basado en el Perceptrn MultiCapa

convergencia depende de las condiciones iniciales. Tpicamente, dicho problema se resuelve aplicando el algoritmo de retropropagacin varias veces con diferentes pesos iniciales hasta que se encuentra una solucin adecuada. En caso de que sea posible determinar el tamao ptimo de la red y los parmetros de aprendizaje, el encontrar los pesos de la red que minimizan el error, sigue siendo un problema inherentemente difcil. El problema de encontrar el conjunto de pesos que representa el mapa buscado de forma correcta para un conjunto de entrenamiento, es un problema NP- completo [6]. Esto implica que si el problema es muy grande no es probable que sea resuelto en un tiempo razonable. Por otro lado, a medida que se entrena la red, los pesos pueden tomar valores muy grandes, lo que puede provocar que la mayora de las neuronas operen en sus regiones de saturacin, donde las derivadas de la funcin de activacin son muy pequeas. Dado que el error retropropagado para el aprendizaje es proporcional a esta derivada, el proceso de entrenamiento puede detenerse virtualmente. Este fenmeno se conoce con el nombre de parlisis de la red. Una ltima consideracin respecto al PMC es que normalmente son necesarios una gran cantidad de patrones de entrenamiento para que la solucin aprendida generalice bien nuevos datos. Parece que el nmero de patrones de entrenamiento necesarios para una buena generalizacin es linealmente proporcional al nmero de pesos (aproximadamente unas diez veces mayor). Dependiendo de las dimensiones del problema y el tamao de la red, el nmero de pesos puede ser muy grande, lo que puede hacer aumentar en gran medida el tiempo necesario para aprender la solucin. A pesar de las limitaciones descritas en los prrafos procedentes, el perceptrn multicapa ha sido aplicado con xito a cierto nmero de problemas reales. Como se detall en un captulo anterior, stos incluyen procesamiento de seales sonar, control, reconocimiento de caracteres manuscritos, medicina, finanzas, etc. El perceptrn multicapa y sus extensiones proporcionan una potente herramienta para la resolucin de problemas de procesamiento de informacin compleja.

4.2.-Aplicacin del PMC en la generacin de series sintticas Los mtodos clsicos para generar secuencias artificiales de radiacin solar reciben principalmente dos crticas: la elevada carga computacional que se requiere para

60

Captulo 4

el clculo de cada valor de la secuencia o serie y la dependencia del mtodo con el lugar donde se han tomado los registros histricos para realizar el modelo. Sin embargo con la utilizacin del modelo de red neuronal artificial perceptrn multicapa (PMC) se subsanan esas deficiencias que tienen los mtodos clsicos, como se ver a continuacin. La caracterstica principal que hace a este modelo de red particularmente atractivo y til para solventar el problema de la generacin series temporales de radiacin solar es su capacidad de aproximar cualquier tipo de funcin continua definida en un conjunto compacto, dentro de un margen de error preestablecido. Otra caracterstica importante del PMC es que la forma de utilizarlo es altamente independiente del problema bajo consideracin. Ello permite desarrollar metodologas sencillas de diseo con aplicabilidad general. En el campo de la prediccin de series temporales ha sido aplicado con resultados satisfactorios debido a su universalidad para la aproximacin de funciones. Esta seccin se divide en tres subsecciones en las que se describe la estructura del PMC utilizado junto con la descripcin de las diferentes entradas de que consta, como se ver en los apartados 4.2.1 y 4.2.2. A su vez, en el apartado 4.2.3, se expone cmo se lleg a esa estructura por medio de la inclusin de la informacin sucesivamente en diferentes etapas.

4.2.1.-Estructura utilizada. Prediccin por evolucin de la red El mtodo desarrollado para la generacin de series horarias de radiacin solar se basa en estudios previos de aplicacin de las redes neuronales en la prediccin de series temporales (PST) [7,8,9,10], que han sido utilizados satisfactoriamente. Generalmente, dada una serie temporal con n trminos{sn }, entre ellos existirn ciertas dependencias. Por ejemplo, puede existir una funcin G que relaciona cada valor de la serie con los p valores precedentes: sn+1 = G [sn-p+1 , ...., sn ]. La PST mediante PMC consiste en dada esa serie {sn } asumir la existencia de la funcin G, y tratar de aproximarla: sn+1 = G [sn-p+1 , ...., sn ] PMC[sn-p+1 , ...., sn ].

61

Mtodo propuesto basado en el Perceptrn MultiCapa

Si se dispone de conjunto de datos suficientemente representativo (los registros histricos de radiacin solar de la localidad) se podr entrenar un PMC de p entradas y 1 salida, y ste encontrar, caso de que exista, la relacin buscada, aproximando la funcin G. Una vez que el PMC est entrenado, para calcular futuros valores de la serie, es decir, generar uno o varios aos sintticos o artificiales, basta con realimentar las predicciones segn se van produciendo. Este mtodo se denomina prediccin por evolucin de la red, y su estructura puede verse en la figura 4.4.
Sn-p+1 z-1 Sn-p Sn-2 z-1 Sn-1 z-1 Sn Sn+1 PMC Sn+1 n+1

z-1 Figura 4.4. Prediccin por evolucin de la red.

Un mtodo de generacin de series de radiacin basado en el PMC tiene la cualidad de que la mayor parte de la carga computacional recae en el entrenamiento y no en la generacin de valores de las series. Adems, una vez desarrollado un mtodo a partir de datos histricos de una localidad determinada se podr aplicar en distintas localidades sin ms que repetir el entrenamiento con los datos histricos correspondiente a la nueva localidad. Para el estudio inicial sobre el comportamiento de este tipo de arquitectura se dispuso de un conjunto de valores horarios de radiacin (en particular el ndice de claridad horario kth ) medidos en Madrid entre 1978 y 1986. Dichos datos corresponden a un total de 9 aos x 365 (das por ao) x 16 (horas medidas por da, las 4 primeras horas de cada da, a partir de las 12 de la noche y las 4 ltimas siempre son de radiacin 0, por lo que no se tienen en cuenta) y sus respectivos 9 x 365 valores del ndice diario KT . Esos datos se emplean de la siguiente manera: los 8 primeros aos de datos se utilizan para entrenar el PMC y el ltimo ao se usa para validar el mtodo. Como

62

Captulo 4

medida de validez se utiliz el parmetro Varianza Relativa Media (VRM) que cuantifica el error relativo y se emplea con asiduidad en el campo del tratamiento de seal. La VRM se define como el cociente entre la potencia de la seal de error de prediccin y la potencia de alterna de la seal a predecir: VRM = h (kth - kthp )2 / h (kth - kthm )2 siendo: kth el valor del ndice de claridad real, kthp el ndice de claridad predicho (generado por el PMC) y kthm el valor medio del ndice de claridad. Un valor cercano a 0 indicara que la serie predicha se acercara en gran medida a los valores reales de partida. Valores altos indicaran lo contrario, una mala aproximacin.

4.2.2.- Descripcin de las entradas Aunque ser en la prxima seccin donde se describa el porqu de la estructura utilizada, se adelanta en esta seccin la forma del PMC utilizado. Dicha estructura del PMC consta de una primera capa o capa de entrada con 7 entradas, una capa oculta con 15 nodos o neuronas y una ltima capa de salida con un nico nodo de salida. En la figura 4.5 puede verse dicha estructura:

s dn hn KT ^ (h-3) kt z-1 ^ (h-2) kt z-1 ^ (h-1) kt z-1 PMC ^ (h) kt

Figura 4.5. PMC Arquitectura para la prediccin de los ndices de claridad horarios.

Las 7 entradas del PMC son:

63

Mtodo propuesto basado en el Perceptrn MultiCapa

dn : distancia en das entre el da correspondiente al valor a generar y el da con valor mximo en la distribucin anual de {k th } Est normalizado en el rango [0,1]: dn = 1 - |Nd-183| / 183 siendo Nd el orden del da en el ao (1 para el da 1 de enero y 365 para el da 31 de diciembre). hn : indica el numero de orden de la hora del valor de k th . Normalizado entre [0,1]: hn = (hora-p) / (16-p) siendo hora un valor que vara entre 4 (primera hora a generar) y 16 (ltima hora a generar), y p el tamao de prediccin, es decir, el nmero de valores precedentes que se muestran, 3 en este caso. KT : ndice de claridad diario. k th-1 ,: k th-2 , k th-3 : ndices de claridad horario de las tres horas precedentes al valor a generar. El porqu de la eleccin de las tres horas previas se explicar ms adelante. s: indica si la hora est entre la salida del sol y la puesta del mismo. Toma solamente los valores 0 1, para indicar si ha salido ya el sol (1) no ha salido todava (0). El entrenamiento del PMC se realiza usando el algoritmo de retropropagacin.

4.2.3.- Inclusin de la informacin paso a paso Como ya se ha adelantado en apartados anteriores, una de las grandes ventajas que conlleva el uso de redes neuronales es que, aunque a priori no se conozcan explcitamente las relaciones entre las variables del sistema, se le puede ir aadiendo a la red informacin asociada al problema en estudio paulatinamente y de una manera muy sencilla, y sta cada vez va aproximando mejor sus resultados a la solucin que se busque. Como se describir a continuacin, ste fue el proceso seguido hasta alcanzar la estructura que se acaba de presentar en el apartado 4.2.2. Cada una de las nuevas informaciones que va recibiendo el PMC son consideradas como etapas sucesivas en las que se van mejorando los resultados. Estas etapas se describen en los apartados siguientes. Secuencia numrica En un primer estadio se consider toda la serie de datos (9x365x16 valores) como una secuencia numrica, mostrada aleatoriamente, pero sin aadir ningn tipo ms de informacin. Como ya ha sido mencionado, se utilizaron los 8 primeros aos

64

Captulo 4

para entrenar la red y el noveno para contrastar con los valores predichos. En esta primera etapa la topologa del PMC fue de 20-4-1, 20 neuronas de entrada, 4 en la capa oculta y 1 neurona de salida. As mismo, se probaron dos versiones diferentes en cuanto a la funcin utilizada en la ltima capa. Una versin con funcin de transferencia lineal y otra versin con funcin sigmoidal. Los resultados en este caso no fueron satisfactorios, principalmente debido a las siguientes causas:

La utilizacin del mtodo de evolucin de la red durante un nmero muy elevado de valores provoca una acumulacin de errores, debida a la realimentacin. Ya se ver ms adelante que en las versiones finales del PMC propuesto en esta tesis, se ha disminuido este nmero tan elevado de valores, utilizando el llamado Ao Meteorolgico Tpico.

El mtodo carece de ciertas informaciones esenciales como son el conocimiento del da del ao en el que se est produciendo la generacin, as como sobre la hora del da correspondiente al valor que se va a generar, por lo que no es posible generar una serie que siga las tendencias estacionales mensuales y horarias de un ao real.

ndices de claridad previos. Informacin diaria Para tratar de solventar las deficiencias vistas en la etapa anterior, se decidi incluir como informacin algunos valores precedentes del ndice de claridad horario al valor a generar. El hecho de utilizar algunos valores del ndice de claridad horario de horas previas al valor a generar, se debe a la propiedad de persistencia radiativa, ya explicada en el captulo 3. Gracias a muchos estudios realizados por diferentes

investigadores, se sabe que existe cierta dependencia entre la radiacin solar global recibida durante una determinada hora, y varias horas previas. La dependencia es mayor con la hora anterior, y comienza a disminuir conforme las horas previas a la hora en estudio estn ms alejadas en el tiempo. Tambin segn estudios de autocorrelacin de las series de radiacin solar, que se mostrarn en el captulo 5, se decidi incluir los tres valores del ndice de claridad horario previos al valor a generar. Esto en principio presentaba un pequeo inconveniente y es que a la hora de la generacin, era necesario siempre usar los ndices de claridad horarios de las tres primeras horas del da en cuestin. Sin embargo este inconveniente es mnimo, puesto que en esos tres primeros

65

Mtodo propuesto basado en el Perceptrn MultiCapa

valores suelen ser cero o prximos a cero (todava no ha salido o acaba de salir el sol para esas horas), por lo que tomando esas tres entradas como nulas en la generacin no modificaban en gran medida los resultados finales (como posteriormente se mostrar). Tambin, para que la serie generada tuviera en cuenta la estacionalidad mensual de las series reales de radiacin, se aadi una nueva entrada que indica la distancia en das entre el valor a generar y el da correspondiente al mximo de la curva de distribucin anual de la serie de ndices de claridad. Esa entrada recibe el nombre de da normalizado y su expresin es la indicada en el apartado 4.2.2. Con el fin de ir mostrando los resultados que se obtienen en la generacin de series sintticas de radiacin utilizando las diferentes estructuras neuronales, y observar el grado de similitud con las series reales, se muestra a continuacin una figura en la que se ve la evolucin del ndice de claridad horario para varios das reales.
0.8 0.6

kth 0.4
0.2 0 Das Tpicos Invierno Das Tpicos Verano

Figura 4.6. Das tpicos reales de invierno y verano.

En este caso los resultados fueron bastante mejores que los obtenidos con la primera arquitectura, como se puede observar en la figura 4.7., pero se siguen observando ciertos defectos, como: La serie sinttica presenta una simetra con respecto a un valor central que no es estrictamente cierta en las series de valores horarios de ndice de claridad kth . Al asumir la dependencia con el da normalizado, el nivel medio de los das generados crece de forma uniforme hasta el da central, disminuyendo de nuevo a partir de l hasta final de ao. La forma de la distribucin que se produce no es totalmente igual a la distribucin real.

66

Captulo 4 0.6 0.5 0.4 kth 0.3 0.2 0.1 0


Da 1 Da 2 Da 3 Da 4 Da 5 Da 6

Figura 4.7. Serie generada al incorporar la informacin diaria.

ndice de claridad diario La nueva entrada que se aadi fue la inclusin del ndice de claridad diario. Para ello es necesario disponer de esos valores del ao artificial que se quiera generar. Esta nueva informacin hace disminuir el valor de VRM que se utiliza como factor de calidad. En concreto se obtuvo un valor de VRM de 0.78 para el ao noveno utilizando una capa oculta de tan solo 3 neuronas, frente a valores de VRM del orden de 1.5, obtenidos en las etapas anteriores. En la figura 4.8 se presentan los 5 primeros das de una serie generada con esta topologa de red.
0.8 0.6 kth 0.4 0.2 0
Da 1 Da 2 Da 3 Da 4 Da 5 Da 6

Figura 4.8. Serie generada tras incorporar el ndice de claridad diario.

Sin embargo de nuevo se presentaron algunos defectos: La evolucin de los valores horarios a lo largo de un da es casi perfecta durante la mayor parte de las horas, pero no es capaz de descender a valores bajos para los ltimas horas del da como as ocurre en las series reales. En las curvas diarias no existe el rizado aleatorio de los valores reales, sino que sigue la tendencia que explican Graham y Aguiar en sus mtodos.

67

Mtodo propuesto basado en el Perceptrn MultiCapa

Informacin de la hora del da La ltima entrada que se incorpor al PMC fue la relativa a la hora del da correspondiente al valor de kth a generar. Se normaliz segn la expresin presentada en el apartado 4.2.2. De nuevo en este caso, la forma de las curvas del ndice de claridad horario sigue adaptndose correctamente a la tendencia de la curva, pero no presenta el rizado de la componente estocstica. Sin embargo, con esta nueva entrada si se solvent el primer problema presentado anteriormente sobre la cada de las curvas a las ltimas horas del da. Con esta nueva entrada la topologa del PMC inclua una capa oculta compuesta de 15 neuronas con funcin sigmoidal. En este caso el valor del VRM tras 100 pocas de entrenamiento fue de 0.16. Junto a esta entrada se incorpor tambin una nueva entrada que indica si ha salido o no a ha salido el sol, de modo que no se presenten situaciones absurdas como la posibilidad de que el valor de kth sea distinto de cero cuando no haya salido el sol o ya se haya puesto. En la siguiente figura puede verse la forma de las curvas de algunos das de ejemplo tras la incorporacin de esta nueva entrada. Se han incluido datos del ndice de claridad horario reales para mostrar cmo los valores del ndice de claridad horario sinttico generados por el PMC siguen perfectamente la tendencia de las series, aunque no presentan el rizado aleatorio caracterstico de las mismas.

Figura 4.9. Serie real y serie generada con la estructura neuronal final.

Hay que resaltar que la incorporacin de nuevas entradas a la red se realiza de una manera muy sencilla, como se ha visto a lo largo de este captulo, por lo que no supone ninguna complicacin el realizar modificaciones sobre el PMC segn los propsitos que se persigan.

68

Captulo 4

Resumen de parmetros utilizados Para finalizar este apartado se presenta un pequeo resumen de los parmetros caractersticos utilizados en la estructura final del PMC. a) Capa de entrada La capa de entrada consta de 7 entradas que fueron descritas anteriormente. (Apartado 4.2.2). b) Capa de salida Slo tiene una salida que es el valor del ndice de claridad a predecir. c) Capa oculta Finalmente consta de 15 nodos. La forma de obtener esos 15 nodos fue realizando diferentes pruebas. Para valores por encima de 15, adems de que el entrenamiento empezaba a ralentizarse, apareca el problema de la saturacin en las neuronas lo que conduca a resultados totalmente errneos. Con menos neuronas en la capa oculta, menos de 10, la convergencia era bastante rpida pero los resultados eran peores que para valores mayores de 10 neuronas. Con valores entre 10 y 15 los resultados eran muy similares, aunque los mejores se producan con 15, por lo que este fue el nmero final adoptado. En la tabla que se presenta a continuacin se muestran los tiempos de entrenamiento tras 10 pocas, junto con el valor de VRM, segn el nmero de nodos en la capa oculta.
N Nodos Tiempo (s) VRM 1 373 2.13 3 457 1.98 5 578 1.77 8 798 0.94 10 1103 0.23 12 1215 0.19 14 1376 0.17 15 1476 0.16 17 2987 0.97 19 3787 1.58 20 4191 7.77 25 5673 9.82

Tabla 4.2. Comparacin tiempos de entrenamiento versus n nodos en al capa oculta.

d) Tasa de aprendizaje Con este parmetro tambin se realizaron diferentes pruebas llegndose a la conclusin de que el valor mejor era 0.5. Para valores de la tasa de aprendizaje menores de 0.5, la convergencia era muy lenta. Para valores de este parmetro, , mayores, aunque disminuan los tiempos de convergencia los resultados de VRM no eran mejores que con 0.5.

69

Mtodo propuesto basado en el Perceptrn MultiCapa

e ) Trmino de momento Tras las diferentes pruebas realizadas, se comprob que el trmino de momento no mejora sustancialmente los resultados, por lo que en la versin final no se utiliza trmino de momento, ya que complica el algoritmo de entrenamiento. f) Funciones sigmoidales Las funciones sigmoidales son aplicadas a todos y cada uno de los nodos de que consta el PMC utilizado.

g) Tipo de entrenamiento El entrenamiento se realiza siguiendo el siguiente esquema. En primer lugar, del conjunto de datos de entrenamiento (recordar localidad Madrid con 8 aos de radiacin solar global) se elige un da aleatoriamente, del que se dispondr de los valores de ndice de claridad diario (K T ), hora de salida del sol, orden del da en la secuencia anual (dn ), etc. Se muestran a continuacin a la red (figura 4.5), los 16 valores del ndice de claridad horario (kt ) de forma secuencial y ordenada, y se va acumulando el error entre el valor esperado y el valor producido por la red, pero sin actualizar los pesos. Cuando se han mostrado todos los valores del kt correspondientes a ese da en particular se realiza la actualizacin de los pesos antes de repetir el proceso con otro da elegido aleatoriamente, siempre que el error producido en este caso sea menor que el error obtenido en el proceso similar anterior. Cuando se han mostrado todos los valores correspondientes a todos los das del conjunto de entrenamiento, se dice que se ha completado una poca.

4.3. Universalizacin del mtodo propuesto Como ya se ha adelantado en la seccin anterior, se realiz un primer estudio que trat de demostrar las capacidades de universalizacin que posee el PMC. Para ello se seleccionaron 3 localidades de Espaa de las que se disponan de registros histricos de radiacin solar horaria. Estas otras localidades, junto con algunas caractersticas se presentan en la siguiente tabla:

70

Captulo 4 Localidad Oviedo Madrid Mlaga Clima Atlntico Continental Mediterrneo Latitud 43.35 40.45 36.66 Altitud (m) 348 664 7 Aos Registrados 1.977 - 1.984 1.978 - 1.986 1.977 - 1.984

Tabla 4.3. Localidades auxiliares para el entrenamiento.

Se observa que se eligieron localidades situadas a diferentes altitudes sobre el nivel del mar, diferentes latitudes y diferentes climas. El proceso seguido fue el siguiente. Para cada uno de estas localidades se entren un PMC que se denomin PMC propio, siguiendo la forma descrita en apartados anteriores, es decir, se tomaron los primeros aos para el entrenamiento y se reserv el ltimo para la comparacin y validacin de resultados. Posteriormente, y con el fin de tratar de probar la universalidad se generaron con la red PMC propia de Madrid aos artificiales para Oviedo y Mlaga. Tambin se generaron series artificiales de radiacin solar horaria con los mtodos de Graham y Hollands (GH) y Aguiar y Collares-Pereira (AC). Resumiendo, los aos artificiales de series de radiacin que se obtuvieron para comparar con los datos reales fueron: a) 3 aos de radiacin solar horaria sintticos a partir de la propia red de cada localidad: uno para Madrid (red PMC propia de Madrid), otro para Oviedo (con la red entrenada para Oviedo) y otro para Mlaga (con el PMC propio entrenado para tal fin con datos de Mlaga) b) 2 aos de valores de radiacin solar horaria generados con la red que haba sido entrenada para los datos de Madrid (PMC de Madrid) pero aplicada en Oviedo y Mlaga (es decir, utilizando el PMC de Madrid, pero con los datos de entrada, ndice de claridad diario, correspondientes al ao de prueba de Oviedo y de Mlaga) c) 3 aos sintticos horarios generados segn GH para cada una de las tres localidades en estudio. d) 3 aos sintticos horarios generados segn AC, de nuevo para cada localidad.

En las siguientes figuras se muestran los resultados obtenidos por los diferentes mtodos comparados con los datos reales. Como se observa, los tres mtodos presentan valores similares de las series para la componente de la tendencia, los cuales se ajustan bastante bien a los valores reales, aunque en un estudio que se presenta a continuacin
71

Mtodo propuesto basado en el Perceptrn MultiCapa

se ve que el PMC es el mejor mtodo de los tres, al superar los resultados de los mtodos clsicos. Se han presentado tanto das de invierno como das de verano. En invierno, al haber mayor probabilidad de presencia de nubes, los datos reales presentan el rizado aleatorio caracterstico debido a la variabilidad de la radiacin global, y los valores generados sintticamente no se ajustan tan bien a los reales. En verano sin embargo, al haber mayor nmero de das despejados, las curvas reales y sintticas se ajustan con gran exactitud, siendo prcticamente indistinguibles entre s.

Figura 4.10. Serie real frente a serie generada por el PMC. Madrid. 1.986. Invierno.

72

Captulo 4

Figura 4.11. Serie real frente a serie generada por el PMC. Madrid. 1.986. Verano.

Figura 4.12. Serie real frente a serie generada por el PMC. Oviedo. 1.984. Invierno.

73

Mtodo propuesto basado en el Perceptrn MultiCapa

Figura 4.13. Serie real frente a serie generada por el PMC. Mlaga. 1.984. Verano.

Figura 4.14. Serie real frente a serie generada por AC. Madrid. 1.986. Invierno.

74

Captulo 4

Figura 4.15. Serie real frente a serie generada por AC. Madrid. 1.986. Verano.

Figura 4.16. Serie real frente a serie generada por GH. Madrid. 1.986. Invierno.

75

Mtodo propuesto basado en el Perceptrn MultiCapa

Figura 4.17. Serie real frente a serie generada por GH. Madrid. 1.986. Verano.

Grficamente, aunque se intuye por la forma de las curvas, no se puede saber si los resultados obtenidos por el mtodo neuronal se ajustan mejor a los datos reales que los resultados obtenidos por los otros dos mtodos. Es necesario realizar un estudio ms detallado utilizando otros parmetros como son el valor VRM, que ya ha sido definido. Todos los aos sintticos obtenidos fueron comparados con datos reales de cada localidad, aplicando en este primer estudio el parmetro VRM. Los resultados se muestran en la siguiente tabla:

76

Captulo 4

Mtodo PMC (Red propia) GH AC PMC (Red propia) PMC (Red entrenada para Madrid) GH AC PMC (Red propia) PMC (Red entrenada para Madrid) GH AC

Localidad Madrid Madrid Madrid Oviedo Oviedo Oviedo Oviedo Mlaga Mlaga Mlaga Mlaga

VRM 0.1022 0.1611 0.1574 0.1723 0.1761 0.2481 0.2567 0.1255 0.1364 0.2418 0.2384

Tabla 4.4. VRM. Series reales frente a series predichas por PMC, AC y GH. (Se incluyen los resultados de la red entrenada en Madrid pero utilizada en Oviedo y Mlaga.)

En la medida del valor VRM de los tres mtodos frente a los datos reales, el resultado de dicho valor con los datos del PMC es sensiblemente mejor que los mtodos clsicos, como se muestra en la tabla 4.4. Los mayores valores de VRM se presentan para Oviedo, como era lgico, puesto que en Oviedo, al existir un clima atlntico bastante lluvioso, la mayora de los das presentan bastante rizado, por lo que la tendencia de las curvas obtenidas por los tres mtodos difiere en mayor medida de los valores reales. Como tambin se observa, los valores del parmetro VRM son mejores para PMC que los obtenidos siguiendo los mtodos de Graham y Aguiar, incluso para la red entrenada en Madrid pero aplicada en Oviedo y Mlaga. Aunque el valor de VRM empeora un poco con respecto a los valores que se obtienen cuando se aplica la red propia, los resultados siguen siendo mejores que los obtenidos por AC y GH. Con este estudio se puede concluir que una red entrenada en cierta localidad podr ser utilizada para generar datos en otras localidades, lo que demuestra las capacidades de universalizacin del PMC.

77

Mtodo propuesto basado en el Perceptrn MultiCapa

4.4 Uso del Ao Meteorolgico Tpico. Mejora del Entrenamiento A la vista de las capacidades de universalizacin del PMC, el siguiente paso fue entrenar una sola red neuronal artificial para un conjunto ms amplio de localidades espaolas. En este caso las localidades en estudio fueron las siguientes:

Localidad Oviedo Logroo Madrid Palma de Mallorca Badajoz Murcia Mlaga

Clima Atlntico Continental Continental Extremo Mediterrneo Insular Continental Atenuado Mediterrneo rido Mediterrneo

Latitud 43.35 42.46 40.45 39.33 38.89 38.00 36.66

Altitud 348 372 664 32 185 69 7

Aos Registrados 1.977 - 1.984 (8) 1.981 - 1.984 (4) 1.977 - 1.984 (8) 1.977 - 1.984 (8) 1.976 - 1.983 (8) 1.977 - 1.984 (8) 1.977 - 1.984 (8)

Tabla 4.5. Localidades en estudio para obtener el AMT.

Sin embargo, apareci el problema de la gran cantidad de datos de radiacin solar global horaria con los que se tena que operar (52 aos x 365 das x 16 horas = 303.680 datos). Esto supona un serio problema para los entrenamientos. Con el fin de reducir el nmero de datos a manejar se pens en utilizar en vez de todos los aos de cada localidad, el Ao Meteorolgico Tpico (AMT) [11,12] de la misma. El AMT es un ao obtenido a partir de los datos reales en el que se resumen las caractersticas meteorolgicas ms importantes de los diferentes aos registrados. Es un ao con valores reales, no con valores artificiales, puesto que se obtiene a partir de los datos reales, pero habiendo seleccionado algunos de ellos segn unos criterios que se detallan a continuacin. En primer lugar, para la construccin del AMT, se pueden utilizar diferentes periodos base, aunque es conveniente que ese periodo sea el mes, es decir, utilizar para cada mes genrico que compondr el AMT todos los datos de un mes nico de la localidad en cuestin. As, el AMT representar tanto la variacin de las medias mensuales a lo largo de todo el ao como la distribucin de los valores diarios y horarios dentro de cada mes. Se utiliza el mes como periodo base, porque si se tomasen los datos de radiacin solar de un nico ao como ao tpico, en este caso no se tendra la distribucin correcta de las secuencias de radiacin en ese periodo, y si se utilizase el

78

Captulo 4

da como periodo base, se tendra una sucesin de das de ndice de claridad casi uniforme. Para la seleccin de los meses que constituirn el AMT de cada localidad en estudio, se han seguido los criterios habituales [11,12], que son principalmente: a) Los valores medios mensuales de la radiacin diaria b) La distribucin mensual de los valores del ndice de claridad. Resumiendo, para la construccin del AMT en una localidad se realiza lo siguiente. Supngase que se cuenta con los datos de radiacin solar de cierta localidad medidos durante 20 aos. Es decir, se dispondr de 20 x 12 = 240 meses de datos de radiacin. Habr as, lo que se podra definir como 20 meses enero, 20 meses febrero, etc. Con los 20 meses enero se calculan a continuacin las medias mensuales de radiacin solar correspondientes a cada mes y a su vez la media de estas medias mensuales obtenidas. Se tendrn entonces 21 valores: 20 medias mensuales ms la media de dichas medias mensuales. Posteriormente se comparan las 20 medias mensuales con el valor correspondiente a la media de las medias, y el valor que ms se aproxime a dicha media, ser elegido, en esta primera etapa como mes constituyente del AMT para enero. A continuacin, en una segunda etapa se hace un estudio similar pero para la distribucin mensual de los valores del ndice de claridad. Se dispondrn de 20 distribuciones mensuales correspondientes a cada mes, ms una distribucin mensual media genrica. La distribucin mensual del mes que ms se aproxime a la distribucin media, indicar el mes elegido para constituir el AMT para enero, en esta segunda y definitiva etapa. Este proceso se repite para el resto de los meses, completando de esta forma el AMT. En un caso real, por ejemplo un AMT para cierta localidad cuyos datos registrados abarquen desde el ao 1976 a 1983 podra estar formado por el mes de enero de 1977, el mes de febrero de 1982, el mes de marzo de 1980, etc. Se ha realizado el clculo del AMT para las localidades en estudio presentadas en la tabla 4.5 y los meses que constituyen el AMT de esas localidades son:

79

Mtodo propuesto basado en el Perceptrn MultiCapa

Localidad Mes Enero Febrero Marzo Abril Mayo Junio Julio Agosto

Oviedo

Logroo

Madrid

P.Mallorca

Badajoz

Murcia

Mlaga

Ao Seleccionado 1980 1984 1977 1979 1982 1984 1979 1982 1984 1983 1983 1983 1983 1983 1981 1984 1981 1981 1983 1981 1984 1981 1978 1981 1983 1977 1984 1978 1978 1982 1978 1981 1977 1984 1981 1978 1980 1983 1980 1982 1977 1978 1977 1977 1980 1983 983 1979 1983 1983 1982 1982 1983 1983 1983 1983 1980 1979 1981 1977 1979 1984 1982 1982 1977 1983 1980 1979 1978 1982 1983 1980 1982 1984 1977 1979 1978 1978 1980 1979

Septiembre 1982 Octubre 1983

Noviembre 1982 Diciembre 1977

Tabla 4.6. Meses constituyentes del AMT para las localidades en estudio.

Una vez obtenido el AMT de cada localidad se entren una nica red, con la misma estructura que la explicada en apartados anteriores (7x15x1), pero utilizando para el entrenamiento en vez de los datos de todos los aos de cada localidad, slo los datos del AMT. Tras el entrenamiento se generaron aos sintticos correspondientes a todos los aos de cada localidad y se compararon los resultados obtenidos con los datos reales y con los datos que se obtienen empleando la red propia de cada localidad. Como ejemplo, se muestra a continuacin los valores de VRM para la localidad de Mlaga. En ella se presentan los resultados de proporcionados por la red nica (la que utiliza para el entrenamiento los AMTs de todas las localidades en estudio) y la red propia (la que utiliza para el entrenamiento slo los datos de la localidad en cuestin).

80

Captulo 4

Mlaga VRM Ao 1977 1978 1979 1980 1981 1982 1983 1984 PMC Propio 0.1034 0.1087 0.1124 0.1024 0.1111 0.0943 0.0965 0.1200 PMC nico 0.0977 0.1021 0.1015 0.0880 0.0916 0.1055 0.0818 0.1123

Tabla 4.7. Valores de VRM para Mlaga con dos entrenamientos diferentes.

En los anexos se muestran las restantes tablas para las diferentes localidades. Lo importante es destacar que con la utilizacin del AMT se han obtenido ventajas importantes: a) En primer lugar, se trabaja con una cantidad menor de datos. Se pasa de utilizar 52 aos x 365 das x 16 horas = 303.680 datos, a utilizar slo 40.880. b) Se obtiene una nica red vlida para cualquier localidad (espaola). c) Disminuyen los tiempos de entrenamiento, principalmente como consecuencia de tratar con un nmero menor de datos. En este caso el entrenamiento dura slo alrededor de 375 segundos.

4.5. Componente aleatoria Siguiendo la tcnica que AC y GH proponen en el estudio de las series de kth , de dividir dichas series en dos componentes, una que sigue la tendencia de la serie y otra que corresponde a pequeas variaciones aleatorias sobre dicha tendencia, en este trabajo se hizo algo similar. A la vista de los resultados obtenidos hasta este momento, se comprendi que por medio del entrenamiento con la estructura de red neuronal utilizada hasta aqu, el PMC slo era capaz de proporcionar la componente de tendencia y no la aleatoria. Se decidi, en primer lugar, realizar un estudio comparando las series reales y las series obtenidas por medio del PMC y comprobar si los residuos obtenidos como diferencia de ambas correspondan a una serie aleatoria. Es decir, se restan ambas series

81

Mtodo propuesto basado en el Perceptrn MultiCapa

(la real y la sinttica) y a la nueva serie obtenida se le aplica algn tipo de test para comprobar su aleatoriedad. Existen diferentes tests para comprobar la aleatoriedad de una serie numrica. Un test no paramtrico a tal fin lo proporciona la teora de las rachas [13]. Para entender qu son las rachas (o escalones) considrese una secuencia con dos smbolos: a y b, tal como: a a | b b b | a | b b | a a a a a | b b b | a a a a |. Al tirar una moneda, por ejemplo, a sera cara y b sera cruz. Una racha se define como un conjunto de smbolos idnticos (o relacionados) contenido entre dos smbolos diferentes o uno slo si se est al comienzo o la final de la secuencia. Leyendo de izquierda a derecha en la secuencia anterior, la primera racha, indicada por una barra vertical, consiste en dos aes, la segunda de tres bes, la tercera una a, etc. En este ejemplo hay siete rachas en total. Parece claro que existe relacin entre aleatoriedad y el nmero de rachas. As para la secuencia: a|b|a|b|a|b|a|b|a|b|a|b|a|b|a| hay un esquema cclico, en el que se va pasando siempre de a a b y viceversa, que difcilmente puede ser aleatorio. En este caso hay demasiadas rachas (de hecho, hay el mximo posible con ese nmero de letras a y b). Por otra parte, para la secuencia: aaaaa|bbbb|aaaaa|bbb|

parece haber un esquema de tendencia o de inercia, en el que las aes y las bes estn agrupadas. En este caso hay muy pocas rachas, y no se considerara tampoco aleatoria a esa secuencia. As pues, una secuencia se considera no aleatoria si hay demasiadas o muy pocas rachas, y aleatoria en los dems casos. Para cuantificar esa idea, supongamos que se forman todas las posibles secuencias con N1 aes y N2 bes, para un total de N smbolos (N = N1 + N2 ). La coleccin de todas esas secuencias conduce a una distribucin muestral. Cada secuencia tiene asociado un nmero de rachas, denotado por V. De este modo se forma una distribucin muestral del estadstico V. Se demuestra [10] que esa distribucin muestral tiene de media y varianza las siguientes expresiones: v = 2N1 N2 / N+1

82

Captulo 4

v =2N1 N 2 (2N1 N2 N) / N2 (N-1) Mediante esas expresiones se puede contrastar la hiptesis de aleatoriedad a niveles de significacin apropiados. Resulta que si N1 y N2 son ambos al menos iguales a 8, entonces la distribucin muestral de V es muy prxima a una distribucin normal. Luego: z = (V -v )/v est normalmente distribuido con media 0 y varianza 1. Una forma de aplicar el test de aleatoriedad es el llamado test sobre y bajo mediana. Para determinar si unos datos numricos son aleatorios, se calcula la mediana de la serie y, posteriormente, colocados en el mismo orden en que fueron tomados, se calcula la diferencia entre cada valor numrico y la mediana. Se asigna a continuacin la letra a o b segn el valor est sobre o bajo la mediana. Si un valor coincide con la mediana se suprime. La muestra ser aleatoria segn lo sea la secuencia de aes y bes as obtenida. Aplicando estas ideas a este trabajo, en este caso se cuenta con la serie de la componente (parte supuestamente aleatoria) obtenidas como diferencia entre el kth real y el kth calculado por la red neuronal (tendencia). Esa serie tiene valores comprendidos entre (-1,1). El proceso seguido ha sido el siguiente:

1.- Se ha tomado cada serie de 365 das x 16 valores horarios (5840 datos) y se ha calculado la mediana. (Para ello se han de disponer en orden creciente y la mediana es el valor intermedio.) Se han tomado las series de datos de Madrid, Oviedo y Mlaga, obtenindose como mediana el valor 0. 2.- Se forma una nueva serie como la diferencia entre el valor de la componente y la mediana (en ese orden). Si el resultado es mayor que cero se le asigna la letra a y si el valor es menor que cero se le asigna la letra b. 3.- Se cuentan el nmero de aes (N 1 ) el nmero de bes (N 2 ) y el nmero de Rachas (V). 4.- Se calculan los parmetros estadsticos media muestral (v ), varianza muestral (v ) y valor de Zeta. 5.- Se aplica el criterio de contraste de hiptesis de aleatoriedad para un nivel de significacin de 0.05 (es decir, que se cumpla: 1.96 z -1.96). Si lo cumple, la hiptesis de que la muestra es aleatoria es cierta con un nivel de confianza del 95 %.
83

Mtodo propuesto basado en el Perceptrn MultiCapa

En las tablas siguientes se muestran los resultados:


Madrid Ao N1 1 2 3 4 5 6 7 8 N2 V v 1995 1995 1991 2003 2006 2007 2006 1996 v 996 994 987 998 z -0.685 -0.648 -0.647 -0.654

2066 1927 1313 2114 1887 1351 2181 1830 1352 2103 1910 1350 2027 1984 1380 2058 1956 1299 2049 1963 1304 2136 1872 1369

1002 -0.625 1002 -0.706 1002 -0.701 993 -0.632

Tabla 4.8. Estadsticos del test de aleatoriedad para la componente Madrid. .

Mlaga Ao N1 1 2 3 4 5 6 7 8 N2 V v 2003 2002 1971 1996 1994 1991 1993 1959 v z

1965 2041 1332 1924 2084 1352 1773 2217 1251 2000 1991 1278 2115 1884 1329 2052 1931 1270 1916 2075 1291 1866 2059 1204

1001 -0.671 999 973 997 993 994 994 976 -0.651 -0.741 -0.720 -0.670 -0.725 -0.706 -0.773

Tabla 4.9. Estadsticos del test de aleatoriedad para la componente Mlaga. .

Oviedo Ao N1 1 2 3 4 5 6 7 8 N2 V v 1972 1962 1935 1963 1967 1981 1969 1977 v 984 976 981 980 980 989 976 983 z -0.729 -0.832 -0.716 -0.656 -0.652 -0.729 -0.705 -0.720

2041 1905 1254 2098 1841 1150 1972 1953 1261 2012 1914 1320 2077 1867 1328 2046 1918 1260 2168 1803 1282 2128 1844 1269

Tabla 4.10. Estadsticos del test de aleatoriedad para la componente Oviedo. .

84

Captulo 4

Segn estos resultados se observa que las series de componente aleatoria son efectivamente aleatorias con un nivel de significacin de 0.05 (es decir un 95 % de confianza). Una vez que se comprob que las series de la componente aleatoria son efectivamente aleatorias, con el fin de aplicar de alguna forma el PMC para su generacin, se decidi utilizar un algoritmo similar al que propuso AC, pero con la diferencia de que todos los valores de parmetros que AC proponen tras un estudio estadstico de los diferentes datos de radiacin de que disponan, en este trabajo se obtuvieron aplicando diferentes estructuras neuronales con PMC. Por lo tanto el algoritmo aplicado para calcular la parte aleatoria de las series, y completar as el trabajo es el siguiente: 1. Clculo de la autocorrelacin 1 y de la desviacin estndar por medio de estos dos PMCs:

hn KT PMC

hn KT PMC

Figura 4.18. PMC para la desviacin estndar y coeficiente de autocorrelacin .

La estructura de estos PMC es 2 x 5 x 1. La forma de elegir 5 nodos en la capa oculta es igual a la explicada en el apartado 4.2.3. Igualmente, la forma de entrenar estos dos nuevos PMCs es similar a la que se ha venido utilizando en todo este trabajo, es decir, se utilizan datos reales para el entrenamiento y se reservan algunos datos para la validacin del mismo. En la siguiente figura se muestra la evolucin de la desviacin estndar de la componente aleatoria real (en funcin del ndice de claridad diario KT ) y la obtenida segn AC y segn el PMC.

85

Mtodo propuesto basado en el Perceptrn MultiCapa

0.200 0.150 0.100 0.050 0.000 0 0.5 KT

Real AC PMC

Fig. 4.19. Desviacin estndar frente al ndice de claridad K T.

De nuevo los resultados obtenidos por el PMC son muy similares a los obtenidos por otros mtodos y prcticamente indistinguibles de los reales. 2. Clculo de la variable normalizada y para cada hora h por medio de la siguiente ecuacin: y(h) = 1 y(h-1) + r. El primer valor para construir esa serie puede ser un nmero aleatorio pequeo. r es un nmero aleatorio gaussiano con media nula y desviacin estndar * dada por: * = (1 - 12 )0.5. 3. Finalmente conocidos la serie y y la desviacin estndar , la componente aleatoria se construye como producto de ambas: = y. 4.6. Series diarias Con el fin de completar el estudio sobre la generacin de series de radiacin solar, quedaba resolver el problema de la generacin de series diarias. Puesto que todo el estudio importante para la generacin de series utilizando el PMC se haba realizado para la escala horaria, se pens aplicar todo el conocimiento adquirido para este caso, pero para la escala diaria. Se prepar un nuevo PMC de estructura similar al utilizado

86

Captulo 4

para las series horarias. Las entradas utilizadas en este caso, tal y como puede verse en la figura 4.20, se detallan a continuacin:
dn ^ K T(h-1) ^ K T(h) PMC

z- 1 Figura 4.20. PMC Arquitectura para la prediccin de los ndices de claridad diarios.

Capa de entrada En este caso slo se usan dos entradas, una que proporciona la informacin del orden del da, que es exactamente igual al caso horario (dn ) y otra que es el ndice de claridad diario del da anterior al da a generar. Slo se emplea el ndice de claridad diario del da anterior puesto que como han demostrado muchos investigadores (ver [14]), y de nuevo recordando la propiedad de persistencia radiativa, la influencia de la radiacin solar es importante entre das consecutivos, pero disminuyen en gran medida para distancias temporales mayores de un da. Capa oculta En este caso, tras el estudio de las distintas opciones se lleg a la conclusin que con una capa oculta de 7 nodos se obtenan los mejores resultados. Capa de salida En la ltima capa se tiene el ndice de claridad diario que se quiere obtener. Todo lo referente al entrenamiento es similar al caso horario. Se utiliza una nica red entrenada con los AMT de las localidades en estudio. Una diferencia con el caso horario es que se consigui ampliar la base de datos en estudio, puesto que hay ms estaciones que miden radiacin global diaria. Por tanto, en este caso, las localidades en estudio, junto con los correspondientes aos fueron las presentadas en la tabla siguiente.

87

Mtodo propuesto basado en el Perceptrn MultiCapa

Localidad Albacete Alicante Almera Badajoz Barcelona Bilbao Burgos Cdiz Castelln Cceres Ciudad Real Crdoba Gran Canaria Huelva Lanzarote La Palma Len

Aos registrados 1976-1983 1976-1982 1976-1983 1976-1983 1975-1984 1976-1982 1976-1982 1976-1984 1979-1982 1983-1993 1976-1983 1976-1984 1976-1983 1976-1983 1976-1983 1976-1983 1976-1983

Localidad Lrida Logroo Lugo Madrid Mlaga Murcia Oviedo Palma de Mallorca Salamanca Santander Santiago Sevilla Toledo Valladolid Valencia Vigo Zaragoza

Aos registrados 1977-1983 1975-1993 1976-1984 1973-1986 1976-1993 1975-1993 1973-1993 1975-1993 1976-1984 1975-1993 1975-1982 1975-1988 1979-1991 1975-1982 1975-1980 1977-1984 1971-1983

Tabla 4.11. Localidades en estudio. Aos registrados con radiacin global diaria.

A la vista de los resultados, en este caso las series sintticas obtenidas presentaban una aleatoriedad similar a la que tienen los datos reales. Como se ver en el siguiente captulo, los resultados del estudio comparativo con otras series sintticas producidas por otros mtodos demuestran que las series artificiales generadas por medio del PMC son indistinguibles de las reales. Se presenta en la tabla siguiente los valores de VRM obtenidos para algunas localidades estudiadas:

88

Captulo 4

Localidades Ao 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 Cceres 1.0994 0.9872 0.9346 1.2105 1.0838 0.8918 1.1238 1.1189 1.0982 1.0751 1.1827 Santander 1.6526 1.5316 1.5241 1.5249 1.6001 1.7938 1.6068 1.5210 1.5831 1.6233 1.6097 Murcia 1.3126 1.0968 1.0899 1.3421 1.2707 1.1493 1.2306 1.0623 1.0231 1.0319 1.1102

Tabla 4.12. Valores de VRM para el caso de diarias en algunas localidades.

En la siguiente figura se muestra para un ao genrico la evolucin del ndice de claridad diario real y el generado por medio del PMC:

Figura 4.21. K T real frente a K T generado por PMC. Cceres.

89

Mtodo propuesto basado en el Perceptrn MultiCapa

Figura 4.22. K T real frente a K T generado por PMC. Santander.

En los anexos se presentan ms grficas para otras localidades.

90

Captulo 4

Referencias [1] McCulloch WS., & Pitts W. A logical calculus of the ideas immanent in nervous activity. Bulletin of Mathematical Biophysics. Vol. 5. pp 115-133. 1943. [2] Rosenblatt R. Principles of Neurodynamis. Spartan Books, New York. 1959. [3] Minsky M & Papert S. Perceptrons: an introduction to computacional geometry. The MIT Press. Cambridge, MA. 1969. [4] P. Werbos. Beyond Regression: New Tools for Predicting and Analysis in the

Behavioral Sciences, Ph. D. thesis, Hardvard University. 1974. [5] Rumelhart, D. Hinton G. &Williams R. Learning internal representations by error propagation. Parallel distributed processing: Explorations in the microstructure of cognition. vol. 1. Foundations. The MIT Press. Cambridge. Rumelhart and McClelland (eds.). 1986. [6] Aho A. V., Hopcroft, J.E. Ullman J.D. Data structures and algorithms. AddisonWesley, 1983. [7] A.S. Lapedes y R. M. Faber. Non linear signal processing using neural networks: prediction and system modelling. Technical Report. Los lamos National Laboratory. 1987. [8] A. S. Weigend, D. E. Rumelhart y B.A. Huberman. Back-Propagation, weight

elimination and Time Series Prediction. Captulo de los Proceedings of the 1990 Connectionist models Summer School. Morgan Kaufman, 1990. [9] A. Vzquez. Identificacin de sistemas mediante Redes Neuronales para control de robots. ETSI Telecomunicacin, Madrid.1992. [10] J. Riesco Prieto. Optimizacin global: aplicacin en el entrenamiento de redes neuronales. Proyecto Fin de Carrera. UPM Madrid. ETSI Telecomunicacin. 1993. [11] M.H. Macagnan. Caracterizacin de la radiacin solar para aplicaciones fotovoltaicas en el caso de Madrid. Tesis doctoral. ETSI Telecomunicacin Madrid. 1993. [12] W. Marion y K. Urban. Users Manual for TMY2s (Typical Meteorological Years). NREL. Golden Colorado. Junio 1995. [13] M.R. Spiegel. Estadstica. McGraw Hill. Colombia. 1998.

91

Mtodo propuesto basado en el Perceptrn MultiCapa

92