Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Redes Neuronales Artificiales PDF
Redes Neuronales Artificiales PDF
1. Introduccin
En las ltima dcada las Redes Neuronales Artificiales (ANN) han recibido un inters particular
como una tecnologa para minera de datos, puesto que ofrece los medios para modelar de manera
efectiva y eficiente problemas grandes y complejos. Los modelos de ANN son dirigidos a partir de
los datos, es decir, son capaces de encontrar relaciones (patrones) de forma inductiva por medio
de los algoritmos de aprendizaje basado en los datos existentes ms que requerir la ayuda de un
modelador para especificar la forma funcional y sus interacciones.
Las ANN son un mtodo de resolver problemas, de forma individual o combinadas con otros
mtodos, para aquellas tareas de clasificacin, identificacin, diagnstico, optimizacin o
prediccin en las que el balance datos/conocimiento se inclina hacia los datos y donde,
adicionalmente, puede haber la necesidad de aprendizaje en tiempo de ejecucin y de cierta
tolerancia a fallos.
En estos casos las RNAs se adaptan dinmicamente reajustando
constantemente los pesos de sus interconexiones.
Las ANN se basan en la analoga que existe en el comportamiento y funcin del cerebro humano,
en particular del sistema nervioso, el cual est compuesto por redes de neuronas biolgicas que
poseen bajas capacidades de procesamiento, sin embargo toda su capacidad cognitiva se sustenta
en la conectividad de stas.
La unidad de una red neuronal artificial es un procesador elemental llamado neurona que posee la
capacidad limitada de calcular, en general, una suma ponderada de sus entradas y luego le aplica
una funcin de activacin para obtener una seal que ser transmitida a la prxima neurona. Estas
neuronas artificiales se agrupan en capas o niveles y poseen un alto grado de conectividad entre
ellas, conectividad que es ponderada por los pesos. A travs de un algoritmo de aprendizaje
supervisado o no supervisado, las ANN ajustan su arquitectura y parmetros de manera de poder
minimizar alguna funcin de error que indique el grado de ajuste a los datos y la capacidad de
generalizacin de las ANN.
Existe un gran nmero de arquitecturas neuronales, sin embargo, en este proyecto mostraremos
dos de las arquitecturas ms famosas, las redes feedforward y los mapas autoorganizativos.
-- 1
y = wi x i + w 0
i =1
donde es una funcin no-lineal. La funcin propuesta por McCulloch-Pitts posee una salida
binaria 1 conocida como la funcin de todo o nada que equivale a la funcin signo dada por
1
1
( z ) = sgn( z ) =
z0
z<0
Otra funcin con salida binaria es la funcin escaln unitario descrita por
1
0
( z) = U ( z) =
z0
z<0
( z) =
1
o la tangente hiperblica (z)=tanh(z).
1+ e z
-- 2
-- 3
-- 4
j =1
donde w = ( w1 ,..., w d )
de las conexiones entre las neuronas de la red, 1 es una funcin no-lineal acotada y diferenciable
con forma de funcin sigmoide o de radio basal, 2 es una funcin que puede ser lineal o no lineal
y es el parmetro de control que indica el nmero de neuronas escondidas.
La funcin 1 tpicamente es la funcin sigmoidal dada por
1 ( z) =
1
1+ e z
w n = arg min{Ln ( w) : w W d }
donde Ln(w) normalmente viene dado por la funcin del promedio de los errores al cuadrado entre
el dato estimado por la red y el dato real, es decir:
Ln =
1 n
( yt g ( x t , w)) 2
2n t =1
Para estimar los parmetros de la red minimizando iterativamente la funcin de, en 1986,
Rumelhart, Hinton y Williams redescubrieron el algoritmo de retropagacin o "backpropagation"
como una generalizacin de la regla delta propuesta por Widrow-Hoff (ver [WH60]).
El trmino de "backpropagation" se refiere a la forma en que el gradiente de la funcin de costo es
calculado para redes neuronales feedforward. El aprendizaje involucra un ajuste de los pesos
comparando la salida deseada con la respuesta de la red de manera que el error sea mnimo. La
funcin que usualmente es utilizada para medir el error es la suma de los errores al cuadrado o su
promedio.
Una de las caractersticas ms importantes y poderosas de las redes neuronales feedforward es su
capacidad como aproximadores universales, esto es, dada cualquier funcin derivable y acotada,
-- 5
existe una red neuronal con un nmero suficiente de neuronas escondidas que puede aproximar
dicha funcin con el nivel de precisin deseada.
La demostracin de esta propiedad fue desarrollada por K. Hornik, M. Stinchcombe y H. White
[HSW89] a partir de una generalizacin del teorema de Stone-Weierstrass (ver [Rud64]). En su
primera versin, Hornik et. al, demostraron que las redes neuronales feedforward, en particular las
FANN con 3 capas, y con funcin de activacin de tipo sigmoidal pueden aproximar cualquier
funcin derivable y acotada con grado de precisin arbitrario para un nmero suficiente de
neuronas escondidas.
Posteriormente White y Stinchcombe ([Whi92]) extendieron los resultados obtenidos a las redes
feedforward con funciones de activacin no-sigmoidal en la capa escondida.
-- 6
Referencias
[AMS02] H. Allende, C. Moraga y R. Salas (2002). Artificial Neural Networks in Time Series
Forecasting: A Comparative Analysis". Kybernetika, Volume 38, number 6, pages 685-707. ISIISSN: 0023-5954
[LF87] A. Lapedes and R. Farber. Nonlinear signal processing using neural networks. Technical
Report LA-UR-87-2662, Los Alamos National Laboratory, 1987.
[MP43] W.S. McCulloch and W. Pitts. A logical calculus of ideas immanent in nervous activity.
Bulletin of Mathematical Biophysics, 5:115133, 1943.
[MP69] M. Minsky and S. Papert. Perceptrons. Technical report, Cam-bridge: Mit Press, 1969.
[MYA92] N. Murata, S. Yoshizawa, and S. Amari. Network information criterion - determining the
number of hidden units for an arti-ficial neural network model. IEEE Trans. on Neural Networks,
5(6):865872, November 1992.
[Pri81] M. Priestley. Spectral Analysis and Time Series. Academic Press. London, 1981.
[Rao81] T. Subba Rao. On the theory of bilinear models. J. Roy. Statist. Soc. B, (43):244255,
1981.
[Ros61] F. Rosenblatt. Principles of Neurodynamics: Perceptrons and the Theory of Brain
Mechanisms. Spartan Books, Washington, DC, 1961.
[Rud64] W. Rudin. Principles of Mathematical Analysis. New York:McGraw-Hill, 1964.
[Wer74] P. J. Werbos. Beyond regression: New tools for prediction and analysis in the behavioral
sciences. Ph.D. Diss., Harvard Univer-sity, 1974.
[WG94] Andreas Weigend and Neil Gershenfeld, editors. Time Series Pre-diction: Forecasting the
Future and Understanding the Past, volume XV of Proceedings of the NATO Advanced Research
Work-shop on Comparative Time Series Analysis. Santa Fe Institute, 1994.
[WH60] B. Widrow and M. E. Hoff. Adaptive switching circuits. 1960 IRE WESCON Convention
Record. New York IRE, pages 96104, 1960.
[Whi92] Halbert White. Artificial Neural Networks: Approximation and Learning Theory. Basil
Blackwell, Oxford, 1992.
[Yul27] G. Yule. On a method of investigating periodicity in disturbed series with special reference
to Wolfers sunspot numbers. Phil. Trans. Roy. Soc. London, A 226:267298, 1927.
-- 7