Está en la página 1de 37

2.

REDES NEURONALES


En este capitulo se abordara el tema de redes neuronales basados en la estructura
del libro Redes Neuronales y Sistemas Difusos de los profesores Martn del Bro y
Sanz Molina [12], debido a su gran nfasis en aplicaciones practicas, su abundancia
de ejemplos y la rigurosidad terica con que tratan la materia.


2. 1. INTRODUCCION

En el transcurso del capitulo se pretende introducir los conceptos y herramientas
bsicas necesarias para el desarrollo de los temas abordados en el capitulo 4,
principal objetivo de este trabajo.

Este capitulo se trabajo basado en referencias e investigaciones sobre los
principales detalles acerca del tema, tal que una persona que no conozca sobre el
tema se relacione con los conceptos de la materia. En primera medida se har un
recuento cronolgico breve de la historia de las redes y su evolucin a travs de los
aos, luego se har un desarrollo comparativo entre la principal fuente de ideas para
las redes neuronales artificiales, la neurona natural.

Con los conceptos bsicos ya desarrollados se entrara en la descripcin de la teora
que fundamenta el desarrollo de las redes neuronales, como son las principales
topologas y el proceso de entrenamiento.

Finalizando el capitulo se definirn topologas especificas que sern usadas
posteriormente en este trabajo como el modelo del perceptron multicapa y el
algoritmo del backpropagation.


2.2. HISTORIA

Conseguir disear y construir mquinas capaces de realizar procesos con cierta
inteligencia ha sido uno de los principales objetivos de los cientficos a lo largo de la
historia.

1936 - Alan Turing. Fue el primero en estudiar el cerebro como una forma de ver el
mundo de la computacin. Sin embargo, los primeros tericos que concibieron los
fundamentos de la computacin neuronal fueron Warren McCulloch, un
neurofisilogo, y Walter Pitts, un matemtico, quienes, en 1943, lanzaron una teora
acerca de la forma de trabajar de las neuronas (Un Clculo Lgico de la Inminente
Idea de la Actividad Nerviosa - Boletn de Matemtica Biofsica 5: 115-133). Ellos
modelaron una red neuronal simple mediante circuitos elctricos. [13]

1943 - Teora de las Redes Neuronales Artificiales. Walter Pitts junto a Bertran
Russell y Warren McCulloch intentaron explicar el funcionamiento del cerebro
humano, por medio de una red de clulas conectadas entre s, para experimentar
ejecutando operaciones lgicas. Partiendo del menor suceso psquico (estimado por
ellos): el impulso todo/nada, generado por una clula nerviosa.
El bucle "sentidos - cerebro - msculos", mediante la retroalimentacin produciran
una reaccin positiva si los msculos reducen la diferencia entre una condicin
percibida por los sentidos y un estado fsico impuesto por el cerebro. Tambin
definieron la memoria como un conjunto de ondas que reverberan en un circuito
cerrado de neuronas. [13]

1949 - Donald Hebb. Escribi un importante libro: La organizacin del
comportamiento, en el que se establece una conexin entre psicologa y fisiologa.
Fue el primero en explicar los procesos del aprendizaje (que es el elemento bsico
de la inteligencia humana) desde un punto de vista psicolgico, desarrollando una
regla de como el aprendizaje ocurra. Aun hoy, este es el fundamento de la mayora
de las funciones de aprendizaje que pueden hallarse en una red neuronal. Su idea
fue que el aprendizaje ocurra cuando ciertos cambios en una neurona eran
activados. Tambin intent encontrar semejanzas entre el aprendizaje y la actividad
nerviosa. Los trabajos de Hebb formaron las bases de la Teora de las Redes
Neuronales. [14]

1950 - Karl Lashley. En sus series de ensayos, encontr que la informacin no era
almacenada en forma centralizada en el cerebro sino que era distribuida encima de
l. [13]

1956 - Congreso de Dartmouth. Este Congreso frecuentemente se menciona para
indicar el nacimiento de la inteligencia artificial. Durante el congreso se forj el
trmino "inteligencia artificial". Asistieron, entre otros, Minsky, Simon y Newell. [13]

1957 - Frank Rosenblatt. Comenz el desarrollo del Perceptron. Esta es la red
neuronal ms antigua; utilizndose hoy en da para aplicacin como identificador de
patrones. Este modelo era capaz de generalizar, es decir, despus de haber
aprendido una serie de patrones poda reconocer otros similares, aunque no se le
hubiesen presentado en el entrenamiento. Sin embargo, tena una serie de
limitaciones, por ejemplo, su incapacidad para resolver el problema de la funcin
OR-exclusiva y, en general, era incapaz de clasificar clases no separables
linealmente, este tema acerca del perceptrn se describe con detalle en la seccin
2.10.2. Perceptron Simple. [13]

1959 - Frank Rosenblatt: Principios de Neurodinmica. En este libro confirm que,
bajo ciertas condiciones, el aprendizaje del Perceptron converga hacia un estado
finito (Teorema de Convergencia del Perceptron).[14]

1960 - Bernard Widroff/Marcian Hoff. Desarrollaron el modelo Adaline (ADAptative
LINear Elements). Esta fue la primera red neuronal aplicada a un problema real
(filtros adaptativos para eliminar ecos en las lneas telefnicas) que se ha utilizado
comercialmente durante varias dcadas. [13]

1961 - Karl Steinbeck: Die Lernmatrix. Red neuronal para simples realizaciones
tcnicas (memoria asociativa). [14]

1969 - En este ao surgieron crticas que frenaron, hasta 1982, el crecimiento que
estaban experimentando las investigaciones sobre redes neuronales. Minsky y
Papera, del Instituto Tecnolgico de Massachussets (MIT), publicaron un libro
Perceptrons. Probaron (matemticamente) que el Perceptrn no era capaz de
resolver problemas relativamente fciles, tales como el aprendizaje de una funcin
linealmente no separable. Esto demostr que el Perceptrn era muy dbil, dado que
las funciones linealmente no separable son extensamente empleadas en
computacin y en los problemas del mundo real. A pesar del libro, algunos
investigadores continuaron su trabajo. Tal fue el caso de James Anderson, que
desarroll un modelo lineal, llamado Asociador Lineal, que consista en unos
elementos integradores lineales (neuronas) que sumaban sus entradas. Este
modelo se basa en el principio de que las conexiones entre neuronas son
reforzadas cada vez que son activadas. Anderson dise una potente extensin del
Asociador Lineal, llamada Brain State in a Box (BSB). [14]

1974 - Paul Werbos. Desarroll la idea bsica del algoritmo de aprendizaje de
propagacin hacia atrs (backpropagation); cuyo significado qued definitivamente
aclarado en 1985. [13]

1977 - Stephen Grossberg: Teora de Resonancia adaptativa (TRA). La Teora de
Resonancia adaptativa es una arquitectura de red que se diferencia de todas las
dems previamente inventadas. La misma simula otras habilidades del cerebro:
memoria a largo y corto plazo. [14]

1985 - John Hopfield. Provoc el renacimiento de las redes neuronales con su libro:
Computacin neuronal de decisiones en problemas de optimizacin. [14]

1986 - David Rumelhart/G. Hinton. Redescubrieron el algoritmo de aprendizaje de
propagacin hacia atrs (backpropagation). A partir de 1986, el panorama fue
alentador con respecto a las investigaciones y el desarrollo de las redes neuronales.
En la actualidad, son numerosos los trabajos que se realizan y publican cada ao,
las aplicaciones nuevas que surgen (sobretodo en el rea de control) y las
empresas que lanzan al mercado productos nuevos, tanto hardware como software
(sobre todo para simulacin). [13]

2.3. NEURONA BIOLGICA

Se estima que el cerebro humano contiene ms de cien mil millones de neuronas y
sinpsis en el sistema nervioso humano. Estudios sobre la anatoma del cerebro
humano concluyen que hay ms de 1000 sinpsis a la entrada y a la salida de cada
neurona. Es importante notar que aunque el tiempo de conmutacin de la neurona
(unos pocos milisegundos) es casi un milln de veces menor que en las actuales
elementos de las computadoras, ellas tienen una conectividad miles de veces
superior que las actuales supercomputadoras. [13]

El objetivo principal de de las redes neuronales de tipo biolgico es desarrollar un
elemento sinttico para verificar las hiptesis que conciernen a los sistemas
biolgicos. Las neuronas y las conexiones entre ellas (sinpsis) constituyen la clave
para el procesado de la informacin.

Desde un punto de vista funcional, las neuronas
constituyen procesadores de informacin sencillos.
Como todo sistema de este tipo, poseen un canal
de entrada de informacin, las dendritas, un
rgano de cmputo, el soma, y un canal de salida,
el axn. [12]

La neurona es la clula fundamental y bsica del
sistema nervioso. Es una clula alargada,
especializada en conducir impulsos nerviosos. En
las neuronas se pueden distinguir tres partes
fundamentales, que son:

Soma o cuerpo celular: corresponde a la parte ms voluminosa de la neurona.
Aqu se puede observar una estructura esfrica llamada ncleo. ste contiene la
Figura 2.1: Neurona Biolgica
informacin que dirige la actividad de la neurona. Adems, el soma se encuentra
el citoplasma. En l se ubican otras estructuras que son importantes para el
funcionamiento de la neurona.

Dendritas: son prolongaciones cortas que se originan del soma neural. Su
funcin es recibir impulsos de otras neuronas y enviarlas hasta el soma de la
neurona.

Axn: es una prolongacin nica y larga. En algunas ocasiones, puede medir
hasta un metro de longitud. Su funcin es sacar el impulso desde el soma
neuronal y conducirlo hasta otro lugar del sistema.

Las neuronas son muy variadas en morfologa y tamao. Pueden ser estrelladas,
fusiformes, piriformes. Pueden medir no ms de cuatro micras o alcanzar las 130
micras. Tambin son muy variadas en cuanto a las prolongaciones: las dendritas y
el cilindroeje o axn. Las dendritas, de conduccin centrpeta, pueden ser nicas o
mltiples.

La unin entre dos neuronas se denomina sinapsis. En el tipo de sinapsis ms
comn no existe un contacto fsico entre las neuronas, sino que stas permanecen
separadas por un pequeo vaco de unas 0.2 micras.

En relacin a la sinapsis, se habla de neuronas presinpticas (la que enva las
seales) y postsinpticas (la que las recibe). Las sinapsis son direccionales, es
decir, la informacin fluye siempre en un nico sentido.

Las seales nerviosas se pueden transmitir elctrica o qumicamente. La
transmisin qumica prevalece fuera de la neurona, mientras que la elctrica lo hace
el interior. La transmisin qumica se basa en el intercambio de neurotransmisores
mientras que la elctrica hace uso de descargas que se producen en el cuerpo
celular y que se propagan por el axn.

La forma de comunicacin ms habitual entre dos neuronas es de tipo qumico La
neurona presinptica libera unas sustancias qumicas complejas denominadas
neurotransmisores (como el glutamato o la adrenalina), que atraviesan el vaci
sinptico. Si la neurona postsinptica posee en las dendritas o en el soma canal
sensibles a los neurotransmisores liberados, los fijarn, y como consecuencia de el
permitirn el paso de determinados iones a travs de la membrana.

Las corrientes inicas que de esta manera se crean provocan pequeos potenciales
postsinpticos excitadores (positivos) o inhibidores (negativos), que se integrarn en
el soma, tanto espacial como temporalmente; ste es el origen de la existencia de
sinapsis excitatoria y de sinapsis inhibitorias.

Si se ha producido un suficiente nmero de excitaciones, Suma de los potenciales
positivos generados puede elevar el potencial de la neuronas por encima de los -45
mV (umbral de disparo): en ese momento se abren bruscamente los Canales de
sodio, de modo que los iones Na cuya concentracin en el exterior es alta, entran
masivamente al interior, provocando la despolarizacin brusca de neurona, que
pasa de un potencial de reposo de -60 mV a unos +50 mV.

A continuacin la neurona vuelve a la situacin original de reposo de -6OmV; este
proceso constituye la generacin de un potencial de accin (Figura 1.3), que
propagarse a lo largo del axn da lugar a la transmisin elctrica de la seal
nerviosa. Tras haber sido provocado un potencial de accin, la neurona sufre un
periodo refractario durante el cual no puede generarse uno nuevo.

Un hecho importante es que el pulso as generado es digital en el sentido que
existe o no existe pulso, y todos ellos son de la misma magnitud.

Por otra parte ante una estimulacin ms intensa disminuye el intervalo entre
pulsos, por lo que la neurona se disparar a mayor frecuencia cuanto mayor sea el
nivel de excitacin. Es decir ante un estmulo mayor la frecuencia de respuesta
aumenta hasta que se alcanza una saturacin conforme se acerca a la frecuencia
mxima
La frecuencia de disparo oscila habitualmente entre 1 y 100 pulsos por segundo,
aunque algunas neuronas pueden llegar a los 500 durante pequeos perodos de
tiempo. Por otra parte, no todas las neuronas se disparan generando un tren de
pulsos de una frecuencia aproximadamente constante, pues la presencia de otras
especies inicas hace que diferentes tipos de neuronas posean patrones de disparo
distintos, en forma de trenes puros, paquetes de pulsos, o presentando patrones
ms complejos.

El mecanismo aqu descrito constituye la forma ms comn de transmisin de la
seal nerviosa, pero no el nico. Cuando la distancia que debe recorrer la seal es
menor de 1 mm la neurona puede no codificarla en frecuencia, sino enviar una seal
puramente analgica. Es decir, la evolucin biolgica encontr que a distancias
cortas la seal no se degradaba sustancialmente, por lo que poda enviarse tal cual,
mientras que a distancias largas era preciso codificarla para evitar su degradacin la
consiguiente prdida de informacin. La naturaleza descubri que la codificacin en
forma de frecuencia de pulsos digitales proporcionaba calidad, simplicidad en la
transmisin.
1
[12]


2.4. MODELO DE NEURONA ARTIFICIAL

En esta seccin se expone el modelo de neurona de los ANS. En primer lugar se
describe la estructura de una neurona artificial muy genrica, para a continuacin
mostrar una versin simplificada, de amplio uso en los modelos orientados
aplicaciones prcticas, que posee una estructura ms prxima a la neurona tipo
McCulloch-Pitts [1949].


1
Ms informacin sobre el cerebro, las neuronas y la neurotransmision en una pagina denominada el
abc de las neuronas, impulsada por el Instituto de Investigaciones Biolgicas Clemente Estable.
http://iibce.edu.uy/uas/neuronas/abc.htm
2.4.1. MODELO GENERAL

Se denomina procesador elemental o neurona a un dispositivo simple de clculo
que, a partir de un vector de entrada procedente del exterior o de otras neuronas
proporciona una nica respuesta o salida. [12]

Los elementos que constituyen la neurona de etiqueta i son los siguientes (vase la
Figura 2.2):






Conjunto de entradas, x
J
(t)

Pesos sinpticos de la neurona i, w
IJ
que representan la intensidad de
interaccin entre cada neurona presinptica j y la neurona postsinptica i.

Regla de propagacin x que proporciona el valor del potencial postsinptico h
J
(t)
= s(w
IJ
, x
J
(t)) de la neurona i en funcin de sus pesos y entradas.

Funcin de desempeo f
i
(a
I
(t-1), h
I
(t)) que proporciona el estado de activacin
actual a
I
(t) = f
i
(a
I
(t-1), h
I
(t)) de la neurona i, en funcin de su estado anterior a
I
(t-
1) y de su potencial postsinptico actual.
Figura 2.2: Modelo Genrico Neurona Artificial
Funcin de salida F
I
(a
I
(t-1), que proporciona la salida actual y
I
(t) = F
I
(a
I
(t-1) de la
neurona i en funcin de su estado de activacin.

Este modelo de neurona formal se inspira en la operacin de la biolgica, en el
sentido de integrar una serie de entradas y proporcionar cierta respuesta, que se
propaga por el axn. A continuacin se describen cada uno de los elementos. [12]

2.4.1.1. ENTRADAS Y SALIDAS.

Las variables de entrada y salida pueden ser binarias (digitales) o continuas
(analgicas), dependiendo del modelo y aplicacin. Por ejemplo, un perceptron
multicapa o MLP (Multilayer Perceptron) admite ambos tipos de seales. As, para
tareas de clasificacin poseera salidas digitales {O, +1}, mientras que para un
problema de ajuste funcional de una aplicacin multivariable continua, se utilizaran
salidas continuas pertenecientes a un cierto intervalo.

Dependiendo del tipo de salida, las neuronas suelen recibir nombres especficos.
As, las neuronas estndar cuya salida slo puede tomar los valores 0 o 1 se suelen
denominar genricamente neuronas de tipo McCulloch-

Pitts, mientras que aquellas que nicamente pueden tener por salidas -1 o + 1 se
suelen denominar neuronas tipo Ising (debido al paralelismo con los modelos fsicos
de partculas con espn que pueden adoptar nicamente dos estados, hacia arriba y
hacia abajo). Si puede adoptar diversos valores discretos en la salida (por ejemplo, -
2, + 1, +2), se dice que se trata de una neurona de tipo Potts. En ocasiones, el
rango de los valores que una neurona de salida continua se suele limitar un intervalo
definido, por ejemplo, [ +1] o [ +1]. [12]

2.4.1.2. REGLA DE PROPAGACION

La regla de propagacin permite obtener, a partir de las entradas y los pesos el
valor del potencial postsinptico h
I
de la neurona. La funcin ms habitual es de tipo
lineal, y se basa en la suma ponderada las entradas con los pesos sinpticos

que formalmente tambin puede interpretarse como producto escalar de los
vectores de entrada y los pesos. [12]

2.4.1.3. FUNCIN DE ACTIVACION

La funcin de desempeo o de transferencia proporciona el estado de actual a
I
(t) a
partir del potencial postsinptico h
I
(t) y del propio estado de anterior a
I
(t-1). Sin
embargo, en muchos modelos se considera que el estado actual de neurona no
depende de su es estado anterior, sino nicamente del actual.

La funcin de desempeo se suele considerar determinista, y en la mayor parte de
los modelos es montona creciente y continua, como se observa habitualmente en
las neuronas. Las funciones de activacin ms empleadas en muestra en la figura
2.3.

En ocasiones los algoritmos de aprendizaje requieren que la funcin de desempeo
cumpla la Condicin de ser derivable. Las ms empleadas en este sentido son las
funciones de tipo sigmoideo. [12]

Para explicar porque se utilizan estas funciones de activacin se suele emplear la
analoga a la aceleracin de un automvil. Cuando un auto inicia su movimiento
necesita una potencia elevada para comenzar a acelerar. Pero al ir tomando
velocidad, este demanda un menor incremento de dicha potencia para mantener la
aceleracin. Al llegar a altas velocidades, nuevamente un amplio incremento en la
potencia es necesario para obtener una pequea ganancia de velocidad. En
resumen, en ambos extremos del rango de aceleracin de un automvil se demanda
una mayor potencia para la aceleracin que en la mitad de dicho rango. [15]





2.4.1.4. FUNCIN DE SALIDA

Esta funcin proporciona la salida global de la neurona y en funcin de su estado de
activacin actual a
I
(t). Muy frecuentemente la funcin de salida es simplemente la
identidad f(x) = x de modo que el estado de activacin de la neurona se considera
como la propia salida. [12]
Figura 2.3: Funciones de activacin ms usuales


2.4.2. MODELO ESTANDAR




El modelo de neurona expuesto en la seccin anterior resulta muy general la
prctica suele utilizarse uno ms simple, que se denomina neurona estndar, la
neurona estndar consiste en

Un conjunto de entradas x
I
(t) y pesos sinpticos w
IJ


Una regla de propagacin es la ms comn.

Una funcin de desempeo que representa simultneamente la salida de la
neurona y su estado de activacin.

Con frecuencia se aade al conjunto de pesos de la neurona un parmetro adicional
? que se denomina umbral, que se resta del potencial postsinptico. En conclusin,
el modelo de neurona estndar queda:


Figura 2.4: Modelo de Neurona Estndar
2.5. REDES NEURONALES Y ARQUITECTURAS

Las redes neuronales artificiales (ANN) son sistemas paralelos para el
procesamiento de la informacin, inspirados en el modo en el que las redes de
neuronas biolgicas del cerebro procesan informacin. [15]

Debido a la inspiracin de las ANN en el cerebro, sus aplicaciones principales
estarn centradas en campos donde la inteligencia humana no pueda ser emulada
de forma satisfactoria por algoritmos aritmticos que pueden ser implementados en
ordenadores. Adems es de prever que dichas ANN tengan caractersticas similares
a las del cerebro:

Sern robustas i tolerantes a fallos. En el cerebro mueren todos los das gran
cantidad de neuronas sin afectar sensiblemente a su funcionamiento.

Sern flexibles. El cerebro se adapta a nuevas circunstancias mediante el
aprendizaje

Podrn trabajar con informacin borrosa, incompleta, probabilstica, con ruido o
inconsistente.

Sern altamente paralelas. El cerebro esta formado por muchas neuronas
interconectadas entre si y es precisamente el comportamiento colectivo de todas
ellas lo que caracteriza su forma de procesar la informacin.

El punto clave de las ANN es la nueva estructura de estos sistemas para el
procesamiento de la informacin. Estos estn compuestos, al igual que el cerebro,
por un nmero muy elevado de elementos bsicos (las neuronas), altamente
interconectados entre ellos y con modelo de respuesta para cada elemento en
funcin de su entorno muy parecido al comportamiento de las neuronas biolgicas.
Estos modelos son simulados en ordenadores convencionales y es el
comportamiento colectivo de todos los elementos lo que le confiere esas
caractersticas tan peculiares para la resolucin de problemas complejos. Las ANNs,
como las personas, aprenden a partir de ejemplos. Aprender en sistemas biolgicos
involucra la modificacin de la nter conectividad entre las neuronas y esto es
tambin cierto para las ANNs. [13]
Las ANNs han sido aplicadas a un creciente nmero de problemas reales de
considerable complejidad, por ejemplo reconocimiento de patrones, clasificacin de
datos, predicciones, etc. Su ventaja ms importante esta en solucionar problemas
que son demasiado complejos para las tcnicas convencionales: problemas que no
tienen un algoritmo especfico para su solucin, o cuyo algoritmo es demasiado
complejo para ser encontrado.

A continuacin se puede ver, en la Figura 2.5, un esquema de una red neuronal:




La misma est constituida por neuronas interconectadas y arregladas en tres capas
(esto ltimo puede variar). Los datos ingresan por medio de la capa de entrada,
pasan a travs de la capa oculta y salen por la capa de salida. Cabe mencionar
que la capa oculta puede estar constituida por varias capas.




Figura 2.5: Ejemplo de una red neuronal totalmente conectada
2.5.1. TIPOS DE ARQUITECTURA

Se denomina arquitectura a la topologa, estructura o patrn de conexionado de una
red neuronal. [12]
Atendiendo a distintos conceptos, pueden establecerse diferentes tipos de
arquitecturas neuronales.





As, en relacin a su estructura en capas, se puede hablar de redes monocapa y de
redes multicapa. Las redes monocapa son aquellas compuestas por una nica capa
de neuronas. Las redes multicapa (layered networks) son aquellas cuyas neuronas
se organizan en varias capas.
Asimismo, atendiendo al flujo de datos en la red neuronal, se puede hablar de redes
unidireccionales (feedforward) y redes recurrentes (feedback). En las redes
unidireccionales la informacin circula en un nico sentido, desde las neuronas de
entrada hacia las de salida. En las redes recurrentes o realimentadas la informacin
puede circular entre las capas en cualquier sentido, incluido el de salida-entrada.

Por ltimo, tambin se habla de redes autoasociativas y heteroasociativas. Con
frecuencia se interpreta la operacin de una red neuronal como la de una memoria
Figura 2.6: Ejemplos de arquitecturas neuronales
asociativa que ante un determinado patrn de entradas responde con un cierto
patrn

Si una red se entrena para que ante la presentacin de un patrn A responda otra
diferente B, se dice que la red es heteroasociativa. Si una red es entrenada para
que asocie un patrn A consigo mismo, se dice que es autoasociativa.


2.6. APRENDIZAJE DE UNA RED NEURONAL

El aprendizaje es el proceso por el cual una red neuronal modifica sus pesos en
respuesta a una informacin de entrada. Los cambios que se producen durante el
mismo se reducen a la destruccin, modificacin y creacin de conexiones entre las
neuronas. Una red neuronal debe aprender a calcular la salida correcta para cada
constelacin (arreglo o vector) de entrada en el conjunto de ejemplos. [15]

Este proceso de aprendizaje se denomina: Proceso de Entrenamiento o
Acondicionamiento. El conjunto de datos (o conjunto de ejemplos) sobre el cual este
proceso se basa es, por ende, llamado: Conjunto de datos de Entrenamiento.

Durante el proceso de aprendizaje, los pesos de las conexiones de la red sufren
modificaciones, por lo tanto, se puede afirmar que este proceso ha terminado (la red
ha aprendido) cuando los valores de los pesos permanecen estables, si los pesos
cambian y sus valores son iguales a 0, se dice que la conexin de la red se ha
destruido. De esta manera, se dice que los pesos se han adaptado, ya que sus
valores son distintos de 0 y su derivada es igual a 0.

En otras palabras el aprendizaje es el proceso por el cual una red neuronal modifica
sus pesos en respuesta a una informacin de entrada. Los cambios que se
producen durante el mismo se reducen a la destruccin, modificacin y creacin de
conexiones entre las neuronas.

Un aspecto importante respecto al aprendizaje de las redes neuronales es el
conocer cmo se modifican los valores de los pesos, es decir, cules son los
criterios que se siguen para cambiar el valor asignado a las conexiones cuando se
pretende que la red aprenda una nueva informacin. [13]
Clsicamente se distinguen dos modos de operacin en los sistemas neuronales el
modo recuerdo o ejecucin, y el modo aprendizaje o entrenamiento.


2.6.1. FASE DE APRENDIZAJE. CONVERGENCIA

Hay dos mtodos de aprendizaje importantes que pueden distinguirse:

Aprendizaje supervisado.
Aprendizaje no supervisado.

2.6.1.1. APRENDIZAJE SUPERVISADO

El aprendizaje supervisado se caracteriza porque el proceso de aprendizaje se
realiza mediante un entrenamiento controlado por un agente externo (supervisor,
maestro) que determina la respuesta que debera generar la red a partir de una
entrada determinada. El supervisor controla la salida de la red y en caso de que sta
no coincida con la deseada, se proceder a modificar los pesos de las conexiones,
con el fin de conseguir que la salida obtenida se aproxime a la deseada. En este tipo
de aprendizaje se suelen considerar, a su vez, tres formas de llevarlo a cabo, que
dan lugar a los siguientes aprendizajes supervisados:

Aprendizaje por correccin de error: Consiste en ajustar los pesos de las
conexiones de la red en funcin de la diferencia entre los valores deseados y los
obtenidos a la salida de la red, es decir, en funcin del error cometido en la
salida.

Aprendizaje por refuerzo: Se trata de un aprendizaje supervisado, ms lento que
el anterior, que se basa en la idea de no disponer de un ejemplo completo del
comportamiento deseado, es decir, de no indicar durante el entrenamiento
exactamente la salida que se desea que proporcione la red ante una
determinada entrada. En el aprendizaje por refuerzo la funcin del supervisor se
reduce a indicar mediante una seal de refuerzo si la salida obtenida en la red
se ajusta a la deseada (xito = +1 o fracaso = -1), y en funcin de ello se ajustan
los pesos basndose en un mecanismo de probabilidades. Se podra decir que
en este tipo de aprendizaje la funcin del supervisor se asemeja ms a la de un
crtico (que opina sobre la respuesta de la red) que a la de un maestro (que
indica a la red la respuesta concreta que debe generar), como ocurra en el caso
de supervisin por correccin del error.

Aprendizaje estocstico: Consiste bsicamente en realizar cambios aleatorios en
los valores de los pesos de las conexiones de la red y evaluar su efecto a partir
del objetivo deseado y de distribuciones de probabilidad. En pocas palabras el
aprendizaje consistira en realizar un cambio aleatorio de los valores de los
pesos y determinar la energa de la red. Si la energa es menor despus del
cambio, es decir, si el comportamiento de la red se acerca al deseado, se acepta
el cambio; si, por el contrario, la energa no es menor, se aceptara el cambio en
funcin de una determinada y preestablecida distribucin de probabilidades.

2.6.1.2. APRENDIZAJE NO SUPERVISADO

Las redes con aprendizaje no supervisado (tambin conocido como
autosupervisado) no requieren influencia externa para ajustar los pesos de las
conexiones entre sus neuronas. La red no recibe ninguna informacin por parte del
entorno que le indique si la salida generada en respuesta a una determinada
entrada es o no correcta. Estas redes deben encontrar las caractersticas,
regularidades, correlaciones o categoras que se puedan establecer entre los datos
que se presenten en su entrada.

Existen varias posibilidades en cuanto a la interpretacin de la salida de estas
redes, que dependen de su estructura y del algoritmo de aprendizaje empleado. En
cuanto a los algoritmos de aprendizaje no supervisado, en general se suelen
considerar dos tipos, que dan lugar a los siguientes aprendizajes:

Aprendizaje hebbiano: Esta regla de aprendizaje es la base de muchas otras, la
cual pretende medir la familiaridad o extraer caractersticas de los datos de
entrada. El fundamento es una suposicin bastante simple: si dos neuronas Ni y
Nj toman el mismo estado simultneamente (ambas activas o ambas inactivas),
el peso de la conexin entre ambas se incrementa. Las entradas y salidas
permitidas a la neurona son: {-1, 1} o {0, 1} (neuronas binarias). Esto puede
explicarse porque la regla de aprendizaje de Hebb se origin a partir de la
neurona biolgica clsica, que solamente puede tener dos estados: activa o
inactiva.

Aprendizaje competitivo y comparativo: Se orienta a la clusterizacin o
clasificacin de los datos de entrada. Como caracterstica principal del
aprendizaje competitivo se puede decir que, si un patrn nuevo se determina
que pertenece a una clase reconocida previamente, entonces la inclusin de
este nuevo patrn a esta clase matizar la representacin de la misma. Si el
patrn de entrada se determin que no pertenece a ninguna de las clases
reconocidas anteriormente, entonces la estructura y los pesos de la red neuronal
sern ajustados para reconocer la nueva clase.


2.6.2. FASE DE RECUERDO O EJECUCIN. ESTABILIDAD

Generalmente (aunque no en todos los modelos), una vez que el sistema ha sido
entrenado, el aprendizaje se desconecta por lo que los pesos y la estructura quedan
fijos, estando la red neuronal ya dispuesta para procesar datos. Este modo de
operacin se denomina modo recuerdo (recall) o de ejecucin. [12]

En las redes unidireccionales, ante un patrn de entrada, las neuronas responden
proporcionando directamente la salida del sistema. Al no existir bucles de
realimentacin no existe ningn problema en relacin con su estabilidad. Por el
contrario, las redes con realimentacin son sistemas dinmicos no lineales, que
requieren ciertas condiciones para que su respuesta acabe convergiendo a un
estado estable o punto fijo. Una serie de teoremas generales como el Teorema de
Cohen Grossberg Kosko
2
, indican las condiciones que aseguran la estabilidad
de la respuesta en una amplia gama de redes neuronales, bajo determinadas
condiciones.

Para demostrar la estabilidad del sistema, estos teoremas se basan en el mtodo de
Lyapunov
3
, como alternativa al mucho ms tedioso mtodo directo.

El mtodo de Lyapunov constituye una manera asequible de estudiar la estabilidad
de un sistema dinmico. Es interesante observar que con la formulacin matemtica
planteada en este mtodo simplemente se est expresando que si se es capaz de
encontrar una cierta funcin energa del sistema, que disminuya siempre en su
operacin, entonces el sistema es estable. [12]

Una tcnica similar emple Hopfield para demostrar que su modelo de red
completamente interconectada era estable en de que la matriz de pesos sinpticos
fuese simtrica y de diagonal nula.

Esta tcnica es tambin la que Cohen, Grossberg y Kosko han aplicado en los
teoremas citados para demostrar la estabilidad de una amplia clase de redes
neuronales realimentadas, autoasociativas y heteroasociativas. As, el teorema de
Cohen-Grossber determina las condiciones de estabilidad para redes
autoasociativas no adaptativas, el de Cohen-Grossberg-Kosko, establece las

2
El enunciado completo de los teorema as como el desarrollo y la explicacin de ellos se pueden ver
en
http://www.nsi.edu/users/izhikevich/publications/arbib.pdf
3
Para mas informacin sobre el mtodo de Lyapunov, ver el articulo Sobre el Mtodo de Lyapunov
en http://www.red -mat.unam.mx/foro/volumenes/vol010/volten_2.html
condiciones de estabilidad para redes autoasociativas adaptativas; y, por ltimo, el
teorema ABAM de Kosko lo hace pata redes adaptativas heteroasociativas.

2.7. CLASIFICACION DE LOS MODELOS NEURONALES

Dependiendo del modelo concreto de neurona que se utilice, de la arquitectura o
topologa de la conexin, y del algoritmo de aprendizaje, surgirn distintos modelos
de redes neuronales.

De la multitud de modelos y variantes que de hecho existen, unos cincuenta son
medianamente conocidos, aunque tan slo aproximadamente una quincena son
utilizados con asiduidad en las aplicaciones prcticas. Por lo tanto, para llevar a
cabo el estudio sistemtico de los modelos se precisa algn tipo de clasificacin.

Los dos conceptos que ms caracterizan un modelo neuronal son el aprendizaje y la
arquitectura de la red, por ello, se considera que la clasificacin debe atender
ambos aspectos.




Figura 2.7 Clasificacin de los ANS por el tipo de aprendizaje y arquitectura

De esta manera, en primer lugar, se realiza una distincin en cuanto al tipo de
aprendizaje, por lo que aparece una primera clasificacin en modelos supervisados,
no supervisados, de aprendizaje hbrido y modelos de aprendizaje reforzado. A su
vez, y dentro de cada uno de los grandes grupos, tendremos en cuenta el tipo de
topologa de la red, por lo que se distinguir adems entre redes realimentadas y
redes unidireccionales (no realimentadas). La clasificacin que surge se muestra en
la Figura 2.7. [12]

Se puede apreciar que el conjunto de modelos de redes no realimentadas y de
aprendizaje supervisado es el ms numeroso. Esta clase de modelos resulta
especialmente importante por varias razones: por su inters histrico, generalidad,
por ilustrar una amplia clase de aspectos que aparecen con frecuencia en todo el
campo de las redes neuronales (memoria asociativa, clasificacin, aproximacin
funcional, etc.), y adems por ser los sistemas neuronales ms empleados en las
aplicaciones prcticas.

2.8. COMPUTABILIDAD NEURONAL

Establecidos los. ANS como un estilo de procesamiento alternativo complementario
al clsico basado en computadores digitales serie (tipo von Neumann), se hace
necesario profundizar en sus caractersticas computacionales. Es bien sabido que
un ordenador digital constituye una mquina universal de Turing, por lo que puede
realizar cualquier cmputo. Adems, al estar construido en base a funciones lgicas,
se deduce que cualquier problema computacional puede ser resuelto con funciones
booleanas.

Se ha discutido extensamente sobre las caractersticas computacionales de los
ANS, demostrndose en particular que, al igual que los computadores digitales
convencionales, las redes neuronales son formalmente capaces de resolver
cualquier problema computacional.[12].

Por lo tanto, los ANS, como los ordenadores convencionales, son mquinas
universales, por lo que para resolver un determinado problema, cualquiera de las
dos aproximaciones sera perfectamente vlida, en principio.

La cuestin que entonces surge es, dado un problema, cul de las dos alternativas,
procesamiento neuronal o convencional, resulta ms eficiente en su resolucin.
Estudiando en el campo de las redes neuronales los aspectos relacionados con la
complejidad computacional, en varios estudios se deduce que los problemas que
requieren un extenso algoritmo o que precisan almacenar un gran nmero de datos,
aprovechan mejor la estructura de una red neuronal que aquellos otros que
requieren algoritmos cortos. As, un ordenador digital resulta ms eficiente en la
ejecucin de tareas aritmticas y lgicas, mientras que un ANS resolver mejor
problemas que deban tratar con grandes bases de datos que almacenen ingentes
cantidades de informacin, y en los que existan muchos casos particulares, como
sucede en los problemas de reconocimiento de patrones en ambiente natural.

De esta manera podemos concluir que un estilo de computacin no es mejor que el
otro, simplemente para cada problema particular se deber elegir el mtodo ms
adecuado, y en el caso de problemas muy complejos, stos deberan ser separados
en partes, para resolver cada una mediante el mtodo ms idneo.[12]


2.9. REALIZACIN Y APLICACIONES DE LAS REDES NEURONALES

El modo ms habitual de realizar una red neuronal consiste en simularla en un
ordenador convencional, como un PC o una estacin de trabajo, haciendo uso de
programas escritos en lenguajes de alto nivel, como C o Pascal. Aunque de esta
manera se pierde su capacidad de clculo en paralelo, las prestaciones que ofrecen
los ordenadores actuales resultan suficientes para resolver numerosos problemas
prcticos, permitiendo la simulacin de redes de tamao considerable a una
velocidad razonable. Esta constituye la manera ms barata y directa de realizar una
red neuronal. Adems, no es necesario que cada diseador confeccione sus propios
simuladores, pues hay disponible comercialmente software de simulacin que
permite el trabajo con multitud de modelos neuronales.

En el resto de las maneras de realizar un ANS se trata de aprovechar, en mayo o
menor medida, su estructura de clculo paralelo. Un paso adelante en este sentido
consiste en simular la red sobre computadores con capacidad de clculo paralelo
(sistemas multiprocesador, mquinas vectoriales, masivamente paralelas...). Una
orientacin diferente consiste en llevar a cabo la emulacin hardware de la red
neuronal, mediante el empleo de sistemas de clculo expresamente diseados para
realizar ANS basados, o en microprocesadores de altas prestaciones (RISC DSP...),
o en procesadores especialmente diseados para el trabajo con redes neuronales.
Estas estructuras se suelen denominar placas aceleradoras neuroemuladores o
neurocomputadores de propsito general. Algunos sistemas de desarrollo de redes
neuronales, adems de un software de simulacin, incluyen dispositivos de este
tipo, en forma de tarjetas conectables al bus de un PC.

La realizacin electrnica de redes neuronales es un campo muy activo, abordado
tanto por grupos de investigacin universitarios como por empresas de los sectores
de la electrnica e informtica. Compaas como Siemens, Philips, Hitachi, AT&T,
IBM o Intel han puesto en marcha desde mediados de los aos ochenta programas
de investigacin y desarrollo en este campo. Asimismo, se han creado diversas
empresas que tratan de explotar comercialmente (con mejor o peor fortuna) estos
nuevos desarrollos. [12]

Las aplicaciones ms habituales de las redes neuronales son las relacionadas con
clasificacin, estimacin funcional y optimizacin; en general, el del reconocimiento
de patrones suele considerarse como un denominador comn. Se pueden sealar,
entre otras, las siguientes reas de aplicacin de los sistemas neuronales:
reconocimiento del habla, reconocimiento de caracteres, visin, robtica, control,
procesamiento de seal, prediccin, economa, defensa, bioingeniera, etc.
Asimismo, se estn aplicando ANS para incorporar aprendizaje en los sistemas
borrosos y a la confeccin de sistemas expertos conexionistas. Un rea de intenso
trabajo es el del tratamiento de la informacin econmica, siendo uno de los grupos
punteros el de A.N. Refenes, de la London Businnes School.

Otra de las reas importantes es la industria. Fujitsu, Kawasaki y Nippon Steel
emplean ANS en el control de procesos industriales, como por ejemplo en plantas
de produccin de acero. Siemens aplica redes neuronales y sistemas borrosos en la
fabricacin de celulosa en laminadoras y en galvanizadoras. Citren emplea redes
neuronales en la determinacin de la calidad del material utilizado en la confeccin
de los asientos de los vehculos, Ford en reduccin de contaminantes y Renault
para detectar averas en el encendido de los automviles.
4


2.10. REDES NEURONALES SUPERVISADAS

En esta parte del capitulo se trataran los modelos de redes mas populares, as como
sus principales algoritmos, se inicia con los modelos mas sencillos, esto con el fin de
ir introduciendo los conceptos necesarios para describir el perceptron y el algoritmo
denominado backpropagation que servirn de base terica para la experimentacin
hecha en el capitulo 4. No se desarrollaran las redes neuronales no supervisadas
debido a que no son redes diseadas para la forma en que se predicen series de
tiempo, principal objetivo de este trabajo.


2.10.1. ASOCIADOR LINEAL

Este modelo, mediante una transformacin lineal, asocia un conjunto de patrones de
entrada a otros de salida. El asociador lineal consta nicamente de una capa de
neuronas lineales, cuyas entradas las denotamos por x y sus salidas por y, vector
que constituye adems la respuesta de la red neuronal.


4
Un ndice muy completo de aplicaciones de las RNA se pude encontrar en http://www.ip-
atlas.com/pub/nap/
Asimismo, denotaremos por W = {w
ij
} a la matriz de pesos, cada fila de W contiene
los pesos de una neurona w
i.


La operacin del asociador lineal es simplemente

O bien



Por lo tanto, cada neurona i del asociador lineal lleva a cabo la suma ponderada de
las entradas con sus pesos sinpticos. Es decir esta neurona calcula el potencial
postsinptico por medio de la convencional suma ponderada, cantidad a la que
aplica finalmente una funcin activacin de tipo identidad.



El problema se centra en encontrar la matriz de pesos W ptima en el sentido
descrito anteriormente en este capitulo. Para ello, en el campo de las redes
neuronales normalmente se hace uso de una regla de aprendizaje, que a partir de
las entradas y de las salidas deseadas (en el caso del aprendizaje supervisado),
proporcione el conjunto ptimo de pesos W.
5
[12]

5
Algo mas sobre el asociador lineal puede ser consultado en
http://www.comp.nus.edu.sg/~pris/AssociativeMemory/LinearAssociator.html
2.10.1.1. REGLA DE APRENDIZAJE DE HEBB

Uno de los modelos clsicos de aprendizaje de redes neuronales es el propuesto
por Hebb (1949), el cual postulo un mecanismo de aprendizaje para una neurona
biolgica, cuya idea bsica consiste en que cuando un axn presinaptico causa la
activacin de cierta neurona pos-sinptica, la eficacia de la sinapsis que las
relaciona se refuerza.[12]

Si bien este tipo de aprendizaje es simple y local, su importancia radica en que fue
pionero tanto en neurociencias como en neurocomputacin, de ah que otros
algoritmos mas complejos lo tomen como punto de partida.

De manera general se denomina aprendizaje Hebbiano a un aprendizaje que
involucra una modificacin en los pesos, ?w
ij
proporcional al producto de una
entrada xj y de una salida yi de la neurona. Es decir, ?wij = ey
i
x
j
, donde a 0<e<1 se
le denomina ritmo de aprendizaje. [12]

Consideremos el caso del asociador lineal. La regla de Hebb se expresa en este
caso particular as

Por lo tanto, el algoritmo de entrenamiento regla de Hebb para el asociador lineal
es:


Si los pesos de partida son nulos, el valor final de W para las p asociaciones ser:


2.10.1.2. REGLA DE LA PSEUDOINVERSA

La regla de aprendizaje de Hebb ha sido introducida debido a su plausibilidad
biolgica. Sin embargo, en general se tratar de deducir los algoritmos de
aprendizaje a partir de un cierto criterio a optimizar; el aprendizaje usualmente se
plantear como un procedimiento para alcanzar el conjunto de pesos ptimo que
resuelva un problema dado. Para ello se hace necesario definir el significado de
ptimo en cada caso concreto, es decir, hay que proponer un criterio que mida el
rendimiento de la red neuronal para encontrar una regla de actualizacin de pesos
que lo optimice. Una forma habitual de definir el rendimiento es el error cuadrtico
medio de las salidas actuales de la red respecto de las deseadas. Para el asociador
lineal se tendra



De este modo, un algoritmo de aprendizaje para el asociador lineal debera obtener
un conjunto de pesos que minimicen esta expresin del error. Si denominamos X a
una matriz nxp que tiene por columnas los vectores de entrada x
U
, X = (x
1
, x
2
,,x
p
)
y si llamamos Y a la matriz mxp cuyas columnas son los vectores de salida y
U
, Y =
(y
1
, y
2
,,y
p
), la ecuacin anterior se transforma en


Con esta nomenclatura, la regla de Hebb se expresa de la forma siguiente:



Una regla de aprendizaje basada en la utilizacin de la matriz pseudoinversa puede
escribirse como:

Donde X
+
denota la pseudoinversa de X. Debido a que ambas reglas son ptimas
segn el mismo criterio, la regla de Hebb y la de la pseudoinversa deben estar muy
relacionadas. Esta circunstancia es fcil de apreciar, pues si consideramos un
conjunto de vectores de entrada ortonormales, la regla de la pseudoinversa se
convierte en la de Hebb. Por otra parte, si se realiza la expansin en serie de la
ecuacin de la pseudoinversa, el primer trmino de la serie es Precisamente la
ecuacin de la regla de Hebb. Es decir, la regla de Hebb representa en el fondo un
caso particular de la ms general regla de la pseudoinversa. [12]


2.10.2. PERCEPTRON SIMPLE

La red tipo Perceptrn fue inventada por el psiclogo Frank Rosenblatt en el ao
1957. Su intencin era ilustrar algunas propiedades fundamentales de los sistemas
inteligentes en general, sin entrar en mayores detalles con respecto a condiciones
especficas y desconocidas para organismos biolgicos concretos. Rosenblatt crea
que la conectividad existente en las redes biolgicas tiene un elevado porcentaje de
aleatoriedad, por lo que se opona al anlisis de McCulloch Pitts en el cual se
empleaba lgica simblica para analizar estructuras bastante idealizadas.

Rosenblatt opinaba que la herramienta de anlisis ms apropiada era la teora de
probabilidades, y esto lo llev a una teora de separabilidad estadstica que utilizaba
para caracterizar las propiedades ms visibles de estas redes de interconexin
ligeramente aleatorias.

El primer modelo de Perceptrn fue desarrollado en un ambiente biolgico imitando
el funcionamiento del ojo humano, el fotoperceptrn como se le llamo era un
dispositivo que responda a seales pticas; como se muestra en el figura 2.9 la luz
incide en los puntos sensibles (S) de la estructura de la retina, cada punto S
responde en forma todo-nada a la luz entrante, los impulsos generados por los
puntos S se transmiten a las unidades de asociacin (A) de la capa de asociacin;
cada unidad A est conectada a un conjunto aleatorio de puntos S, denominados
conjunto fuente de la unidad A, y las conexiones pueden ser tanto excitatorias como
inhibitorias. [13]






De forma similar, las unidades A estn conectadas a unidades de respuesta (R)
dentro de la capa de respuesta y la conectividad vuelve a ser aleatorio entre capas,
pero se aaden conexiones inhibitorias de realimentacin procedentes de la capa de
respuesta y que llegan a la capa de asociacin, tambin hay conexiones inhibitorias
entre las unidades R.



El perceptrn simple es un modelo unidireccional, compuesto por dos capas de
neuronas, una sensorial o de entradas, y otra de salida (Figura 2.10). La operacin

Figura 2.9: Modelo del Fotoperceptrn de Rosenblatt
Figura 2.10: Arquitectura (izquierda) y funcin de transferencia (derecha) de un perceptrn simple

de una red de este tipo, con n neuronas de entrada y m de salida, se puede
expresar como [12]



Las neuronas de entrada no realizan ningn cmputo, nicamente envan la
informacin (en principio consideraremos seales discretas {O, +1)) a las neuronas
de salida (en el modelo original estas neuronas de entrada representaban
informacin ya procesada, no datos directamente procedentes del exterior).

La funcin de desempeo las neuronas de la capa de salida es de tipo escaln. As,
la operacin de un perceptrn simple puede escribirse



con H(.) la funcin de Heaviside o escaln. El perceptrn puede utilizarse tanto
como clasificador, como para la representacin de funciones booleanas, pues su
neurona es esencialmente de tipo MacCulloch-Pitts, de salida binaria. La
importancia terica del perceptrn radica en su carcter de dispositivo entrenable,
pues el algoritmo de aprendizaje del modelo introducido por Rosenblatt, y que se
describir mas adelante, permite determinar automticamente los pesos sinpticos
que clasifican conjunto de patrones a partir de un conjunto de ejemplos etiquetados.
[12]

Se mostrara a continuacin que un perceptrn permite realizar tareas de
clasificacin. Cada neurona del perceptrn representa una determinada clase, de
modo que dado un vector de entrada, una cierta neurona responde con 0 si no
pertenece a la se que representa, y con un 1 si s pertenece. Es fcil ver que una
neurona tipo perceptrn solamente permite discriminar entre dos clases linealmente
separables (es decir, cuyas regiones de decisin pueden ser separadas mediante
una nica condicin lineal o hiperplano Sea una neurona tipo perceptrn de dos
entradas, x
1
y x
2
con salida y, cuya operacin se define por lo tanto


o bien


Si consideramos x y x situadas sobre los ejes de abscisas y ordenadas en el plano,
la condicin

representa una recta (hiperplano, si trabajamos con n entradas) que divide el plano
(espacio) en dos regiones, aquellas para las que la neurona proporciona una salida
0 o 1, respectivamente (Figura 2.11). Luego, efectivamente, una neurona tipo
perceptrn representa un discriminador lineal, al implementar una condicin lineal
que separa dos regiones en el espacio, que representan dos diferentes clases de
patrones.



Figura 2.11: Regin de decisin correspondiente a un perceptrn simple con dos neuronas
de entrada

Consideremos la funcin lgica NAND, (AND negada de dos entradas), que
representamos sobre el plano (Figura 2.12a). En este caso pueden encontrarse
unos parmetros w
1
y w
2
y ? que determinen una recta que separa perfectamente
las regiones correspondientes a los valores lgicos 0 y 1. Por ello, la funcin lgica
NAND se dice separable linealmente, puesto que hemos podido encontrar una nica
condicin lineal que divida ambas regiones Por ejemplo, un perceptrn con los
siguientes parmetros implementa la funcin NAND: w
1
= w
2
= -2 y ? = -3



Sin embargo consideremos la funcin lgica or - exclusivo o XOR (su salida es el 0
lgico si las variables de entrada son iguales y 1 si son diferentes), se representa en
el plano (Figura 2.12b).

En este caso podemos apreciar que no se puede encontrar una nica condicin
lineal que separe las regiones a los valores de salida O y 1, por lo que se dice que la
XOR no es linealmente separable. Como la neurona del perceptron representa en el
fondo un discriminador lineal, esta neurona por s sola no puede implementar la
funcin XOR.

Por lo tanto, concluimos con que la clase de funciones no separables linealmente no
puede ser representada por un perceptrn simple. [12]

Minsky (uno de los padres de la IA) y Papert estudiaron en profundidad el
perceptrn, y en 1969 publicaron un exhaustivo trabajo en el que se subrayaba sus
Figura 2.12: Funciones lgicas NAND (a) y XOR (b)

limitaciones, lo que result decisivo para que muchos de los recursos que se
estaban invirtiendo en redes neuronales se desviasen hacia otros campos ms
prometedores entonces, como era en la poca el de la inteligencia artificial. A finales
de los sesenta ya se apuntaba como solucin a las limitaciones del perceptrn
introducir capas ocultas, pero el problema resida en que si bien se dispona de un
algoritmo de aprendizaje para el perceptrn simple, el denominado algoritmo del
perceptrn (se explicara el algoritmo en la siguiente seccin), no se dispona de
ningn procedimiento que permitiese obtener automticamente los pesos en uno
multicapa, con neuronas ocultas.

Este problema denominado de asignacin de crdito a las neuronas sin conexin
directa con el exterior (consistente en cmo medir la contribucin al error en la
salida de la red neuronal de cada uno de los nodos ocultos que precisamente no
tienen una conexin directa con ella) fue resuelto no mucho ms tarde por Paul
Werbos, pero fue preciso esperar hasta mediados de los aos ochenta para que el
grupo PDP junto con otros grupos de forma independiente) redescubriera un
algoritmo similar que denominaron back-propagation o BP, y diera a conocer a la
comunidad internacional su gran potencial para la resolucin de problemas
prcticos.[12]

2.10.2.1. ALGORITMO DE APRENDIZAJE DEL PERCEPTRON

La importancia del perceptrn radica en su carcter de dispositivo entrenable pues
el algoritmo de aprendizaje introducido por Rosenblatt permite que el perceptrn
determine automticamente los pesos sinpticos que clasifican un determinado
conjunto de patrones etiquetados. El del perceptrn es un algoritmo de aprendizaje
de los denominados por correccin de errores. Los algoritmos de este tipo (en el
que se incluyen posteriormente tambin el de la adaline y el BP) ajustan los pesos
en proporcin a la diferencia existente entre la salida actual de la red y la salida
deseada, con el objetivo de minimizar el error actual de la red.

Sea un conjunto de p patrones x
U
, u.=1,,p, con sus salidas deseadas t
U
. Tanto las
entradas como las salidas solamente pueden tomar los valores -1 o 1 (o bien, 0 o 1,
segn se definan los niveles lgicos). Se tiene una arquitectura de perceptrn
simple, con pesos iniciales aleatorios, y se requiere que clasifique correctamente
todos los patrones del conjunto de aprendizaje (lo cual es posible solamente si son
linealmente separables).

Se decidir del siguiente modo, ante la presentacin del patrn u-simo, si la
respuesta que proporciona el perceptrn es correcta, no se actualizaran los pesos;
si es incorrecta, segn la regla de Hebb de la seccin 2.9.1.1. Se tiene


que se puede reescribir del siguiente modo


que es la forma habitual de expresar la regla del perceptrn. En su utilizacin
prctica, se debe llegar a un compromiso para el valor del ritmo de aprendizaje ?,
puesto que un valor pequeo implica un aprendizaje lento, mientras que uno
excesivamente grande puede conducir a oscilaciones en el entrenamiento, al
introducir variaciones en los pesos excesivamente amplias. Al ser las entradas y las
salidas discretas {-1, 1}, tambin lo ser la actualizacin de los pesos, que
nicamente podr tomar los valores 0 o 2? .


2.10.3. ADALINE

Al mismo tiempo que Frank Rosenblatt trabajaba en el modelo del Perceptrn
Bernard Widrow y su estudiante Marcian do introdujeron el modelo de la red
Adaline y su regla de aprendizaje llamada algoritmo LMS (Least Mean Square). El
trmino Adaline es una sigla, sin embargo su significado cambi ligeramente a
finales de los aos sesenta cuando decay el estudio de las redes neuronales,
inicialmente se llamaba Adaptive Linear Neuron (Neurona Lineal Adaptiva), para
pasar despus a ser Adaptive Linear Element (Elemento Lineal doptivo), este
cambio se debi a que la Adaline es un dispositivo que consta de un nico elemento
de procesamiento, como tal no es tcnicamente una red neuronal. La estructura
general de la red tipo Adaline puede visualizarse en la figura 2.13. [17]

A diferencia del asociador lineal, la adaline incorpora un parmetro adicional
denominado bias, el cual no debe de ser considerado como un umbral de disparo,
sino como un parmetro que proporciona un grado de libertad adicional al modelo.








Teniendo en cuenta lo anterior, la ecuacin de la adaline resulta ser:


con i = 1, ,m.

También podría gustarte