Está en la página 1de 42

.

•-------- -

-
,
--
_.
---- ==-"'- ~ --..,
-:-::::::=

~---
--

.;:;:1;
...•
~--.-'-
~---
-.-rlo
-~ -
-

CAPiTULO 1
04 -
~

FUNDAMENTOSDE LAS REDES


~
5 NEURONALES ARTIFICIALES
~~~
----------_._~._._---_.~~~-~_._------------ .....•..•..
S
- -----_._---~-------------_ .. _-- ---- ----- ----_ ....• _-_.-
_~t-

~- A 10 largo de estc capitulo l'xpondrcmos los rundalllcntos b,isicos de las rcdl's


-~-~
~ nellronales artifieialcs 0 ANS (Artificial Neural Systems). Asi, deseribiremos los
aspectos cseneiales de los ANS. espccialmcnte los rclacionaoos can la cstructura de Ja
neurona artificial y de la arquitectura de la rcd. Posteriormente expondrcmos una
serie de teoremas generales que proporeionan soliocz teorica al campo de la
computaci6n neuronal. POl' illtimo, comcntarcmos brcvcmcnte las arcas de aplicaci6n
practicade las reoesneuronalcs. - . . .-...
El cstudio de los ANS pucde oricntarse ell oos dirccciones, bien C01110Illodelos
-~
-", deisistcllla nervloso y' los rCn(ll11Cn{)S cognitivlJs. bien comoherralllientiis para Iii
rcsoluci6n de.problemas practicos; esle llltimo preeisamente sera eI punto de vistique

T -.~--

~
mas nos interesara. En este sentido, consideraremos que las redes neuronales
artificiales son sistemas, hnnlwarc (I soli ware, de proeesamiento, que copian
esquematicamente la estruetura neuronal del cerebra pnra tratar de rcpradllcir sus
capacidades, Los ANS SOilcapnccs aSI de aprender de la expericnciaa partir de las
sciiales'o datos' provcnic,{{csdcl exterior, dentro dCllll marco de eOll1piita-cionparaIcia
.;-.Jt
y distribuida, faeilmcnteimplc1llcntablc en dispositivos hardware cspccilicos .
--~--

~
~
~ 1.1 BREVE INTRODUCCION BIOLOGICA
~
.t
An(es de abordar el csluuil) de los !\NS erecmos convcnicntc exponcr algunos
~-- conceptos bflsicos de los sistemas neuronalcs biol()gicos, para poder establecer mas
"I racilmcntc cl paralclisll10 existcnte cntre ambos. '
-~--

-~ -

-~-

H
-:s--
4 REDES NELJRONAI.ES Y SISTEMAS 1l0RROSOS {~'RA.MA 1.)1(A-MA
CAPiTUl.O I: I'UNDAMENTOS DE I.AS J(EDI,S NElJRONAI.ES ARTIFICIAI.ES 5

-=---
formas, aunque much as dl: elias presentan un aspecto similar muy peculi-a--.(I"~~--
--.-- 'I... 'Igura--
1.1), con un cuerpo celular 0 soma (de entre lOy 80 micras de longitud), del qu
Axon ~ . b 1 I .fi . .' e surge --
-"> un d enso ar 0 cerami IcaClones (ar~ol dendritico) cumpuesto por las dendritas, y del
cU,al parte una fibra tubular denolllinada axon (cuya longitud varia desde las -100---
II1lcras hasta cl metro en el easa de las neuranas moloras I), que lambien se ramifica en
su extremo final para conectar eon otras neuronas.

Dl:sde un punto de vista fllncional, las neuronas constituycn procesadores de


in!l)rmacion sencillus. Como todo sistema de estl: tipo, posecn un canal de entrada de
inf~)r~llaci{lIl, I~s dendritas, un organo de compllto, cl soma, y un canal de salida, el
axon-. En las Intemeuronas el aX(ln envia la informacion a otras neuronas, mielllras
-~-,
,., que en las neuronas lI1otoras 10 hace directaml:nte almllSCttlO. Existe un tercer tipo de
Figura 1.1 £slrucfura de una nellrona biol6gica tipica nl:Ul'Onas, las rl:ceptoras 0 sensoras, quc l:n vez de recibir la infonnacion de otras
~ neuronas, la reciben. dircctamentc del exterior (tal sllccdc, par ejemplo, en los conos y
-~
La histaria de las redes neuronales artifieiales eOlllenzaria con el cienlifico i bast ones de la retma). Se ca!Cula que una neurona del cortex cerebral rccibe
~~~a-ra-g-o~n-c-s-Santiligo Ramon y Cajal-[EnciclopcdilI821 c!escubridor-de -Ia est~uctura--- ~
_~nformacion, ~or t~rmino medio, -de ullas 10.000 lIeuronas (convergencia),
IInpulsos a vanos clentos de elias (divcrgencia).
y cnvia

neuronal dcl sistema nervioso. A linales del siglo XIX la teoria reticularista, que _'1_
sostenia que el sistema nervioso estaba formado pOl' u~a red continua de libras ~ En el cortex cerebral Sl: aprecia la cxistencia de Uila organizacion horizontal en
nervios~s, era la c~eer~cia ext.en~l~da, Sin e~bargo, tras afips de tl:abajo aplicando y ~ capas (se suelen sefialar unas seis capas), Clll:xislil:ndo una organizacion vertical en
perfecclOnando la teclllca de tmclon de Golgl, en 1888 Ramon y CaJal demostro que el ~ forma de columnas de neuronas. Hay grupos ncul'Onaies, compuestlls pur millones de
sistema ncrvioso cn realidad estaba compuesto par una red de celulas individuales, las tl ne~lronas ~ert~necientes a una detcrminada region del cerebru, quc constituyen
neuronas, ampliamentc interconectadas entre Sl. Pero no s6lo observo al microscopio _~~_ ul11dades funclOnalcs cspecializadas en ciertas tareas (pOI' ejemplo, existe un {Irea
los I)equeiios eSI)acios vacios Clue separaban unas neuronas de otms, sino Clue tambicn "=l' visual, un area auditiva, un cortex senso-motor, etc.); todos los subsistemas juntos
establccio quc la informacion tluye en la neuron a desde las dendritas hacia el axon, -il confonnan d encCfalo. Se tiene evidencia de que el proccsamiento en cl sistema
atravesando el soma. Este descubrimiento, basi co para el desarrollo de las neuro- _~_-:- nervioso involucra la actuacion de muchos de tales subsistemas, que intcrcambian
ciencias en el siglo XX, causo en la epoca una vl:rdadera conmocion en la forma de :t - continuamente infonnacion.

j
entendei; cI sis'tcma nervioso, concedicndosc el Premio Nobel de Medicina a Ramon'y -~-
Cajal.en_1906 (com partido con Camilo Golgi). Hoy dia d trabajo de Ramon y Cajal -H-
[Lopez 93, DeFelipe 99], cI cientifico espaiiol mas intluyente de la historia,' sigue
siendo muy citada. En su obra Texfllra [Ramon y Cajal 1891)-94], de la que se eelebra '
el"centenaiio [Marijuan 99], realiza un monumental esiudiu i dl:scrlpci6n en detiJlle '.'.~-
_____ deLsistema~nervioso de los vertebnidos"(lacalidad de slis lallliilaS'(IUil':.as no haya sido ~~~ _ _
-alill'silpenldli, pues adl:mas de excc!cnle cientilico, 'RamOn y' Cajal era un grlln Figura 1.2
observador y cunsumado dibujante y fotografo); un siglo despucs Texfura se siguc it Distrihllcion de los iones en 10
publicando en ingles para la comunidad cientifica [Ramon y Cajal 1999]. /lel/ro/la denfro y ji/l:'ra de 10

Obviamentc, gracias al advenimiento de la microscopia e1eclronica y a la


-=1=- lIIellllm1lla ('ell/lor

inlroducci!'m de otras importanles tecllicas, se ha lIegado a prufunclizar mucho mas en


., Cl csllidio. de la ncul'Ona (vcase, pOl' ejcmplo, [Kandel 99]). Para el prcscntc trabajo nos
- ij -,
-- liinitarcillos a un nivel de ckscripcillll LjlJe nos pl:nnita trazar eI paralclismo existente
i.,-
~
e-Iltre Ins redes neuronales biologieas y las artiliciales.

Se estima qUl: d SiSIl:l!la nervioso cantienc alrededo~ de cien mil millones de


.'.l.~l~~IS. Vistas al lIlicroscopio, este tipo de cCiulas puedL' presentarse en mltltiples
; I Lo qUl' \.'tHbtilll)1: d nCTvio.
"" 1:"iI ,i,i,", t, algo ,implisla, aunqlll' dlida para nUestro prop.)si!l), Eu rtalidad, en cI arb,,1 dcndritic" [.,,"bien SC
1I~\.a a .:;~hll una L:~l:rlai..:OmpUlih,'h'HI; por 011'<1 parte,d .sollla talllbi~n puedc rcdhir int(lrI11:ICi{Hl dirl'rlaIlICllh: t.h..'otrll'\

-1-
-.n." - a:\IJlh.~~.:'llllia IIl~JIi..1L"jt'lII ••Ic las dcndrilas.
Ii /{EDES NElIRONALES Y SISTEMAS IlORROSOS 'ORA-MA CA!'llULU 1: FUNI)'\MENTOS DE LAS REDES NEliRONAI.ES ARTIFICIALES

Gcneraci6ny transmisi6n de la seiial nerviosa ..~ -===- En estado de reposo el protoplasma del interior de la neurona pennaneee
La union entre dos neuronas se denomina sinapsis. En cl tipo de sinapsis mas ~~=-. eargado negativamente en relaeion aI medio externo, existiendo entre ambos una
COJlllll1 no existe un contacto fisico enln: las I1curonus, sino que cstas permaneecn diferencia de potencial de unos -60 m V, La existencia de cste potencial de rcposo se
separadas por un pequet10 vacio de unas 0.2 mieras. En relaci6n a la sinapsis, se habla debe a las concentraciones de Na+, K' y P2-, y se mantiene mediante cI llujo dc iones
de ncuronas presim\pticas (las que envian las seilalcs) y postsim\pticas (las que las Na+ y K+ a traves de la membrana. EI interior de la neurona esta cargado
reciben). Las sinapsis son direceionales, es dceir, la informacion nuye siemprc en un ncgativamente pucsto que, debido a su gran tam3l10, los iones p2. quedan dentro, al no
lmica senti do. poder atravesar la membrana. Los canales de K t son pasivos, y se comportan como
-~ - - simples poros. Por su parte, los de Na+ son activos, y se conviertcn en permeablcs a
Las serlales nerviosas se pucden transmlllr elcctnca 0 quimicamcnte. La - ~ este ion cuando el potencial del soma desciende ror debajo de unos -45 m V. Par clio.
translllisi6n quimica prevalece fuera de la ncurona, mientras que la e!ectrica 10 hace en ~ en condiciones de reroso, la mcmbrana es permeable al K+, pero no al Na+, y sus
cl interior. La transmisi6n quimica se basa en el intereambio (It: neurotransmisores, -"'" eoncentraciones se generan y 111antienen par la accion de la denominada b0111ba de
mientras que la elcctrica hace usn de dcscargas que se producen cn el cuerpo cclular, y --~ - Na+-K+, que par cada 2 iones K~ que introduce extrae 3 iones Na1 al exterior. Este
que se propagan pOl' el ax6n. i bombeo de iones se realiza a costa de un gasto de energia, de ahi que la nCUi'Ona sea
EI fenomeno de la gcneraci6n de la set1al nerviosa esta delenninado por la ~ una eclula de alto COnSlllTIO energetico. EI resultado final cs que la concentracion de
_mcmbrana neuronal y los ioncs pre~c.ntcs_.a amhos ladosdecllaO-:igura 1.2). La_ ~:f--
. K+ y de p2- es alta en su interior, y la de Na+ 10 es cn el exterior, siendo la difercncia
membrana se comporta como till condensador, que se carga al recibir corrientes :.. -de
':'._-='_~ potencial Uebida a sus concentraciones de unos --60n1Y.--OiferenlcS--m()delos ---- .
(khidas a las especies i6nicas prcscntes. La membrana contiene canales i6nieos ~f elcctricos dcl comporta111iento de la neurona sc rnuestran en [Mead 89a, Kohonen 89]
seh:ctivos al tipo de ion, algunos son pasivos (eonsistell en simples poros de la _~-_~
,t
(vcase el apcndice al final de este capitulo, pagina 37).
membrana) y otras activos (poros que solamcute se abren ante cier!as circunstaneias). .~ La forma de comunicacion mas habitual entre dos neuronas es de tipo quimico.
En esencia, las especies i6nieas mas importantes, que determinan buena parte dt! la ~ La nell rona presim\ptica Iibera unas sustancias quimicas complejas denominadas
~'1'
generaci6n y prapagaei6n del impulso ncrvioso, son Nal, K" y Ca2+, adem as de los .~ neurotransrnisores (como el glutamato 0 Ia adrenal ina), que atraviesan el vacio
iones de protcinas, que dCl1otarerno~ gencriealllente por p2-, y que se origillan. pllr _ J. sinaptico. Si la neurona postsinaptica posee en las dendritas 0 ellcLsoma_canales
:::::
pcrdida de los anlcriores. scnsiblcs a los neurotransrnisores liberados, los fijanln, y como consecuencia de ello
pcnnitiran el paso de determinados iones a traves de la membrana. Las corrientes
ionicas que de esta manerll sc crean provocan pequet10s potenciales postsim\pticos,
exeitadores (positivos) 0 inhibidores (negativos), que se integraran en el soma, tanto
t50mV --------
espacial como temporal mente; este es el origen de la existencia de sinapsis excitatorias
I'oler.eial de nceil\1l y de sinapsis illhibilorias3. Si se ha producido un sllficienlc lllimero de excitaciones, la
sUl11ade los potcnciales positivos generados puede elevar el potencial de la Ileurona
por encima de los -45 mV (umbral de disparo): en ese momenta se abrcn bruscamente
los canales de so(lio, de modo que los iones Na+, euya coneentraci6n_en e1 exlt'rior es
alta, entran masivamente al interior, provocando la tkspolarizaci6n brusca de la
)
I (ms) neurona, que rasa de un potencial de reposo de -60 mV a un uS +50 m V. A
continuaci()n la neurona vuelve a Ia situaeion original de reposo de -GOmV; estc
proceso constituye la gcncraci6n de un potencial. de acei6n (Figura 1.3), que al
rropagarse a 10 largo del axon da lugar a la transmision electrica de la seiial nerviosa.
-------~""
.45mV
• flO mV
.. Tras haber sido provoeado un po[encial de accitlll, Ia neurona suCre un periodo
rctractario, duranle el eual no puecle generarse uno nuevo .
Figura 1.3
£kspl1l:lri7(t('ibn /'o/ellcial de acci(m Un hceho importante es que el pulso (lsi generado es "digital", cn cl scnlido de
que existc 0 110existc pulso, y lodos c1lns son dc la Illisllla Illagnilud. Por (Jlra parte,

1 Fxi'h,"11 i,.'vid••'nl'ias t'_\IWrillll'lllales 4lH: indicall qUl' \Ill (1,\,(\11 s(',I() PUl'llc gl'l1crar si:mpsis c,\cillltorias 0 inhibitoriJs.
pc", no de "mhos lipos (Icy de Oak.IMillle. 'JUII.
KEIJES NEURONALES Y SISTEMAS 1l0RROSOS 0RA-MA l) RA-MA CAPiTULO I: FlJNDAMI!NT()S DE LAS HEnES NElJRONALES ARlIFICIAU:S 9

ante una estimulaci6n mas intensa disminuye el intervalo entre pulsos, por 10 que la
nClirona se disparara a mayor frecuencia cuanto mayor sea el nivel de excitaci6n. Es
decir, la excitaci6n queda codilicada cn la freeuencia de los pliisos producidos. POl' ~
otra parte, la frecuencia de disparo de la neurona no puedc crecer indelinidamente, ~
sino que existe una frecucncia maxima de respuesta dcbida a la existencia del periodo ---:~.~_
refractario. En resumen, ante un estimulo mayor la frecuencia de respuesta aumenta, :i
hasta que sc alcanza una saturaci{)n confonnc nos acercanl0S a la frecucncia Inaxinla. -"4-
De estc modo, 1" titncion de respuesta de la neuron a, frecuencia de disparo frente a -"='0' -

intcnsidad de cstimulaci\ln, tiene el aspecto Illostrado en la Figura 1.4, que se emulani - fi:- Figurll /.5 Patrones de disjJal'O: a) regulaI', h) en paql/ete de pl/lsos en I/na nel/rona
en muchos de Ius modclos de neurona artiticial. La li'ecllencia de disparo oscila ~ pimmidal del c()rtex. c) di~paro de I/na celula de Purkinje del cerebelo {Shepherd 97/
hahitualmente entre I y 100 pulsos pOl' segundo, aunque algunas neuronas pueden 7i'

lIegar a los SOO durante pcquenos peri(d)dOs Ide tidcmpo. ~or otm. parte, ~o lOddas lats -ioo_~

neuronas se disparan generando un tren e pu sos e una IrecuenCla aproxlma amen c . Elmccanismo aqui dcscrito wnstituye la Illrlna mas com un de transmisi[)n de la
constante, pucs la presencia de otras especies ionieas haec que diferentes tipos de it senal nerviosa, pero no el lmico. Cuando la distancia que debe recorrer la senal es
ncuronas posean patrones de disparo dislintos, en forma de trenes puros, paquetes de -:F menor de 1 mm la neurona puede no codificarla cn frecueneia, sino enviar una selia I
--pulsos, 0 presentando patrones mas complejos(Figura 1.5) [Shepherd 97]. ------.-:1 puramenfe ail,,16gica. Es dCcir~ la evolucion biol6gica cncontro a-distancias corlas~ que
Generado un pulso electrico pOl' el soma, el transporte activo que se produce a ~~~~ la senal no se degrad"ba sustancialmente, pOl' 10 que podia enviarse tal cual, mientras
10 largo del axon pl:rmite que pucda lransmitirse a grandes distaneias (hasta un metro) -~ que a distancias largas era preeiso coditiearla p"m evitar su degradaci6n y la
sin degradarse. En los extremos del axon existen unas pequcr'ias vesiculas simipticas .~ wnsiguiente perdida de intllrlnaci6n. La naturalcza descubri6 que la eodificacion en
que almal:cnan paquetes de neurotransmisores; asi, ante la aparici6n de un pulso =-.~ forma de freeuencia de pulsos digitales proporcionaba calidad, seguridad y
elcctriw provcniente del cuerpo celular, y pOl' mcdiaci6n de los iones Ca2+, se produce :t simplicidad en la tmnsmisi6n.
la liberacion de neurotransmisores en cantidades cuantiticadas (eorrespondientes a l~n __ ~_
nlunero entero de vesiculas). EI numero de pulsos quc llegan y su freeuenl:1a ! Aprendizaje
~.g~
det~rm~nan Ia ~"n,ti?a.d dc nl:urotransmisor
""Ia"oo", a "h,b","o", ,n alms n,"wnns.
liberado, que a su vez producira nuevas
1-_. La intensidad dc una sinapsis no viene representada pOl' una cantidad tija, sino
que puedc ser modulada en una escala temporal mucho mas amplia que la del disparo
de las neuronas (horas, dias 0 meses). Esta plastieidad sinaptica se supone que

-j constituye, "I menos en buena medida, el aprendizaje [Shepherd 97, Arbib 98] tal y
como postulo IHehb 49], enl:ontnindose posteriormente evidencias experimentales de
clio [Nieto 89, Alkon 89, Kandel 92].

OllranteeI desa,'rollddeilll- ser vivo,el cercbro sc modela:de-filrlna- que exii(cii-


-~!
- Illuchas cualidades del individuo que 110 son innatas, sino que- se- adquicren por la
infiucnl:ia dc la informacion que delmedio externo proporciona sus scnsores. Existcn
.~ .-.1
ct
u
--=-~- diterentes formas de 11l0delar eI sistema nervioso: por e! estahlt:eimicntode nuevas
:::
v ii- ~
conexiones, ruptum de otras, Illodelado de las intensidadcs sin{lpticas (plasticidad) 0
;:I ~?
u "
11) Figurtl 1.4 ~~ il1cluso mediante ll1ucrte neuronal4• Este tipo de acciones (en especialla modilicacion
~ FUllcioll de respuesra de la ! de las inlensid"des sinapticas) seranlas que utilict:11 los sistcmas Ill;ufllnait:s arlificialcs

Intensidad (~IAlcm2)
neUl'Onil hio!rJgica ante
estimulos del eXTerior
[Chapman 66j
~+=
-c
para Ilevar a caho el aprendizaje.

..
{

4 I.a tl!;Uhllli1 l~,,:llIl(t1I1l1Y (,'~pl.:'l"iat 4uc, en gcneral, unicamclllc puscc cap:.Jcidad para reprnducirse cn los
1:,'1 uni.l

-~-- primeros cSI;ldios de SlI \'i1l:1, d\,.' moJo 4111.:~i Lilia m:uwna mUL:rc. nd nacl.:ril otrn qll~ hI 1""I,,'lllpl[l('~ (allllqlU.'
_i
- . h,:ci-.:nh.:IlI":llk;')1.: hall cll\':ulllllldo c\,jJ~II\,;iJ:,) de "llll: ell :,\jlll •.U.:iulll:~ c:-.pn.:iak:s ~ipodriil rcproduf;irsl'),
rf-
"

10 RUlES NEURONALES Y SISTEMAS IJOIUWSOS {jRA-MA


i:JRA-MA CAPITULO I: FIINDAMENTOS DE LAS IUiDES NEURONALES ARTIFICIALES II

EI esquema presentado a 10 largo de csta seccion ha sido simplificado en buena ejeeuta de un modo secuencial un programa almacenado en memoria. POI' el contrario,
mcdida, pues la realidad es mucho mas compleja. Citaremos como muestra unos el cerebro no esta compucsto por un unieo procesador, sino por miles de millones de
cuantos ejemplos: hay mas iones acluando que los citados, no hemos comentado cl ellos (neuronas), aunque muy elemelltales. Curiosamente, Ins neuron as son mucho mas
papcl de los neuropcptidos (que realizan una funcion paralela a la de los simples, lentas y menos tiables que una CPU, y, a resar de ello, existen problemas
neurotransmisores), no hemos discutido los detalles de como cl impulso nervioso se dificilmente abordablcs mediante un complltador convencional, que el cerebro
propaga por cI axon, existcn muchisimos lipos de canales que operan de I11UY resuclve eficazmente (recunoeimiento del habla, vision de objetos inmersos en el
diferentes maneras, las sinapsis deseritas son las quimicas, peru tambien exislen ambicnte natural, rcspuesla ante estimulos del entomo, etc.).
electricas, mixtas y reciproeas, etc. I'or otra parte, no csta claro todavia el pape! que
puedall desempeilar las cclulas de la gila que, aUl1que hahitualmente se describen POl'10 tanto, la idea que subyace en los sistemas neuronales arlifieiales es que,
como simples sop0l1es de las neuronas (en el eerebro hay 10 celulas dc glia por eada ~ para abordar el tipo de problemas que el cerebro resuclve con c1iciencia, puede
'.r
neurona, Ilenalldo los espacios inlerneuronales), parece ser que tambien intervienen en ~ resultar conveniente construir sistemas que "copien" en eierto modo la estruetura de
los procesos dc memoria y aprendizaje [Travis 94, Nieto 89). Tampoco hel11os;,;"'. - las redes neuronales biol6gicas con el lin de alcanzar una funcionalidad similar.
comentado otras formas diferentes de eodificar la informacion cn la senal nerviosa, :t
eomo puedan ser cl c6digo en poblaci6n, el probabilistico 0 el codigo en fases. J
__ , La bibliografia existcnte en este_campo es jnJl1cI)Sa,Jel11itimos~'1l Iecto_r_ j - -A
intercsado en profundizar en los aspectos comentados a [Kandel 99, Shepherd 97, ~
Arbib 98 J. EI sistema nervioso es 10 sulieientel11ente complejo como para que todavia _1._ --
qucde l11uchopar descubrir y eomprender. Para mantcnerse al tanto del progreso en la ---;;1
investigncion, son recomcndables los at1iculos divulgativos (aunquc de nivel elevado) --if.' -

I...J -:
que aparccen dcsde 2002 en la rcvista Mente y C"'erebrn y, de \'cz en cuando, en :}
Scientific AI/Icrical/ (cuya versi6n espailola es Investigacion v Cicncia). Dos 1
",01,,,1,, "(""",0' mooog"'fioos sob", cil'm, sO" [S",,'ilio 79] Y [So;,,'; fio 92

Figura 1.6 Estructul'a jerarquica de /1/1 sis/ell/a basado eli ANS


1.2 ESTRUCTURA DE UN SISTEMA NEURONAL
ARTIFICIAL Sistemas paralelos, distribuidos y adaptativos
Los tres conceptos clave de los sistemas nerviosos, que sc pretende emular en
Cerebro y computador los artifieiales, son: paralclismo de calculo, memoria distribuida y adaptabilidad, al
Los ANS imitan la estructura hardwarc del sistema nervio5o, con la inteneion de entomo. De csta mancra, podemos hablar de las rcdes neuronali:sccomo sistemas.
eonstruir sislemas de procesnmiento dc la informaci6n paralelos, distribllidos y paralelos, distribuidos y adaptativos.
ndaptativos, que puedan presentar un cicrto comportamiento "inteligente". El proccsllmicnto Jlllralclo resulta esencial, como sc deduce de un sencillo
Recortielllos una idea ya comentaJa en la Introducci6n: pese al extmordinario ejemplo. Un ordenador cOllveneional tipo PC, que trabaja seeucneialmcntc,
desarrollo de la electr6nica y las ciencias de la cOlllpu(acil)n, ni cI onlenador mas instmccion a instrueci6n, cmplearin v:lrios minutos en realizar sobre una il11ngen
potente puede lIeyar a cabo lareas [ales como recollocer ulla mosca y atmparla al c0111puestapar, diga111os,256x256 pixeles5, una sencilla larea de lralamienl0 en bajo
vueio, que UII sistema tan simple como cI ccrehro de la mna es capaz de lIevar a cabo nivcl (aeentuctr contrastes, extraer contorn9s ...), l11uchomas simple que la que llevaba
COlieficacia, a cabo el sistema visual rara reeonoccr una imagen. Un sistema basadu en 16 DSpc>
(por ejemplo, del 111odeloTMSJ2020, clasieo DSP de Texas Instruments) opcrando en
Como pudo npreciarse ell la tabla I. J, cI cerebro y un compulaJor convcncional
SOli mllcho mas di ferentes de 10 que suele suponerse cuando se habla de "cerebros
ckctr6nicos", I{ccordcmos <JIIC UI1 cOlllpulador cOllvellcional cs, Cil cselleia, ulla
maquina de von Neumann, conslruiLia en lornu a una (mica CPU 0 proccsndor, qlle 5 Conlr:lcei6n de f,elllr(' ('I(,IIICII!, elemcntn de imagen.
(, f);giw/ SiJ!Jwi Prfl('cs,\or, (I rnl\.'l's~dllr digital lit.' seJl~llt's, un tiro dc Il\icroprnc(,s~ldor especi:llil:Hh) en 1:ll"e:lli/:lci(Ul
UCc~kulus makm:llin)s intcnsin)s, como los que se cmplc:1n en rI campo del proccs:lmiC'nw digital de' sena!.
12 REDES NEURONAI.ES Y SISTEMAS 1l0RRUSOS 'CRA.MA ~RA.MA CAPiTULO I: FLJNDAMENTOS DE LAS I{EDES NELJRONALES ARTIFICIALES 13

paralclo emplearia del orden de 20 ms en la misma tarea, puesto que cada uno podria -=-Rumelhart y 1. L. McCldland [Rumelhart 86a, McClelland 86], till sistema neuronal
operar en paralclo sobre difcrentes scctorcs de la imagen. Pur otra parte, d cerebro - :. - ~~ conexionista, esta compuesto por los siguientcs elementos:
tarda aproximadamente estc mismo ticmpo en prcproccsar una imagen compuesta por
• Un conjunto dc proecsadores elementales 0 neuronas artificialcs.
milloncs dc pixeles (los quc ~epresentan los conos y bastoncs de la retina), extraer sus
rasgos caracteristicos, analizarla e interpretarla. Ninglll1 sistema ercado pOI'eI hombrc • Un patr6n de conectividad 0 arquitectura.
es capaz de realizar algo semejante. La elave reside en que en este (Iltimo caso los
• Una dinamica de activaciones.
miles de millones de neuronas que intervienen en el proceso de vision (solamente en la
retina, y sin contar cl cortcx cerebral, intervienen millones de elias) estan operando en • Una regIa 0 dinamica de aprcndizajc.
paralelo sobrc la totalidad de la imagen.
• EI entomo donde opera.
Otro concepto importante que aparece en el ccrebro es el de memoria
Debido a que investigadores de numerosas ,lrcas del conocumento
distribuidll. Micntras que en un computador la informaci6n ocupa posicioncs de
memoria hicn dcfinidas, en los sistemas Ileuronales se cncuentra distribuida por las (neurobi610gos, psic6logos, matematicos, f1sicos, ingenieros, etc.) trabajan en ANS, y
sinapsis de la red, de modo que si una sinapsis resulta dai'iada, no perdemos m{\s que a causa tambien de la relaliva juvcntud de esta disci piina, coexisten diferentes
una parte muy pcquel1a de la informaci6n. Ademas, los sistemas neuronales biol6gicos . tcrminologias y nomenclaturas. En este senti do, se estan llcvando a cabo esfuerzos
--son redllndantes, de modo que 1Il1iehuscneuronasy.sinapsis pueden realizurun.papel-.'~ cncaminados a unificar conceptos, como los del comite de estandarizacion de la
Nell/YJi Nelwork S()cicty del IEEE, 0 los de iilgu;;-os investig~ores [Fiesl~r 94].
similar; en delinitiva, el sislema resulta toleranle a fallos (por ejcmplo, cada dia
mueren miles de neuronas en nuestro cerebro, y sin embargo tienen que pasar muchos
anos para que se rcsicntan nucstras capaeidades).
EI (lltimo concepto fundamental es el de adaptabilidad. Los ANS se adaptan _ ~ 1.3 MODELO DE NEURONA ARTIFICIAL
facilmente
.. al entorno
i d I
moditicando
.... sus sinapsis (y mediante otros mccanismos'
. - -;' 'En esta secci6n sc expone el modelo de ncurona de los ANS. En pr"m I er Iugar,
'
tam.b len), .y aprent cn e a expcnencla, pudlendo generahzar conceptos a ~art.lr dc ~ ..__ describiremos la estructura de una ncurona artificial muy generica, para a continuaci6n
easos pm1leulares. En el campo de las redes neuronales lIamaremos a esla propledad ~ mostrar una versi6n simplificada, de amplio uso en los modelos orientados a
generlllizllcion a partir de ejemplos. aplicaciones practicas, que posee una estructura mas pr6xima a la neurona tipo
McCulloch-Pitts [McCulloch 43] clasica.
Estructura de un sistema neuronal artificial Aunque el comportamiento de algunos sistemas neuron ales biol6gicos sea
Los elementos basicos de Ull sistcma neuronal biol6gico son las neuronas, quc lineal, como sucedc en la retina del cangrcjo Limuilis [Brodie 78], en gencral, la
se agrupan en conjuntos compuestos por milloncs de elias organizadas en capas, respucsta de las neuron as biol6gicas es de tipo no lineal, caracteristica que cs cll1ulada
constituyendo un sistema con funcionalidad propia. Un conjunto de estos subsistemas en los ANS ya dcsde la neurona formal original dc McCulloch-Pitts. La formulacion
da lugar a un sistcma global (c1 sistcma nervioso, -en el caso bioI6gico). En .Ia de la Ileurona arlificial como dispositivo no Illle.al~onstituye una de sus caractcristicas
rcalizaci6n de un sistema neuronal artiticial puede establccerse una estlUchlra mas destacables, y una dc las que proporeiona un mayor interes a los ANS, pucs el
jenlrquica similar. EI elemcnto cscllcial de partida scd\ la ncurona artificial, que se tratamicnto de problemas altamcnte no lincales no suele scr facil dc abo~d~;;'~ediante
organizara en capas; varias capas constituiran una red ncuronal; y, por lJltimo, una red lccnicas convencionales.
ncuronal (0 un conjunto de elias), junto con las interfaces de entrada y salida, mas los
m6dulos convencionales adicionalcs necesarios, constituirilll cl sistcma global dc
proceso (Figura 1.6). 1.3.1 Modelo general de neurona artificial
Fl1rmalmente, y desdc el punto de vista del grupo ?DP (Parallel Distributed En este punto describiremos la estructura generica de neurona artificial en el
Processing Research Group, dc la Universidad de Californi:i en San Diego7), de D. E. mareo cstablecido por el grupo PDP [Rumelhart 86a, McClelland 86].
Se denomina procesador elemental 0 ncurona a un dispositivo simple de
dleula que, a partir dc un vcctor dc entrada procedcnte del exkrior 0 de olms
neuronas, proporciona una l!Oica respuesta 0 salida. Los clemcntos que constiluyen la
7 (irllro de- illv(:'stigacillll \,'1\ ANS. 1'I:spoJlsahlt-) l'n gran 1II1.'didJ drll'l.'n:'1cimil'nto dl.' las relics Ill'uronaks a l'll..'diadlJ~
de los "ehellla. ClIYO Irabaj" sc publiC() m dos \Ollllnmcs cOl1sidcrados c1asicos I RUl11clhan X()a, \1a,C1cllal1(i Xh I.
ncurona de etiqueta i son los siguientcs (vease la Figura 1.7):
--- -~----1

14 REDF.S NElJRUNi\I.ES Y SISTEMAS UORROSOS r9IV\.MA - :QRA.MA c.wil \)1.0 1: FUNLJAMENTOS DE LAS RWES NEURON/\LES ARTIFIC1ALES 15

• Conjunto de entraclas, xlf) .


.'

• Pesos sinapticos de la neurona i, Wi; que representan la intensidad de


intcraccioll entre cada llcurona prcsinapti'caj y la ncurona postsinaptiea i. Salida V.
-/

• RegIa de proplIgacion cr(lI'i;' x;(l)), que proporciona el valor del potencial


postsinaptieo hit) = o(w;i' .tit)) de la neurona i en funci6n de sus pesos y
entradas. '- - . - fUIlci6n de salida
• Funci6n de activaci6n J;(alt-I), hlt)), que proporciona el estado de
activaei6n actual am =.~(al,.I), h;(l)) de la neurona i, en funci6n de su estado
anterior Qi(t-I) Y de su potencial postsinaptieo actual. FUIlci6n de m:ti vuci6n
• Funci6n de salida F;(ap)), que proporciona la salida actual J',{f) = Flam) de Figura 1.7 Modelo gen('rito de nel/rona arlifieial [Uul1lelharl Ma}
la neurona i en funci6n de su estado de activaci6n.
De este modo, la operaeion de la neuron a i pucde expresarse como
-_._- ----- - ------ --- - ---- ------

y;(t) = F;U;[ aj(t -1), 0;( Wi;,X/f))])


(1.1 )
Este modelo de neurona [onnal se inspira en la operacion de la biologica, en el
senti do de integrar una serie de entradas y proporeionar cierta rcspucsta, que se
propaga por el axon. En el apendiee 1.A mostraremos un poco mas detalladamellte la
cOllexion entre el modelo de neurona artificial y la biol6gica. y; Figura 1.8
lnleraccion entre
Pasaremos a continuacion a dcscribir con mayor profundidad los conceptos' I/na neurona
introducidos. Neurona presimlptica (j)
presin(ipfica y vfro
Neurona postsilHlptica (i) posfsim1pficQ
Entradas y salidas
Las variables de entrada y salida pueden ser binarias (digitales) 0 continuas
(anaI6gieas), dependicndo del l11odelo y aplieaci6n. Por ejemplo, un perccptron
multicapa 0 MLP (Mullilayel' Pel'ceptron) admite ambos tipos de sefiales. Asi, para Regia de propagaci6n
tareas de elasifieacion poseeria salidhs digitalcs {O, +l}, mienlras que para un La regIa de propagaci6n permitc obtcncr, a partir de las entr:idhsy lospes6s,
problema de ajuste funcional de una aplicacion multivariable continua, se utilizarian elvalor del potencial postsinaptico hi dc la ncurona
salidas eontinuas pertenecientes a uncierto intervalo.
( 1.2)
Dependiendo del tipo de salida, Jas ncuronas suelen recibir nombres especificos
[Milller 90]. Asi, las neuronas estandar (sceci6n 1.2.3) euya salida solo puede tamar La funci6n mas habitual es de tipo line;]l, y se basa cn lasllm:l pondcrada de
los valores 0 0 I sc suclen denominar gencrieamcnte nellronas de tipo McCulloch- las cntradas con los pesos sinitpticos
Pitts, mientras que aqucllas que llllicamcnte puedrn tener por salidas -1 0 +1 se suelen
oenominar'neurollas tipo Ising (debidoal paralelismo con los modelos lisicos dc
h;(t) = I WijXi

.I (J .3)
pm1iculas con espin quc pucdcn adoptar unicamcntc dos cstados, hacia arriba y hacia
abnjo). Si puedc adoptar diversos valores discrctos cn la salida (por cjemplo, -2, -I, 0, que formal men Ie lambicll puedc interprl'tarse como cl producto escalar de los vcctorcs
+ 1, +2), sc dice quc sc tratn de ulla nellrona de tipo Potts. En ocnsiones, el rango de de entrada y pesos
los valores que una nCUnlna dc salida continua puede proporeiunar se sude lilllilar a
._=- - -~ '~i-I!iintervalo dcfinido, por ejemplo, [0, + J 1 0 [-I, + 11.
16 REDES NEt JRllNALES Y SISTEMAS lllJRIWS()S ,~)RA-MA t;.RA-MA CAPiTULO I: fUNDAMENTOS DE LAS REDES NEURONi\LES ARTIFIClAI.ES 17

- ;:
~- -- Sin embargo, en muehos modelos dc ANS se considera que el est ado actual de
(1.4) - ~ - la neurona no depende de su eslado anterior, sino lll1icamente del aetual

EI peso sin:iptico \\'ij define en este caso la inlcnsidad de interacci6n entre la 0, (I) = j,(h, (t)) ( 1.8)
neurona presinaptica j y la postsimlplica i. Dada una entrada positiva (procedenle de
La funci6n de activaci6n f(.) se sucle considentr determinista, y en la mayor
un sensor 0 simplemente la salida de otra neurona), si el peso es positivo lender:! a
parte de los modelos es mon6lona
:! crecientc y continua, como se observa
excitar a la neurona poslsinaplica, si el peso es negalivo tender{l a inhibirla. AS1 se 4
habla de sinapsis excitadoras (de peso POSilivo) e inhibidoras (de peso negativo). ~ _.~_'.-=
habitualmente en las neuronas biol6gicas. La forma y = fix) de las funciones de
- activaci6n mas empleadas en los ANS se muestra en la tabla 1.1. Para abrcviar, en ella
Una regia de tipo no lineal, de uso m{\s limitado, es la siguiente: - ~- dcsignamos con x 'II potencial poslsimlptico, y can y el cslado de aclivaci6n. La mas
.= I
h;(t) x.lxo 1- ... x,II'
_2_ --simple de tad as es la funci6n identidad (que se puede generalizar al caso de una
I'mea I cua I')
11'
; jlj2 ...it' I _ ~
-t c:.,
Junclon qUlera , emp Ieat Ia, pOl' eJemp
. I0, en Ia A da I'mao 0 tra caso tambicn
jI,L/I' (1.5) l
muy simple es 1'1 funci6n escal6n, empleada en el Perceptr6n Simple y en la red de
que implica una interacci6n de lipo multiplicativo entre las entradas de la netlrona ~i
Hoptield discreta, asi como en la neurona clasica de McCulloch-PillS. La funci6n
(como se ha observado realmente en delerminadas sinapsis bioI6gicas). EI uso de esta -:j lineal a tramos se puede eonsiderar como una lineal saturada en sus extremos, es de
__ ltll.ima.Jegla de _propagaci6n delermina que una neurona se denomine dcorden __ iL
J:\n1l1 sencillez compulacional y resulta nUls plausible de~de un punto de ",ista biol6gico.
superior 0 neurana sigma-pi [Rumelhart 86] (pOl' emplear sumas y productos), e --.. - pues, como se ha explicado, las neuronas se activan mas a mayor excitaci6n, hasla
implica una mayor complejidad, tanto en el eSludio de la din,lmica de la red neuronal, salurarse a la maxima respuesla que pueden proporcionar.
como en su realizaci6n hardware. En ocasiones los algoritmos de aprendizaje requieren que la timci6n de
Otra regia de propagaei6n habilual, especial mente en los modelos de ANS activacion cumpla la condici6n de scI' derivable. Las mas empleadas en esle senlido
hasados en el calculo de distancias entre veclores (como RBF, mapas de Kohonen 0 son las funciones de tipo sigmoidco, como la del BP. Otra funci6n clasica es la
L VQ), cs la distancia euclidea _ gaussiana, quc se utiliza junto con reglas de propagaci6n que involucran el calculo de
_-: '-- cuadrados de dislancias (pOl' cjemp!o, la euelidea) entre losvectores de entradas y
h;2(t)= I(x; -1V;jf pesos. POl' liltimo, en ocasiones se cmplean funcioncs sinusoidales, como en aqucllos
j
( 1.6) casos en los que se requierc cxpresar explicilamcnte una pcriodicidad temporal.
quc rcpresenta 1'1distancia (al cuadrado) exislenle entre eI vector de entradas y el de
pesos. Cuando ambos veclores son Jl1uy simi lares, la dislaneia es muy pequei1a; Funci6n de salida
cuando son Illuy diferentes, la distancia crcce. POl' tanto, este lipo de regia opera de
Esta funcion proporciona la salida global de la ncurona )',(1) en ti1l1ci6n dc su
manera diferente a las antcriormenle comentadas. Se pucden utilizar tambicn otros
cslado de aclivaci6n actual all). Muy Jrccuentcmente la Jimci6n dc salida es
tipos de distancia, como la de Manhattan 0 la de Mahalanobis, que se abordan\n mas
_adclanle. simplemente la idcntidad F(x)=x, de modo que eI cslado de aclivaci6n de la ncurona se
considera como la propia salida"
---------:::Separar eI concepto de regIa de propagacil1n y lilllci6n de activaci6n permite
considcrar desde lin punlo de visla unilicado muchos modclos que de otra manera (1.9)
hahriaque tratar como casos especiales de una neurona estandar, que dctiniremos mas
Eslo ocurre en los modelos m{ls com lines, como cl MLP 0 la adalina: La
adclallte (Ial como sucede, pOl' ejemplo, en el RBF 0 los mapas autoorganizados).
fllnci6n de salida puede SCI' tambicn de tipo eSCall)n, 10 qlle supone que 1'1neurona no
sc dispare hast a qlle la aclivaci6n supere un cierto umbral. En otros model as, como es
Funcion de ,tctivacion 0 funcion de transferencia el caso de ]a m:iquina de Boltzmann IHinton 861, se trata dc una 1i1l1Cil)ncstoc:1slica
de Ia activaci6n, con 10 que la neul'Ona lendni un comporlamiento probahilislico.
- La tilllci6n de aclivacilll1 0 de lransfercncia proporciona el eSlado de activacion
- actu,il (lj(t) a partir del pOlencial poslsin:lptico 11,(1) y del propio eslado de activaci6n
anterior all-I)

(1.7)
Ip.------~.
~Ri\.MA CAPiTUlO I: FlJNDAMENTOS DE LAS REDES NEURONALES ARTIFICIALES 19
REDES NEIJlWNALES Y SISTEf\Ii\S BORROSOS
IS

sinapsis NEURONAi

ldentidlld y=x cue/po celular


axon
Yi
y = signo(x) {-I, + I} Salida
e.J
y = lI(x) {O, +l}
Y.=fi(Iw ..x.-O. )
-1 1 IJ J 1

umbral
-1, si x <-I [-I, + 1] dendritas
y = x, si + I <;;, x <;;, -I Figura 1.9 Modelo de n£'/ll'Ono es/(indar

1+ I, si x> +1
----- ---. --"- --- . - -_. -- ---_ .. _.~ .. - ------ -----
1 [0, +1] _ Con frecuencia se anade al conjunto de pesos de la neurona un panlmetro
Y=I+e-' [-1, +1] _~ .~ ~ adicional 0;, que dcnominarcmos umbrals, quc sc resta del potencial postsimlptieo, por
10 quc cl argumento de la funeion de aetivacion queda
Y = tgh(x)
LWijxj-B j
_8-,' [0,+1]
Y= A.e j
(1.10)
_ ~ -__ lo.que representa aiiadir un grado de libertad adieional a laneurona .._Veremos_que en
_ --e1 easo de nodos de respuesta todo-nada estc parametro representarael umbral de
j. ,
y = A.scn(a.tt + tp) [-1,+ I]
~ .-~ disparo de la neurona, es deeir, el nivel minimo que debe aleanzar"c1 potencial
postsinaptieo (0 potencial de membrana) para que la neurona se dispare 0 active.
En conclusion, el modelo de neurona que denominaremos est an dar queda

Tabla 1./ Funciol1es de actimcion habituales (.\'ehan omitido algunos cOlls/alltes) Yj(t) = J;(L wijxj - OJ)
j
(1.11)
_ . Ahara bien, si haeemos que los indices i y j eomiencen en 0, podcmos dcfinir
1.3.2 Modelo cstandar de ncurona artificial -; ,'== -_ 11';0=8;y xo=-I (constantc), con 10 quc el potencial postsimiptico (potcncialloeal, 0 dc
membrana) sc obticne realizando la suma dcsdej=O ,-.
EI modelo de neuron a expuesto en la seccion anterior resulta muy general. En 1a
n
practica suelc utilizarse uno mas simple, que dcnol11inarcn~os ncurona estundar, que
constituye un caso particular del modelo del PDP, consJderando que 1a regia de Y,(t) = /;(L IVj;X)
j=O (1.12)
propagacion cs la suma ponderada y que la funci6n de salida es la identidad. Dc csta
forma, la neurona cstandllr eonsiste en: . Definida de esta mancra la neurona estandar, basta con cstablccer la forma de la
!
h- • Un eonjunto dc entradas xP) y pesos sinapticos wij' funcion de activaei6n (tabla 1. I) para dcterminarla pOI' completo. En los siguientes
" --- apartados 1Il0strarcmos ejemplos de los Illodclos de neurona mas habitualcs.
"
H -- • Una regia de propagaci6n h,(t) = a(II';;, x/f); h/t) = IW;h es la mas eomllll.
• Una fUllcion de aeti\'3ciilll Yi(t) = 1;(17,(,1)), quc rcprcscnta simultancamclltc la _ ~:
--salida dc 1a neurona y su cst ado de activaeillll. - 8 En ,,1~lIlIllS l1lodelos es lilrt'"iI"ld. cs decir. "ul1lbral", y en olms b;ll.I. que no licnc una lraducci<in clara en c,lc caso,
IIluli ....\1 pur d ljU": sit:lllpr~ lIalllarcl1lus umbral a esk pantllldru (aullquc a h:n::-. 111)haga cl pard de umbral).
20 REDES NEURONALES Y SISTEMAS BORIHlSOS ,\:lRA-MA :1:JRA-IvlA
CAPiTULO I: FUNDAMENTOS OE LAS [WilES NElJRONALES ARTIFICIALES
21

Neuronas todo-nada (dispositivos de umbra)


Si en el modelo de Ileurona cstandar consideramos que Ias entra das son
- i
if'
Si se dan valores binarios a XI y x2, el lector puede construiLt:{eilm~nt~-la--
lIamada tabla de verdad de esta neurona y comprobar que implementa la funci6n
digitales, por ejemplo Xi ={O, I}, Y la l'ullci6n de activaci6n es la esealt'm H(.) 16gica NAND2. Hablando en tcrminos generales, puede demostrarse que un nodo de
(denominada tambien de Hcaviside), definida entre 0 y I, se tiene tipo umbral solamente pucde implcmcntar funeiones separables linealmente, como la
NAND. Par ejell1plo, la XOR (OR cxclusivo) no es linealmente separable, por 10que
Yi(t) = !I(L.lVi,X} - 0,) no pucde ~:r implementada por un nodo sencillo como el anterior. Para lograrlo
(1.13) puedcll adoptarse varias solucioncs, como introducir realimentaei6n, 0 cmplear
estructuras multicapa, pcw no profundizaremos ell clio por eI momenta, pues supone
Como H(x)= I cuando x~O, y HIX)~O cuando x<O, se ticnc
adclantamos a temas que scnin ampliall1ente tratados en eI capitulo siguiente.
=fl, si LlVijXj e.fJ;
Yi 1 0, si L. IViiX j < fJi
(1.14) Neurona continua sigmoidea
,Si cn cl esquema de neurona estandar eonsideramos que las entradas puedan scI'
Es decir, si el potencial de membrana supera un valor umbral OJ (umbral de tanto digitales como continuas (anaI6gicas), y las salidas exclusivamente continuas.
disparo), entonccs la nrurona se activa, si no 10supera, la ncurona no se aetiva. Este es puede emplearse como funci6n de activaci6n una sigmoidea (cuya gn\ficatiene forma
cl-modc!o-de-'Icui'ona der pcrcepfron- original,comose vera -inas adclante, que-se --'~. =-- de 'Ietra 'S' rnclinada yaplastada, tabla 1.1), que es una funcion continua y
denomina en ocasiones dispositivo de tipo umbral, existiendo una 16gica definida a di l'crenciable en ciertn intervalo, por ejemplo, en ei (- J, + I] 0 en cl lO, + I J,
partir de elementos de est a clase .. dcpcndiendo de la funci6n concrcta que e!ijamos. Las dos l'uncioncs mas habituales de
Si en estc modelo de neuron a consideramos que la acci6n de las entradas cstc tipo son las siguientcs (tabla 1.1):
inhibidoras cs absoluta (ante la presencia de una sola senal inhibidora, la neurona ya I
no se dispara), y se introducen en el modelo retardos en la propagacion de las senales, Y=J(X)=-I -_, ' con yE[O, I] (1.16 )
+e
se,obtiene el modelo original de neuronade,McCulioch-Pitts(McCulloch43], que
introdujeron ambos investigadores en los anos cuarenta, eI cual se considera como el eX _ e-x
primer intento demodelado de la operacion de la neurona. y=/(x)= X -x =tgh(t:), con YE[-I, I] ( I. I 7)
e +e
Ambos autores demostraron' ya en 1943 qt;C ;ncdiante r~des basad as en este
modelo de neurona se podia n:alizar cualquier funci6n 16gica. Por ejemplo, Este modelo de neurona es el utilizado en el perceptron multicapa, como
eonsiderando la neurona del perceptron, y dada la configuraci6n de pesos de la Figura veremos mas adelante. EI requisito de trabajar con funciones diferenciables 10 puede
1.10, se tienc imponcr la regia de aprendizaje, como sucedc can la famosa BP (backpropagatioll).

Neurona estocastica (probabilistica)


EI modclo de ncurona sigmoideo anterior puede interpretarse desde un punto de
vista probabilistico, con 10 que su operacion deja de ser dcterll1inista. En la siguientc
secci6n estudiaremos un ejemplo de modelo de neurona de este tipo (pagina 25).

y
1.4 ARQUITECTURAS DE REDES NEURONALES
Figurtl /./0
Neurona que imp!cmcnta
Dcfiniciones basicas. Tipos de arquitecturas
lIna puerta !6gica NAND
[1=-3 de dos entrada,\' Se denomina arquitectura a la topologia, cstructura 0 patron de conexionado dc
una red neuronal. En un ANS los nodos se cone clan por media de sinar~is, csla
eslructura de eonexiones sinapticas determina cI comporlamiento de Ia reu. Las
','1

""_ .. --I
~i~ 22 REDES NEURONALES Y SISTf~~-lAS BORIWSOS 'uRA-MA CAPITULO J: IUl':LMMENTOS OE I.AS RF.J)ES NEI JRONALES ARTIFlCIALES 23

eonexiones smaptlcas son dircecionalcs, es dccir, la infom1aci6n solnmcnte puede


propagarse en lin l'lIlieo scntido (desde 1<1neuron a presim\ptica a 1<1postsinaptica,
Figura 1.8). En general, las neuJOnas se suelcn agrupar en un ida des eslrurturaks que
denominaremos capas. Las IlCllrOnas de una eapa plleden agrllparse, a su vel,
formando gruros nCllronalcs (clusters). Denlro de un gI1lPO, 0 de una e<lpa si no
existe este tiro de agl'ltpaeion, las neuronas suelcn ser del misl1lo lipo. Finalmenle, el
eonjunto de una 0 mas capas conslituye la red l1('Uroolll.
Se dislingucl1 Ires lipos de capas: de entrada, dc salida y oeullas. Una capa de
cntrlldll 0 sensorial estu compllesta pOl' Ilcuron<lS que rceibcn datos 0 sciiales
proccdcl1tcs del cnlol'l1o (por ejemplb, proporcionados por scnsores). Una capa de F
A
salida es aquella euyas nCllron<lS rroporcioll<:ll 1<1respucsla de la red neuronal (sus
neuronas puedcn cstar coneeladas a efeetores). Una capa neill/a es aquel1a que no
licne una cO!lcxi6n dirceta con el elllorno, es deeir, que no se conerta directamenlc ni
a 6rganos sensorcs ni a cfcetorcs. Este tipo de capa rroporciona a la red neuronal
....- ---grados de liberlad adicionales, gracias a los cualcs pucdc eneontrar reprcscntaciones _Monocapa y realilllcntada _ -Mu/ticapa y IInidirecciolla/~
. intcrnas eorrcspondienlcs a determinados rasgos del entol'llO, proporcionando una -
mayor riqucza compulacional. - Figura 1./2 E,i'emp/os de arqlliteeluras nelll'Ona/es
Las ecnc.xioncs enlre las nCUHJnas puetlen ser cxcifalorias 0 inhihilorias: un
peso sillaplico negalivo define Ilna conexi{lII inhibituria, Illienlras quc uno posilivo Alentlientlo a distintos conceptos, pueden cslablecerse diferentcs tipos de
detcrntilw una eun('xion excitatoria. Ilabilualmcnte, no se sude ddinir una eOllexion __ ~ -arquiteeturas neuronales (Figura 1.12). Asi, en relaci6n a su estruclura en capas,
eomu de un tipo 0 de 011'0, sino que pOl' Illcdiu del ap~cndiza_ie se obtienc llll valor para ~ podcmos hablar dc_rcdes_monocapa y dc redes multicapa. Lasredesmonocapa son
cl peso, que incluye signo y magnilud. aqucllas compueslas por una (mica cap a de neuronas. Las redes multicapa (layered
Por oInt parle, se puede distillguir enlre eOl1exiones intra-capa e inlcr-capa. Las -~ e~ -networks) son aqucllas euyas neuronas se organizan en varias capas.
cOllcxiollCS intra-(~apa, lambicn denominadas latcralcs, ticncn lugar cnlre las Asimismo, ah::ndiendo al f1ujo de datos en la rcd ncuronal, podemos hablar de
ncuronas pertcnceientes a una misma eapa, mienlras que las conexiones intrr-capa se redcs unidireccionales ifeedforward) y redes rceurrentes (jeedhaek); En las redcs
produecn entre las neuronas dc difcrcntes capas. Existcn adcmas conexiones unidireccionales, la informaci6n circula en un (mieo sentido, desde las neuronas de
realimentadas, que lienen un scntido contrario al de cntnd<l-salida. En algunos easos enlrada haeia las de salida. En las redes recurrentes 0 realimcntadas la informacion
puede cxistir realimentacion inc!uso de una neuron a consigo Illisma. pucde circular entrc las capas e~ ~_ltalquier sentido, incluido el de salid,l~_cnlrada.

Porilltimo, tambien sc habla de rcdes autoasocialivas y heteroasociaiivas. Con


frceucncia sc interprela la opcraeion dc una red Ilcuronal como la de ulla memoria
asociativa, quc anle un delcrminado patr6n dc entradas responde con Ull cierto palron
dc salida. Si una red se entrcna para que ante la presentaeion de un patron A rcsponda
con atro difcrente B, se dice que la red es heteroasociativa. Si una red es cnlrcnada
para que asoeic un patron A consigo mismo, sc dice quc es autoasociativa (e1 inlercs
de cste tipo de redes, como cs eI caso de la de Hopficld [I lop field 82], rcside en que
ante la presentaeion del palron A'=A+ruidu, su respucsla se<l el p<ltr6n original A,
e1iminando aSI cl ruido presente en la selial de entrada).
Figuf'{/ /.//
Cilpil de entrada C"P" oculi" Arquitcctl/ra I/lJidirccciul1a/
_ (~e/l~urial) tproccsamiCnlO) dc [res capas, de clIlrada.
uw//a y de sa/ida
IlEDE~ NEURONALES Y SISTEMAS 1l0RROSOS t;RA-MA CAPiTULU J: HJNDAMENTOS DE LAS REDES NEURONALES ARTIFICIALES
24 25

Una definicion formal de red neuronal • Se denomina nClIrona de salida a las neuronas sin sinapsis salientes.
En el punto anterior se han introducido de una manera intuitiva diversos • Las que no son ni de entrada ni de salida se denominan nellronas ocultas.
conceptos sobre las arquitecturas neuronales, con c1aros paralclismos a los utilizados
• Una red es unidireccional cuando no presenta bucles cerrados de conexi ones.
en las redes neuronales biologicas. Logicamente, dichos conceptos pueden ser
definidos de una manera mas rigurosa desde un punto de vista matematico. • Una red es. rccu~rcnte cuando el l1ujo de informacion puede encontrar un
bucle de atras hacla adelante, es decir, una realimentaci6n.
Una dctinicion interesante de red neuronal hace uso del concepto matematico de
l;rafo, ohjeto consistente en un conjunto de nodos (0 vertices), m{ls un conjunto de -~ --
conexiones (0 lil/ks) estab!ecidas entre ellos. En este caso el grafo describe la - Dimimica de la actualizacion del estado de las neuronas
arquiteclura del sistema y proporciona los canales pOI' los que puede discurrir su
dinamica, Hay diferentes tipos de grafos, por ejemplo, grafos dirigidos (directed) y no .En este punto estlidiarelllos la fonna en la que las neuron as de una cierla red
dirigidos (undirected). En el primer tipo, las concxiones lienen asignado un sentido, actuallzan sus estados. Existen dos dinamieas fundamentalcs: sincrona y asincrona, En
mientras que en el otro son bidireccionales. Puede hablarse tamhicn de grafos densos 10~I.nodel~s con ~inal1lica sincrona, los estados sc actualizan en funci6n de un cierto
(cuando casi todos los nodos estan conectados con casi todos) y de grafos dispersos .. re OJeOlllun. HabJlLJah~1(:nte,cl proceso se realiza par capas, 10 que signilica que todas
___ (cuan d 0 son pocas Ias. conexI ones entre los nodos). Un grato. puede cornpor:erse dc~ -!: las neuronas perteneclcntes ." 'I un'l mism'l'"
, cclpa se actua I'Izan a Ia vez, comenzando
diferentcs tipos de nodos y diferentes tipos de eonexiones. _.. -=--~~ .:..-_-des~te la cara de entrada y continuando hasta la de salida, Esta es la din{unica mas
hahltual.
Una f01TI1ade representar el gralo es, C0l110 su propio nornbre indica,
gralicamente, diblljando los nodos eomo circulos y lasconexiones como lineas 0 En los modelos co~ dimimica asincrona no cxistc un rcloj comllll, de manera
que cada neur?na actualiza su cstado sin atcnder a cmindo 10 hacen las demas. En
Jlechas, seglll1 sean de un solo scntido 0 bidireccionales. Qtm forma com un de
representacion es mediantc una Illatriz de conexiones. En el caso en que el grafo sea gen~ral,. u~a dlllan~ic,a ~sincrona se corresponde con ncuronas de respuesta continua,
Es este el tlPOde dlllanllca presentc en los sistemas nellror.ales biologicos.
no dirigido, la matriz de conexiones sera simctrica. Una tercera manera cs mcdiante
una lista de conexiones, quc indican la manera en que los nodos se coneetan entre si - -=~- . Arnbas dinamicas aplieadas sobre una misma red neuronal y para un mismo
(par ejemplo, si (I, bye son nodos, su lista de conexiones podria ser (1-10, a~h, (I~C, patron de entrada, pueden proporcionar difcrentes resultados. Un ejemplo c1asico es el
c~h). Por ltltilllO, un grato puede ser tambicn representado mediante un algoritmo. n~ode.lo de H~pfic1d discreto (capitulo 4), sobre el que puede detinirse una dinamica
slllcrona 0 .asll1cron~ [Bruck 90]. En el caso de la dinamica asincrona (dinarnica de
Una posible definicion matematica de red neuronal utilizando el concepto de
~Iauber), Sl la matm d.e pesos de la rcd es simetrica, la red siempre converge a un
grafo torna la siguiente forma [Milller 90]:
c~erto estad.o .est.able. Sll~ embargo, si sobre esa misma red aplicamos una dinamica
sl.ncrona (dlnamlca de LIttle), la red puede, 0 bien converger a un estado estable 0
Definicion: una red neuronal es un grafo dirigido, con las siguientes propiedadcs:
bIen permanecer en un cicio limite de longitud dos. '
I) A cada nodo i se asocia una variable de estado Xi'
.Asimismo, p~ede introducirse una dimimica no determinista_ (estocastica)
2) A cada concxi6n (iJ) de los nodos i y j se asocia un peso WifE 9\. forz~ndo que la salida de la neurona posea cadlcter probabilistico. ~Por ejemplo, si
conslderamos neuronas de activaci6n sigmoidea, la salida de la neurona i es
3) A cada nodo i se asocia un umbra I 0;.
4) Para cad a nodo i se define una funcion J;(xi' wif' 0;), que depcnde y;(t+I)=f(h(t))= I ( 1.18)
, I + e-h, II)
de los pesos de sus conexiones, del umbral y de los estados de los'
nodos j a cl conectados. Esta Ii.mci6n proporciona eI nuevo estado que yertcnecc al rango [0,+ I]; esta neurona es detcrrninista. Ahora bien, si
del nodo. consJde~amos ncuronas de salida discreta {O,+I}, podemos interpretar el valor
proporclOllado por (1.1 g) como la prohabilidad de quc su salida sea + I, cs decir
En la terminologia habitual de las redes neuronales, los nodlls son las neuronas
y las conexiones son las sinapsis. Algunos de los conceptos ya cxpuestos, quedarian pLv;(t + I) = + I] = 1+ eI-li,ft) ( 1.19)
--- C" rcdclinidos cn cstc contexto de Ia siguientc manera:
asi, hemos introducido una dinamica probahilislica en la operaci6n de la red neuronal.
• Sc dcnomina neuroua de entrada a las ncuronas sin sinapsis entrante5. La cstruclura de neurona probabilistic:! y de salida discreta quc acabamos de
--=,======::.::.=-=-=-=-=-=-=-=-:-------------------
~-,;:i
': 'I .. _-- --- ----
tij,-- CAPiTULO I: fUNDAMlONTOS DE LAS REDES NElJRONALlOS ARTIFICIALES 27
(CiRA-MA VRA-MA
::; 26 REUES NEURONALES Y SISTEMAS nORROSOS

describir es el utilizado en modclos neuron ales como el denominado maquina de _.~ __ entrada queda. ~ncorporad~ en I~ propia estruclura de la red neuronal, la cual'almacena
_-~ la represenlaclOn de una clerta Imagen de Sll entomo.
Boltzmann [Hinton 86].
~ Los dos tipos basicos dc aprendizaje son el supcrvisado y cl no supcrvisado
4-- cuya distincion proviene en origen del campo del recollocimienlo de patrones. Amba~
modalidades pretcnden estimar tilllciones entrada/salida multivariablc 0 densidades dc
1.5 MODOS DE OPERACION: RECUERDO Y probabilidad, pero mientras que en el aprendizaje supervisado se proporeiona eierta
APRENDIZAJE informacion sobre estas funciones (como la dislribucion de las clases, etiquetas de los
Chisicamente se distinguen dos modos de operaci6n en los sistemas neuronalcs: patroncs de entrada 0 salidas asociadas a cada patnln), en el autoorganizado no se
el modo recuerdo 0 ejecuci6n, y el modo aprendizaje 0 entrenamiento. Este ultimo es proporeiona informaci6n alguna. Las reglas de aprcndizaje supervisadas suclen ser
de particular interes, pues una caracterfstica fundamental de los ANS es que sc trata de computacionalmente mas eomplejas, pero tambicn mas exactos sus resultados.
sistemas entrenables, capaccs de rcalizar un determinado tipo de proccsamiento 0 Ademf\S de las dos formus basieas anteriores pueden distinguirse l11uehas olras
computo aprendicndolo a partir de un conjunto de patrones de aprendizaje 0 ejemplos. [Haykin 991; nosolros dcslacaremos aqui el aprendizaje hihrido y cI rerorzado. Los
cuatro tipos eitados pueden definirse de la forma siguiente:
- -- Fasedc aprendizajc. Convergencia . _
----u) Aprcndizajc supcrvisado. Sea E[W] un funcional que representa cI error esperado
En el contexto de las redes neuronales puede definirse el aprcndizaje como el de la operacion de la red, expresado cn funci6n de sus pesos sinapticos W. En el
proceso por el que se produce el ajuste de los panimetros libres de la red a partir de un aprendizaje supervisado se pretende estimar una eierta funcion mllitivariabic
proceso de cstimulaeion por el entomo que rodea la red. EI tipo de aprendizajc vendra desconocida f:9\"-t9111l (Ia que representa la red neuronal) a partir de muestras (x,y) (x
determinado por la forma en la que diehos parametros son adaptados. En la mayor E 91n, yE 9\m) tomadas aleatoriamentc. par media de la minimizacion itcrativa de E[W]
parte de las ocasiones el aprendizaje consiste simpJcmente en determinar un conjunto mediante aproximaci6n estocastica9•
de pesos simipticos que pcrmita a la red realizar correctamente eI tipo de
Ilablando en tt:rminos menos rormales, en el aprendizaje supervisado sc
procesamiento deseado.
presenta a la red un conjunto de patroncs, junto con la salida descada u objelivo, e
Cuando se construye un sistema neuronal, se parte de un cierto mode\o de ilerativamcnte csta ajusta sus pesos hasta que su salida tiende a ser la deseada,
neurona y de una determinada arquiteclura de red, establecicndose los pesos sinapticos utilizando para ella informacion detail ada del error que comete en cada paso. De este
inieiales como nulos 0 aleatorios. Para que la red resulte operativa es necesario modo, la red es capaz de eslimar relaciones entrada/salida sin necesidad de proponer
entrenar!a, 10 que constituye el modo aprcndizaje. El entrenamienlo 0 aprendizaje se una cierta forma Itmcional de parlida. Verel1los mas adelanle que deternlinados
;; ~-t-

11 •• puede lIevar a cabo ados niveles. El mas convencional es el de modelado de las modelos de red neuronal de relativa simplicidad (como el MLP) son estimadores
sinapsis, que consiste en modilicar los pesos sinflpticos siguiendo una cierta regia de
universales de funcioncs.
aprendizaje, conslruida l10rmalmenle a parlir de 1a optimizacion de una funci6n de
error 0 coste, que mide la eticacia actual de la operaeion la red.Si denominamos wit) b) Aprendizaje no supcnisacio 0 uutoorganizado. EI aprcndizaje no supervisado sc 1
al peso que conecta la neurona presin;iptica.i con la postsinaplica i en 1aiteracion i, el
pucbdeb.dl.cd'sclrib(ir)
gen~rlicam.I:I'ntel cd~ntl{~1
la. ,csldimacion de la rllncion dcnsidad' de _.
algoritmo de aprendizaje, en fimcion de las seliales que en el instante f lIegan pro a 1 I a< p x que (csen)c a IS n mClOn e patroncs x pClienecicnles al cspacio
proccdentes del entorno, proporcionara eI valor fl"wij(t) que da la modificacion que se de entrada 91n a partir de l\1ueslras (ejemplos).
debe ineorporar en didlo peso, eI cual qucdara acluatizado de la rorma
!.
En este tipo dc aprcndizaje se presenlan a la red 1\111ltitlld de patrones sin
f'.
adjunlar la respuesta que deseal\1os. La red, pOI' medio de la regIa de aprcndizaje, 1
~ ,,~~.~~~ eslima fI(x), a parlir de 10 eual puedcn reconocerse regularidades ell eI COllj;U~Jtod~C
l~c
EI proceso de aprendizaje es usualmenle itcrutivo, actualizandose los pesos dc cnlradas, cxtracr rasgos, 0 agrupar palrolles seglll1 su simi litud (c1ustcril)g):- Jdn_
i ~ .~
H >!.:-- la manera anterior, una y olra vez, hasta que la red neuronal a1callza el rendimienlo
;: -: ~
ii ii deseado.
.ii If ---
lH~;i
~:.::_ Algunos muuelos ncuronales inclllyen olro nivel en el aprendizaje, la creacil'lIl 0 -- -

~U---0--= -'::'destruccion de neuron3S. en el eual sc modilica la propia arquitectura de la red. En l) Lns tc-cnicas Jt: aproxin13ci("m
C's(()castica c~lil11an \'alnrc~ espcrauu:) a partir tk t:anljtiJd~s akalllrias obs('rnutas.
l1'uaimenle ,e implementan en limna d,' alg"rilm" di'''I<.'I,\ del lip" de des(en,o p"r cI gradic;;ie (esh",asliw) --:j
~~~ __ _ ..... cualquier caso, en un proccso de aprendi/,ajc la informaci6n contenida en los dalos de
S;,:. __ - __ ~~- ~--- -~
IK"h"nen X'I. White RlJhl. -J
28 REOES NEUIWNALES Y SISTEMAS BORROSOS DRA-MA cAl'inJLO I: rtJNDAMI'NTOS DE LAS REDES NEURONALES ARTIFICIALES 2'1

cjemplo tipico de modelo que emplea este tipo de aprendizaje es el de los mapas -=:--requicren ciertas condiciones para que su respuesta acabe eonvergiendo a un estado
autoorganizados. -estable 0 punto fijo. Una serie de teoremas generales (Cohen-Grossberg [Cohen 83],
Cohen-Grossberg-Kosko [Kosko 92a] y otros; vease, pOl' ejemplo, [Simpson 89,
c) Aprcndilaje hihrido. En cste caso, cocxistcn en la red los dos tipos basicos de :; I Jaykin 99]) indican las condiciones que aseguran la estabilidad de la respuesta en una
I
aprcndizaje, el supervisado y cI no supervisado, los cuales ticnen lugar normalmente .~~--= amplia gama de redes neuronales, bajo determinadas condiciones.
~--
en distintas capas de neuronas. EI modelo de contra-propagac:i6n y las RBF son
EI lector no interesado en Ins detalles tccnicos puede obviar 10 que sigue a
cjemplos de rcdes que hacen uso dc cste tipo de aprcndizaje.
continual' ion y sallar direclamente a la scccion 1.6. Para demostrar la estabilidad del
sistema, estos leoremas se basan en eI metodo de Lyapullllv [Simpson 89], como
d) Aprcndizajc rcforzado (reinforcement/earning). Se sitlla a meliio camino entrc el
alternativa al mucho mas tcdioso metodo directo, consistente en inlegrar el sistema de
supervisado y cl autoorganizado. Como en el primero de los citados, se emplea
ecuaciones diferellciales que 10 describen.
informacion sobre el error cometido, pero en cstc caso exisw una lmica sella I de error,
que representa un indice global del rendimiento de la red (solamente Ie indieamos 10 Basicamente [Simpson 89), el metodo de Lyapunov estahlece que si en un
bien 0 10 IIIa I que esUi aetuando, pero sin proporeionar m11sdetalles). Como en el caso sistema di~amico (co~Il0.rueda. ser lIna red neuronal) de variables de entrada (x I' .1'2' •..•
del no supervisado, no se suministra explicitamente la salida deseada. En ocasiones se .I'll) Y descnto pOl' el slgulente sistema de ecuaciones difcrencialcs
denomina aprendizaje Jlor prcmio-castigo.
Muchos de los algoritmos de aprendizaje (aunque no todos) se basan en ( 1.20)
llIctodos numericos iterativos que tratan de Illinimizar una funcion coste, 10 que puede
dar lugar en ocasiom:s a problellHis en la convergencia del algoritmo. Estos aspectos se cumplen las condiciones
no pueden abordarse de un modo general; sino que deben ser estudiados para cada
algoritmo concreto. En un sentido riguroso, la convergencia es una manera de
comprobar si una determinada arquiteetura, junto a su regia de apn:ndizaje, es capaz a) e1 sistema esl<\ en reposo solamenle en el origcn;
de resolver un problema, pues elgrado de error que se mide durante eI proceso de b) existen las derivadas de las ecuaciones que 10 describen en to do eI dominio;
aprendizaje describe la precision del ajuste del mapping.
c) las variables estan acotadas;
En el proceso dc entrenamicnto es importante distinguir entre el nivel de error
akanzado al final de la fase de aprendizajc para el conjunto dc datos de y se puede encontrar una fllncion de Lyapunov V de las variables Xi' V:9\n~9\, tal
cntrcnamiento, y cI crror que Iu red ya cntrcnada comcte ante patroncs no utilizados cn que
el aprendizaje, 10 cual mide la capacidad de generalizaci6n de la red. Interesa mas una • n av
buena generalizaci6n que un error muy pequeno en el entrcnamiento, pues ello V=I-S;O, 'II X;
indicant que la red ha eapturado corrcctamente el mapping subyacente en los datos. El ;=1 dx;
(1.21)
problema de la generalizacion resulta fundamental en la resolucion de problemas con
__ ANS, por 10 que se abordara mas adelante con mayor amplitud. entollces el sistema converge para todas las posibles entradas (XI' .1'2'"'' Xn)' Y es
- globalmente estable.

Fase de recuerdo 0 ejeclIcion. Estabilidad La funci6n dc Lyapunov se denomina [recuentemente filllci6n energla de
LYlIPllIIOV, pues constituye ulla generalizaci6n del concepto tlsico de energia: -
(/cneralmcntc (aunque no en todos los modelos), una vez que cl sistema ha sido
enlrenado, el aprendiz<\ie "se desconccta", pOl' 10 que los pesos y la estructura quedan E1 metodo de Lyapunov constituye una manera ascquible de estudiar la
____ lijos, cstando_la rcd neuronal ya dispucsta para proccsar datos. Estc modo de estabilidad de un sistema dinamieo. Es interesante ohservar que con cst a formulacion
___ operaci6n se den om ina modo recucrdo (rectlII) 0 de ejecucion. - matemMica simplemente se eslil expresando que si som05 capm;cs de cllcontrar lIna
cicrta funcion cnergia del sistema, que dislllinuya siempre en Sll operaci6n, entonccs el
-~.- - ---En las rcdcs unidircccionalcs, ante un patron de entrada, las neuronas responden sistema cs estahlc. Una [ccnica similar ernple<l IJnpficld [Hoplield 82, 84] para
proporeionando direclamenle la salida del sistema. AI no existir hucks dc dcmostrar que su modelo de red eomplelamente jntercollcctada era cstable CIl cI caso
- - realimcntacion no cxistc ningllll prohlema ell relacii'lil COil su estahilidad. POI' cI de que la malriz de pesos sin1'plicos lilese simetrica y de c1iagonalnula (capitulo 4).
~colltrari(l~ las_ redes con relilimcniacion son sistemas dinamicos no lineales, que
p-
~
.:.

30 REDES NEURONALES Y SISTEMAS BORROSOS '0RA-MA CAPiTULO I: FUNOAMENlOS DE LAS REDES NEURUNALES ARTiFICIAI.ES 31

Esta tccnica es tambien la que Cohen, Grossberg y Kosko han aplicado en los-~
MOOELOS DE RWES NEURONALES ARTIFICIALES
tcorcmas citados para dcmostrar la estabilidad de una amplia clase de redes neuron ales -:-.~
realimentadils autoa~ociativas y heteroasociativas. Asi, cI teoremil de Cohen- - ,'~
Grossberg [Cohen 83], determina las condiciones de estilbilidad pam redes ~
autoasociativas no adaptativas; el de Cohen-Grossberg-Kosko [Kosko 88], es~ablece ~ ==-- No supen'isados Refol'7JlllliS

las condiciones de estabilidad para redes autoasociativas adaptativas; y, por ultlm{~,cI


teorema ABAM de Kosko [Kosko 92a], 10 hilee para redes adaptauvas
heleroasociativas (c;)mo cI BAM de Kosko [Kosko 92a]). Como ilustraeion, Rcalimenladlls lInillircl'cionllies Re:tlimenlados Unidireccionalcs
IlSB I'crccptron ART LAM yOLAM
cnul1ciaremos clteorema de Cohen-Grossberg:
1"u:;-" COl(. Map AdalimvMadalina lIopfield Mapas de Kohonen
liP Through Time Pcrceptron 1\lullicapa BAM
Tcorema de Cohen-Grossberg. Para cualquier sistema dinamico no lineal que se liackPropagaliol1
Neocognitr6n
Redes PCA
pueda describir de la forma siguicnte Time-delay NN
Rill' CMAC
COnirapropagacilll1 Correladon en eascada
~, = aJxJp,(X)=t"~S'(XJ)] (122) ~1aqllina de f10ltzmmlll
Prcmio-castigo aSllcialivo
Critico ada plat ivo
---- ----.----------.-LVQ ---------- --- ----_._---------- ----
GRNN
tal que SVM
a) la matriz Iin/iill es simetrica y mij?O, Vi,};
Figura J./3 Clasificacion de los ANS pOl' el tipo de aprendizaje y la arquitectura
b) la funeit'lIl rt/ q) es continua V~O;
c) rt;(,;)?O, V~O;Sl,;)~O, V~O; Dc la multitud dc' modelos y variantes que de hecho existen, unos cincuenta son
d) la hmcion S;C,;) es diferenciable y no decreciente V ~O; medianamente eonocidos, aunque tan solo aproximadamente--una--quincena - son
utilizados con asiduidad en las aplicaeiones practicas. Por 10 tanto; para l1evar a 'cabo
la funcion el estudio sistematico dc los model as se precisa algun tipo de c1a.s~fic_,.lciol1:
..,. ..

v = (l /2) IIl/IijSi(X;)Sj
~I ~
(x}) - if
~
S;'C8i){J(8; )d();
Los dos conccptos que mas caraeterizan un modelo neuronal son cl tipo de
aprclldizaje y la arquitectura de la red, por ello, consideramos intcresante que la •.
- clasi licaci6n atiendil ambos aspectos. Asi se hace en la propuesta por Simpson
es una funcion energia de Lyapunov para el sistema, y cl sistema es estable. [Simpson 89]. que nosotros adoptamos, complclamos y actualizamos.
Corol3rio. 5i interprctamos la cCU<lcilJll(1.22) como la descripcion de la activ,~ci6n en .-Dc esta manera,cn primer lugar, realizamos una distinci(lIl en C\lanto al~tipo de
el tiempo de una red neuronal autoasociativa de una 0 mas capas, no adaptatlva, .con - aprendizaje, por 10 que aparece una primera c!asitieaeion cn modeIns supervisados, no
matriz de pesos siJll~trica, y que eumplclas condiciones a), b), c) y d), entonces dlcha supcrvisados, de aprendizaje hibrido y 1l10delosde aprendizajc reCorzado. A su vez, y
red cs l'stable. dentro de cada uno dc los grandes grupos, tendrcmos en euenta eltipo de topologia de
Remitimos al lector a las referencias originales ya eitadas para cI cllunciado de la red, por loqu(; se distinguira ademas entre redes Jealimel1tadas _y redes
los delllas teorclllas y sus nada l¥IcilesdClllostraciones. En [Simpson 89] y [Kosko nal unidireecionales (no realimentadas). Lil clasiticaci6n que asi surge se mucstra en la
sc oli-cecll perspectivas generales sohre ellllctodo de Lyapunov. rigura 1.13.
Se puede apreciar que el conjunto de modelos de redes no rcalimentadas yde
aprendizaje supcrvisado es cI mas numeroso. Dentro de cstc grupo tratarcll10s en el
1.6 CLASIFICACION DE LOS MODELOS NEURONALES capitulo 2 los casos del pcrceptr6n simple, adalina y perceptron multicapa 0 MI.!>
(Multilayer Perceptrol1). Esta clase dc modelns resulta espeeialmcnlc importante por
A partir dc 10 visto hasta cI IllOlllen!o puede dcducirse lfUC d~pendiendo. ~el varias ral.llnes: pOI' su intcrcs historico, gencralidad, por iluslrar IIl1aamplin clasc lil:
modelo dc ncurona collcrdo lfUC sc utili(,;c,de la arquilectura 0 topologla de coneXlon, aspcctos que apareccn con frccuencia en todo el campo de las redes neuronales
- y- del ~ilgoritlllo dc aprcndil.ajc, surginin distintos Illodclos de redes Ileuronaks.
:=-----_.
REDES NEURONALES Y SISTEMAS BOI{I{OSOS i()RA-MA cl:JRA-MA CAPiTULO I: FUNDAMENTOS DE LAS I{EIJES NEliRONALES ARTlFlCIALES
32 33

, (memoria asociativa. clasificaci6n, aproximac.ion ~i.lllcion~l,~tc.), y ademas por ser los sustituir cada puerta par una neurona como la anterior. Por 10tanto, se tiene q~~todo_
sistemas neuronales mas empleados en las aphcaclOnes practlcas. problema computacional puede ser resuelto mcdiante funciones booleanas. Por otra
~ - parte, toda funcian booleana pucde realizarse con pucrtas NAND, y toda puerta
A continuaci6n. en el capitulo 3 trataremos los m?dedloSno supe;is~~~~n~~ .~ NAND ticlle su neuron a equivalcnte. La conclusion es que loda cOlllplllacion pllede
especial, uno de los mas conocidos, el de mapas autoorg~l11za os 0 map~s e ---.:~__ ser realizada por una red de neuronasll.
(Selforganizing Featllre Maps). En el capit~10 4 cstudlaremos como eJemplo de red c'1=-

j.~_.-_____
_
hibrida las RBr, y como ejemplo de red reahmentada cl modelo dc Hopfield, tanto en Por 10 tanto, los ANS, como los ordenadores convencionales, son m,iquinas
universales, por 10 que para resolver un determinado problema, cualquiera de las dos

I
su version discreta como continua. _~
aproximacioncs seria perfecta mente valida, en principio. La cuestion que entonces
Teniendo en cuenta que nuestro proposi(o es realizar una introducc,ion al te.ma, surge es, dado un problema, cwil de las dos alternativas. procesamiento neuronal 0
en los pr6ximos eapitulos trataremos s.olamente algun~s de los I~odelos ~as con~cld.os .. convencional, resulta mas eticiente en su resolucion. Estudiando cn el campo de las
y habituales en las aplieaciones practlcas. Hemos estlmado mas c~nvemente .estudlar - -:; =-- redes neuronales los aspectos relacionados con la complejidad computacional, cn
un os po cos modelos con detenimiento que multitud de model os mas superficIal mente -~ - [Abu-Mostafa 86] se deduce que los prohlemas que requirren un extenso a/goritmo 0
(10 que se realiza en muchos textos intro?uctorios) para no a~rumar al lector no que precisan a/macenar un gran milllero de datos, aprovechan mejor 10 estructura de
iniciado. Por otro lado, remitimos al Icctor mteresado en profundlz~r en de~.lles9~]en cO-- una red neuronal que aquel/os otros que requieren algoritmos cortos. Asi, un
estudiar muchos olros model os a los excelentes libros de Haykm [Ha~ 111 y __ i __ ordcnador digital resulta mas eticiente en la ejecucion de tareas aritnH~ticas y 16gicas,
---[Principe 00], sin olvidar los ya clasicos lextos de Hccht~Nielscn [Hecht-Nielsen 90] y :0 - mientras que un ANS resolveni mejor problemas que deban tratar con grandes bases
de Hertz. Krogh y Palmer [Hertz 91]. de datos que almacenen ingentes canlidades de informacion, y en los que existan
muchos casos particulares, como sucede en los problemas de reconocimiento de
patrones en ambiente natural [Abu-Mostafa 87]. De esta manera podemos concluir que
1.7 COMPUT ABILIDAD NEURONAL un estilo de computacion no es mejor que el otro, simplemente para cada problema
particular se debera elegir el metodo nuis adecuado, y en el caso de problemas muy
Establecidos los ANS como un estilo de procesamiento alternativo-
complejos, estos deberian ser separados en partes, para resolver cada una mediante el
complementario al clasico basado en computadores digi(ales serie .(tipo von metodo mas id6neo.
Neumann), se hace necesario profundizar en sus caracleristicas computaclOn~les. Es
bien sabido que un ordenador digital constituye una maquina universal ~e TUring, por
10 que puede realizar cualquier c6mputolo. Ademas, al estar const.rUldo en base a
funciones logicas, se deduce que cua/quier problema computaclOnal puede ser 1.8 UN EJERCICIO DE SiNTESIS: SISTEMAS
resuelto con jzll1ciones booleanas [Hopcroff 84]. CONEXIONIST AS
Podemos preguntarnos si las redes neuronales, al igual que los ordenado.res En el presente capitulo, al exponer los fundamentos de los ANS hemos
digitales, son (ambien dispositivos universales de c6mputo. Este asunto ha sldo respetado el punto de vista tradicional: partiendo del modelo biol6gico se introduce un
ampliamente tratado por autores col11o Abu-Mostafa [Abu-Mostafa 86, 87, 89]. modelo de neurona artificial, para posteriormente establecer el concepto de
En [Abu-Mostafa 86] se discute exlensamen(e sobre lascaracteristicas arquitectura de la red y, por ultimo, introducir las dinamicas de recuerdo y de
computacionales de los ANS, demos(randose en particular que, al igual que los aprendizaje como dos posibles modos de operaci6n del sistema.
computadores digitales convencionales, las redes neuronales son formal.mente En el trabajo dc J. D. rarmer, A Rosetta Stone for Connectionism [rarmer 90],
capaces de resolver cualquier problema computa~i()nal, Una forma ~encllla.?e se realiza un interesanle ejereicio de sill(esis ue dichos conceplos, de aplicacian tanto a
verlo es la siguiente. Una red neuronal es capaz de Implementar cua~qlller func~~n las redes ncuronalcs, como a muchos olros sistemas din:imicos quc, por poseer
boojeana, pues basta recordar la neurona de la rigura 1.10, qu~ reahza la funclOn model os matematicos similares, encajarlan en los denominados sistemas
16gica- NAND2. Asi, cualquier circuito digital pucde ser reallzado con .una ~~d eonexionistas. Entrc ellos se encuentran, adem as de los sistemas ncuronalcs, las redes
neuronal, s610 con que cscribirlo en funci6n de puertas NAND2, para a contmuaclOn inmunes. sistemas elasilicadores. reues boolcanas, automat as celulares, etc.

_ 10 lIlIa fUllcioll matellultiea se dice computable si puedc ser reali/""la pur ulla nHiquina de Turing, de mudo que 1'1 II MaeCulloeh yl'itts [McCulloch 431 demostraroll ya qu~ cualqui~r fUllci.ill h"gica arhitraria pucde scr collslruida
- maquina de Turing sc Cllllstilu) C l'n 1'1 rderenda rundamt'nlal para aquellas euestiones rcbcionadas con 10 que es con una apropiaJa l'omhinaci(lIIde c1l'lHl'llIus basados en su moddo lk nCUfOna, ooslTvando qw: Iii ttllll."hill NAND
computable y 10 que no 10 es. Aquello que ningullJ m~quilla dc Iuring punta resolver so dice que 110 os compluahle. podia ilTlplemclllarse COliUllCaso particular de ella.
~:
~~r'

Efii~--~-J4 HEDES NEUrWNALES YSISTEMAS BORROSOS ... :'"=1


'9 HA.MA
'I;; RA-MA cArfTlIl.O I: FUNlJAMENlOS DE LAS REDES NEtJHONALES ART!.!S..~ 1
t'.

n.r~';~
H:.--- -Dicha-sintesis parte de Ja idea de grato (secci{)n 1.4), sobre la que se desarrolla

i.

"
cl marco comun. de los sistemas concxionistas.
convcncionales,
En los lIIodclos
la unica parte del sistema que puede cambiar es su
contiene toda la informacion nccesaria para determinar su futuro);
dinamieos
estado (que
el grain (la
modelos neuro~alc~ evo~utivos basad?s en algoritll1o~ g~~cticos (una-clara_t~nd~~~~
dcnlro de la lf1tehgencla computaclOnal es la de (lIslOn de modeJos neuro I
.
borr050S, evo IutlvoS y c I'aS1COS).
. na cs , ~
'1
estructura), sin embargo, permanece inalterable, es decir, los panimetros que definen
su patron de eonexiones no cambia en cl ticmpo.
It
p- Sc define un modclo concxionista como un sistcma dinamico en cl que las 1.9 REALIZACION Y APLICACIONES DE LOS ANS
.t- ----I
interaccioncs entre variables cstan limitadas a un conjunto finito de conexioncs, y en Para concluir esta introdueci\'ln a los ANS expondremos muy brevcmentc e61110
cI que las conexiones son lluidas, cn cl sentido de que sus intensidildes y/o su palron cstos sc implcl1lcnlan en la pnictica y cu{lIt:s son sus aplicacioncs. Estos dos temas Se
de concctividad pueden cambial' eon ellicmpo. Es decir, en un sistema cont:xionisla se abordanin mas cxtellsamcnte en los capilulos 5 y 6, rcspectivamente.
permite que la propia estructura del gra10 varie, con 10 que, adcmas de la propia
dimimica habitual del grafo cstablecida como cambios de estado, aparcccn una 0 mas
dinamicas nuevas rclacionadas COli d cambio del propio grafo, y que pueden oeurrir
Realizacion de rcdcs ncuronalcs
en cscalas tempornles di fercntes. Elmodo mas hahitual de realizar una red ncuronal.consiste en simularla en U11
---- Las tres dim\micas que residen-cn el grafo.de-un-sistema.conexionista,.y-que- ~_~r:QenadQ.~ c011~e1!cio11al, como JlIl_PC 0 una cstaci6ndc trabajo,-'laciendo uso dt:
corresponden a tres escaJas temporales diferenlcs, son las siguienles: programas escritos en Icnguajcs de alto nivel, como C 0 Java. Aunque de csta mancra
se pierde su capacidad de ealculo cn paralelo, las prestaeiones que ofiwen los
a) Dinamiea de los estados (escala temporal nipida). Es una din{lmiea rapida, ordcnadores actuales resultan suficientes para resolver numerosos problemas
en la eual, a partir del estado actual y de las cntradas del sistema, se obliene practicos, permiliendo 1'1 simulaci6n til' redes de tamai'io considerable a una vclocidad
su nucvo estado. En csta dinalllica actlla la regia dt, aClivacion, que razonablc. Esta eonstituyc la mancra mas barata y directa de realizar una rcd neuronal.
detcrmina la transicion entre estados. En una red neuronal equivale al modo Ademas, no cs necesario que eada disenador conreccione sus propios simuladores,
recuerdo, en la que el papd fundamenlal 10 desempei1a la funci6n de pues hay disponible comercialmcnte sollwal'c de simulaci6n queperrnite el trabajo
activacion de la neurona. con l1lultitud de modclos ncuronales. En [Demuth 04, Principe_ 00, Arbib 9g I se
,,
~.~ -'

b) nin,lmica de los panimetros (escala temporal intermcdia). Es una dinamica l1lucstran unos cllantos cjemplos (veasc tambicn el capitulo 6).
i.n,

mas lenta que la anterior, en la quc se produce c1 camhio en los parametros Ell el resto de las maneras de realizar Ull ANS se trata dc apro~echar, en maym
que definen las inleracciones entre los nodos (intensidadcs de conexi on). En o menor medida, Sll cstruclura de calculo paraJeJo. Un paso addanle en esle scntidn
una red neuronal se eorrcsponde con la variac ion de los pesos simiplicos, cs consiste en simular la red sabre computadores con capaeidad de calculo paralclo
dt:t:ir. con el modo aprendi7.aje, que lIeva a cabo la regia de adaptacion. (sistemas multiprocesador, Ill<iqllinas \'ectoriales, masivamenle paralelas ... ). Una
e) Din,lmica del grarll (escilla temporallenta). Es la mas lenta de todas, en ella orientacion diferentc consiste en Hevar a cabo la emulacion hllrdwlIre de la red
puede cambial' la cstructura del propio grafo, es deeir, no s6lo la intensidad neuronal, mediante el empleo de sistemas de calcllio cxpresalilente disenados para
dc la conexi6n entre los nod os, sino los propios nodos y su patron de realizar ANS basados, bien en microprocesadores de altas prcstaeiones, bit:n ell
'- collt:xionado. En una red ncuronal 5e eorresponde con posibilitar la procesadores especialmenlc disciiados para el trabajo con redes ncuronalcs. Estas
,~
i.

: estructuras se sue len denominar placas aceleradoras, neuroeJllllladon~s 0


modilicllci6n de III lIr1ll1itecturll de III red durante cl aprendizajc, eon la
.
i;
,
deslrucci('lI1 y creaeion dimimica de nodos . Ilcllrocomputadores de proposito general. No obstante, y dada la potencill creciellle
de los computadores convencionalcs, csta soluci6n se circlIllscribe s610 a problemas
! EI liltimo tipo de dinamica 110 ha sido dcmasiado usual •.:11 los l1lodelos
;: muy cOllcretos, don de haya que lralar c,1Il1idadcs llIasivas de dalos a gran vclocidad.
lleurOllales el;'lsicos, al menos explicitallielllc, pucs impJicitamcll1c cs ia labor que se
1~ :; realiza cuundo se ellsaya COli difcrcnlcs arqllilecturas hasla encontrar la que mcjor se El nprovechamiento a rondo de la capaeidad de enlculo Illasivalllenie paralelo
it-=;:-
;i" adapla al problema. No obstante, desde lwec algunos aT10Sse vicncll inlroducicndo de los ANS conduce a la realizacion hardware de la estructura de la red neuronal, cn
!Z -:__
~~.c ;, modelos ell los que si varia la propia arquitcctura, que Cll ocasiollcs sc denominan forma de circuilos especilicos que rellejall l.:OIlcierta fidelidad la arquilel.:tllra de la
~----;J
iit•. ;;
arquitecturas e\'nlllti\'as. Uno de los prilllcros Illoddos que rcspondian a estc red. La lecnologia mas habitualml.:llle empleada para clio cs la microelcetn)nica VI.SI,
esqucma fue eI d", CO/Tclacioll l'n Cascada (ClI.I'Clute correlation I rahlmall 90)); ell denominandose chips neurollllies a los cireuitos inlegrados asi conslruiuos. La
[Julten 95] apareeen otms ejemplos de Illodelos c"olutivus y en [IEEE 99J algunos realizacion hnrclwan: de la red ncuronal cs la manera de resolver problemas que
involucran un gran numero dc datos y precisan re~pueslas l'nlit:Jllpo rcal (pm t:jelllpio.
~:'
_£-,-----
«}RA-MA rGI{A.MA CAPiTULO I: FlJNDAMHNTOS DE LAS REllI,S NEURONALES ARltFICIALES 37
36 REDES NEURONALES Y SISTEMAS UORROSOS

un sistema de deteccion e intcrceptacion de misiles enemigos), 0 sistemas de tamano y para incorporar aprendizaje en los sistemas borrosos (capitulo 9) y a la confeccion de
eonsumo reducidos. Un ejemplo es el de los denominados sistemas bioinspirados, sistemas expertos conexionislas [Gallant 93 J.
como puedan SCI'las retinas artificiales [Boahen 05). Aunque en el capitulo 6 se estudiaran numerosos casos de aplicaci6n de ANS a
La realizacion electronica de redes neuronales es un campo muy activo,. problemas reales, prescntaremos a eontinuacion unos cuantos ejemplos. EI del
abonlado tanto par grupos de invcstigacion univcrsitarios como par empresas de los reconocimiento de earaeteres es uno de los campos donde mayores exitos han
scctores de la electronica e informatica. Companias como Siemens, Philips, Hitachi, coscchado estos sistemas; sc estima que aproximadamente el 50% de los sistemas de
IBM 0 Intel han puesto en marcha desde mediados de la dec ada de 1980 program as de OCR (Optical Cardcter Recognitiun) se basa en redes neuronales [Werbos 98]. POl'
investigaci6n y desarrollo en este campo. Asimismo, se han creado diversas emprcsas cjemplo, Sharp ha desarrollado un sistema de reeonocimiento de earacteres para el
quc tratan de explotar eomercialmente (con 1llcjor 0 peor fortuna) estos nuevos alfabeto Kanji Uaponcs) mediante una red jerarquiea basada en LVQ [Kohonnen 90).
desarrollos. No obstante, debido a la creciente potencia de los computadares de Synaptics, empresa del Silicon Valley, ha desarrollado un chip neuronal para el
proposito general y sus bajos precios, en muchas aplicaeiones no mereee la pena el rcconocimicnto de direcciones escritas en los sobres de las eartas [Hammerstrom 93a].
desarrollo 0 adquisicion dc hardware neuronal [Granado 99), bastando eon simular la POI'otro lado, Quicktionary, de la empresa Wizc01l1,es un pequeno eseaner con fonna
red neuronal en un PC. Con el paso del tiempo la aplicacion dc circuitos neuronales de boligrafo que lee y traduce textos escritos.
esta quedando restringida a aplieaeiones muy concretas, donde se requieren muy altas Un area de intenso trabajo es el del tratamiento de la informacion eeonomica
---prestaciones, 0 bien en sistemas especificos donde se nccesita un chip barato. Un = - siendo uno de los grupos punteros el de A.N. Refenes, de la Londoll Business Schoo';
ejemplo claro es el de los chips neuronales que la emprcsa califomiana Sensory Inc. en [Retenes 95] se describen aplieaciones diversas en este campo.
comercializa para reconocimiento de habla [Sensory 06], que se utilizan en telCfonos,
perifericos, juguetes, etc., que pueden lIegar a costar menos de 5 dolares. Todos estos Otra de las areas importantes es la industria. Fujitsu, Kawasaki y Nippon Steel
aspectos se tratanln ampliamente en el capitulo 5. emplean ANS en el control de proeesos industriales, como pOl'ejemplo en plantas de
produecion de acero. Siemens apliea redes neuronales y sistemas borrosos en la
fabrieacion de eelulosa (pOl' eje1l1plo, en la planta de Celulose do Caima, Portugal
Aplicaciones de las redes neuronalcs [Hiihfeld 93, Poppe 95)), en laminadoras y en galvanizadoras. Citroen emplea redes
Ya hem os scnalado que los objetivos que se persiguen mediante el empleo de neuron ales en la determinacion de la calidad del material utilizado en la confeccion de
redes neuronales son mucho mas modestos que la creaci6n de un cerebru artificial. los asientos de los vehieulos, Ford en reduccion dc contaminantes [James 98) y
Las redes neuronales se utiJizun en Ja resolucion de problemas practicos concretos, Renault para detectar averias en el encendido de los automoviles [Herault 94).
que nonnalmente no han sido bien resudtos mediante sistemas mas tradicionales, Finalmente, en la nueva version del avion de eombate F-15 se ha ensayado can
como pueda SCI'el easo del reconoeimiento de vehfeulos en los peajes de las autopistas un sistema neuronal para ayuda al pilato en easo de alcanee pOI' fuego enemigo
o la prevision de consumo elcctrico [Herault 941. Gracias a su capacidad de [Freedman 94] (aprovechando que una red neuronal eleetronica puede aprender a
aprendizaje, robustcz, no lincalidad y tolerancia a la imprecision e ineerteza del desenvolverse en las nuevas circunstancias que influyen en el pilotaje del avion miles
entorno, dcsde hacc unos anos las redes neuronales vienen alcanzando excelentes de veces mas rapidamente que eI scI' humano), y recientemente una red neuronal ha
resultados en aplieaeiones divcrsas [Herault 94, L\lp089, Hammerstrom 931. eonseguido eomandar el aterrizajc dc un avion Jumbo sin intervene ion humalla
Asi como las aplieaciones practicas de las redes neuronales resultaban haee lWerbos 98].
unos anos anecdOtieas (0 en lase experimental), como veremos en el capitulo 6 en la
HctuHliclad muchas companias las aplican de un modo. rutinario a numerosos
prohlemas; cn cs!c sentido, la aplicaci6n de redcs neuronalcs puede considerarsc que 1.A APENDICE: DE LA NEURONA BlOLOGICA A LA
ha alcanzado ya su madurez [Werhos 98]. Los artIculos [Hammerstrom 93a, 93b,
Widrow 94] constituyen un exeelcnte repaso a los numerosos campos de aplicaci6n
ARTIFICIAL
de los ANS. Los mas habituales son los relacionados con clasifleacion, estimaeion En este apendicc vamos a mostrar como cl scncillo modelo de neurona artificial
funcional y optimizacion; cn general, el del reconocimiento de patrones sude que se emplea en las redes neuronales arti1iciales puede derivarse de modelos de
eonsiderarse como un denolllinador COml1l1.Se pueden senalar, entre otras, las neuron a mas complejos, que rellejan nUls fielmente la realidad biol6gica, y que sirven
siguiellles areas dc aplicacion de los sistemas neuronales: reconoeimiento del habla, pam modelar y cstudiar su operacion can detalle.
reconoci1l1i'ento de caraeteres, vision, robotica, control, procesamieIito de senal,
predieei<\n, economia, dcrensa, bioingenieria, etc. Asimismo, se estan aplicando ANS
~: JH REDES NEURONALES Y SISTEMAS UORROSOS '~j RA-MA ~RA-MA CAPiTULO I: FlJNDAMENTOS DE I.AS REDES NEURONALES ARTIFICIALES 39
;. ,

Un modelo ehisieo de la operacion de la neurolla biol6giea es el propueslO por Vamos a obtener a continuaeion un primer modc/o mas seneillo de neuron a que
Hodgin y Huxley lHodgin 52] (veasc lanlbicll, pOl' ejemplo, lKohonell l:\9j), que parte -' -derivaremos del orientado a la hiologia que acabamos de presentar. Consideraremos
pOI' eonsiderar que la membrana celular aetua como un condensador que tiene pOl' simplieidad que la salida de la neurona es una tension an[,16gica en vcz tie una
asociada una eapacidad clcctriea eM' En csle Illodclo a cada unH de las cspceil:s frecueneia de pulsos, en otras palabras, rcprcscntaremos la frecucncia de disparo por
ionicas que cnlran y sal en a traves de la membrana (iones de sodio, pOlasio, etc., vease ~ , una tension continua. Por (ltra parte, hemos vista que la mcmbrann de la neurona se
la seeei6n I. J) se asigna eierta inlcnsidad c!ectrica; por \)[ra parte, la membrana £' comporta como un eondensatlor que recibe cargas proccdenles del exterior 0 dc o[ras
presenta dilCrcntc resistcncia para cad a tipo de i6n (Figlll~a 1.14), La capm;idad neuronas, integrandolas'y provol:ando una rcspuestn, general mente de tipo no lineal.
c1cctrica CM asociada a la membrana eelular integra dichas corriclltcs, y la tension asi En definiliva, podemos' modelar la neurona como si de un clemento intcgrador no
ohlcnida es finalmente eonvertida en lrenes de pulsos de una detcrminada fi'ceuencia lineal se tralasc, can 10 que la din<lllliea de cierla neurona i podria describirse
en d soma (coneretalTlente en un lugar proximo a la raiz del H\6n). En dclinitiva, se utilizando la ley tic conservaci6n de la carga e!ectriea de la siguienle mancra
lIeva a cabo una conVerSil)n tension a freeueneia, de manera que el nivel de activaci6n
dU
(exeitaeion) de Ia neurona queda cadi lieado cn su frecucneia de disparo (scecioll 1.1), C , = -F +1
dt I 1

Este modelo lrata COil eicrto nivel de delalle dcterminados aspectos biolllgicos, (1.24 )
como el trasiego de eorrienlcs de las distintas espeeies ionieas a traves de la siendo Vi su potencial de membrana y C su capacidad, Fi representa el eonjunto de las
_ mcmbrana, para asi explicaralgllnas propiedades dc Ja nClIrona biol<'Jgica olJ}eryadas_ ~~rr_ientes de perdida ~ de fuga de la neurona, y Ii Ja suma de las corrientes sin<lptieas_. __
cxperimentalmente, como la fi.1rtna conereta que presenlan los potenciale~ de uccion. - debidas a la aeei6n de las enlradas que recibe, provenientes, bien de otras neuronas,
Sin embargo, si se prelende analizaI' y simular la operacion dl: un sislema compllc~tu bien de fucntes cxternas.
pOI' un c1evado numero de l1euronas debe reeurrirsc a modelos mucho mas scneillos,
Consideraremos que la ace ion de las delTl<lsneuronas sobre la i es lineal, y que
ideaiiz(lciones que oculten rnuchos de los detalles, como puedan SCI' las corricntes
vendnl deserila pOI' ciertos acoplamientos wi' (pesos sim\ptieos), que dan la intcnsidad
eoncrctas que eorrespondcn a los difi::rentcs iones; de otra manera el analisis del
de interaecion entre la neurona j y la i. p<!r otra parte, denotarcmos por hi (bias) el
sistema seria inaborclablc pOI' su complej idad. Esta cs In oricntaci6n que sc loma en cl
- resto de las corrientes provenientes del enlorno. Asi, podcmos eseribir la totalidad de
campo de las cedes neuronales artilieiales, donde se estudia cl comportamicnlo de toda
las earrientes que la neurona reeibe de la siguiente forma
una coleclividad de neuronas, para poder asi apliear Jas pl'Opiedades que de ella surgcn
n
(cmcrgenles) ala resolucil)n de problemas pnkticos de interes.
Ii = .L>Vij Jj + hi
):1
( 1.25)
con ~ los potenciales generados par las ncuronas j (0 del exterior). Es intcresanlc

.-
iT
t observar que los pesos sin{'pticos wi" en dcfinitiva, representnn
cleclricas. .I _
conduclancias

II
'N' "

t
Por olra parte, supondrcmos que las eorrientes de fuga son lllli2i6il~(micalnc-nte
eM u
t I
'f de la salida de la neuron a Yi' de manera que si una neurona present:l un.j--nlayc)r
/
R),. R~ K1 aelividad de salida (mayor freeucneia de disparo) poseera --,niiY-(lrcs"per<!idas.
+ +
Considcraremos una dependencia no lineal
ii E, Ei
"T'
"" T
" I I
( 1.26)

~:,
~icndo K(.) una funcion mon{)lona crcciente, lJue eonsiderarcmos ticne inversa. De cstc
,'- modo el model11din:imico de 1:1 ncurllll:t queda
~!.
H- FiJ:ltfll 1,/4 Madela elCctl'ico dc In mcmhl'o/la de la /lel/rono IHo((l;in 52}. Los
dU /I
" .I'lihflldices Na y K hewclI n:/c'rcIICiCl Cllos iOlles sodio)' l'0tClsio .. 1' ell (lc,lkage) Cllos C-df1 = -0(1'.)+
," < I.
"1t'.V
L... 'I I
+ h,
iOlles que repreSl'ntClII col'riellles de/ilj!.cI. Ves el potcllcial de membraI/o .1:1
( 1.27)
~RA-MA
40 REDES NEURON ALES Y SISTEMAS BORROSOS

Yj

Figura 1.15
Parlimetros del modelo CAPiTULO 2
Neurona (i)
dim/mica de new'ona

Cuando estudiemos el modelo de Hopfield anal6gico (capitulo 4) veremos que


REDES NEURONALES SUPERVISADAS
el modelo de neurona que propone, basado en amplifieadores, tom a pnlcticamente la
___ misma forma.:-_ ..... -- ---------.----- - "'-' -- --- - _ ...---- .. ..:c= . ...:.. _ --En-los proxlmoscapitu!os--tratare1l1os algunosde 10s--1l1odelOsderedes"
Si consideramos ahara que las entradas varian lentamente, podnln cons!dera.r~e ~ : neuronales mas populares. En primer lugar, comenzaremos estudiando la amplia c1ase
estables durante un tiempo suticiente, de modo que puede realizarse la aproxlmaclOn -::::: .-. - de redes unidireccionales organizadas en capas (feedjorward) y con aprendizaje
dU/dt'" 0, por 10que despcjando en (1.27) obtcnemos .::=-. _ supe:visado, que son empleadas como c1asificadorcs de patrones y estimadores de
II .. '" -- _funclOnes. Estos model os en la literatura son dcnominados mapping nellral networks
g(Yi) = L wij~ + hi -- ;, - - [Hecht.Nielsen 90], 0 redes neuronales para representaci6n (ajuste) funcionaJ.'
j=1 (1.28) "" .__, . Dentro de_este gran grupo de redes trataremos el perceptron simple, adalina y
. perceptron multicapa. EI popular algorit1l10 de aprendizaje den01l1inado back-
Y si caleulamos la salida de la neurona, se tlene
propagation (retropropagaci6n) 0 BP se aplica precisamente a este ultimo modelo. EI
J (~ J (1.29).:=c..'~. =- perceptron ~ulticapa con aprendiz~je' ~P (0 a~gu.na de sus ~ariantes) cs 'eI modelo
L wilj + hi
II .

y; = g -I ( =f ~ Wilj + hi ,<f '_' _ neuronal mas empleado en las aphcaClOnes practlcas (se estlma que el 70% de los
}=I J-I -=-.• ~esarrollos co~ redes neuronales hacen uso alguna de susvariantes [Gedeon 95]).
donde hemos definido fi..)=g-I(.). La expresion obtenida es el modelo estlitico. de la -~; :-- Por ultimo, seiialaremos algunas referencias para ellector interesado en ampliar
neurona, que resulta similar al que propusimos como rnodelo de ncurona tormal 3=
conocimientos. El articulo [Hush 93] constituye una exeelente aetualizacion dcl
cstandar (ecuaci6n 1.11), eomun1l1ente empleada en numerosos mod_clos de ~edes~:" :.:. chisieo (Lippma!''!J7]. ~ara._l1nestudio en mayor profundidadrecomendamos el texto
neuronalcsartificiales. De este modo heil10s conlprobado que el modelo convenclon~L -:: ~ -[Bishop?5] y, especial mente, los recientes [Haykin 99] y [Principe OO]'donde se
_ ..----=-de l1eurona iriificial resu1ta- ser- una simplificaci6n _de otros modelos mu~ho. mas _.:.:~:=--
recopilan las (I1timasinvestigaciones. [Duda 01] es un gran tcxto sobre reconocimicnto
elaborados y mas fieles a la realidad biol6gica. En el modelo de neurona artl~cJaI se.. de patrones, que trata estos model os de una manera muy rigurosa y elegante.
oeu1tan multimd de detalles, tenicndose en euenta lmicamentc los rasgo: esenc~ales d~ ..: ;
1'1operaci6n de la neurona biologica, para asi disponer de un modelo mas senelllo que ~ :
__ -'__ ":'pcrmita trabajar con colcctividades de neuronas.
- 2.1 REDES UNIDIRECCIONALES
-------.-- ..-.I;,~~aclaborar estc apcndice nos hcm~s inspirado en las refcrencias [.Hopli~~d84,_;_ Muchos probkmas del mundo real pueden intcrpretarse desdccl punto de vista
~_ ..=-=-=-.. ,--Vcmuri.88,.Gutfreund 92, Hush 92a, 92b, Kohonen 89, 97), con la .mten,clon de_ =_ de la estimacibn 0 aproximaeit'lll funcional, en el sentido de tratar de encontrar la
- Illostrar la concxibn entre los modelos de ncurona orientados a Ia blOlogw y los funci6n que a partir de un eonjunto de cntradas proporciona la salida dcscada. Por
modelos simplificmllls de nt:urona artificial. Para akanLar una visi()n mas ri?uros~ cjemplo, si qucrcmos dcsarrollar un reeonoccdor de caraclcres rnanuscritos cl objctivo
-rccomendamos t:speeialmente la consulta de [Kohonen 89. 97) y las referenclas alII sera cncontrar un siskma que implemente la funci6n que asocia la imagen de una
-'~itadas.- detcrrninada Iclra 0 caractcr cscrito con la clase a la que pertencce. Otro cjemplo
-------~
.••..

(i) Ri\.MA .gRA-MA CAPiTULO 2: REDES NEURONALES SUPERVISADAS 43


42 REDES NEIJRONi\LES Y SISTEMAS UORROSOS

ilustralivo seria el de la prediccion de cotizaeiones bursatilcs, en el que mediante una


red neuronal se trataria de enconlrar 1'1funcion que rclaciona diversas variables de
entrada (eotizaeiones previas, tipos de intercs, inflaci6n, etc.) con la actual eotizaci6n
en holsa dc una delenninada entidad 0 empresa.
Como hemos adelantado, dentro del grupo de modclos de redes neuronales
unidirceeionales lrataremos especialmente los easos del perceptron simple, adalina y
pcreeptr6n multieapa 0 MLP (Ml/lti/ayer Perceptron). En primer lugar, hay que x
deslaear que eslos Illmh:los pn:scnlan un gran inlt:rcs hist6rieo, pues su cvo!uci6n
n:presenta la historia misma de las redes ncurona1cs. As!, el perceptron simple y 1'1
ad'll ina se proJlusieron a finales de los aoos cincuenta, aleanzando una gran
Capa de entrada Capa de salida
. popularidad durante los alios sesenta, para a continuaei6n sufrir un duro reyeS a fina1cs
de esa dccada, debido fllndamentalmente 'II riguroso trabajo de Minsky y Papert
[Minsky 69], en cl que pusieron c1aramentc de manificsto sus limitaeiones. El Figura 2.1 Asociador lineal ((uncion de activacion idcntidad)
contraste con el gran intercs que cl tema habia despertado hasta entonces hizo que el
--campo de las redes IIcuronaks en-.general entrase en -una cpoea oseura durantc la-
dceada de los setenta, desviandose 1'1mayor parte de los reeursos economieos al (2.1)
prometedor campo de 1'1 inteligencia artificial. Sin embargo, el tema resurgio en los
oehenta debido a diversas cireunstaneias, como la disponihilidad dc ordcnadores con La operaeion del asoeiador lineal es simplemente
pOleneia suficiente para lIevar a eabo simulaeiones antes dil1eilmentc abordables, el y=Wx (2.2)
desarrollo de la integracion VLSI, que permiti6 realizar eleetronieamenle redes
o bien
ncuronales, y la inlroducci6n de nuevos modelos, cspecialmentc cl MLP entrenado n
mediante el algoritmo BP, que superaba los viejos problemas de los modelos_;::;-_ ...
predecesorcs, anulando huena parte de las objeeiones "hist6ricas" de Minsky y Paper!.--
y; =,Lwijx j
j=1
(2.3)
No obstante, eI principal intercs de los modelos que tratarcmos cn este capitulo _
Por 10tanto, eada ncurona i del asociador lineallleva a cabo la suina-pondcr3di
es su generalidad y aplieabilidad pniclica, ademas de ilustrar muy bien una amplia
de las cntradas con sus pesos simiptieos. Es decir, dentro del marco .de neurona
c1ase de problemas y aspectos que apareeen con freeueneia en todo c1 campo de los
esta~dar deserito en ~l capitulo I, esta neuron a calcula cl potencial poslsinaptieo por
ANS. Par todo clio, este capitulo puede considerarse C0l110uno de los ccntrales dc la
medta de la convenclOnal sum a ponderada, cantidad a la que apliea linalmente una
parte correspondiente a relics neuronales. Por otro lado, resulta interesante saber que
funeion activacion de tipo identidad.
algunos de los model os de aprendiz,~je que expondremos tambien son empleados en cl
. entrenamiento de sistemas borrosos, eOl11ovcrelllos en la seglinda parte. El.asociador lineal debe aprcnder a asociar p pares entrada-salidal, {(xtJ, tfl) / l~
16P}, aJustando sus pesos W de modo que ante un cierto patron de entrada xP
responda con (II, y que ante entradas simi lares, (XIl+E), responda con salidas tambien
2.2 EL ASOCIADOR LINEAL: APRENDIZAJE HEBBIANO proximas (tP+<5) (con E y <5 cantidades pequeoas). El problema se centra en encontrar
la matriz de pesos W optima en el sentido deserilo. Para clio, ell el campo de las redes
Anles de eOl11enzarcon los modc1os eitados esludiaremos el asociador lineal. ncuronalcs normalmcllte. se haec uso de una regia de aprendizaje, que a partir de las
un sCIlciJ10ejemplo de red unidireccional que servini para introducir los coneeptos cntrada~ y dc la.s sall,da: descadas (en cI caso del aprendizaje supervisado),
! relacionados con c1 aprendizaje en redes neurona1cs. Este modclo, mediante una_ proporclOne el cOIlJunlooptlmo de pesos W.
t- trans!ormaei6n lineal, asoeia un eonjunto de patrones de entrada a olros de salida.
, ~------ -- - - ._-
.- El asoeiador lineal eons1a llllieamenle de una eapa de neuronas lineales, euyas
n ---
cnlradas las denotamos por x y sus salidas par y, \"ector que constitllye ademas la
i~-----rcspu~slaAc .Ia red nell.ronal. Asimismo, denotarenlOS por W= {u.ij} a 1'1matriz de
--pesos simipticos; c<ldafila de W contiene los pesos de un<lneurona \Vi. (

J t !S:lrl..~IllOScI 'llllholtl t (target) l'uand,) Ilt'S rdiramos a las SJlitbs dcscad:ls tI ohjcti\'o.
(gRA-MA :0RA-MA
44 REDES NEURONALES Y SISTEMAS BORROSOS CAPiTULO 2: REf)ES NEURONALES SUPERVISADAS 45

Regia de aprendizaje de Hebb - -----=- que las asociaciones sean eorrectas los patrones de entrada deben ser ortonormales,
POI'ello, si la dimension del espacio de entrada es n, solamente podni aprender hasta n
Se trata de uno de los modelos clasicos de aprendizaje en rede~ n,euronales,
asociaciones, Para almacenar mas pares entrada-salida sera preciso utilizar otras
Donald I-lebb en 1949 [Hebb 49] postulo un meeanismo de apre~dlzaJc ,p~ra ,Ia estrategias,
, b'ologica cuya idea basica consiste en que cuando un axon presmaptlco
neuron a I , I f' 'd I ' ms que la~ Eliminando la condicion de ortogonalidad, se tiene (manteniendo el rcquisito de
causa la ac1ivacion de cierta nellrona postsinaptica, ~ (? lcacw .e a sma!, .
vectores de Jongitud I)
re I'aCiUna .\e
. r e,r. a EI• trabaJ'o experimental posten or ha conhrmado
J' uer_.
7
d"
en Iparte esta'
, [K'mdel 92] demostrando la preseneia de este tipo de apren IzuJe en a neurona
teona,
biologica, aunque ,en coexistencia con otras esquemas [Alk . 'on, 89] ('mtc'I"accion 'j, .nivel
presinaptico, crecimiento y debilitamiento del axon, modlficaclOnes del metabohsmo,
desarrollo y muerte celular, etc.). expresi6n denominada expansion scftal-ruido, pues proporciona la salida deseada
mas un termino adicional, que interpretamos como el ruido sllperpuesto a la senal.
Este tipo de aprendizaje es sim~le ~ local. Gran parte de su im~?,rtancia ra~ica
Empleando reglas algo milSsofistieadas que la de Hebb, como la de la pscudoinvcrsa 0
en que t'ue pi'onero , tanto en neurOClenclUScomo en neul'ocomputaclOn,d y 'dmuchos
la de Widrow-Hoff, se obtendra una matriz de pesos que lograra ademas que el ruido 0
otros algoritmos mas complejos (y mas potentes) 10toman como punto e partl a.
sea pequeilo comparado con la senal.
---. De una manel'a general, se denomina aprendizaje hehhiano.aaquellas. formas
de aprendizaje que involucran una moditicacion en los pesos L\lVij proporclOnal al Regia de la pseudoinversa
producto de una entrada} poria salida ide la neurona La regia de aprendizaje de Hebb ha sido introducida debido a su plausibilidad
~lVij = Ey;xj (2.4) biologica. Sin embargo, en general se tratara de deducir los algoritmos de aprendizaje
, I 't d endizaJ' e que sude SCI' una cantidad = ::. -==- a partir de un cierto criterio a optimizar; eI aprendizaje usualmente se planteara como
siendo [un panimetro denommu[ 0 n rno e apr , ,,' t 't', del ~ un procedimienlo para alcanzar el con}unto de pesos optimo que resuelva un
', d considerarse la repn'sentaclon ma ema Ica - . . " _ , '
entre 0 y I. Esta expreslOn pue e .,' ~ ..problema dado, Para ello se hace necesano defimr el slgmtlcado de "optU110"en eada
modclo de aprendizaje descrito pOl'Hebb, caso concreto, es decir, hay que proponer un criterio que mida el rendimiento de la red
C 'd' e1105 nuestro asociador lineal. La regia de Hebb se expresa en este neuronal para encontrar u~a regia de actualizacion de pesos que 10 optimice. Una
°t,nsllcr
caso par ICU ar as!
I, fom1a habitual de definir el rendimiento es el error cuadratico
" medio de, las salidas
actuales de la red respecto de las deseadas. Para el asocJador Imeal se tendna
(2.5)

y, pOI'10tanto (2.10)
'~"II' = lV~ld + ~ Wl~
lVij y . !J De este modo, un algoritmo de aprendizaje para el asociador lineal-debet-hi
. Si los pesos de partida son nulos, el valor final de W para las p asociacioiles _ -=i..'_ ~. obtcner un eonjunto de pesos que minimicen esta expresion del error. Si los veetoresx
sera iI son ortonormales, cl error que proporciona la regIa de lIebb (2.5) segllll (2.10) es
w = exiT + ex21'+ ... +tpx"T cero, 10que indica que esta regIa es optima respecto de la medida de error propuestasi
se dispone de vectores de entrada XII ortonormale5.
Empleando la regia de I-lebb para el cntrenamiento del asociador lineal, si ,los
vcctores de entrada {xl, x2, •.•, Xl'} son ortonormalcs (ortogona!es y de 10ngltll,d,_ Si denominamos X a una matriz nxp que tiene pOl' columnas los vcctorcs de
=-=---- unidad) se cumple entrada xii, X=(x I x2 ••• xP), Y si lIamamos Y a la matriz mxp cuyas columnas son los
-- - --- (. T \ /I I . II II) t" ( ,,'I' II) - til vectores de salida yll, Y=(y' y2 '" yp), la ecuacion (2,10) se transtom1a en2
Wxll = exiT +.,.+tl'x" fX' =t (x .X + ...+ X .X -

Y par tanto, ante la entrada x,.usc rcprodlll:c la respuesta aprendid~ til, es decir',la ,regl~
_ --de Hebb ha consegllido en este casu que la red aprenda a reahzar, I~s asocmClOlles
- ---dt:s~adas:- EI prohlclna reside en que las condiciones son lTIUY rcstnctlvas, pues para-. _..- 2 /lclini"ndllia
2
nonna IIMII2 de una matriz M (flx'l) de la siguicnk limna II 11111 =11 (/1/;, ) 112 = tt
i-I j-"J
/1/ ~

~-
46 [WOES NEURONALES Y SISTEMAS 130RROSOS
CAPiTULO 2: RUJES NElJRONAI.ES SUPERVISAi)AS 47-

E{wij}= (1/ p) II Y - WX W (2.11)- =,.~


-'-,:'-
practic~ [He.chl-Niclscn 90] I~ siguicnlc forma aproximada dcl lcon:ma=-de Greville,
_local e ItcraLIva,suclc p~op()rclUnarresultados corrcctos:
Con esta nomcnclatura, la regia de Hcbb se cxprcsa de la forma siguiente
\\,i
ile''''
= Wi
,,1.1
+ E. (II
t; - C Wi .•'' )' X
/II X
/I
w = YX T
(2.12) (2.14)

Una reg Ia J e apren d"Iza.Je basa( 1a en Ia uti'1'WIClon . d'omversa~ =-.~.


" (elit' a ma nz pseu __ --=:
-siendo E cl ritmo de aprcnL1izaje,
.' par{lnll:lro
. que indica la rapidez en .Ia •actll'lil'Z'lcl'o'n
, o.
puc de escn 'b'Irse como -- (0<['< I). En este
. esquema IkratiVO.
.. _ los IJatrones debcn ser IJn:SCIll.'ldosa
. la I,,'d
~
. -~. ~- . ncuronal repetldamente, obtclllcndosc de esta manera una aproximaci6n a la malriz
(2.13) ~ - pscudoinvcrsa mediante caleulos simples y locales.
donde X+ dcnota la pscudoinversa3 de X [Kohonen 89, Hecht-Nielscn 90]. Se pucdc- Esla expresi6n coincide can ]a famosa regia de Widro\\"-IJuff de la adalina que
demostrar quc csta elcccion para W minimiza el error cuadratico medio (ecuaciones veremos mas adelante. Asimismo, en [Rumelhart X6a] se relacionan ambos algoritmos
2.10 Y 2.11), cs dccir, que cs optima rcspecto de cste error [Hetch-Nielsen 90]. En de aprcndizaje, mostrandose que en realidad ambas rcglas son equivalcntcs cuando se
[Ritter 91a] se deduce (2.13) a partir de la minimizaci6n algebraica de (2.11). trata de realizar un aprendizaje estadisticil, consislclllc en asignar en vt:z de un patr6n
Asi como con la regia de Hebb sc podian almacenar hasta n vectores '-- _ cntradas a uno de salidas, toda una clase de veetorcs de entrada (eompucsta por un
de
ortonormales;" conla pscudoinvcrsa"se puedcn almacenar-hasla-n-vcctores-linealmente,- conjunto dc patrones estoC<lsticos quc se distribuycn gaussianamcntc en tOrJlO al
independicntes (por cjemplo, en la pagina 82 de [Hecht-Nielsen 90J, puede verse su .prot(ltipo dc la c1ase) a una clase-del espacio-de salidas (de similarcs earaeteriStica.sr
demostracion). Si prelelidemos almacenar mas pares entrada-salida, surgiran errores, '.""__ -. Es decir, la regia de la pseudoinversa y la de Widrow-Hoff coincidcn as;ntoticamcnle
pero el mapping lineal implementado seguira siendo optimo en el scntido del error ::-. cuando se consideran distribuciones dc vectores cstoeasticos.
euadratico medio (se alcanzara cI menor error posible). La regia dc la pstudoinversa se ha aplicado en redes lIlas complcjas, como lade
Debido a que ambas reglas son optimas segun el mismo crilerio, la regIa de -~-- Hoplield [Personnaz 86], proporeionando I11cjores resultados que la de' Hebb.
Hebb y la de la pscudoinversa deben estar muy relaeionadas. Esta circunstaneia es -;;;; - inieialmente propuesta y mas conocida y extensamcnte l'studiada (veasc, par ejemplo.
[~cil .de apreeiar, pues si consideramos un conjunto de vectores de entrada- [Mellt:r 90] y referencias alii eitadas).
ortonormales, la regia de la pseudoinversa (2.1 J) se eonvierte en la de Hebb. POl' otra" :~
parte, si se realiza la expansion en serie de la ecuacion (2.1 J) de la pseudoinversa _-=
(vcase, por ejemplo, la pagina 455 de [Rumelhart X6]), cl primer tcrmino de la serie es - 2.3 EL PERCEPTRON SIMPLE (ROSENBLATT, 1959)
precisamente Ia ecuacion (2.12) de la regIa de Hebb. Es decir, la regia dc Hcbb
represe!1ta en el fondo un caso particular de la mas general regia de la pseudoinversa. Este modeIo neuronal fue introducido por Rosenblatt a tinales de los anos
cincuenla [Rosenblatt 62, Hertz 91, Principe 00]. La estructura del perceptron 5C
Habitualmente para el calculo de la pseudoinversa se utiliza el teorema de inspira en las primeras etapas de procesamiento de los sistemas sensoriales de los
Greville [Kohonen 89, Hecht-Nielsen 90], aunque presenta el ineonveniente de quc- =
ani males (por ejcmplo, el de vision), cn los ClIalcs la informacion va atravesando
para 'aprendcr un nuevo patrori se dcbe reealcular toda lamatriz de pesos, 10 que no --=.- _ - sucesivas capas de nCUJonas, que rcalizan un proccsamiento progrcsivanlcillc de mas
resulta eOmlll1dentm de la filnsolia de los ANS [Ritter 91a], en la que se tiende a que. -, alto nive!.
todos los modclos scan locales y opcrcn increll1cntalmente. Se ha ll1ostrado que en la
EI perceptron simple es un modelo unidireccional, compueslo par dos capas de
..
.r
neuronas, una sensorial 0 de cntradas, y Dtr<Jde salida (Figura 2.2). La operaeion de
una red de cstc tipo, con 11 neuronas de entrada y 111 de salida, se pucde expresar como
n
ii' -
3 Toda mlllr;z I;ene lIna pselldo;nvcrsa. 1.11pselldo;nvcrslI A+ de lIna malr;/. /I (},''I) arhitraria sc dclinc COmOla unica
~ - --m,iiriz-que (umple las siguienles prnpiedades: YiCt)=/<Lwijxj-(J,); \ii, l$i$m
A/I"A=A ,1=1
~: A"AA I=A I
(2. I5)
~-- /\/\ -t =(/1/1 +fl
i~- - --
~; A+A=(A'A)T

-::Sc pncdcdemoslrar que 13 pseuduiuve"a tic uua malr;7 clladrada no singular cs igual a 511inversa. En eSle selllido, la
t.leI l:onccplo de invcrsa de una lIlatl'i/., para d t:aso (k lIlatrk~s 110
la g~Il~I';)liial,;i(;n
p~l'uduillH'f'la rl'pr~sclI(a
cuadradas [Kohonen ~'!I.
48 REDES NEURONAlES Y SISTEMAS 1l0RROSOS @]I.A-MA ({;lRA.MA CAPiTULO 2: REDES NEURONAlES SUI'ERVlSADAS 4'.

Region o ->'0'
wlxl+w2x2>=8 x ->'1'

j(-r) ••••• ---
x
x x x
x x x
x xx
x ~ of x
x xx
x x x x
Regidn
Capa de entrada Capa de salida
w]x]+w2 X
2<8 Figura 2.3 Regiones de
decisi6n en el plano
Figura 2.2 Perceptron simple y fimcion de transferencia de Sll neurona

--------- ._- --- - ----------------------- ------------- - -(2;17)--


Las neuron as de entrada no realizan ningun computo, unicamente envian la - --':;:=---- -
informaci6n (en principio consideraremos senales discretas {O, + I}) a las neuronas de 0 bien
salida (en el modelo original estas neuronas de entrada representaban informacion ya
procesada, no datos directamente procedentes del exterior). La funcion de activacion I, si w,x1 + IV2X f) O ~

{ (2.18)
de las neuronas de la capa de salida _es de tipo escalon. Asi, la operacion de un- ~-: y ~ 0, si w1x, + W2X~ < f) .
perceptr6n simple puede escribirse ---
tI - Si considcramos x I y X2 situadas sabre los ejes de abscisas y ordenadas en el
Yi = H('i. IVijXj - OJ, Vi, -{S iSm plano, 1acondici6n
j=1
. IV] f)
IVlXI +w2x2 -f)=O=>x2'=--x] +- (2.19)
con H(.) la funcion de Heaviside 0 escalon (capitulo I). El perceptron puede utilizarse _. lV2 lV2
tanto como clasiticador, como para la representaci6ri de funciones booleanas, pues su -:~ ---
neurona es esencialmente de tipo MacCulJoch-Pitts, de salida binaria. La importancia -"':i':-- representa una recta (hiperplano, si trabajamos con n entradas) que divide el plano
hist6ric-a del perceptr6n radica en su canlcter de dispnsitivo entrenable, pues el - (espacio) en dos regiones, aqucllas para las que la neurona proporciona una salida '0' 0
algoritmo de aprendizaje del modelo introducido por Rosenblatt, y que describiremos ~;;;;- 'I', respectivamentc (Figura 2.3). Luego, cfectivamente, una neurona tipo perceptr6n
mas adelante, permite determinar automaticamente los pesos sinapticos que clasilican_c~- - .,representa un discriminado~}ill~al, al_implementll~_unacondici6nlineal que _separados_
un conjllnto de ejemplos etiqlletados.---- -_----- --- -=- _--_
__unconjunto de patrones a pati:iLde__ rcgiones en cl espacio, que represcntan dos diferentes clases de patrones.
Mostraremos a continuaci6n que un perceptr6n permitc rcalizar tareas d;-:;= Consideremos la fllnci6n 16gica NAND2 (AND negada de dos entradas), que
clasilicaci6n. Cada neurona del perceptr6n representa una determinada clase, de modo representamos sobre el plano (Figura 2.4a). En este 'caso pueden encontrarse unos
que dido un vector de entrada, una cierta neurona responde can 0 si no pertenece-il la--.o. - parametrbs wI' w2 Y Oque determinen una recta que separa perfcctamentclasregiones
c1ase que representa, y con un I si si pertenece. Es r:icil ver que ulla neurona tipo correspondientes a los valores 16gicos 0 y I. Por clio, la funci61l 16gica NAND se dice
-perceptr6n solamenle permile discriminar entre dos clases Iinea1tncnte separables (es separable linealmente, puesto que hem os podido encontrar una unica condici6n lineal
decir;cuyas regiones de decisi6n pucden ser scparadas mediante una [mica condici6n - - que divide ambas regioncs5. Par ejemplo, un pcrccptr6n con los siguientes parametros
lincal-o hiperplano4). Sea una neuron a tipo perceptrbn de dos entradas, XI y x~, can impJementa la funci6n NAND: 11'1=11'2=-2, y f)=-] (capitulo I).
=--=--_-=-s-aliil~v. cuya opcracion sc define, pur 10 tanto,

5 lJna definicion mas rigurosa serb: ulla fuud6u se dice 1i1l,'alm"lIle separable ,:ullud" su "spaei" de variahle, de
____ 4_L:_'n_a
_lin~~j~(,cla. ~~.ln-~ll.1j~lIllu~
en dlJ~ Jilll,.;n~ioltc;,. cmrada puede ser di vidid" ell regill"" ,Ie igual ,alida mediante una (mica condie ion lineal (un hiperplallll).
50 REDES NI'IIRONAI,ES Y SISTEMAS AORROSOS
cAPinJLO 2: HEnES NEURONALES 5UPEHVISA()A~ 51

!
til
lr,--~
Sin embargo, consideremos la funcion logica or-exclusivo 0 XOR (su salida es
el 0 logico si las ~?nables , 'I es y J' Sl son d'rI ercn t).es, y -. ~--
de en:l:ada son Igua
=:":~~ . Los tipos de regiones de decision que puedcn formarse"~~~diantc- cstr 't
-_. simp Ie~ y ~~ IItc~~a
. se muestran en Ia F'Igura 2.5. E'I problema a resolver en este
ue caso
ur,lS
"1 '
1

rept'cscntclllosla lamblen en el plano (hgura 2Ab). En este caso podemos apreclUr que- cs la dlscnmmaclon cntrc dos c1ases de patroncs, la clasc A y la B. Los COlltornos I'
no sc puede enconlrar una [mica condici()Il lincal que separe las rcgiones .;:;' sc forman con estrucluras lJ1ulticapa son polinomiales, puesto que consistcn el;\~
,'
i_u_ corrcspondientes a los valores de salida 0 y I, pOI' 10 quc sc dice que la XOR no cs -~- composicion de discriminaciones lineales eorrespondienks a difercntes neuronas-de-
scparab!c linea~mente. Como la neurOl~a del perccptr~n rcprcscnla en cl .~mdo un liFO u~llbral. Si consideram~s ne.ur~nas de respuc~ta con~inua, pOI' ejcmplo de tipo
. i - diserilJ1l1lador Imcal, esla neurona pOl' Sl sola no puede IlnplelJ1entar la funelOn XOR. slgmOldeo, los conlornos senan slmilares, aUllque Sill esqlllnas. Dc la ligura podelTIos
Por 10 tanto, conc!uimos COil que la clase de junciones no separables lincalmcnte no apreciar quc medianle una estructura de dos capas, sill eapa oClllta (Ia que eorrcsponde
plfedl' S<'I'rl'pl'cscntadll pOl' UIIPcrcelltreJnsilllple. _ a un perceplron simple), la region de decision es un hiperplano que separa en das el
. e 1 perceptron' pres en I'a senus I'Iml'tac',olles.
I>or Ia tanto, pese a su gran 1I1teres,
. ( ,- ~=: _ _espacio
. "', de las variables. Hacienda uso de Ires ,capas, con una oculta ' 5e , pucclen
". .
plies solalllenle puede representar lunelones IlIlealmente separables. ASI, aunqlle ,... dlscnmlllar reglOnes
d d II convexas
I'd sean cerradas
d' ., 0 ablcrtas. Con una eslructura de cualro
, d ,. ..'
..
pueda aprender alliomatlcamcnte a representar cOlllpleJas. ..
luncJones I)00 ICallrIS
,. 0 capas,
.' 1"os e ,.e as OCLIlas 'I'sc puc e ISCrlmlllar
d I rcglOncs
I d e onlla arbllrana ' cuyo
rcsolvcr con exito mllchos problemas de c1asificacillll (mediante cI algarilmo que UIllCO Imlte VIClle IInpucslo pOl' e Ilumcro e nm os emp ea os.
expondrcmos mas adclantc), en otras Ol.:asiones fallara estrepitosamente. Por ejemplo, en [Milller 90J pueden enconlrarse demostraciones mas formalcs
- ---- .. Minsky (UIlO de los padres-de-IrIAn' - Papert -[MinskY-69r'esludiaron en --_rclacionadas con los conceplos expuestos. Por ejemplo, alii se demllestra que toda'
. .
profundidad el perceptr6n, y en 1909 publicaron un exhaustlvo trabaJo en e que se- I - juncion boolcana pucdc SCI' repl'esenlada por una rl't/ neuronal lInidil'ecciollol con
subrayaba sus limilaciones, 10 que resullb decisivo para. que muchos de los recursos IIIICIlillica capa oculla, 10 que fue demostrado par grimcra vcz par Denkcr y otros a
que se estaban invirtiendo en redes neuronales se desviasen hacia otros campos mis mediados de los ochenla [Denker 87J.
prometedores enlonces, como era cn la epoca e1 de la inteligeneia artificial. A finales de los sescnla ya se apunlaba como sbluci6n a las limilaciones del
f)...c 11eXJonemos
. un poco so Ilrc e I. pro bl ema d e Ia '" unclon" XOR para u. llenlar, perceplrbn inlroducir
'. capas ocultas, . pem el problema . .residia en que si .bien se c1isponia .
'. U t'
encontrar una so IUClon. na neurona IPO pereep ron Imp em en a una eelSlOn t' . ltd .... 11'11'I
e,l ,_"" ~ __ de un algonlmo . de aprendlzaJe
'.., para el pereeptron sll11ple
. . (el denomlllado .. algorltmo
~~~ ... I
())servan _.
d 0 1a ]'Igum ") 4 po
_.' . d cmos consl 'd eraI' d os neuronas percep Iron, . un'a _, del perceplron),
. no 5e dlspol1la de nlllgun . procedulllcnio que penllltiese oblcner
g.~ .Imp Icmenla Ia eICCISlon .. , I'lI1eaI f)L I , y Ia 0 t ra Ia Dl ') Consl,'d eremos . un a c'lpa
J~. , ~ aulomalleamente
.. los pesos
.. cn UIlO muillcapa,
, . con ncuronas
"" ocultas. ESle problema.
". I . . t
ae)IClOna cornpuesta por una umca neurona pereep ron encargae a e componer a, - _. - . I dis -~ denommado
. de
. "aslgnaclOll . de credlto"
. a las .. neuronas
. Sill conexlon dlrecla
. con ci
. 'I I I d d' 'd' I
reglOnes cn as que e p ano que. a IVI It 0 por as os neuronas an enores. I ". I d I'. s' esla -= ext enol' (cOllSlstcnle en como mcdlr la conlnbuclOn " al error en la sailda de la red
..
;:';i':-, . .' .'. . d neuronal de cada uno de los nod os ocultos que precisamenle no lIen en una concxlon
neurona se acllva ulllcamenlc euando la neurona correspondlente a DL 1 esta aellva a d' II ) fi I I' d P I W b [W b 74J
~~T- .
y DL2 desacllvada, lendremos una red de Ircs capas (una de eI Ias ocu 1la, es eI"eClr, Sill Irecla con. e a, ue resue to no . mue 10 mas _tar e por au er os er os " pero
'. J' I I')
concxlon (Irecla a ex enol' que IIlJP emenla a IllllClOn. I I ~ " XOI) L I ,"
.... uego una so uClOn , a fue preciso esperar hasta medlados
.... de los anos ochenta para que eI grupo PDP
.. Uunto
..,
Ias I.1I1l1laCIOlles d I .' I d . t' . I' '. la con otros grupos de forma mdcpendlente) redeseubnera un algontmo sllmlar, que
i: pcrccplron sImp e puc e consls Ir en mc ulr mas, capas en d' b k I' BP [R Ih 86 ] d'. .' I
J;;l-=='-c- .. ~, , . ... . . ., enommaron ac -propaga lOll 0 ume art a, y Icra a conocer a a
'""--- 'arqUltectura con 10 que tendremos un pcrccpfron mulhcapa. ,.... . .
~~'~- ' comumdad mternaclOnal su gran potencial para la resoluelOn de problemas pracllcos.

NAND XOR
( 1.1 ) ( I, I)
o 2.3.1 Algoritmo de aprendizaje del perceptron
0->'0' o 0->'0'
X ->'1' X ->'1' La importancia del perccplron radiea cn su caracter de dispositivo cntrcnabk,
pues el algoritrno de aprendizaje introducido par Rosenblatt permile que el perccplrbn
determine automalicamenle los pesos sim\plieos que clasifican un c1eterminado
conjunlo de palrones eli que tad os.
=.-
r,rni--
i£i.
(0,0) (0,0)

FixuI'/1 2.4 Fllllciulles iligicas NAND ((I))' XOR (b)


~---
"""'",
52 R[DES NEURONAI.ES Y SISTEMAS flORROSOS CAPITULU 2: REDES NEURONAI.ES SUI'ERVISADAS 53

(2.21 )
Hiperplano _~ ~~~ que es la forma habitual de expresar la regia del perceptr6n. En su utilizacion
(dos regioncs) ~..~ ~ pnictiea, se debe Jlegar a un compromiso para el valor del ritmo de aprendizaje E,
- .'~ pueslO quc un valor pequcno implica un aprendizaje lento, mientras quc uno
~.__cxccsivamente grande puede eondueir a oseilaeiones en el entrenamiento, al intrmlueir
= ~c- ~ variaciones en los pesos exeesivamente amplias. AI ser las entradas y las salidas
Una capa oculta Regiones discretas {-I,+I), tambicnlo ser{tla actualizacion de los pesos (2.21), que llllicamcnte
__~~_podra tomar los valores 0 0 :t2E.
~ polinomiales
~eonvexas Una forma mucho mas grafica de introducir la regia del perceptron es la
_ ~ siguiente. Sea la neurona i tipo pereeptron {-I, +l}, euyo vector de pesos es wi' Se
-~:-. - presenta el patron de entrada xII, la salida objetivo de la neurona i ante este patron es
~~ ~ ... ~:/-~,-La_operacionde Jancurona la cscribim:0~ como ~

=~=-y;
.
- /I

(I) = ,\'igno(L
j;l
lVijXj - BJ = .I'igno(w i.XIl) = sigllo(11 Wi
.
11.11 x,u II cos(~»(2.22)

~considerando el umbral como un peso adicional de entrada -I (vease el capitulo I), y


- ~; - siendo ~ el angulo que forman los vectores de pesos y entradas. La hipersupcrficie
'= - wj.x'//=O establece la condicion lineal que separa el espacio en dos regiones,
Figura 2.5 Tipos de regiones de decision en e/ percl~plron {Lippmann 87J -~~ .-- -etiquetmias por -I y + I, respeetivamente. En el proceso de aprendizaje, ante la
~~ ~ prescntacion del patron .u-esimo en la iteraci6n 1 pueden darsc los siguientes casos:
El del percept ron [Rosenblatt 62, Hertz 9/1 es un algoritmo de aprendizaje de-=- .::::~ - a) La salida objetivo de la neurona es 1/ =+ J, pero su salida actual es .1'/'=-1.
1

los denominados por correcci6n de errores. Los algoritmos de este tipo (en eI que ~. Ell este easo, el producto escalar Wi' xII deberia ser positivo, pero es negativo,
ineluiriamos tambien el de laadalina y cI BP) ajustan los pesos en proporei6n a la 10cual indica que el angul0 existente entre Wi y Xii es mayor de 90° (~E [rt/2,
difereneia existentc entre la salida actual de la red y la salida deseada, con cI objetivo 3rt/2], Figura 2.6). Asi, la regia de aprenclizaje del perceptron deberia en este
de mini mizar cl error actual de la red. easo aecrcar Wi a xII para reducir el angulo que forman, y eventualmente
.~-,. Introduciremos sin masdilacion la regia de aprendizaje. Sea un conjunto dc-p-=-; ~~-_. eonseguir que sea inferior a 90° (wi.xJl>O), 10 cual se puede realizar del
siguicntc modo (veasc la Figura 2.6a)
-- patrones xII, Il= 1,..,p, con sus salidas deseadas tJL. Tanto las enlradas como his salidaS'o
solamcnte pucden tomar los valores -I 0 I (0 bien, 0 0 I, seglll1 definamos los niveles W;'(I + I) = W;'(/) + a. xl'
logieos). Se tienc una arquitectura de pcrceptron simple, con pcsos iniciaks aleatorios, (2.23 )
y se requiere que c1asifique eorreetamente todos los patrones del conjunto de~~~~- b) La salida objctivo de la neurona es I/' =-1, pero su salida actual es y/"=+ I.
aprcndizajc (10 eual es posible solamente si son separablcs lincalmente). Acluarcmos ~ Razonando al reves que en cI easo anterior, la regia de aprendizaje debcn\
del siguiente modo, ante la prescntaeion del patron ll-esiJ11O,si la respuesta que alejar Wi de xII, por 10 tanto en cstc caso (Figura 2.Gh)
--- proporciona el pcrceptron es eorrecta, no aclualizaremos los pesos; si es incorrecta, los--.
modilicarclllos segllll la regIa de Hcbb de la scecion 2.2. Se liene w1((1 + I) = w1((I) - a. Xii
(2.24)

Liwll (I) =
p.u
{2 0, x.,
E.I.
I I
si )/'
I
'* I:"
I
c) La salida objctivo de la neurona ItU coincide
caso la regia de aprendizaje no aetlla.
COIl su salida actual y/I. En cstc
IJ
M!I'""
=,,=.,,-
54 REDES NEURONA' ,ES Y SISTFMAS nORI(oSOS
CAl'iTULO 2: RUlES NEIJRONAI.F.S SlJl'ERVISADAS 55

-(XX - ..;-- YSr: presentan una y otra vez los patroncs, para que los pesos sc ajustcn iterativamente
.~ ;;.,- - - segun (2,21), hasta que todos queden bien clasificados, EI hiperplano que establece el
- .~~. - -limite entre dos clases se dcsplaza Icntamente hasta conseguir separarlas por eomplcto
-- (si ello es posible), como se puede apreciar en la Figura 2.7. El ajustc de los pesos en
_~ ~~.,
__ la iteraei6n I debido a todo el eonjunto de aprendizaje sen!
p

IVij(t+ 1)= Wii(t) + L!':J.wt'(t) (2.27)


11=1
X X
Rosemblatt demostro que si la funeion a represcntar es linealmente separahle,
Caso a), objetivo Wi' XII >0 Caso b), objetivo wi.XII <0 estc algoritmo siempre converge en un tiempo finito y con independeneia de los pesos
- de partida. Por otra parte, si la funcion no cs linealmentc scparahle, el proceso de
Figuru 2.6. Negla del pel'cepfl'()lI. cUl/ndo salida aelual)' o1Jjclivu no coinciden entrenamiento oscilari Una prucba de la convcrgencia del algoritmo puede
encontrarse, por ejemplo, en [Hertz 9\]. Par otro lado, el algoritmo del pcrceptron se
dctiene tan pronto como consiguc clasificar correctamente todos los ejemplos, por 10
que-con frceuencia la linea de diseriminacion-qucda-mufccrca dc-Iasllluestnisde utle) - -
00 1=0 de los grupos (en la Figura 2.7 ha quedado cerca de los patrones '0'). ?nra ohtener una
I" discriminacion optima ("en mcdio" de nmbos grupos) se han introducido algoritmos
como cl dcnominado Adatron (vcase, par ejemplo, [Principe 00]).
x
x x \.
Iii
ii•• _ x x x x
~r.--- •
x X
xX __ ~ ~ __ 2.4 ADALINA (WIDROW, 1961)
X ~ X X
Otro de los modelos ch!sicos es la Adalina (Adalinc), introducida por WidrO\v
x X X
_en 1959 [Widrow 60, 88], cuyo nombrc proviene de ADAplive Linear NeurOllh• Este
modelo utiliza una neurona similar a In del perccptron, peru de respuesta lineal (Figura
2.8), cuyas entradas pueden ser continuas. Por otra parte, a diferencia del no do del
-asociador lineal, el de la adalina incorpora un panimetro adicional dcnominado bias,
Figura 2.7 Regiones de decision que eSlab/ece iterafivamellfe e/ perceplrondurante
que traduciremos como umbral, aunque debe tenerse en cuenta que no se trata de un
el aprendizaje (en la iteracion //5 lIa consegllido separar ya las dos close,l)
umbral de disparo como el del perccptron, sino de un pan!metro que proporciona un
-=- ~-=--- grado de liberfad adicionaP. Dc cste modo, la ecuaci6n de la adalina queda _,'.
Es faeil eomprobar que los tres casos se resumen en la siguiente regia:

)'.
It.
Wi (t + I) = Wi (I) + (a / 2).xl/(tt - yt) (2.25)

::t y llamando E=a/2, se tiene )- "'"~ " .~ .• 0


i iJ J I
iOii._

~.~
!:!r_~----
--- f..wi (t) = c. X/I(ti' - yn Xu
-I Figura 2.8 Neurona lineiJI de la adalina

rr -=--_que es la regia del perceptr6n (2.21) ya eonocida.


h Rc-haulizad •• ADAI'liv<' UNmr FJo!/IIo!l/l wando los ANS pcrJicron popularidatl, seglll1 comenlo eI propio WiJrow
;;;, Es importante rcmarcar que cl l)f"oce~0 de aprcndiznje es iterativo: se parte de - en la eonlCrencia que imparti" en 'a Nel/rlll Ne/wl/rk ('III"I'I/((/liol/ CO"Ji'rfilce (Snowhird. lILah, 19R7) [Anderson BBl,
~~ --unn contiguraCil)n sinaptica de partida (dc pesos pcqucfios alealorios, habitualtncntc), - ; -- 7 Un asociador li~eal realiza combinacioncs lineales de las cntradas (rolaciones ~. dilatacioncs): la aJalina, al
incorporar un bitu, rcaliza transformacioncs atincs (la, cuaks, aoclluls de la:, tlllt~ri\Jrt:s. indu)enlrashh.:ioncs).
REDES NEURONALES Y SISTEMAS BORROSOS ~RA-MA 'ORA-MA CAPiTULO 2: REDES NEURONAI.ES SUPERVISADAS
56 57

II
proponer una funcion error 0 coste que mida el rendimienlo actual (Ie la red t'l '.
Yi(f) = LWijxj-Bj> Vi, I~i~m Ii' ' , melon
que t e?e~t era de los pesos sinaplicos. Dada esla funcion error, inlroduciremos un
j-I (2.28) procedlllllento
. . . gencral de optimizacion .., que se.t c.tpaz
,. de pr opOlClOnar
.' una
No obstanle, la diferencia mas importante con el perceptron y con el asociador ~onf~~uraclon de pesos que eorrespondan a un extremal (en general, minimo) de la
lineal reside en la regIa de aprendizaje que implemenla. En la adalina se uti!iza la tunclon. pro~uesta. EI mctodo de oplimizaci6n aplicado a la funcion coste
regilt de Widrow-Hoff, lambicn eonocida como regIa LMS (Least Mean Squares, ~)rO~Or~I~~l~traun.a.rcgl~ de 1~ctualizacion de pesos, que ell funci6n de los palrones de
dprcndlzajc Illo(lilique Ilerallvamente los pesos hasta alcanzar el punlo optimo de la
minilllos cuadrados), que conduce a actualizaciones detipo conlinuo, siendo la
red neuronal.
aClllalizaci6n de los pesos proporcional al error que la neurona eomete.
Este ANS es un modelo muy conocido y ampliamcnle uti!izado, aunque en ~I mctodo de optimizacion (minilllizacion) mas habilualmenle empleado es el
ocasiones se hace mas refereneia a su canicter de dispositivo adaptativo lineal que a su den~I~lnado dcsccnso por cl gradielile. Para ello, se eomicnza definiendo una
naturaleza neuronal. La adalina se viene utilizando con asiduidad desde los anos fun~lOn coste.~(.) que pr.oporcione el error actual E que co mete la red neuronal, que
sesenta como tiltro adaplalivo, por ejemplo, para cancelar el ruido cn la transmisi6n de sera una funclon del. conjunto
. de pesos sinapticos W ' E=E(W)
' ,...E' g'n 0' D e esta
\ -};l1.

senales (un ejemplo c1asico es su emplco como supresor de ecos en las mancra,
I' podemos
f . lI11agll1arnosla represenlaci{)n grafica de csta funci6n ' COlll0 und.
___ com.uni~aciones telef6nicas .por satclil~__rWidr?~ _8~]; ~a~a_eI !nter:~~a~~en __ ~ __ llpe~su~cr ,Ic~e~on monlanas y valles C!igura. ~.9), en la que la posicion ocupada par
prof~lll(lIzar en el lema, una lI1tercsantc IlltroducclOn al Iratanllcnlo ,de se~al con la - -'"~- - u.n v~l~e se cone~p.onde con una conftg~raclOn de pesos W' localmente optima;- al-
adahna se expo lie en [frcemann 92]). De esle modo, y desdc haec anos, mIlloncs de -". lIatatse de un mll1lmo. !oca! de la funclon error. EI objelivo del aprcndizajc sera
modems en todo elmundo incluyen una adalina. enconlrar la contigu.raclon ~e pesos que carresponde al minimo global de la funci6n
Su utilidad se ve limitada par tratarse de un sistema lineal. Asi, solamenle podra er~o~, aunque c~n. frecuencla en una red generiea deberemos confonnamos con un
m1l11mOlocal sullclcntemenle bueno.
separar correctamente patrones linealmentc independientes, fallando en ocasiones ante
patroncs lineahnenle separables, que el perceptron siempre discrimina. No obstante, 7
. Para enconlrar la. c()~lfiguracion de pesos ()ptill1a mediante descenso por el
ante patrones no separables lineal mente, los resultados que proporeiona son en __ ~ _. gradlenle se opera del sl~ulenle modo. Se parte en t=0 de una ciel1a contiguracion
promedio mejores que los del pereeptron [Widrow 90, Hertz 90, Gallant 93], pues 1a - W(O), y se calcula el senlldo de la maxima variaci6n de la funci6n E(W) en W(O) •
d : d. I' . ' que
adalina sielllpre opera redllcicndo el error cuadratico medio aJ minimo posible. ven.ra at a por s~ gra~lel1le en W(O). El senti do de la maxima variaeion (maximo
~rad~ente:.. apunlara .~acla una c~lina del p~isaje de la hipersuperficie de E(.). A
conlllluacl~n se modJlIcan los paramelros W slguiendo el senlido contrario al indieado
p~lr eI grath~l.lle dc la funeion e:ro:. De este modo se Ileva a cabo un descenso par la
2.4.1 Regia LMS hlpersuperticle del er;or, aproxlmandose en una cierta cantidad al valle, un minimo
La regIa de Widrow-Hoff 0 LMS, que en un caso partieular es conocida como (local); .e.1proceso se Itcra hasta alcanzarlo (vease [Rumclhart 86a] para mas detalles).
regIa delta, constiluye el algoritmo de aprendizaje asociado a la adalina. Asi como la Matematlcamenle, se expresa del siguientc modo
regia de Hebb es eapaz de almaecnar sin errores pares de patrones cuyos vcctores de -'~.'= W(t + 1) = W(f) - £.\1 E(W) (2)B)
entrada sean -ortogonales, la regia LMS conducin\ a asociaciones perfectas cuando
sean lineal mente independientes, proporcionando cuando no 1o sean una matriz de dond: l'(q~l~ puede.ser difcrenlc para cada peso) indica el tamano del paso to~ado cn
pesos optima desde cI punto de vista de los minimos clladrados. Asi, la regia delta ~ada It~~:~cl~n,quc !dealmente debe ser. infinitesimal. Como una eleeeion_d~_c~!e lipp
pucde considerarse en realidad como una vcrsi{)n iterativa aproximada de la basada en cond~clIl<\ a ~II~proceso de enlrenamlento extremadamente lento, se loma de un
la pseudoinversa [Rumclharl 86a], para el caso de veetares estocasticos. No obstante, tamano 10 sullelentementc grande
la forma de derivar la regIa LMS a partir de la optimizaci6n de eierta funci6n coste, .. r....... ... como para que cumpla el comproml'so d>er,!pla : 'd
<lctuaIZdCI~)JJs~? lIcvar ~ oscllaclOnes (por ejemplo, cn la Figura 2.9 se puede ver que
que presenlaremos a conlinuacion, ilustrara la forma habitual de obtener algoritmos de un:! ~cluahza:l~n exceslvamcnle grande de los pcsos nos lIevaria lejos de nucstro
aprendizaje en el campo de la eompulaeion neuronal. objetlvo, el mll1l111o)
.
. Es faeil eomprobar matematicamcnte que, efeclivamentc, una actualizaci{)n de
Aprcndizajc como optimizacion de una funcion coste csle II(Xlconduce a un minimo del fill\ciol\'ll
, de erJ'ol' feW) .' Slll)tIIIgall10s una matnz.
--=--=_- _-=-Ex-pondft:lI1osen estc punta una metodologia que pemlila derivar de COrITm de pesos W ={ IV;), Ycalculcmos la variacil)n quc CII f(W) se produce en la iteracion t
___ sislenH't~cafegl~s-dc aprcndizaje para arquilecturas conerelas. El mclodo consistinl en
58 REDES NEURONAIES Y SISTEMAS nORROSOS ~RA-MA CAPiTULO 2: REDES NEURONALES SUI'ERVISADAS 59

E(w)

pero, por (2.24), la variacion en los pesos es -E (idealmente infinitesimal, puesto que
par el dlculo de bll'ij debe serlo) multiplicado par el gradicnte, por 10 tanto

"dE(
6(.f(lt'i;»= ~~
1I.'i;)( -E~ ()E( Wi;)J =-E~
". (rJE(
---a;-)J2 ~o
Wi;
(2.30)
l) '/ q '1 /)

I ),

luego la variaeion en la funcion error es siempre menor que cera, par 10 que sicmprc --------------_!_-~~'I , *
disminuye. Mediante este proccdimiento se asegura alcanzar un minimo local de la I' W

funeion, auuque puede no eoincidir, en general, con elminimo global (veremos que en
-----------------j'
el caso de la adalina si se cumple este hecho).
"'2 w(O)

W(I)\~(I+l)= ~w' w
.. _----------- . - ---~~ _._._- -_. ------- ----~---- --- - _.- .... _ .... _ .. _._-=w(t)-eYE(w)
Primera derivacion de la regia de Widrow-Hoff. Aproximacion estocastica
Figura 2.9 SlIperflcie de error E(w) en el espacio de los pesos w. y de.l'censo pOI' el
A continuaci6n, aplicaremos estc metoda a la adalina, que par ser una red de gradiell/e hacia lin minilllo (Ioca/)
tipo lineal permite un anal isis teorico detallado. Mas adelante 10 aplicaremos al caso
del pcrccptron multicapa. La rcspucsta de una ncurona dc la adalina cs lineal
n Ante una entrada x, la adalina respondc con una salida y dada par (2.28) que, en
Yi = L \I'i;X; -f)p Vi, I ~ i ~ 111 (2.31) _ ._ principio, no coincidini con la salida dcseada t. Planteamos la siguicnte tllJ1ci6n error,
;=1 --~ :=--que comparalas salidas actuales con las objetivo, y qucdepcnde de los pesos de la red
y sus salidas son continuas, por cjcmplo cn [0,+ 1). Si dcfinimos \V;o=(~' y xo=-l,
podemos recscribir esta exprcsion de la mancra siguiente: (2.33 )

).J. = ~lV .. X.' =WTX (2.32)


I '-'
;=()
'I } , Obscrvese que al tratar con varia hies cstocasticas, cl crror se ha dcfinido como
un valor csperado. Aunque se ha utilizado COIllOcritcrio de error el cuadnitico medio
de modo que podemos tratar al umbral 0; como un peso adieional, pero cuya cntrada (10 que se haec con asiduidad cn los ANS), debe tenersc cn cucnta quc el error puede
es eonstante e igual a -I. ' ~ :- ~ dcfinirse tamhien de otms maneras. Se puede deeir que, en general, la medida de error
- rejleja las hipiJ/esis reali::adas sohrC' la forma del ruido pre.l'r!n/e en los datos.EI error
- Dedueircmos la regia de Widrow-Hofr en el marco dcl formalismo de la
- . anleri()r, como promedio de lasuma de en'ores cuadnitieoS:supollc qlie los crrore's'(Jc
aproximaci61l cstoc:lstica, que se introdujo para la resolucion de complejos
eada variable se distribuyen gaussianamente, y que cstos son independienles [Weigend
j.
!;
problemas de regresioll no lincal en los que, 0 bien se desconoce la estadistica del
93]. De hccho, esta mcdida del error puede dcrivarsc haciendo usa del principio de
problcma, 0 bien csta es eomplieada (veasc [Kohonen 89, White 89b] y rc1crencias alii
m{lxima verosimilitud a partir dc la suposicion de que cl ruiJo cn los datos del espacio
.. citadas).
de salida es gaussiano [White X9aj. Por ejemplo, en [Hertz 91, Weige 93] sc Illuestra
.- _ Sc_dispone de un conjunto de patrones de entrada x, y salidas deseadast. En _ -,"~"- _. otro tipo de funcion error, basada cn un criteril) de cntropia, y quc se "plica cuando
:!~ gcncral, SOil variables estoc,isticas que presentan una cicrta dispersion esladistica. En _ . los patroncs de salida son binarios, con 10 quc los crrores sc distrihuiran
~:.::------ lasituacion mas habitual, se desconocc la forma estadistica del problema, solamentc ,- _: =-=- binomicamentc.
~ ---. puede.obtenerse un conjunto dc muestras (x'//, til), IF I,..,p.
EI problema que IlOSplanleamos C'otlsisteen eneontr"r la configuraci6n de pesos
sinilpliclls w.ij que minimiza (2.34), es dccir,
60 REDES NEURONALES Y SISTEMAS 1l0RROSOS ~RA-MA iCRA-MA CAPiTULO 2: REVES NElJRONALES SlJl'ERVISAVAS 61

Esta es la regIa LMS 0 de Widrow-Hoff, que puede eonsiderarse la version


=0 (2.34) -iterativa de la regIa de la pseudoinversa para el caso de vcctores eslocasticos. Ambas
W;j=W ii reglas proporcionan resultados asint6ticamente coincidentes.
Pero si la estadistica que rige cl [enomeno fisieo ~n estudio es desconocida, Si en lugar de considerar la fllnci6n activaeion lineal la consideramos
habra que realizar los calculos a partir de las muestras (xII, til). En general, la sigmoidea, el algoritmo de aprendizaje se denomina regia delta [Widrow 90].
resoluei6n directa de este conjunto de ecuaciones no es posible (en [Freemann 93] Obscrvcse que aunque hemos encontrado una forma de actualizar los pesos, esta
puede verse un caso muy simple en el que Sl es faetible), y hay que recurrir al metodo - misma regIa se aplica a los lImbrales, considerandolos como pesos espeeiales, con
iterativo de descenso por el gradiente descrito (2.29), en el que la aclualizaci6n en los entrada constante c igual a -I.
pesos adquiere la forma _ • Widrow y I-Iofr demostraron [Widrow 60] la eonvergeneia del algoritmo (2.41)

~lVij = -[;.'\1
() < Elw'j J>
< E []lVij >= -£ --{)\~v----- (2.35)
-==-~,~_
~
a la configuracion w'ij que minimiza cI valor esperado del error, a condicion de que
a(/) cumpla
u 00

Calculando cl gradiente La(t) = 00,


(2.41 )
1=1

por ejemplo a=a(/)=tl satisface ambas condiciones [Kohonen 89J. En muchas


ocasiones es suficiente con que a tome un valor pequeno (O<a< I). La interpretacion
de las condiciones (2.42) es que estas garantizan que el aprendizaje no se lIeve a cabo
ni excesivamente nlpido ni muy lentamente. Como senal6 Grossberg [Grossberg 82],
el sistema que aprende debe ser suficientemente estable como para recordar los
patrones antiguos (un ritmo de aprendizaje excesivamcnte grande los borraria, pues la
presente actllalizacion seria de gran magnitud), pero suficientemente plastico como
Por 10 tanto, para estimar el valor esperado del error, habria que tomar una para aprender los nuevos (un ritmo muy pequeno, provoca actualizaciones diminutas,
numerosa canlidad de muestras, y promediar. La idea de la aproximacion estocastica por 10 que el proceso de entrenamiento se dilataria excesivamente en el tiempo). Esto
(y la idea que Widrow y Hoff propusieron) consiste en 10 siguiente: en vez de utilizar constituye el denominado dilema de la plasticidad frenfe a la estabilidad
un valor promedio del gradiente de la funcion error <E[wij]>' se aproximara su valor [Grossberg 82J. La primera condicion (2.42) asegura que el sistema sea plastico,
en eada iteracion por el valor concreto proporcionado por el par (xII, tJ0 actualmente mientras que la segunda asegura la condicion de estabilidad.
presentado a la red, es decir,

'V < Elwu j >= -2 < V, - y; }t j >'" -2(li' - y{'}\";' Una deduccion simple de la regia de Widrow-Hoff

__ EI promedio se ira realizando de un modo automiltico dtJrante.e] t.ranscurso de - -~ Vamos a exponer ahora una formulacion altemativa que, por no conslderar
las iteraciones, empleando un conjunlo amplio de patrones de aprcndizajc. Dc este - -~:: - explieitamentc la estocasticidad del problema, resliitara mucho mas simplc.-Para una
modo, se van tomando muestras (xft, tft), y se actualizan los pesos de la forma muestra finita, plantcamos la siguiente fimcion error u objetivo

--- ---- --- 6Wij = -[;\7 < E[Wij J>", -cl- 2Vt' - yt' }t; J:,= a(tt' - yt'~; (2.39) p n 2
E[\Vij]=~ L L(tf' -Yf') (2.42)
-con- a el rHmo de aprendizaje (que puede depender de la itcraci6n, (.r-a(/)). }/=l/=1

______ La aetualizaci6n de los pesos queda Mediante esla funcion se obtiene el error cuadnltieo mcdio correspondiente a las
salidas actuales de la red respecto de los objctivos. EI proccso de optimizacion cs, de
----- -- lI'ij (I + I) = 1I';j (t) + 611',; = 1I',j (I) + a(t{' - y{' }r-;' (2.40)
nuevo, el del dcscenso por el gradiente. Para clio calclilamos
"
~:-;-
62 RFDES NEURONAI.ES Y SISTEMAS 1l0RIUJSOS iQRA-MA CAl'iTULO 2: REDES NElmONALES SlJI'ERVIS,~DM; 63

BElli! I= -(1/2).2 I (t:' - yr)~d'l' = -I{t:' - yf' ~j'


I' I' Par ultimo, no qucrcmos concJuir la scecion dedieada a la adalina sin eitar
-,-lj (2.43) ~ ""~' _-'lambicn la dCllominada madalina (madaline=many adalines, es decir IIIl1chas
CA~ij 1'=1 dWij Wi ~' adalil1os), que consliluye la versi6n multicapa de la adalina [Widrow 88, Freemann
92J, inlroducida para superar los problemas de la adalina, en euanlo red mOllocapa. Es
y cI incrcmenlo en los pcsos qucda
decir, podemos afirmar que la madalina es a la adalina 10 que el perceptr6n simple es
BElli' J I' ( al multicapa. Recol11endamos las rclcrcncias citadas al lector intcresado ell estudiar
t. w' = -£ -_'/_ = [;" III - )/' \.:1' (2.44) Jl1{jsampl iamenle el l11odclo.
'/ CAv.. L.J I , F,
lj pol

Esta expn:si6n es, de nuevo, la rcgla LMS. Convienc observar que mienlras que
en la regia del perceptr6n se lIevan a cabo actualizacioiles discretas en los pesos, en la
2.5 EL PERCEPTRON MULTICAPA (GRUPO PDP, 1986)
adalina la regia LMS produce aclualizaciones de tipo continuo, de modo que un a
mayor error se lienc una aclualizaci6n mayor. Otra diferencia cntre ambos algorilmos 5i afiadimos eapas intcrmedias (ocullas) a un perccptr6n simple, obtcndremos
es que la rcgla del perceptroll conwrge en un IllllnCrO finito de iteraciones (en cuanlo un pel'ccptron multicapa 0 MLP (Mulfi-Loyer Perceptl"On). Esta arqllilectura suck
eonsigue c1asifiear correctamente todos los patrones), mientras que la regia LMS sc enlrcnnrse mcdiante el algoritmo denominado rctropropagaci6n de crrores 0 HP, 0
, accrca asinlolicamcnte a la soluci6n, pues cI lama no de los inercmentos se hace cada bien hacienda uso dc alguna de sus variantes 0 derivados, motivo pOl' el quc er;
vcz mcnor. Es imparlante -rcmarcar que ante patrolles no linealriiente separables, la- -mllchas oeasiones cl conjunto (trlluitecfura MI.? + ajJrel1dizaje BP suek dcn6millarse -----,-
adalina proparciona mejorcs rcsultados que cl pcrceptr6n [Widrow 90, Herlz 90], pucs red de rctropropagacion, 0 simplementc BP.
realiza un ajusle oplimo en el senlido de los minimos cuadrados, mienlras que el
Como se describc en [Ilecht-Niclsen 90], eI proceso dc desarrollo de! BP re5ulla
perccptnlll no alcanzani ninguna soluci6n.
una curiosa hisloria de redcseubrimicntos y olvidos. AI parerer, fue Wcrbos quicll
[)ebido a la linealidad de la neurona dc la adalina, la funcion crror E[wij] es introdujo par primcra vcz c1BP cn su lesis doctoral en 1974 [Werbos 74],pero d
euadnitica cn los pesos, par 10 quc definc una superficie en fonna de paraboloidc (una • hecho no tuvo dcmasiada repercusion en la epoea. Ai'ios mas tardc, hacia 1984, el BP
demoslracion rigurosa aparecc, par ejcmplo, en f1~echt-Niclsen 90]). Un paraboloide, __ 7 __ fuc, j'edescubierto por D. Parker, y easi a la vez (1985) par elgrul~0 __gel I!QJ~
como la parabola cn cl plano, usualmcnlc posee un unico minimo, aunque en (Rumc1harl, Hinton, MacClelland ... , [Rumelhart 86b, 86a]), quicnes realmente Jo
oeasiones pucde prescnlar una forma degenerada, con uno 0 mas canales, pero todos popularizaron. Ademas, existe un proccdimicnto matematico recursivo empleado en
d~ la l11isma profundidad. En cualquieradc los dos casos la funcion E[ w/I] es minima' control, de apariencin similar al fir, que data de 1969.
en ese punlo 0 cn cualquicra de los dc los canales, y la regia (2.45) nos Ileva
direetamcnlc a el, pueslo que siemprc desciende por la superficie de error [Hech-
Pesc a todo, cl mcrito del cxito dcl I3P se debe al trabajo del grupo PDP, que io
presenlaron a la cOlllunidad inlernacional como una tecllica ulil de rcso!ucilln de
Nielsen YO]. Por ella, 10 regIa LMS alcanza siempre elmfnimo global, sin importar la
problemas complejos [Rumelhart 86a], 10 que dcspert6 cl inlcrcs, no s6!0 par el
con/iguracion dc pesos de paliida, cOllsliluycndo uno de los pows casos cn redcs
pereeptr6n, sino por el campo de la neurocomputaei6n en general. Lo~ imporlanles
Ilcuronales en cl que se pucde realizar una afirmacion de cstc tipo.
requisilos de computo quc el algoritmo fiP precisa no podian scI' sntisfecp\'s (;onJos_
medios disponibles a principios de los selenla, por loque cI primer des(~lIhrill1icllf() tlei
BP [Werbos 74J \.'ra quizas algo premalUro. Por fin cn los anos oehentalos
cOlllputadorcs erall suficienlcmL:nlc polenlcs como pam permilir la aplicacillll del BP a
problemas de inlercs, In cua! pcrmiti6 que cI grupo PDP pudicra mostrar su gran
pOlencial de aplicabilidad a fa rcsolucion de lareas complcjas.
x
I.a estructura del MI,P sc presenla en las Figuras 2.10 y 2, i 1. Dcnominnrcl11os
x; a las cntradas de In red,)'; a las salidas de la capa oculla Y :k a las de la capa /inal (y
glohalcs dc la red); fA sCr:1n las salidas objctivo (fargpf). Por Oll"ldaclo, Wi; son los
- Cap,nie enlr",la pesos de la capa oeulta y 0; sus umbrales, w'A los pcsos de la capa de salida y (I{ sus
ii-
i, ; lJmbrales. La operaci6n de un MLP con unavcapa oculta y neunJnas de salida lineal
it;,.; FiJ.:llrt1 2. J () Pr:rnT'rI)1l JII/illica{la y.fill/ciul1 de lrall.~/i.:rr:l1cili de III 11(,/irOnO
(estructura que constituye, como veremos, un aproximador universal de funciones) se
~;~-----
expresa malematicamentc clc la siguicnte manera:

64 I{EDES NEURONALES Y SISTEMAS 1l0RROSOS ~RA-Mt\ VRA.MA CAPiTULO 2: REDES NELJRONALES SUPERVISADAS 65

.~::: -- Teorcma IFunahashi 891. Sea j{x) una funci6n no constante, acotada y mon6tona
Zk == l>V'kj Yj -O'i =I w'kj fCL>vj;x; -O)-Oli (2.45)
-creciente. Sea K un subconjunto compacto (acotado y ccrrado) de 9\/1. Sea un numero
j j
- real E E 9\, y sea un entcro k E Z, tal que k~3, que fijamos. En estas condiciones, sc
siendoj{.) de tipo sigmoideo (Figura 2.10), como por ejemplo, las siguientes: tienc que:
1 ex -e -x
Cualquier mapping g:XEK---,>(gj(x),g2(x)' .... gm(X»E 9\m, con g;Cx) sumables en
f(x)' == I--. +e~X (2.47a) f(x)
.
= --==
eX +e-X
tanhCx) (2.46b) K, puedc scr aproximado en el sentido de la topologia Lz ell K por el mapping
entrada-salida representado por una rcd neuronalunidireccional (MLP) de k capas (k-2
proporcionando la primera una salida en el intervalo [0.+ I J, y en el [-1,+ I J la segunda. ocultas), con Jex) como funci6n de transfcrencia de las neuronas ocultas, y funciones
lineales para las de las capas de entrada y de salida. En otras palabras:
Esta es la arquitectura mas comun de MLP, allnque existen numerosas
variantes, como incluir neuronas no lineales en la capa de salida (del mismo tipo que -~ ,-- '<;1£>0.:J un MLP de las caracteristicas anteriores, que implementa el mapping
las (2.47), solucion que se adopta especialmente en prcblemas de clasificacion),
introducir mas capas ocultas, emplear otras fl.lI1cionesde activacion, limitar el numero g':XEK---,>(g'l(X),g'2(X),...,g'm(x»E 9\/11 (2.4 7)
de conexiones entre una neurona y las de la capa siguiente, introducir dependencias de manera que
__ temporales 0 arquitecturas reeurrentes [Werbos 90], etc.

(2.48)
2.5.1 EI MLP como aproximador universal de funcianes
EI desarrollo del MLP durante los ultimos treinta anos ha resultado curioso. #
Partiendo de un perceptron monocapa y observando sus limitaciones computacionales,
se llego a la arqllitectura perceptron multicapa, y aplicandolo a numerosos problemas, Es faeil observar que las funciones sigmoidcas cmplcadas habitualmente en eI
se comprobo experimental mente que este era capaz de representar complejos MLP (eeuacion (2.47» cumplen las condiciones exigidas a Jex). En [Hornik 89] se
mappings y de abordar problemas de clasiticacion de gran envergadura, de una lIega a un resultado similar, considerando funciones de activaci6n sigmoideas, no
manera eficaz y relativamente simple. Sin embargo, faltaba una demostracion (eorica llecesariamente continuas.
que permitiese explicar sus aparentemente enormes capacidades computacionales. En resumen, lin MLP de IIna llnica capa oellita pllede aproximar hasta elnivel
Este proceso hist6rico comienza con McCulloch y Pitts, quienes mostraron deseado cua/quier juncion cominua en un intervalv8, por 10 tanto, las redes neuronales
[McCulloch 43] que mediante su modelo'de neurona (esencialmente un dispositivo de multicapa unidireccionales son aproximadorcs univcrsales de funciones. A partir de
umbral) pod ria representarse eualquier funcion booleana; mucho mas tarde, Denker y la expresi6n que define la operacion de este tipo de red
, , ot!9S [Denker 87] demostraron quetoda funcion booleana podia ser representada par
-_::, .... una red unidircccional multicapa dc una sola capa oculta: Por las mismas fechas. g.'Cx) = I W
lkj Yj -O'j = I W
l fcI
kj WjiXi '-'OJ) _f)'; (2.49)
--, . _GpP~~I1::JLiPPrnann~87] mostro que un perceptron con dos capas ocultas, basiaba j j

para representar regiones de decision arbitrariamente complejas (vease la seeei6n 1.3).


podemos observar que la g'(x) dada por eI MLP reprcsenta una cierta fl.mci6n g(x),
Por otra parte, Lapedes y Farber demostraron [Lapedes 87] que un perceptr6n de dos
---capas-ocu1tas es suficienk para representar cualquier runei6n arbitraria (no como un desarrollo en funciones sigmoideas j{x), 10 cual posee una clara analogia con
la representacion convencional de una funci6n peri6dica como un desarrollo en serie
neccsariamcnte booleana). Mas tarde, Hecht-Nielsen [I1echt-Nielsen 87, 90] aplicando
de Fourier de sinusoides [Principe 00]. Tambien se han establecido paralelismos entre
- eI tcorcma'de Kolmogorov demostr6 que una arquitcctura de caractcristicas similarcs
---al-MLP;-con-'una unica capa oculta, resultaba ser un aproximador universal de el MLP y otros tipos de translormaciones, como la de Gabor 0 las wavelets.
---Il.lnciones:-Por fin; a finales de la decada, diversos grupos propusieron casi a la par Los tcoremas citados resultan de vital importancia, puesto que proporcionan una
~~teoremas - rnuy similarcs que demostraban matematicamente que un MLP s{)lida base teorica al campo de las redes neuronales, al incidir sobre un aspecto (la
convencional, de una (mica capa oculta (ecuaei6n 2.46), eonstituia, en erecto, un
aproximador universal de funciones [Funahashi 89, Ilornik 89]. A titulo de ejcmplo.
_ -=.ql,@i:iateinos uno de estos teoremas. - ~ Ellcorcma pcnnilC clcgir k con la rcslriccion k~3; si sc eli~e k=3 se liene una soia capa oeulta. No ohstante. p"eden
cmplcarsc mas capas ocultas. obleniclI<1ose en ocasiones resultados mas clicienlcs 0 una mcjor gcncralil3ci,\o.
(,(, HEDES NEUI{()Ni\LES Y SISI EMi\S 1l0RROSUS 'i) Ri\-Mi\ I) Ri\-Mi\ CAPiTULO 2: RElJES NEURONi\LES SIJPERVISi\Di\S 67

aproximacion fi.lllcional) y un modelo (el MLP) centrales en la teoria de las redes =-=~_. ( J (( ) J
neuronales artiliciales. No obstante, todavia quedan muchos asunlos abicrtos. Por - z:' = g L lV~j_Y~' - 0; = g L,. w~;f L,. lVjiX; - 0; - 0; (2.50)
ejcmplo, cstos teorcmas no informan sobrc el nlunero dc nodos ocultos necesarios para
aproximar una funeion determinada, simplcmente se afirma que hay que colocar los '.' '. .
necesarios para lograr el nivel de aproximacil1n requerido [Hornik 89J. Para un ~~ g(.) es la fun~lOn ~e aclivaclOn de las ncuronas de salida ~j(.) la de las oClIltas. Am?as
problema eoncreto, muy bien plldiera ocurrir que elnlunero dc neuronas ocultas para ~.-_- plied en scr ~lgmOldc~s (2:47), allnquc a menu do la f~lI1clOnde las neuron~s. de sah~a
alcanzar una cierla cola de error sea Ian elcvado que su aplicacion resulte inabordable g(.) se. cOI~~ldera la ldentldad (2.46). De nuevo partlmos del error cuadratlco medlO
en la pn\ctica. Este tipo de cuestiones esl{lI1 sicndo investigadas intensamente; en como tunclon coste
[llaykin l)l), Principe OOJ se puede encontrar un milS amplio (y actualizado) esludio
sobre este importante asunto.
(2.51 )

2.5.2 Aprendizaje por retropropagacion de errores (RP) euya minimizacion sc lIe"a a cabo medianle desccnso pOI' cl gradicntc; cn csta ocasion
habr{l un gradienle respecto de los pesos de la capa de salida ('I" IJ) Y 011'0 respeclo de
Una solucion al problema de entrcnar los nodos de las capas ocultas de las
los de la oculta (wji)
-- arquitccturas Illulticapa la proporciona el algorilmo de retropropagacilln de errores o-=-':=:-
BP (back-propagation) [Rul11clhart 1I6a, 86b, Hecht-Nielsen 91]. ~ dE
&1'.=-E--
En el marco conceptual que estamos describiendo la deduecion del 13P aparece -
.fI Btl'.JI..
(2.52)
como una consecuencia natural de extender el algoritmo LMS a las redes l11ulticapa
(allnque lranscurrieron muchos alios antes dc quc se Ilcgase a esta conclusion). Para Las expresiones de actualizacion de los pesos sc oblienen derivando 2.52
ello, sc plantean\ un funcional de error similar al (2.43), y se derivani, no solo en tcnicndo en cuenta las dcpendcneias funcionales y aplicando la regia dc la cadcna
limcilin de los pcsos de la capa de salida, sino tam bien cn funei<in de los pesos de las
. llClironas oCliltas, hacicndo lisa de la rcgla dc la cadena; en consccllcncia, habra qllc-.'~
exigir que las funciones de lransferencia dc las nCUrllnas scan dcrivablcs. ""='
l.: ' -
mVI;; - E L."
'\' /).'1' ,II
,Yj, con
AII'
ti"
= [til _ g(I/'I.' )] r1;(h'~')
'JI'I'
I'll
Y /,
'\' '
= L." lV,;Y;
I'
-
0' (2 53)
k •
Sca un M LP dc trcs capas, ellya arquilectura se presenta en la Figura 2.11, can I' (/(/ ,

las enlradas, salidas, pesos y ull1bralcs de las ncuronas dcfinidas en la seccion anterior.
Dado un patron de entrada xii, (p= I, .., p), reeordcmos que 1'1 operacion global de est a
arquitcctura se expresa del siguicnte modo: &1' .. = E'\' fj'xl' con /).1.1 = ('\' /).'11 lV'
I' L.".I' , I L.,,",
.) i!l(h;')
~ II
v
)
hi'
,
= L."",
'\' IV. xl' - O.
I
(2.54)
I' ,(/f~

"HI', Y hi'; son los potencia1cs postsinapticos (0 locales). La actualiz,lcion de.los"hia'-~ (0


umbralcs) se rcaliza hacienda usa de las cxpresiones antcriorcs, considerandoquc el
bias cs un caso particular de peso sinilplico, cuya entrada es una-f0iYstante "iguala-=-I,
como vimos ya en el caso de (Idaline (seccion 2.4.1).
En estas expresiones esta implicito el concepto de propagacion hacia atds dc
los crrorcs (hllckpropllgl/lion) quc da nOll1nre al algoritll1o. En primcr lugar se calcula
la expresi6n !:l'Pk (2.54), que dcnominaremos sefial de error, pOl' ser proporcional al
errol dc la salida actual de la rcd, con el que calculamos la actualizacion bll"kj de los

..
,
-
Enlrada.
-fl- fl
Salida
f1
Objctivo
Fi~/l1'I1 2.// Arqllitectllf'G
pcsos dc la capa de salida. A continllacil)n se propa)!,lI/1 Iwci" ci/nis los en'ores Silk a
travcs de las sinapsis, proporcionanJo asi las seiiales de error fj,Jlj (2.55),
corrcspondicntes a las sinapsis de Ia cJpa oculta; con CSIJS sc calcllia la actualizacion
- x i ---~ •. Yj ---~ •. z k ..-...- t f1 del MLP
k
O\iji cle las sinapsis oCll[tas. EI algoritmo pucdc cxtcnclersc facillllente a arquitecturas
l.:on nllis de una capa oculla siguielldo ellllismo csqucma.
~-'~.- --
~:----~ -=--=---::--
I .••••• ~;

68 REDES NEURONALES Y SISTEMAS RORROSOS CAPiTULO 2: REDES NEURONALES SIJPERVISADAS


=:,i-
69
;.,;,.~:"":'
---'!"

-- En resumen, el procedimiento a seguir para entrenar mediante BP una-=: ~--=-Ias anteriores. Ademas, est a aleatariedad prcsenta una importante ventaja, puesto que
arquitectura MLP dada es el siguiente: cn ocasiones permite e.l'capar de minimos locales alcanzandose minimos del error mas
~:,L
~i::i;
- '~l

~
-

- profundos [Bishop 94, Wilson 031.


I) Establcccr aleatoriamente los pesos y urubrales iniciales (1:=0).
EI algoritmo BP eonstituye un metodo de gran generalidad, 10 que presenta
2) Pam cad a patron p del eonjunto de aprendizajc:
ventajas e ineonvenientes. Su vcntaja principal cs que sc puede aplicar a multitud de
2.1) Llevar a cabo una fase de ejecucicJn para obtener la respuesta de la red problemas diferentes, proporcionando con frecucncia buenas Soillcione5 con no
ante cl patron p-csimo (2.51). demasiado tiempo de desarrollo. No obstante, 5i 5e requiere una solueion real mente
excclente, habra que dediear mas tiempo al desarrollo del sistema neuronal, tenicildo
2.2) Calcular las sei'iales de error asociadas t1'Pk y t1lj scgun (2.54-55).
cn cuenta diferentes euestiones adicionales que todavia no hemos abordado (partir de
2.3) Calcular el incremento parcial de los pesos y umbrales debidos a cada una arquiteetura optima, seleceion de los pesos iniciales, l~stilo de aprendizaje,
patron 1-' (elemento de los sumatorios (2.54 y 2.55)). - preproeesamiento de los datos de entrada, eonjunto de patrones de apn:ndizaje
empleado, utilizaeion de tcenieas que eviten eI sobreajuste, etc.).
3) Calcular el incremento total (para todos los patrones) actual de los pesos bW'kj
y OH'ji segun (2.54-55). Hacer 10 mismo para los umbrales. Un ineonveniente del I3P es su lentitud de eonvergencia, preeio a pagar par
disponer de un metodo general de ajuste ffmeional que no requiere (en principio)
.------4)-Actualizar pesos y umbrales. - ---------- -=-informacion aprioristic-a. Sin emb-argo, se debe tener' en cuenta que- el UP no reqlliere
~~-

5) Calcular el error actual (2.52), t:=t+ I, y volver a 2) si todavia no tanto esfuerzo computacional como el que seria necesario si se tratnsen de obtener los
satisfactorio. pesos de la red mediante la evaluaeion directa de las derivadas; en ese sentido se ha
••...•... ~~.::.-. comparado el BP con Ia transformada nipida de Fourier, que permite calcular la
:::~ti__ Se debe comenzar siempre con pesos iniciales aleatorios (normalmente transformada de Fourier con un muy inferior esfuerzo eomputaeional [Bishop 94].
numeros pequei'ios, positivos y negntivos), yn que si se parte de pesos y umbrales -~ '-- Otro problema del BP es que puedc incurrir en el denominado sobreaprendizaje
-.;i
~: iniciales nulos el aprendizaje no progresara (puesto que las salidas de las neuronas y el_ (sobreajuste), tenomeno directamente rclacionado con In eapacidad de generalizaei6n
=::::r-.-
incremento en los pesos serlln siempre nulos). En la siguiente seecian se cxplicara uml -~ .,--- de la red a partir de los ejemplos presentados, y sobre el que profundizaremos en la
heuristica que permite elegir un os pesos inicialcs adecuados. ~ proxima seccion. Par otra parte, debe tenerse en euenta que el algoritmo I3P no
garantiza alcanzar el minimo global de la funcion error, tan solo un minimo local, por
En cl esquema prcsentado, que surge de forma natural del proceso de descenso -;:---=
10 que el proceso de aprendizaje puede estancarse en uno de estos minimos loealcs.
pOl' el gradiente, se Beva a cabo una fase de ejeeucion para todos y cada IIno de los - ~.
patrunes del canjunto de entrenmniento, se cal cuI a la variacion en los pesos debida a ---'
eada patron. 5C acumulan, y sola mente entonees se procede a la aetualizacion de los - ""
~ ... 2.5.3 Aceleracion del aprendizaje HP. Otros algoritmos
==, pesos. Este esquema sc suele denominar aprendizaje por lotes (batch). Otra
::_____ posibilidad consiste en actualizar los pesos sinaplieos tras la presentacion de cada Para resolver algunos de los inconvenientcs del UP se plantean eorrecciones 0
-~-~~---- - pcilioii ).F( e-i) vez de pre-sentarlos todos y luego -itetUalizar), csq-uenia ~dcnominado _~:=C ;-- variantes. Buena parte de estas modificacioncs tratan de resolver c1'problcma de SlI-
=~:; aprendizaje en serie (on line). Recientemente se ha demostrado [Wilson 03] que el lenta eonvergencia, mientras que otras se centran en consegllir ulla mejor
~r aprendizaje en serie estima mejor el gradiente, permife emplear ritmos de generalizacion; en esta seccion nos ocuparemos dcl primer caso. Asi, la primera
-:E' e!Jt.!.enqmiento mayores y suele ser mas rapido (hasta vnrios 6rdenes de magnitud). EL ,; variante la propusieron los propios inventores del modclo [Rumelhart Rob1, al inc!lJiL
c

:;::~'.! modo serie es habitunlmentc empleado en aqucllos problemas en los que se disponc tic en el algoritmo un termino de inercia (momen/um), consistente en afindir al dlculo
-::!:_ _'-__ ~extens.Qs conjuntos dc patroncs de aprendizaje. 5i se cmplease en este caso el modo de la variac ion de los pcsos (ecllaeiones 2.53) Ull Icrmino adieional proporcional al_
por lotes, el tener que proccsar lotios los patroncs antes de actualizar los pesos incremento de la ileracion anterior, qut: proporciona una cierla inercia al
~~_-_----dcmori\d,i considerablcmente el entrenamicnto (ndem.is de preeisar cl almaeenamiento - entrenamiento
~.~. _' il~_e_n_u_in_~rosos
resultados parcialcs).
~'() + I = -f~. r)E + fX. UIV
~'() '-1
---:;- __ Es importante considerar que en el aprendizaje en serie el orden en la ---:: = UlVki I kj
. {/II'
--'---'~, - pre.vt'nt(lcirJn de los patrones debe ser alelltorio, plIesto que si siempre se siguiese un - .~ *.I, (2.55)
~..~:::.' misrno orden cl entrcnamiento cstaria viciado en favor del idtimo patron del cOI~unto
_.. - --dCCiltrenamiellto, ellya actualizacion, por scr la idtima, sicmprc predominnria sobre
""':-,:1

~:

[~. 7ll REDES NEURONALF,S Y SISTEMAS BORRUSOS CAI'ITULO 2: REVES NEURONALI:.S SUI'ERVISADAS 71

fr"'~.-
::::: '-
;:i-i can a un parametro entre 0 y I, que se suele tomar pr6ximo a I (Ct"O.9). Dc esta- ~ ~~nucho mas eomplejas de implementar y precisan mas recursos de calculo [Demuth 04,
manera, si los incrementos en un delerminado peso tienen siemprc cI mismo signo, las - :~}- -Wassermann 93, Bishop 94, Haykin 99, Principe OOJ. Quickprop, se encuentra a
aciualizaciones en cada iteracion seran mayores; sin embargo, si los incrementos en =-, - caballo de los dos grupos cxpuestos, incorporando una heuristica que da informacion
cierto peso oscilan (a veces son posilivos, olras m:galivos), cI incrcmcnto cfcctivo , sobre la forma de las derivadas segundas sin derivar.
(acumulado) .sc reduce al cancelarse. ASI, cn zonas eslrechas y prOrun?as de la '~ ,'-- Tcngase en cuenta que ninguno de los algorilmos dcscritos puede considerarse
hipersu~.erficle de error (c~n fo~a ~e valle angoslo), lo~ pe;os COITt~Spondlentcs a la superior en general: un buen mclodo en un caso puede proporcionar un rendimicnto
dimenSIOn estre.chas (que Sill d termlllo de. momcnto osctlanan de un ~ado ~l otro del pobre en otro. En el manual de las Neural Networks Toolbox dcl entorno matematico
valle.) sufre~ IIlcrementos. pequeiios, 111Ientr;~s que !os de las" d,lrecclones ql~~ MA TLAB@ [Demuth 04] se proporcionan algunas pistas que puc den haccrnos inclinar
desclcnden dlre~tamente al fon?o .se v.en .potenelados [~llshop ~4J. ~s csta una manel" - por uno u otro, destacando especialmente el algoritmo Levenberg-Marquardt.
dc aumentar el ntmo de aprendlzaJe CfeCtlVOen ddernllnadas lhrecelOnes. -
;;:
En [Fahlman 88] se rcalizo uno de los primeros estudios experimenlales sobre la
veloeidad de aprendizaje en el BP, proponicndose distintas rceetas para aeelerarlo.
2.6 CAPACIDAD DE GENERALIZACION DE LA RED
Un delalle tan simple como utilizar si!.:lI1oides bipolares, pOI' ejemplo ell cI rango
[-1,+ I] (funcion tangente hiperb61ica, ecuaei6n 2.4 7b), en vez de en el intervalo [0,+ I] Uno de los aspectos fundamentales de los ANS es su eapacidad de generalizar a
---(ccuacieln 2.47a), puede'aeclerar considerablenlcntc el aprendizaje. Ell [LcCun 98,- -partir- de -ejemplos, 10 que-constituye el problema dc-Ia- memorizacion frente a
Ilaykin 99J pucden encontrarse tambien mllchas reeetas; por ejcmplo, alii sc acollscja gencralizaci6n. Por generalizacion se entiende la capacidad de la red de dar una
la funci6n de aetivaci6nj(x)=a.tanh(b.x], con a-= 1.7159 Y h=2/3. respuesta correcta ante patrones que no han sido empleados en su entrenamiento. Una
red neuronal correctamente cntrenada generalizara, 10 que significa que ha aprendido
Otra circunstancia a tener en cuenta es la magnilud de los pesos inicialcs, pues
adecuadarnente el mapping no solo los ejemplos coneretos presentados, por ,10 que
una correcta eleecion puede suponer un menor tiempo dc entrenarnicnto [Thiml11 95].
respondera correctamente ante patrones nunca vistos con anterioridad.
Para cl easo de la funcion de aetivaei6n tangente hiperbolica, simplemente cl elegil' los
pesos aleatoriamenle en cl intervalo [-2.4/l1in, +2.4/l/in] (~iendo Hill el nlllllero de ~,
ciltradas de la lleurona) ya sude dar buenos resultados [Principe 00]. En [LeCun 98] sc -,,,< - Validacion cruzada (cross-validation)
propone olra heuristica parecida.
En un proceso de cntrcnamiento se debc considerar, por una parte, un error de
A continuac.:ioncs expondremos algunas Iccnicas Imis clahoradas desarmlladas "- aprcndizaje, que se suele ealcular como el error cuadr<itico medio de los resultados
para aeclerar el entrenamienlo, auuquc lin aspeeto fundamental como es el del proporeionados por la red para eI conjunto de patrones de aprendizaje (eeuaeion 2.52).
prel>nlCesamienlo de los datos dc enlrada (l:sealado, estandarizacion, norma!iz<lci6n, Con una red suficientemcnte grande, pucdc reducirse tanto como 5e quiera s610 con
etc.) se expondni en la secci6n 6.2. Hevar a cabo mas iteracioncs. Por olra parte, existe un error de generalizacion, que
se puede mcdir cmpleando un eonjunto representativo de patrones diferentes a los
EstIS tcenicas aceieradoras elaboradas dan lugar a l'ariantes del BP [LeCun 98,
utilizados en el entrenamiento. De esla manera, podemos entrenar una red neuronal
Haykin 99, Wassermann 931. Un grupo de estos algoritmos asignall 1lI1 rilllllj de
liaciendo usodc un c()nju.nto de aprendizaje, y comprobar su eliciencia real, ~;~rro~ d~
arrendizaje diJCrente a cada peSl'. ritmos que ademi\s son adaplativos (caillbian con Ins
gcneralizaci{)n, mediante un conjunto de test. .
itcraciones). SuperSAB es IlllP de los milS conoeidos denlro de este grupo; en cI
NIH

~:.i
Apcndice A se nponccon ciertu nivel de detalk su algorilmo. Un hecho experimental, faeilmente observable con cllalquicr simulador, es que
si se entrena tina red hasta alcanzar un muy pequeiio error en aprendizajc (pOl'
0;,; Un segundo grupo dc algoritlllos delllllllinadus gencricall1enk mCtodos dl'
ejelllplo, inferior a un 1%), la clicacia real del sislema 0 gencralizaci6n (medido eomo
~ segundo orden, se basan en realizar cl descellsu por cI gradicl1le utilizando talllbicn la
~ error en test) se dcgrada. Si representamos a la vez el error en aprcndizaje y eI error en
=: in!ormaciun proporcionada por cI ritillo de cambia de la pClldiente. cs decir, la
test durante el transcurso del aprendizaje, se obtiene una gnifica como la represcntada
~-"'i - derivada scguncla del error H=iPE(W)/ihl'/Ghl'k1 (H se denomina matriz llessiana). Los
en la Figura 2.12 (izquierda): lras una fase inicial, en la que puedell nparecer
!:" ;_ algoritlllos e1l:l!radien~cs eOIl,iugadns, gradicntcs cnnjugaclos escalaclos, Newloll y
()scilaciom:s en eI valor del error, cl de aprendizaje tiende a disminuir mOlHl!Onalllenle,
~-; Lc"cnhllrg-l\1artIUardt son cjclnplos <it: e!lo; eada UIlO fnlph.~a distintas
mientras que el error de gencralizacion a pal1ir de eierlo punto eOlllicnza a
::: --- aproxill1:tcilllles que evitcn cl gran eslilcrzo complitacional que reprcs'cnt:lria el dlcL'lo
increnwnlarse, In que indica una dcgradacion progresiva del aprendizaje.
~_:, ~_direclO
•.,:!. __ de la I Jcssian:l. SOli lccnicas Ill;":; robustas quc el BP, que pucdclI aeclerar en
, lUlU 0 dus ordclIes e1l: llIagnilud la conv-.:rgclIcia, aunque como eontraparrida son
iCiRA-MA ORA-MA CAPiTULO 2: REDES NEURONALES SUI'ERVlSADAS 73
72 REDES NEURONALES Y SISTEMAS BORROSOS

,/ complejidad del modelo depende tanto del nlllnero de parametros como de su valor
Error

Error en test
Error
,
, / actual [Principe OOj. Una rcd neuronal tiene tal capaeidad de modclado que pueden
aprendcr (memorizar) casi cualquier cosa, incurriendo facilmente en sobreaprendizaje.
\
\
(\\
..
! Para eomprenderlo mejor, pensemos en 10 que sueede cuando se trata de ajustar
Error en li::sl el cOlljunlo de I1ll:didas de la Figura 2.13 a un polinomio mediante el metodo de
~ ./ minimos cuadrados [Bishop 94]. Si tratalllos de ajustarlas a un polinomio de grado I
Errur en apn:nJizaic "/ Error en aprendjzaje
(figura 2.13a), el error que obtendremos sera alto, y el valor que este polinomio
proporcionara para valorcs direrentes de los empleados se apartara de la realidad. Si
Punto 6ptimo Itcraciuncs
Error de gJncralizacilm Iterafioncs j
l1evamos a cabo un ajuste con un polinomio de grado 3 (2.13b), los rcsultados que se
minimo
obtienen son mucho mejores; si ajustamos con un polinomio de grado excesivo, por
Figura 2.12 Evolllci6n del error de aprendizaje y ~el er~'~rde generalizaciun. A la cjemplo superior a 10 (2.13c), la representaeion que obtenemos tambicn se aparta de
izquierda, sitllaciun idealizada, ala derecha s/tllaclOn real [Prechelt98] la correcta. En el easo (a) ajustamos con muy pocos paral11etros,por 10 que el modelo
que obtenemos no se corresponde con la realidad, en (b) el numero de panimetros es
adeeuado y el polinomio ajusta bien los datos; finahnente, en el caso (e) el polinomio
------- La expliciicion -de-este-fenomeno-es la siguicnte;-AI principio-la-red se. adapta-< ~ tiene demasiados par{lmetros y el resultado que se obtiene se aparta de la realidad: no- ---
progrcsivamcnte al conjunto de aprendizaje, aeomodandose al problema y meJo.rando - csta capturalldo la tendencia del problema (una forma casi senoidal), sino que esta
la generalizacion. Sin embargo, en un momento dado el sistema se .ajusta demasl~do a interpolando (memorizando) los datos, ajustando tambien el ruido en elIos presente.
las particularidades de los patrones empleados en el entrenamlento, aprendlendo En una red neuronal sllcede algo similar. En este casu los parametros de ajuste
incluso el ruido en ellos presente, por 10 que crece el error que con:ete ~,nte patrones no son los cocficientcs del polinomio, sino los pesos y bias. En general, si el problema
diferentes a los empleados en el entrenamiento (error de generah~aclOn). En est: es sencil/o, bastaran pocos parametros para su ajuste: debera utilizarsc una red
momento la red no ajusta eorrectamente el mapping, sino que slmpl~mentc csta pequei'ia. Si el problema cs complejo, se necesitaran mas parametros de ajuste: se
mcmorizando los patrone5 del conjunto de aprendizaje, 10 que teel1lcamente se necesitara una red de mayor tamano. Por 10tanto, debe ajustarse el tamano de la red a
denomina sobrcaprendizaje 0 sobreajuste (overtraining 0 oveljilling) , pu~s la red la complejidad del problema cfuese esta trlltwlllo, debiendose limitar en 10 posible su
esta aprendiendo demasiado (incluso cl ruido presente en I,os patrones-ejemplo). tamano (principio de Occam 0 de la maxima economia de medios [llaykin 99]).
Idealmente, dada una arquitectura de red neuronal, csta debcna e.ntre~,arse ha~t~ un
punta optimo (Figura 2.12, izquierda) en el que el error de generahzaclOn es m1l1uno. No obstante, como hemos comentado mas arriba, cl nllmero de paramctros
El-procedimiento consistente en entrenar y validar a la v~z p~ra deteners~ en ~1pU,nto efectivos de la red depende del nlnnero de pesos y tambien de sus valores actuales. Se
optimo se denomina validacion cruzada (cross va!Jd~tlOn), y es ampltamentc ha demostrado que eI nlllllcro cl"ectivo de parametros es generalmente menor que el
utilizado en la fase de desarrollo de una red neuronal supervlsada (como el MLP). nlllllerO de pesos [13ishop 941, y su nlllllerO erece conforme el aprendizaje progresa
(Weigend 91, 93]. tse es el motivo pOI' el que la parada temprana del aprendizaje
-- - No obstante, In situnci6n descrita ha sido en cierta medida idealizada; una evita el so!Jreentrell{fmiento,pues es equivalente a lilllitii-"-elmi"u;,rode paran/etms de
':situacionm<isrealista serla la de la partedcre~ha de la Figura 2.12: en realidad pu~d~n 10 red (sin l110dificarpara la arquitectura actual, cs decir, eI nllmero de pesos):
presentarse varios lIlinimos para el conjunto de test, debiendo dctener el aprend~zaJe
cn el punto 6ptimode minimo error de generalizaci6n, y no quedarnos en el pn~ler Por 10 tanto, la tcenica de validaci6n cruzada rcsulta imprescindiblc. Siendo
minimo en test que aparezca. Distintas tecnicas de parad3 tcmp~ana (early stoPI~l11~) rigurosos habria que hablar de tres conjuntos: de entrenamicnto, de validacion y de
se describen en IPrechelt 98], aunque muchas veces basta con depr que el aprendlZaje test final; el de validaeion se cl11plea en la validacion eruzada y el de test es cI que
- - discurra hasta una cota razonabJe de error (0.5%, 0.1%, 0.0 I% ..., depen~e del --'" detcnnina de fimna tolalmcnte objetiva el rendimiento final de la red [Aishop 95,
-----problema), guardando periodicamente las distintas configuraciones, i~lterllledlas de l-Iaykin 99]. En IWilsoll 03]lOdos los patrones disponibles se reparten aleatoriamente
pcsos;para luego quedamos con la quc proporeiono un error en test Imnnno. entre los tres grupos en la proporci6n 60%, 20(%, 20%. Cliando cl nlllllero de patrones
cs muy pcqllci'io puedc cmplearsc validacion cruzada m(Jltiple lllaykin 95j: se
-~-~- - --La clan: cst a en que las rcdes neuronalcs son estimadores no lincales p()(~erosos, divide la l11ucstrade partida en K grupos, sc selcceiona uno de estos grupos para test y
- capaccs de l110delarsitu:lciollCScomplcjas. En las hen:amicntas lineales (pOI:cjemplo, 5e clltrella con IllS rCSlanles; eI proccso se rcpitc K veces para IOdos los grupos. La
_ ajustc polinol1lial) la cllll1Jllcjidad del modclo vlene dada por cI nUl11cro de IIlt:dida final del relluil11icntoes cl promedio de los distimos cntrenal11ientos. Cuando
~-panI11lelros-libres a ajustar (coelicientes), lIlicntras que en. rcdes ncurollalcs ]a K= I se ticnc cll11~todo de "dejar UIIO fucra" (lcm'e-lJlle-our).
74 RE[)ES NElJRONALES Y SISTEMAS BORROSOS \c;' RA-MA c1~'RA-MA
Ci\I'iTULO 2: REDES NElJRONALES SUPERVISADAS 75 1
x Y
-- ~; -Reduccion del tamaiio de la arquitectura de red
Y

Ademas, hay que lener presenle la lIamada maldici6n de la dimensionalidad


x
_ _ (curse of dimellsiol1ality) [Bishop 94, Haykin 99], que consisle en que elnumero de
x x ':-: '__ datos neeesarios para especificar un mappillg, en general creee exponeneialmente con
x ~2 ~ la dimension del espacio de entrada, 10 que agrava en los problemas de dimension de
entrada elcvada el disponer de un I1ll111ero de palrones para el aprendiz<lje eseaso.
x x
[)isminuyendo eJ I1ll111erode panimetros de la red (tamalio) se lendni una relacion p~
(a) (b) wlE, mas favorable. Una forma de n:dueirlo eonsiste ell Iimitar el numero de Ills
elltradas de la red, pues ello impliea la disminucioll drilslica del numero de pesos. Por
Y
--ejcmplo, una red con 200 enlradas, J 00 neuronas oeultas y 3 salidas, eontelldni del
Figura 2.13 Ajl/stc al ruido de los orden de 20.000 pesos, con 10 que se neeesitarian unos 200.000 patrones para
patrvnes ell el aprcndizaje de una red enlrenarla adeeuadall1enle. Si redueimos el nlllllcro dc entradas a 10 (par ejemplo
neurollal. Comparacion con eI ajuste realizando un anulisis de componcnles principales a las variables de enlrada:
po/illomial: a) ail/ste a una recta, b) a empleando ratios, elc.), ellllnncro de pesos se reduce a 143, con 10 que se prceisarian
-x - - -un/Jo!inomirrde ordei13-:c)yalIi1O -lillicamellte unos 1.400 palrones de aprendizaje.
ordell > I () [Bishop 94J Olras lccnicas ell1plcadas en In redueeion del nUll1ero de paramelros de la red se
(e)
relaeionan con eliminar algunos de sus pesos; algunas bien eonoeidas son las de
compartir pesos (weight sharing), pod ado de la red (prulling) 0 dccaimicnto de
Numero de ejemplos de entrenamiento . pesos (weight decay) [Herlz-Nielsen 91, Haykin 99, Prineipe OOJ. En la primcra de las
En dclinitiva, la capacidad de gcncralizaci/m de la red la Jeterll/illan ell buena ~ . e~tad~s, diversas neuronas eomparlen sus pesos, de modo que el nlunero lolal
medidalas siguientestres circullstancias: 1) la arquiteelura de la red, 2) cl nlll11erO de_.~; dlsmll1u~e .. En el proces() de podado la red es enlr.enada hasla un cierto nivel, para
ejemplos de entrenamienlo y 3) la eomplejidad del problema [Haykin 99]. Los tres =. ~lue~? e.hm11lar aqucllos pes~~ que no aporlan praelleamente I~ad.a a su ?peraeion. EI
punlos estan muy relacionados; en tenninos generales, cuanlo mas complejo sea el - ~ 0- ~ dee,1l1111enloes u~ easo espe~~al del pod~do; durante el aprendl7:aJe se deJ~, a .105 pesos
problema a modclar, m{ls grande debwi ser la red (con mas paramelros a ajuslar) y, - ;:: -- tender poco a,~.oe,o a e~ro, pal a que aquellos que no scan aetuahzados peflodleamente,
.
por 10 tanto. mas eJemp Ios se neeesitaran
.. para cntrenar Ia ('eJemp Ios que db',
e eran eu I)11
oOr ~ ...•-
-= _ se anulen y desdpareze,lI1.
lodo el espaeio de entrada, eontemplando todas las situaeiones posibles).
Resumen
A menudo eI numero de patrones-ejemplo disponibles es limilado (y redueido), _
y en proporci6n el I1lllnero de panlmetros cfectivos de la red elegida (grados de ~ Recapilulando 10 expueslo en esla secei6n, euando se cnlrena supervisadamcnle
lib-~rlad)suele scI' milY grillldc:Ell [naum 89] se demostrabaya (10 eual ha sido~:::_ - (pOl' ejemplo, COli BP) una red unidireecional eSl<imuy prescnte la posibilidad de
eorl'\1borado por olrosautores [Haykin 99]) que una red de 11 entradas y h neuronas - apariei6n de sobreajuste (sobreentrenamienlo), 10 cual dcgrada enormemenle la
.... .oeullas,-con liil lolal de -IV pesos,-reljuicre un nlllllerO de patrnnes de aprendizaje del - l'apaeidad de gcneralizaei6n de la red. Existen dos formas de Illchar col1lra eI
~-;:- orden de P=H'/C para proporcionar un error de gencralizaci()11 del orden de E. ASl, 81 fenomeno del sobreellfren(fmiento: la parada lcmprana (validaci\)11 eruzada) y limitar
~_. queremos que la red alcanee un error de generalizaeion dc, por ejemplo, E=O.I (un el lamalio de la arquitectura de la red. Apliear la validaei6n eruzada tal y como se ha
=: 10%), el nlllllerO de patrones de aprendiz,ue lleeesarios p sera del orden de p=10.w, explicado en los parrafos anteriores resulta easi siempre fundamenlal. Por o(ro lado,
~ . cxprcsioll que sc suele dar CUJ110indicativa del n(ul1cro aproxinlado de pntrones que _ debe limilarse siempre el tamalio de la red, dehiendo e1egir la arquileetura de tamano
~_..._l~_,-,- ~_serian neeesarios para entrenar adeeuadamenle una red neuronal de w pesos. Por _ -:, Il1lnimo que permita aprender los ejemplos disponibles. La relaeibn p= I 0.11' (con p cl
0...:.. .. ejemplo, para una red 10-5-1 (10 neuronas de enlrada, 5 oeultas y I de salida.), quc Illlll1erO de ejemplos y 11' el IlllmerO de pesos de la red) pucde ser particularmente (HiI,
~ •.'- --dispone-de 61 paramelros, entre pesos y umbrales, ell1llll1ero de patrones neeesarios pudicndosc utilizar de dos Illfl11<ISdistintas: para estableeer cI lall1afio aproxill1ado de
~~:-, - ---para-a1eanzar un error del 10% sera de unos 610 (!!), 10 que representa un cifra de la red ideal para cl eonjunto dc ejemplos disponible, 0, dada una arquitcctura de red,
..",i, _patroncs muy alta, no disponihk en muehas aplieaciones pr{\etieas. Ello ilustra de para hacerJ10s una idea sohre si l'S li'leil que incurramos cn sobreenlrcnamienlo,
::il: :-- nuevo la f<lcilid..'l.d_de incurrir ensubrcapn:ndizaje al entrenar una red neuronal.
--76-REDES NEURONALES Y SISTEMAS 1l0RROSOS

@HA-MA
..
--~--

: ~RA-MA CAPITULO
. 2: RI,IlI,S
- ., Nt',UR
. ON I\LES SlJPERVISADAS 77
7
2. PINCELADAS SOBRE LA RELACION DEL MLP CON
~ - 'der fielmente con la realidad, de otro modo se
LOSMETODOS ESTADisTICOS ~ quiteetura, eJ cual se debena corrcspon _ presentando pistas falsas a la red).
ar I '. del problema (se estanan I . za
-i-- fracasani en la reso UClOn dn! oca f1exibilidad, pero una de a ta va~Jan _
Dcsde un punto de vista estadistico, muchos de los problemas que se intentan =c por 10tanto, una
resolver Con un MLr entran en la categoria de los denominados problemas mal '-' . - red
I de .d alto sesgo entenIos dPatos
presente , .. l _,a solucian ideal del dilema, . vananza-
planfeados (ill-posed), en los que cI espacio de trabajo es tan amp/io y los datos i ajustara tamblen c fUl
ia encontrar el 0puntn de I'a F.''gura 2 . 12, que daria la arquitectura optima.
disponibles tan escasos, que rcsulta dificil encontrar la red neuronal que los ajusla • sesgo ser
.,. d .
unto Junto con a Iguno.s metodos que pueden resolver . del
correctamente, puesto que la infonnaci6n conten ida en los datos de entrcnamiento no • Un resumen e este as, 95] Ya hemos apuntado una lorma e
es suficiente para detenninar univocamente cf mapping, de manera que las posibles roblema planteado, se mucstran en (Gede.on. .~nes ue de antemano se sabe debe
! ~osnl"dn: ;o'md"d, on I, ,cd 0",,00~1m,,~c::, los ~'d", de Ub<,I,dy ,"o"g";'
soluciones que en principio penniten ajustar los datos son virtualmente inlinitas.
Hablando en terminos estadisticos, las redes neuronales son estimadores no
~ ";,,,pl;," pwblc"", con";bnycodo. ~::,~~c(,:~l1 po.'Cd). E;'as ,,,Iricd"o,, "'pooeo
i quc el problema pasc a estar .bl~n .pla I.. .hle I'Obre el problema en la propla
parametricos [Vapnik 99aj, que realizan estimaciones dcnominadas de modelo fibre. ' introduclr. l11;ormaclO
. ,r, . -n apnonstlca . IISPOtlt.
d tecnicas de regulanzaclOn . " a b0rd'lll
,
cl
Por ejemplo, eI mctodo convencional de ajusta a una linea recta mediante minimos i I ed Las denomllla as. . I lenta la,
,. arquitectura I e ~ r. .. ue im lican que el mllpping que Imp en
cuadrados es un estimador paramctrico, pues se ill1pone '11problema un detemlinado i prclblema introduclendo restncclOncs q dP. ',lares luga corresponder resultados
Illodelo de partida (Ja linea recta), cuyos panill1etros se deben ajustar segun las d . quc a enlm as sun , ._
-, red neuronal sea suave, es eClr" d ser incluidas en 1'1funclOn coste en_
muestras disponibles. A difereneia de los parametricos, el MLr (y /lluchas olras rcdes . 90 G' si 93] Estas pue en _ . ..
~! prox imos fPOgglO ,'fO. .... dis pesos) que miden la desvIaclOn
-----~--neuronales) seria un cstimador de modelo libre, pues no se ill1pone ninguna forma forma de -terminos adicionales 0(ll'a) (sJen ~ ~~x 0p'lantead;
funcional de partida.
-' de los rcsultados actua Ies res pecto de la restncclOn
Las limitaciones de las redes neurona/es, y del MLP en particular, puedcn
cntenderse e interprelarst: mediante el bien conocido problema que tam bien surge en Ja c: E[ lV" l=.!. IIlti' - Ft(X)]' + AIq>( lVa) (2.56)
estimacion parametrica, el denominado di/ema de la varianza y el sesgo (bias and ! 2J1k (i

variance dilemma) [Bishop 94, 95], que involucra muchos de los aspectos discutidos
-1 ., d re 'ularizaci<Sn, que control a el compromiso
en la seccion anterior. EI asunto es el siguiente. Hablando en temlinos neurona/es, sicndo A el denom1l1ado parametro e .. g fi t I nivel de ajusle de los datos de
para rea/izar un ajuste optimo el numero de patrones de entrenamiento deberia tender -1
'
!. I. do de suavidad de la soluclOn ren e a
entre e gla I (P 'gio 90]
a infinito pues, para un eonjunto linito, los estimadorcs no pammetricos suelen ser i entrenamiento que a canza og '. d' , que los pesos sean de tamano
muy sensibles a los casos particulares de pares entrada-salida seleccionados para -i . ., e puede 1I1trouClrse es ._ d
; Gtro tipo de restncclOn qu. tc easo sc elige una funclOn e
realizar el aprendizaje. La causa es que la red neuronal, estimador de modelo libre, . d fi ldamentc' en es ,
posee inhercntemente una gran varianza. Hablando coloquia/mente, la rcd neuronal -' ,cd"ddo, cv;'aodn q~c ""can '~ e "'2 I ;ood"ce , "0'
"gl, qne ;"'picmco', cl
puedc implcmcnlar l11uchisimos ditercntes mappinKs, pero solall1ente il11plementani cJ ~; regularizacion de la lo:ma if.(wa)-,(wa) , ,~.~ue2 6). Otros ejemplos de restricclOnes se
1 b.' conocido dceaim,cnto de pesos (secclon ,
correcto si utilizal110sun conjunto de entrenamiento de tamano idealmente infinito. La • len d 92]
unica forma de contro/ar la elevada varianza que la red ncuronal posee inieiahnentc es
'
I muestranen(Hertz91,Moo
. 'd
y, I'"
It' cnicas de regu anzaclOn .
sobreelmodeloMLP-BPpllede
b .
- introducir en su arquitectura algll/1 tipo de sesgo (bias) 0 infonnacion aprioristica -I La aplicaclOn e as re acion. No 0bstante, t-all1bien ha inspirado cI IraI. aJo con
- sobre el problema a resolver; hablando coloquiahnentc, seria como proporeionar a la -! .,
! -- meiorar su nivel de genera IZ. d' adas redes de regu anzaclOn
-,- ~ I s como las enomm ,. f '
rca neuronal algun3 pis/a que Ie indique c<Smopensall10s que debe ser la solucion. Es ~; otros modelos neurona e. , d deducir las bien conocidas unclOnes
decir, se trata de conseguir que el estimador Oa red ncuronal), en principio no ! (regularization networks), de las queFse pue e) como un casu particular [Poggio 90].
-~parall1etrico, ticnda a ser parametrico en un cierto grado, de manera que de partida se - i . I RBF (R adial BaSIS unctIOns I de gran aplicabliida.. d prac_ t'..
encuentre en cierta medida vieiado hacia el tipo de solucion que nos interesa. I de
Lasbasc
RBFradta
son en0 la actualidad un modclo neurona lea, tlUC
-! d. os en el capitulo 4. .
El dilema que se plantea es precisamente en que medida se debe viciar el - estu' Ian:m . _ I',I clasica tcoria estlldishca
--modclo-'leuronaJ. Si se emplea una red de bajo sesgo yalta varianza (es decir, con i 'I dh 5e relaclOnclcon
1- Un area de gran trahaJo lOy en, h- II vado a la introduccion durante
-muchos panimetros 0 pesos y sin introducir informacion aprioristica), el nlunero de -!- de aprendizajc (statisticallclIrning theory), lI lle ,I Co(Ia dimcnsion VC (Vapnik-
=Cejcmplosnccesarios para cnlrenarla eorrectamente sera altisirno. Si Cll eI problema a t ' !'In importan tes com p
los anos noventa de concep os, . '., de vectores soporte 0 SYM (,}upport
resolver no se dispone de sufieicllles patroncs, se debeni introdueir cicrto sesgo en la ChervoncnkIs. ) , 0 e I I\l(l.de>10de hs , . maqulII.ls
I' fi' .. n y aJ.usle funclOna . I_ N 0 nos•
.)
Vector Alachllles, emp Icad-Is
, , en c aSI JcaCIO
----------------------------------~-~l--
~---
~.~ --- ----
H'l't'l
-~
7X REDES NElJRONAI.ES )' SISTEMAS 1l0RROSOS
CAPiTULO 2: REDES NEURON,\LES SUI'ERVISADAS
;- -1
exlenderemos en el lralamicnlo de esla lcoria (muy eomplicada, pOI' otra parlc),_ .~ ---2.8 EJEMPLOS DE AIlLICACION UEL MLP-BP
remitiendo allector inlcrcsado a las relcrencias (lIaykin 99, Principe 00, IEEE 99b], 0- _~::
directamente al trabajo de uno de sus inventores [Vapnik 99b1. Para eoncluir, en csta liltima secci6n mostrarcmos dos casas practlcos que
ilustraran el desarrollo de aplicacioncs mediante la arquileclura pcrccplrll!l multicapa
I
Es muy imporlanle resallar la exisleneia de c1aras relacioncs entre el MLI' y las cnlrenada can 131'.
lccnicas estadislicas convencionales, como la regresi6n 0 el analisis discriminantc, u --=£.:---
olras mas recientes, como la teoria de la regularizaci6n. EI MLP, en dcfinitiva, realiza ~ _-
un tipo de regresi6n multidimensional y no linea, I en Ia que no es necesa:ta . Ia La funcion OR-cxclusivo
suposicillll inicial de una dClerminada forma funcional para el ajuste; en esle sentldo se
Como ya hcmos comentado, la rUI1\:iun OR-cxdusivo 0 XOR 110 es separ<Jblc
suck apreciar en su aplicaci6n pradica que eI MLP con rrecucncia supera a la
Jincalmenle, pOl' 10 que un perceptnin simple no pllcdc rept eSl:ntarla, mienlras qlle una
regresion u olras lccnicas lineales lradicionalcs para espacios dc dimension alta
-arquitcctura MLP si es capaz dc hacerlo, en prin-:ipio. Vamos a vcr, adem,is, que un
(mayor que tres) (lleteh-Nieisen 90J, as pee to que otros esludios rigurosos han
MLP puede aprender automilticamcnlc a rcprcsCi1tarl8 hacicndo uso de aprenJizajc
corroborado (Principe 00]. Tambicn ha sido comparado con el amllisis discriminante,
RP, empleando como palrones de aprendizajc la lahla de verdad de la runci,'m XOR.
moslnlndose que proporciona mejores resultados en problemas no lineales.
Consideraremos una XOR de dos clliradas; Ilall1arenll1~ xl y x2 a las cnlradas lugicas,
La com parae ion del MLP, en particular, y de los ANS, en general, con los y sera la salida. La arquitectura MLP debenl tCllcr dos neuronils de entrada, IIna par
----modelos estadislicos, asi como su estudio riguroso desde eslepunto de vista, resulta de - -=variable, y una dcsalida. POl' olrolado, eI I1lnnero dc nod os ocultosdchc SCI'propucsto-
imporlancia capital a la hora de comprender como operan los l11odelos neuronales. Dc pOI' cl que desarrolla el sistema; como sc tralfl de un problcma scnei!lo eSiableceremos,
hccho, la relacion rcdes neuronales/estadislica cs hoy en dia una dc las areas de lrabajo en principio, dos neuronas ocultas. POl' 10 tanto, la arquilectura rcsullantc cs una 2-2-1
milS importanles, tanlo pOI' el nlnnero de publicaciones, como por su impacto, pues (Figura 2.14).
est os lrabajos se sitltan en el nllcleo tellrico b,isico de los ANS. Los arliculos de II.
Disponemos de cuatro patroncs dc aprcndizaje: a la pflreja de enlradas 0 y 0 Ie
White [White 89a, 89bJ conslituyen una excelente introduccion al lema; en (NATO
corresponde una salida 0; a 0 y 1, una salida I; a I yO, I; y, pOI' ltltimo, a 1 y I, ulla
93, Cherkaski 94] pueden em;onlrarsc una inlcresantc recopilacion de trabajos. Un _
salida o. Las neuronas del MLP no operan dircctamcntc cl'n variables 16gicas, sino
recicnte (y exce!ente) eSludio de las relaciones de los model os de redes supervisadas ---~
-- con valol'es rcalcs, pOl' 10 que a cada valor 16gico (0 y 1) hay que asignarlc un Illll1\erO
con e! reconoeimienlo estadistico de patrones se da en [Uishop 95J. La referenda .;:
real que hanl cI pape! de entrada 0 salida; la cleecilll1 IlIfts dire\:ta scria asignar al valor
(Haykin 99] reaIiza una complela puesla al dia de estos lemas.
16gico 0 el real 0.0, y al valor logico I. cI real + 1.0; no obstanle, eI enlrcnamiento de
En la cpoca de desarrollo explosivo dcl Irabajo en redes neuronales, la idea que una red que opera con numcros bipolarcs (positivos Y licgativos) suclc scI' mas r{lpido,
sc tralaba de vender eonsistfa cn que cstos model os eran mas cfieaces que las tccnicas par 10 que en eslc caso dccidimos haccr wrrespondcr ni valor 16gico 0 cI real -0.5, y al
. eonveneionales. Sin emhargo, en la aClualidad, con el campo ya mas asentado, se valor 16gieo I cl +0.5. Debido a esta eleceioll. la ti.mci6n de aetivacilln para las
dispone de esludios serios y maduros, lIegandose a la conclusion de que algunos de los neul'Onas ocultas que emplearemos sera Ja siguicllle
:::.~ .;
problemas que aparecen en el campo de los ANS pueden scI' rcsueltos par lao
1t -
-'~' eSladistiea 0 bien esta ya los ha resuelto con anterioridad. En la actualidad, pasada la f(h) = - I . ~ 0.5 (2.57)
cpoca de consider'll' las redcs neuronales como objcto de moda, empiezan a scI' 1+ e-II

~-lraiadas como un {,rca ccrcana a la madurez, conslituycndo un eonjunlo de tecnicas


sigrnoidea bipolar, que trabaja en el intervalo [-0-5,+0.5] (recordcll1o~ quc h rcprc:;cnla
mas a anadir a la amp]ia panoplia de mctodos de lratamienlo de dalos y senal ya
el potencial poslsinaplico, es dccir, la sum a ponderada mellUS t.:I bias). La variabic v
existentes, que en ocasioncs proporcionaran mejores resultados que los
representa para cada ncurona oculta la suma ponderada de I:ls entmdas can sus pesos,
convcncionales.
cantidad a la que se rcsla cl umhral (/lias). Ya que los \'alorc~; de salida dchcl1 SLT
Evidentemente,
la realidad es 10 sulicicntelllente complcja como para que no digitales (+0.5 0 -0.5), emplearemos esla Illisma Iimci6n salllmda como rune ion dc
~.~ - exista una sollicit')Jl
tnilagrosa que n:suclva touos los problclllas. Lus problcl1111S- activaci6n de la neurona de la capa de salida.
~:; - ~ complejos dchclI ser divididos ell partes, y coda parte debe SCI' rcslIelta con 10 lecnica
Tambicn debe establecerse el valor til' los pesos de parlid", que norlllalmcntc
~;: -~-~ (;p':opil/dl/, cClIlvencional (esladislica, sislenws experlos, reglas hcurlsticas, elc.) () no
sun pequeiios y a!ealorios, pOI' 10 quc los !oman':fTIos en ('I intervaio 1-0.3, +0':; I.
~ii -=-Ian COll\'ellcional (redes nCllronalcs, logica borrosa, algoritlllos gellclicos, etc.). La
Ell[rcnarcmos la arquitectura mediante cl UP eslandar COil 10rmillo dc l1lOl11cnto.
ih tendencia hacia sistemas hibridos es clara en la actualidad, y clave en la Inteligencia
Tambicn dcben eslabkcerse los valolcs de los parillllclros tit; enrrcnamicilto: clegimos
~~: - --Compuiacional [IEEE 99J.
cl ritmo dc aprendizaje E = 0.3 y t.:Icorre:'pondienle al !ermino de 1110ll1cntn Ct =O,\). FI
80 REDES NEURONALES Y SISTEMAS BORROSOS CAPiTULO 2: REDES NEURONALES SUPERVISADAS

aprcndizaje es iterativo, las salidas de la red asint6ticamente s~ a.cerca;an a los valores-=- =- ::' xl
objctivo +0.5 0 -0.5; por 10 que tambien deberemos dceldlr cuando detener. el =€
entrenamiento, por ejemplo, cuando el error euadratico media de Ia neuron a de salida
sea inferior a un I%. En este caso se trata de memorizar la tabla dc verdad ~e la
funei6n XOR (Figura 2.14), cuatro ejemplos de entrenamiento e.n t~tal: y no eXlst~n y
mas posibilidades, por 10 quc aqui no puede huber sobrcaprcndlzaJc nl es necesano
realizar una validaci6n cruzada. x2

2.77
xl
Figura 2.15 MLP entrenado con la tabla de verdad de la/uncivn XOR. Los mimeros
sabre las conexiones indican los valores de los pesos sinapticos obtenidos, y los
valores bajo coda neurona los de los umbrales (bias)
y
xl 0 0 1 I

x2 0 1 0 I Si hacemos 10 mismo con la neurona de salida, teniendo en cuenta que sus


x2
entfadas son-hly 172, se tienc
Y 0 I 1 0

Figura 2.14 Tabla de verdad de la/lll1civl1 XOR y arqllifectllra de MLP propuesla y = 111.112 (2.59)
-=
~r
-"-'- y sustituyendo los valores de (2.59) y simplificando, se tiene
Dadas todas estas condiciones, y para los pesos aleatorios concretos que se y = xl.x2 + x1.x2 (2.60)
selcccionaron, se necesitaron 38 iteraeioncs para completar cl entrenamiento de la -
arquitectura, obteniendose los resultados mostrados en la Figura 2: 15. ~ependien d o. d e - ~ ~- que esjustamente la expresi6n 16gica conocida correspondiente ala nmci6n XOR.
las elecciones descrilas, y de los pesos de p"rtida, el numero de IteraClOnes requendo En este sencillo ejemplo (tan solo dos neuronas ocultas) hemos podido estudiar
para entrenar la arquitectura para este problema puede ir des de l~s varias ~ecenas detenidamente c6mo actlm eada neurona, 10 que resulta de gran inleres, aunquc suele
(como nuestro easo), hast a varios cen(enares. El criterio para elegtr los paramctros ser mucho mas dificultoso en el caso de arquitccturas de cierto tamailo.
propllestos, y no otros, es una de las cuestiones importan(es que cI dcsa~olladur dt:bc
dillieidar, para 10 eual debe apoyarse en su experiencia pr~via en el trabaJo con el BP,
y- con frecllencia tambicn deber{\ experimental' c.on di\'ersas ~OSI'b'I'd I I a d es para e._ I _.'_ La crisis bancaria espanola 1977-85
propio problema en desarrollo, ejeclltando vanos entrenamlent~~ (e~mpletos 0 ~ ~ __ _ El segundo caso de estudio consiste en el anal isis de la crisis bancaria espanola
-~ parciales). La prueba con diferentes contiguraciones es habitual, casl mevltable, en el_~ :- de 1977-85 mediante redes neuronales [Serrano 93, Martin del Brio 93a, 95e], el cual
- - _desarrQllo_de una-,Iplicacion_eon J'edes, neuronales; de hecho, algunos program as de- -;; ~ till;-desarrolladoen colaboraci6n con cl Departamcnto de Contabilidad y Finanzas de
- si'nlulaci6n dc rcdes ncuronalcs puedcn realizarlo au(omaticamentc. -=
7 la Universidad de Zaragoza. Esta crisis result6 tan grave que se ha comparado al crae
. t. d' 1 d' 1 nt'\
A ca b ad 0 c 1 entrenamlcn 0, Ie m re Imp erne , ,11,1'\ 1':\lnc)'o'n
X OR , 10 cual se
, ' -- - ae 1929
- I en
d -los
I ' Estados Unidos (afect6 nada menos que a 58 de los 108 bancos
_. . d" d d I 'bl I. d
eomprueba mtro uClen 0 to os os POSI es va ores e en rd e1, y Sl:, t . d' ob. 'I'V'llll!() I'\s
,. '.' espano es e a cpoea).
salidas. En estc sencillo cjemplo podemos inlentar Ilevar a cabo un anahsls _ En primer lugar, se trataba de obtener un sistema capaz de delennillar
-- -- exhaustivo de la operacion de la red, y tratar de comprcnder que cs 10 que 13 red ha automaticamcnte si una entidad banearia se eneuen!ra en situacion solvente 0 critica
---- aprcndido, y como 10 ha aprcndido (cs dec iI', que larca descIllpcna cad a una de las-- '~~, en Junei6n dc sus ratios eeonomicos. Para clio, nos apoyamos en la referencia [Pina
~~~ Ill:uronas individuales). Si prcscntamos las cuatro parejas de entradas (Figura 2.14) y ~ ~--89],donde se estudiaba mediante lecnicas cstadisticas los ratios financicros m:is
----- anotmnosliJssalidas h1 y 172 de las dos neuronas oeultas. nos encontramos can que las - ':: ~=----=Significativospara cste problema concreto. Dc cstc csludio 3C dcsprcnde que de los
~ - funcioncs 16gicas que han aprcndido cada una son las siguicntes: ,,.,, Illllltipics ratios quc pucdcn dctinirse, resultan scr soJamcnte nUCVl' los 111 ,IS
importantes a la hom de dctcrminar una situacion de crisis; algunos de e1l0s liencn que
hI = xl.x2 h2 = xl.x2 (2.58)
- -J
82 . REDES NFl IRONALES Y SISTEMAS IlUI(ROSOS (i;) RA.MA CAPiTULO 2: RFI>ES i,U ;1( )NALES SliPERVISADAS 83

vel' con tcrminos de rcntabilidad, otros de liquidez, otros se relacionan con el cash--= :'1.: --
floII', etc. [Serrano 93] (vcasc la tabla 2.1).
Para modelar las situaeiones de crisis/solvencia hieimos uso de un pcrccptr6n
Illullicapa cntrcnado mediantc Br. Si empleamos los nueve ratios indieados como
cntradas, y una sola neuron a de salida que nos indiquc con un I si un banco es~~ t ~ Ratios Salida:
solvenlc, y con 0 si csta en crisis, solamcntc nos qucdara dctcrminar el nllmcro mas ~~~ :=-- econ6micos 0-> crisis
adceuado de nellronas ocultas. I -> solvencia

Disponiamos dc una basc dc dalos eorrcspondiente a 66 oaneos dc In cpoea, 29


dc los cualcs qucbraron [Serrano 93 J (vcase la Figura 2.16). En di fcrentes prueoas
preliminarcs enlrcnamos dislinlas arquitccturas can los datos dc la milad dc los bancos ...
(seleecionados al azar), prescnlalldo eomo cnlradas sus 9 ratios, y eomo salidas un 0 0 -~.;:- -

llll I segllll Sll estado dc crisis 0 solvencia. EI resto de los dalos, no ulilizados CII el ~ ~ Figura 2.17 Arquitectura de MLP 9-6-' emplcada para la determinacion de crisis
aprendizaje del sistema, sc cmplean para cstimar oojetivamellte el rendimiento de la ballcarias (9 ratios bancarios de elltrada, Y 1112aIlllica salida I 0 D, illdical/do
arquitectura ya entrenar!a. solvencia 0 quiebra)

Tras una serie de pruebas dctcnninamos quc Ull nlUTlcro dc ncuronas ocultas
R1 Activo eirculantc/ Activo total
cntrc 4 y 9 daba buenos (y similares) resultados, por 10 que final mente nos quedamos
R2 (Activo circulante-Caja)/Activo total . ~ -.:: ~ ~. can una arquitectura 9-6-1, cs decir, con seis neuronas oeullas. Obscrvese que can una
R3 Activo cireulante/Deudas arquitectura 9-6-1 se tiene un lotal de 67 paramclros (entre pesos y umbrales), con 10
R4 Rescrvas/Dcudas . ~ que 1'1 regia p=l O.IV nos indica quc se neccsitarian aproxillladamentc j670 cjclllplos de
R5 Beneficia nelol Activo total .._~~ ~ __ bancos quebrados y no qucbrados para entrenar csta red.adecuadamenfr! Obviamente
R6 Renelieio neto/Fondos propios Tab/a 2.1 Definicion de los . en Espana no hay tanlos bancos, y nosotros disponiamos en total de 66 ejclllplos, par
R7 Rcnelicio netolDcudas ratios utilizados CIl el cstudio de ~ 10 que esta arquitectura faeilmente incurrira en sobrcaprcndizaje, debicndose par ella
RS Coste dc ventasNcntas /a crisis ballcarra -realizarun entrcnamiento con validacioll cruzada. .
R9 Cash Flow/Deudas En c1 enlrenamiento, la rcd aprendc la asoeiaeion de cada grllpo de 9 ratios con
cl 0 0 eI 1 que los ealifica; con un numero slllieiente dc palron~s de entrenamiento el
MLP, gcncralizando los datos aprcndidos, debera enconlrar la ley de ifuiebra
I IIlJnilln 15 B Yalladolid. 29 IJ Garriga N. 43 fl Guipuzc. 57 Sind. Ban'l.
sllbyacenle (quc los economistas desconocian). El entrenamicnto se renliz6 mediante
2 B Mas Sard:! 16 n Credo COlli. J() Il de Progreso 44 Il de (ialieia 5R Il de Europa
45 B Hisp. Ind. 59 Il de Yasconia HI'; cl proceso iterativo ejecutado sabre un ordenador tipo PC con procesador i80486
3 B LCVlllltc'=' .~ 17 IlPrest. v"Ahor. . 'I !lInd. Bilhao
" B Catalan a - 18 B nrselleniiJ .\2 Ilint. Espano! 46 n March 60 Il Pop. Espaiiol cmpleo tipicamente del orden de media hora, en un Pentium este tiempo se reduce a
5 BInd. Catal. 19 II COlli. On' ill. 33 Il Cum. Trail. 47 B f)eptisitos 61 IIl1isp. Allier.. - algunos minutos.
6'nnarwlonll III B Occidcntal 34 Il Cnmercin 4X B Herrero 62 H Espan. Oed.
63 B Santander
Realizando un estudio exhaustivo de la elicacia del sistema neuronal mediante
7 Il Gcrona 21 BInd. Medi!. 35 B JoveI' 49 B Sahaddl
8 B Alieanle 22 U Catal. J)csarr. 36 II de Viwria 50 Bankpymc 64 fl Central lcenieas .de boofstrap 0 dcjar-ullo-fuera, eneonlramos que cI MLP propucsto entrenado
') II Crcd. c In\'. 2J B I'rom. Neg. 37 lll'ueyo 51 !lInt. de COIll. (,5 II Ililhao con I3P cs capaz de dcterminar correctamentc las situacioncs de quiebra/solvencia en
JO Ul'idncos 24 H LOI)el Ques. .1XIl ('rcd !lalear 52 Ill.aral!ozano 66 B Viz(ava cl 94% de las ocasioncs (las hcrramienlas estadisticas lIegaban aproximadamente a un
11 n Madrid. - 25 B Asturias
-. _ •.. 39 II Ilu,sea 53 U ('0111. Espa. ::55%, pero, ademas, este indiee incluia los propios pntroncs cmplendos en el desarrollo
12B dc.NII\'lIrra" 26 B (;nmlHl;,- _. 40 II hlillclltn 54 B Mere. Tarr. dcl modelo; si nosotros entrcnaramos y testdramos In red con los mismos cjcmplos
D II Cantllhrieo 27 \l Simeon - 41 Il Pastor 55 II i\hel Malules obtcndriamos un 100% dc aeierlo, pcro clio no es honcsto).
"14 II Meridiunal 2H B. Ex(!. Indus!. 421\ de Castilla 56 B Fin. Indust.

Figura 2./6 Nclano/7 dc bal/coI' clllplc(ldol' 1'/1 c1 CSllldin '.ns hmlcns dell al 29
elltram/7 1.'/7 crisis. Lus 1Ja/7en,;(, {{ 66 SO/1 Ius sicte gralldes de la dpoca
-'j
84 REDES NEURONALES Y SISTEMAS BORROSOS

De este modo, con el sistema ne'uronal asi construido, y dados los 9 ratios de .•' ::-
cualquier banco, podremos establecer su nivcl de solvencia/crisis s610 con alimentar;: ::;,~ _
can ellos la rcd y observar la salida: cuanto mas proxima .,ea la salida al valor 1.0 en :~=-~~.
mejor situacion se encontrara el banco, mientras que cuanto mas cercana a 0,0 se situe .. :::':~
sera mas critica. Es importante resaltar que en redes neuron ales, aunque el proceso d~ -=" ~~.
entrenamien!o puede ser lento, la respuesta de la red una vez cntrenada puede =-.""= ~. ~-=- -
considerarse en muchas ocasioncs instantanca a efectos pnlclicos. .- '-::=
CAPiTULO 3
EI mismo problema fuc analizado tmnbien hacienda usa de un modelo neuronal' .o~.~

no supervisado [Serrano 93, Martin dcl Brio 93a, 95c], d de los mapas ";~:.. -
autoorganizados, que sera descrito cn cl siglliente capitulo. - -'

REDES AUTOORGANIZADAS

-_-.Estudiadas algllnas de las redes supervisadas mas lmportanles, en esle capitulo


tratarcmos el otro gran grupo de modelos neuronales, los no supervisados 0 auto-
organizados. Estos se caracterizan porque en su entrcnamiento no se presentan las
salidas objetivo que se desean asociar a cada patron de entrada. La red, a partir de un
proceso de autoorganizaci6n, proporcionant cierto resultado, el cual sent rel1ejo de las
-relaciones dc similitud existentes entre dichos. patrones de entrada. La principal
aplicaci6n de estos modelos sera la realizaci6n de agrupamiento de patroncs
._-=:::- - .(clustering), amllisis exploratorio, y visualizacion y mincria de datos (data mining) ..
_ ~ Una vez sean expuestos los aspectos generales mas relevantes de los modelos
.- ~~ :.:~ -no sllpervisados, nos ccntraremos en el estudio de uno de los mas populares, el de los
., . mapas autoorganizados de Kohonen. Asi, se introducira su arquitectura y forma de
opcracion, presentandose a continuaci6n una serie de: ejemplos que la ilustran.
Finalmente, se hara enfasis en los trabajos teoricos Ilevados a cabo sobre et'modelo
para mostrar su capacidad de proccsamiento, y se mostraran algunos de sus algoritmos
de aprendizaje. [K.oh~nen 01] es la referenci~l11as_valiosa sobre ,este model?, ..

3.1 MODELOS NEURONALES NO SUPERVISADOS


A diferencia de 10 quc ~sucedc en el aprcndizajc supcrvisado tratado hasta el
momento, en el no supervisado (autoorganizado) no cxiste ningtlll maestro externo
~ que indiquc si la red neuronal esta opcrando correcta 0 incorrectamente, pues no se
_ dispone de ninguna salida objetivo hacia la cual la red neuronal deba tender. Asi,
-= ~-. -- durante el proceso de aprendizaje la red autoorganizada debe descllbrir por sl rnisma
.=;;. rasgos comuncs, regularidadcs, corrclaciones 0 categorias cn los datos de entrada, e
incorporarlos a su estructura interna dc conexiones (pesos). Se dice en este casu quc
las neuronas dcbcn autoorgllnizarse en funci6n de los estimulos (sefiales 0 datos)
. procedentes del exterior. Para obtener resultados de calidad, la red requiere un cierto

También podría gustarte