El Conexionismo. Características, Historia y Arquitecturas

NDICE
1. Introduccin
2. Caractersticas generales del enfoque conexionista
3. Implementacin de las redes neuronales
4. Campos de aplicacin de las redes neuronales
5. Diferencias entre el conexionismo y los modelos cognitivos tradicionales
5.1. Inspiracin neuro-fisiolgica
5.2. El procesamiento es paralelo, no serial
5.3. Procesamiento y representacin de la informacin distribuido, no localista
5.4. Computacin sin reglas
5.5. Degradacin elegante. Tolerancia a fallos
6. Breve historia del conexionismo
6.1. Hasta la primera mitad de nuestro siglo
6.2. Aos cincuenta y sesenta
6.2.1. La memoria asociativa
6.2.2. El reconocimiento de patrones
6.2.3. Limitaciones de perceptrones y adalines elementales
6.3. Aos setenta y ochenta
7. Elementos de las arquitecturas conexionistas
7.1. Conceptos y elementos de la estructura conexionista
7.1.1. Las unidades
7.1.2. Las conexiones entre las unidades (las sinapsis)
7.1.3. Peso sinptico
7.1.4. El patrn de conexin
7.2. Conceptos y mecanismos bsicos para el procesamiento en las redes
conexionistas
7.2.1. Notacin utilizada para representar los elementos y mecanismos de
las redes conexionistas
7.2.2. La entrada (input) total. la regla de propagacin
7.2.3. El estado de activacin
7.2.4. La regla o funcin de activacin
7.2.4.1. Concepto y frmula general
-1-
7.2.4.2. Tipos de funciones de activacin

7.2.5. La salida de las unidades. la funcin de transferencia
7.2.5.1. Concepto y frmula general de la funcin de transferencia
7.2.5.2. Tipos de funcin de salida o de transferencia
7.2.6. Reglas de aprendizaje
7.2.6.1. Concepto y modelos de aprendizaje
7.2.6.2. Regla de Hebb (o regla del producto)
7.2.6.3. Regla de Widrow-Hoff o regla delta o regla del menor
error cuadrtico
7.2.6.4. Regla delta generalizada (o regla de propagacin hacia
atrs)
8. Algunos modelos de Redes neuronales
8.1. Redes de McCulloch-Pitts o redes de neuronas formales
8.2. Perceptrones
8.3. El Pandemonium: un modelo para el reconocimiento de patrones
8.3.1. La tarea de reconocimiento de patrones: dos explicaciones, el
modelo de plantillas y el modelo de anlisis de caractersticas
8.3.2. El pandemonium: rasgos principales
8.3.3. El pandemonium: base experimental
8.3.4. El pandemonium: dificultades
8.3.5. El pandemonium y el conexionismo
9. NETtalk: aprender a leer en ingls
10. Redes neuronales para explicar el cerebro
Bibliografa bsica en castellano
-2-
1. INTRODUCCIN
La psicologa cognitiva como paradigma psicolgico tiene una historia reciente:

aunque algunas propuestas de finales de los aos cuarenta y de la dcada de los
cincuenta se pueden considerar como primeros esbozos de esta forma de hacer
psicologa, es a partir de los aos sesenta cuando realmente se empieza a extender por el
mundo entero, compitiendo en los centros de estudio y de investigacin con el
conductismo, al que finalmente parece haber desbancado como paradigma dominante.
El conductismo supuso uno de los mayores esfuerzos de los psiclogos por hacer
de su disciplina una ciencia. Los principios metodolgicos que exigieron a la psicologa
(experimentacin, rechazo de la introspeccin, empleo de categoras explicativas
definidas operacionalmente,...) supuso un adelanto y una conquista que la mayora de
los psiclogos consideran irrenunciable. Sin embargo, estos triunfos se vieron
claramente empaados en cuestiones fundamentales: el conductismo es una psicologa
sin sujeto (psicologa del organismo vaco); su pretensin terica fundamental consiste
en explicar toda la conducta a partir del aprendizaje: son los refuerzos y los estmulos
presentes en la vida de los organismos los que determinan su modo de relacionarse con
el medio y de resolver sus problemas adaptativos. Esta paradjica renuncia al sujeto
para explicar lo que el sujeto hace se puede plantear en los trminos tradicionales de
cuerpo y mente: el conductismo da poca importancia al cuerpo y a las predisposiciones
genticas de la conducta; pero tambin rechaza la mente, prescinde de forma explcita y,
en muchos casos combativa, de la mente como elemento explicativo. La psicologa
conductista estudia la conducta para explicar la conducta.
Esta idea del ambientalismo y del organismo vaco entra en crisis en los aos
sesenta. Por un lado los etlogos y las investigaciones en neurociencias y por otro los
desarrollos de la propia la psicologa, van a cuestionar estos principios explicativos
bsicos.
Por parte de la psicologa cognitiva, la crtica se referir bsicamente al olvido
de la mente. Sabemos por qu result atractiva la psicologa cognitiva: de nuevo se
introducen en la psicologa temas como el de la atencin, la percepcin, la memoria, el
-3-
pensamiento, el lenguaje, temas que parecen irrenunciables para toda psicologa que
quiera ser completa y que el conductismo a duras penas pudo incluir en sus
investigaciones. Y como compendio de todas estas capacidades y actividades, la mente.
De nuevo la mente entra en la psicologa, y, adems, explicada con mtodos que
heredan del conductismo la pretensin de objetividad: la psicologa cognitiva rechaza
tambin la introspeccin como acceso privilegiado a lo psquico favoreciendo los
informes objetivos obtenidos en laboratorio. Simplificando, el mentalismo tradicional
quiere estudiar la mente mirando a la mente, la psicologa cognitiva quiere estudiar la
mente mirando la conducta. Considera irrenunciable la referencia a la mente como
causa de la conducta, pero tambin considera irrenunciable la observacin objetiva de la
conducta para el descubrimiento de las estructuras y procesos mentales supuestamente
elicitadores de la conducta.
Pero la diferencia con otros mentalismos no est slo del lado del mtodo (el
conductismo metodolgico del cognitivismo frente a la introspeccin del mentalismo
tradicional), sino, ms importante an, de los conceptos y categoras fundamentales con
los que intenta comprender la mente: la diferencia esencial est en la idea de mente.
La categora explicativa bsica que utiliza el paradigma cognitivo es la de
informacin: la mente es una entidad capaz de recibir, almacenar y procesar de
diversos modos la informacin, y de generar una conducta en virtud de dichas
actividades. Esta tesis primordial tiene importantsimas consecuencias en la idea de
mente y de psicologa propuesta por este paradigma. Por ejemplo, parece claro que las
actividades mentales que no son cogniciones, las actividades mentales que no consisten
en informar o describir el mundo, slo con enormes dificultades pueden entrar en el
programa de investigacin cognitivo: aqu hay que incluir fundamentalmente el mundo
de las emociones y el de la motivacin: estar triste no es tener un estado informativo
determinado, desear no es tener una representacin del mundo, aunque, evidentemente,
la informacin manejada por el sujeto tiene clara influencia tanto en la emocin y el
sentimiento como en el deseo y la voluntad. En trminos clsicos, la psicologa
cognitiva estudia la dimensin intelectual de la psque, pero no la emotiva y la volitiva.
En la forma de entender la informacin y el modo de procesar la informacin
fueron importantes tanto ciertas ideas filosficas como los avances tecnolgicos en
informtica. Por parte de la filosofa, la influencia ms clara tiene que ver con tesis
-4-
racionalistas. En primer lugar por la importancia que se le da a las representaciones: el

trato con la cosas est determinado por el conocimiento que el sujeto tiene del mundo,
conocimiento que ha de estar presente de algn modo en l para que su conducta resulte
eficaz. A esta forma vicaria de estar el mundo se le suele llamar representacin, y la
investigacin de su estatuto y peculiaridades es precisamente uno de los temas
principales en el paradigma cognitivo. Estas entidades tienen contenido semntico,
significan algo (por ejemplo, conceptos, figuras, formas, ngulos, notas o
propiedades,...) y gracias a dicho significado se refieren al mundo De este modo, las
representaciones son las unidades informativas que maneja el sujeto y cuyo
procesamiento determina la conducta. Pero las representaciones se combinan unas con
otras siguiendo reglas y el rendimiento de cada una de las facultades mentales
(percepcin, memoria, lenguaje, atencin,...) se define a partir de las distintas reglas de
transformacin y combinacin de representaciones. De este modo, reglas y
representaciones son dos de los elementos conceptuales bsicos del cognitivismo y dan
lugar al programa de investigacin caracterstico de este paradigma.
La tecnologa existente estableci el modo concreto de concebir las formas de
instanciar la representacin y de procesar la informacin. Aunque en los primeros aos
de la informtica hubo algunos intentos de construir sistemas artificiales de
procesamiento que reprodujesen algunos aspectos muy abstractos del cerebro (el
Perceptrn, por ejemplo), el modelo que sin embargo tuvo xito fue el del ordenador
Von Neumann (los ordenadores actuales son ejemplos de este modelo). Sus
caractersticas principales son las siguientes:
1. la informacin est localizada en partes fsicas concretas: si guardo en el disco
duro de mi ordenador lo que ahora estoy escribiendo, la informacin se
almacenar fsicamente en un lugar preciso, al que el ordenador sabr acceder
mediante un sistema preciso de direcciones;
2. la informacin se procesa en serie, si hago que corra un programa en mi
ordenador, las instrucciones de que ste consta se realizarn siguiendo un orden,
y una en cada unidad de tiempo, nunca dos en el mismo momento (decimos que
no hay dos procesadores, sino uno);
-5-
3. adems, la informacin con la que trabaja el ordenador es significativa al

menos en el nivel del programador: una palabra, una letra, una lnea, un ngulo,
una figura,...
4. el ordenador consta de partes fsicamente diferenciadas para tareas realmente
diferentes: grandes estructuras como la memoria, los perifricos, la unidad
lgico-matemtica, la unidad de procesamiento central...
5. la informacin est controlada desde una parte del ordenador privilegiada: la
unidad central de procesamiento, unidad que se encarga de establecer las
jerarquas en la actuacin y el control del sistema;
6. las reglas de procesamiento describen transformaciones que atienden a
restricciones lgicas, semnticas y sintcticas.
La psicologa cognitiva clsica tom estas ideas y las traslad a la psicologa: se
entendi que la mente era como un programa informtico y el cerebro como el
hardware del ordenador. Se intent describir el flujo de la informacin con la idea de
que la mente procesa la informacin, que consta de macroestructuras que la transforman
a su manera, se busc el autntico modo de darse las representaciones,... hasta que en la
segunda mitad de los aos ochenta se produce una modificacin sustancial en el
paradigma cognitivo con el desarrollo del conexionismo. En 1986 D. E. Rumelhart y J.
L. McClelland editan Parallel Distributed Processing, obra considerada como la
Biblia del conexionismo y que supuso el cambio de rumbo en la psicologa cognitiva.
Es comn sealar la radicalidad de dicho cambio, hasta el punto de que algunos autores
sealan que con el conexionismo se da realmente un cambio de paradigma. Aunque
slo tras la lectura de la totalidad de este informe sobre el conexionismo se puede
apreciar de un modo ms cabal el contraste entre estas dos formas de hacer psicologa
cognitiva, se pueden adelantar algunas importantes semejanzas y diferencias entre
ambos enfoques:
Parece claro que un primer punto comn es la referencia a la computacin:

ambas teoras entienden la mente como un sistema que procesa informacin y
responde al medio a partir de dicho procesamiento. Pero ni siquiera en este
punto, que sin duda es el que da continuidad a las dos corrientes, se da el
acuerdo:
-6-
La psicologa cognitiva clsica entiende el procesamiento como la aplicacin

de un conjunto de reglas a entidades situadas en el nivel de la psicologa
popular (creencias y deseos, bsicamente); el conexionismo entiende el
procesamiento como el clculo de las seales de salida que realizan las
unidades de una red a partir de los cmputos que realizan en funcin de los
pesos de las conexiones y de determinadas funciones matemticas que
determina la activacin de dichas unidades y las salidas correspondientes a
cada una de ellas. Para el conexionismo la computacin no se realiza sobre
entidades reconocibles desde el nivel de la psicologa popular.
Las dos teoras proponen el uso de la simulacin por ordenador para la

comprobacin de las hiptesis relativas a los procesos mentales, pero la
psicologa cognitiva clsica propone la simulacin en el ordenador
convencional y el conexionismo la simulacin mediante arquitecturas
semejantes a la del cerebro.
La psicologa cognitiva clsica propone la lgica y las reglas que imponen

restricciones semnticas y sintcticas para realizar los cmputos (como
ocurre en los programas de ordenador de la Inteligencia Artificial
tradicional);
el
conexionismo,
sin
embargo
utiliza
herramientas
matemticas, particularmente estadsticas, para la realizacin de los

cmputos que se supone realiza nuestra mente.
El objetivo de la psicologa cognitiva clsica es el descubrimiento de las reglas

que rigen los procesos mentales y de los elementos o estructuras bsicas del
procesamiento humano; el del conexionismo es el descubrimiento de redes
adecuadas para la simulacin de tareas caractersticamente mentales y de reglas
de aprendizaje eficientes.
Otro contraste que se suele destacar es el que se refiere al aprendizaje: los

modelos clsicos rechazan el asociacionismo y tienen a defender posiciones
innatistas, el conexionismo parece una vuelta al asociacionismo (en ltimo
trmino las redes neuronales no son otra cosa que asociaciones entre unidades)
y, puesto que las redes comienzan el aprendizaje con pesos establecidos
aleatoriamente, tiende a defender la idea de la mente como una tabula rasa o
papel en blanco, siendo la experiencia, el ambiente en el que se desenvuelve la
-7-
red, y no factores innatos, la que provoca la aparicin de los pesos adecuados

para el procesamiento y el almacenamiento de la informacin. Algunos autores
consideran que estas diferencias separan al conexionismo de la psicologa
cognitiva y lo aproximan al conductismo pues, aunque no exactamente en el
mismo sentido, ste tambin defiende el asociacionismo y el ambientalismo
2. CARACTERSTICAS GENERALES DEL ENFOQUE CONEXIONISTA

En psicologa, esta nueva forma de estudiar y explicar la mente y la conducta
recibe
el
nombre
de
conexionismo
(aunque
otros
prefieren
el
trmino
neoconexionismo, para distinguirlo del antiguo conexionismo propuesto por

Alexander Bain en la segunda mitad del siglo XIX, autor que tambin subray la
importancia de las conexiones entre neuronas as como la investigacin y
experimentacin fisiolgica). Dado que para este paradigma el procesamiento y el
almacenamiento de la informacin recae en amplios conjuntos de elementos simples
(las unidades de las redes conexionistas), el modelo de procesamiento conexionista se
llama tambin Procesamiento Distribuido en Paralelo (o PDP).
En Inteligencia Artificial, los mtodos de computacin basados en redes neurales
se incluyen en un campo de computacin que prescinde del enfoque algortmico
tradicional y tomo como modelo los sistemas biolgicos; esta nueva forma de
computacin incluye, entre otras, la lgica borrosa, las redes neuronales y el
razonamiento aproximado, y recibe los nombres de computacin cognitiva,
computacin del mundo real o computacin Soft, para distinguirlo del enfoque
algortmico tradicional o Computacin Hard.
En psicologa llamamos conexionismo al paradigma que utiliza redes neuronales
para comprender y explicar la vida psquica y la conducta. Las redes neuronales son
conjuntos de unidades interconectadas masivamente capaces de procesar y almacenar
informacin mediante la modificacin de sus estados. Aunque la siguiente afirmacin
exigira importantes precisiones, en general se puede decir que el psiclogo
conexionista considera que ha explicado un fenmeno psicolgico (el reconocimiento
de formas, la produccin de lenguaje, la memoria,...) cuando el modelo neuronal que
-8-
construye se comporta del mismo modo que los seres humanos cuando realizan la
misma tarea. No hay que olvidar que el conexionismo participa de una idea comn con
la psicologa cognitiva clsica: para la psicologa cognitiva (tanto la clsica como el
conexionismo) la mente es un sistema capaz de procesar informacin, un sistema
capaz de recibir seales de entrada, almacenar informacin y provocar informacin de
salida a partir la informacin de entrada, la informacin almacenada y los mecanismos
de cmputo. Dada esta suposicin de que los fenmenos mentales y la conducta son
consecuencia de elementos internos al sujeto, el conexionismo considera adecuada la
explicacin cuando la red que construye es capaz de realizar, a partir del vector de
entrada, los distintos cmputos que provocan el vector de salida deseado.
Los elementos caractersticos presentes en la mayora de los modelos
conexionistas son los siguientes:
1.
La red es un conjunto de unidades de procesamiento (neuronas) muy

simples.
2. Dichas unidades interactan entre s mediante las conexiones que los

asocian.
3. Los estmulos que afectan a las unidades de entrada se expresan en trminos
cuantitativos.
4. Toda unidad de la red viene definida por un nivel de activacin expresado
de forma cuantitativa.
5. Toda conexin viene caracterizada por un valor de fuerza del trazo o peso de
la conexin, tambin expresado de forma cuantitativa.
6. El procesamiento y almacenamiento de la informacin se realiza de forma
paralela y distribuida.
7. Existen reglas o funciones que computan la informacin en distintos
niveles del procesamiento (para la modificacin del nivel de activacin a
partir de las entradas, para la produccin de la salida a partir del nivel de
activacin,...).
8. Existen reglas o funciones de aprendizaje que le permiten a la red
modificar los pesos de las conexiones para acomodar de modo cada vez ms
perfecto la informacin de entrada a la salida requerida.
-9-
9.
La funcin de cada unidad es simplemente realizar clculos con las

entradas que reciben y producir la informacin que envan a las unidades con
las que estn conectadas.
10. Las seales de salida que emite la red se expresan en trminos

cuantitativos.
11. Dado que toda la actividad de la red no es otra cosa que clculos o
transformaciones de nmeros, se puede afirmar que en realidad la red neural
es un dispositivo para computar una funcin, un sistema capaz de
transformar la informacin de entrada en informacin de salida. La funcin
presente en la red y que realiza el cmputo es bsicamente el patrn o
conjunto de pesos sinpticos de las unidades.
3. IMPLEMENTACIN DE LAS REDES NEURONALES.
Las redes neuronales suelen implantarse en los ordenadores tradicionales,

ordenadores seriales con arquitectura Von Neumann. Pero, naturalmente, las mquinas
ms adecuadas para este tipo de sistemas de computacin son aquellas que reproducen
en su arquitectura la propia arquitectura de la red. Las mquinas ms conocidas son los
neurocomputadores y los neurochips.
Neurocomputadores: constan de un conjunto de procesadores conectados entre

s y que operan concurrentemente. Por ejemplo, el MARK IV est formado por
un conjunto de procesadores Motorola 68020 asociados cada uno de ellos a un
coprocesador matemtico, es capaz de simular hasta 256.000 neuronas y
5.500.000 sinapsis, y puede alcanzar una velocidad de 5.000.000 de
interconexiones por segundo. El ANZA Plus puede simular redes de hasta
1.000.000 de neuronas y 15.000.000 de conexiones, a velocidades de 1.500.000
conexiones por segundo.
- 10 -
Neurochips: en este caso las redes neuronales se implementan en o uno o varios

circuitos
integrados
especficos.
Soportan
menos
neuronas
que
los
neurocomputadores, pero la velocidad es muy superior que en los

neurocomputadores pues las interconexiones entre neuronas se encuentran
dentro del propio chip. No son productos comerciales y los encontramos
fundamentalmente en las universidades y los centros de investigacin. Un
ejemplo de estas mquinas es el chip N64 de Intel, que incluye 64 neuronas,
10.000 sinapsis y cuya velocidad de procesamiento es de 2.500 conexiones por
segundo.
Neurocomputadores de propsito especial: las mquinas anteriores son de

propsito general, pero existen tambin algunas mquinas que han sido
diseadas para implementar un modelo especfico de red neuronal.
4. CAMPOS DE APLICACIN DE LAS REDES NEURONALES
La mayora de los modelos existentes tienen que ver con el reconocimiento de

patrones: buscar un patrn a partir de una serie de ejemplos, clasificar patrones,
identificar un estmulo, reconstruir un patrn a partir de datos distorsionados o
incompletos,... Muchas redes neuronales trabajan a partir de datos sensoriales y otras a
partir de datos introducidos por el usuario.
Los campos de aplicacin son fundamentalmente la psicologa (en los campos de
percepcin, memoria, pensamiento, aprendizaje y lenguaje) y la Inteligencia Artificial,
aunque tambin encontramos ejemplos en biologa (modelos de retina y del neocortex,
por ejemplo).
Las aplicaciones obtenidas en Inteligencia Artificial se utilizan en muchos
dominios: por ejemplo, en medicina (diagnstico y tratamiento a partir de datos
- 11 -
obtenidos mediante electrocardiograma, encefalograma, anlisis sanguneo, ...), el

ejrcito (clasificacin de las seales de radar; creacin de armas inteligentes,
reconocimiento y seguimiento en el tiro al blanco,...), la empresa y la industria
(reconocimiento de caracteres escritos, optimizacin de plazas y horarios en lneas de
vuelo, construccin de robots y sistemas de control,).
5. DIFERENCIAS ENTRE EL CONEXIONISMO Y LOS MODELOS

COGNITIVOS TRADICIONALES
Como consecuencia de las caractersticas citadas en la seccin 2, el conexionismo

presenta importantes diferencias respecto de los modelos que encontramos en la
psicologa cognitiva clsica. Veamos alguna de ellas.
5.1. Inspiracin neurofisiolgica.

La psicologa cognitiva clsica no daba importancia a la base orgnica de la vida
mental. Cabe recordar que incluso sus propios postulados bsicos le llevaron a
considerar que la lgica existente en los procesos mentales se puede comprender y
explicar con independencia de su realizacin en un sistema fsico (esto es lo que afirma
la tesis del funcionalismo, la teora filosfica de la mente compartida por los psiclogos
cognitivos). El conexionismo, sin embargo, toma al cerebro como modelo de
procesamiento y su inspiracin neurofisiolgica aproxima la psicologa a la biologa. Si
en la psicologa cognitiva clsica la metfora dominante era la metfora del ordenador,
ahora, en el conexionismo, la metfora es el cerebro: la primera psicologa clsica
consideraba que podamos entender el comportamiento de la mente comprendiendo el
comportamiento del ordenador tipo Von Neumann, sin embargo el conexionismo
afirma que podemos entender el comportamiento de la mente si comprendemos el
comportamiento del cerebro humano. Con el conexionismo la Inteligencia Artificial, la
- 12 -
Psicologa y la Biologa se convierten en disciplinas ms prximas que lo que permita

el enfoque de la psicologa cognitiva clsica. Claro est que esta aproximacin es
interesante desde el punto de vista de la unidad de las ciencias y la posicin materialista
dominante, pero tambin puede ser una dificultad para los que quieren defender la
posibilidad de la psicologa como ciencia independiente; de hecho las posiciones
filosficas de los conexionistas en el tema del estatuto de la mente tienden a ser
reduccionistas o a defender el materialismo eliminativo (en lo esencial, tesis segn la
cual los estados mentales no tienen autntica realidad, son epifenmenos y, por lo mismo,
no pueden ser causas de las conductas).
Aunque tambin existen redes neuronales que intentan ser modelos de los
procesos reales de partes del cerebro, las que interesan a la psicologa no intentan imitar
el comportamiento del sistema nervioso sino de la mente. El conexionismo quiere ser
una teora psicolgica no una teora fisiolgica. Sin embargo, s se puede hablar de
inspiracin biolgica en los modelos mentales propuestos. Las redes neuronales
intentan reproducir las caractersticas principales del comportamiento del cerebro,
particularmente de su estructura fisiolgica bsica, la neurona, y de su agrupacin en
estructuras complejas o redes de neuronas. A continuacin vamos a fijarnos en los
aspectos ms elementales de las redes neuronales biolgicas, aspectos que las redes
conexionistas intentan emular.
Las unidades bsicas del sistema nervioso son las neuronas. Estas unidades se
conectan unas con otras formando redes extraordinariamente complejas. La principal
funcin de las neuronas es recoger seales de diversas fuentes, transformarlas y
producir seales de salida que transmiten a otras neuronas u otras partes del organismo.
De este modo, en el cerebro el procesamiento de la informacin es paralelo y
distribuido, paralelo en tanto que las seales recibidas las procesan simultneamente
millones de conexiones diferentes, y distribuido porque la responsabilidad del
almacenamiento de la informacin no recae sobre una unidad (una neurona) sino sobre
amplios conjuntos de unidades.
Los rganos sensoriales reciben seales del exterior y mediante elementos
transductores convierten las distintas energas que reciben en seales nerviosas. La
informacin fluye desde los nervios sensoriales y, recorriendo estaciones intermedias
como la mdula espinal, el tronco cerebral, cerebelo, etc., llega hasta la corteza cerebral.
- 13 -
A su vez, del cerebro parte la informacin por los nervios motores hasta los msculos u
otros rganos y constituye la respuesta del organismo al medio.
En las neuronas cabe destacar las siguientes partes fundamentales:
El cuerpo celular o soma, cuya funcin principal es procesar las seales que
recibe la unidad y enviar la informacin de salida hacia otras unidades;
El axn: es la fibra ms gruesa y larga de todas las que se originan en el cuerpo
celular; mediante los axones las neuronas se conectan unas con otras; su funcin
es transmitir la informacin generada en el cuerpo celular a las otras clulas;
Las dendritas: son pequeas extensiones del soma y su funcin es recibir la
informacin.
De este modo, las dendritas son los canales receptores de la informacin, el soma
es la unidad de procesamiento y el axn el canal transmisor de la informacin.
La informacin se traslada a travs del axn y las dendritas en la forma de seales
elctricas. Sin embargo, el paso de la informacin de una unidad a otra no tiene la forma
de cambios elctricos sino qumicos. La conexin entre el axn de una neurona y las
dendritas de otra recibe el nombre de sinapsis. Las neuronas no estn en contacto fsico
completo pues existe un pequeo espacio en la sinapsis (el espacio intersinptico).
Cuando el impulso elctrico llega al final del axn, se produce la liberacin de unas
sustancias qumicas denominadas neurotransmisores. Los neurotransmisores se
difunden en el espacio intersinptico y se unen a los extremos de las dendritas en ciertos
lugares denominados receptores. En estos receptores se producen cambios qumicos que
provocan modificaciones elctricas en la neurona y el flujo elctrico o impulso
nervioso.
Por su importancia en las redes neuronales conexionistas, es importante recordar
tambin dos hechos ms que se dan en las redes neuronales biolgicas:
Los efectos de los neurotransmisores sobre las dendritas pueden ser excitadores o
inhibidores de forma que para calcular la influencia final del conjunto de
entradas sobre una neurona es preciso sumar y restar sus estmulos excitadores e
inhibidores, respectivamente.
- 14 -
Para que la neurona responda enviando una seal elctrica a lo largo del axn (el
impulso nervioso) es necesario que los estmulos que recibe de otras unidades
alcancen un cierto nivel elctrico (el umbral del impulso elctrico o intensidad
mnima del estimulo que es suficiente para provocar el impulso nervioso); de este
modo, la respuesta de la clula ante los estmulos tiene la forma de todo o nada.
Cuando se habla de la inspiracin biolgica de los modelos conexionistas se
quiere sealar que estos modelos intentan reproducir gran parte de los aspectos
existentes en las redes neurolgicas biolgicas y descritas ms arriba. Sin embargo hay
otros aspectos del sistema nervioso que no se intentan reproducir. Citemos algunos:
Por ejemplo, el relativo al nmero de unidades de procesamiento: en todo el

sistema nervioso central hay del orden de 1011 neuronas y de 1015
interconexiones, mientras que las redes conexionistas generalmente constan como
mucho de varias centenas de unidades y de varios miles de conexiones.
En las redes conexionistas los pesos entre las conexiones se establecen

inicialmente de forma aleatoria y se van corrigiendo mediante el aprendizaje; esto
supone, traducido a los trminos tradicionales, primar el ambientalismo y el
aprendizaje frente a los componentes innatos. En el cerebro la importancia del
aprendizaje para el desarrollo de las sinapsis no se puede obviar, pero tampoco se
puede negar la importancia de factores innatos, factores que determinan los
recursos fisiolgicos necesarios para el procesamiento e incluso las rutas en el
establecimiento de las conexiones.
En el caso de las redes biolgicas, el aprendizaje da lugar a modificaciones en

las fuerzas de conexin, pero tambin a modificaciones de las estructuras mismas
de interconexin (por ejemplo, de las unidades conectadas y de los tipos de
conexiones); en las redes conexionistas el aprendizaje acta sobre los pesos de las
conexiones pero no sobre las estructuras mismas.
5.2. El procesamiento es paralelo, no serial.

A pesar de que los desarrollos tcnicos permitieron incrementar la velocidad de
los ordenadores, los resultados de stos en tareas aparentemente sencillas como el
- 15 -
reconocimiento de formas necesitaban un tiempo de ejecucin muy alto y sus resultados

no eran muy buenos. El contraste con la eficacia del cerebro se hizo cada vez ms
manifiesto pues aunque la velocidad de procesamiento de cada neurona es muy inferior
a la del ordenador (la velocidad de procesamiento en los ordenadores se mide en
nanosegundos y la de las neuronas en milisegundos o incluso centsimas de segundo) el
cerebro humano es capaz de realizar ciertas tareas en un tiempo inferior que el
ordenador. Los programas construidos por la Inteligencia Artificial tradicional resultan
muy buenos para tareas que exigen la repeticin del mismo proceso sobre los datos de
entrada (millones de cmputos recursivos), lo que les permite a las mquinas
aventajarnos en tareas como la de clculos matemticos; sin embargo el cerebro parece
ms eficaz que los ordenadores tradicionales en tareas tpicas de los seres vivos:
reconocer un enemigo en una ambiente que no presenta su figura con precisin, recordar
instantneamente formas de huida o aproximacin, comprender una frase, reconocer un
rostro, seguir en tiempo real el movimiento de un objeto en el espacio, ...; hay tareas
para las cuales un nio de tres aos resulta ms eficiente que los ordenadores ms
potentes y los programas ms sofisticados.
La explicacin de la eficacia del cerebro para este tipo de tareas se encuentra en el
hecho de que para el procesamiento de la informacin el cerebro utiliza
simultneamente millones de neuronas y el ordenador convencional utiliza uno (o unos
pocos) procesadores. En un procesamiento serial en cada momento slo se realiza una
operacin, en un procesamiento en paralelo en cada momento se realizan tantas
operaciones como unidades participan en el procesamiento completo. sta es
precisamente una de las caractersticas principales del cerebro: en el cerebro cada
unidad, o pequeas poblaciones de unidades, participan en el procesamiento conjunto de
la informacin, y aunque cada una de ellas, tomadas por separado, tarden en realizar sus
procesamientos correspondientes, en conjunto la actividad es ms eficaz. Las redes
neuronales nos permiten reproducir ms adecuadamente algunos tipos de tareas porque
reproducen el procesamiento en paralelo caracterstico del cerebro, lo que otorga a las
redes una considerable ventaja en velocidad sobre un ordenador convencional pues la
multitud de sinapsis de cada nivel ejecutan simultneamente muchos pequeos
cmputos, en lugar de hacerlo en laboriosa sucesin como en los ordenadores
tradicionales.
- 16 -
5.3. Procesamiento distribuido.

El carcter distribuido de la informacin tpico de las redes conexionistas se
extiende a dos aspectos muy importantes relativos a la informacin: el procesamiento
mismo y el almacenamiento de las representaciones.
El modelo conexionista no es localista en primer lugar porque, a diferencia de lo
que ocurre en los ordenadores tradicionales, en las redes neuronales no existe la
unidad central de control, unidad que controle y coordine el conjunto de unidades
del sistema; en este modelo el procesamiento es responsabilidad de cada una de las
unidades o neuronas, cada una de ellas se encarga de cmputos parciales cuya
activacin conjunta produce la seal de salida final. Desde un punto de vista fisiolgico
estos modelos suponen que en el cerebro no existe una parte encargada de un tipo
especfico de procesamiento, sino que la actividad cerebral tiene carcter global.
La informacin se puede almacenar de dos formas: los sistemas localistas retienen
la informacin en unidades discretas: en cada unidad (por ejemplo, en cada porcin
fsica del disco duro del ordenador) se almacena una unidad informativa; en los
sistemas distribuidos cada unidad informativa se retiene en poblaciones de
individuos y cada una de ellas colabora de forma parcial en el almacenamiento de
la informacin. La ventaja de esta forma de almacenamiento es que la destruccin de
unidades en los sistemas localistas tiene un efecto ms devastador que la destruccin de
unidades en los sistemas distribuidos. En los modelos distribuidos de memoria cada
unidad informativa se representa a partir de amplias poblaciones de unidades, pero, a la
vez, cada unidad de memoria colabora en el almacenamiento de varias unidades
informativas. No se puede dar interpretacin cognitiva a cada una de las unidades o
neuronas; la interpretacin cognitiva (el decir, por ejemplo, que recuerda y relaciona
conceptos) es algo vlido slo para la red en su conjunto, y en todo caso para los
patrones de los pesos de las unidades.
Podemos apreciar qu se quiere indicar con la idea del carcter distribuido del
almacenamiento y procesamiento de la informacin con dos ejemplos muy sencillos:
- 17 -
los relojes digitales suelen expresar la informacin horaria mediante segmentos;

en este ejemplo, con los siete segmentos siguientes podemos representar diez
nmeros, dependiendo de los que estn activados y de los que estn desactivados
(es obvio en realidad que se puede representar ms informacin, por ejemplo,
adems de nmeros, letras); se puede observar que el dao en una de las unidades
afectara a la capacidad del sistema para representar la hora, pero no de un modo
completo, a la vez que est claro tambin que cuanto ms distribuida sea la
forma de almacenar la informacin (cuantos ms segmentos emplesemos)
menos se resentira el sistema:
las matrices nos pueden servir de ejemplo para mostrar cmo un conjunto de
elementos puede procesar distintos conjuntos de datos (distintos vectores de
entrada) para producir cada uno de ellos la salida correspondiente (distintos
vectores de salida). Por ejemplo, la matriz:
1 0
0 1
Nos permite emparejar los vectores de entrada (1,1) y (1,-1) con los vectores de
salida (-1,1) y (-1,-1):
La entrada +1 +1 produce: 1x -1 + 1x 0
1x 0 + 1x 1 = -1 1
La entrada +1 -1 produce: 1x -1 + -1x 0
1x 0 + -1x 1 = -1 -1
Por cierto que sta es precisamente una de las curiosas eficacias de las redes
conexionistas: un mismo patrn de pesos (que se puede representar mediante matrices)
- 18 -
permite emparejar distintos vectores de entrada a sus vectores de salida

correspondientes.
5.4. Computacin sin reglas.

En las redes conexionistas la computacin no se rige por reglas. En los modelos
cognitivos tradicionales el procesamiento consiste en la manipulacin de smbolos
mediante el empleo de reglas. Los smbolos tienen una interpretacin semntica (son
conceptos, propiedades, clases, frases, lneas, ngulos, recuerdos,...) y las reglas
describen el modo de transformar dichos smbolos en conjuntos significativos ms
amplios. Para el conexionismo, sin embargo, la computacin no es otra cosa que el
clculo de las salidas a partir de informacin de entrada, y los tres elementos, (entradas,
salidas y clculos) expresados en trminos cuantitativos. El comportamiento general de
la red puede parecer comportamiento guiado por reglas, pero en realidad en sus
componentes no hay otra cosa que elementos de cmputo puramente cuantitativos. El
sistema se sita en un estado o en otro a partir de la modificacin de los pesos y la
activacin o inhibicin de cada unidad. Dado que las redes conexionistas son
bsicamente modelos de aprendizaje, la no utilizacin de reglas se traslada tambin al
campo del aprendizaje. En la psicologa cognitiva clsica aprender una destreza
psicolgica (la competencia lingstica, la capacidad para narrar un cuento, la capacidad
matemtica, ...) se describa como la adquisicin o desarrollo de reglas capaces de
organizar las salidas correspondientes (frases significativas, narracin de cuentos,
clculos matemticos, ...) a partir de los datos almacenados en la memoria; en el
conexionismo el aprendizaje no es otra cosa que la modificacin de los pesos de las
conexiones para la transformacin de los vectores de entrada en los vectores de salida
pertinentes. Mediante funciones de aprendizaje adecuadas, las redes pueden modificar
los pesos de modo que tras sucesivas presentaciones de los vectores de entrada
representativos de una clase de datos (fonemas, caracteres escritos, figuras
bidimensionales, ondas elctricas,...) la red va afinando sus respuestas hasta que se
logran aciertos estadsticamente aceptables en el emparejamiento de los vectores de
entrada con los vectores de salida pertinentes.
Podemos apreciar la diferencia de enfoques si nos fijamos en una de las tareas
para la que las redes neuronales parecen ms pertinentes, el reconocimiento de patrones;
- 19 -
el reconocimiento de patrones no es otra cosa que la capacidad para identificar ejemplos

de un mismo modelo, para clasificar distintos estmulos como siendo del mismo tipo o
categora. Los sistemas de reconocimiento tradicionales, los que aparecen en la
psicologa cognitiva clsica y en la Inteligencia Artificial tradicional, exigan elaborar
reglas explcitas que recogiesen los aspectos esenciales que el sistema deba captar. Con
las redes neuronales podemos conseguir que el sistema reconozca patrones sin
presentarle dichas reglas explcitas de reconocimiento, basta con presentarle los
ejemplos adecuados y entrenar a la red. Esta peculiaridad lleva tambin a caracterizar a
las redes neuronales como sistemas dinmicos autoadaptativos:
autoadaptativos porque ellas mismas, sin que exista una unidad central rectora,
son capaces de ajustar sus unidades de procesamiento o neuronas de modo
conveniente para producir el vector de salida requerido;
dinmicos porque pueden cambiar constantemente para adaptarse a las nuevas

condiciones que imponen los nuevos conjuntos de datos o vectores de entrada
que se le presentan.
El aprendizaje no es otra cosa que la modificacin de los pesos o fuerzas de
conexin existentes entre las distintas unidades, no la adquisicin de reglas o algoritmos

explcitos. Se supone que la red ha aprendido cuando alcanza un patrn de pesos que
provoca, para las entradas del mismo tipo, las salidas deseadas. Los problemas ms
importantes de la persona que disea la red se refieren a la obtencin de la arquitectura
apropiada (las capas y unidades necesarias, las conexiones entre ellas, las funciones de
activacin y transferencia que ha de utilizar) y de un buen algoritmo de aprendizaje que
le permita a la red discriminar los diferentes tipos de estmulos.
Una consecuencia de la ausencia de reglas explcitas y que merecera la pena
estudiar con detalle es que con este sistema de procesamiento conseguiremos que el
sistema o red reconozca las semejanzas entre entidades, pero no seremos capaces de
describir en qu consisten dichas semejanzas.
- 20 -
5.5. Degradacin elegante. Tolerancia a fallos.

En estas redes, cuando algunas unidades dejan de funcionar adecuadamente su
efecto no es catastrfico, afecta slo a la eficacia y precisin de la red en una medida
mayor o menor dependiendo de la cantidad de unidades deterioradas. Esto no ocurre con
los modelos tradicionales en donde la prdida de alguna de las unidades de memoria
provocaba efectos importantes (realmente catastrficos) en el sistema. Otra dimensin
de la degradacin elegante es que la recuperacin de la memoria en redes distribuidas es
capaz de darse an en los casos en que la informacin que se introduce para la bsqueda
sea confusa, incompleta e incluso errnea (lo que se suele llamar tolerancia a fallos
respecto de los datos). Esta es una caracterstica de las redes y tambin del
funcionamiento real de nuestra memoria: por ejemplo, cuando intentamos recordar el
nombre de una persona utilizando descripciones de sus caractersticas, somos capaces
de dar con el nombre aunque no recordemos todas sus propiedades y tambin aunque
algunas de estas descripciones no correspondan en realidad a dicho sujeto. La razn por
la que las redes son tolerantes a fallos es la existencia de un cierto grado de redundancia
en el procesamiento y almacenamiento de la informacin, es decir su carcter
distribuido y paralelo. En los ordenadores tradicionales y en los modelos cognitivos
basados en la arquitectura de dichos ordenadores cada unidad de informacin tiene una
localizacin y direccin precisa, por lo que los fallos de los distintos elementos que
intervienen en el procesamiento tienen consecuencias ms graves que en los modelos
conexionistas.
6. BREVE HISTORIA DEL CONEXIONISMO
6.1 Hasta la primera mitad del siglo XX

Las primeras aportaciones destacables provienen de la neurofisiologa: Luria,
Lashley y Hebb se enfrentaron a las doctrinas dominantes a finales del siglo XIX,
doctrinas que defendan el carcter localista del almacenamiento y de las funciones del
- 21 -
cerebro; frente a estas doctrinas defendieron una concepcin distribuida de los sistemas
de procesamiento y memoria del cerebro. Sus investigaciones demostraron que la
especializacin poda darse en relacin a grandes regiones del cerebro, pero en absoluto
en las neuronas singulares. Lashley llev tan lejos la hiptesis distribuida que postul el
carcter equipotente del cerebro (cualquier regin del cerebro puede realizar cualquier
tarea determinada).
De los tres autores citados es sin duda Donald Hebb el ms importante en
relacin con desarrollo del conexionismo, particularmente a partir de su libro publicado
en 1949 La organizacin de la conducta. Hebb defendi la conexin entre psicologa y
fisiologa, propuso la tesis del carcter distribuido de la informacin en unidades
informativas y formul uno de los primeros procedimientos de aprendizaje
(procedimiento que algunos autores creen que ya haba sugerido Santiago Ramn y
Cajal): si un conjunto de neuronas conectadas entre s se activan repetidamente, sus
sinapsis aumentan su conductividad, o de otro modo: conjuntos de neuronas
sincrnicamente
activadas
tienden
organizarse
en
conjuntos
conectados.
Estas ideas de Hebb han resultado particularmente fecundas. Por ejemplo, ya en

1954 Albert M. Uttley demostr en The Classification of Signals in the Nervous System
que redes entrenadas con el modelo de aprendizaje hebbiano eran capaces de reconocer
patrones simples binarios (111000, 110111,...) en clases (por ejemplo las que
comienzan por 110).
El siguiente hito reseable se refiere a la aportacin del neurofisilogo Warren
McCulloch y el matemtico Walter Pitts: en 1943 publicaron A logical calculus of the
ideas immanent in nervous activity. El artculo de McCulloch y Pitts fue importante,
entre otras razones, porque en l se trata al cerebro como a un organismo
computacional. Propusieron la construccin de mquinas de computar con una
estructura abstracta similar a la que creyeron encontrar en las redes neuronales
biolgicas, aunque, a diferencia de las redes conexionistas actuales, dirigidas por un
enfoque lgico y no uno probabilstico. Dieron ms importancia al aprendizaje que a
disposiciones innatas en la formacin de las conexiones entre las unidades, y
demostraron que redes neuronales sencillas conectadas entre s mediante sinapsis
excitadoras e inhibidoras y asignando un valor umbral para la activacin de la unidad de
salida, eran capaces de representar adecuadamente las leyes lgicas fundamentales. A
estas neuronas sencillas las llamaron neuronas formales; actualmente a las redes
constituidas por dichas unidades se las suele llamar redes de McCulloch-Pitts. Aunque
- 22 -
intentaron modelar aspectos elementales de las neuronas biolgicas, las neuronas

formales eran simplemente conmutadores lgicos, semejantes a los circuitos lgicos que
se pueden crear mediante interruptores y por los que puede fluir la corriente elctrica.
En 1947 McCulloch y Pitts escribieron How We Know Universals: The Perception
of Auditory and Visual Formas, obra en la que trataron el problema del reconocimiento
de patrones o problema del reconocimiento de variaciones de un mismo patrn. En esta
obra presentaron dos redes neuronales. La primera tena como objetivo reconocer
propiedades comunes en distintos individuos (propiedades invariantes del mismo
patrn); la segunda era capaz de generar el patrn a partir de ejemplos de dicho patrn.
Hicieron una interpretacin biolgica de estas redes suponiendo que las redes
neuronales de los crtices auditivo y visual eran redes del primer tipo y que el colculo
superior (involucrado en el control del movimiento de los ojo) era una red del segundo
tipo.
6.2 Aos cincuenta y sesenta.

En la dcada de los cincuenta las redes neuronales se utilizaron para dar cuenta
de dos capacidades importantes de la mente humana: la memoria asociativa y el
reconocimiento de patrones.
6.2.1. La memoria asociativa.
Empecemos con la memoria asociativa: la asociacin entre recuerdos es un
hecho conocido desde hace mucho tiempo; cuando dos recuerdos tiene algn aspecto
comn quedan ligados entre s de tal modo que uno puede evocar a otro.
El primer trabajo en este campo corresponde a Wilfrid K. Taylor con su obra de
1956 Electrical Simulation of Some Nervous System Functional Activities. Taylor
propone una red en tres capas: una con unidades sensoriales, otra con unidades
asociativas y la ltima con unidades motoras. Los pesos de las sinapsis son modificables
y las unidades ya no son neuronas biestables (todo-o-nada), al modo de las neuronas
formales de McCulloch-Pitts, sino dispositivos analgicos. El procedimiento de
- 23 -
entrenamiento es la regla de Hebb: se aumentan los pesos activados si se activan las

unidades motoras deseadas. Inicialmente se le presentan pares de patrones; de ese par de
patrones uno provoca una respuesta precisa en las neuronas motoras y el otro no;
mediante el aprendizaje, la red consigue que estos ltimos patrones, los que
originariamente no provocaban la respuesta en las neuronas motoras, ahora s lo hagan.
En este sentido se puede decir que la red consigue asociar patrones sensoriales
diferentes, y muestra un comportamiento parecido al condicionamiento pavloviano.
Adems en su red, la memoria asociada se almacena en el patrn de pesos y por lo tanto
de forma distribuida.
En trabajos posteriores Taylor construy una red ms elaborada, con sinapsis que
volvan de las unidades motoras a las unidades sensoriales y con sinapsis entre unidades
de la misma capa. Esta red era ms eficaz en la asociacin de estmulos apareados y se
mostr tambin capaz de discriminar patrones (recogiendo por tanto las capacidades de
los perceptrones y adalines). En 1964 (Cortico-Thalamic Organization and Memory)
aventur incluso una interpretacin biolgica de su red, sugiriendo que las reas de
asociacin
de
la
corteza
cerebral
el
tlamo
contenan
esas
redes.
Las redes anteriores asocian indirectamente el elemento a y el elemento b al estar

asociados ambos con c (como ocurre con el condicionamiento clsico); estudios de los
aos sesenta y setenta mostraron que estas redes pueden servir tambin para representar
la memoria asociativa accesible o direccionable por el contenido; llamamos memoria
accesible por el contenido a aquella que nos permite recordar tems a partir de
descripciones parciales de sus contenidos o caractersticas, incluso cuando alguna de
estas descripciones es errnea. Y precisamente por esta capacidad actualmente a las
redes asociativas se las llama tambin memorias asociativas direccionables o
accesibles por contenido (ACAMs).
6.2.2. El reconocimiento de patrones.

En cuanto al reconocimiento de patrones, cabe destacar lo siguiente: en esencia
el problema consiste en explicar cmo se puede reconocer que individuos distintos
pertenecen, no obstante, al mismo tipo. Un caso tpico de reconocimiento de patrones es
nuestra capacidad de interpretar como A signos que sin embargo son distintos (A,
- 24 -
A, A, A, A, A), pero evidentemente esta capacidad aparece tambin en otros

contextos: somos capaces de reconocer el rostro de una persona en distintas condiciones
de luminosidad e incluso aunque cambie su peinado, su maquillaje o se deje barba; un
animal debe reconocer los individuos de otra especie como siendo la presa con la que se
ha
de
alimentar,
su
posible
pareja
para
la
reproduccin,...
Ya se ha citado la aportacin de McCulloch y Pitts en este campo, por lo que ahora

podemos referirnos a otros autores, comenzando por John von Neumann: en su escrito
de 1956, Probabilistic Logics and the Synthesis of Reliable Organisms from Unreliable
Components, mejor las redes McCulloch-Pitts creando redes confiables: en las redes
originales de McCulluch-Pitts cada unidad actuaba representando una unidad
informativa y lo haca con la lgica todo-o-nada. Esta redes no son muy confiables pues
el dao en una unidad puede tener efectos catastrficos en la computacin. Para resolver
esta dificultad Von Neumann introdujo la redundancia en la red: una unidad
informativa no se representa mediante una neurona sino mediante la activacin
sincrnica de un cmulo de neuronas (por ejemplo se puede representar 1 cuando ms
de la mitad est activada y 0 en caso contrario). Von Neumann prob que estas redes
redundantes pueden
realizar clculos aritmticos
de
modo muy confiable.
En 1963 Shamuel Winograd y Jack D. Cowan escribieron Reliable Computation in

the Presence of Noise. En esta obra recogieron y mejoraron las ideas de Von Neumann,
defendiendo una propuesta an ms distribuida del conocimiento: en las redes de
Winograd-Cowan un bit o unidad de informacin se representaba mediante varias
neuronas, como en las redes de Von Neumann, pero, y esta era la novedad, cada
neurona representaba parcialmente varios bits.
La figura de Frank Rosenblatt es imprescindible par entender el desarrollo del
conexionismo. En sus obras de 1958 The Perceptron, a Probabilistic Model for
Information Storage and Organization in the Brain y de 1962 Principles of
Neurodynamics, defiende la importancia de las redes neuronales para la computacin y
de los mtodos probabilsticos ms que de los lgicos en el uso de las redes, mejora la
regla de aprendizaje de Hebb y presenta una red a la que llam Perceptrn. En su
versin ms sencilla, el Perceptrn consta de dos capas: la de entrada o capa con
unidades sensoriales y, conectada con la anterior, la de salida o capa con unidades
motoras. Las unidades eran unidades McCulloch-Pitts (podan tomar simplemente los
valores activado-desactivado). Inicialmente los pesos de las conexiones eran aleatorios,
- 25 -
y el aprendizaje consista en la modificacin de los pesos de tal forma que dada una
entrada se consiguiese la salida deseada. Rosenblatt encontr un sencillo procedimiento
de entrenamiento con el cual la red poda dar con los pesos requeridos para tal tarea. El
Perceptrn era capaz de reconocer patrones sencillos y de generalizar similitudes entre
patrones. Pero a pesar de las esperanzas que muchos investigadores en este tipo de red,
pronto se vio que tena serias limitaciones, que se ejemplificaron en la imposibilidad de
la red para resolver una tarea lgica aparentemente sencilla: la del problema de la
disyuncin exclusiva. En trminos ms tcnicos, se vio que era incapaz de clasificar
clases o patrones no separables linealmente.
En este breve recorrido de la historia del conexionismo es preciso referirse a la
trayectoria de Marvin Minsky, compaero de Rosenblatt en el instituto. En sus
primeros escritos mantuvo algunas tesis que, claramente, son un antecedente del
conexionismo:
carcter relativamente indiferenciado del cerebro pues aunque se dae una parte
otras pueden realizar su funcin, particularmente si el dao es en una poca
temprana;
importancia del aprendizaje en la organizacin de las redes neuronales;
importancia del estudio del cerebro y del comportamiento de las neuronas para
la construccin de una mquina que reproduzca aspectos sustanciales de la
mente humana.
Fue l precisamente uno de los primeros en afirmar que el cerebro no es otra cosa
que una mquina de carne. Estas tesis pertenecen a sus primeras investigaciones
(con las que consigui el grado de doctor). Sin embargo, pronto abandon este
planteamiento conexionista defendiendo la idea de que es posible comprender la mente
humana prescindiendo del estudio del cerebro y atendiendo exclusivamente a sus
mecanismos o comportamiento. Como se sabe, esta tesis es uno de los principios
fundamentales de la psicologa cognitiva tradicional, por lo que, en resumen, se podra
decir que las primeras propuestas de Minsky favorecieron las tesis conexionistas y las
segundas (por las que es clebre) las tesis de la psicologa cognitiva clsica.
Otra importante y curiosa aportacin fue la de O. Selfridge con su obra de 1959
Pandemonium: A paradigm for learning, en donde llam Pandemonium a su modelo
de procesamiento distribuido y paralelo de la informacin. Su propuesta es importante
- 26 -
porque su modelo para el reconocimiento de patrones descansa en el procesamiento

interactivo realizado por un conjunto de unidades de procesamiento; y es tambin
curiosa porque en vez de hablar de neuronas para referirse a las unidades de
procesamiento les dio el nombre de demonios (incluso en los libros que explican el
modelo se los dibuja como pequeos diablillos). Es habitual presentar este modelo
como un intento de comprender el reconocimiento de las letras del alfabeto. Ms
adelante se presenta el Pandemonium con cierto detalle.
Bernard Widrow y Marcial Hoff (Adaptive Switching Circuits,1960) inventaron
una variante del Perceptrn y un nuevo procedimiento de aprendizaje, la regla delta del
aprendizaje. Llamaron adaline a su red (por adaptive linear neuron, neurona lineal
adaptativa). En realidad, la nica diferencia con el Perceptrn es el procedimiento de
aprendizaje o entrenamiento que utilizaron. Era tambin una red de dos capas (capa de
entrada y capa de salida) interconectas, y compuestas por unidades biestables. Su
finalidad era tambin el reconocimiento de patrones. El adaline fue la primera red
neuronal aplicada a un problema real (como filtro para eliminar los ecos en las lneas
telefnicas) y se ha usado comercialmente durante varias dcadas.
6.2.3. Limitaciones de perceptrones y adalines elementales.
Marvin Minsky y Seymour Papert, publicaron en 1969 Perceptrons: An
introduction to Computational Geometry: en este libro estudiaron los perceptrones y
demostraron que los perceptrones y adalines elementales (los que constan slo de dos
capas) eran incapaces de distinguir entre patrones tan sencillos como T y C, ni de llevar
a cabo tareas lgicas simples, como la de decidir la tabla de verdad de la disyuncin
exclusiva; probaron matemticamente que dichas redes, aunque pudiesen modificar sus
pesos mediante reglas de aprendizaje, no podan resolver ms que problemas
linealmente separables. Adems, ampliaron sus crticas conjeturando que esta dificultad
no se podra superar aadiendo unidades ocultas en redes multicapa. Esto ltimo se
demostr falso a partir de 1986, cuando se descubri la regla delta generalizada y la
validez de su uso en redes con capas ocultas. Este tipo de redes y la regla citada
permiti resolver el problema ms famoso planteado a los perceptrones y adalines, el
problema de la disyuncin exclusiva antes citado. Se suele indicar que como
consecuencia de las crticas de estos autores las autoridades americanas dirigieron sus
- 27 -
fondos a la inteligencia artificial y la psicologa cognitiva clsica, con el consiguiente

freno
de
la
investigacin
en
los
modelos
de
computacin
conexionista.
6.3. Aos sesenta y ochenta.

J. A. Anderson escribi en 1973 el artculo A theory for the recognition of items
from short memorized lists y en 1977 Neuronal models with cognitive implications. En
estos escritos present anlisis matemticos de algunas propiedades de las redes
neuronales y defendi la relevancia de las representaciones distribuidas en distintos
campos de la psicologa, por ejemplo en el del aprendizaje de conceptos; sus
investigaciones fueron tambin importantes en el campo de la memoria asociativa por
contenido y de nuevos modelos de redes.
Stephen Grossberg es uno de los ms destacados investigadores en el campo
conexionista; sus propuestas aparecen ya en los aos sesenta y continan en nuestros
das. Ha escrito muchos libros y desarrollado diversos modelos de redes (tal vez la ms
conocida es la red que propuso en 1967, Avalancha, para el reconocimiento del habla y
el aprendizaje del movimiento de los brazos de un robot); adems de realizar las
primeras investigaciones sobre el aprendizaje competitivo, subray la importancia de
los modelos conexionistas en los campos de la percepcin y de la memoria. Destaca su
libro de 1982 Studies of mind and brain.
Hofstadter (Gdel, Escher, Bach: An eternal golden braid, 1979 y Metamagical

themas, 1985) defiende la existencia de dos niveles de procesamiento, el que estudia la
psicologa cognitiva clsica (nivel estructural) y un nivel de procesamiento ms bajo, y
en el que se sitan los trabajos del conexionismo (nivel microestructural), de ah que
en ocasiones se hable del conexionismo como un enfoque que analiza la
microestructura de la cognicin para comprender los fenmenos cognitivos.
Es en los aos ochenta cuando el conexionismo empieza a tener un xito
considerable, y en esta trayectoria es fundamental la obra de G. E. Hinton, y J. A.
Anderson editada en 1981 Parallel models of associative memory, y la obra de J. A.
- 28 -
Anderson de 1983 Cognitive and psychological computation with neural models. En

esta ltima Anderson estudia el hardware del sistema nervioso real y propone modelos
neuronales sencillos basados en los biolgicos y destinados a explicar los procesos
cognitivos.
J.A. Feldman y D.H. Ballard (1982: Connectionist models and their properties.
Cognitive Science, 6) desarrollaron muchos de los principios computacionales del
enfoque Procesamiento Distribuido Paralelo (PDP), utilizaron por primera vez el
nombre de conexionismo para este enfoque, y criticaron el enfoque tradicional de la
Inteligencia Artificial destacando su poca plausibilidad biolgica. Pero sin duda el
impulso definitivo a la investigacin conexionista tiene como protagonistas a David. E.
Rumelhart, James. L. McClelland y varios investigadores ms que forman lo que se ha
llamado grupo PDP, y culmina con la aparicin de lo que se ha considerado como la
Biblia conexionista, Parallel Distributed Processing: Explorations in the
microestructure of cognition (dos volmenes) editada por Rumelhart y McClelland en
1986. En esta obra se tratan importantes cuestiones pero sin duda destaca la
demostracin de cmo las redes con ms de dos capas pueden solucionar las objeciones
matemticas propuestas por Minsky y Papert y que tanto limitaron el desarrollo en la
investigacin de redes neuronales.
A partir de Parallel Distributed Processing se suceden multitud de
investigaciones, artculos y congresos, tanto en los campos de la Inteligencia Artificial
como en los de la psicologa, convirtindose el conexionismo en un movimiento
revolucionario en el panorama de la ciencia cognitiva. En este contexto se crean la
Sociedad Europea de Redes Neuronales (ENNS) y la Sociedad Internacional de
Redes Neuronales (INNS), sociedades que organizan congresos y reuniones anuales y
editan revistas para la divulgacin de las investigaciones en este campo de
investigacin, revistas entre las que destacan Neural Networks (revista oficial de la
Sociedad Internacional de Redes Neuronales); Network, Computation in Neural System;
Transactions on Neural Networks; Nerual Networks Council; Neural Computation y
International Journal of Neural Systems.
De octubre de 1987 a febrero de 1988, el Instituto Tecnolgico de
Massachussets (MIT), patrocinado por la Oficina de Tecnologa Tctica de la Agencia
de Proyectos de Investigacin Avanzada del Departamento de Defensa de Estados
- 29 -
Unidos (DARPA/TTO) llev a cabo la revisin de la investigacin y tecnologa basada

en redes neuronales, revisin que se plasm en el libro Neural Network Study (Darpa
88).
En Espaa tambin se ha creado una sociedad para la investigacin en redes
neurales que ya ha organizado varios congresos, se organizan seminarios (precisamente
el que se realiz en la UNED en el curso 87-88 dio lugar a la edicin de Introduccin al
Procesamiento Distribuido en Paralelo, Alianza Editorial, en donde se renen los
captulos ms importantes de Parallel Distributed Processing). El programa europeo de
investigacin ESPRIT ha financiado diversos proyectos en este campo, proyectos en
los que, en Espaa, han participado las universidades Politcnica y Autnoma de
Madrid, la Politcnica del Pas Vasco, el Centro de Estudios Avanzados de Blanes, el
Instituto de Ciberntica del CSIC y el Instituto de Ingeniera del Conocimiento (IIC),
entre otros.
7. ELEMENTOS DE LAS ARQUITECTURAS CONEXIONISTAS
En las redes conexionistas es preciso distinguir dos tipos de elementos: los
relativos a su estructura y los relativos a sus mecanismos de procesamiento:
Conceptos y elementos de la
Conceptos y mecanismos bsicos para el
arquitectura conexionista
procesamiento en las redes conexionistas
Las unidades
La entrada (input) total

La regla de propagacin
Las conexiones entre las unidades
El estado de activacin
(las sinapsis)
La regla o funcin de activacin
El peso sinptico
El patrn de conexin
La salida (output) de las unidades

La funcin de transferencia
Reglas de aprendizaje
- 30 -
7.1. Conceptos y elementos de la estructura conexionista.

7.1.1 Las unidades
Los elementos bsicos de procesamiento de la informacin en el cerebro son las
neuronas; dado que los modelos conexionistas son modelos de inspiracin biolgica, a
las unidades bsicas encargadas del procesamiento en las redes conexionistas se las
llama habitualmente neuronas, aunque tambin podemos encontrar en la literatura los
trminos clulas, unidades, neuronas artificiales, nodos, elementos de
procesamiento (PEs) o, simplemente, elementos. La funcin de estas unidades tiene
que ver esencialmente con el la recepcin y tratamiento de la informacin: recibir
informacin a partir de las conexiones que mantienen con otras neuronas, elaborar o
transformar la informacin recibida y emitir informacin de salida hacia otras neuronas.
Existen tres tipos de unidades:
1. Unidades de entrada: les corresponde este nombre por recibir informacin de
fuentes externas a la propia red. Si la red dispone de sensores (por ejemplo, un
scanner), la informacin externa es informacin sensorial; si la red est conectada
con otras redes, las unidades de entrada reciben datos de las salidas de las otras
redes; en otros casos, simplemente, las unidades de entrada reciben los datos que el
usuario de la red introduce manualmente en el ordenador.
2. Unidades de salida: ofrecen las seales o informacin al exterior de la red; dan la
respuesta del sistema. Si la red dispone de conexiones con sistemas motores (robots,
por ejemplo) su respuesta ser la intervencin en el mundo fsico; si la red est
conectada con otras redes, su respuesta sern datos de entrada para stas ltimas
redes; y si, simplemente, son redes que utilizamos en nuestro ordenador, las unidades
de salida ofrece datos al usuario para su posterior tratamiento.
3. Unidades ocultas: aunque no todas las redes poseen este tipo de unidades, las redes
mnimamente sofisticadas s las incluyen. Estas unidades no tienen una relacin
directa ni con la informacin de entrada ni con la de salida, por lo que no son
visibles al ambiente exterior a la red, de ah su nombre. Su funcin es procesar la
informacin en niveles ms complejos, favorecer cmputos ms eficaces.
- 31 -
La informacin que puede recibir una red, la que puede ser almacenada y la que
puede emitir, est determinada en gran medida por lo que se llama el abanico de
entrada (fan-in) y el abanico de salida (fan-out). El abanico de entrada es el nmero
de elementos que excitan o inhiben una unidad dada. El abanico de salida de una unidad
es el nmero de unidades que son afectadas directamente por dicha unidad.
Se llama capa o nivel o estrato al conjunto de neuronas que reciben informacin
de la misma fuente (informacin externa, otra capa de neuronas) y ofrecen informacin
al mismo destino (al usuario, a sistemas motores, a otra capa de neuronas).
7.1.2. Las conexiones entre unidades (las sinapsis).

Las sinapsis son las conexiones entre las neuronas. En la mayor parte de redes las
sinapsis son unidireccionales: la neurona j transmite informacin a la neurona i y la
neurona i la recibe, y nunca ocurre lo contrario. Sin embargo, en redes como las de
Hopfield las sinapsis son bidireccionales (la neurona j transmite informacin a la
neurona i y esta, a su vez, transmite informacin a la neurona j)
Tipos de sinapsis:
a) sinapsis inhibidora: en este tipo de conexin el impulso transmitido por una neurona
inhibe la activacin de la neurona con la que est conectada: si la neurona j le
transmite a la neurona i un impulso que inhibe a sta, el nivel de activacin de la
neurona i decrecer, y decrecer en funcin del peso establecido para dicha conexin
- 32 -
y de la cantidad de informacin que se transmite por dicha sinapsis. Se suele

representar la sinapsis inhibidora mediante puntos negros;
b) sinapsis excitadora: en este tipo de conexin el impulso transmitido por una neurona
excita la activacin de la neurona con la que est conectada: si la neurona j est
conectada mediante una sinapsis excitadora con la neurona i, el nivel de activacin
de la unidad i aumentar si le llega informacin por dicha conexin desde la neurona
j, y lo har en funcin del peso de la conexin y de la magnitud de la seal o
informacin que por dicha conexin se le enva. Se suele representar este tipo de
conexin mediante puntos huecos.
7.1.3. Peso sinptico.
O peso de la conexin. Es uno de los conceptos ms importantes en las redes, y

ello por varias razones: en primer lugar porque los cmputos de la red tienen que ver
esencialmente con ellos; en segundo lugar, y concretando la afirmacin anterior, porque
los clculos que el sistema realiza a partir de la informacin de entrada para dar lugar a
la informacin de salida se basan en dichos pesos; y, en tercer lugar, porque en cierto
modo (como veremos) son el anlogo a las representaciones de los objetos en los
modelos cognitivos tradicionales. Una sinapsis es fuerte, o tiene un gran peso de
conexin, si la informacin por ella recibida contribuye en gran medida en el nuevo
estado que se produzca en la neurona receptora, y es dbil en caso contrario. Los pesos
sinpticos son valores numricos, se expresan en trminos numricos sencillos
(generalmente nmeros enteros o fraccionarios, negativos o positivos) con los que se
ponderan las seales que reciben por dicha sinapsis. En la literatura sobre redes
encontramos ligeras variantes en la notacin utilizada para representar el peso sinptico
de una conexin entre la neurona j y la neurona i, donde la neurona i recibe la
- 33 -
informacin que la neurona j emite: por ejemplo, Wij (del ingls weight, peso), pero
tambin wij y wij (a veces no se utilizan subndices y se pone simplemente wij
entendindose que tanto i como j son elementos distintos que operan como subndices).
Obsrvese tambin que, normalmente, el primer subndice denota al nodo receptor y el
segundo al nodo emisor de activacin (aunque advertimos al estudiante que estas
convenciones terminolgicas pueden cambiar en funcin del texto que se consulte).
Dado que en ocasiones es importante representar mediante un nico vector la
totalidad de los pesos correspondientes a las conexiones de varias neuronas con una
salida, se suele reservar para dicho vector correspondiente al peso la W mayscula
mientras que cuando nos referimos al peso correspondiente a una nica conexin parece
ms adecuado utilizar la w minscula.
7.1.4. El patrn de conexin.

En los modelos conexionistas el conocimiento que la red alcanza a partir del
aprendizaje se representa mediante el patrn de conexin, patrn que determinar, por
lo tanto, el modo de procesamiento de las seales y la respuesta del sistema ante
cualquier entrada.
En los modelos ms simples la entrada total correspondiente a cada unidad
depende esencialmente de los valores de entrada y de los pesos que ponderan el modo
en que dichos valores colaboran en la entrada total. Por ello en estos modelos el patrn
de conexin es simplemente el conjunto de pesos correspondientes a cada una de las
conexiones de la red; los pesos positivos indicarn entradas excitatorias y los negativos
entradas inhibitorias. Para representar el patrn de conexin se utiliza una matriz de
pesos W, en donde cada uno de los elementos de la matriz (representado como wij)
indica el peso correspondiente a la conexin entre la unidad j y la unidad i. El nmero
correspondiente a w representa la intensidad o fuerza de la conexin, y el signo (+ o )
indica si la unidad j excita a la unidad i (la conexin es excitatoria) o si la unidad j
inhibe a la unidad i (la conexin es inhibitoria). Si el nmero correspondiente a w es 0
se quiere indicar que la unidad j no est conectada a la unidad i.
Veamos un ejemplo:
- 34 -
Valores de los pesos:

wi1: -0.5
wj1: 1
wi2: 0.3
wj2: 0.2
wi3: -1
wj3: 0
wi4: 0.6
wj4: -0.3
La matriz correspondiente al patrn de conexin (matriz de los pesos W) ser:

ui
uj
u1
-0.5
u2
0.3
0.2
u3
-1
u4
0.6
-0.3
7.2.1 Notacin utilizada para representar los elementos y mecanismos de las

redes conexionistas.
La tarea de cada neurona o unidad es simple: recibir las entradas de las clulas
vecinas y calcular un valor de salida, el cual es enviado a todas las clulas
restantes. Toda la informacin que la red recibe, almacena, transforma y enva se
expresa en trminos matemticos, en la forma de cantidades y de frmulas aplicadas a
cantidades.
- 35 -
La representacin interna de la informacin se genera en las sinapsis o conexiones

y en la actividad de las neuronas, particularmente en las de la capa oculta. Dado que las
redes modifican sus estados a travs del tiempo como consecuencia de las distintas
entradas de informacin, es imprescindible tambin introducir en la descripcin de los
estados de activacin la referencia al tiempo:
1. a cada neurona (unidad i, ui) le corresponde en cualquier instante un valor numrico
denominado valor o estado de activacin ai(t);
2. cada unidad utiliza una funcin de salida, fi, que calcula la seal de salida (oi, del
ingls output o salida) a partir del estado de activacin que en ese momento tiene la
neurona;
3. la seal de salida se trasmite a otras unidades con las que dicha neurona est
conectada;
4. una neurona recibe la seal de todas las unidades con las que est conectada, pero lo
hace teniendo en cuenta:
el peso asociado a cada una de las conexiones, wij (del ingls weight,
peso)
y la intensidad o seal que se transmite por la sinapsis;
A la suma de todas las seales ponderadas por el peso de las correspondientes

conexiones se le llama NETi
5. el nuevo estado de activacin ai(t+1) de la neurona i se calcula mediante una funcin
de activacin Fa, teniendo en cuenta la entrada total calculada o NET y su anterior
estado de activacin, ai(t)
- 36 -
(Tomado de "Redes neuronales artificiales", J. R. Hilera y V. J. Martnez, Editorial

Ra-ma; p. 51.)
La notacin empleada en las redes neuronales no es unnime:
las unidades o neuronas se representan como u o como n
la funcin de activacin se suele representar por Fa, pero tambin,

simplemente, por F; dado que es preciso referirse a dos funciones, la de
activacin y la de transferencia, conviene utilizar una notacin distinta para cada
una de ellas, por ejemplo para la funcin de activacin la F mayscula (Fa) y
para la de transferencia la f minscula (fi);
la referencia a la activacin actual se suele representar como a(t) y la siguiente

como a(t+1); pero en la literatura sobre el tema tambin podemos encontrar la
referencia a la activacin actual como a(t-1) y el estado de activacin siguiente
como a(t) (y tanto en negrita como en caracteres normales);
para distinguir la parte de la frmula que corresponde al nombre de las

unidades de la parte de la frmula correspondiente a los otros elementos, se
pueden emplear varias estrategias:
subndice para los nombres y letra normal para el resto: oi
letra normal para el nombre de la unidad y negrita para el resto: oi
para referirse al peso de cada conexin se puede emplear tanto la O mayscula

como la o minscula, lo mismo que para el peso (W o w) y para la entrada total
en cada unidad (Net o NET O NET o net).
- 37 -
7.2.2. La entrada (input) total. La regla de propagacin.

Una neurona recibe seales desde mltiples neuronas por lo que es necesario
calcular el efecto global que tendr ese conjunto de seales o inputs. El input total se
denomina NET, y para el caso de las entradas que le llega a la neurona i en el tiempo t,
NETi(t). Llamamos regla de propagacin a la frmula que nos indica cmo calcular
dicha entrada total o NET; existen varias reglas de propagacin, pero la ms sencilla y
habitual es la que se representa del siguiente modo:
NETi(t+1) = wij * oj(t)
NETi es la suma de todas las seales que llegan a la neurona i (seales
representadas como oj), ponderada cada una de ellas por el peso de conexin asociado,
(wij). Cuando una determinada seal oj llega a la neurona i por una sinapsis inhibidora,
el peso wij asociado a dicha sinapsis ser negativo, por lo que el resultado del producto,
wij*oj, aportar un elemento negativo a la suma.
Los valores que transmite una neurona a las neuronas con las que est conectada
se representan como o (oj sera el valor que transmite la neurona j). Pongamos que los
valores que transmite las neuronas de la capa de entrada, y los pesos correspondientes a
sus conexiones con la neurona i son los siguientes:
Valores: o(t)
oj: 0.5
ok: 0.3
ot: 0.5
ou: -1
Pesos: (wij)
wil: -0.5
wik: 1
wit: 0.5
wiu: -0.3
- 38 -
En ocasiones los pesos de todas las conexiones o sinapsis correspondientes a una

neurona se suelen representar mediante una matriz: la matriz Wij incluira todos los
pesos de las conexiones con la neurona i (wi1, wi2, wi3, ...,wij); si un elemento de la
matriz es positivo indica que la conexin es excitatoria, si es negativo, la conexin es
inhibitoria y si es 0 no existe conexin entre neuronas; en el caso anterior la matriz
sera:
Wij = [0.5, 1, 0.5, 0.3]
Tambin es habitual referirse al conjunto de valores de entrada de una unidad
como el vector O(t) (de output, salida, puesto que normalmente estos valores que le
llegan a una unidad son la salida que produce otra unidad). En el caso anterior, el vector
de valores que le llegan desde otras neuronas y correspondiente al instante anterior a la
modificacin de la neurona i (instante que se suele representar como (t)) sera:
O(t) = [0.5, 0.3, 0.5, -1]
Si utilizamos la regla de propagacin antes sealada, la entrada total que le llega a
la neurona i o NETi ser la suma de las entradas parciales ponderadas por los pesos
correspondientes:
(0.5 -0.5) + (0.3 1) + (0.5 0.5) + (-1 -0.3) = -2.5 + 0.3 + 2.5 + 0.3 = 0.6
La entrada total se calcula para despus averiguar el estado de activacin que la
va a corresponder a la unidad, pero, dado que la regla de propagacin citada es muy
sencilla, la funcin de activacin que ha de calcular su activacin no se suele referir a
NETi, sino simplemente al sumatorio de los productos del peso por el valor de las
entradas (Wij * Oj).
7.2.3 El estado de activacin.

La activacin (o excitacin, o actividad) de una neurona es muy importante
para el procesamiento puesto que la salida que la neurona provoca depende de ella. La
- 39 -
activacin es el grado o nivel de excitacin de una neurona, y, generalmente, cambia

en funcin de cuatro factores:
el anterior estado de activacin de la unidad;
las entradas que la neurona recibe;
los pesos de las conexiones por las que recibe las seales;
la funcin de activacin utilizada para calcular la activacin a partir de dichas

entradas.
Se llama ciclo a cada una de las veces que la red toma los vectores de entrada
(conjunto de valores de entrada) para realizar los cmputos correspondientes; pues bien,
dado que en cada ciclo la activacin de las neuronas puede ser distinta, es preciso
caracterizar dicha activacin en cada pasada de la informacin o ciclo, por ello es
necesario referirse al tiempo; as, es habitual representar como Ai(t) (o tambin, con
minscula, como ai(t)), el nivel de activacin de la neurona i en el tiempo t.
Lo que la red representa en cada momento depende del conjunto o patrn de
activacin de la totalidad de las unidades que la componen, por ello es conveniente
tambin especificar dicho patrn. Para reflejar el patrn de activacin se suele utilizar
un vector de N nmeros reales a(t), vector que representa el estado de activacin de
todas las unidades de la red en el tiempo t; en el vector, cada uno de los elementos
representa la activacin de cada unidad en el tiempo t:
A(t) = (a1(t), a2(t), ..., ai(t), ...., an(t))

De este modo, cabe caracterizar el procesamiento que realiza la red como la
evolucin que sufren a travs del tiempo los patrones de activacin de las unidades.
Hay muchos modelos de redes conexionistas y los valores de activacin que
pueden tomar las unidades no son los mismos en todos ellos. Los valores utilizados con
ms frecuencia son los siguientes:
I. CONTINUOS
a) abiertos; los modelos que utilizan este tipo reciben el nombre de modelos no
acotados (o modelos sin lmite): el valor de activacin de una neurona i puede ser
cualquier nmero real;
- 40 -
b) o cerrados; los modelos que utilizan este tipo reciben el nombre de modelos
acotados (o modelos con lmites): pueden tomar cualquier valor real
comprendido en un intervalo con un valor mnimo y un valor mximo, por
ejemplo, el intervalo (0, 1) o el intervalo (-1, 1) generalmente siguiendo una
funcin sigmoidal.
II. DISCRETOS: estos valores se utilizan en los modelos ms sencillos.

a) los ms frecuentes son los valores binarios: la neurona slo puede tener dos
estados: activada o desactivada, estados que se suelen identificar mediante el par
de valores {0, 1}, representado el 1 el estado de activado y el 0 el estado de
desactivado o en reposo, o bien {-1, +1}; o, simplemente, {,+}, representado el
1 (o el +) el estado de activado y el -1 (o el ) el estado de desactivado.
b) en otros casos son valores discretos no binarios, valores que estn entre
cualquiera de un pequeo conjunto: por ejemplo, pueden estar restringidos al
conjunto de valores {-1, 0, +1}, o a un pequeo conjunto finito de valores tales
como {1, 2, 3, 4, 5, 6, 7, 8, 9}.
Naturalmente, el comportamiento y las utilidades de las redes con distintos tipos
de valores de activacin son tambin distintos; por ejemplo, si las entradas responden a
informacin analgica y no a seales discretas, entonces los valores ms adecuados son
los continuos, no los discretos.
7.2.4 La regla de activacin.
7.2.4.1. Concepto y frmula general
El estado de activacin de una unidad depende de la funcin de activacin, que
no es otra cosa que una funcin matemtica utilizada para calcular el siguiente estado
de activacin; dicha funcin calcula la nueva actividad de la unidad o neurona a partir
de:
El anterior estado de activacin de la unidad (aunque esta cantidad no siempre se

tiene en cuenta);
Todas las entradas que recibe dicha unidad de las otras unidades;
- 41 -
los pesos de las conexiones que la unidad en cuestin tiene con las unidades de
las que recibe las entradas.
Si tenemos la unidad i, su actividad en el tiempo t+1 depender de la funcin de

activacin (Fa) aplicada a:
el estado de activacin de la neurona i en el tiempo t;
todas las entradas oj recibidas por la unidad i desde las neuronas j de la capa
anterior en el tiempo t;
los pesos de conexin wij correspondientes a las distintas sinapsis por los que
cada seal oj llega a la neurona i en el tiempo t.
De este modo, podemos representar la funcin de activacin para el clculo del
nuevo estado de activacin de la unidad i en el tiempo t+1 utilizando la siguiente

notacin:
ai(t+1) = Fa [ai(t), oj(t), wij]
Dado que la entrada total o NET correspondiente a dicha unidad es igual a la
suma de todas las entradas ponderadas por sus correspondientes pesos, la anterior
frmula tambin se puede expresar del siguiente modo:
ai(t+1) = Fa [ai(t), NETi(t)]
Como ms arriba se ha indicado, la notacin utilizada no es la misma en todos los
autores, as en la frmula algunos utilizan F, otros Fa, y para referirse al tiempo algunos
utilizan la notacin t y t-1 y otros t+1 y t, pero son frmulas equivalentes.
Como ocurra para los valores de activacin de cada neurona, existen mltiples
funciones de activacin, y es el diseador de la red quien debe establecer la que se ha de
utilizar en funcin de las peculiaridades de la tarea para la que se disea la red.
7.2.4.2. Tipos de funciones de activacin.
Funcin identidad.
- 42 -
Se trata de una funcin muy simple que no tiene en cuenta el anterior estado de
activacin de la unidad. Se puede expresar con la siguiente frmula:
ai(t+1) = wij oj(t)
Segn esta funcin de activacin, el estado de activacin que le corresponde a la
unidad i (ai(t+1)) tras recibir las seales desde las unidades a las que est conectada es
el resultado de sumar todas las seales recibidas (oj), ponderadas cada una de ellas por
el peso sinptico (wij) asociado a la sinapsis por la que se transmite la seal.
Podemos representar el conjunto de estmulos de entrada que le llegan a una
unidad desde la capa anterior como un vector, y los pesos sinpticos correspondientes
mediante una matriz; en esta circunstancia, el clculo del nuevo estado de activacin de
todas las neuronas se obtiene simplemente mediante el producto de matrices.
En algunas redes se incluye en la funcin de activacin un factor que representa
una fraccin del valor de activacin anterior, por ejemplo:
ai(t+1) = ai(t) + wij oj(t)
Con esta variante conseguimos que la unidad o neurona mantenga cierto estado
de activacin durante varios ciclos, incluso en el caso de que las entradas sean cero, en
esta ltima circunstancia en cada perodo de tiempo su estado de activacin
corresponder a la mitad del valor de activacin anterior. Con este tipo de funciones de
activacin se garantiza que cada neurona no vare en su estado y en su respuesta
demasiado bruscamente (recordamos que la respuesta de la red depende en gran medida
de los estados de activacin de las unidades que la componen).
Funcin de activacin tipo umbral.
Esta funcin es algo ms complicada que la anterior y se utiliza con frecuencia en

las redes conexionistas, en particular cuando cada unidad slo puede tener dos estados:
activada o desactivada (1 0, respectivamente). Se suele representar la funcin tipo
umbral del siguiente modo:
- 43 -
ai(t+1)
1 si wij oj(t) > umbral
0 si wij oj(t) umbral
Estas frmulas quieren indicar, simplemente, que la neurona i se activar

(tomar el valor 1) si y slo si la suma ponderada de sus entradas supera cierto umbral,
umbral que ha de ser decidido por el diseador de la red.
7.2.5. La salida de las unidades. La funcin de transferencia.
7.2.5.1. Concepto y frmula general de la funcin de transferencia.
Las unidades o neuronas transmiten seales a otras con las que estn conectadas.
La intensidad de estas seales y, por lo tanto, el grado en que influyen en las unidades
con las que estn conectadas est determinado por dos factores:
su grado de activacin;
una funcin matemtica que modula dicho estado de activacin provocando la

seal de salida, funcin que suele ser la misma para todas las unidades.
Por lo tanto, unidades con el mismo grado de activacin pero distintas funciones
de salida producirn distintas seales (oi). A dicha funcin se le llama habitualmente

funcin de transferencia, y puede representarse del siguiente modo:
oi(t+1) = fi[ai(t+1)]
El valor de salida o respuesta de la unidad i (representado por oi), en el tiempo
t+1, ser el resultado de aplicar la funcin de transferencia (fi) a su estado de actividad
(ai) en el tiempo t+1.
- 44 -
Podemos utilizar la notacin vectorial para representar el conjunto de todos los

valores de salida en el tiempo t+1. As, el vector O(t+1) contendr las salidas de todas
las neuronas o unidades en el tiempo t+1:
O(t+1) = (f1[a1(t+1)], f2[a2(t+1)],..., fi[ai(t+1)],..., fn[an(t+1)])
7.2.5.2. Tipos de funcin de salida o de transferencia
Existen varios tipos de funciones de transferencia. La funcin escaln o umbral
nicamente se utiliza cuando las salidas de la red son binarias (dos posibles valores): la
salida de una neurona se activa slo cuando el estado de activacin es mayor o igual que
cierto valor umbral. Las funciones mixta y sigmoidal son las ms apropiadas cuando
queremos como salida informacin analgica.
Funcin identidad o funcin lineal.
Es la ms sencilla y la de menos uso. Se llama funcin de identidad porque la

salida correspondiente a la unidad es igual a su estado de activacin. En realidad esta
funcin equivale a no aplicar funcin de salida. La frmula correspondiente a esta
funcin es
fi[ai(t+1)] = ai(t+1)
y la salida correspondiente a dicha unidad se puede representar como:
oi(t+1) = ai(t+1)
y, en representacin grfica:
- 45 -
La funcin de identidad es adecuada cuando la funcin de activacin que hemos

utilizado para calcular la activacin de la unidad es de tipo umbral. En este caso la
activacin de la unidad ser 1 si est activa y 0 si est inactiva, y la salida
correspondiente ser 1 en el primer caso y 0 en el segundo (o 1 y -1 si hemos preferido
esta notacin).
Funcin umbral o funcin escaln.
Su uso es ms frecuente que la funcin identidad. Con la funcin umbral la unidad

enva seales de salida slo cuando su activacin es mayor o igual que cierto valor
umbral. La respuesta de salida ser binaria o discreta: slo 1 0 (o bien 1 y -1 si
utilizamos esta otra notacin), y depender de si el valor de activacin (que en este caso
es un valor continuo) supera cierto umbral.
oi(t+1) =
1 si ai(t+1) umbral
0 si ai(t+1) < umbral
si el umbral es 0 tendramos
- 46 -
oi(t+1) =
1 si ai(t+1) 0
0 si ai(t+1) < 0
1 si ai(t+1) 0 -1 si ai(t+1) < 0
y, en representacin grfica:
Si en lugar de 0 el umbral fuese otro nmero, el escaln quedara desplazado.
Funcin mixta.
Con esta funcin, si la activacin es menor que un lmite inferior, la salida es 0 (
-1). Si la activacin es mayor o igual que el lmite superior, entonces la salida es 1. Si la

activacin est entre los lmites, la salida es una funcin lineal de la activacin
f(x) =
0 si x < -C
1 si x C
x/ (2 C) + en otro caso
f(x) =
-1 si x < - C
1 si x C
a x en otro caso
y, en representacin grfica
- 47 -
C es el lmite superior de la activacin y -C el lmite inferior
Funciones de saturacin.
Son las funciones en las que los incrementos o disminuciones de la intensidad de
la actividad de la unidad producen incrementos o disminuciones de los valores de salida

hasta llegar a unos lmites de salida mxima o mnima a partir de los cuales la salida se
estabiliza y es la misma a pesar del incremento o disminucin de la intensidad de
actividad de la unidad. Dicho de otro modo: mediante las funciones de saturacin
conseguimos que el aumento de la actividad de la unidad por encima de un lmite no se
traduzca en un incremento de salida (y lo mismo para los valores mnimos). Las
funciones de saturacin establecen lmites mximos y mnimos para las salidas (por
ejemplo 1 y -1) y aunque la actividad de la unidad est por encima de dichos lmites, la
salida es siempre el valor mximo.
Hay varias funciones de saturacin, siendo la ms utilizada la funcin sigmoide.
Funcin
Sigmoide
Es una de las funciones de transferencia ms utilizadas. Produce salidas

continuas y proporcionales al nivel de activacin de la neurona dentro del
rango [0,1]; sus niveles de saturacin son 0 y 1, por lo que su salida mxima
ser 1 y la mnima 0. Cuando el nivel de activacin supere al umbral de
saturacin mximo la salida seguir siendo 1 y cuando el nivel de activacin
sea inferior al umbral de saturacin mnimo la salida seguir siendo 0.
Funcin
Tangencial Hiperblica
- 48 -
Es similar a la anterior pero en este caso la saturacin es 1 para el valor

mximo y -1 para el mnimo.
Atendiendo a los tipos de funciones que intervienen en el cmputo, las neuronas se

pueden clasificar en neuronas lineales y neuronas no lineales.
Neuronas lineales
Tienen funciones de activacin y de transferencia lineales, por lo que la

composicin de ambas funciones da lugar a otra funcin lineal. En estas neuronas la
salida oi es linealmente dependiente (es decir, proporcional) de sus entradas oj
ponderadas cada una de ellas por el peso asociado a las sinapsis (wij) por las que le llega
a la unidad i las entradas seal. La respuesta de las neuronas lineales no est acotada y
puede tomar cualquier valor.
Est demostrado que los cmputos que realizan redes con ms de dos capas con
unidades lineales se pueden realizar tambin con redes de dos capas, con lo que se hace
superfluo construir redes de ms de dos capas si las funciones utilizadas son siempre
lineales.
Las primeras redes que aparecieron eran de este tipo y presentaban por esta
caracterstica dos grandes problemas:
1. Falta de persistencia en las respuestas: todo cambio en las seales de entrada
produce inevitablemente cambios en las salidas; ello puede dar lugar a que cambios
realmente muy pequeos en las entradas provoquen fluctuaciones bastante grandes
en la respuesta.
2. Falta de adecuacin simultnea a seales grandes y pequeas: si las funciones
utilizadas amplifican mucho las seales de entrada, entonces seales de entrada de
pequea intensidad no se perdern sino que provocarn una respuesta de la neurona
- 49 -
(seales de entrada moderada provocarn respuestas elevadsimas). En el caso de que

dichas funciones amplifiquen poco las seales de entrada (si produce salidas
moderadas ante valores medios), entonces las seales de entrada dbiles producirn
seales poco significativas.
Neuronas no lineales
En estas neuronas su respuesta no es una funcin lineal o proporcional de sus

entradas pues o bien la funcin de activacin o bien la de transferencia o bien ambas son
funciones no lineales. Este es el caso cuando la unidad o neurona utiliza las funciones
no lineales Umbral, Sigmoide o Hiperblica Tangente.
Estas neuronas son ms interesantes que las anteriores pues producen respuestas
acotadas y con ello resuelven en gran medida los problemas anteriores; por ejemplo en
el caso del uso de la funcin umbral, la neurona produce una salida discreta (0 o 1 por
ejemplo) con lo que no se da el problema de la fluctuacin de la respuesta. En el caso de
neuronas con funcin sigmoide o hiperblica tangente las repuestas slo varen
significativamente ante los cambios de las entradas cuando el valor de la actividad de la
neurona est a medio camino entre los dos niveles de saturacin, mientras que cuando
se alcanza los niveles de saturacin pequeas fluctuaciones en los datos de entrada no
producen cambios en la respuesta; con ello se consigue el efecto de que la neurona no
produce salidas con cambios significativos cuando las nuevas seales de entrada no son
muy diferentes de los actuales.
7.2.6. Reglas de aprendizaje.
7.2.6.1. Conceptos y modelos de aprendizaje.

En las redes neuronales se dice que la red aprende cuando es capaz de ofrecer
ante un determinado patrn de entrada el correspondiente patrn de salida. Esta
capacidad para emparejar adecuadamente los vectores de entrada y los vectores de
salida lo consigue la red mediante la modificacin de los patrones de interconexin. Las
redes neuronales biolgicas realizan estas modificaciones mediante, al menos, los
siguientes procedimientos:
1. el desarrollo de nuevas conexiones;
- 50 -
2. la prdida de las conexiones existentes;

3. la modificacin de la fuerza de las conexiones que ya existen.
Los aspectos 1 y 2 han sido poco tratados en el marco de las redes neuronales
conexionistas. De todos modos, pueden considerarse como un caso especial de 3, puesto
que el cambio de la fuerza de conexin de cero a algn otro valor, sea positivo o
negativo, tiene un efecto similar al hecho de desarrollarse una nueva conexin; y, a la
inversa, siempre que se modifique la fuerza de conexin situndola en cero es como si
se perdiese una conexin existente. En definitiva, el aprendizaje en las redes
conexionistas consiste en la modificacin de las intensidades de las conexiones; las
reglas de aprendizaje no son otra cosa que las reglas o procedimientos para cambiar los
pesos sinpticos o pesos de las conexiones.
En la vida de la red se suelen distinguir dos periodos o fases: durante la fase de
aprendizaje se la entrena para que modifique sus pesos sinpticos hasta que su
respuesta ante los patrones de entrada sea correcta. En la fase de funcionamiento real o
fase de ejecucin la red ya es operativa y sus pesos sinpticos no volvern a ser
modificados; la red ya se puede utilizar en la tarea para la que ha sido diseada.
Existen varios modelos de aprendizaje, siendo los principales el supervisado, el
no supervisado y el reforzado.
aprendizaje supervisado: en este modelo existe un agente externo
(supervisor o maestro) que controla el proceso de aprendizaje de la red. La red

debe relacionar dos fenmenos (X e Y) mediante la presentacin de un conjunto
de ejemplos (x1, y1), (x2, y2),..., (xn, yn). En la formulacin anterior, "X"
representa las entradas e "Y" las salidas requeridas Se llama juego de ensayo
al conjunto formado por las parejas anteriores, patrn de estmulos-respuesta
deseada. En algunos casos no hay ninguna duda en cuanto a los elementos que
deben componer dicho juego de ensayo puesto que se conocen perfectamente
todos los patrones que la red debe reconocer y sus salidas correspondientes (este
ocurre, por ejemplo con el uso del Perceptrn para el cmputo de las funciones
lgicas); pero en la mayora de los casos esto no es as y es preciso tener mucho
cuidado en la eleccin del juego de ensayo y tratar de incluir en l los patrones
ms representativos del problema o fenmeno que se intenta computar. El
maestro presenta a la red una entrada xi y la red produce una salida oi.
- 51 -
Normalmente esta salida no coincide con la salida requerida, por lo que el

maestro debe calcular el error de salida, ei = e(oi, yi) y proceder a la
modificacin de los pesos utilizando alguna regla de aprendizaje con la
intencin de aproximar la salida obtenida a la salida deseada. Tras esta
modificacin se presenta el siguiente patrn del juego de ensayo y se procede de
la misma manera. Cuando se termina con el ltimo patrn del juego de ensayo,
se tiene que volver a empezar de nuevo pues los pesos se han modificado y es
preciso comprobar que la red responde adecuadamente. A cada uno de los pasos
completos del juego de ensayo se le llama ciclo; dependiendo de la complejidad
del problema, sern precisos pocos o muchos ciclos para el aprendizaje. La fase
de aprendizaje termina cuando los pesos se estabilizan o convergen en unos
valores ptimos. En este caso la red consigue responder correctamente a todas
las presentaciones de los patrones estimulares del juego de ensayo. Aunque el
ideal de aprendizaje es el cien por cien de aciertos, se considera que concluye
cuando se minimizan razonablemente los errores ante el conjunto de ejemplos
presentados.
aprendizaje no supervisado: en este tipo de aprendizaje no existe dicho agente

externo que vaya modificando los pesos sinpticos en funcin de la correccin
de la salida de la red; la red no compara su respuesta efectiva con la salida
correcta puesto que no se le especifica cul ha de ser dicha salida correcta. Con
este aprendizaje se busca que la red se autoorganice y encuentre por s misma
caractersticas, regularidades, correlaciones o categoras en los datos de entrada.
En el aprendizaje no supervisado es necesario presentar un mayor nmero de
patrones de entrada y utilizar reglas de aprendizaje distintas a las que nos sirven
para el caso anterior; adems las arquitecturas de las redes suelen ser distintas
(por ejemplo muchas de ellas tienen dos capas), destacando las redes de
Kohonen y de Grossberg. El modelo que comentamos tiene mucha importancia
para los sistemas biolgicos pues es evidente que la cantidad de habilidades
aprendidas con la ayuda de un profesor es muy inferior a la que se aprende
espontneamente.
aprendizaje reforzado: en cierto modo es una variante del aprendizaje

supervisado pues tambin utiliza un supervisor que examina las salidas del
sistema; sin embargo en el aprendizaje reforzado no se dispone de salidas
- 52 -
deseadas precisas por lo que no es posible computar el error para cada una de
las unidades de salida; el supervisor valora el comportamiento global de la red
mediante un criterio y en funcin de l modifica los pesos mediante un
mecanismo de probabilidades. Para ilustrar la diferencia entre este tipo de
aprendizaje y el supervisado se suele indicar que en el reforzado el supervisor se
comporta como un crtico (que opina sobre la respuesta de la red) y no como un
maestro (que indica a la red la respuesta concreta que debe generar), mientras
que en el supervisado el supervisor se comporta como un maestro. En el
aprendizaje reforzado los algoritmos son ms complejos que en el supervisado y
el tamao de las muestras superior. Uno de los algoritmos ms conocidos para
este tipo de aprendizaje es el algoritmo asociativo con recompensa y
penalizacin presentado en 1985 por Barto y Anandan.
7.2.6.2. Regla de Hebb (o regla del producto).

En La organizacin de la conducta, escrito en 1949, Hebb defiende la idea de que el
aprendizaje y la memorizacin se basa en modificaciones de las conexiones existentes
entre las neuronas y en la creacin de conexiones nuevas; pero el cambio que le pareci
ms determinante para explicar el aprendizaje y la memoria es el relativo a la
modificacin del potencial con el que se transmiten las seales nerviosas entre las
neuronas. Expres esta modificacin del modo siguiente (regla de Hebb): cuando dos
neuronas tienden a estar activas o inactivas simultneamente, la fuerza o intensidad de
sus conexiones aumenta, y disminuye en caso contrario.
Para dar cuenta de esta modificacin supuso que el incremento de la conexin se
debe a un aumento del rea de unin sinptica. En la actualidad se considera que esta
explicacin biolgica no es adecuada puesto que se cree ms bien que la causa est en
un incremento de la velocidad con que se libera el neurotransmisor en la clula
presinptica. Sin embargo, no interesa su explicacin biolgica sino la formulacin
general antes citada, que como se observa no se expresa en trminos matemticos
precisos; por esta razn, existen muchas interpretaciones matemticas de la regla de
Hebb. Al aprendizaje que sigue este modelo se le llama aprendizaje tipo Hebb.
Veamos algunas de dichas interpretaciones matemticas:
- 53 -
wij = ai(t) * aj(t)

wij = (aiai) * (ajaj)
wij = * ai(t) * aj(t)
wij = * ai(t) * oj(t)
wij : es el incremento que se ha de sumar o restar al peso sinptico

: es la tasa de aprendizaje
ai(t) : es la activacin de la neurona i en el tiempo t
ai : media de los valores de activacin de i
aj : es la activacin de la neurona j
aj : media de los valores de activacin de j
oj(t) : es la seal que emite la neurona j en el tiempo t
Se trata de una regla de aprendizaje no supervisado, pues no existe ninguna

informacin externa que nos indique si los resultados de la red son errneos, ni que nos
ayude a decidir cmo y en qu grado modificar las conexiones.; la regla hace
simplemente que las unidades vayan influyndose unas a otras, y se autoconfiguran la
permeabilidad sinptica de la red a partir de las reacciones a los estmulos recibidos.
7.2.6.3. Regla de Windrow-Hoff o regla delta o regla del menor error

cuadrtico.
La utilizaron por primera vez, en 1960, B. Widrow y M. Hoff para su red
ADALINE. Se trata de una regla de aprendizaje supervisado (es preciso presentar a la
red todos los casos de pares entrada-salida que se desea que la red aprenda, y que el
maestro modifique los pesos de las conexiones para corregir los errores en las salidas).
Se denomina regla delta porque en esencia el procedimiento consiste en modificar los
pesos de las conexiones (por lo tanto, favorecer el aprendizaje de la red) a partir del
clculo de la diferencia (o delta) entre las salidas efectivas de la red y las salidas
deseadas.
El maestro presenta a la red un vector o patrn de entrada. Si la red produce el
vector de salida deseado no realiza ningn cambio en los pesos. Si existe discrepancia
- 54 -
entre ambos vectores, los pesos se cambian para reducir la diferencia. Cuando existe
diferencia entre las salidas efectivas y las deseadas la modificacin afecta a todos los
pesos de las neuronas que colaboran en el error, y se modifican en proporcin a su
influencia en el error. Se sigue el procedimiento citado de minimizar el error y, en los
mejores casos, convertirlo en cero. En la literatura sobre el tema existen varias
formulaciones; presentamos dos de las ms sencillas:
wij = [Ti(t+1) ai(t+1)] oj(t)
wij : incremento o decremento del peso sinptico

: tasa de aprendizaje
Ti(t+1) : activacin deseada en la neurona i
ai(t+1) : activacin real de la neurona i
oj(t) : seal emitida por la neurona j y enviada a la neurona i
En esta primera frmula intervienen los valores de los estados de activacin (el
que realmente tiene la unidad y el deseado), por lo que para averiguar si la salida final
de la red es la correcta es preciso tener en cuenta la funcin de transferencia.
Otra formulacin es la siguiente:
wij = [Ti(t+1) oi(t+1)] aj(t)
wij : incremento o decremento del peso sinptico

: tasa de aprendizaje
Ti : es la seal deseada de la unidad i (la unidad de salida)
oi : es la seal producida por la unidad i (la unidad de salida)
aj(t) : es la activacin de la unidad j (la unidad de entrada)
- 55 -
La expresin entre corchetes representa el error que se comete en el nivel de

activacin de la neurona. El nuevo peso sinptico wij se calcula sumando o restando el
incremento obtenido con la frmula general.
7.2.6.4. Regla Delta Generalizada (o regla de propagacin hacia detrs).

La regla delta no se puede utilizar en redes que tengan ms de dos capas de
unidades pues con l no es posible averiguar en cunto colaboran las unidades de las
capas intermedias en el error total. Dado que hay muchos problemas de clasificacin
que las redes de dos capas no pueden resolver y s lo pueden hacer las redes multicapa,
es necesario ampliar la regla delta para aplicarla a estas ltimas. La regla delta
generalizada es precisamente una modificacin de la regla delta para su aplicacin a
redes multicapa Se suele atribuir su desarrollo a David E. Rumelhart, Geoffrey
Hinton, Robert J. Williams (Learning internal representations by error propagation,
en Parallel Distributed Processing: Explorations in the Microstructure of Cognition,
vol. 1, Foundations, ed. David E. Rumelhart y James L. McClelland, Cambridge: Mit
Press, 1986).
Esta regla trabaja con el modelo de aprendizaje supervisado, su aplicacin es
vlida slo con redes alimentadas hacia adelante, y al igual que la regla delta, compara
la respuesta emitida por la red con la respuesta deseada y reajusta los pesos sinpticos
de todas las sinapsis de forma proporcional a la diferencia encontrada. Pero, y esta es la
diferencia fundamental, con la regla delta generalizada el clculo se hace capa a capa
desde la capa de salida hacia la de entrada (de ah que se llame retropropagacin del
error, o mejor, de la correccin del error). Dada la complejidad de la tctica empleada
para la modificacin de los pesos no se incluye en este informe su desarrollo
matemtico.
La regla delta de aprendizaje presenta tambin algunas dificultades
caractersticas, por ejemplo, que se caiga en un mnimo local: en el proceso de
minimizacin del error la red puede llegar a una situacin en la que cualquier pequeo
cambio en los pesos, positivo o negativo, incrementa el error; en esta situacin la regla
- 56 -
no es capaz de determinar la direccin en la que se debe mover los pesos para que, con
un incremento mayor, el error vuelva a decrecer.
La regla delta generalizada es una de las ms utilizadas en las redes conexionistas

multicapa alimentadas hacia adelante; desde un punto de vista histrico y metodolgico
supuso un impulso muy importante para el conexionismo pues consigui superar las
dificultades matemticas descubiertas por Minsky y Papert y que tanto frenaron la
investigacin en redes neurales. Con este algoritmo de aprendizaje utilizado en redes
multicapa es posible resolver el problema de la disyuncin exclusiva y el de la
distincin entre T y C (recordamos que estos problemas se utilizaron como ejemplo de
las limitaciones del Perceptrn).
8. ALGUNOS MODELOS DE REDES NEURONALES
8.1. Redes de McCulloch-Pitts o redes de neuronas formales.

En 1943, Warren McCulloch (neurofisilogo) y Walter Pitts (matemtico)
publicaron en el Bulletin of Mathematical Biophysics "Un clculo lgico de las ideas
inmanentes en la actividad nerviosa"; en este artculo defendieron la tesis de que las
actividades de las neuronas y las relaciones existentes entre ellas podan estudiarse
mediante la lgica proposicional. Creyeron que las neuronas tenan un comportamiento
biestable (al producir salidas todo-nada) y que, en este sentido, eran semejantes al
comportamiento tambin biesttico de los conmutadores elctricos (abierto-cerrado).
Junto con la idea relativa al comportamiento supuestamente lgico de las neuronas,
- 57 -
presentaron tambin la idea de construir mquinas de computar con una arquitectura

similar a las neuronas. A pesar de su conocimiento insuficiente de las neuronas y las
sinapsis orgnicas, sus ideas han tenido mucha importancia en el desarrollo de la
psicologa cognitiva: consideraron que las leyes que gobiernan la mente tienen ms que
ver con las leyes que gobiernan la informacin que con las relativas a la materia (idea
ms comn a la psicologa cognitiva clsica que al conexionismo); pero en su
comprensin del aprendizaje anticiparon tambin ideas conexionistas: dieron ms
importancia al aprendizaje que a factores innatos, consideraron que nuestro cerebro
comienza con redes aleatorias, que los estmulos provocan conexiones de una
determinada manera y que los estmulos posteriores, si son fuertes y constantes,
llevaran a la red a manifestar una configuracin determinada. Esta configuracin
determinara que la respuesta de la red fuese distinta ante nuevos estmulos. En
definitiva, su artculo fue importante al tratar al cerebro como un organismo
computacional.
Demostraron tambin que redes neuronales sencillas, conectadas entre s
mediante sinapsis excitadoras o excitadoras e inhibidoras, y asignando un valor umbral
para la activacin de la unidad de salida, eran capaces de representar adecuadamente las
leyes lgicas fundamentales. Llamaron neuronas formales a las neuronas que
componen dichas redes. Aunque intentaron modelar aspectos elementales de las
neuronas biolgicas, las neuronas McCulloch-Pitts no eran otra cosa que conmutadores
lgicos, semejantes a los circuitos lgicos que se pueden crear mediante simples
interruptores por los que puede fluir la corriente elctrica.
Las redes siguientes son algunos ejemplos que presentaron en su artculo, y,
como se indica, sirven para calcular los valores de verdad de la disyuncin, la
conjuncin y la conjuncin con negacin. Las neuronas podan recibir tanto entradas
excitadoras como inhibidoras. La neurona tomaba valor 0 cuando estaba desactivada y
valor 1 cuando estaba activada (es decir utilizaba una funcin de activacin tipo
umbral). La salida de la unidad era 1 cuando estaba activada y 0 cuando estaba
desactivada (por lo tanto la funcin de transferencia era la funcin identidad). En todos
los casos el peso sinptico de las conexiones excitadoras era 1. Las sinapsis inhibidoras
provocaban la inhibicin total de la neurona: independientemente de la cantidad de
excitacin que le llegase desde las sinapsis excitadoras, si una sinapsis inhibidora se
- 58 -
excitaba, la neurona quedaba totalmente desactivada y produca la salida 0; por lo tanto,

la neurona produca 1 de salida si y slo si no reciba ninguna seal inhibidora y las
seales excitadoras que reciba igualaban o superaban el valor umbral. Esta es una de
las diferencias fundamentales respecto de las redes que se utilizan actualmente.
Pero tambin podemos utilizar los siguientes grficos para representar las
neuronas McCulloch- Pitts, grficos que seguramente resultan ms intuitivos (tomado de
Estructura, dinmica y aplicaciones de las redes de neuronas artificiales, VVAA,
Editorial Centro de Estudios Ramn Areces, p. 103); el nmero en el interior de la
neurona indica el umbral
8.2. Perceptrones.
En 1958 Frank Rosenblatt escribi The Perceptron, a Probabilistc Model for
Information Storage and Organization in the Brain. Rosenblatt rechaz el uso que
McCulloch y Pitts hicieron de la lgica simblica aplicada a las redes y defendi
mtodos probabilsticos. En esta obra llam perceptrones a unas redes McCullochPitts capaces de modificar los pesos de sus conexiones si las respuestas de la red no eran
las correctas y demostr que estas redes se podan entrenar para clasificar ciertos
patrones en iguales o distintos, por tanto que eran capaces del reconocimiento de
formas sencillas.
- 59 -
Ejemplo de un Perceptrn sencillo. Las unidades y conexiones que se

muestran son slo ilustrativas y no reflejan totalmente la complejidad
del modelo.
El mecanismo de procesamiento del Perceptrn es el siguiente: el patrn a

reconocer incide en la capa sensorial; cada una de las unidades sensoriales responde en
forma todo o nada al patrn de entrada; las seales generadas por las unidades
sensoriales se transmiten a las unidades de asociacin; stas unidades se activan si la
suma de sus entradas sobrepasa algn valor umbral. Cuando una unidad de la capa
asociativa se activa, provoca una seal de salida, la cual va por las sinapsis
correspondientes hasta las unidades de la capa de salida; estas responden de forma muy
similar a las de las unidades de asociacin: si la suma de sus entradas sobrepasa un
umbral, producen un valor de salida 1, en caso contrario su salida vale 0 (por lo tanto, la
funcin de actividad de las unidades era tipo umbral, produciendo actividades con
valores discretos, 0 y 1, y la funcin de transferencia era la funcin de identidad).
La representacin del Perceptrn utilizada ms arriba puede inducir a pensar que
se trata de una red multicapa, pero este no es el caso: las conexiones entre las unidades
sensitivas y las de la capa de asociacin son fijas, no se modifican durante el
aprendizaje; siempre es preciso presentar a la red el patrn de entrada, y esto se puede
hacer de varias formas, por ejemplo el usuario puede introducir los datos en el
ordenador mediante el teclado, pero si la red est conectada a algn sensor (como el
Perceptrn intentaba simular) los datos le llegarn a travs de l. Por lo tanto, a todos
- 60 -
los efectos el Perceptrn puede considerarse como una red de dos capas, sin unidades
ocultas.
El Perceptrn era una red capaz de aprendizaje. En su configuracin inicial a los
pesos de las conexiones se les da valores arbitrarios, por lo que ante la presencia de
estmulos la red genera respuestas arbitrarias, respuestas que no coinciden con las
deseadas. Se considera que la red ha conseguido aprender cuando los pesos se han
ajustado de tal modo que la respuesta que emite es la deseada. El procedimiento
propuesto por Rosenblatt para este entrenamiento era sencillo: se le presenta a la red un
patrn cuya seal se transmite hasta la capa de salida, provocando la activacin de
alguna de sus unidades; si se activan las unidades de respuesta correcta, no se hace
ningn ajuste de sus pesos; si la respuesta es incorrecta se procede de la manera
siguiente: si la unidad deba estar activada y no lo est, aumentar todos los pesos de sus
conexiones; si la unidad deba estar desactivada y est activada, disminuir los pesos de
sus conexiones. Se repite este procedimiento con todos los patrones deseados de
estmulo-respuesta. Rosenblatt crey que era posible hacer que los pesos converjan en
un conjunto de valores, a partir de los cuales le es posible a la red computar cada uno de
los patrones de entrada para producir los correspondientes patrones de salida.
En el prrafo anterior se ha descrito de modo cualitativo y poco preciso la
modificacin que han de sufrir los pesos cuando la red produce errores; existen varios
algoritmos que se pueden utilizar para detallar con exactitud el modo de modificar los
pesos de las conexiones, por ejemplo:
si la respuesta es 0 debiendo ser 1, wij (t+1) = wij(t) + *oi;
si la respuesta es 1 debiendo ser 0, wij (t+1) = wij(t) *oi
donde:
wij : es el peso correspondiente a la conexin de la unidad i con la unidad j.
oi : es la salida de la unidad i
: es la tasa de aprendizaje que controla la velocidad de adaptacin
- 61 -
En 1969 Marvin Minsky y Seymour Papert escribieron Perceptrons: An

Introduction to Computational Geometry. En esta obra analizaron las capacidades y
limitaciones del Perceptrn, y demostraron que hay ciertas clases de problemas que el
Perceptrn y cualquier modelo simple de dos capas no pueden resolver. Los
perceptrones slo pueden distinguir tramas o patrones linealmente separables, y dado
que hay muchos e importantes problemas que no son linealmente separables,
concluyeron que los perceptrones son poco adecuados como clasificadores de patrones.
Adems ampliaron su crtica afirmando que esta dificultad no se puede resolver con
redes multicapa (algo que posteriormente se demostr errneo). Decimos que un patrn
o conjunto de datos de entrada de la red es linealmente separable cuando el espacio de
todas las entradas puede dividirse en dos regiones, quedando en uno de los lados del
hiperplano las correspondientes a una categora y en la otra parte del hiperplano las
correspondientes a otra categora. Se llaman hiperespacios a los espacios n-dimensionales
(por ejemplo, el espacio euclideo es un caso particular de hiperespacio, y consta de tres
dimensiones); se llaman hiperplanos a los objetos de n-1 dimensiones que dividen un
hiperespacio de n dimensiones en varias regiones; en el caso de un espacio
bidimensional, el hiperplano es una lnea que descompone el espacio en dos regiones;
en el caso del espacio tridimensional, el hiperespacio es un plano y puede dividir el
espacio en tres regiones. En la resolucin de problemas puede ser til la referencia a los
hiperplanos puesto que permiten separar regiones de puntos de un hiperespacio en
categoras individuales o clases, por lo que es un recurso til para distinguir unas clases
de otras.
La obra de Minsky y Papert supuso un importante freno en el desarrollo de la
investigacin en redes neuronales pues convenci a la administracin americana de la
bondad de la arquitectura tradicional (la arquitectura Von Neumann) y de la
incompetencia de las arquitecturas de redes neuronales, y llev a muchos investigadores
a preocuparse por la lnea tradicional en psicologa cognitiva e Inteligencia Artificial y
despreocuparse de los modelos conexionistas.
Se puede comprender la crtica de Minsky y Papert y el problema de la
separabilidad lineal si nos fijamos en uno de los ms conocidos y sencillos problemas
que la red no puede resolver: el relativo al problema XOR o disyuncin exclusiva.
Dado que el Perceptrn es capaz de asociar patrones de entrada con patrones de salida y
- 62 -
que las tablas de verdad de los funtores son tambin correspondencias entre pares de
valores de verdad y el valor del enunciado molecular compuesto por el funtor
correspondiente, parece que podemos utilizar los perceptrones para decidir los valores
de verdad de los enunciados moleculares; por ejemplo, la tabla de verdad de la funcin
AND (la conjuncin) y de la funcin OR (la disyuncin inclusiva) son las siguientes
x1
x2
x1 AND x2
x1
x2
x1 OR x2
tabla de verdad de la conjuncin
tabla de verdad de la disyuncin

inclusiva
La tarea que tiene que realizar el Perceptrn es, en el primer caso, aprender a
asociar la entrada (1,1) con la salida 1, y las entradas restantes con la salida 0; en el
segundo caso debe aprender a asociar la entrada (0,0) con la salida 1, y las entradas
restantes con la salida 1. La red que se ha de utilizar para realizar la computacin debe
constar de dos unidades de entrada y una unidad de salida: cada unidad de entrada
recoge uno de los elementos del patrn de entrada y la unidad de salida produce una
salida, que es la que corresponde a la solucin.
- 63 -
Como se ha indicado, para la funcin OR (disyuncin

inclusiva) la red debe ser capaz de devolver la salida 0 si se le
presenta el patrn (0,0) y para los restantes patrones la salida 1;
para la funcin AND (la conjuncin) la red debe devolver la salida
1 para el patrn (1,1) y 0 para los restantes patrones. Veamos el
caso de la funcin OR:
x1 y x2 son las entradas a la neurona;
en las neuronas de la capa de entrada la salida es igual

a su entrada;
w1 y w2 son los pesos de las conexiones entre las

neuronas de entrada y la neurona de salida;
la entrada neta es la suma ponderada de las entradas

(w1 x1 + w2 x2);
la funcin de activacin de la neurona de salida es la

funcin identidad;
la salida es discreta tomando alguno de los valores del

par (1,0);
la funcin de salida o transferencia es de tipo escaln,

es decir establece un umbral que es necesario superar
para que la salida sea 1.
De este modo, tendramos:

entrada neta = w1x1 + w2 x2
activacin de la unidad de entrada = w1 x1 + w2 x2
valor de salida = 1 si w1x1 + w2x2 umbral

0
si w1x1 + w2 x2 < umbral
Para el caso de la disyuncin inclusiva, el umbral puede ser cero o superior, sin
embargo, para la conjuncin el umbral ha de ser mayor que cero. Es posible entrenar a
la red para que modifique sus pesos de modo que converjan en los adecuados para
producir el patrn de salida adecuado. Expresado en trminos de hiperplanos, la red
resuelve los problemas lgicos anteriores si existe un hiperplano capaz de distribuir el
- 64 -
plano en dos regiones: en el caso de la funcin AND (la conjuncin), en una regin
quedaran los patrones de entrada (0,0), (0,1), (1,0) y en la otra regin el patrn (1,1); en
el caso de la funcin OR (la disyuncin inclusiva), en una regin quedara el patrn
(0,0) y en la otra los patrones de entrada (0,1), (1,0), (1,1); estos patrones corresponden
a los valores de verdad posibles de los enunciados que componen el enunciado
molecular. Veamos cmo se puede utilizar este mtodo:
primero construimos un plano en el que se pueda representar cada uno de los

vectores de entrada; el plano tendr las coordinadas x1, x2;
en segundo lugar, mediante puntos, situamos en el plano los cuatro valores de

verdad correspondientes a la funcin lgica que se quiere computar;
en tercer lugar, representamos en el plano la ecuacin w1x1 + w2x2 (que

corresponde a la funcin de activacin); w1 y w2 son los pesos y x1 y x2 los
distintos patrones de entrada. Esta ecuacin es la ecuacin de una lnea en el
plano x1, x2.
La recta divide el espacio en dos regiones que podramos interpretar uno como
correspondiendo al valor 1, y el otro como correspondiendo al valor 0; si en cada una de

estas regiones se incluye el patrn de entrada correspondiente, entonces podemos decir
que la red es capaz de computar la funcin lgica, pues distribuye adecuadamente los
valores de verdad del patrn de entrada con el valor de salida que les debe corresponder.
En las figuras siguientes se muestra el plano x1, x2 con los cuatro puntos que
corresponden a los cuatro vectores de entrada (0,0), (0,1), (1,0), (1,1).
En la funcin AND al vector (0,0) le debe
corresponder la salida 0, al (0,1) la salida 0,
al (1,0) la salida 0 y al (1,1) la salida 1 (en
el grfico la salida se pone en negrita);
como se puede apreciar, la recta generada
por la ecuacin w1x1 + w2x2 permite
distribuir correctamente los valores de
salida, luego la red podra computar la
funcin lgica AND
- 65 -
En la funcin OR al vector (0,0) le debe

corresponder la salida 0, al (0,1) la salida 1,
al (1,0) la salida 1 y al (1,1) la salida 1;
como en el caso anterior, la recta tambin
distribuye correctamente los valores de
salida, por ello la red podra computar la
funcin lgica OR
Sin embargo, la red de dos capas no puede computar adecuadamente la funcin

lgica XOR (la disyuncin exclusiva); vemoslo:
x1
x2
x1 XOR x2
Tabla de verdad de la disyuncin exclusiva

Si ahora representamos en el plano las vectores de entrada y los valores de verdad
correspondiente tendremos una situacin muy distinta a las anteriores.
Se observa fcilmente que con una sola lnea es
imposible separar los puntos 1 y 1 de los puntos 0 y 0; no
hay forma de disponer la lnea de modo que separe los
conjuntos de puntos citados. Esto es precisamente lo que se
quiere indicar cuando se dice que este problema no es
linealmente separable. Si tuvisemos dos lneas entonces
sera posible descomponer el espacio en tres regiones, en dos
de las cuales se encontraran los puntos 0 y en la otra los
puntos 1. Los perceptrones de dos capas no pueden dar lugar
ms que a una lnea, pero podemos conseguir dos lneas si
- 66 -
entre la capa de entrada y la de salida situamos una capa

intermedia con dos neuronas, cada una de las cuales nos
permitir obtener una lnea (ver grficos de la pgina
siguiente). En la poca de Rosenblatt no se dispona de un
algoritmo de aprendizaje adecuado para redes con capas
ocultas y hubo que esperar a los aos ochenta para su
perfecto desarrollo (la regla delta generalizada) y, por lo
tanto, para la superacin del problema de la separabilidad
lineal.
- 67 -
Red multicapa con unidades ocultas que resuelve correctamente el problema XOR. Si el
umbral de la unidad c = 0.4, de la d = 1.2, de la e = 0.5 y los pesos wca = 1, wcb = 1,
wda = 1, wdb = 1, wec = 0.6, wed = -0.4, la red da lugar a la representacin grfica
inferior. Se aprecia que las dos lneas crean una regin en donde se sita el conjunto
formado por 1 y 1 y dos regiones en donde se sitan los otros dos valores; por lo tanto,
la red resuelve el problema XOR
8.3. EL PANDEMONIUM: UN MODELO PARA EL RECONOCIMIENTO DE

PATRONES
8.3.1. La tarea de reconocimiento de patrones: dos explicaciones, el modelo de
plantillas y el modelo de anlisis de caractersticas
Una caracterstica del sistema de procesamiento visual humano es su flexibilidad:
somos capaces de identificar un patrn, un tipo de estmulo, con independencia sus
posibles variaciones en tamao, posicin en el contexto y orientacin espacial; e incluso
cuando su forma vara en ciertos lmites; fijmonos en los siguientes ejemplos:
- 68 -
En todos ellos reconocemos sin dificultad la letra "E", y todos ellos pueden
interpretarse como variaciones del mismo patrn, el correspondiente a dicha letra.
Podemos llamar reconocimiento de patrones al hecho de identificar distintos
estmulos como perteneciendo a la misma clase, como siendo del mismo tipo. Los
psiclogos han presentado diversas teoras para comprender el modo en que nuestra
mente es capaz de reconocer patrones; una de las primeras y ms sencillas es la de
comparacin de plantillas. Segn esta teora en nuestra memoria debe haber un
modelo o plantilla correspondiente a cada forma que podamos reconocer. Cuando
vemos un objeto, la imagen que se produce en la retina se la compara con las plantillas
almacenadas en nuestra memoria y aquella que mejor se ajusta a la imagen retiniana es
la que identifica al objeto visto. Fcilmente se ve que esta teora no es satisfactoria: un
cambio en la posicin, tamao u orientacin del objeto provocara un desajuste que
hara imposible el reconocimiento. Adems no podramos reconocer formas
deterioradas
pues
tampoco
coincidiran
con
las
plantillas.
Podramos modificar la teora para superar estas dificultades: por ejemplo

suponiendo que existen tantas plantillas almacenadas como variedades posibles de
posicin, rotacin, tamao y distorsin, pero est claro que sta no es una buena
solucin pues exigira un nmero tan grande de plantillas que ni siquiera el cerebro
podra almacenar. Otra estrategia ms razonable consistira en suponer que antes de la
comparacin del input retiniano con las plantillas nuestra mente realiza un anlisis
preparatorio, lo que algunos autores llaman preprocesamiento: mediante este anlisis
las imgenes retinianas se someten a un proceso de normalizacin que los traduce a un
formato estndar compatible con los formatos de las plantillas existentes en nuestra
memoria (ajustando el tamao y la orientacin por ejemplo). Existen algunos resultados
experimentales que parecen avalar la hiptesis de la normalizacin.
Algunas de las dificultades del modelo de plantillas se pueden resolver con otro
modelo algo ms complejo que el anterior: el modelo basado en el anlisis de
caractersticas. Esta teora defiende que nuestra mente no trabaja con copias exactas de
la informacin sino con el anlisis de las caractersticas internas de cada patrn; por
ejemplo, el sistema visual utilizara un anlisis de caractersticas al menos en las
siguientes dimensiones: lneas y sus variantes (verticales, horizontales, oblicuas),
ngulos y sus variantes y curvas. En la memoria se representa cada patrn mediante una
- 69 -
lista de sus caractersticas geomtricas y (al menos en las versiones ms elaboradas) sus
correspondientes pesos. As, la letra "A" podra representarse mediante la siguiente lista
de caractersticas: pesos altos: dos lneas inclinadas, una hacia la derecha y otra hacia la
izquierda, una lnea horizontal, un ngulo apuntando hacia arriba; pesos bajos o nulos:
lneas verticales, lneas curvas discontinuas, ngulos rectos, etc. El patrn estimular
activa los detectores de caractersticas, y la configuracin de la activacin resultante se
comparara con la de los patrones almacenados en la memoria; la configuracin que
mejor se ajuste determinara la interpretacin perceptual del sistema.
8.3.2. El Pandemonium: rasgos principales
El Pandemonium propuesto por O. Selfridge en su escrito de 1959
Pandemonium: A paradigm for learning es precisamente uno de los primeros y ms
conocidos modelos de reconocimiento de patrones basados en el anlisis de
caractersticas. Originariamente el Pandemonium se concibi como un programa de
ordenador para reconocer seales del cdigo Morse, pero posteriormente se le dio una
interpretacin psicolgica como modelo de reconocimiento alfanumrico. La exposicin
y comentarios que siguen se refiere precisamente a la versin ms conocida del
Pandemonium (la de Lindsay y Norman en su obra Introduccin a la psicologa
cognitiva) y cuyo objetivo es el reconocimiento de letras. El Pandemonium consiste en
varios conjuntos de unidades a las que Selfrigde dio el nombre de demonios, unidades
que realizan distintas tareas y provocan la informacin de salida (la identificacin de la
forma presentada al sistema). El dibujo siguiente es una representacin habitual del
Pandemonium (tomado de Linsay y Norman, Introduccin a la psicologa cognitiva).
- 70 -
Los tipos de demonios de los que consta el modelo son los siguientes:
Demonios de la imagen: su tarea es registrar la imagen del signo externo.
Demonios de caractersticas: la tarea de las unidades de este tipo es analizar la
imagen registrada; cada demonio de caractersticas est especializado en un aspecto
particular de la forma (unos detectan lneas, otros ngulos, otros curvas, ...) por lo que
el procesamiento en este nivel consiste en la descomposicin de la forma en sus
caractersticas relevantes; cada demonio de caractersticas detecta la presencia de alguno
de los rasgos para los que ha sido definido (por ejemplo el demonio correspondiente a
las lneas verticales detecta la presencia y nmero de lneas verticales en la figura).
Demonios cognitivos: reciben y examinan la informacin de los demonios de

caractersticas; cada demonio cognitivo est especializado en el reconocimiento de una
forma (por ejemplo, uno para la letra "A" otro para la "B", ...) y busca en los datos que
les ofrecen los demonios de caractersticas la presencia de los rasgos que definen la letra
- 71 -
en la estn especializados (por ejemplo el demonio cognitivo de la letra "A" buscar la

presencia de una lnea horizontal, dos oblicuas y tres ngulos agudos).
Demonio de decisin: cuando un demonio cognitivo encuentran una caracterstica que
buscaba empieza a gritar y cuantas ms caractersticas descubre ms grita; la tarea del
demonio de decisin es escuchar el Pandemonium producido por los demonios
cognitivos y seleccionar el que grita ms fuerte; la interpretacin que el sistema hace de
la forma que se le presenta corresponde a la letra decidida por este demonio.
Una cuestin muy importante que tiene que decidir el diseador de un
Pandemonium es la de determinar las caractersticas de cada patrn. Se han dado
distintas propuestas de los criterios ms adecuados para ello, propuestas entre las que
destaca la que present en 1969 E. J. Gibson en su obra Principles of perceptual
learning and development. Los criterios que defendi se referan a la seleccin de la
lista de caractersticas para las letras maysculas, y son los siguientes:
1. Las caractersticas crticas deben estar presentes en algunos miembros, pero no en
otros, de modo que permitan una clara distincin entre ellos.
2. No deben variar cuando cambia el brillo, tamao o perspectiva.
3. Deben producir un nico patrn para cada letra.
4. La lista no debe ser muy extensa.
Ms explcita es la propuesta de Linsay y Norman en su libro ya clsico
Introduccin a la psicologa cognitiva. El cuadro siguiente (tomado de dicha obra)
presenta los demonios de caractersticas necesarios para la identificacin de una letra y
los valores que activan para cada una de las letras del alfabeto. Mediante las siete
caractersticas citadas podemos identificar adecuadamente la totalidad de las letras.
Lneas
Lneas
Lneas ngulos ngulos
verticales horizontales oblicuas

A
B
1
1
rectos
Curvas
agudos continuas discontinuas

3
C
D
Curvas
2
1
- 72 -
1
2
1
O
P
1
1
Q
R
3
1
1
2
2
1
Y
Z
1
2
En realidad, el modelo basado en el anlisis de caractersticas es semejante al de

comparacin de plantillas, slo que aqu las plantillas son las partes geomtricas que
componen la letra (podramos llamar a cada caracterstica miniplantilla) y en el
segundo caso las letras mismas. Parece que este modelo puede explicar lo que el modelo
de plantillas puede explicar (ya que las plantillas estn compuestas por caractersticas)
y, adems, otra serie de fenmenos para los que el modelo de plantillas es ineficaz.
- 73 -
8.3.3. El Pandemonium: base experimental

La teora del anlisis de caractersticas (bien sea al modo del Pandemonio, bien
sea con otro tipo de arquitectura) goza de un apoyo experimental razonable, apoyo
mayor que la teora de las plantillas. Veamos alguno de estos experimentos:
En su artculo de 1964 Visual search (Scientific American, 210) Neisser

plante la siguiente hiptesis: si el modelo de deteccin de caractersticas es
correcto la identificacin de una letra (que podramos llamar letra-objetivo) en
un contexto formado por otras letras con caractersticas muy semejantes ser
ms lenta que la identificacin de una letra en un contexto formado por letras
con caractersticas muy distintas; por ejemplo la identificacin de la letraobjetivo "Z" en el contexto de las letras "X", "L", "N" (letras angulosas) ser
ms lenta que la identificacin de dicha letra-objetivo en el contexto de las letras
"C", "S" o "G" (letras redondeadas). Esta hiptesis parece razonable puesto que
se debe tardar ms en rechazar una "N" que una "C", puesto que la "Z" comparte
con la "N" ms rasgos que con la "C". En los experimentos, los sujetos tardaban
ms en identificar la letra-objetivo cuando estaban en un contexto con letras
similares que cuando estaban en un contexto con letras menos parecidas.
Existen ciertas tcnicas que nos permiten preparar el ojo de tal modo que la
imagen visual en la retina sea la misma aunque el ojo cambie de posicin; en
estos casos se observa (y quiz por la fatiga de los receptores retinianos) que la
imagen empieza a desaparecer, pero lo hace perdiendo partes significativas, no
al azar (la imagen detenida va perdiendo lneas rectas, curvas, segmentos
significativos,...). Estos estudios de fragmentacin perceptual parecen avalar la
teora del anlisis de caractersticas.
Otro conjunto de experimentos importante se refiere a las confusiones que se

producen en el reconocimiento de letras cuando stas se presentan en
condiciones que dificultan su identificacin. Existen varias tcnicas para
provocar la confusin en los sujetos que realizan la tarea (por ejemplo utilizar el
taquistoscopio para presentar estmulos en tiempos extremadamente breves). Los
resultados de estos experimentos muestran que las letras que comparten ms
caractersticas tienden a confundirse, algo que la teora del anlisis de
caractersticas predice.
- 74 -
Algunas investigaciones sugieren la existencia de diversos tipos de clulas

nerviosas funcionalmente distintas, clulas que responden selectivamente a
distintos estmulos: unas a bordes, otras a vrtices, otras a barras luminosas,
otras a barras oscuras,...). Sin embargo los resultados y experimentos son
controvertidos y no hay un acuerdo unnime en este punto. En el caso de existir
la especializacin nerviosa citada, la teora de los detectores de caractersticas
quedara fuertemente avalada.
8.3.4. El Pandemonium: dificultades

Pero, ms all de su bondad (por ejemplo para explicar la identificacin de los
caracteres escritos y las formas geomtricas sencillas) el modelo del Pandemonium y,
en general, la teora del anlisis de caractersticas, presenta importantes deficiencias si
lo queremos utilizar como una teora general del reconocimiento de patrones. Veamos
alguna de ellas:
El Pandemonium no puede distinguir entre una "T" y una "T" invertida, o una
letra y su imagen en el espejo. La causa de estas limitaciones est en el tipo de
informacin que el sistema considera relevante para la identificacin: el Pandemonium
se fija en los elementos que componen el patrn pero no en sus relaciones estructurales.
Las relaciones estructurales tienen que ver, por ejemplo, con el modo de estar
localizados y orientados unos rasgos respecto de otros (la simetra, la interseccin, la
igualdad,...), y, sin duda, intervienen realmente en el modo en que nosotros
reconocemos patrones. Adems, posiblemente nuestra mente atiende a este tipo de
relaciones para distinguir variantes del mismo patrn: vemos como distintos los signos
A, A, A, y A (aunque todos sean ejemplos de la letra "A"), somos capaces de clasificar
ejemplos del mismo patrn en grupos a partir de sus semejanzas. Seguramente debido a
la limitacin citada, el modelo del Pandemonium no puede explicar esta competencia
(por ejemplo, el demonio de decisin responder del mismo modo y sin matices ante
dichos signos).
Otra limitacin de este modelo es que no introduce datos de alto nivel como
puede ser la informacin contextual (se ha demostrado experimentalmente que el
sentido global de una frase interviene en la interpretacin particular que se le asigna a
una letra), o las expectativas inducidas.
- 75 -
Por lo dems, cuando creamos un Pandemonium e intentamos comprobar su

validez, parece necesario que nosotros hayamos interpretado antes el estmulo en los
trminos de las categoras fsicas que el propio sistema utiliza para definir el patrn
(lneas rectas, curvas, ngulos, ...), de tal manera que, en realidad, el Pandemonium
interpreta lo que antes nosotros hemos interpretado del estmulo, no interpreta el
estmulo mismo; para que de verdad fuese capaz de realizar esto ltimo al sistema se le
debera presentar la energa luminosa del propio estmulo (es decir, debera estar
conectado a un sensor y utilizar los datos que ste le ofrezca). Por ejemplo, si al sistema
le presentamos una letra que conste de una lnea recta, no es cierto que el estmulo
bsico o primitivo sea propiamente una lnea recta pues esto ya exige una interpretacin
(es necesario saber qu es una lnea recta); nuestra mente es capaz de descubrir lneas
rectas en el entorno, y es necesario una explicacin de esta competencia; el
Pandemonium no da cuenta de la habilidad de nuestra mente para captar este tipo de
regularidad en los estmulos. O dicho en otros trminos: en el reconocimiento de
patrones existe un procesamiento de la informacin anterior y ms bsico que el que
nos ofrece los modelos al estilo del Pandemonium.
Por ltimo, y relacionado con lo anterior, el modelo del Pandemonium tiene poca
validez ecolgica: puede ser competente en situaciones bastante artificiales (pocos
patrones, cada uno de ellos compuesto de un nmero reducido de categoras y que se
ofrecen en condiciones perceptivas ptimas), como ocurre en el caso de las letras del
alfabeto; sin embargo,
en situaciones normales, los estmulos son objetos
tridimensionales y se ofrecen en condiciones fsicas no necesariamente perfectas (poca

iluminacin, sombras, escorzos, mezcla de unos objetos con otros, ...); en estas
situaciones reales la eficacia de un Pandemonium es prcticamente nula.
8.3.5. El Pandemonium y el conexionismo
Este modelo de identificacin de patrones se puede incluir en el enfoque
conexionista pues presenta algunos de sus rasgos principales:
1. Existen muchas unidades de procesamiento.
2. La informacin se almacena de un modo bastante distribuido: en el nivel de los
demonios de caractersticas cada letra se define por la activacin de un conjunto de
unidades y cada unidad colabora en la identificacin de varias letras.
- 76 -
3. El procesamiento es en paralelo pues todas las unidades de cada nivel actan

simultneamente.
4. Las unidades estn conectadas entre s formando distintos niveles o capas.
5. La entrada y la salida de cada una de las unidades se expresa de modo cuantitativo.
6. El cmputo que realiza el sistema es bsicamente de tipo cuantitativo y probabilstico
(los demonios cognitivos reciben informacin cuantitativa de los demonios de
caractersticas y envan su seal al demonio de decisin de modo cuantitativo
(gritando mucho, poco o nada).
Pero tambin encontramos algunas importantes diferencias:
La primera y ms llamativa se refiere al sistema de representacin grfica

utilizado: en los modelos conexionistas tpicos las unidades se suelen representar
con crculos, reciben el nombre de neuronas y las conexiones entre ellas se
representan mediante lneas rectas; en el Pandemonium las unidades reciben el
nombre de demonios, se las representa mediante pequeos diablillos, y las
conexiones entre ellas mediante flechas ms o menos imaginativas.
En el Pandemonium las conexiones son excitatorias: en el sentido de que si un

demonio de caractersticas detecta un caracterstica enva su seal a un demonio
cognitivo provocando un aumento en la posibilidad de que este se active o un
incremento en su activacin; a su vez el incremento de los demonios cognitivos
provoca un aumento en la posibilidad de que el demonio de decisin se decida
por el carcter que representa dicho demonio cognitivo; pero el Pandemonium
(al menos en sus versiones ms sencillas) no presenta conexiones inhibitorias
mientras que las redes conexionistas tradicionales s lo hacen.
Aunque, como se ha dicho, el sistema es un sistema de representacin

distribuida, las redes tradicionales distribuyen de un modo ms acentuado la
informacin. Un aspecto de esta diferencia se refiere a la interpretacin
cognitiva: en los modelos de redes conexionistas en los que la informacin est
ms distribuida las unidades no representan ni significan nada, los significados y
las representaciones aparecen como consecuencia de la interaccin entre una
muchedumbre de unidades, y se reflejan particularmente en el patrn de pesos y
el patrn de actividad. En el Pandemonium hay, al menos, un nivel en el que es
- 77 -
posible la interpretacin cognitiva puesto que en l la informacin se representa

de forma localista y no distribuida (el de los demonios de caractersticas, en
donde cada demonio representa una letra) Por otro lado, es cierto que tambin
se han propuesto importantes ejemplos de redes conexionistas con unidades que
permiten una interpretacin cognitiva (por ejemplo la red NETtalk explicada
ms abajo), y, por lo tanto, representaciones locales.
El Pandemonium no presenta de modo preciso las modificaciones cuantitativas

que sufren las unidades (por ejemplo la intensidad exacta necesaria para la
activacin de un demonio cognitivo, ni la magnitud exacta de la seal que enva
un demonio cognitivo al demonio de decisin para que se decida por la letra
correspondiente al demonio cognitivo).
En el modelo tampoco encontramos conceptos habituales en el procesamiento

de las redes conexionistas tradicionales (umbral, funcin de activacin, funcin
de transferencia,... );
El procesamiento realizado por el Pandemonium depende de las asignaciones

que el diseador del sistema a establecido, las cuales dependen, a su vez, de la
comprensin que el diseador tiene de las caractersticas esenciales de las letras
(por ejemplo, considerar que la caractersticas esenciales de la letra G son tener
una lnea vertical, una lnea horizontal, un ngulo recto y una curva discontinua);
por esta razn en realidad el Pandemonium no es un sistema capaz de aprender
a reconocer formas (no sufre un proceso de modificacin de las unidades para
adecuar la entrada con la salida del sistema) ni utiliza algoritmos de aprendizaje;
sin embargo las redes tradicionales pueden aprender en el sentido citado y para
ello disponen de algoritmos de aprendizaje. El Pandemonium puede llegar a
reconocer patrones pero su capacidad se debe bsicamente a la comprensin que
el diseador tiene de la estructura de los patrones que ha de identificar.
De todos modos, las diferencias anteriores no son significativas pues algunas se
refieren incluso a cuestiones de ndole esttico (el uso de demonio en vez de

neurona, o los dibujos de las unidades); y la mayora de ellos se deben a la falta de
concrecin con habitualmente se presenta el Pandemonium. De hecho es posible utilizar
las ideas bsicas que utiliza este modelo para explicar nuestra capacidad para reconocer
patrones y reflejarla de un modo ms preciso y detallado y en trminos similares a las
- 78 -
redes conexionistas tradicionales. Es lo que ocurrira si intentsemos implementar el

Pandemonium en un ordenador; en este caso sera preciso concretar con precisin las
modificaciones cuantitativas que afectan a las unidades, a la vez que las funciones
matemticas que determinan el cmputo en los distintos niveles de procesamiento;
incluso podran aadirse conexiones inhibitorias para favorecer el procesamiento. Con
estos complementos (que no implican un cambio en el modelo sino su concrecin) la
representacin y arquitectura del Pandemonium de Selfridge tendra el mismo aroma
que los modelos conexionistas tradicionales.
Sin embargo, en donde las diferencias estn ms marcadas es en el tema del
aprendizaje. Ya se ha dicho que una de las caractersticas principales de las redes
conexionistas es que aprenden a reconocer patrones, no slo que reconocen patrones;
pero en el caso del Pandemonium quien debe aprender es el diseador de la red: debe
descubrir y aprender cules son las caractersticas bsicas que tiene cada letra (ngulos,
lneas rectas, lneas curvas,...) y debe descubrir a mano las dificultades con las que
puede tropezar el sistema para realizar un procesamiento eficaz. Por ejemplo, si
intentamos poner en funcionamiento el Pandemonium podemos observar que en
principio tendra dificultades para distinguir la letra "P" de la "R": la "P" tiene una lnea
vertical, dos horizontales, tres ngulos rectos y una curva discontinua y la "R" todas
ellas ms una lnea oblicua, de modo que los demonios cognitivos de la "P" y la "R" se
activan por igual y el demonio de decisin no podr elegir entre ellos. El diseador ha
de utilizar alguna estrategia para resolver este problema, por ejemplo obligar a que un
demonio cognitivo se active al mximo si y slo si estn presentes todas las
caractersticas de la letra correspondiente, de este modo tanto la ausencia de una
caracterstica como la presencia de una caracterstica irrelevante inhibir la respuesta de
la unidad. Con este ejemplo se quiere sealar que el modelo del Pandemonium exige
que el diseador conozca la lgica del procesamiento de la informacin para el
reconocimiento de patrones, algo que, como se sabe, constituye uno de los objetivos de
la psicologa cognitiva tradicional. Esto no ocurre en el caso de los modelos
conexionistas: en ellos la red utiliza algoritmos para la modificacin de los pesos de sus
conexiones y gracias a dichas modificaciones puede aprender por s misma a reconocer
los patrones (una consecuencia de ello es que en los modelos conexionistas no es
posible saber cules son los elementos relevantes que la red toma en cuenta para el
procesamiento ni el orden ni la lgica de dicho procesamiento; precisamente la
- 79 -
originalidad del planteamiento conexionista es que rechaza la existencia de reglas de

procesamiento).
8.4. NETtalk: Aprender a leer en Ingls
Terrence Sejnowsky y Charles R. Rosenberg escribieron en 1986 NETtalk: A
Parallel Network that Learns to Read Aloud. En este artculo presentaron la red
NETtalk, cuya finalidad era leer y hablar textos en ingls.
NETtalk tiene una estructura de tres capas interconectadas con cerca de 20.000
sinapsis:
en la capa de entrada encontramos 7 grupos de 29 unidades cada uno (203

unidades de entrada);
la capa oculta consta de 80 unidades;
y la capa de salida de 26 unidades.
De las 29 neuronas que consta cada grupo de la capa sensorial, 26 codifican una
letra del alfabeto ingls y las otras tres restantes la puntuacin y los lmites entre
palabras. Puesto que las unidades de entrada se distribuyen en siete grupos, el patrn de
entrada que la red es capaz de reconocer ha de ser de 7 caracteres como mximo. Las
unidades de salida o motoras codifican las dimensiones fundamentales del habla:
fonemas, acentos y hiatos entre slabas.
La red transformaba los datos de entrada (las letras) en fonemas o sonidos. Dado
que los pesos originales se establecieron al azar, los primeros resultados no eran buenos;
el entrenamiento consisti en presentar cerca de 1000 palabras del habla corriente de un
nio; un maestro o supervisor controlaba la correccin de la respuesta de la red y
modificaba los pesos mediante la regla delta generalizada (entrenamiento con
propagacin hacia atrs). Tras casi 50.000 presentaciones y las modificaciones
correspondientes de sus pesos, la red era capaz de leer y hablar con una exactitud del 95
por ciento.
Resultan sorprendentes algunas semejanzas entre NETtalk y la capacidad
lingstica humana:
- 80 -
la progresiva eficacia de la red guarda cierta semejanza con la de los nios: las
primeras respuestas se parecen a los balbuceos sin sentido de un beb, pero el
sucesivo ajuste de los pesos mejora la calidad de los balbuceos lentamente, hasta
culminar en unas respuestas coherentes e inteligibles ante cualquier texto en
ingls;
es capaz de generalizar: al presentarle nuevas palabras del mismo nio el

sistema era capaz de leer y pronunciar con una exactitud del 78 por ciento;
degradacin elegante: la red muestra una clara resistencia al dao; la

destruccin de algunos elementos de la red no tiene consecuencias catastrficas
en el rendimiento total, simplemente disminuye su rendimiento.
Las propiedades citadas son las que cabra esperar de un sistema de
procesamiento distribuido y paralelo (como se ha comentado en la seccin

correspondiente), y, sin duda, resulta ms eficaz para modelar la capacidad humana para
detectar patrones que los modelos de plantillas y de anlisis de caractersticas.
La figura siguiente es un esquema simplificado de la arquitectura del NETtalk
(tomado de Soledad Ballesteros, Psicologa General. Un enfoque cognitivo).
- 81 -
9. REDES NEURONALES PARA EXPLICAR EL CEREBRO
Cuando nos enfrentamos con la difcil tarea de comprender los presupuestos,

tesis y alcance del conexionismo muy pronto se nos presenta la siguiente pregunta: los
modelos conexionistas, qu quieren explicar, la mente o el cerebro? Son modelos de
la mente o del cerebro? Una respuesta que habitualmente se ofrece es que las redes
conexionistas se han desarrollado en el campo de la psicologa para explicar
habilidades y competencias mentales (percepcin, lenguaje, pensamiento, ...); ese tipo
de redes pertenecen a la psicologa y son modelos de la mente; frente a ellas, se indican
ejemplos de redes creadas en el marco de la neurociencia para dar cuenta de procesos
puramente cerebrales (y, en este caso, son por lo tanto modelos del cerebro).
Con el trmino psicobiologa podemos referirnos al enfoque que intenta
explicar el mundo de la mente y la conducta a partir de elementos, estructuras y
procesos biolgicos. Una parte importante de esta disciplina incluye el estudio de la
influencia que sobre la psque tienen las substancias qumicas, tanto exgenas como
endgenas (por ejemplo el influjo de los neurotransmisores en la conducta). Pero parece
claro que tambin el estudio de cmo la arquitectura y procesos del sistema nervioso
influyen en la mente y la conducta (lo que cabra llamar psiconeurologa) debe formar
parte de la psicobiologa. En el momento actual de la ciencia disponemos ya de
explicaciones biologistas para dar cuenta de importantes fenmenos psicolgicos, y no
slo en el mbito de los trastornos de conducta; no es arriesgado afirmar que en el
campo de la percepcin este enfoque ya nos permite explicar algunos fenmenos
perceptuales (por ejemplo, simplemente el hecho de poder percibir colores, o la
distincin de contornos a partir de peculiaridades del procesamiento neural como la del
efecto de la inhibicin lateral, ...). Aunque la siguiente tesis exigira, naturalmente, un
anlisis cuidadoso parece que el conexionismo tiene como destino formar parte de la
psicobiologa (o psiconeurologa) antes que de lo que tradicionalmente entendemos
por psicologa.
El conexionismo oscila entre las siguientes posiciones:
la Inteligencia Artificial: si las redes que se construyen no intentan reproducir

el funcionamiento real del cerebro y buscan, simplemente, imitar competencias
- 82 -
tpicamente humanas, entonces no tenemos psicobiologa pero tampoco

psicologa, tenemos una tecnologa que nos faculta para construir arquitecturas
que puedan ser implementadas en sistemas fsicos no biolgicos como los
ordenadores y los robots (por ejemplo para el reconocimiento de textos, el
reconocimiento del habla, el movimiento preciso en un entorno poco
amigable,...);
la biologa: si se construyen redes que quieren ser fieles a los mecanismos y

estructuras reales de nuestro sistema nervioso, y se las utiliza para dar cuenta de
competencias tradicionalmente atribuidas a la mente (lenguaje, percepcin,
memoria,...); este enfoque no es psicologa (al menos psicologa mentalista) sino
psiconeurologa y, por supuesto, sus descubrimientos pueden tener relevancia en
Inteligencia Artificial.
El conexionismo parece ser una teora que apela al cerebro para explicar
competencias atribuidas tradicionalmente a la mente. Con esto se quiere sugerir que

desde el conexionismo se defiende la tesis de que lo mental no tiene un estatuto propio,
que la vida mental no posee un tipo de regularidades que puedan dar lugar a una
disciplina independiente de la biologa (ms exactamente de las ciencias del sistema
nervioso). En esta lnea de interpretacin se incluyen, por ejemplo, las tesis de dos de
los representantes ms destacados en el campo de la reflexin terica sobre el sentido,
valor y lmites del conexionismo, los Churchland.
Por otro lado, la idea de que es preciso comprender el funcionamiento de las
estructuras nerviosas para dar cuenta de los procesos mentales (es decir, la idea de que
las redes conexionistas han de ser modelos del cerebro) se encuentra en los orgenes
mismos del conexionismo y ha dado lugar a redes neuronales e hiptesis que gozan de
cierto apoyo experimental; citemos algunos ejemplos:
la regla de aprendizaje descubierta por Hebb quera describir el modo real en

que se relacionan las neuronas en el cerebro para formar asociaciones estables
entre ellas;
en su obra de 1947 How We Know Universals: The Perception of Auditory and

Visual Formas, McCulloch y Pitts, defendieron la tesis de que las redes
neuronales de los crtices auditivo y visual eran capaces de reconocer
- 83 -
propiedades invariantes del mismo patrn, que las redes neuronales del colculo
superior (involucrado en el control del movimiento de los ojo) podan generar el
patrn a partir de ejemplos de dicho patrn, y presentaron una descripcin
abstracta de dichas redes;
Taylor propuso las redes que llevan su nombre para explicar la memoria
asociativa y afirm que las reas de asociacin de la corteza cerebral y el tlamo
contenan dichas redes;
y en este mismo contexto hay que situar las teoras del cerebelo, del hipocampo
y del neocortex defendidas por Marr a finales de los sesenta y principios de los
aos setenta:
o
el funcionamiento del cerebelo es semejante a las redes asociativas

direccionables
por
contenido
(ACAMs),
gracias
dicho
funcionamiento los animales pueden realizar movimientos voluntarios

delicados y precisos;
o
el hipocampo es el soporte fsico de la memoria a corto plazo o memoria

de trabajo, y puede clasificar patrones y recuperar un patrn a partir de
datos fragmentarios porque es tambin un ACAM;
las representaciones que nos formamos de las clases y subclases de

objetos se basan en el hecho de que el neocortex tiene una estructura y
mecanismo similares al del Perceptrn.
La figura siguiente representa la red propuesta por Marr para explicar el

funcionamiento del cerebelo (tomado de Stephen R. Graubard, comp. El nuevo debate
sobre la inteligencia artificial).
.
- 84 -
clulas granulares (g); son las nicas clulas excitatorias, el resto son inhibitorias;
clulas de Golgi (Go) controlan los umbrales de las clulas granulares;
clulas de cesta (Ba): controlan los umbrales de las clulas de Purkinje (Pu)
clulas estrelladas (S): controlan los umbrales de las clulas de Purkinje (Pu)
La red se comporta como una red ACAM y asocia los patrones de las fibras musgosas
(MF) y de las clulas en pendiente (CF).
BIBLIOGRAFA BSICA EN CASTELLANO
Ballesteros Jimnez, Soledad. (1995). Psicologa general. Un enfoque

cognitivo. Madrid: Editorial Universitas, Segunda edicin.
Boden, Margaret A. (compiladora).(1990). The Philosophy of Artificial
Intelligence. Londres: Oxford University Press. Traduccin castellana
(1994): Filosofa de la Inteligencia Artificial. Mxico: Editorial Fondo de
Cultura Econmica.
Churchland, Paul M. (1988). Matter and Consciousness. Cambridge, MA:
Revised Edition. The MIT Press. Traduccin castellana (1992): Materia y
- 85 -
conciencia. Una introduccin contempornea a la filosofa de la mente.

Barcelona: Editorial Gedisa.
Churchland, Paul M. y Churchland, Patricia Smith. (1990). Podra pensar una
mquina? Investigacin y Ciencia. Marzo.
Corb, Josep y Prades, Josep L. (1995). El conexionismo y su impacto en la
filosofa de la mente. En Fernando Broncano (ed.) La mente humana.
Madrid: Editorial Trotta y Consejo Superior de Investigaciones
Cientficas.
Engel, Pascual (comp.). (1988). Psichologie ordinaire et sciences cognitives.
Paris: Centre National de la Recherche Scientifique. Traduccin
castellana (1993): Psicologa ordinaria y ciencias cognitivas. Barcelona:
Editorial Gedisa.
Fernndez Trespalacios, Jos Luis. (1986). Psicologa General (I). Madrid:
Editorial Grficas Maravillas.
Fernndez Trespalacios, Jos Luis. (1990). Qu es la psicologa? Una visin
actual de sus puntos de vista tericos y de sus aplicaciones. Madrid:
Editorial Grficas Maravillas.
Fernndez Trespalacios, Jos Luis. (1990). Enfoques actuales de la psicologa
cientfica. Madrid: Leccin de la sesin inaugural del curso 1990/1991.
Ferrater Mora, Jos. (1990). Modos de modelar la mente. en VVAA. Modelos
de la mente. Madrid: Editorial de la Universidad Complutense.
Fodor, Jerry A. (1995). The Language of Thought. Cronwell. Nueva York.
Traduccin castellana (1984): El lenguaje del pensamiento. Madrid:
Alianza Editorial.
Freeman, James A. y Skapura, David M. (1991). Neural Networks. Algorithms,
Applications, and Programming Techniques. Massachusetts: AddisonWesley Publishing Company. Traduccin castellana (1993): Redes
- 86 -
neuronales. Algoritmos, aplicaciones y tcnicas de programacin.

Wilmington,
Delaware,
USA:
copublicado
por
Addison-Wesley
Iberoamericana y Ediciones Daz de Santos

Fuentes Melero, Luis J. (1992). Reconocimiento de patrones. En Jos Luis
Fernndez Trespalacios y Po Tudela, (coord.), Tratado de Psicologa
General. Vol. 3. Atencin y percepcin. Madrid: Alhambra Universidad.
Garca-Albea, Jos E. (1991). Entrevista con Jerry Fodor. En La mente y sus
representaciones: cognicin e inteligencia artificial. Madrid: Revista de
Occidente, Abril 1991.
Garca-Albea, Jos E. (1991). La mente como mquina simblica. En La mente
y sus representaciones: cognicin e inteligencia artificial. Madrid:
Revista de Occidente, Abril 1991.
Garca Madruga, Juan A. (1991). El enfoque computacional en el estudio del
desarrollo de la mente. En La mente y sus representaciones: cognicin e
inteligencia artificial. Madrid: Revista de Occidente, Abril.
Graubard, Stephen R. (compilador). (1988). The artificial intelligence debate
False starts, real foundations. Cambridge, MA: Mit Press edition.
Traduccin castellana (1993): El nuevo debate sobre la inteligencia
artificial. Sistemas simblicos y redes neuronales. Barcelona: Editorial
Gedisa.
Hilera, Jos R. y Martnez, Victor J. (1995). Redes neuronales artitificiales.
Fundamentos, modelos y aplicaciones. Madrid: Editorial RA-MA.
Johnson-Laird, Philip N. (1988). The Computer and the Mind: An Introduction to
Cognitive Science. William Collins Sons and Co. Lid., Glasgow.
Traduccin castellana (1990): El ordenador y la mente. Introduccin a
la ciencia cognitiva. Barcelona: Editorial Paids.
Lindsay, Peter H. y Norman, Donald A. 1977 Human Information Processing.
An Introduction to Psychology Nueva York, Academic Press. Traduccin
- 87 -
castellana (1986): Introduccin a la psicologa cognitiva. Primera

reimpresin. Madrid: Editorial Tecnos.
Martnez Arias, Rosario y Yela, Mariano (coordinadores). (1991). Pensamiento
e inteligencia. Madrid: Editorial Alhambra.
Mayor, Juan. (1990). Modelos de la mente y modelos mentales. en VVAA.
Modelos de la mente. Madrid. Editorial de la Universidad Complutense.
Mora, Francisco y Sanguinetti, Ana Mara. (1994). Diccionario de
neuronciencias. Madrid: Alianza Editorial.
Olmeda, Ignacio y Barba-Romero, Sergio (editores). (1993). Redes neuronales
artificiales. Fundamentos y aplicaciones. Alcal de Henares: Servicio de
Publicaciones de la Universidad de Alcal.
Pitarque, Alfonso y Algarabel, Salvador. (1991). El conexionismo como marco
de simulacin: aplicacin a una tarea de facilitacin semntica.
Cognitiva, vol. 3, 2.
Pylyshyn, Zenon W. (1984). Computation and Cognition. Toward a Foundation
for Cognitive Science. Cambridge, MA: The MIT Press. Traduccin
castellana
(1988):
Computacin
conocimiento.
Hacia
una
fundamentacin de la ciencia cognitiva. Madrid: Editorial Debate.

Ros, Juan, Pazos, Alejandro, Brisaboa, Nieves R. y Caridad, Serafn. (1991).
Estructura, dinmica y aplicaciones de las redes de neuronas
aritificiales. Madrid: Editorial Centro de Estudios Ramn Areces.
Rivire, Angel. (1991). Objetos con mente. Madrid: Alianza Editorial.
Rumelhart, David E., McClelland, James L. y el grupo PDP. (1986). Parallel
Distributed Processing: Explorations in the Microstructure of Cognition.
Massachusetts:
The MIT
Press.
Traduccin
castellana: (1992).
Introduccin al procesamiento distribuido en paralelo. Madrid: Alianza

Editorial.
- 88 -
Searle, John R. (1990). Es la mente un programa informtico? Investigacin y

Ciencia. Marzo, 1990.
Sierra-Vzquez, V. (1992). Procesamiento visual inicial: aspectos biolgicos,
psicofsicos y computacionales del anlisis espacial de imgenes por el
sistema visual humano. En Jos Luis Fernndez Trespalacios y Po
Tudela, (coord.), Tratado de Psicologa General. Vol. 3. Atencin y
percepcin. Madrid: Alhambra Universidad.
Toribio Mateas, Josefa. (1995) Eliminativismo y el futuro de la Psicologa
Popular. En Fernando Broncano (ed.) La mente humana. Madrid:
Editorial Trotta y Consejo Superior de Investigaciones Cientficas.
- 89 -

El Conexionismo. Características, Historia y Arquitecturas

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

El Conexionismo. Características, Historia y Arquitecturas

Cargado por

Copyright:

Formatos disponibles

NDICE

7.2.4.2. Tipos de funciones de activacin

La psicologa cognitiva como paradigma psicolgico tiene una historia reciente:

racionalistas. En primer lugar por la importancia que se le da a las representaciones: el

3. adems, la informacin con la que trabaja el ordenador es significativa al

Parece claro que un primer punto comn es la referencia a la computacin:

La psicologa cognitiva clsica entiende el procesamiento como la aplicacin

Las dos teoras proponen el uso de la simulacin por ordenador para la

La psicologa cognitiva clsica propone la lgica y las reglas que imponen

matemticas, particularmente estadsticas, para la realizacin de los

El objetivo de la psicologa cognitiva clsica es el descubrimiento de las reglas

Otro contraste que se suele destacar es el que se refiere al aprendizaje: los

red, y no factores innatos, la que provoca la aparicin de los pesos adecuados

2. CARACTERSTICAS GENERALES DEL ENFOQUE CONEXIONISTA

neoconexionismo, para distinguirlo del antiguo conexionismo propuesto por

La red es un conjunto de unidades de procesamiento (neuronas) muy

2. Dichas unidades interactan entre s mediante las conexiones que los

La funcin de cada unidad es simplemente realizar clculos con las

10. Las seales de salida que emite la red se expresan en trminos

3. IMPLEMENTACIN DE LAS REDES NEURONALES.

Las redes neuronales suelen implantarse en los ordenadores tradicionales,

Neurocomputadores: constan de un conjunto de procesadores conectados entre

Neurochips: en este caso las redes neuronales se implementan en o uno o varios

neurocomputadores, pero la velocidad es muy superior que en los

Neurocomputadores de propsito especial: las mquinas anteriores son de

4. CAMPOS DE APLICACIN DE LAS REDES NEURONALES

La mayora de los modelos existentes tienen que ver con el reconocimiento de

obtenidos mediante electrocardiograma, encefalograma, anlisis sanguneo, ...), el

5. DIFERENCIAS ENTRE EL CONEXIONISMO Y LOS MODELOS

Como consecuencia de las caractersticas citadas en la seccin 2, el conexionismo

5.1. Inspiracin neurofisiolgica.

Psicologa y la Biologa se convierten en disciplinas ms prximas que lo que permita

Por ejemplo, el relativo al nmero de unidades de procesamiento: en todo el

En las redes conexionistas los pesos entre las conexiones se establecen

En el caso de las redes biolgicas, el aprendizaje da lugar a modificaciones en

5.2. El procesamiento es paralelo, no serial.

reconocimiento de formas necesitaban un tiempo de ejecucin muy alto y sus resultados

5.3. Procesamiento distribuido.

los relojes digitales suelen expresar la informacin horaria mediante segmentos;

La entrada +1 -1 produce: 1x -1 + -1x 0

permite emparejar distintos vectores de entrada a sus vectores de salida

5.4. Computacin sin reglas.

el reconocimiento de patrones no es otra cosa que la capacidad para identificar ejemplos

dinmicos porque pueden cambiar constantemente para adaptarse a las nuevas

conexin existentes entre las distintas unidades, no la adquisicin de reglas o algoritmos

5.5. Degradacin elegante. Tolerancia a fallos.

6. BREVE HISTORIA DEL CONEXIONISMO

6.1 Hasta la primera mitad del siglo XX

Estas ideas de Hebb han resultado particularmente fecundas. Por ejemplo, ya en

intentaron modelar aspectos elementales de las neuronas biolgicas, las neuronas

6.2 Aos cincuenta y sesenta.

entrenamiento es la regla de Hebb: se aumentan los pesos activados si se activan las

Las redes anteriores asocian indirectamente el elemento a y el elemento b al estar

6.2.2. El reconocimiento de patrones.

A, A, A, A, A), pero evidentemente esta capacidad aparece tambin en otros

Ya se ha citado la aportacin de McCulloch y Pitts en este campo, por lo que ahora

realizar clculos aritmticos

modo muy confiable.

En 1963 Shamuel Winograd y Jack D. Cowan escribieron Reliable Computation in

importancia del aprendizaje en la organizacin de las redes neuronales;

porque su modelo para el reconocimiento de patrones descansa en el procesamiento

fondos a la inteligencia artificial y la psicologa cognitiva clsica, con el consiguiente

6.3. Aos sesenta y ochenta.