Está en la página 1de 76

EL CONEXIONISMO

"La nueva perspectiva es completamente diferente, ya que el


procesamiento se hace por las redes PDP que se configuran ellas
mismas para emparejar los datos que les llegan con el mnimo
conflicto o discrepancia. Los sistemas se estn siempre ajustando a s
mismos (modificando sus pesos). El aprendizaje es continuo, natural
y esencial para el funcionamiento operativo. Las nuevas
conceptualizaciones se reflejan mediante configuraciones de estados
cualitativamente diferentes. La informacin se pasa entre las
unidades, no a travs de mensajes sino mediante valores de
activacin, mediante escalares y no mediante smbolos. La
interpretacin del procesamiento no es en trminos de mensajes que
van a ser enviados, sino ms bien mediante qu estados estn
activados. por lo tanto, lo importante es que las unidades estn
activas y no qu mensajes sean enviados. En el sistema
convencional, el aprendizaje tiene lugar a travs de los cambios en
las estructuras representacionales, en la informacin contenida en la
memoria. En este nuevo enfoque, el aprendizaje se produce mediante
nuevas conexiones y las ms antiguas se debilitan. En el sistema
convencional, distinguimos entre la informacin que se procesa y las
estructuras de procesamiento. Sin embargo, en el sistema PDP son la

misma cosa: la informacin se refleja en la misma configuracin,


forma y operacin de las estructuras de procesamiento."
D. E. Rumelhart, J. L. McClelland y el grupo PDP: Introduccin al
Procesamiento Distribuido en Paralelo, p. 354. Alianza Psicologa,
Madrid 1992
APENDICE: MATRICES
Una matriz es una formacin rectangular de nmeros. Una matriz
de m por n (escrito m x n) tiene m filas y n columnas. Por ejemplo:

es una matriz 2 x 4

es una matriz 4 x 2

es una matriz cuadrada 4 x 4

es una matriz fila 1 x 4

es una matriz columna 4 x 1

Generalmente las matrices se representan con letras maysculas en negrita,


por ejemplo, A, B y C podran representar tres matrices.
La posicin de un elemento en una matriz es de importancia fundamental. Si
son intercambiados elementos distintos, la matriz tambin cambia. Por ejemplo:
,,
son todas matrices distintas. Dos matrices son idnticas si y slo si cada elemento
de una es igual al correspondiente elemento de la otra. Dos matrices no pueden
ser iguales a menos que tengan el mismo nmero de filas y el mismo nmero de
columnas; as:

La suma (o sustraccin) de matrices es sencilla, pero solamente puede


realizarse si las matrices son del mismo orden (es decir, m x n), esto es, cuando
tienen el mismo nmero de filas y columnas. Los elementos correspondientes se
suman (o, en el caso de la sustraccin, los elementos se restan).
Ejemplo

Ejemplo

Multiplicacin de matrices por nmeros reales


Multiplicar una matriz por un nmero p es multiplicar cada elemento de la
matriz por p.

Multiplicacin de matrices
Dos matrices se pueden multiplicar si y slo si el nmero de columnas de la
primera matriz es igual al nmero de filas de la segunda

AxB=

Ejemplo

Ejemplo

Ejemplo

I. INTRODUCCIN
La psicologa cognitiva como paradigma psicolgico tiene una
historia reciente: aunque algunas propuestas de finales de los aos
cuarenta y de la dcada de los cincuenta se pueden considerar como
primeros esbozos de esta forma de hacer psicologa, es a partir de los
aos sesenta cuando realmente se empieza a extender por el mundo
entero, compitiendo en los centros de estudio y de investigacin con
el conductismo, al que finalmente parece haber desbancado como
paradigma dominante.
El conductismo supuso uno de los mayores esfuerzos de los
psiclogos por hacer de su disciplina una ciencia. Los principios
metodolgicos que exigieron a la psicologa (experimentacin,
rechazo de la introspeccin, empleo de categoras explicativas
definidas operacionalmente, ...) supuso un adelanto y una conquista
que la mayora de los psiclogos consideran irrenunciable. Sin
embargo, estos triunfos se vieron claramente empaados en
cuestiones fundamentales: el conductismo es una psicologa sin
sujeto(psicologa del organismo vaco); su pretensin terica
fundamental consiste en explicar toda la conducta a partir del
aprendizaje: son los refuerzos y los estmulos presentes en la vida de
los organismos los que determinan su modo de relacionarse con el
medio y de resolver sus problemas adaptativos. Esta paradjica
renuncia al sujeto para explicar lo que el sujeto hace se puede
plantear en los trminos tradicionales de cuerpo y mente: el
conductismo da poca importancia al cuerpo y a las predisposiciones
genticas de la conducta; pero tambin rechaza la mente, prescinde
de forma explcita y, en muchos casos combativa, de la mente como
elemento explicativo. La psicologa conductista estudia la
conducta para explicar la conducta.
Esta idea del ambientalismo y del organismo vaco entra en crisis
en los aos sesenta. Por un lado los etlogos y las investigaciones en
neurociencias, y por otro los desarrollos de la propia la psicologa,
van a cuestionar estos principios explicativos bsicos.
Por parte de la psicologa cognitiva, la crtica se referir
bsicamente al olvido de la mente. Sabemos por qu result atractiva
la psicologa cognitiva: de nuevo se introducen en la psicologa temas
como el de la atencin, la percepcin, la memoria, el pensamiento, el
lenguaje, temas que parecen irrenunciables para toda psicologa que
quiera ser completa y que el conductismo a duras penas pudo incluir
en sus investigaciones. Y como compendio de todas estas
capacidades y actividades, la mente. De nuevo la mente entra el la
psicologa, y, adems, explicada con mtodos que heredan del
conductismo la pretensin de objetividad: la psicologa cognitiva

rechaza tambin la introspeccin como acceso privilegiado a lo


psquico favoreciendo los informes objetivos obtenidos en laboratorio.
Simplificando, el mentalismo tradicional quiere estudiar la mente
mirando a la mente, la psicologa cognitiva quiere estudiar la
mente mirando la conducta. Considera irrenunciable la referencia
a la mente como causa de la conducta, pero tambin considera
irrenunciable la observacin objetiva de la conducta para el
descubrimiento de las estructuras y procesos mentales
supuestamente elicitadores de la conducta.
Pero la diferencia con otros mentalismos no est slo del lado
del mtodo (el conductismo metodolgico del cognitivismo frente
a la introspeccin del mentalismo tradicional), sino, ms importante
an, de los conceptos y categoras fundamentales con los que intenta
comprender la mente: la diferencia esencial est en la idea de mente.
La categora explicativa bsica que utiliza el paradigma
cognitivo es la de informacin: la mente es una entidad capaz de
recibir, almacenar y procesar de diversos modos la
informacin, y de generar una conducta en virtud de dichas
actividades. Esta tesis primordial tiene importantsimas
consecuencias en la idea de mente y de psicologa propuesta por este
paradigma. Por ejemplo, parece claro que las actividades mentales
que no son cogniciones, las actividades mentales que no consisten en
informar o describir el mundo, slo con enormes dificultades pueden
entrar en el programa de investigacin cognitivo: aqu hay que incluir
fundamentalmente el mundo de las emociones y el de la motivacin:
estar triste no es tener un estado informativo determinado, desear no
es tener una representacin del mundo, aunque, evidentemente, la
informacin manejada por el sujeto tiene clara influencia tanto en la
emocin y el sentimiento como en el deseo y la voluntad. En trminos
clsicos, la psicologa cognitiva estudia la dimensin intelectual de la
psque, pero no la emotiva y la volitiva.
En la forma de entender la informacin y el modo de procesar
la informacin fueron importantes tanto ciertas ideas filosficas como
los avances tecnolgicos en informtica. Por parte de la filosofa, la
influencia ms clara tiene que ver con tesis racionalistas. En primer
lugar por la importancia que se le da a lasrepresentaciones: el trato
con la cosas est determinado por el conocimiento que el sujeto tiene
del mundo, conocimiento que ha de estar presente de algn modo en
l para que su conducta resulte eficaz. A esta forma vicaria de estar
el mundo se le suele llamar representacin, y la investigacin de su
estatuto y peculiaridades es precisamente uno de los temas
principales en el paradigma cognitivo. Estas entidades
tienen contenido semntico, significan algo (por ejemplo,
conceptos, figuras, formas, ngulos, notas o propiedades, ...) y
gracias a dicho significado se refieren al mundo De este modo, las

representaciones son las unidades informativas que maneja el sujeto


y cuyo procesamiento determina la conducta. Pero las
representaciones se combinan unas con otras siguiendo reglas y el
rendimiento de cada una de las facultades mentales (percepcin,
memoria, lenguaje, atencin, ...) se define a partir de las distintas
reglas de transformacin y combinacin de representaciones. De este
modo, reglas y representaciones son dos de los elementos
conceptuales bsicos del cognitivismo y dan lugar al programa de
investigacin caracterstico de este paradigma.
La tecnologa existente estableci el modo concreto de
concebir las formas de instanciar la representacin y de procesar la
informacin. Aunque en los primeros aos de la informtica hubo
algunos intentos de construir sistemas artificiales de procesamiento
que reprodujesen algunos aspectos muy abstractos del cerebro (el
Perceptrn, por ejemplo), el modelo que sin embargo tuvo xito fue
el delordenador Von Neumann (los ordenadores actuales son
ejemplos de este modelo). Sus caractersticas principales son las
siguientes:
1.

la informacin est localizada en partes fsicas concretas: si guardo en el


disco duro de mi ordenador lo que ahora estoy escribiendo, la informacin se
almacenar fsicamente en un lugar preciso, al que el ordenador sabr
acceder mediante un sistema preciso de direcciones;

2. la informacin se procesa en serie, si hago que corra un programa en mi


ordenador, las instrucciones de que ste consta se realizarn siguiendo un
orden, y una en cada unidad de tiempo, nunca dos en el mismo momento
(decimos que no hay dos procesadores, sino uno);
3. adems, la informacin con la que trabaja el ordenador es significativa al
menos en el nivel del programador: una palabra, una letra, una lnea, un
ngulo, una figura, ...
4. el ordenador consta de partes fsicamente diferenciadas para tareas
realmente diferentes: grandes estructuras como la memoria, los perifricos,
la unidad lgico-matemtica, la unidad de procesamiento central...
5. la informacin est controlada desde una parte del ordenador privilegiada:
la unidad central de procesamiento, unidad que se encarga de establecer las
jerarquas en la actuacin y el control del sistema;
6. las reglas de procesamiento describen transformaciones que atienden a
restricciones lgicas, semnticas y sintcticas.

La psicologa cognitiva clsica tom estas ideas y las traslad a


la psicologa: se entendi que la mente era como un programa
informtico y el cerebro como el hardware del ordenador. Se intent
describir el flujo de la informacin con la idea de que la mente
procesa la informacin, que consta de macroestructuras que la
transforman a su manera, se busc el autntico modo de darse las

representaciones, ... hasta que en la segunda mitad de los aos


ochenta se produce una modificacin sustancial en el paradigma
cognitivo con el desarrollo del conexionismo. En 1986 D. E. Rumelhart
y J. L. McClelland editan Parallel Distributed Processing, obra
considerada como la Biblia del conexionismo y que supuso el
cambio de rumbo en la psicologa cognitiva. Es comn sealar la
radicalidad de dicho cambio, hasta el punto de que algunos autores
sealan que con el conexionismo se da realmente un cambio de
paradigma. Aunque slo tras la lectura de la totalidad de este
informe sobre el conexionismo se puede apreciar de un modo ms
cabal el contraste entre estas dos formas de hacer psicologa
cognitiva, se pueden adelantar algunas importantes semejanzas y
diferencias entre ambos enfoques:

Parece claro que un primer punto comn es la referencia a


la computacin: ambas teoras entienden la mente como un
sistema que procesa informacin y responde al medio a partir
de dicho procesamiento. Pero ni siquiera en este punto, que sin
duda es el que da continuidad a las dos corrientes, se da el
acuerdo:
o

La psicologa cognitiva clsica entiende el procesamiento


como la aplicacin de un conjunto de reglas a entidades
situadas en el nivel de la psicologa popular (creencias y
deseos, bsicamente); el conexionismo entiende el
procesamiento como el clculo de las seales de salida a
partir de los cmputos que realizan las unidades de la red
en funcin de los pesos de las conexiones y de
determinadas funciones matemticas que determina la
activacin de dichas unidades y las salidas
correspondientes a cada una de ellas. Para el
conexionismo la computacin no se realiza sobre
entidades reconocibles desde el nivel de la psicologa
popular.

Las dos teoras proponen el uso de la simulacin por


ordenador para la comprobacin de las hiptesis relativas
a los procesos mentales, pero la psicologa cognitiva
clsica propone la simulacin en el ordenador
convencional y el conexionismo la simulacin mediante
arquitecturas semejantes a la del cerebro.

La psicologa cognitiva clsica propone la lgica y las


reglas que imponen restricciones semnticas y sintcticas
para realizar los cmputos (como ocurre en los
programas de ordenador de la Inteligencia Artificial
tradicional); el conexionismo, sin embargo
utilizaherramientas matemticas, particularmente

estadsticas, para la realizacin de los cmputos que se


supone realiza nuestra mente.

El objetivo de la psicologa la psicologa cognitiva clsica es el


descubrimiento de las reglas que rigen los procesos mentales y
de los elementos o estructuras bsicas del procesamiento
humano; el del conexionismo es el descubrimiento de redes
adecuadas para la simulacin de tareas caractersticamente
mentales y de reglas de aprendizaje eficientes.

Otro contraste que se suele destacar es el que se refiere


al aprendizaje: los modelos clsicos rechazan el
asociacionismo y tienen a defender posiciones innatistas, el
conexionismo parece una vuelta al asociacionismo (las redes
neuronales no son otra cosa que asociaciones entre unidades)
y, puesto que las redes comienzan el aprendizaje con pesos
establecidos aleatoriamente, tiende a defender la idea de la
mente como una tabula rasa o papel en blanco, siendo la
experiencia, el ambiente en el que se desenvuelve la red, y no
factores innatos, la que provoca la aparicin de los pesos
adecuados para el procesamiento y el almacenamiento de la
informacin. Algunos autores consideran que estas diferencias
separan al conexionismo de la psicologa cognitiva y lo
aproximan al conductismo pues, aunque no exactamente en el
mismo sentido, ste tambin defiende el asociacionismo y el
ambientalismo.

V. HISTORIA

VI.1. HASTA LA PRIMERA MITAD DEL SIGLO XX


Las primeras aportaciones destacables provienen de la
neurofisiologa: Luria, Lashley y Hebb se
enfrentaron
a
las
doctrinas dominantes a finales del siglo XIX, doctrinas que defendan
el carcter localista del almacenamiento y de las funciones del
cerebro; frente a estas doctrinas defendieron una concepcin
distribuida de los sistemas de procesamiento y memoria del cerebro.
Sus investigaciones demostraron que la especializacin poda darse
en relacin a grandes regiones del cerebro, pero en absoluto en las
neuronas singulares. Lashley llev tan lejos la hiptesis distribuida
que postul el carcter equipotente del cerebro (cualquier regin del
cerebro
puede
realizar
cualquier
tarea
determinada).
De los tres autores citados es sin duda Donald Hebb el ms
importante
en
relacin
con
desarrollo
del
conexionismo,
particularmente a partir de su libro publicado en 1949 La

organizacin de la conducta. Hebb defendi la conexin entre


psicologa y fisiologa, propuso la tesis del carcter distribuido de la
informacin en unidades informativas y formul uno de los primeros
procedimientos de aprendizaje (procedimiento que algunos autores
creen que ya haba sugerido Santiago Ramn y Cajal): si un conjunto
de neuronas conectadas entre s se activan repetidamente, sus
sinapsis aumentan su conductividad, o de otro modo: conjuntos de
neuronas sincrnicamente activadas tienden a organizarse en
conjuntos
conectados.
Estas ideas de Hebb han resultado particularmente fecundas. Por
ejemplo, ya en 1954 Albert M. Uttleydemostr en The Classification
of Signals in the Nervous System que redes entrenadas con el modelo
de aprendizaje hebbiano eran capaces de reconocer patrones simples
binarios (111000, 110111, ...) en clases (por ejemplo las que
comienzan
por
110).
El siguiente hito reseable se refiere a la aportacin del
neurofisilogo Warren McCulloch y el matemtico Walter Pitts: en
1943 publicaron A logical calculus of the ideas immanent in nervous
activity. El artculo de McCulloch y Pitts fue importante, entre otras
razones, porque en l se trata al cerebro como a un organismo
computacional. Propusieron la construccin de mquinas de
computar con una estructura abstracta similar a la que creyeron
encontrar en las redes neuronales biolgicas, aunque, a diferencia de
las redes conexionistas actuales, dirigidas por un enfoque lgico y no
uno probabilstico. Dieron ms importancia al aprendizaje que a
disposiciones innatas en la formacin de las conexiones entre las
unidades, y demostraron que redes neuronales sencillas conectadas
entre s mediante sinapsis excitadoras e inhibidoras y asignando un
valor umbral para la activacin de la unidad de salida, eran capaces
de representar adecuadamente las leyes lgicas fundamentales. A
estas neuronas sencillas las llamaron neuronas formales;
actualmente a las redes constituidas por dichas unidades se las suele
llamar redes de McCulloch-Pitts. Aunque intentaron modelar
aspectos elementales de las neuronas biolgicas, las neuronas
formales eran simplemente conmutadores lgicos, semejantes a los
circuitos lgicos que se pueden crear mediante interruptores y por los
que
puede
fluir
la
corriente
elctrica.
En 1947 McCulloch y Pitts escribieron How We Know Universals:
The Perception of Auditory and Visual Formas, obra en la que trataron
el problema del reconocimiento de patrones o problema del
reconocimiento de variaciones de un mismo patrn y en la que
presentaron dos redes. La primera tena como objetivo reconocer
propiedades comunes en distintos individuos (propiedades invariantes
del mismo patrn); la segunda era capaz de generar el patrn a partir
de ejemplos de dicho patrn. Hicieron una interpretacin biolgica de
estas redes suponiendo que las redes neuronales de los crtices
auditivo y visual eran redes del primer tipo y que el colculo superior

(involucrado en el control del movimiento de los ojo) era una red del
segundo
tipo.

Volver al ndice
VI.2.

AOS

CINCUENTA

SESENTA

En la dcada de los cincuenta las redes neuronales se utilizaron


para dar cuenta de dos capacidades importantes de la mente
humana: la memoria asociativa y el reconocimiento de patrones.
VI.2.1.

La

memoria

asociativa

Empecemos con la memoria asociativa: la asociacin entre


recuerdos es un hecho conocido desde hace mucho tiempo; cuando
dos recuerdos tiene algn aspecto comn quedan ligados entre s de
tal
modo
que
uno
puede
evocar
a
otro.
El primer trabajo en este campo corresponde a Wilfrid
K. Taylor con su obra de 1956 Electrical Simulation of Some Nervous
System Functional Activities. Taylor propone una red en tres capas:
una con unidades sensoriales, otra con unidades asociativas y la
ltima con unidades motoras. Los pesos de las sinapsis son
modificables y las unidades ya no son neuronas biestables (todo-onada), al modo de las neuronas formales de McCulloch-Pitts, sino
dispositivos analgicos. El procedimiento de entrenamiento es la regla
de Hebb: se aumentan los pesos activados si se activan las unidades
motoras deseadas. Inicialmente se le presentan pares de patrones;
de ese par de patrones uno provoca una respuesta precisa en las
neuronas motoras y el otro no; mediante el aprendizaje, la red
consigue que estos ltimos patrones, los que originariamente no
provocaban la respuesta en las neuronas motoras, ahora s lo hagan.
En este sentido se puede decir que la red consigue asociar patrones
sensoriales diferentes, y muestra un comportamiento parecido al
condicionamiento pavloviano. Adems en su red, la memoria asociada
se almacena en el patrn de pesos y por lo tanto de forma
distribuida.
En trabajos posteriores Taylor construy una red ms elaborada,
con sinapsis que volvan de las unidades motoras a las unidades
sensoriales y con sinapsis entre unidades de la misma capa. Esta red
era ms eficaz en la asociacin de estmulos apareados y se mostr
tambin capaz de discriminar patrones (recogiendo por tanto las
capacidades de los perceptrones y adalines). En 1964 (CorticoThalamic Organization and Memory) aventur incluso una
interpretacin biolgica de su red, sugiriendo que las reas de

asociacin de la corteza cerebral y el tlamo contenan esas redes.


Las redes anteriores asocian indirectamente el elemento a y el
elemento b al estar asociados ambos con c (como ocurre con el
condicionamiento clsico); estudios de los aos sesenta y setenta
mostraron que estas redes pueden servir tambin para representar la
memoria asociativa accesible o direccionable por el contenido;
llamamos memoria accesible por el contenido a aquella que nos
permite recordar tems a partir de descripciones parciales de sus
contenidos o caractersticas, incluso cuando alguna de estas
descripciones es errnea. Y precisamente por esta capacidad
actualmente a las redes asociativas se las llama tambin memorias
asociativas direccionables o accesibles por contenido (ACAMs).
Volver al ndice

VI.2.2.

El

reconocimiento

de

patrones

En cuanto al reconocimiento de patrones, cabe destacar lo


siguiente: en esencia el problema consiste en explicar cmo se puede
reconocer que individuos distintos pertenecen, no obstante, al mismo
tipo. Un caso tpico de reconocimiento de patrones es nuestra
capacidad de interpretar como A signos que sin embargo son
distintos (A, A, A, A, A, A), pero evidentemente esta capacidad
aparece tambin en otros contextos: somos capaces de reconocer el
rostro de una persona en distintas condiciones de luminosidad e
incluso aunque cambie su peinado, su maquillaje o se deje barba; un
animal debe reconocer los individuos de otra especie como siendo la
presa con la que se ha de alimentar, o su posible pareja para la
reproduccin,...
Ya se ha citado la aportacin de McCulloch y Pitts en este campo,
por lo que ahora podemos referirnos a otros autores, comenzando
por John von Neumann: en su escrito de 1956, Probabilistic Logics
and the Synthesis of Reliable Organisms from Unreliable Components,
mejor las redes McCulloch-Pitts creando redes confiables: en las
redes
originales
de
McCulluch-Pitts
cada
unidad
actuaba
representando una unidad informativa y lo haca con la lgica todo-onada. Esta redes no son muy confiables pues el dao en una unidad
puede tener efectos catastrficos en la computacin. Para resolver
esta dificultad Von Neumann introdujo laredundancia en la red: una
unidad informativa no se representa mediante una neurona sino
mediante la activacin sincrnica de un cmulo de neuronas (por
ejemplo se puede representar 1 cuando ms de la mitad est
activada y 0 en caso contrario). Von Neumann prob que estas redes
redundantes pueden realizar clculos aritmticos de modo muy
confiable.

En
1963
Shamuel Winograd y
Jack
D. Cowan escribieron Reliable Computation in the Presence of Noise.
En esta obra recogieron y mejoraron las ideas de Von Neumann,
defendiendo una propuesta an msdistribuida del conocimiento: en
las redes de Winograd-Cowan un bit o unidad de informacin se
representaba mediante varias neuronas, como en las redes de Von
Neumann, pero, y esta era la novedad, cada neurona representaba
parcialmente
varios
bits.
La figura de Frank Rosenblatt es imprescindible par entender el
desarrollo del conexionismo. En sus obras de 1958 The Perceptron, a
Probabilistic Model for Information Storage and Organization in the
Brain y de 1962Principles of Neurodynamics, defiende la importancia
de las redes neuronales para la computacin y de los mtodos
probabilsticos ms que de los lgicos en el uso de las redes, mejora
la regla de aprendizaje de Hebb y presenta una red a la que llam
Perceptrn. En su versin ms sencilla, el Perceptrn consta de
dos capas: la de entrada o capa con unidades sensoriales y,
conectada con la anterior, la de salida o capa con unidades motoras.
Las unidades eran unidades McCulloch-Pitts (podan tomar
simplemente los valores activado-desactivado). Inicialmente los pesos
de las conexiones eran aleatorios, y el aprendizaje consista en la
modificacin de los pesos de tal forma que dada una entrada se
consiguiese la salida deseada. Rosenblatt encontr un sencillo
procedimiento de entrenamiento con el cual la red poda dar con los
pesos requeridos para tal tarea. El Perceptrn era capaz de reconocer
patrones sencillos y de generalizar similitudes entre patrones. Pero a
pesar de las esperanzas que muchos investigadores en este tipo de
red, pronto se vio que tena serias limitaciones, que se ejemplificaron
en la imposibilidad de la red para resolver una tarea lgica
aparentemente sencilla: la del problema de la disyuncin exclusiva.
En trminos ms tcnicos, se vio que eraincapaz de clasificar clases o
patrones no separables linealmente (ver ms adelante la exposicin
delPerceptrn y del
problema
citado).
En este breve recorrido de la historia del conexionismo es preciso
referirse a la trayectoria de MarvinMinsky, compaero de Rosenblatt
en el instituto. En sus primeros escritos mantuvo algunas tesis que,
claramente, son un antecedente del conexionismo:
carcter relativamente indiferenciado del cerebro pues aunque
se dae una parte otras pueden realizar su funcin,
particularmente si el dao es en una poca temprana;
importancia del aprendizaje en la organizacin de las redes
neuronales;
importancia del estudio del cerebro y del comportamiento de
las neuronas para la construccin de una mquina que
reproduzca aspectos sustanciales de la mente humana.

Fue l precisamente uno de los primeros en afirmar que el


cerebro no es otra cosa que una mquina de carne. Estas tesis
pertenecen a sus primeras investigaciones (con las que consigui el
grado de doctor). Sin embargo, pronto abandon este planteamiento
conexionista defendiendo la idea de que es posible comprender la
mente humana prescindiendo del estudio del cerebro y atendiendo
exclusivamene a sus mecanismos o comportamiento. Como se sabe,
esta tesis es uno de los principios fundamentales de la psicologa
cognitiva tradicional, por lo que, en resumen, se podra decir que las
primeras propuestas de Minsky favorecieron las tesis conexionistas y
las segundas (por las que es clebre) las tesis de la psicologa
cognitiva
clsica.
Otra importante y curiosa aportacin fue la de O. Selfridge con
su obra de 1959 Pandemonium: A paradigm for learning, en donde
llam Pandemonium a su modelo de procesamiento distribuido y
paralelo de la informacin. Su propuesta es importante porque su
modelo para el reconocimiento de patrones descansa en el
procesamiento interactivo realizado por un conjunto de unidades de
procesamiento; y es tambin curiosa porque en vez de hablar de
neuronas para referirse a las unidades de procesamiento les di el
nombre de demonios (incluso en los libros que explican el modelo
se los dibuja como pequeos diablillos). Es habitual presentar este
modelo como un intento de comprender el reconocimiento de las
letras del alfabeto. Ms adelante se presenta el Pandemonium con con
cierto
detalle.
Bernard Widrow y
Marcial Hoff (Adaptive
Switching
Circuits,1960) inventaron una variante del Perceptrn y un nuevo
procedimiento de aprendizaje, la regla delta del aprendizaje.
Llamaron adaline a su red (por adaptive linear neuron, neurona
lineal adaptativa). En realidad, la nica diferencia con el Perceptrn
es el procedimiento de aprendizaje o entrenamiento que utilizaron.
Era tambin una red de dos capas (capa de entrada y capa de salida)
interconectas, y compuestas por unidades biestables. Su finalidad era
tambin el reconocimiento de patrones. El adaline fue la primera red
neuronal aplicada a un problema real (como filtro para eliminar los
ecos en las lneas telefnicas) y se ha usado comercialmente durante
varias dcadas.
Volver al ndice
VI.2.3. Limitaciones de perceptrones y adalines elementales
Marvin Minsky y
Seymour Papert,
publicaron
en
1969 Perceptrons: An introduction to Computational Geometry: en

este libro estudiaron los perceptrones y demostraron que los


perceptrones y adalines elementales (los que constan slo de dos
capas) eran incapaces de distinguir entre patrones tan sencillos como
T y C, ni de llevar a cabo tareas lgicas simples, como la de decidir la
tabla
de
verdad
de
la
disyuncin
exclusiva;
probaron
matemticamente que dichas redes, aunque pudiesen modificar sus
pesos mediante reglas de aprendizaje, no podan resolver ms que
problemas linealmente separables. Adems, ampliaron sus crticas
conjeturando que esta dificultad no se podra superar aadiendo
unidades ocultas en redes multicapa. Esto ltimo se demostr falso a
partir de 1986, cuando se descubri la regla delta generalizada y la
validez de su uso en redes con capas ocultas. Este tipo de redes y la
regla citada permiti resolver el problema ms famoso planteado a
los perceptrones y adalines, el problema de la disyuncin exclusiva
antes citado. Se suele indicar que como consecuencia de las crticas
de estos autores las autoridades americanas dirigieron sus fondos a
la inteligencia artificial y la psicologa cognitiva clsica, con el
consiguiente freno de la investigacin en los modelos de computacin
conexionista.
VI.3.

AOS

SETENTA

OCHENTA

J. A. Anderson escribi en 1973 el artculo A theory for the


recognition of items from short memorized lists y en 1977 Neuronal
models with cognitive implications. En estos escritos present anlisis
matemticos de algunas propiedades de las redes neuronales y
defendi la relevancia de las representaciones distribuidas en
distintos campos de la psicologa, por ejemplo en el del aprendizaje
de conceptos; sus investigaciones fueron tambin importantes en el
campo de la memoria asociativa por contenido y de nuevos modelos
de
redes.
Stephen Grossberg es uno de los ms destacados investigadores
en el campo conexionista; sus propuestas aparecen ya en los aos
sesenta y continan en nuestros das. Ha escrito muchos libros y
desarrollado diversos modelos de redes (tal vez la ms conocida es la
red que propuso en 1967, Avalancha, para el reconocimiento del
habla y el aprendizaje del movimiento de los brazos de un robot);
adems de realizar las primeras investigaciones sobre el aprendizaje
competitivo, subray la importancia de los modelos conexionistas en
los campos de la percepcin y de la memoria. Destaca su libro de
1982 Studies
of
mind
and
brain.
Hofstadter (Gdel, Escher, Bach: An eternal golden braid, 1979
y Metamagical themas, 1985) defiende la existencia de dos niveles de
procesamiento, el que estudia la psicologa cognitiva clsica (nivel
estructural) y un nivel de procesamiento ms bajo, y en el que se

sitan los trabajos del conexionismo (nivel microestructural), de


ah que en ocasiones se hable del conexionismo como un enfoque que
analiza la microestructura de la cognicin para comprender los
fenmenos
cognitivos.
Es en los aos ochenta cuando el conexionismo empieza a tener
un xito considerable, y en esta trayectoria es fundamental la obra de
G. E. Hinton, y J. A. Anderson editada en 1981 Parallel models of
associative memory, y la obra de J. A. Anderson de 1983 Cognitive
and psychological computation with neural models. En esta ltima
Anderson estudia el hardware del sistema nervioso real y propone
modelos neuronales sencillos basados en los biolgicos y destinados a
explicar
los
procesos
cognitivos.
J. A. Feldman y D. H. Ballard (1982: Connectionist models and
their properties. Cognitive Sciencie, 6) desarrollaron muchos de los
principios computacionales del enfoque Procesamiento Distribuido
Paralelo (PDP), utilizaron por primera vez el nombre de conexionismo
para este enfoque, y criticaron el enfoque tradicional de la
Inteligencia Artificial destacando su poca plausibilidad biolgica. Pero
sin duda el impulso definitivo a la investigacin conexionista tiene
como protagonistas a David. E. Rumelhart, James. L. McClelland y
varios investigadores ms que forman lo que se ha llamado grupo
PDP, y culmina con la aparicin de lo que se ha considerado como la
Biblia conexionista, Parallel Distributed Processing: Explorations in
the microestructure of cognition (dos volmenes) editada por
Rumelhart y McClelland en 1986. En esta obra se tratan importantes
cuestiones pero sin duda destaca la demostracin de cmo las redes
con ms de dos capas pueden solucionar las objeciones matemticas
propuestas por Minsky y Papert y que tanto limitaron el desarrollo en
la
investigacin
de
redes
neuronales.
A partir de Parallel Distributed Processing se suceden multitud de
investigaciones, artculos y congresos, tanto en los campos de la
Inteligencia Artificial como en los de la psicologa, convirtindose el
conexionismo en un movimiento revolucionario en el panorama de la
ciencia cognitiva. En este contexto se crean la Sociedad Europea de
Redes Neuronales (ENNS) y la Sociedad Internacional de Redes
Neuronales (INNS), sociedades que organizan congresos y
reuniones anuales y editan revistas para la divulgacin de las
investigaciones en este campo de investigacin, revistas entre las que
destacan Neural Networks (revista oficial de la Sociedad Internacional
de
Redes
Neuronales); Network,
Computation
in
Neural
System;Transactions
on
Neural
Networks; Nerual
Networks
Council; Neural Computation y International Journal of Neural
Systems.
De octubre de 1987 a febrero de 1988, el Instituto Tecnolgico
de Massachussets (MIT), patrocinado por la Oficina de Tecnologa
Tctica de la Agencia de Proyectos de Investigacin Avanzada del

Departamento de Defensa de Estados Unidos (DARPA/TTO) llev a


cabo la revisin de la investigacin y tecnologa basada en redes
neuronales, revisin que se plasm en el libro Neural Network
Study (Darpa
88).
En Espaa tambin se ha creado una sociedad para la
investigacin en redes neurales que ya ha organizado varios
congresos, se organizan seminarios (precisamente el que se realiz
en la UNED en el curso 87-88 dio lugar a la edicin de Introduccin al
Procesamiento Distribuido en Paralelo, Alianza Editorial, en donde se
renen los capitulos ms importantes de Parallel Distributed
Processing). El programa europeo de investigacin ESPRIT ha
financiado diversos proyectos en este campo, proyectos en los que,
en Espaa, han participado las universidades Politcnica y Autnoma
de Madrid, la Politcnica del Pas Vasco, el Centro de Estudios
Avanzados de Blanes, el Instituto de Ciberntica del CSIC y el
Instituto de Ingeniera del Conocimiento (IIC), entre otros.

II.CARACTERISTICAS GENERALES DEL CONEXIONISMO


En psicologa, esta nueva forma de estudiar y explicar la mente y la conducta recibe
el nombre deconexionismo (aunque otros prefieren el trmino
neoconexionismo, para distinguirlo del antiguo conexionismo propuesto por
Alexander Bain en la segunda mitad del siglo XIX, autor que tambin subray la
importancia de las conexiones entre neuronas, y la investigacin y experimentacin
fisiolgica). Dado que para este paradigma el procesamiento y el almacenamiento
de la informacin recae en amplios conjuntos de elementos simples (las unidades
de las redes conexionistas), el modelo de procesamiento conexionista se llama
tambin Procesamiento Distribuido en Paralelo (o PDP).

En Inteligencia Artificial, los mtodos de computacin basados


en redes neurales se incluyen en un campo de computacin que
prescinde del enfoque algortmico tradicional y tomo como modelo los
sistemas biolgicos; esta nueva forma de computacin incluye, entre
otras, la lgica borrosa, las redes neuronales y el razonamiento
aproximado, y recibe los nombres de computacin
cognitiva, computacin del mundo real ocomputacin Soft,
para distinguirlo del enfoque algortmico tradicional o Computacin
Hard.
En psicologa llamamos conexionismo al paradigma que
utiliza redes neuronales para comprender y explicar la vida psquica
y la conducta. Las redes neuronales son conjuntos de unidades
interconectadas masivamente capaces de procesar y almacenar
informacin mediante la modificacin de sus estados. Aunque la
siguiente afirmacin exigira importantes precisiones, en general se
puede decir que el psiclogo conexionista considera que ha explicado

un fenmeno psicolgico (el reconocimiento de formas, la produccin


de lenguaje, la memoria, ...) cuando el modelo neuronal que
construye se comporta del mismo modo que los seres humanos
cuando realizan la misma tarea. No hay que olvidar que el
conexionismo participa de una idea comn con la psicologa cognitiva
clsica: para la psicologa cognitiva (tanto la clsica como el
conexionismo) la mente es un sistema capaz de procesar
informacin, un sistema capaz de recibir seales de entrada,
almacenar informacin y provocar informacin de salida a partir la
informacin de entrada, la informacin almacenada y los mecanismos
de cmputo. Dada esta suposicin de que los fenmenos mentales y
la conducta son consecuencia de elementos internos al sujeto, el
conexionismo considera adecuada la explicacin cuando la red que
construye es capaz de realizar, a partir del vector de entrada, los
distintos cmputos que provocan el vector de salida deseado.
Los elementos caractersticos presentes en la mayora de los modelos
conexionistas son los siguientes:
1. La red es un conjunto de unidades de procesamiento (neuronas) muy
simples.

2. Dichas unidades interactan entre s mediante las conexiones que los


asocian.

3. Los estmulos que afectan a las unidades de entrada se expresan


en trminos cuantitativos.

4. Toda unidad de la red viene definida por un nivel de activacin expresado


de forma cuantitativa.

5. Toda conexin viene caracterizada por un valor de fuerza del trazo o peso
de la conexin, tambin expresado de forma cuantitativa.

6. El procesamiento y almacenamiento de la informacin se realiza


de forma paralela y distribuida.

7. Existen reglas o funciones que computan la informacin en


distintos niveles del procesamiento (para la modificacin del
nivel de activacin a partir de las entradas, para la produccin
de la salida a partir del nivel de activacin, ...).
8. Existen reglas o funciones de aprendizaje que le permiten a
la red modificar los pesos de las conexiones para acomodar de
modo cada vez ms perfecto la informacin de entrada a la
salida requerida.

9. La funcin de cada unidad es simplemente realizar


clculos con las entradas que reciben y producir la informacin
que envan a las unidades con las que estn conectadas.
10.
Las seales de salida que emite la red se expresan
en trminos cuantitativos.
11.
Dado que toda la actividad de la red no es otra cosa que
clculos o transformaciones de nmeros, se puede afirmar que
en realidad la red neural es un dispositivo para computar
una funcin, un sistema capaz de transformar la informacin
de entrada en informacin de salida. La funcin presente en la
red y que realiza el computo es bsicamente el patrn o
conjunto de pesos sinpticos de las unidades.
III. IMPLEMENTACIN DE LAS REDES NEURONALES

Las redes neuronales suelen implantarse en los ordenadores


tradicionales, ordenadores seriales con arquitectura Von Neumann.
Pero, naturalmente, las mquinas ms adecuadas para este tipo de
sistemas de computacin son aquellas que reproducen en su
arquitectura la propia arquitectura de la red. Las mquinas ms
conocidas son los neurocomputadores y los neurochips.

Neurocomputadores:
constan
de
un
conjunto
de
procesadores
conectados
entre
s
y
que
operan
concurrentemente. Por ejemplo, el MARK IV est formado por
un conjunto de procesadores Motorola 68020 asociados cada
uno de ellos a un coprocesador matemtico, es capaz de
simular hasta 256.000 neuronas y 5.500.000 sinapsis, y puede
alcanzar una velocidad de 5.000.000 de interconexiones por
segundo. El ANZA Plus puede simular redes de hasta 1.000.000
de neuronas y 15.000.000 de conexiones, a velocidades de
1.500.000
conexiones
por
segundo.

Neurochips: en este caso las redes neuronales se


implementan en o uno o varios circuitos integrados especficos.
Soportan menos neuronas que los neurocomputadores, pero la
velocidad es muy superior que en los neurocomputadores pues
las interconexiones entre neuronas se encuentran dentro del
propio chip. No son productos comerciales y los encontramos
fundamentalmente en las universidades y los centros de
investigacin. Un ejemplo de estas mquinas es el chip N64 de
Intel, que incluye 64 neuronas, 10.000 sinapsis y cuya
velocidad de procesamiento es de 2.500 conexiones por

segundo.

Neurocomputadores de propsito especial: las mquinas


anteriores son de propsito general, pero existen tambin
algunas mquinas que han sido diseadas para implementar un
modelo especfico de red neuronal.

IV. CAMPO DE APLICACIN DE LAS REDES NEURONALES

La mayora de los modelos existentes tienen que ver con


el reconocimiento de patrones: buscar un patrn a partir de una
serie de ejemplos, clasificar patrones, identificar un estmulo,
reconstruir un patrn a partir de datos distorsionados o
incompletos, ... Muchas redes neuronales trabajan a partir de datos
sensoriales y otras a partir de datos introducidos por el
usuario.
Los
campos
de
aplicacin
son
fundamentalmente
la psicologa (en los campos de percepcin, memoria, pensamiento,
aprendizaje y lenguaje) y la Inteligencia Artificial, aunque tambin
encontramos ejemplos enbiologa (modelos de retina y del
neocortex, por ejemplo).
Las aplicaciones obtenidas en Inteligencia Artificial se utilizan
en muchos dominios: por ejemplo, en medicina (diagnstico y
tratamiento a partir de datos obtenidos mediante electrocardiograma,
encefalograma, anlisis sanguneo, ...), el ejrcito (clasificacin de las
seales de radar; creacin de armas inteligentes, reconocimiento y
seguimiento en el tiro al blanco, ...), la empresa y la industria
(reconocimiento de caracteres escritos, optimizacin de plazas y
horarios en lneas de vuelo, construccin de robots y sistemas de
control, ...).
V. DIFERENCIAS ENTRE EL CONEXIONISMO Y LOS MODELOS
COGNITIVOS TRADICIONALES
Como consecuencia de las caracterstica citadas en la seccin 2, el
conexionismo presenta importantes diferencias respecto de los

modelos que encontramos en la psicologa cognitiva clsica. Veamos


alguna de ellas.
V.1. INSPIRACIN NEURO-FISIOLGICA: APROXIMACIN A
LAS CIENCIAS NEUROLGICAS
La psicologa cognitiva clsica no daba importancia a la base
orgnica de la vida mental. Cabe recordar que incluso sus propios
postulados bsicos le llevaron a considerar que la lgica existente en
los procesos mentales se puede comprender y explicar con
independencia de su realizacin en un sistema fsico (esto es lo que
afirma la tesis del funcionalismo, la teora filosfica de la mente
compartida por los psiclogos cognitivos). El conexionismo, sin
embargo, toma al cerebro como modelo de procesamiento y su
inspiracin neurofisiolgica aproxima la psicologa a la biologa. Si en
la psicologa cognitiva clsica la metfora dominante era la metfora
del ordenador, ahora, en el conexionismo, la metfora es el
cerebro: la primera psicologa clsica consideraba que podamos
entender el comportamiento de la mente comprendiendo el
comportamiento del ordenador tipo Von Neumann, sin embargo el
conexionismo afirma que podemos entender el comportamiento de la
mente si comprendemos el comportamiento del cerebro humano. Con
el conexionismo la Inteligencia Artificial, la Psicologa y la Biologa se
convierten en disciplinas ms prximas que lo que permita el
enfoque de la psicologa cognitiva clsica. Claro est que esta
aproximacin es interesante desde el punto de vista de la unidad de
las ciencias y la posicin materialista dominante, pero tambin puede
ser una dificultad para los que quieren defender la posibilidad de la
psicologa como ciencia independiente; de hecho las posiciones
filosficas de los conexionistas en el tema del estatuto de la mente
tienden a ser reduccionistas o a defender el materialismo
eliminativo (en lo esencial, tesis segn las cuales los estados
mentales no tienen autntica realidad, son epifenmenos y, por lo
mismo, no pueden ser causas de las conductas).
Aunque tambin existen redes neuronales que intentan ser
modelos de los procesos reales de partes del cerebro, las que
interesan a la psicologa no intentan imitar el comportamiento del
sistema nervioso sino de la mente. El conexionismo quiere ser
una teora psicolgica no una teora fisiolgica. Sin embargo, s
se puede hablar de inspiracin biolgica en los modelos mentales
propuestos. Las redes neuronales intentan reproducir las
caractersticas
principales
del comportamiento
del
cerebro,
particularmente de su estructura fisiolgica bsica, la neurona, y de
su agrupacin en estructuras complejas o redes de neuronas. A
continuacin vamos a fijarnos en los aspectos ms elementales de las
redes neuronales biolgicas, aspectos que las redes conexionistas
intentan emular.

Las unidades bsicas del sistema nervioso son las neuronas.


Estas
unidades
se
conectan
unas
con
otras
formando redes extraordinariamente complejas. La principal funcin
de las neuronas es recoger seales de diversas fuentes,
transformarlas y producir seales de salida que transmiten a otras
neuronas u otras partes del organismo. De este modo, en el cerebro
el procesamiento de la informacin es paralelo y distribuido, paralelo
en tanto que las seales recibidas las procesan simultneamente
millones de conexiones diferentes y distribuido porque la
responsabilidad del almacenamiento de la informacin no recae sobre
una unidad (una neurona) sino sobre amplios conjuntos de unidades.
Los rganos sensoriales reciben seales del exterior y
mediante elementos transductores convierten las distintas energas
que reciben en seales nerviosas. La informacin fluye desde los
nervios sensoriales y, recorriendo estaciones intermedias como la
mdula espinal, el tronco cerebral, cerebelo, etc., llega hasta la
corteza cerebral. A su vez, del cerebro parte la informacin por los
nervios motores hasta los msculos u otros rganos y constituye la
respuesta del organismo al medio.
En las neuronas
fundamentales:

cabe

destacar

las

siguientes

partes

el cuerpo celular o soma, cuya funcin principal es procesar las


seales que recibe la unidad y enviar la informacin de salida hacia
otras unidades;
el axn: es la fibra ms gruesa y larga de todas las que se
originan en el cuerpo celular; mediante los axones las neuronas se
conectan unas con otras; su funcin es transmitir la informacin
generada en el cuerpo celular a las otras clulas;
las dendritas: son pequeas extensiones del soma y su funcin es
recibir la informacin.
De este modo, las dendritas son los canales receptores de la
informacin, el soma la unidad de procesamiento y el axn el canal
transmisor de la informacin.
La informacin se traslada a travs del axn y las dendritas en
la forma de seales elctricas. Sin embargo, el paso de la informacin
de una unidad a otra no tiene la forma de cambios elctricos sino
qumicos. La conexin entre el axn de una neurona y las dendritas
de otra recibe el nombre de sinapsis. Las neuronas no estn en
contacto fsico completo pues existe un pequeo espacio en la
sinapsis (el espacio intersinptico). Cuando el impulso elctrico llega
al final del axn, se produce la liberacin de unas sustancias qumicas
denominadas neurotransmisores.
Los
neurotransmisores
se

difunden en el espacio intersinptico y se unen a los extremos de las


dendritas en ciertos lugares denominados receptores. En estos
receptores
se
producen
cambios
qumicos
que
provocan
modificaciones elctricas en la neurona y el flujo elctrico o impulso
nervioso.
Por su importancia en las redes neuronales conexionistas, es
importante recordar tambin dos hechos ms que se dan en las redes
neuronales biolgicas:
los efectos de los neurotransmisores sobre las dendritas pueden
ser excitadores o inhibidores de forma que para calcular la
influencia final del conjunto de entradas sobre una neurona es
preciso sumar y restar sus estmulos.
para que la neurona responda enviando una seal elctrica a lo
largo del axn (el impulso nervioso) es necesario que los estmulos
que recibe de otras unidades alcancen un cierto nivel
elctrico (el umbral del impulso elctrico o intensidad mnima
del estimulo que es suficiente para provocar el impulso nervioso);
de este modo, la respuesta de la clula ante los estmulos tiene la
forma de todo o nada.
Cuando se habla de la inspiracin biolgica de los modelos
conexionistas se quiere sealar que estos modelos intentan
reproducir gran parte de los aspectos existentes en las redes
neurolgica biolgicas y descritos ms arriba. Sin embargo hay otros
aspectos del sistema nervioso que no se intentan reproducir. Citemos
algunos:
Por ejemplo, el relativo al nmero de unidades de procesamiento:
en todo el sistema nervioso central hay del orden de 10 11 neuronas
y de 1015 interconexiones, mientras que las redes conexionistas
generalmente constan como mucho de varias centenas de unidades
y de varios miles de conexiones.
En las redes conexionistas los pesos entre las conexiones se
establecen inicialmente de forma aleatoria y se van corrigiendo
mediante el aprendizaje; esto supone, traducido a los trminos
tradicionales, primar el ambientalismo y el aprendizaje frente a los
componentes innatos. En el cerebro la importancia del aprendizaje
para el desarrollo de las sinapsis no se puede obviar, pero tampoco
se puede negar la importancia de factores innatos, factores que
determinan los
recursos
fisiolgicos
necesarios
para el
procesamiento e incluso las rutas en el establecimiento de las
conexiones.
En el caso de las redes biolgicas, el aprendizaje da lugar a
modificaciones en las fuerzas de conexin, pero tambin a

modificaciones de las estructuras mismas de interconexin (por


ejemplo, de las unidades conectadas y de los tipos de conexiones);
en las redes conexionistas el aprendizaje acta sobre los pesos de
las conexiones pero no sobre las estructuras mismas.
Volvera al ndice
V.2. EL PROCESAMIENTO ES PARALELO, NO SERIAL
A pesar de que los desarrollos tcnicos permitieron
incrementar la velocidad de los ordenadores, los resultados de stos
en tareas aparentemente sencillas como el reconocimiento de formas
necesitaban un tiempo de ordenador muy alto y sus resultados no
eran muy buenos. El contraste con la eficacia del cerebro se hizo cada
vez ms manifiesto pues aunque la velocidad de procesamiento de
cada neurona es muy inferior a la del ordenador (la velocidad de
procesamiento en los ordenadores se mide en nanosegundos y la de
las neuronas en milisegundos o incluso centsimas de segundo) el
cerebro humano es capaz de realizar ciertas tareas en un
tiempo inferior que el ordenador. Los programas construidos por
la Inteligencia Artificial tradicional resultan muy buenos para tareas
que exigen la repeticin del mismo proceso sobre los datos de
entrada (millones de cmputos recursivos), lo que les permite a las
mquinas aventajarnos en tareas como la de clculos matemticos;
sin embargo el cerebro parece ms eficaz que los ordenadores
tradicionales en tareas tpicas de los seres vivos: reconocer un
enemigo en una ambiente que no presenta su figura con precisin,
recordar instantneamente formas de huida o aproximacin,
comprender una frase, reconocer un rostro, seguir en tiempo real el
movimiento de un objeto en el espacio, ...; hay tareas para las cuales
un nio de tres aos resulta ms eficiente que los ordenadores ms
potentes y los programas ms sofisticados.
La explicacin de la eficacia del cerebro para este tipo de
tareas se encuentra en el hecho de que para el procesamiento de la
informacin el cerebro utiliza simultneamente millones de neuronas
y el ordenador convencional utiliza uno (o unos pocos)
procesadores. En un procesamiento serial en cada momento slo se
realiza una operacin, en un procesamiento en paralelo en cada
momento se realizan tantas operaciones como unidades participan en
el procesamiento completo. sta es precisamente una de las
caractersticas principales del cerebro: en el cerebro cada unidad, o
pequeas poblaciones de unidades, participan en el procesamiento
conjunto de la informacin, y aunque cada una de ellas, tomadas por
separado, tarden en realizar sus procesamientos correspondientes, en
conjunto la actividad es ms eficaz. Las redes neuronales nos
permiten reproducir ms adecuadamente aqul tipo de tareas porque
reproducen el procesamiento en paralelo caracterstico del

cerebro, lo que otorga a las redes una considerable ventaja


en velocidad sobre un ordenador convencional pues la multitud de
sinapsis de cada nivel ejecutan simultneamente muchos pequeos
cmputos, en lugar de hacerlo en laboriosa sucesin como en los
ordenadores tradicionales.
Volvera al ndice
V.
3.
PROCESAMIENTO
Y REPRESENTACIN
INFORMACIN DISTRIBUIDO, NO LOCALISTA

DE

LA

El carcter distribuido de la informacin tpico de las redes


conexionistas se extiende a dos aspectos muy importantes relativos a
la informacin: el procesamiento mismo y el almacenamiento de
las representaciones.
El modelo conexionista no es localista en primer lugar porque,
a diferencia de lo que ocurre en los ordenadores tradicionales, en las
redes neuronales no existe la unidad central de control, unidad
que controle y coordine el conjunto de unidades del sistema; en este
modelo el procesamiento es responsabilidad de cada una de las
unidades o neuronas, cada una de ellas se encarga de cmputos
parciales cuya activacin conjunta produce la seal de salida final.
Desde un punto de vista fisiolgico estos modelos suponen que en el
cerebro no existe una parte encargada de un tipo especfico de
procesamiento, sino que la actividad cerebral tiene carcter global.
La informacin se puede almacenar de dos formas: los
sistemas localistas retienen la informacin en unidades discretas: en
cada unidad (por ejemplo, en cada porcin fsica del disco duro del
ordenador) se almacena una unidad informativa; en los sistemas
distribuidos cada unidad informativa se retiene en poblaciones
de individuos y cada una de ellas colabora de forma parcial en
el almacenamiento de la informacin. La ventaja de esta forma
de almacenamiento es que la destruccin de unidades en los sistemas
localistas tiene un efecto ms devastador que la destruccin de
unidades en los sistemas distribuidos. En los modelos distribuidos de
memoria cada unidad informativa se representa a partir de amplias
poblaciones de unidades, pero, a la vez, cada unidad de memoria
colabora en el almacenamiento de varias unidades informativas. No
se puede dar interpretacin cognitiva a cada una de las unidades o
neuronas; la interpretacin cognitiva (el decir, por ejemplo, que
recuerda y relaciona conceptos) es algo vlido slo para la red en su
conjunto, y en todo caso para los patrones de los pesos de las
unidades.

Podemos apreciar qu se quiere indicar con la idea del carcter


distribuido del almacenamiento y procesamiento de la informacin
con dos ejemplos muy sencillos:
los relojes digitales suelen expresar la informacin horaria
mediante segmentos; en este ejemplo, con los siete segmentos
siguientes podemos representar diez nmeros, dependiendo de los
que estn activados y de los que estn desactivados (es obvio en
realidad que se puede representar ms informacin, por ejemplo,
adems de nmeros, letras); se puede observar que el dao en
una de las unidades afectara a la capacidad del sistema para
representar la hora, pero no de un modo completo, a la vez que
est claro tambin que cuanto ms distribuida sea la forma de
almacenar la informacin (cuantos ms segmentos emplesemos)
menos se resentira el sistema:

las matrices nos pueden servir de ejemplo para mostrar cmo un conjunto de
elementos puede procesar distintos conjuntos de datos (distintos vectores de entrada)
para producir cada uno de ellos la salida correspondiente (distintos vectores de salida)
por ejemplo, la matriz

nos permite emparejar los vectores de entrada (1,1) y (1,-1) con


los vectores de salida (-1,1) y (-1,-1):
la entrada +1 +1 produce: 1x -1 + 1x 0
1x 0 + 1x 1 = -1
1
la entrada +1 -1 produce: 1x -1 + -1x 0
1x 0 + -1x 1 = -1 -1
Por cierto que sta es precisamente una de las curiosas
eficacias de las redes conexionistas: un mismo patrn de pesos (que
se puede representar mediante matrices) permite emparejar distintos
vectores de entrada a sus vectores de salida correspondientes.

V. 4. COMPUTACIN SIN REGLAS


En las redes conexionistas la computacin no se rige por
reglas. En los modelos cognitivos tradicionales el procesamiento
consiste en la manipulacin de smbolos mediante el empleo de
reglas. Los smbolos tienen una interpretacin semntica (son
conceptos,
propiedades,
clases,
frases,
lneas,
ngulos,
recuerdos, ...) y las reglas describen el modo de transformar dichos
smbolos en conjuntos significativos ms amplios. Para el
conexionismo, sin embargo, la computacin no es otra cosa que el
clculo de las salidas a partir de informacin de entrada, y los tres
elementos, (entradas, salidas y clculos) expresados en trminos
cuantitativos. El comportamiento general de la red puede parecer
comportamiento guiado por reglas, pero en realidad en sus
componentes no hay otra cosa que elementos de cmputo puramente
cuantitativos. El sistema se sita en un estado o en otro a partir de la
modificacin de los pesos y la activacin o inhibicin de cada unidad.
Dado que las redes conexionistas son bsicamente modelos de
aprendizaje, la no utilizacin de reglas se traslada tambin al campo
del aprendizaje. En la psicologa cognitiva clsica aprender una
destreza psicolgica (la competencia lingstica, la capacidad para
narrar un cuento, la capacidad matemtica, ...) se describa como la
adquisicin o desarrollo de reglas capaces de organizar las salidas
correspondientes (frases significativas, narracin de cuentos, clculos
matemticos, ...) a partir de los datos almacenados en la memoria;
en el conexionismo el aprendizaje no es otra cosa que la
modificacin de los pesos de las conexiones para la
transformacin de los vectores de entrada en los vectores de salida
pertinentes. Mediantefunciones de aprendizaje adecuadas, las redes
pueden modificar los pesos de modo que tras sucesivas
presentaciones de los vectores de entrada representativos de una
clase de datos (fonemas, caracteres escritos, figuras bidimensionales,
ondas elctricas, ...) la red va afinando sus respuestas hasta que se
logran aciertos estadsticamente aceptables en el emparejamiento de
los vectores de entrada con los vectores de salida pertinentes.
Podemos apreciar la diferencia de enfoques si nos fijamos en
una de las tareas para la que las redes neuronales parecen ms
pertinentes, el reconocimiento de patrones; el reconocimiento de
patrones no es otra cosa que la capacidad para identificar ejemplos
de un mismo modelo, para clasificar distintos estmulos como siendo
del mismo tipo. Los sistemas de reconocimiento tradicionales, los que
aparecen en la psicologa cognitiva clsica y en la Inteligencia
Artificial tradicional, exigan elaborar reglas explcitas que recogiesen
los aspectos esenciales que el sistema deba captar. Con las redes
neuronales podemos conseguir que el sistema reconozca patrones sin
presentarle dichas reglas explcitas de reconocimiento, basta con
presentarle los ejemplos adecuados y entrenar a la red. Esta

peculiaridad lleva tambin a caracterizar a las redes neuronales


como sistemas dinmicos autoadaptativos:
autoadaptativos porque ellas mismas, sin que exista una unidad
central rectora, son capaces de ajustar sus unidades de
procesamiento o neuronas de modo conveniente para producir el
vector de salida requerido;
dinmicos porque pueden cambiar constantemente para adaptarse
a las nuevas condiciones que imponen los nuevos conjuntos de
datos o vectores de entrada que se le presentan.
El aprendizaje no es otra cosa que la modificacin de los pesos
o fuerzas de conexin existentes entre las distintas unidades, no la
adquisicin de reglas o algoritmos explcitos. Se supone que la red ha
aprendido cuando consigue un patrn de pesos que provoca, para las
entradas del mismo tipo, las salidas deseadas. Los problemas ms
importantes de la persona que disea la red se refieren a la obtencin
de la arquitectura apropiada (las capas y unidades necesarias, las
conexiones entre ellas, las funciones de activacin y transferencia que
ha de utilizar) y de un buen algoritmo de aprendizaje que le permita
a la red discriminar los diferentes tipos de estmulos.
Una consecuencia de la ausencia de reglas explcitas y que
merecera la pena estudiar con detalle es que con este sistema de
procesamiento conseguiremos que el sistema o red reconozca las
semejanzas entre entidades, pero no seremos capaces de describir en
qu consisten dichas semejanzas.
Volvera al ndice

V.5. DEGRADACIN ELEGANTE. TOLERANCIA A FALLOS


En estas redes, cuando algunas unidades dejan de funcionar
adecuadamente su efecto no es catastrfico, afecta slo a la eficacia
y precisin de la red en una medida mayor o menor dependiendo de
la cantidad de unidades deterioradas. Esto no ocurre con los modelos
tradicionales en donde la prdida de alguna de las unidades de
memoria provocaba efectos importantes en el sistema. Otra
dimensin de la degradacin elegante es que la recuperacin de la
memoria en redes distribuidas es capaz de darse an en los casos en
que la informacin que se introduce para la bsqueda sea confusa,
incompleta e incluso errnea (lo que se suele llamar tolerancia a
fallos respecto de los datos). Esta es una caracterstica de las
redes y tambin del funcionamiento real de nuestra memoria: por
ejemplo, cuando intentamos recordar el nombre de una persona
utilizando descripciones de sus caractersticas, somos capaces de dar
con el nombre aunque no recordemos todas sus propiedades y

tambin aunque algunas de estas descripciones no correspondan en


realidad a dicho sujeto. La razn por la que las redes son tolerantes
a fallos es la existencia de un cierto grado de redundanciaen el
procesamiento y almacenamiento de la informacin, es decir su
carcter distribuido y paralelo. En los ordenadores tradicionales y en
los modelos cognitivos basados en la arquitectura de dichos
ordenadores cada unidad de informacin tiene una localizacin y
direccin precisa, por lo que los fallos de los distintos elementos que
intervienen en el procesamiento tienen consecuencias ms graves
que en los modelos conexionistas.

VII. ELEMENTOS DE LAS ARQUITECTURAS


CONEXIONISTAS (1)
tivos a sus mecanismos de procesamiento:

Conceptos y elementos de la
estructura conexionista

Conceptos y mecanismos
bsicos para el procesamiento
en las redes conexionistas

Las unidades

La entrada (input) total

La regla de propagacin

Las conexiones entre las


unidades
(las sinapsis)

El estado de activacin

La regla o funcin de activacin

El peso sinptico

La salida (output) de las


unidades

La funcin de transferencia

El patrn de conexin

VII.1.
CONCEPTOS
CONEXIONISTA

Reglas de aprendizaje

ELEMENTOS

DE

LA

ESTRUCTURA

VII.1.1. Las unidades


Los elementos bsicos de procesamiento de la informacin en el cerebro son
las neuronas; dado que los modelos conexionistas son modelos de inspiracin
biolgica, a las unidades bsicas encargadas del procesamiento en las redes
conexionistas se las llama habitualmente neuronas, aunque tambin podemos
encontrar en la literatura los trminos clulas, unidades, neuronas artificiales,
nodos, elementos de procesamiento (PEs) o, simplemente, elementos. La
funcin de estas unidades tiene que ver esencialmente con el la recepcin y
tratamiento de la informacin: recibir informacin a partir de las conexiones que
mantienen con otras neuronas, elaborar o transformar la informacin recibida y
emitir informacin de salida hacia otras neuronas.

Existen tres tipos de unidades:


1. Unidades de entrada: les corresponde este nombre por recibir informacin de
fuentes externas a la propia red. Si la red dispone de sensores (por ejemplo, un
scanner), la informacin externa es informacin sensorial; si la red est
conectada con otras redes, las unidades de entrada reciben datos de las salidas
de las otras redes; en otros casos, simplemente, las unidades de entrada reciben
los datos que el usuario de la red introduce manualmente en el ordenador.
2. Unidades de salida: ofrecen las seales o informacin al exterior de la red;
dan la respuesta del sistema. Si la red dispone de conexiones con sistemas
motores (robots, por ejemplo) su respuesta ser la intervencin en el mundo
fsico; si la red est conectada con otras redes, su respuesta sern datos de
entrada para stas ltimas redes; y si, simplemente, son redes que utilizamos en
nuestro ordenador, las unidades de salida ofrece datos al usuario para su
posterior tratamiento.
3. Unidades ocultas: aunque no todas las redes poseen este tipo de unidades, las
redes mnimamente sofisticadas las incluyen. Estas unidades no tienen una

relacin directa ni con la informacin de entrada ni con la de salida, por lo que


no son visibles al ambiente exterior a la red, de ah su nombre. Su funcin
esprocesar la informacin en niveles ms complejos, favorecer cmputos ms
eficaces.

La informacin que puede recibir una red, la que puede ser almacenada y la
que puede emitir, est determinada en gran medida por lo que se llama el abanico
de entrada (fan-in) y el abanico de salida (fan-out). El abanico de entrada es el
nmero de elementos que excitan o inhiben una unidad dada. El abanico de salida
de una unidad es el nmero de unidades que son afectadas directamente por dicha
unidad.
Se llama capa o nivel o estrato al conjunto de neuronas que reciben
informacin de la misma fuente (informacin externa, otra capa de neuronas) y
ofrecen informacin al mismo destino (al usuario, a sistemas motores, a otra capa
de neuronas).

Volver al ndice
VII. 1.2. Las conexiones entre unidades (las sinapsis)

Las sinapsis son las conexiones entre las neuronas. En la mayor parte de
redes las sinapsis sonunidireccionales: la neurona j transmite informacin a la
neurona i y la neurona i la recibe, y nunca ocurre lo contrario. Sin embargo, en
redes como las de Hopfield las sinapsis son bidireccionales.

Tipos de sinapsis:
a) sinapsis inhibidora: en este tipo de conexin el impulso transmitido por una
neurona inhibe la activacinde la neurona con la que est conectada: si la
neurona j le transmite a la neurona i un impulso que inhibe a sta, el nivel de
activacin de la neurona i decrecer, y decrecer en funcin del peso establecido

para dicha conexin y de la cantidad de informacin que se transmite por dicha


sinapsis. Se suele representar la sinapsis inhibidora mediante puntos negros;
b) sinapsis excitadora: en este tipo de conexin el impulso transmitido por una
neurona excita la activacinde la neurona con la que est conectada: si la
neurona j est conectada mediante una sinapsis excitadora con la neurona i, el
nivel de activacin de la unidad i aumentar si le llega informacin por dicha
conexin desde la neurona j, y lo har en funcin del peso de la conexin y de la
magnitud de la seal o informacin que por dicha conexin se le enva. Se suele
representar este tipo de conexin mediante puntos huecos.

Volver al ndice

VII.1.3. Peso sinptico


O peso de la conexin. Es uno de los conceptos ms importantes en las
redes, y ello por varias razones: en primer lugar porque los cmputos de la red
tienen que ver esencialmente con ellos; en segundo lugar, y concretando la
afirmacin anterior, porque los clculos que el sistema realiza a partir de la
informacin de entrada para dar lugar a la informacin de salida se basan en dichos
pesos; y, en tercer lugar, porque en cierto modo (como veremos) son el anlogo a
las representaciones de los objetos en los modelos cognitivos tradicionales.
Una sinapsis es fuerte, o tiene un gran peso de conexin, si la informacin por ella
recibida contribuye en gran medida en el nuevo estado que se produzca en la
neurona receptora, y es dbil en caso contrario. Los pesos sinpticos son valores
numricos, se expresan en trminos numricos sencillos (generalmente nmeros
enteros o fraccionarios negativos o positivos) con los que se ponderan las seales
que reciben por dicha sinapsis. En la literatura sobre redes encontramos ligeras
variantes en la notacin utilizada para
representar el peso sinptico de una conexin entre la neurona j y la
neurona i, donde la neurona i recibe la informacin que la neurona j emite: por
ejemplo, Wij (del ingls Weight, peso), pero tambin wij y wij.
Dado que en ocasiones es importante representar mediante un vector la
totalidad de los pesos correspondientes a las conexiones de varias neuronas con
una salida, y que se reserva para dicho vector correspondiente al peso la W
mayscula, cuando nos referimos al peso correspondiente a una conexin parece
ms adecuado utilizar la w minscula.
Volver al ndice

VII.1.4. El patrn de conexin


En los modelos conexionistas el conocimiento que la red alcanza a partir del
aprendizaje se representa mediante el patrn de conexin, patrn que
determinar, por lo tanto, el modo de procesamiento de las seales y la respuesta
del sistema ante cualquier entrada.
En los modelos ms simples la entrada total correspondiente a cada
unidad depende esencialmente de los valores de entrada y de los pesos que
ponderan el modo en que dichos valores colaboran en la entrada total. Por ello en
estos modelos el patrn de conexin es simplemente el conjunto
de pesos correspondientes a cada una de las conexiones de la red; los pesos
positivos indicarn entradas excitatorias y los negativos entradas inhibitorias. Para
representar el patrn de conexin se utiliza una matriz de pesos W, en donde cada
uno de los elementos de la matriz (representado como wij) indica el peso
correspondiente a la conexin de la unidad j y la unidad i. El nmero
correspondiente a w representa la intensidad o fuerza de la conexin, y el signo
(+ o ) indica si la unidad j excita a la unidad i (la conexin es excitatoria) o si la
unidad j inhibe a la unidad i (la conexin es inhibitoria). Si el nmero
correspondiente a w es 0 se quiere indicar que la unidad j no est conectada a la
unidad i.

Veamos un ejemplo:

valores de los pesos


wi1: -0.5
wj1: 1
wi2: 0.3
wi3: -1
wi4: 0.6

wj2: 0.2
wj3: 0
wj4: -0.3

la matriz correspondiente al patrn de


conexin
(matriz de los pesos W ) ser

ui

uj

u1

-0.5

u2

0.3

0.2

u3

-1

u4

0.6

-0.3

o, utilizando otra forma de


representacin:

VIII. ALGUNOS MODELOS DE REDES NEURONALES


VIII. 1. REDES DE McCULLOCH-PITTS O REDES DE NEURONAS
FORMALES
En 1943, Warren McCulloch (neurofisilogo) y Walter Pitts (matemtico)
publicaron en el Bulletin of Mathematical Biophysics "Un clculo lgico de las ideas
inmanentes en la actividad nerviosa"; en este artculo defendieron la tesis de que
las actividades de las neuronas y las relaciones existentes entre ellas podan
estudiarse mediante la lgica proposicional. Creyeron que las neuronas tenan un
comportamiento biestable (al producir salidas todo-nada) y que, en este sentido,
eran semejantes al comportamiento tambin biesttico de los conmutadores
elctricos (abierto-cerrado). Junto con la idea relativa al comportamiento
supuestamente lgico de las neuronas, presentaron tambin la idea de construir
mquinas de computar con una arquitectura similar a las neuronas. A pesar de su
conocimiento insuficiente de las neuronas y las sinapsis orgnicas, sus ideas han
tenido mucha importancia en el desarrollo de la psicologa cognitiva: consideraron
que las leyes que gobiernan la mente tienen ms que ver con las leyes que
gobiernan la informacin que con las relativas a la materia (idea ms comn a la
psicologa cognitiva clsica que al conexionismo); pero en su comprensin del
aprendizaje anticiparon tambin ideas conexionistas: dieron ms importancia al
aprendizaje que a factores innatos, consideraron que nuestro cerebro comienza con
redes aleatorias, que los estmulos provocan conexiones de una determinada
manera y que los estmulos posteriores, si son fuertes y constantes, llevaran a la
red a manifestar una configuracin determinada. Esta configuracin determinara
que la respuesta de la red fuese distinta ante nuevos estmulos. En definitiva, su
artculo fue importante al tratar al cerebro como un organismo computacional.

Demostraron tambin que redes neuronales sencillas, conectadas entre s


mediante sinapsis excitadoras o excitadoras e inhibidoras, y asignando un valor
umbral para la activacin de la unidad de salida, eran capaces de representar
adecuadamente las leyes lgicas fundamentales. Llamaron neuronas formales a
las neuronas que componen dichas redes. Aunque intentaron modelar aspectos
elementales de las neuronas biolgicas, lasneuronas McCulloch-Pitts no eran otra
cosa que conmutadores lgicos, semejantes a los circuitos lgicos que se pueden
crear mediante simples interruptores por los que pueden fluir la corriente elctrica.
Las redes siguientes son algunos ejemplos que presentaron en su artculo,
y, como se indica, sirven para calcular los valores de verdad de la disyuncin, la
conjuncin y la conjuncin con negacin. Las neurona poda recibir tanto entradas
excitadoras como inhibidoras. La neurona tomaba valor 0 cuando estaba
desactivada y valor 1 cuando estaba activada (es decir utilizaba una funcin de
activacin tipo umbral). La salida de la unidad era 1 cuando estaba activada y 0
cuando estaba desactivada (por lo tanto la funcin de transferencia era la funcin
identidad). En todos los casos el peso sinptico de las conexiones excitadoras era 1.
Las sinapsis inhibidoras provocaban la inhibicin total de la neurona:
independientemente de la cantidad de excitacin que le llegase desde las sinapsis
excitadoras, si una sinapsis inhibidora se excitaba, la neurona quedaba totalmente
desactivada y produca la salida 0; por lo tanto, la neurona produca 1 de salida si
y slo si no reciba ninguna seal inhibidora y las seales excitadoras que reciba
igualaban o superaban el valor umbral. Esta es una de las diferencias
fundamentales respecto de las redes que se utilizan actualmente

pero tambin podemos utilizar los siguientes grficos para representar las neuronas
McCulloch- Pitts, grficos que seguramente resultan ms intuitivos (tomado
de Estructura, dinmica y aplicaciones de las redes de neuronas artificiales, VVAA,
Editorial Centro de Estudios Ramn Areces, p. 103); el nmero en el interior de la
neurona indica el umbral

Volver al ndice

VIII. 2. PERCEPTRONES
En 1958 Frank Rosenblatt escribi The Perceptron, a Probabilistc Model for
Information Storage and Organization in the Brain. Rosenblatt rechaz el uso que
McCulloch y Pitts hicieron de la lgica simblica aplicada a las redes y defendi
mtodos probabilsticos. En esta obra llam perceptrones a unas redes McCullochPitts capaces de modificar los pesos de sus conexiones si las respuestas de la red
no eran las correctas y demostr que estas redes se podan entrenar para clasificar
ciertos patrones en iguales o distintos, por tanto que erancapaces del
reconocimiento de formas sencillas.

Ejemplo de un Perceptrn sencillo


las unidades y conexiones que se muestran son slo ilustrativas
y no reflejan totalmente la complejidad del modelo
El mecanismo de procesamiento del Perceptrn es el siguiente: el patrn a
reconocer incide en la capa sensorial; cada una de las unidades sensoriales
responde en forma todo o nada al patrn de entrada; las seales generadas por las
unidades sensoriales se transmiten a las unidades de asociacin; stas unidades se
activan si la suma de sus entradas sobrepasa algn valor umbral. Cuando una
unidad de la capa asociativa se activa, provoca una seal de salida, la cual va por
las sinapsis correspondientes hasta las unidades de la capa de salida; estas
responden de forma muy similar a las de las unidades de asociacin: si la suma de
sus entradas sobrepasa un umbral, producen un valor de salida 1, en caso contrario
su salida vale 0 (por lo tanto, la funcin de actividad de las unidades era tipo
umbral, produciendo actividades con valores discretos, 0 y 1, y la funcin de
trasferencia era la funcin de identidad).
La representacin del Perceptrn utilizada ms arriba puede inducir a pensar
que se trata de una red multicapa, pero este no es el caso: las conexiones entre las
unidades sensitivas y las de la capa de asociacin son fijas, no se modifican durante
el aprendizaje; siempre es preciso presentar a la red el patrn de entrada, y esto se
puede hacer de varias formas, por ejemplo el usuario puede introducir los datos en
el ordenador mediante el teclado, pero si la red est conectada a algn sensor
(como el Perceptrn intentaba simular) los datos le llegarn a travs de l. Por lo

tanto, a todos los efectos el Perceptrn puede considerarse como una red de dos
capas, sin unidades ocultas.
El Perceptrn era una red capaz de aprendizaje. En su configuracin inicial a
los pesos de las conexiones se les da valores arbitrarios, por lo que ante la
presencia de estmulos la red genera respuestas arbitrarias, respuestas que no
coinciden con las deseadas. Se considera que la red ha conseguido aprender
cuando los pesos se han ajustado de tal modo que la respuesta que emite es la
deseada. El procedimiento propuesto por Rosenblatt para este entrenamiento era
sencillo: se le presenta a la red un patrn cuya seal se transmite hasta la capa de
salida, provocando la activacin de alguna de sus unidades; si se activan las
unidades de respuesta correcta, no se hace ningn ajuste de sus pesos; si la
respuesta es incorrecta se procede de la manera siguiente: si la unidad deba estar
activada y no lo est, aumentar todos los pesos de sus conexiones; si la unidad
deba estar desactivada y est activada, disminuir los pesos de sus conexiones. Se
repite este procedimiento con todos los patrones deseados de estmulo-respuesta.
Rosenblatt crey que era posible hacer que los pesos converjan en un conjunto de
valores, a partir de los cuales le es posible a la red computar cada uno de los
patrones de entrada para producir los correspondientes patrones de salida.
En el prrafo anterior se ha descrito de modo cualitativo y poco preciso la
modificacin que han de sufrir los pesos cuando la red produce errores; existen
varios algoritmos que se pueden utilizar para detallar con exactitud el modo de
modificar los pesos de las conexiones, por ejemplo:

si la respuesta es 0 debiendo ser 1, wij (t+1) = wij(t) +

*oi;

si la respuesta es 1 debiendo ser 0, wij (t+1) = wij(t)

*oi

donde
wij : es el peso correspondiente a la conexin de la unidad i con la unidad j
oi : es la salida de la unidad i

: es la tasa de aprendizaje que controla la velocidad de adaptacin


En 1969 Marvin Minsky y Seymour Papert escribieron Perceptrons: An
Introduction to Computational Geometry. En esta obra analizaron las capacidades y
limitaciones del Perceptrn, y demostraron que hay ciertas clases de problemas que
el Perceptrn y cualquier modelo simple de dos capas no puede resolver. Los
perceptrones slo pueden distinguir tramas o patrones linealmente separables, y
dado que hay muchos e importantes problemas que no son linealmente separables,
concluyeron que los perceptrones son poco adecuados como clasificadores de
patrones. Adems ampliaron su crtica afirmando que esta dificultad no se puede
resolver con redes multicapa (algo que posteriormente se demostr errneo).
Decimos que un patrn o conjunto de datos de entrada de la red es linealmente
separable cuando el espacio de todas las entradas puede dividirse en dos regiones,
quedando en uno de los lados del hiperplano las correspondientes a una categora y
en la otra parte del hiperplano las correspondientes a otra categora. Se
llaman hiperespacios a los espacios n-dimensionales (por ejemplo, el espacio
euclideo es un caso particular de hiperespacio, y consta de tres dimensiones); se

llaman hiperplanos a los objetos de n-1 dimensiones que dividen un hiperespacio


de ndimensiones en varias regiones; en el caso de un espacio bidimensional, el
hiperplano es una lnea que descompone el espacio en dos regiones; en el caso del
espacio tridimensional, el hiperespacio es un plano y puede dividir el espacio en
tres regiones. En la resolucin de problemas puede ser til la referencia a los
hiperplanos puesto que permiten separar regiones de puntos de un hiperespacio en
categoras individuales o clases, por lo que es un recurso til para distinguir unas
clases de otras.
La obra de Minsky y Papert supuso un importante freno en el desarrollo de la
investigacin en redes neuronales pues convenci a la administracin americana de
la bondad de la arquitectura tradicional (la arquitectura Von Neumann) y de la
incompetencia de las arquitecturas de redes neuronales, y llev a muchos
investigadores a preocuparse por la lnea tradicional en psicologa cognitiva e
Inteligencia Artificial y despreocuparse de los modelos conexionistas.
Se puede comprender la crtica de Minsky y Papert y el problema de la
separabilidad lineal si nos fijamos en uno de los ms conocidos y sencillos
problemas que la red no puede resolver: el relativo al problema XOR o
disyuncin exclusiva. Dado que el Perceptrn es capaz de asociar patrones de
entrada con patrones de salida y que las tablas de verdad de los funtores son
tambin correspondencias entre pares de valores de verdad y el valor del enunciado
molecular compuesto por el funtor correspondiente, parece que podemos utilizar los
perceptrones para decidir los valores de verdad de los enunciados moleculares; por
ejemplo, la tabla de verdad de la funcin AND (la conjuncin) y de la funcin OR (la
disyuncin inclusiva) son las siguientes

x1

x2

x1 x
2

x1

x2

x1 x
2

tabla de verdad de la
conjuncin

tabla de verdad de la disyuncin


inclusiva

La tarea que tiene que realizar el Perceptrn es, en el primer caso, aprender
a asociar la entrada (1,1) con la salida 1, y las entradas restantes con la salida 0;
en el segundo caso debe aprender a asociar la entrada (0,0) con la salida 1, y las
entradas restantes con la salida 1. La red que se ha de utilizar para realizar la

computacin debe constar de dos unidades de entrada y una unidad de salida: cada
unidad de entrada recoge uno de los elementos del patrn de entrada y la unidad
de salida produce una salida, que es la que corresponde a la solucin.

Como se ha indicado, para la funcin OR (disyuncin inclusiva) l


ser capaz de devolver la salida 0 si se le presenta el patrn (0,0)
restantes patrones la salida 1; para la funcin AND (la conjuncin) l
devolver la salida 1 para el patrn (1,1) y 0 para los restantes
Veamos el caso de la funcin OR:

x1 y x2 son las entradas a la neurona;

en las neuronas de la capa de entrada la salida es ig


entrada;

w1 y w2 son los pesos de las conexiones entre las neuronas


y la neurona de salida;

la entrada neta es la suma ponderada de las entrad


+ w2x2);

la funcin de activacin de la neurona de salida es


identidad;

la salida es discreta tomando alguno de los valores del par

la funcin de salida o transferencia es de tipo escaln


establece un umbral que es necesario superar para que la salida sea
De este modo, tendramos:

entrada neta = w1x1 + w2x2

activacin de la unidad de entrada = w1x1 + w2x2

valor de salida = 1 si w1x1 + w2x2 umbral


0 si w1x1 + w2x2 < umbral

Para el caso de la disyuncin inclusiva, el umbral puede ser cero o superior,


sin embargo, para la conjuncin el umbral ha de ser mayor que cero. Es posible
entrenar a la red para que modifique sus pesos de modo que converjan en los
adecuados para producir el patrn de salida adecuado. Expresado en trminos de
hiperplanos, la red resuelve los problemas lgicos anteriores si existe un hiperplano
capaz de distribuir el plano en dos regiones: en el caso de la funcin AND (la
conjuncin), en una regin quedaran los patrones de entrada (0,0), (0,1), (1,0) y
en la otra regin el patrn (1,1); en el caso de la funcin OR (la disyuncin
inclusiva), en una regin quedara el patrn (0,0) y en la otra los patrones de
entrada (0,1), (1,0), (1,1); estos patrones corresponden a los valores de verdad
posibles de los enunciados que componen el enunciado molecular. Veamos cmo se
puede utilizar este mtodo:

primero construimos un plano en el que se pueda representar cada uno de


los vectores de entrada; el plano tendr las coordinadas x1, x2;

en segundo lugar, mediante puntos, situamos en el plano los cuatro valores


de verdad correspondientes a la funcin lgica que se quiere computar;

en tercer lugar, representamos en el plano la ecuacin w1x1 + w2x2 (que


corresponde a la funcin de activacin); w1 y w2 son los pesos y x1 y x2
los distintos patrones de entrada. Esta ecuacin es la ecuacin de una lnea
en el plano x1, x2.

La recta divide el espacio en dos regiones que podramos interpretar uno


como correspondiendo al valor 1, y el otro como correspondiendo al valor 0; si en
cada una de estas regiones se incluye el patrn de entrada correspondiente,
entonces podemos decir que la red es capaz de computar la funcin lgica, pues
distribuye adecuadamente los valores de verdad del patrn de entrada con el valor
de salida que les debe corresponder. En las figuras siguientes se muestra el
plano xi, x2 con los cuatro puntos que corresponden a los cuatro vectores de
entrada (0,0), (0,1), (1,0), (1,1).
en la funcin AND al vector (0,0) le debe
corresponder la salida 0, al (0,1) la
salida 0, al (1,0) la salida 0 y al (1,1) la
salida 1 (en el grfico la salida se pone en
negrita); como se puede apreciar, la recta
generada por la ecuacin w1x1 + w2x2
permite distribuir correctamente los
valores de salida, luego la red podra
computar la funcin lgica AND

en la funcin OR al vector (0,0) le debe


corresponder la salida 0, al (0,1) la
salida 1, al (1,0) la salida 1 y al (1,1) la
salida 1; como en el caso anterior, la
recta tambin distribuye correctamente
los valores de salida, por ello la red
podra computar la funcin lgica OR

Sin embargo, la red de dos capas no puede computar adecuadamente la


funcin lgica XOR (la disyuncin exclusiva); vemoslo:
x1 x2

x1
2

tabla de verdad de la disyuncin exclusiva


si ahora representamos en el plano las vectores de entrada y los valores de verdad
correspondiente, tenemos
Se observa fcilmente que con una sola lnea es
imposible separar los puntos 1 y 1 de los
puntos 0 y 0; no hay forma de disponer la lnea de
modo que separe los conjuntos de puntos citados.
Esto es precisamente lo que se quiere indicar cuando
se dice que este problema no es linealmente
separable. Si tuvisemos dos lneas entonces sera
posible descomponer el espacio en tres regiones, en
dos de las cuales se encontraran los puntos 0 y en la
otra los puntos 1. Los perceptrones de dos capas no
pueden dar lugar ms que a una lnea, pero podemos
conseguir dos lneas si entre la capa de entrada y la de
salida situamos una capa intermedia con dos
neuronas, cada una de las cuales nos permitir
obtener una lnea (ver grficos de la pgina siguiente).
En la poca de Rosenblatt no se dispona de un
algoritmo de aprendizaje adecuado para redes con
capas ocultas y hubo que esperar a los aos ochenta
para su perfecto desarrollo (la regla delta
generalizada) y, por lo tanto, para la superacin del
problema de la separabilidad lineal.

Red multicapa con


unidades ocultas que
resuelve correctamente el
problema XOR. Si el
umbral de la unidad c =
0.4, de la d = 1.2, de la e
= 0.5 y los pesos wca =
1, wcb = 1, wda =
1, wdb = 1, wec =
0.6, wed = -0.4, la red
da lugar a la
representacin grfica
inferior. Se aprecia que
las dos lneas crean una
regin en donde se sita
el conjunto formado por
1 y 1 y dos regiones en
donde se sitan los otros
dos valores; por lo tanto,
la red resuelve el
problema XOR
Volver al ndice

VIII. 3. EL PANDEMONIUM: UN MODELO PARA EL RECONOCIMIENTO


DE PATRONES
VIII. 3. 1. La tarea de reconocimiento de patrones: dos explicaciones, el
modelo de plantillas y el modelo de anlisis de caractersticas
Una caracterstica del sistema de procesamiento visual humano es su
flexibilidad: somos capaces de identificar un patrn, un tipo de estmulo, con
independencia sus posibles variaciones en tamao, posicin en el contexto y
orientacin espacial; e incluso cuando su forma vara en ciertos lmites; fijmonos
en los siguientes ejemplos:
En todos ellos reconocemos sin
dificultad la letra "E", y todos ellos pueden
interpretarse como variaciones del mismo
patrn, el correspondiente a dicha letra.
Podemos llamar reconocimiento de
patrones al hecho de identificar distintos
estmulos como perteneciendo a la misma
clase, como siendo del mismo tipo. Los
psiclogos han presentado diversas teoras
para comprender el modo en que nuestra
mente es capaz de reconocer patrones; una
de las primeras y ms sencillas es la de
comparacin de plantillas. Segn esta

teora en nuestra memoria debe haber un


modelo o plantilla correspondiente a cada
forma que podamos reconocer. Cuando
vemos un objeto, la imagen que se produce
en la retina se la compara con las plantillas
almacenadas en nuestra memoria y aquella
que mejor se ajusta a la imagen retiniana
es la que identifica al objeto visto.
Fcilmente se ve que esta teora no es
satisfactoria: un cambio en la posicin,
tamao u orientacin del objeto provocara
un desajuste que hara imposible el
reconocimiento. Adems no podramos
reconocer formas deterioradas pues
tampoco coincidiran con las plantillas.

Podramos modificar la teora para superar estas dificultades: por ejemplo


suponiendo que existen tantas plantillas almacenadas como variedades posibles de
posicin, rotacin, tamao y distorsin, pero est claro que sta no es una buena
solucin pues exigira un nmero tan grande de plantillas que ni siquiera el cerebro
podra almacenar. Otra estrategia ms razonable consistira en suponer que antes
de la comparacin del input retiniano con las plantillas nuestra mente realiza un
anlisis preparatorio, lo que algunos autores llaman preprocesamiento: mediante
este anlisis las imgenes retinianas se someten a un proceso de normalizacinque
los traduce a un formato estndar compatible con los formatos de las plantillas
existentes en nuestra memoria (ajustando el tamao y la orientacin por ejemplo).
Existen algunos resultados experimentales que parecen avalar la hiptesis de la
normalizacin.
Algunas de las dificultades del modelo de plantillas se pueden resolver con
otro modelo algo ms complejo que el anterior: el modelo basado en el anlisis de
caractersticas. Esta teora defiende que nuestra mente no trabaja con copias
exactas de la informacin sino con el anlisis de las caractersticas internas de cada
patrn; por ejemplo, el sistema visual utilizara un anlisis de caractersticas al
menos en las siguientes dimensiones: lneas y sus variantes (verticales,
horizontales, oblicuas), ngulos y sus variantes y curvas. En la memoria se
representa cada patrn mediante una lista de sus caractersticas geomtricas y (al
menos en las versiones ms elaboradas) sus correspondientes pesos. As, la
letra "A" podra representarse mediante la siguiente lista de caractersticas: pesos
altos: dos lneas inclinadas, una hacia la derecha y otra hacia la izquierda, una lnea
horizontal, un ngulo apuntando hacia arriba; pesos bajos o nulos: lneas
verticales, lneas curvas discontinuas, ngulos rectos, etc. El patrn estimular activa
los detectores de caractersticas, y la configuracin de la activacin resultante se
comparara con la de los patrones almacenados en la memoria; la configuracin que
mejor se ajuste determinara la interpretacin perceptual del sistema.

VIII. 3. 2. El Pandemonium: rasgos principales


El Pandemonium propuesto
por
O. Selfridge en
su
escrito
de
1959 Pandemonium: A paradigm for learning es precisamente uno de los primeros
y ms conocidos modelos de reconocimiento de patrones basados en el anlisis de
caractersticas. Originariamente el Pandemonium se concibi como un programa de
ordenador para reconocer seales del cdigo Morse, pero posteriormente se le dio
una interpretacin psicolgica como modelo de reconocimiento alfanumrico. La
exposicin y comentarios que siguen se refiere precisamente a la versin ms
conocida del Pandemonium (la de Lindsay y Norman en su obra Introduccin a la
psicologa cognitiva) y cuyo objetivo es el reconocimiento de letras. El
Pandemonium consiste en varios conjuntos de unidades a las que Selfrigde dio el
nombre de demonios, unidades que realizan distintas tareas y provocan la
informacin de salida (la identificacin de la forma presentada al sistema). El dibujo
siguiente es una representacin habitual del Pandemonium (tomado de Linsay y
Norman, Introduccin a la psicologa cognitiva).

Los tipos de demonios


de los que consta el
modelo
son
los
siguientes:
Demonios de la
imagen: su tarea
esregistrar la imagen del
signo externo.
Demonios
de
caractersticas: la tarea
de las unidades de este
tipo es analizar la imagen
registrada; cada demonio
de caractersticas est
especializado
en
un
aspecto particular de la
forma
(unos
detectan
lneas,
otros
ngulos,
otros curvas, ...) por lo
que el procesa- miento
en este nivel consiste en
la descomposicin de la
forma
en
sus
caractersticas relevantes;
cada
demonio
de
caractersticas detecta la
presencia de alguno de
los rasgos para los que ha
sido definido (por ejemplo
el
demonio
correspondiente
a
las

lneas verticales detecta


la presencia y nmero de
lneas verticales en la
figura).

Demonios cognitivos: reciben y examinan la informacin de los demonios de


caractersticas; cada demonio cognitivo est especializado en el reconocimiento de
una forma (por ejemplo, uno para la letra "A" otro para la"B", ...) y busca en los
datos que les ofrecen los demonios de caractersticas la presencia de los rasgos que
definen la letra en la estn especializados (por ejemplo el demonio cognitivo de la
letra "A" buscar la presencia de una lnea horizontal, dos oblicuas y tres ngulos
agudos).
Demonio de decisin: cuando un demonio cognitivo encuentran una caracterstica
que buscaba empieza a gritar y cuantas ms caractersticas descubre ms grita; la
tarea del demonio de decisin es escuchar el Pandemonium producido por los
demonios cognitivos y seleccionar el que grita ms fuerte; la interpretacin que el
sistema hace de la forma que se le presenta corresponde a la letra decidida por
este demonio.
Una cuestin muy importante que tiene que decidir el diseador de un
Pandemonium es la de determinar las caractersticas de cada patrn. Se han dado
distintas propuestas de los criterios ms adecuados para ello, propuestas entre las
que destaca la que present en 1969 E. J. Gibson en su obra Principles of
perceptual learning and development. Los criterios que defendi se referan a la
seleccin de la lista de caractersticas para las letras maysculas, y son los
siguientes:
1. Las caractersticas crticas deben estar presentes en algunos miembros, pero no
en otros, de modo que permitan una clara distincin entre ellos.
2. No deben variar cuando cambia el brillo, tamao o perspectiva.
3. Deben producir un nico patrn para cada letra.
4. La lista no debe ser muy extensa.
Ms explcita es la propuesta de Linsay y Norman en su libro ya
clsico Introduccin a la psicologa cognitiva. El cuadro siguiente (tomado de dicha
obra) presenta los demonios de caractersticas necesarios para la identificacin de
una letra y los valores que activan para cada una de las letras del alfabeto.
Mediante las siete caractersticas citadas podemos identificar adecuadamente la
totalidad de las letras.

Lneas
verticale
s
A

Lneas
horizontale
s

Lneas
oblicua
s

ngulo
s
rectos

ngulo
s
agudos
3

Curvas
continua
s

Curvas
discontinua
s

1
2
1

1
3

O
P

1
1

Q
R

3
1

1
2

2
2
1

Y
Z

1
2

En realidad, el modelo basado en el anlisis de caractersticas es semejante


al de comparacin de plantillas, slo que aqu las plantillas son las partes
geomtricas que componen la letra (podramos llamar a cada caracterstica
miniplantilla) y en el segundo caso las letras mismas. Parece que este modelo
puede explicar lo que el modelo de plantillas puede explicar (ya que las plantillas
estn compuestas por caractersticas) y, adems, otra serie de fenmenos para los
que el modelo de plantillas es ineficaz.
Volver al ndice
VIII. 3. 3. El Pandemonium: base experimental
La teora del anlisis de caractersticas (bien sea al modo del Pandemonio,
bien sea con otro tipo de architectura) goza de un apoyo experimental razonable,
apoyo mayor que la teora de las plantillas. Veamos alguno de estos experimentos:

En
su
artculo
de
1964 Visual
search (Scientific
American,
210) Neisser plante la siguiente hiptesis: si el modelo de deteccin de
caractersticas es correcto la identificacin de una letra (que podramos
llamar letra-objetivo) en un contexto formado por otras letras con
caractersticas muy semejantes ser ms lenta que la identificacin de una
letra en un contexto formado por letras con caractersticas muy distintas;
por ejemplo la identificacin de la letra-objetivo "Z" en el contexto de las
letras "X", "L", "N" (letras angulosas) ser ms lenta que la identificacin de
dicha letra-objetivo en el contexto de las letras "C", "S" o "G"(letras
redondeadas). Esta hiptesis parece razonable puesto que se debe tardar
ms en rechazar una "N"que una "C", puesto que la "Z" comparte con

la "N" ms rasgos que con la "C". En los experimentos, los sujetos tardaban
ms en identificar la letra-objetivo cuando estaban en un contexto con letras
similares que cuando estaban en un contexto con letras menos parecidas.

Existen ciertas tcnicas que nos permiten preparar el ojo de tal modo que la
imagen visual en la retina sea la misma aunque el ojo cambie de posicin;
en estos casos se observa (y quiz por la fatiga de los receptores retinianos)
que la imagen empieza a desaparecer, pero lo hace perdiendo partes
significativas, no al azar (la imagen detenida va perdiendo lneas rectas,
curvas, segmentos significativos, ...). Estos estudios de fragmentacin
perceptual parecen avalar la teora del anlisis de caractersticas.

Otro conjunto de experimentos importante se refiere a las confusiones que


se producen en el reconocimiento de letras cuando stas se presentan en
condiciones que dificultan su identificacin. Existen varias tcnicas para
provocar la confusin en los sujetos que realizan la tarea (por ejemplo
utilizar el taquistoscopio para presentar estmulos en tiempos
extremadamente breves). Los resultados de estos experimentos muestran
que las letras que comparten ms caractersticas tienden a confundirse, algo
que la teora del anlisis de caractersticas predice.

Algunas investigaciones sugieren la existencia de diversos tipos de clulas


nerviosas funcionalmente distintas, clulas que responden selectivamente a
distintos estmulos: unas a bordes, otras a vrtices, otras a barras
luminosas, otras a barras oscuras, ...). Sin embargo los resultados y
experimentos son controvertidos y no hay un acuerdo unnime en este
punto. En el caso de existir la especializacin nerviosa citada, la teora de los
detectores de caractersticas quedara fuertemente avalada.
Volver al ndice

VIII. 3. 4. El Pandemonium: dificultades


Pero, ms all de su bondad (por ejemplo para explicar la identificacin de
los caracteres escritos y las formas geomtricas sencillas) el modelo del
Pandemonium y, en general, la teora del anlisis de caractersticas, presenta
importantes deficiencias si lo queremos utilizar como una teora general del
reconocimiento de patrones. Veamos alguna de ellas:
El Pandemonium no puede distinguir entre una "T" y una "T" invertida, o una
letra y su imagen en el espejo. La causa de estas limitaciones est en el tipo de
informacin que el sistema considera relevante para la identificacin: el
Pandemonium se fija en los elementos que componen el patrn pero no en sus
relaciones estructurales. Las relaciones estructurales tienen que ver, por ejemplo,
con el modo de estar localizados y orientados unos rasgos respecto de otros (la
simetra, la interseccin, la igualdad, ...), y, sin duda, intervienen realmente en el
modo en que nosotros reconocemos patrones. Adems, posiblemente nuestra
mente atiende a este tipo de relaciones para distinguir variantes del mismo patrn:
vemos como distintos los signos A, A, A, y A(aunque todos sean ejemplos de la
letra "A"), somos capaces de clasificar ejemplos del mismo patrn en grupos a
partir de sus semejanzas. Seguramente debido a la limitacin citada, el modelo del
Pandemonium no puede explicar esta competencia (por ejemplo, el demonio de
decisin responder del mismo modo y sin matices ante dichos signos).

Otra limitacin de este modelo es


nivel como puede ser la informacin
experimentalmente que el sentido global
interpretacin particular que se le asigna a una

que no introduce datos de alto


contextual (se ha demostrado
de una frase interviene en la
letra), o las expectativas inducidas.

Por lo dems, cuando creamos un Pandemonium e intentamos comprobar su


validez, parece necesario que nosotros hayamos interpretado antes el estmulo en
los trminos de las categoras fsicas que el propio sistema utiliza para definir el
patrn (lneas rectas, curvas, ngulos, ...), de tal manera que, en realidad, el
Pandemonium interpreta lo que antes nosotros hemos interpretado del estmulo, no
interpreta el estmulo mismo; para que de verdad fuese capaz de realizar esto
ltimo al sistema se le debera presentar la energa luminosa del propio estmulo
(es decir, debera estar conectado a un sensor y utilizar los datos que ste le
ofrezca). Por ejemplo, si al sistema le presentamos una letra que conste de una
lnea recta, no es cierto que el estmulo bsico o primitivo sea propiamente una
lnea recta pues esto ya exige una interpretacin (es necesario saber qu es una
lnea recta); nuestra mente es capaz de descubrir lneas rectas en el entorno, y es
necesario una explicacin de esta competencia; el Pandemonium no da cuenta de la
habilidad de nuestra mente para captar este tipo de regularidad en los estmulos. O
dicho en otros trminos: en el reconocimiento de patrones existe un procesamiento
de la informacin anterior y ms bsico que el que nos ofrece los modelos al estilo
del Pandemonium.
Por ltimo, y relacionado con lo anterior, el modelo del Pandemonium tiene
poca validez ecolgica: puede ser competente en situaciones bastante artificiales
(pocos patrones, cada uno de ellos compuesto de un nmero reducido de
categoras y que se ofrecen en condiciones perceptuales ptimas), como ocurre en
el caso de las letras del alfabeto; sin embargo, en situaciones normales, los
estmulos son objetos tridimensionales y se ofrecen en condiciones fsicas no
necesariamente perfectas (poca iluminacin, sombras, escorzos, mezcla de unos
objetos con otros, ...); en estas situaciones reales la eficacia de un Pandemonium
es prcticamente nula.
Volver al ndice
VIII. 3. 5. El Pandemonium y el conexionismo
Este modelo de identificacin de patrones se puede incluir en el enfoque
conexionista pues presenta algunos de sus rasgos principales:
1. Existen muchas unidades de procesamiento.
2. La informacin se almacena de un modo bastante distribuido: en el nivel de los
demonios de caractersticas cada letra se define por la activacin de un conjunto
de unidades y cada unidad colabora en la identificacin de varias letras.
3. El procesamiento es en paralelo pues todas las unidades de cada nivel actan
simultneamente.
4. Las unidades estn conectadas entre s formando distintos niveles o capas.

5. La entrada y la salida de cada una de las unidades se expresa de modo


cuantitativo.
6. El cmputo que realiza el sistema es bsicamente de tipo cuantitativo y
probabilstico (los demonios cognitivos reciben informacin cuantitativa de los
demonios de caractersticas y envan su seal al demonio de decisin de modo
cuantitativo (gritando mucho, poco o nada).
Pero tambin encontramos algunas importantes diferencias:

La primera y ms llamativa se refiere al sistema de representacin


grfica utilizado: en los modelos conexionistas tpicos las unidades se suelen
representar con crculos, reciben el nombre de neuronas y las conexiones
entre ellas se representan mediante lneas rectas; en el Pandemonium las
unidades reciben el nombre de demonios, se las representa mediante
pequeos diablillos, y las conexiones entre ellas mediante flechas ms o
menos imaginativas.

En el Pandemonium las conexiones son excitatorias: en el sentido de que si


un demonio de caractersticas detecta un caracterstica enva su seal a un
demonio cognitivo provocando un aumento en la posibilidad de que este se
active o un incremento en su activacin; a su vez el incremento de los
demonios cognitivos provoca un aumento en la posibilidad de que el
demonio de decisin se decida por el carcter que representa dicho demonio
cognitivo; pero el Pandemonium (al menos en sus versiones ms sencillas)
no presenta conexiones inhibitorias mientras que las redes conexionistas
tradicionales s lo hacen.

Aunque, como se ha dicho, el sistema es un sistema de representacin


distribuida, las redes tradicionales distribuyen de un modo ms acentuado la
informacin. Un aspecto de esta diferencia se refiere a la interpretacin
cognitiva: en los modelos de redes conexionistas en los que la informacin
est ms distribuida las unidades no representan ni significan nada, los
significados y las representaciones aparecen como consecuencia de la
interaccin entre una muchedumbre de unidades, y se reflejan
particularmente en el patrn de pesos y el patrn de actividad. En el
Pandemonium hay, al menos, un nivel en el que es posible la interpretacin
cognitiva puesto que en l la informacin se representa de forma localista y
no distribuida (el de los demonios de caractersticas, en donde cada demonio
representa una letra) Por otro lado, es cierto que tambin se han propuesto
importantes ejemplos de redes conexionistas con unidades que permiten
una interpretacin cognitiva (por ejemplo la red NETtalk explicada ms
abajo), y, por lo tanto, representaciones locales.

El Pandemonium no presenta de modo preciso las modificaciones


cuantitativas que sufren las unidades(por ejemplo la intensidad exacta
necesaria para la activacin de un demonio cognitivo, ni la magnitud exacta
de la seal que enva un demonio cognitivo al demonio de decisin para que
se decida por la letra correspondiente al demonio cognitivo).

En el modelo tampoco encontramos conceptos habituales en el


procesamiento de las redes conexionistas tradicionales (umbral, funcin de
activacin, funcin de transferencia, .... );

El procesamiento realizado por el Pandemonium depende de las


asignaciones que el diseador del sistema a establecido, las cuales
dependen, a su vez, de la comprensin que el diseador tiene de las

caractersticas esenciales de las letras (por ejemplo, considerar que la


caractersticas esenciales de la letra G son tener una lnea vertical, una lnea
horizontal, un ngulo recto y una curva discontinua); por esta razn en
realidad el Pandemonium no es un sistema capaz de aprender a reconocer
formas (no sufre un proceso de modificacin de las unidades para adecuar la
entrada con la salida del sistema) ni utiliza algoritmos de aprendizaje; sin
embargo las redes tradicionales pueden aprender en el sentido citado y para
ello disponen de algoritmos de aprendizaje. El Pandemonium puede llegar a
reconocer patrones pero su capacidad se debe bsicamente a la
comprensin que el diseador tiene de la estructura de los patrones que ha
de identificar.
De todos modos, las diferencias anteriores no son significativas pues algunas
se refieren incluso a cuestiones de ndole esttico (el uso de demonio en vez de
neurona, o los dibujos de las unidades); y la mayora de ellos se deben a la falta
de concrecin con habitualmente se presenta el Pandemonium. De hecho es posible
utilizar las ideas bsicas que utiliza este modelo para explicar nuestra capacidad
para reconocer patrones y reflejarla de un modo ms preciso y detallado y en
trminos similares a las redes conexionistas tradicionales. Es lo que ocurrira si
intentsemos implementar el Pandemonium en un ordenador; en este caso sera
preciso concretar con precisin las modificaciones cuantitativas que afectan a las
unidades, a la vez que las funciones matemticas que determinan el cmputo en los
distintos niveles de procesamiento; incluso podran aadirse conexiones inhibitorias
para favorecer el procesamiento. Con estos complementos (que no implican un
cambio en el modelo sino su concrecin) la representacin y arquitectura del
Pandemonium de Selfridge tendra el mismo aroma que los modelos conexionistas
tradicionales.
Sin embargo, en donde las diferencias estn ms marcadas es en el tema
del aprendizaje. Ya se ha dicho que una de las caractersticas principales de las
redes conexionistas es que aprenden a reconocer patrones, no slo que reconocen
patrones; pero en el caso del Pandemonium quien debe aprender es el diseador
de la red: debe descubrir y aprender cules son las caractersticas bsicas que tiene
cada letra (ngulos, lneas rectas, lneas curvas, ...) y debe descubrir a mano las
dificultades con las que puede tropezar el sistema para realizar un procesamiento
eficaz. Por ejemplo, si intentamos poner en funcionamiento el Pandemonium
podemos observar que en principio tendra dificultades para distinguir la letra "P" de
la "R": la "P" tiene una lnea vertical, dos horizontales, tres ngulos rectos y una
curva discontinua y la "R" todas ellas ms una lnea oblicua, de modo que los
demonios cognitivos de la "P" y la "R" se activan por igual y el demonio de decisin
no podr elegir entre ellos. El diseador ha de utilizar alguna estrategia para
resolver este problema, por ejemplo obligar a que un demonio cognitivo se active al
mximo si y slo si estn presentes todas las caractersticas de la letra
correspondiente, de este modo tanto la ausencia de una caracterstica como la
presencia de una caracterstica irrelevante inhibir la respuesta de la unidad. Con
este ejemplo se quiere sealar que el modelo del Pandemonium exige que el
diseador conozca la lgica del procesamiento de la informacin para el
reconocimiento de patrones, algo que, como se sabe, constituye uno de los
objetivos de la psicologa cognitiva tradicional. Esto no ocurre en el caso de los
modelos conexionistas: en ellos la red utiliza algoritmos para la modificacin de los
pesos de sus conexiones y gracias a dichas modificaciones puede aprender por s
misma a reconocer los patrones (una consecuencia de ello es que en los modelos

conexionistas no es posible saber cules son los elementos relevantes que la red
toma en cuenta para el procesamiento ni el orden ni la lgica de dicho
procesamiento; precisamente la originalidad del planteamiento conexionista es que
rechaza la existencia de reglas de procesamiento).
Volver al ndice

VIII. 4. NETtalk: APRENDER A LEER EN INGLS


Terrence Sejnowsky y Charles R. Rosenberg escribieron en 1986 NETtalk:
A Parallel Network that Learns to Read Aloud. En este artculo presentaron la red
NETtalk, cuya finalidad era leer y hablar textos en ingls.
NETtalk tiene una estructura de tres capas interconectadas con cerca de
20.000 sinapsis:

en la capa de entrada encontramos 7 grupos de 29 unidades cada uno


(203 unidades de entrada);

la capa oculta consta de 80 unidades;

y la capa de salida de 26 unidades.

De las 29 neuronas que consta cada grupo de la capa sensorial, 26 codifican


una letra del alfabeto ingls y las otras tres restantes la puntuacin y los lmites
entre palabras. Puesto que las unidades de entrada se distribuyen en siete grupos,
el patrn de entrada que la red es capaz de reconocer ha de ser de 7 caracteres
como mximo. Las unidades de salida o motoras codifican las dimensiones
fundamentales del habla: fonemas, acentos y hiatos entre slabas.
La red transformaba los datos de entrada (las letras) en fonemas o sonidos.
Dado que los pesos originales se establecieron al azar, los primeros resultados no
eran buenos; el entrenamiento consisti en presentar cerca de 1000 palabras del
habla corriente de un nio; un maestro o supervisor controlaba la correccin de la
respuesta de la red y modificaba los pesos mediante la regla delta generalizada
(entrenamiento con propagacin hacia atrs). Tras casi 50.000 presentaciones y las
modificaciones correspondientes de sus pesos, la red era capaz de leer y hablar con
una exactitud del 95 por ciento.
Resultan sorprendentes algunas semejanzas entre NETtalk y la capacidad
lingstica humana:

la progresiva eficacia de la red guarda cierta semejanza con la de los nios:


las primeras respuestas se parecen a los balbuceos sin sentido de un beb,
pero el sucesivo ajuste de los pesos mejora la calidad de los balbuceos
lentamente, hasta culminar en unas respuestas coherentes e inteligibles
ante cualquier texto en ingls;

es capaz de generalizar: al presentarle nuevas palabras del mismo nio el


sistema era capaz de leer y pronunciar con una exactitud del 78 por ciento;

degradacin elegante: la red muestra una clara resistencia al dao; la


destruccin de algunos elementos de la red no tiene consecuencias
catastrficas en el rendimiento total, simplemente disminuye su
rendimiento.

Las propiedades citadas son las que cabra esperar de un sistema de


procesamiento distribuido y paralelo (como se ha comentado en la seccin
correspondiente), y, sin duda, resulta ms eficaz para modelar la capacidad
humana para detectar patrones que los modelos de plantillas y de anlisis de
caractersticas.
La figura siguiente es un esquema simplificado de la arquitectura del NETtalk
(tomado de Soledad Ballesteros, Psicologa General. Un enfoque cognitivo).

VII. ELEMENTOS DE LAS ARQUITECTURAS


CONEXIONISTAS (2)
VII.2.1. Notacin utilizada para representar los elementos y mecanismos
de las redes conexionistas
La tarea de cada neurona o unidad es simple: recibir las entradas de las
clulas vecinas y calcular un valor de salida, el cual es enviado a todas las
clulas restantes. Toda la informacin que la red recibe, almacena, transforma y
enva se expresa en trminos matemticos, en la forma de cantidades y de
frmulas aplicadas a cantidades.
La representacin interna de la informacin se genera en las sinapsis o
conexiones y en la actividad de las neuronas, particularmente en las de la capa
oculta. Dado que las redes modifican sus estados a travs del tiempo como
consecuencia de las distintas entradas de informacin, es imprescindible tambin
introducir en la descripcin de los estados de activacin la referencia al tiempo:

1. a cada neurona (unidad i, ui) le corresponde en cualquier instante un valor


numrico denominado valor o estado de activacin ai(t);
2. cada unidad utiliza una funcin de salida, fi, que calcula la seal de salida (oi,
del ingls output o salida) a partir del estado de activacin que en ese momento
tiene la neurona;
3. la seal de salida se trasmite a otras unidades con las que dicha neurona est
conectada;
4. una neurona recibe la seal de todas las unidades con las que est conectada,
pero lo hace teniendo en cuenta:

el peso asociado a cada una de las conexiones, wij (del ingls wheit,
peso)
y la intensidad o seal que se transmite por la sinapsis;
a la suma de todas las seales ponderadas por el peso de las correspondientes
conexiones se le llama NETi
5. el nuevo estado de activacin ai(t+1) de la neurona i se calcula mediante una
funcin de activacin Fa, teniendo en cuenta la entrada total calculada o NET y
su anterior estado de activacin, ai(t)

(Tomado de "Redes neuronales artificiales", J. R. Hilera y V. J. Martnez, Editorial Ra-ma; p. 51.)

La notacin empleada en las redes neuronales no es unnime:

las unidades o neuronas se representan como u o como n

la funcin de activacin se suele representar por Fa, pero tambin,


simplemente, por F; dado que es preciso referirse a dos funciones, la de
activacin y la de transferencia, conviene utilizar una notacin distinta para

cada una de ellas, por ejemplo para la funcin de activacin la F


mayscula (Fa) y para la de transferencia la f minscula (fi);

la referencia a la activacin actual se suele representar como a(t) y


la siguiente como a(t+1); pero en la literatura sobre el tema tambin
podemos encontrar la referencia a la activacin actual como a(t-1) y el
estado de activacin siguiente como a(t) (y tanto en negrita como en
caracteres normales);

para distinguir la parte de la frmula que corresponde al nombre de las


unidades de la parte de la frmula correspondiente a los otros elementos,
se pueden emplear varias estrategias:
o subndice para los nombres y letra normal para el resto: oi
o letra normal para el nombre de la unidad y negrita para el
resto: oi

para referirse al peso de cada conexin se puede emplear tanto la O


mayscula como la o minscula, lo mismo que para el peso (W o w) y para
la entrada total en cada unidad (Net o NET O NET o net).
Volver a al ndice

VII.2.2. La entrada (input) total. La regla de propagacin


Una neurona recibe seales desde mltiples neuronas por lo que es
necesario calcular el efecto global que tendr ese conjunto de seales o inputs. El
input total se denomina NET, y para el caso de las entradas que le llega a la
neurona i en el tiempo t, NETi(t). Llamamos regla de propagacin a la frmula
que nos indica cmo calcular dicha entrada total o NET; existen varias reglas de
propagacin, pero la ms sencilla y habitual es la que se representa del siguiente
modo:

NETi(t+1) = j wij * oj(t)

NETi es la suma de todas las seales que llegan a la neurona i (seales


representadas como oj), ponderada cada una de ellas por el peso de conexin
asociado, (wij). Cuando una determinada seal oj llega a la neurona i por una
sinapsis inhibidora, el peso wij asociado a dicha sinapsis ser negativo, por lo que
el resultado del producto, wij*oj, aportar un elemento negativo a la suma.

Los valores que transmite una neurona a las neuronas con las que est
conectada se representan como o (oj sera el valor que transmite la neurona j).
Pongamos que los valores que transmite las neuronas de la capa de entrada, y los
pesos correspondientes a sus conexiones con la neurona i son los siguientes:

valores: O(t)

oj: 0.5

ok: 0.3

ot: 0.5

pesos: (Wij)

wil: -0.5

wik: 1

wit: 0.5

ou: -1
wiu: -0.3

En ocasiones los pesos de todas las conexiones o sinapsis correspondientes a


una neurona se suelen representar mediante una matriz: la matriz Wij incluira
todos los pesos de las conexiones con la neurona i(wi1, wi2, wi3, ...wij); si un
elemento de la matriz es positivo indica que la conexin es excitatoria, si es
negativo, la conexin es inhibitoria y si es 0 no existe conexin entre neuronas; en
el caso anterior la matriz sera:

Wij = [0.5, 1, 0.5, 0.3]

Tambin es habitual referirse al conjunto de valores de entrada de una unidad


como el vector O(t) (de output, salida, puesto que normalmente estos valores que
le llegan a una unidad son la salida que produce otra unidad). En el caso anterior, el
vector de valores que le llegan desde otras neuronas y correspondiente al instante
anterior a la modificacin de la neurona i (instante que se suele representar como
(t)) sera:

O(t) = [0.5, 0.3, 0.5, -1].


Si utilizamos la regla de propagacin antes sealada, la entrada total que le
llega a la neurona i o NETi ser la suma de las entradas parciales ponderadas por
los pesos correspondientes:
(0.5 x -0.5) + (0.3 x 1) + (0.5 x 0.5) + (-1 x -0.3) = -2.5 + 0.3 + 2.5 +
0.3 = 0.6

La entrada total se calcula para despus averiguar el estado de activacin


que la va a corresponder a la unidad, pero, dado que la regla de propagacin citada
es muy sencilla, la funcin de activacin que ha de calcular su activacin no se
suele referir a NETi, sino simplemente al sumatorio de los productos del peso por el
valor de las entradas (Wij * Oj).

Volver a al ndice

VII.2.3. El estado de activacin


La activacin (o excitacin, o actividad) de una neurona es muy
importante para el procesamiento puesto que la salida que la neurona provoca
depende de ella. La activacin es el grado o nivel de excitacin de una
neurona, y, generalmente, cambia en funcin de cuatro factores:

el anterior estado de activacin de la unidad;

las entradas que la neurona recibe;

los pesos de las conexiones por las que recibe las seales;

la funcin de activacin utilizada para calcular la activacin a partir de


dichas entradas.

Se llama ciclo a cada una de las veces que la red toma los vectores de
entrada (conjunto de valores de entrada) para realizar los cmputos
correspondientes; pues bien, dado que en cada ciclo la activacin de las neuronas
puede ser distinta, es preciso caracterizar dicha activacin en cada pasada de la
informacin o ciclo, por ello es necesario referirse al tiempo; as, es habitual
representar como Ai(t) (o tambin, con minscula, como ai(t)), el nivel de
activacin de la neurona i en el tiempo t.
Lo que la red representa en cada momento depende del conjunto o patrn
de activacin de la totalidad de las unidades que la componen, por ello es
conveniente tambin especificar dicho patrn. Para reflejar el patrn de activacin
se suele utilizar un vector de N nmeros reales a(t), vector que representa el
estado de activacin de todas las unidades de la red en el tiempo t; en el vector,
cada uno de los elementos representa la activacin de cada unidad en el tiempo t:
A(t) = (a1(t), a2(t), ..., ai(t), ...., an(t))

De este modo, cabe caracterizar el procesamiento que realiza la red como la


evolucin que sufren a travs del tiempo los patrones de activacin de las unidades.

Hay muchos modelos de redes conexionistas y los valores de activacin que


pueden tomar las unidades no son los mismos en todos ellos. Los valores utilizados
con ms frecuencia son los siguientes:

I. CONTINUOS
a) abiertos; los modelos que utilizan este tipo reciben el nombre de modelos
no acotados (o modelos sin lmite): el valor de activacin de una
neurona i puede ser cualquier nmero real;
b) o cerrados; los modelos que utilizan este tipo reciben el nombre
de modelos acotados (o modelos con lmites): pueden tomar cualquier valor
real comprendido en un intervalo con un valor mnimo y un valor mximo,
por ejemplo, el intervalo {0,1}, o el intervalo {-1,1}, generalmente
siguiendo una funcin sigmoidal.

II. DISCRETOS: estos valores se utilizan en los modelos ms sencillos.


a) los ms frecuentes son los valores binarios: la neurona slo puede tener
dos estados: activada o desactivada, estados que se suelen identificar
mediante el par de valores {0,1}, representado el 1 el estado de activado y
el 0 el estado de desactivado o en reposo, o bien {-1,+1}; o, simplemente,
{,+}, representado el 1 (o el +) el estado de activado y el -1 (o el ) el
estado de desactivado.
b) en otros casos son valores discretos no binarios, valores que estn entre
cualquiera de un pequeo conjunto: por ejemplo, pueden estar restringidos al
conjunto de valores {-1, 0, +1}, o a un pequeo conjunto finito de valores
tales como {1, 2, 3, 4, 5, 6, 7, 8, 9}.

Naturalmente, el comportamiento y las utilidades de las redes con distintos


tipos de valores de activacin son tambin distintos; por ejemplo, si las entradas
responden a informacin analgica y no a seales discretas, entonces los valores
ms adecuados son los continuos, no los discretos.

Volver a al ndice

VII.2.4. La regla de activacin


VII.2.4.a. Concepto y frmula general

El estado de activacin de una unidad depende de la funcin de


activacin, que no es otra cosa que una funcin matemtica utilizada para calcular
el siguiente estado de activacin; dicha funcin calcula la nueva actividad de la
unidad o neurona a partir de:

el anterior estado de activacin de la unidad (aunque esta cantidad no


siempre se tiene en cuenta);

todas las entradas que recibe dicha unidad de las otras unidades;

los pesos de las conexiones que la unidad en cuestin tiene con las unidades
de las que recibe las entradas.

Si tenemos la unidad i, su actividad en el tiempo t+1 depender de la funcin


de activacin (Fa) aplicada a:

el estado de activacin de la neurona i en el tiempo t;

todas las entradas oj recibidas por la unidad i desde las neuronas j de la


capa anterior en el tiempo t;

los pesos de conexin wij correspondientes a las distintas sinapsis por los
que cada seal oj llega a la neurona i en el tiempo t.

De este modo, podemos representar la funcin de activacin para el clculo


del nuevo estado de activacin de la unidad i en el tiempo t+1 utilizando la
siguiente notacin:

ai(t+1) = Fa [ai(t), oj(t), wij]

Dado que la entrada total o NET correspondiente a dicha unidad es igual a la


suma de todas las entradas ponderadas por sus correspondientes pesos, la anterior
frmula tambin se puede expresar del siguiente modo:

ai(t+1) = Fa [ai(t), NETi(t)]

Como ms arriba se ha indicado, la notacin utilizada no es la misma en


todos los autores, as en la frmula algunos utilizan F, otros Fa, y para referirse al
tiempo algunos utilizan la notacin t y t-1 y otros t+1 y t, pero son frmulas
equivalentes.

Como ocurra para los valores de activacin de cada neurona, existen


mltiples funciones de activacin, y es el diseador de la red quien debe establecer
la que se ha de utilizar en funcin de las peculiaridades de la tarea para la que se
disea la red.

Volver a al ndice

VII. 2. 4. b. Tipos de funciones de activacin

Funcin identidad
Se trata de una funcin muy simple que no tiene en cuenta el anterior
estado de activacin de la unidad. Se puede expresar con la siguiente frmula:

ai(t+1) = j wij oj(t)

Segn esta funcin de activacin, el estado de activacin que le corresponde


a la unidad i (ai(t+1)) tras recibir las seales desde las unidades a las que est
conectada es el resultado de sumar todas las seales recibidas (oj), ponderadas
cada una de ellas por el peso sinptico (wij) asociado a la sinapsis por la que se
transmite la seal.
Podemos representar el conjunto de estmulos de entrada que le llegan a
una unidad desde la capa anterior como un vector, y los pesos sinpticos
correspondientes mediante una matriz; en esta circunstancia, el clculo del nuevo
estado de activacin de todas las neuronas se obtiene simplemente mediante el
producto de matrices.

En algunas redes se incluye en la funcin de activacin un factor que


representa una fraccin del valor de activacin anterior, por ejemplo:

ai(t+1) = ai(t) + j wij oj(t)

Con esta variante conseguimos que la unidad o neurona mantenga cierto


estado de activacin durante varios ciclos, incluso en el caso de que las entradas
sean cero, en esta ltima circunstancia en cada perodo de tiempo su estado de
activacin corresponder a la mitad del valor de activacin anterior. Con este tipo
de funciones de activacin se garantiza que cada neurona no vare en su estado y
en su respuesta demasiado bruscamente (recordamos que la respuesta de la red
depende en gran medida de los estados de activacin de las unidades que la
componen).

Funcin de activacin tipo umbral

Esta funcin es algo ms complicada que la anterior y se utiliza con


frecuencia en las redes conexionistas, en particular cuando cada unidad slo puede
tener dos estados: activada o desactivada (1 0, respectivamente). Se suele
representar la funcin tipo umbral del siguiente modo:

1 si j wij oj(t) > umbral


ai(t+1) =
0 si j wij oj(t) umbral

Estas frmulas quieren indicar, simplemente, que la neurona i se activar


(tomar el valor 1) si y slo si la suma ponderada de sus entradas supera cierto
umbral, umbral que ha de ser decidido por el diseador de la red.

Volver a al ndice

VII.2.5. La salida de las unidades. La funcin de transferencia

VII.2.5.a. Concepto y frmula general de la funcin de transferencia


Las unidades o neuronas transmiten seales a otras con las que estn
conectadas. La intensidad de estas seales y, por lo tanto, el grado en que influyen
en las unidades con las que estn conectadas est determinado por dos factores:

su grado de activacin;

una funcin matemtica que modula dicho estado de activacin provocando


la seal de salida, funcin que suele ser la misma para todas las unidades.

Por lo tanto, unidades con el mismo grado de activacin pero distintas


funciones de salida producirn distintas seales (oi). A dicha funcin se le
llama habitualmente funcin de transferencia, y puede representarse del siguiente
modo:
oi(t+1) = fi[ai(t+1)]

El valor de salida o respuesta de la unidad i (representado por oi), en el


tiempo t+1, ser el resultado de aplicar la funcin de transferencia (fi) a su estado
de actividad (ai) en el tiempo t+1.

Podemos utilizar la notacin vectorial para representar el conjunto de todos


los valores de salida en el tiempo t+1. As, el vector O(t+1) contendr las salidas
de todas las neuronas o unidades en el tiempo t+1:

O(t+1) = (f1[a1(t+1)], f2[a2(t+1)],..., fi[ai(t+1)],..., fn[an(t+1)])

VII.2.5.b. Tipos de funcin de salida o de transferencia


Existen varios tipos de funciones de transferencia. La funcin escaln o
umbral nicamente se utiliza cuando las salidas de la red son binarias (dos posibles
valores): la salida de una neurona se activa slo cuando el estado de activacin es
mayor o igual que cierto valor umbral. Las funciones mixta y sigmoidal son las ms
apropiadas cuando queremos como salida informacin analgica.
Funcin identidad o funcin lineal
Es la ms sencilla y la de menos uso. Se llama funcin de identidad porque
la salida correspondiente a la unidad es igual a su estado de activacin. En realidad
esta funcin equivale a no aplicar funcin de salida. La frmula correspondiente a
esta funcin es

fi[ai(t+1)] = ai(t+1)

y la salida correspondiente a dicha unidad se puede representar como

oi(t+1) = ai(t+1)

y, en representacin grfica:

La funcin de identidad es adecuada cuando la funcin de activacin que


hemos utilizado para calcular la activacin de la unidad es de tipo umbral. En este
caso la activacin de la unidad ser 1 si est activa y 0 si est inactiva, y la salida
correspondiente ser 1 en el primer caso y 0 en el segundo (o 1 y -1 si hemos
preferido esta notacin).

Funcin umbral
O funcin escaln. Su uso es ms frecuente que la funcin identidad. Con
la funcin umbral la unidad enva seales de salida slo cuando su activacin es
mayor o igual que cierto valor umbral. La respuesta de salida ser binaria o
discreta: slo 1 0 (o bien 1 y -1 si utilizamos esta otra notacin), y depender de
si el valor de activacin (que en este caso es un valor continuo) supera cierto
umbral.

1 si ai(t+1)
umbral
oi(t+1) =
0 si ai(t+1) <
umbral

si el umbral es 0 tendramos

1
1 si ai(t+1) 0

si ai(t+1) 0
oi(t+1) =
oi(t+1) =

-1 si ai(t+1) < 0

0 si ai(t+1) <
0

y, en representacin grfica:

Si en lugar de 0 el umbral fuese otro nmero, el escaln quedara desplazado.

Funcin mixta
Con esta funcin, si la activacin es menor que un lmite inferior, la salida es
0 ( -1). Si la activacin es mayor o igual que el lmite superior, entonces la salida
es 1. Si la activacin est entre los lmites, la salida es una funcin lineal de la
activacin

0 si x < -C
f(x) =

1
si
xC
x/ (2C) + en
otro caso

-1 si x < - C
f(x) =

1 si x C
a.x en otro caso

y, en representacin grfica

C es el lmite superior de la activacin y -C el lmite inferior

Funciones de Saturacin
Son las funciones en las que los incrementos o disminuciones de la
intensidad de la actividad de la unidad producen incrementos o disminuciones de
los valores de salida hasta llegar a unos lmites de salida mxima o mnima a partir
de los cuales la salida se estabiliza y es la misma a pesar del incremento o
disminucin de la intensidad de actividad de la unidad. Dicho de otro modo:
mediante las funciones de saturacin conseguimos que el aumento de la actividad
de la unidad por encima de un lmite no se traduzca en un incremento de salida (y
lo mismo para los valores mnimos). Las funciones de saturacin establecen lmites
mximos y mnimos para las salidas (por ejemplo 1 y -1) y aunque la actividad de
la unidad est por encima de dichos lmites, la salida es siempre el valor mximo.

Hay varias funciones de saturacin, siendo la ms utilizada la funcin


sigmoide.
Funcin Sigmoide
Es una de las funciones de transferencia ms utilizadas. Produce salidas
continuas y proporcionales al nivel de activacin de la neurona dentro del
rango [0,1]; sus niveles de saturacin son 0 y 1, por lo que su salida
mxima ser 1 y la mnima 0. Cuando el nivel de activacin supere al
umbral de saturacin mximo la salida seguir siendo 1 y cuando el nivel
de activacin sea inferior al umbral de saturacin mnimo la salida seguir
siendo 0.

Funcin Tangencial Hiperblica


Es similar a la anterior pero en este caso la saturacin es 1 para el
valor mximo y -1 para el mnimo.

Atendiendo a los tipos de funciones que intervienen en el cmputo, las neuronas


se pueden clasificar en neuronas lineales y neuronas no lineales.
Neuronas lineales
Tienen funciones de activacin y de transferencia lineales, por lo que la
composicin de ambas funciones da lugar a otra funcin lineal. En estas neuronas la
salida oi es linealmente dependiente (es decir, proporcional) de sus entradas Oj
ponderadas cada una de ellas por el peso asociado a las sinapsis (Wij) por las que
le llega a la unidad i las entradas seal. La respuesta de las neuronas lineales no
est acotada y puede tomar cualquier valor.
Est demostrado que los cmputos que realizan redes con ms de dos capas
con unidades lineales se pueden realizar tambin con redes de dos capas, con lo
que se hace superfluo construir redes de ms de dos capas si las funciones
utilizadas son siempre lineales.
Las primeras redes que aparecieron eran de este tipo y presentaban por esta
caracterstica dos grandes problemas:
1. Falta de persistencia en las respuestas: todo cambio en las seales de
entrada produce inevitablemente cambios en las salidas; ello puede dar lugar a
que cambios realmente muy pequeos en las entradas provoquen fluctuaciones
bastante grandes en la respuesta.
2. Falta de adecuacin simultnea a seales grandes y pequeas: si las
funciones utilizadas amplifican mucho las seales de entrada, entonces seales
de entrada de pequea intensidad no se perdern sino que provocarn una
respuesta de la neurona (seales de entrada moderada provocarn respuestas
elevadsimas). En el caso de que dichas funciones amplifiquen poco las seales
de entrada (si produce salidas moderadas ante valores medios), entonces las
seales de entrada dbiles producirn seales poco significativas.
Neuronas no lineales
En estas neuronas su respuesta no es una funcin lineal o proporcional de
sus entradas pues o bien la funcin de activacin o bien la de transferencia o bien
ambas son funciones no lineales. Este es el caso cuando la unidad o neurona utiliza
las funciones no lineales Umbral, Sigmoide o Hiperblica Tangente.

Estas neuronas son ms interesantes que las anteriores pues producen


respuestas acotadas y con ello resuelven en gran medida los problemas anteriores;
por ejemplo en el caso del uso de la funcin umbral, la neurona produce una salida
discreta (0 o 1 por ejemplo) con lo que no se da el problema de la fluctuacin de la
respuesta. En el caso de neuronas con funcin sigmoide o hiperblica tangente las
repuestas slo varen significativamente ante los cambios de las entradas cuando el
valor de la actividad de la neurona est a medio camino entre los dos niveles de
saturacin, mientras que cuando se alcanza los niveles de saturacin pequeas
fluctuaciones en los datos de entrada no producen cambios en la respuesta; con
ello se consigue el efecto de que la neurona no produce salidas con cambios
significativos cuando las nuevas seales de entrada no son muy diferentes de los
actuales.

Volver a al ndice

VII.2.6. Reglas de aprendizaje

VII.2.6.a. Conceptos y modelos de aprendizaje


En las redes neuronales se dice que la red aprende cuando es capaz de
ofrecer ante un determinado patrn de entrada el correspondiente patrn de salida.
Esta capacidad para emparejar adecuadamente los vectores de entrada y los
vectores de salida lo consigue la red mediante la modificacin de los patrones de
interconexin. Las redes neuronales biolgicas realizan estas modificaciones
mediante, al menos, los siguientes procedimientos:
1. el desarrollo de nuevas conexiones;
2. la prdida de las conexiones existentes;
3. la modificacin de la fuerza de las conexiones que ya existen.

Los aspectos 1 y 2 han sido poco tratados en el marco de las redes


neuronales conexionistas. De todos modos, pueden considerarse como un caso
especial de 3, puesto que el cambio de la fuerza de conexin de cero a algn otro
valor, sea positivo o negativo, tiene un efecto similar al hecho de desarrollarse una
nueva conexin; y, a la inversa, siempre que se modifique la fuerza de conexin
situndola en cero es como si se perdiese una conexin existente. En definitiva, el
aprendizaje en las redes conexionistas consiste en la modificacin de las
intensidades de las conexiones; las reglas de aprendizaje no son otra cosa que
las reglas o procedimientos para cambiar los pesos sinpticos o pesos de las
conexiones.

En la vida de la red se suelen distinguir dos periodos o fases: durante


la fase de aprendizaje se la entrena para que modifique sus pesos sinpticos
hasta que su respuesta ante los patrones de entrada sea correcta. En la fase de
funcionamiento real o fase de ejecucin la red ya es operativa y sus pesos
sinpticos no volvern a ser modificados; la red ya se puede utilizar en la tarea
para la que ha sido diseada.
Existen varios modelos de aprendizaje, siendo los principales el supervisado,
el no supervisado y el reforzado.

aprendizaje supervisado: en este modelo existe un agente externo


(supervisor o maestro) que controla el proceso de aprendizaje de la red. La red
debe relacionar dos fenmenos (X e Y) mediante la presentacin de un conjunto de
ejemplos (x1, y1), (x2, y2), ..., (xn, yn). En la formulacin anterior, "X" representa
las entradas e "Y" las salidas requeridas Se llama juego de ensayo al conjunto
formado por las parejas anteriores, patrn de estmulos-respuesta deseada. En
algunos casos no hay ninguna duda en cuanto a los elementos que deben componer
dicho juego de ensayo puesto que se conocen perfectamente todos los patrones
que la red debe reconocer y sus salidas correspondientes (este ocurre, por ejemplo
con el uso del Perceptrn para el cmputo de las funciones lgicas); pero en la
mayora de los casos esto no es as y es preciso tener mucho cuidado en la eleccin
del juego de ensayo y tratar de incluir en l los patrones ms representativos del
problema o fenmeno que se intenta computar. El maestro presenta a la red una
entrada x y la red produce una salida oi. Normalmente esta salida no coincide con
la salida requerida, por lo que el maestro debe calcular el error de salida, ei = e(oi,
yi) y proceder a la modificacin de los pesos utilizando alguna regla de aprendizaje
con la intencin de aproximar la salida obtenida a la salida deseada. Tras esta
modificacin se presenta el siguiente patrn del juego de ensayo y se procede de la
misma manera. Cuando se termina con el ltimo patrn del juego de ensayo, se
tiene que volver a empezar de nuevo pues los pesos se han modificado y es preciso
comprobar que la red responde adecuadamente. A cada uno de los pasos completos
del juego de ensayo se le llama ciclo; dependiendo de la complejidad del problema,
sern precisos pocos o muchos ciclos para el aprendizaje. La fase de aprendizaje
termina cuando los pesos se estabilizan o convergenen unos valores ptimos. En
este caso la red consigue responder correctamente a todas las presentaciones de
los patrones estimulares del juego de ensayo. Aunque el ideal de aprendizaje es el
cien por cien de aciertos, se considera que concluye cuando se minimizan
razonablemente los errores ante el conjunto de ejemplos presentados.

aprendizaje no supervisado: en este tipo de aprendizaje no existe dicho


agente externo que vaya modificando los pesos sinpticos en funcin de la
correccin de la salida de la red; la red no compara su respuesta efectiva
con la salida correcta puesto que no se le especifica cul ha de ser dicha
salida correcta. Con este aprendizaje se busca que la red se autoorganice y
encuentre por s misma caractersticas, regularidades, correlaciones o
categoras en los datos de entrada. En el aprendizaje no supervisado es
necesario presentar un mayor nmero de patrones de entrada y utilizar
reglas de aprendizaje distintas a las que nos sirven para el caso anterior;
adems las arquitecturas de las redes suelen ser distintas (por ejemplo
muchas de ellas tienen dos capas), destacando las redes de Kohoneny
de Grossberg. El modelo que comentamos tiene mucha importancia para
los sistemas biolgicos pues es evidente que la cantidad de habilidades
aprendidas con la ayuda de un profesor es muy inferior a la que se
aprende espontneamente.

aprendizaje reforzado: en cierto modo es una variante del aprendizaje


supervisado pues tambin utiliza un supervisor que examina las salidas del

sistema; sin embargo en el aprendizaje reforzado no se dispone de salidas


deseadas precisas por lo que no es posible computar el error para cada una
de las unidades de salida; el supervisor valora el comportamiento global de
la red mediante un criterio y en funcin de l modifica los pesos mediante un
mecanismo de probabilidades. Para ilustrar la diferencia entre este tipo de
aprendizaje y el supervisado se suele indicar que en el reforzado el
supervisor se comporta como un crtico (que opina sobre la respuesta de la
red) y no como un maestro (que indica a la red la respuesta concreta que
debe generar), mientras que en el supervisado el supervisor se comporta
como un maestro. En el aprendizaje reforzado los algoritmos son ms
complejos que en el supervisado y el tamao de las muestras superior. Uno
de los algoritmos ms conocidos para este tipo de aprendizaje es
el algoritmo asociativo con recompensa y penalizacin presentado en 1985
por Barto y Anandan
Volver a al ndice

VII.2.6.b. Regla de Hebb (o regla del producto)


En La organizacin de la conducta, escrito en 1949, Hebb defiende la idea de
que el aprendizaje y la memorizacin se basa en modificaciones de las conexiones
existentes entre las neuronas y en la creacin de conexiones nuevas; pero el
cambio que le pareci ms determinante para explicar el aprendizaje y la memoria
es el relativo a la modificacin del potencial con el que se transmiten las seales
nerviosas entre las neuronas. Expres esta modificacin del modo siguiente (regla
de Hebb): cuando dos neuronas tienden a estar activas o inactivas
simultneamente, la fuerza o intensidad de sus conexiones aumenta, y disminuye
en caso contrario.
Para dar cuenta de esta modificacin supuso que el incremento de la
conexin se debe a un aumento del rea de unin sinptica. En la actualidad se
considera que esta explicacin biolgica no es adecuada puesto que se cree ms
bien que la causa est en un incremento de la velocidad con que se libera el
neurotransmisor en la clula presinptica. Sin embargo, no interesa su explicacin
biolgica sino la formulacin general antes citada, que como se observa no se
expresa en trminos matemticos precisos; por esta razn, existen muchas
interpretaciones matemticas de la regla de Hebb. Al aprendizaje que sigue este
modelo se le llama aprendizaje tipo Hebb. Veamos algunas de dichas
interpretaciones matemticas:
wij = ai(t) * aj(t)
wij =

(aiai) * (ajaj)

wij =

wij =

* ai(t) * oj(t)

* ai(t) * aj(t)

wij : es el incremento que se ha de sumar o restar al peso sinptico

: es la tasa de aprendizaje
ai(t) : es la activacin de la neurona i en el tiempo t
ai : media de los valores de activacin de i
aj : es la activacin de la neurona j
aj : media de los valores de activacin de j
oj(t) : es la seal que emite la neurona j en el tiempo t

Se trata de una regla de aprendizaje no supervisado, pues no existe


ninguna informacin externa que nos indique si los resultados de la red son
errneos, ni que nos ayude a decidir cmo y en qu grado modificar las
conexiones.; la regla hace simplemente que las unidades vayan influyndose unas a
otras, y se autoconfiguran la permeabilidad sinptica de la red a partir de las
reacciones a los estmulos recibidos.

Volver a al ndice

VII.2.6.c. Regla de Windrow-Hoff o regla delta o regla del menor error


cuadrtico
La utilizaron por primera vez, en 1960, B. Widrow y M. Hoff para su red
ADALINE. Se trata de una regla de aprendizaje supervisado (es preciso presentar a
la red todos los casos de pares entrada-salida que se desea que la red aprenda, y
que el maestro modifique los pesos de las conexiones para corregir los errores en
las salidas). Se denomina regla delta porque en esencia el procedimiento consiste
en modificar los pesos de las conexiones (por lo tanto, favorecer el aprendizaje de
la red) a partir del clculo de la diferencia (o delta) entre las salidas efectivas de la
red y las salidas deseadas.
El maestro presenta a la red un vector o patrn de entrada. Si la red
produce el vector de salida deseado no realiza ningn cambio en los pesos. Si
existe discrepancia entre ambos vectores, los pesos se cambian para reducir la
diferencia. Cuando existe diferencia entre las salidas efectivas y las deseadas la
modificacin afecta a todos los pesos de las neuronas que colaboran en el error, y
se modifican en proporcin a su influencia en el error. Se sigue el procedimiento
citado minimizar el error y, en los mejores casos, convertirlo en cero. En la
literatura sobre el tema existen varias formulaciones; presentamos dos de las ms
sencillas:

wij =

[Ti(t+1) ai(t+1)] oj(t)

wij : incremento o decremento del peso sinptico

: tasa de aprendizaje
Ti(t+1) : activacin deseada en la neurona i
ai(t+1) : activacin real de la neurona i
oj(t) : seal emitida por la neurona j y enviada a la neurona i

En esta primera frmula intervienen los valores de los estados de activacin


(el que realmente tiene la unidad y el deseado), por lo que para averiguar si la
salida final de la red es la correcta es preciso tener en cuenta la funcin de
transferencia.

Otra formulacin es la siguiente:

wij =

[Ti(t+1) oi(t+1)] aj(t)

wij : incremento o decremento del peso sinptico

: tasa de aprendizaje
Ti : es la seal deseada de la unidad i (la unidad de salida)
oi : es la seal producida por la unidad i (la unidad de salida)
aj(t) : es la activacin de la unidad j (la unidad de entrada)

La expresin entre corchetes representa el error que se comete en el nivel


de activacin de la neurona. El nuevo peso sinptico wij se calcula sumando o
restando el incremento obtenido con la frmula general.

Volver a al ndice

VII.2.6.d. Regla Delta Generalizada (o regla de propagacin hacia atrs)


La regla delta no se puede utilizar en redes que tengan ms de dos capas de
unidades pues con l no es posible averiguar en cunto colaboran las unidades de
las capas intermedias en el error total. Dado que hay muchos problemas de
clasificacin que las redes de dos capas no pueden resolver y s lo pueden hacer las
redes multicapa, es necesario ampliar la regla delta para aplicarla a estas ltimas.
La regla delta generalizada es precisamente una modificacin de la regla delta para
su aplicacin a redes multicapa Se suele atribuir su desarrollo a David
E. Rumelhart,
Geoffrey Hinton,
Robert
J. Williams (Learning
internal
representations by error propagation, en Parallel Distributed Processing:
Explorations in the Microstructure of Cognition, vol. 1,Foundations, ed. David E.
Rumelhart y James L. McClelland, Cambridge: Mit Press, 1986).

Esta regla trabaja con el modelo de aprendizaje supervisado, su aplicacin


es vlida slo con redes alimentadas hacia adelante, y al igual que la regla delta,
compara la respuesta emitida por la red con la respuesta deseada y reajusta los
pesos sinpticos de todas las sinapsis de forma proporcional a la diferencia
encontrada. Pero, y esta es la diferencia fundamental, con la regla delta
generalizada el clculo se hace capa a capa desde la capa de salida hacia la de
entrada (de ah que se llame retropropagacin del error, o mejor, de la correccin
del error). Dada la complejidad de la tctica empleada para la modificacin de los
pesos no se incluye en este informe su desarrollo matemtico.

La regla delta de aprendizaje presenta tambin algunas dificultades


caractersticas, por ejemplo, que se caiga en un mnimo local: en el proceso de
minimizacin del error la red puede llegar a una situacin en la que cualquier
pequeo cambio en los pesos, positivo o negativo, incrementa el error; en esta
situacin la regla no es capaz de determinar la direccin en la que se debe mover
los pesos para que, con un incremento mayor, el error vuelva a decrecer.

La regla delta generalizada es una de las ms utilizadas en las redes


conexionistas multicapa alimentadas hacia adelante; desde un punto de vista
histrico y metodolgico supuso un impulso muy importante para el conexionismo
pues consigui superar las dificultades matemticas descubiertas por Minsky y
Papert y que tanto frenaron la investigacin en redes neurales. Con este algoritmo
de aprendizaje utilizado en redes multicapa es posible resolver el problema de la
disyuncin exclusiva y el de la distincin entre T y C (recordamos que estos
problemas se utilizaron como ejemplo de las limitaciones del Perceptrn).

IX. REDES NEURONALES PARA EXPLICAR EL CEREBRO


Cuando nos enfrentamos con la difcil tarea de comprender los presupuestos, tesis
y alcance del conexionismo muy pronto se nos presenta la siguiente pregunta: los
modelos conexionistas, qu quieren explicar, la mente o el cerebro? Son modelos
de la mente o del cerebro? Una respuesta que habitualmente se ofrece es que las
redes conexionistas se han desarrollado en el campo de la psicologa para explicar
habilidades y competencias mentales (percepcin, lenguaje, pensamiento, ...); ese
tipo de redes pertenecen a la psicologa y son modelos de la mente; frente a ellas,
se indican ejemplos de redes creadas en el marco de la neurociencia para dar
cuenta de procesos puramente cerebrales (y, en este caso, son por lo tanto
modelos del cerebro).
Con el trmino psicobiologa podemos referirnos al enfoque que intenta
explicar el mundo de la mente y la conducta a partir de elementos, estructuras y
procesos biolgicos. Una parte importante de esta disciplina incluye el estudio de la
influencia que sobre la psque tienen las substancias qumicas, tanto exgenas
como endgenas (por ejemplo el influjo de los neurotransmisores en la conducta).
Pero parece claro que tambin el estudio de cmo la arquitectura y procesos del
sistema nervioso influyen en la mente y la conducta (lo que cabra
llamar psiconeurologa) debe formar parte de la psicobiologa. En el momento
actual de la ciencia disponemos ya de explicaciones biologistas para dar cuenta de
importantes fenmenospsicolgicos, y no slo en el mbito de los trastornos de
conducta; no es arriesgado afirmar que en el campo de la percepcin este enfoque
ya nos permite explicar algunos fenmenos perceptuales (por ejemplo,
simplemente el hecho de poder percibir colores, o la distincin de contornos a partir
de peculiaridades del procesamiento neural como la del efecto de la inhibicin
lateral, ...). Aunque la siguiente tesis exigira, naturalmente, un anlisis cuidadoso
parece que el conexionismo tiene como destino formar parte de la
psicobiologa (o psiconeurologa) antes que de lo que tradicionalmente
entendemos por psicologa.
El conexionismo oscila entre las siguientes posiciones:

la Inteligencia Artificial: si las redes que se construyen no intentan


reproducir el funcionamiento real del cerebro y buscan, simplemente, imitar
competencias tpicamente humanas, entonces no tenemos psicobiologa pero
tampoco psicologa, tenemos una tecnologa que nos faculta para construir
arquitecturas que puedan ser implementadas en sistemas fsicos no
biolgicos como los ordenadores y los robots (por ejemplo para el
reconocimiento de textos, el reconocimiento del habla, el movimiento
preciso en un entorno poco amigable, ...);

la biologa: si se construyen redes que quieren ser fieles a los mecanismos


y estructuras reales de nuestro sistema nervioso, y se las utiliza para dar
cuenta de competencias tradicionalmente atribuidas a la mente (lenguaje,

percepcin, memoria, ...); este enfoque no es psicologa (al menos


psicologamentalista)
sino
psiconeurologa
y,
por
supuesto,
sus
descubrimientos pueden tener relevancia en Inteligencia Artificial.
El conexionismo parece ser una teora que apela al cerebro para explicar
competencias atribuidas tradicionalmente a la mente. Con esto se quiere sugerir
que desde el conexionismo se defiende la tesis de que lo mental no tiene un
estatuto propio, que la vida mental no posee un tipo de regularidades que puedan
dar lugar a una disciplina independiente de la biologa (ms exactamente de las
ciencias del sistema nervioso). En esta lnea de interpretacin se incluyen, por
ejemplo, las tesis de dos de los representantes ms destacados en el campo de la
reflexin terica sobre el sentido, valor y lmites del conexionismo, los Churchland.
Por otro lado, la idea de que es preciso comprender el funcionamiento de las
estructuras nerviosas para dar cuenta de los procesos mentales (es decir, la idea de
que las redes conexionistas han de ser modelos del cerebro) se encuentra en los
orgenes mismos del conexionismo y ha dado lugar a redes neuronales e hiptesis
que gozan de cierto apoyo experimental; citemos algunos ejemplos:

la regla de aprendizaje descubierta por Hebb quera describir el modo real


en que se relacionan las neuronas en el cerebro para formar asociaciones
estables entre ellas;

en su obra de 1947 How We Know Universals: The Perception of Auditory


and Visual Formas, McCullochy Pitts, defendieron la tesis de que las redes
neuronales de los crtices auditivo y visual eran capaces de reconocer
propiedades invariantes del mismo patrn, que las redes neuronales del
colculo superior (involucrado en el control del movimiento de los ojo) podan
generar el patrn a partir de ejemplos de dicho patrn, y presentaron una
descripcin abstracta de dichas redes;

Taylor propuso las redes que llevan su nombre para explicar la memoria
asociativa y afirm que las reas de asociacin de la corteza cerebral y el
tlamo contenan dichas redes;

y en este mismo contexto hay que situar las teoras del cerebelo, del
hipocampo y del neocortexdefendidas por Marr a finales de los sesenta y
principios de los aos setenta:

* el funcionamiento del cerebelo es semejante a las redes asociativas direccionables


por contenido (ACAMs), y gracias a dicho funcionamiento los animales pueden
realizar movimientos voluntarios delicados y precisos;
* el hipocampo es el soporte fsico de la memoria a corto plazo o memoria de
trabajo, y puede clasificar patrones y recuperar un patrn a partir de datos
fragmentarios porque es tambin un ACAM;
* las representaciones que nos formamos de las clases y subclases de objetos se
basan en el hecho de que el neocortex tiene una estructura y mecanismo similares
al del Perceptrn.
La figura siguiente representa la red propuesta por Marr para explicar el
funcionamiento del cerebelo (tomado de Stephen R. Graubard, comp. El nuevo
debate sobre la inteligencia artificial).
clulas
granulares (g);
son las nicas
clulas
excitatorias, el
resto son

inhibitorias;
clulas de
Golgi (Go)
controlan los
umbrales de las
clulas
granulares;
clulas de
cesta (Ba):
controlan los
umbrales de
las clulas de
Purkinje (Pu)
clulas
estrelladas (S):
controlan los
umbrales de las
clulas de
Purkinje (Pu)
La red se
comporta como
una red ACAM y
asocia los
patrones de las
fibras musgosas
(MF) y de las
clulas en
pendiente (CF).

BIBLIOGRAFIA
1. Ballesteros Jimnez, Soledad. (1995). Psicologa general. Un enfoque
cognitivo. Madrid: Editorial Universitas, Segunda edicin.

2. Boden, Margaret A. (compiladora).(1990). The Philosophy of Artificial


Intelligence. Londres: Oxford University Press. Traduccin castellana
(1994): Filosofa de la Inteligencia Artificial. Mxico: Editorial Fondo de
Cultura Econmica.

3. Churchland, Paul M. (1988). Matter and Consciousness. Cambridge, MA:

Revised Edition. The MIT Press.Traduccin castellana (1992): Materia y


conciencia. Una introduccin contempornea a la filosofa de la mente.
Barcelona: Editorial Gedisa.

4. Churchland, Paul M. y Churchland, Patricia Smith. (1990). Podra


pensar una mquina? Investigacin y Ciencia. Marzo.

5. Corb, Josep y Prades, Josep L. (1995). El conexionismo y su impacto en


la filosofa de la mente. En Fernando Broncano (ed.) La mente humana.
Madrid: Editorial Trotta y Consejo Superior de Investigaciones
Cientficas.

6. Engel, Pascual (comp.). (1988). Psichologie ordinaire et sciences

cognitives. Paris: Centre National de la Recherche Scientifique.


Traduccin castellana (1993): Psicologa ordinaria y ciencias cognitivas.
Barcelona: Editorial Gedisa.

7. Fernndez Trespalacios, Jos Luis. (1986). Psicologa General (I).


Madrid: Editorial Grficas Maravillas.

8. Fernndez Trespalacios, Jos Luis. (1990). Qu es la psicologa? Una

visin actual de sus puntos de vista tericos y de sus aplicaciones.


Madrid: Editorial Grficas Maravillas.

9. Fernndez Trespalacios, Jos Luis. (1990). Enfoques actuales de la

psicologa cientfica. Madrid: Leccin de la sesin inaugural del curso


1990/1991.

10. Ferrater Mora, Jos. (1990). Modos de modelar la mente. en

VVAA. Modelos de la mente. Madrid: Editorial de la Universidad


Complutense.

11. Fodor, Jerry A. (1995). The Language of Thought. Cronwell. Nueva York.

Traduccin castellana (1984):El lenguaje del pensamiento. Madrid:


Alianza Editorial.

12. Freeman, James A. y Skapura, David M. (1991). Neural Networks.

Algorithms, Applications, and Programming Techniques. Massachusetts:


Addison-Wesley
Publishing
Company. Traduccin
castellana
(1993): Redes neuronales. Algoritmos, aplicaciones y tcnicas de
programacin. Wilmington, Delaware, USA: copublicado por AddisonWesley Iberoamericana y Ediciones Daz de Santos

13. Fuentes Melero, Luis J. (1992). Reconocimiento de patrones. En Jos


Luis Fernndez Trespalacios y Po Tudela, (coord.), Tratado de
Psicologa General. Vol. 3. Atencin y percepcin. Madrid: Alhambra
Universidad.

14. Garca-Albea, Jos E. (1991). Entrevista con Jerry Fodor. En La mente

y sus representaciones: cognicin e inteligencia artificial. Madrid:


Revista de Occidente, Abril 1991.

15. Garca-Albea, Jos E. (1991). La mente como mquina simblica. En La

mente y sus representaciones: cognicin e inteligencia artificial. Madrid:


Revista de Occidente, Abril 1991.

16. Garca Madruga, Juan A. (1991). El enfoque computacional en el estudio


del desarrollo de la mente. EnLa mente y sus representaciones:
cognicin e inteligencia artificial. Madrid: Revista de Occidente, Abril.

17. Graubard, Stephen R. (compilador). (1988). The artificial intelligence

debate False starts, real foundations. Cambridge, MA: Mit Press


edition. Traduccin castellana (1993): El nuevo debate sobre la
inteligencia artificial. Sistemas simblicos y redes neuronales.
Barcelona: Editorial Gedisa.

18. Hilera, Jos R. y Martnez, Victor J. (1995). Redes neuronales

artitificiales. Fundamentos, modelos y aplicaciones. Madrid: Editorial RAMA.

19. Johnson-Laird, Philip N. (1988). The Computer and the Mind: An

Introduction to Cognitive Science. William Collins Sons and Co. Lid.,


Glasgow. Traduccin castellana (1990): El ordenador y la mente.
Introduccin a la ciencia cognitiva. Barcelona: Editorial Paids.

20. Lindsay, Peter H. y Norman, Donald A. 1977 Human Information


Processing. An Introduction to Psychology Nueva York, Academic
Press. Traduccin castellana (1986): Introduccin a la psicologa
cognitiva. Primera reimpresin. Madrid: Editorial Tecnos.

21. Martnez

Arias,
Rosario
y
Yela,
Mariano
(coordinadores).
(1991). Pensamiento e inteligencia. Madrid: Editorial Alhambra.

22. Mayor, Juan. (1990). Modelos de la mente y modelos mentales. en


VVAA. Modelos de la mente. Madrid. Editorial de la Universidad
Complutense.

23. Mora, Francisco y Sanguinetti, Ana Mara. (1994). Diccionario de


neuronciencias. Madrid: Alianza Editorial.

24. Olmeda, Ignacio y Barba-Romero, Sergio (editores). (1993). Redes

neuronales artificiales. Fundamentos y aplicaciones. Alcal de Henares:


Servicio de Publicaciones de la Universidad de Alcal.

25. Pitarque, Alfonso y Algarabel, Salvador. (1991). El conexionismo como


marco de simulacin: aplicacin
semntica. Cognitiva, vol. 3, 2.

una

tarea

de

facilitacin

26. Pylyshyn, Zenon W. (1984). Computation and Cognition. Toward a

Foundation for Cognitive Science. Cambridge, MA: The MIT


Press. Traduccin castellana (1988): Computacin y conocimiento.
Hacia una fundamentacin de la ciencia cognitiva. Madrid: Editorial
Debate.

27. Ros, Juan, Pazos, Alejandro, Brisaboa, Nieves R. y Caridad, Serafn.


(1991). Estructura, dinmica y aplicaciones de las redes de neuronas
aritificiales. Madrid: Editorial Centro de Estudios Ramn Areces.

28. Rivire, Angel. (1991). Objetos con mente. Madrid: Alianza Editorial.

29. Rumelhart,

David
E.,
McClelland,
James
L.
y
el
grupo
PDP. (1986). Parallel Distributed Processing: Explorations in the
Microstructure of Cognition. Massachusetts: The MIT Press. Traduccin
castellana: (1992). Introduccin al procesamiento distribuido en
paralelo. Madrid: Alianza Editorial.

30. Searle,

John
R.
(1990). Es
la
mente
informtico? Investigacin y Ciencia. Marzo, 1990.

un

programa

31. Sierra-Vzquez, V. (1992). Procesamiento visual inicial: aspectos


biolgicos, psicofsicos y computacionales del anlisis espacial de
imgenes por el sistema visual humano. En Jos Luis Fernndez
Trespalacios y Po Tudela, (coord.), Tratado de Psicologa General. Vol.
3. Atencin y percepcin. Madrid: Alhambra Universidad.

32. Toribio Mateas, Josefa. (1995) Eliminativismo y el futuro de la Psicologa


Popular. En Fernando Broncano (ed.) La mente humana. Madrid:
Editorial Trotta y Consejo Superior de Investigaciones Cientficas.

También podría gustarte