Está en la página 1de 47

Capitulo 3: El Adaline.

El Adaline (elemento lineal adaptativo), originalmente fue concebido por Widrow and Hoff en
el año 1960, es una maquina adaptativa para la clasificación de patrones que usa el algoritmo de
minimización del error medio cuadrático (LMS) para su operación.

El Adaline es similar al perceptrón, excepto en su función de activación o transferencia, la cual


es una función de tipo lineal en lugar de un limitador fuerte como en el caso del perceptrón. El
Adaline presenta la misma limitación del perceptrón en cuanto al tipo de problemas que pueden
resolver, ambas redes pueden solo resolver problemas linealmente separables, sin embargo el
algoritmo LMS es más potente que la regla de aprendizaje del perceptrón ya que minimiza el error
medio cuadrático, la regla sirvió de inspiración para el desarrollo de otros algoritmos, éste es el gran
aporte de esta red.

El término Adaline es una sigla, Adaptive Linear Element (Elemento Lineal Adaptivo), El
Adaline posee una estructura casi idéntica al perceptrón, la figura 36 presenta el esquema del Adaline.
Es necesario realizar dos modificaciones básicas para transformar el perceptrón en Adaline, la
primera es añadir una función de activación lineal. La segunda modificación consiste en aplicar el
algoritmo de minimización del error medio cuadrático (LMS).

El Adaline consiste en un combinador lineal (sumador), una función de activación lineal de


salida y un mecanismo para ajustar los pesos (LMS). En particular, a la combinación lineal a la salida
del sumador u k producida en respuesta al vector de entrada, se le resta la salida deseada d , para

producir una señal de error e . El error e es utilizado para la implementación del algoritmo LMS. La
salida del Adaline y , es obtenida por el paso de la combinación lineal u k a través de la función de
activación lineal.

………………………………………. Elaborado por: Dr. Armando Briceño A. 1


Figura 36.- Diagrama en Bloque de un Adaline

El objetivo del proceso de adaptación en el Adaline puede describirse como: Dado un conjunto
de patrones de entrada y las salidas deseada asociadas, encontrar un conjunto óptimos de pesos
sinápticos w1 , w2 ,......wp , y un nivel de umbral b, que minimice el valor medio cuadrático del error

actual.
Algoritmo o Regla de Aprendizaje de Mínimo Medio Cuadrático (LMS).

Dado un vector de entrada x , determinar un conjunto de pesos w que dé lugar a un valor de


salida concreto o deseado y . Supongamos que se dispone de un conjunto de vectores de entrada
x1 , x2 , x3 .....x p d k , k  1,...... p
, cada uno de los cuales posee su propio valor correcto , que quizás sea
único.

El problema de hallar un único vector de pesos w que pueda asociar con éxito cada vector de
entrada con el valor de salida deseado no es sencillo. En esta sección desarrollaremos el método
llamado algoritmo de aprendizaje del error mínimo medio cuadrático (Least Mean Square, LMS), el

cual es un método para hallar el vector de pesos w deseado.


Aludiremos a este proceso para hallar el vector de pesos, qué estamos entrenando el Adaline. La
regla de aprendizaje o algoritmo de entrenamiento se puede incorporar directamente al propio
dispositivo, que entonces puede auto adaptarse a medida que se le vayan presentando las entradas y
salidas deseadas. Se hacen pequeños ajustes en los valores de los pesos cada vez que se procesa una

………………………………………. Elaborado por: Dr. Armando Briceño A. 2


combinación entrada-salida, hasta que el Adaline da una salida correcta. En cierto sentido, este
proceso es un verdadero proceso de entrenamiento, porque no necesitamos calcular explícitamente el
valor del vector de pesos. Antes de describir con detalle el proceso de entrenamiento, vamos a llevar a
cabo el cálculo manualmente.

Cálculo del vector de pesos ( w ).

Para empezar, vamos a formular el problema: dados los ejemplos ( x1 , d1 ), ( x2 , d 2 ),....( x p , d p ) de


xp
alguna función de procesamiento que asocia a los vectores de entrada (o los proyecta sobre) a los
dp
valores de salida deseados , entonces ¿cuál es el mejor vector de pesos, w para que un Adaline
lleve a cabo esta proyección?
Para responder a esta pregunta, primero hay que definir lo que constituye el mejor vector de
pesos. Está claro que, una vez que se haya encontrado el mejor, desearíamos que al aplicar todos los
vectores de entrada se obtuviese como resultado un valor de salida que fuese, con precisión, el valor
correcto. Por tanto, es necesario eliminar, o por lo menos minimizar, la diferencia entre la salida
deseada y la salida real para todos los vectores de entrada.
La aproximación que se emplea aquí consiste en minimizar el valor del error medio cuadrático
para el conjunto de valores de entrada. Si el valor de la salida del combinador lineal (u k ) la

yp
denominamos para el p -ésimo vector de entrada, entonces el término de error correspondiente es:
ep  d p  y p

El valor del error medio cuadrático viene dado por la función J :

J 
1
e p 2
2

Empleando el error e p  d p  y p , se puede desarrollar la función J :

J
1
d p  y p 2  1 d p 2  d p y p  1 y p 2
2 2 2

xp
Debemos considerar a como un vector columna y a w como un vector fila.
1 2 1
2
  
d p  w x p x tp wt  d p x tp wt
2

Definimos una matriz R  x p x tp , llamada matriz de correlación de entrada, y un vector P  d p x tp  . Y

ahora rescribimos la función:

………………………………………. Elaborado por: Dr. Armando Briceño A. 3


1 2 1
J d p  wRw t  Pw t
2 2

como se observa, J , es una función de w , es decir, J  J (w) .


1 2 1
J  J ( w)  d p  wRw t  Pw t
2 2
Para hallar el vector de pesos correspondiente al mínimo valor del error medio cuadrático, se debe
derivar J  J (w) con respecto a w , e igualar a cero y obtener el vector w , veamos:
J ( w)
 Rw t  P ; Rwt  P  0 ; Rwt  P
w
wt  R 1P
J ( w)
Observamos que aunque J (w) es un escalar y es un vector. Lo cual representa el gradiente de
w
 J J J J  . Con esto se ha
J (w) , es decir J (w) que es el vector: J ( w)   , , ,......... 
 w1 w2 w3 wn 

demostrado que es posible determinar un punto en el cual la pendiente de la función J (w) es cero.
Debemos de recordar que si tenemos una función f ( x, y) su gradiente viene dado por
 f f 
f ( x, y )   i  j  ; y representa a un vector en la dirección de máxima razón de cambio de la
 x y 
función. En el ejemplo que sigue se muestra un caso sencillo en el cual el Adaline tiene sólo dos
pesos. En esta situación, la gráfica de la funcion J (w) es un paraboloide. Además tiene que poseer
una concavidad dirigida hacia arriba, puesto que todas las combinaciones de pesos deben dar lugar a
un valor no negativo para el valor del error mínimo medio cuadrático J (w) . Este resultado es general,
y se obtiene independientemente de las dimensiones del vector de pesos. En caso de que las
dimensiones sean más de dos, el paraboloide se conoce con el nombre de hiperparaboloide.

Ejemplo:
Supongamos que se tiene un Adaline de dos entradas y otras magnitudes definidas en la
siguiente forma:
3 1   4
R  P  d k 2  10
1 4  5 

Utilizamos la ecuación: Rwt  P

………………………………………. Elaborado por: Dr. Armando Briceño A. 4


3 1  w1   4 
1 4   w   5 
  2  
de donde se obtiene:
3w1  w2  4
w1  4 w2  5

La solución es :
 w1  1
 w   1
 2  
La grafica de J (w) como función de los dos pesos se presenta en la figura 37.

Figura 37.- Para un Adaline con dos pesos, la superficie de error es un paraboloide. Los pesos que
minimizan el error se tienen en el fondo de la superficie paraboloidal.

Calculo de w Mediante el Método del Descenso más Pronunciado


Como se puede imaginar, el cálculo analítico para determinar los pesos óptimos de un cierto
problema es en general bastante difícil, tal como la engorrosa manipulación de matrices para
dimensiones grandes. Una aproximación mejor consistiría en dejar que el Adaline buscase por sí
mismo los pesos óptimos haciendo que explorase la superficie de pesos para hallar los pesos que
garantizan el error mínimo medio cuadrático. Empezaremos por asignar unos valores arbitrarios a los
pesos. A partir ese punto de la superficie de pesos, se determina la dirección de la pendiente más

………………………………………. Elaborado por: Dr. Armando Briceño A. 5


pronunciada en dirección hacia abajo. Luego se modifican ligeramente los pesos para que el nuevo
vector de pesos se encuentre un poco más abajo en la superficie. Este proceso se repite hasta haber
alcanzado el mínimo. El procedimiento se muestra en la Figura 38.

Figura 38.- Diagrama para visualizar el descenso más pronunciado, la


selección inicial del vector de pesos da lugar a un J min

Dado que el vector de pesos de este procedimiento es variable, lo escribimos como una función

explícita del paso temporal t. El vector inicial de pesos se denota de la forma w(0) y el vector de pesos

en el instante t es w(t ) . En cada paso, el próximo vector de pesos se calcula según:


w(t  1)  w(t )  w(t )

en donde w(t ) es el cambio que sufre w en el t-ésimo instante.


Estamos buscando la dirección del descenso más pronunciado en cada punto de la superficie, así
que necesitamos calcular el gradiente de la superficie (el gradiente proporciona la dirección de la
pendiente más pronunciada hacia arriba). La dirección opuesta del gradiente es la dirección de
descenso más pronunciado. Para obtener la magnitud del cambio, se multiplica el gradiente por una

constante apropiada  . El valor  determina la velocidad de convergencia del vector de pesos hacia
el valor de mínimo error. Este procedimiento da lugar a la expresión siguiente:

………………………………………. Elaborado por: Dr. Armando Briceño A. 6


w(t  1)  w(t )   J (w(t ))

Lo único que se necesita para finalizar lo tratado es determinar el valor de J (w(t )) en cada
paso sucesivo de iteración. Para el cálculo de J (w(t )) se utiliza una aproximación de J (w(t )) ,

empleando e 2p  (d p  wx p ) 2 como la aproximación. Es decir J ( w(t ))   e2p  e2p , por tanto, si

operamos el error cuadrado tenemos: J (w(t ))  2ep x p de modo que: w(t  1)  w(t )  2 e p x p

Observe que se utiliza el signo +, ya que el gradiente siempre se selecciona en sentido contrario al de
máxima pendiente. Es decir en el sentido del descenso en la superficie del error. La figura 39
muestra la ruta seguida en la superficie del error.

Figura 39.- Ruta Hipotética del Vector de Pesos según el Algoritmo LMS

En la figura 39, se observa la ruta hipotética que sigue el vector de pesos en su búsqueda del
error mínimo utilizando el algoritmo LMS, observe que no es una curva suave porque se está
aproximando al gradiente en cada punto, también se puede observar que el tamaño del paso es cada
vez más pequeño a medida que se aproxima a la solución del mínimo error.
En resumen el algoritmo LMS cumple los siguientes pasos en el proceso de interacción:

1.- Se aplica un vector de entrada x p , en las entradas del Adaline.

2.- Se determina el error cuadrático, e p 2 , empleando el valor actual del vector de pesos:

e 2p  (d p  wx p ) 2

3.- Se actualiza el vector de pesos según:


w(t  1)  w(t )  2 e p x p

………………………………………. Elaborado por: Dr. Armando Briceño A. 7


4.- Se repiten los pasos con el siguiente vector de entrada, hasta que el error quede reducido a un valor
aceptable.
La ecuación anterior es la expresión del algoritmo LMS. El parámetro  determina la
estabilidad y la velocidad de convergencia del vector de pesos hacia el valor de error mínimo. Dado
que se ha utilizado una aproximación del gradiente en la ecuación anterior, el camino que sigue el
vector de pesos al bajar por la superficie de pesos hacia el mínimo podría tener una ruta de búsqueda
con el algoritmo LMS como se indica en la figura 39.
Los cambios del vector de pesos deben hacerse relativamente pequeños en cada interacción. Si
los cambios son demasiado grandes, el vector de pesos podría vagar por la superficie sin encontrar
nunca un mínimo, o podría alcanzarlo solo por accidente en lugar de ser el resultado de convergencia
sostenida hacia él. La misión del parámetro  es la de evitar esta situación. Por experiencia se ha de
tomar un valor de  tal que los pesos no cambien más que una cierta fracción de su valor actual. Esta
regla parece vaga pero la experiencia parece ser el mejor profesor a la hora de seleccionar un valor
adecuado de  .

Principal Aplicación de la Red Adaline

La red Adaline ha sido ampliamente utilizada en el procesamiento de señales. A comienzos del


estudio de las comunicaciones electrónicas, se diseñaban filtros analógicos empleando circuitos RLC
(Resistencias, Inductores, Condensadores) para eliminar el ruido de las señales empleadas en las
comunicaciones; este procesamiento se ha transformado en una técnica de múltiples facetas,
destacándose en la actualidad el uso de procesadores digitales de señales (DSP), que pueden llevar a
cabo los mismos tipos de aplicaciones de filtrado ejecutando filtros de convolución realizados
mediante programación convencional, en cualquier lenguaje de programación conocido. El proceso de
filtrado sigue ocupando un lugar muy importante en la industria, pues siempre será necesario eliminar
el ruido en señales portadoras de información.

Todos los filtros se pueden caracterizar a partir de su respuesta a la función de impulso unitario,
que se representa por la forma:

………………………………………. Elaborado por: Dr. Armando Briceño A. 8


La ventaja de esta formulación es que una vez se conoce la respuesta del sistema para el
impulso unitario, la salida del sistema para cualquier entrada está dada por

Donde es la entrada al sistema

Esta ecuación describe una convolución entre la señal de entrada y la respuesta del sistema al
impulso unitario. Para este caso, basta tener en cuenta que la convolución es una operación de suma
entre productos, similar al tipo de operación que realiza un Perceptrón cuando calcula su señal de
activación. La red Adaline emplea este mismo calculo para determinar cuanta estimulación de entrada
recibe a partir de una señal instantánea de entrada; esta red tiene diseñado en su interior una forma de
adaptar los coeficientes ponderables (pesos de la red) para hacer aumentar o disminuir la estimulación
que recibirá la próxima vez que se le presente la misma señal. Cuando se emplea una red tipo
Adaline, el problema se convierte, en que la red sea capaz de especificar la señal de salida deseada,
dada una señal de entrada específica. La red Adaline toma la entrada y la salida deseada, y se ajusta a
sí misma para ser capaz de llevar a cabo la transformación deseada. Además, si cambian las
características de la señal, la red Adaline puede adaptarse automáticamente. Al usar la red tipo
Adaline para implementar un filtro adaptivo, se debe incorporar el concepto de retardos en línea, el
cual se visualiza en la figura 40.

Figura 40.- Retardos en línea

………………………………………. Elaborado por: Dr. Armando Briceño A. 9


Si se combina la red Adaline con un bloque de retardos en línea, se ha creado un filtro adaptivo como
el de la figura 41.

Figura 41.- Filtro adaptativo

Cuya salida viene dada por:+

Ejemplo: Filtro Adaptativo

Descripción del problema:

Sin duda la principal aplicación de la red Adaline está en el campo del procesamiento de
señales, en concreto para el diseño y realización de filtros que eliminen el ruido de señales portadoras
de información. Como filtro adaptivo se ha utilizado ésta red en numerosas aplicaciones,
destacándose su uso en filtros de ecualización adaptivos en modems de alta velocidad y canceladores
adaptivos del eco para filtrado de señales en comunicaciones telefónicas de larga distancia y
comunicaciones vía satélite. Una de las primeras aplicaciones de redes neuronales que tuvo éxito en la
industria fue el Adaline para la eliminación de ecos en circuitos telefónicos.

Por otro lado, los filtros adaptivos se pueden usar para predecir el valor futuro de una señal a
partir de su valor actual basándose en un aprendizaje en el que se emplea como entrada el valor

………………………………………. Elaborado por: Dr. Armando Briceño A. 10


retardado de la señal actual y como salida esperada, el valor actual de la señal, el filtro intentará
minimizar el error entre su salida y la señal anterior. Una vez el filtro predice correctamente la señal
actual, basándose en la señal anterior, se puede utilizar directamente la actual como entrada sin el
retardo, el filtro realizará una predicción del valor futuro de la señal.

Otro ejemplo es el filtro adaptivo utilizado para modelar las respuestas de un sistema basándose
en las señales de entrada, en este caso las entradas al filtro son las mismas que las del sistema,
ajustando los pesos durante el aprendizaje en función de la diferencia entre su salida y la del sistema,
éste será el modelo de filtro adaptivo utilizado en esta aplicación.

Existen sistemas en los cuales es posible determinar la fuente de ruido, por ejemplo cuando son
los mismos elementos de medición los que introducen señales de ruido a la señal original; este ruido
es ocasionado por los niveles de voltaje y de frecuencia del sistema alimentador de los aparatos, el
cual es imprescindible en el proceso.

En la presente aplicación, una señal de ruido ha sido introducida por los cables de conexión de
los aparatos y se ha mezclado con la señal que se desea medir, lo que en este caso es crítico, ya que no
se conoce la forma exacta de la señal de interés y por tanto no es posible determinar cuál debe ser la
señal correcta de salida.

Aprovechando que la fuente de ruido ha sido completamente determinada, se utilizará este


conocimiento para implementar un procedimiento de filtrado que por medio de un filtro adaptivo
permita recuperar la señal original.

La figura 42, es un esquema de la disposición que se dará al filtro dentro del contexto general
que se ha dispuesto para solucionar el problema. Las variables son:

………………………………………. Elaborado por: Dr. Armando Briceño A. 11


Figura 42.- Diagrama de Bloques de un filtro adaptivo

s: Señal de interés, es decir es la señal que se desea medir, aunque se conoce su naturaleza, su forma
es indeterminada.

v: Fuente de poder de los instrumentos de medida, por sus características de potencia y frecuencia es
una fuente de ruido.

m: La señal v, es indispensable en el proceso de medición ya que sin ella los aparatos de medida no
funcionarían; v es la fuente detectada de ruido, pero su contribución se limita a la parte inducida en
los cables de conexión, que se convierten en el camino de contaminación; de esta forma la señal m es
la fuente de ruido que afecta realmente la señal original s.

t: Señal resultante de la suma de la señal de interés s y de m que es el porcentaje efectivo de ruido que
afecta la medición.

a: Salida del filtro.

e: Diferencia entre la señal contaminada t y la señal que entrega el filtro adaptivo, si el filtro realiza
un buen trabajo, esta señal debe ser la señal restaurada sin ruido. Durante el proceso de aprendizaje la
señal e servirá como referencia para determinar el desempeño del filtro.

………………………………………. Elaborado por: Dr. Armando Briceño A. 12


La señal v es una señal por lo general de 60Hz, que en este caso alimenta el filtro adaptivo, los
parámetros del filtro deben ajustarse para minimizar la señal de error e, de esta forma y de acuerdo
con el esquema de la figura 42 podría pensarse que la salida esperada del filtro a es la señal
contaminada t, pero debe recordarse que la única fuente efectiva de ruido es la señal m por lo tanto, lo
que realmente se espera del filtro es que reproduzca sólo la parte de t que afecta la medición (t=
s+m), o sea m. Por consiguiente la salida del filtro a debe ser cada vez más cercana a m para que la
señal de error e, se aproxime a la señal no contaminada s.

La entrada al filtro es el valor de la fuente de ruido, que en este caso se asumirá como una señal
senoidal uniformemente distribuida entre -0.2 y 0.2 para conservarla dentro de límites observables; la
frecuencia de la onda es de 60 Hz, y la frecuencia de muestreo es de 180 Hz.

(1)

El estudio de los procesos de filtrado se ha basado en un análisis en el dominio de la frecuencia,

determinado por las series de Fourier, así para un sistema de filtrado dado, una señal de entrada

que produce una salida característica del sistema en el dominio del tiempo, se obtendrá un
análogo en el dominio de la frecuencia tal que, F(w) producirá una señal de salida F(w)H(w). En la
figura 43, se observa como el sistema actúa como un filtro de las diferentes componentes de
frecuencia. Para garantizar que el filtrado sea exitoso, el filtro debe atenuar igualmente todas las
componentes de frecuencia, la respuesta debe ser una réplica de la señal de entrada no en magnitud,
pero si en forma; en general puede haber un retraso de tiempo asociado con esta réplica, por lo tanto,

se habrá filtrado exitosamente una señal , si la respuesta es ; la respuesta es una


réplica de la entrada con magnitud k veces la señal original y un retraso de t0 segundos.

Figura 43.- Representación de un sistema de filtrado en el dominio del tiempo y en el dominio


frecuencial

………………………………………. Elaborado por: Dr. Armando Briceño A. 13


Para el filtro adaptivo v(t) es la señal de entrada al filtro y la respuesta debe ser que
en el dominio de la frecuencia, equivale a desfasar la función original 900 y multiplicarla por un factor
k, el cual se escogió como 1/10 para simplificar el proceso de visualización.

Como se indicó anteriormente, la salida del filtro debe ser la señal m para que al final del proceso
pueda obtenerse la señal restaurada, por lo tanto la forma de la señal m será:

Para tener una idea clara de la relación entre m y v, la figura 44 ilustra la proporción de la señal
original de ruido y de la señal efectiva de ruido que afecta la medición.

En la gráfica de la parte superior de la figura 44, se ve como v es una señal senoidal de magnitud 1.2,
mientras que la gráfica inferior muestra la señal m que alcanza solo la décima parte de v con una
magnitud de 0.12 y desfasada 900 con respecto a la señal v, éstas dos ondas representan los patrones
de entrenamiento de la red, siendo v la entrada y m la salida deseada.

Figura 44.- Señal original de ruido y señal que afecta el proceso de medición

………………………………………. Elaborado por: Dr. Armando Briceño A. 14


Justificación del tipo de red la red Adaline

Como puede notarse, la red Adaline tiene la estructura básica del Perceptrón, la diferencia es
que su función de transferencia es del tipo lineal, pero por poseer una estructura similar presenta la
misma limitación de la red tipo Perceptrón de poder resolver solo problemas linealmente separables.

A pesar de sus limitaciones innatas, la red Adaline es ampliamente usada en los procesos de
filtrado combinándola con retardos en línea a su entrada, que mejoran la calidad del filtrado, ver
figura 45.

Figura 45.- Estructura de un filtro adaptivo con una red Adaline

Cuando no es posible determinar la forma de onda de la señal original, ya que este es


precisamente el propósito de la medición, un filtro adaptivo se hace bastante útil, pues como su
nombre lo dice se adapta a cualquier forma de señal que se le presente, sobrepasando así las
limitaciones de los filtros tradicionales.

………………………………………. Elaborado por: Dr. Armando Briceño A. 15


Entrenamiento de la red:

El objetivo del algoritmo diseñado en Matlab es lograr obtener la señal m a la salida del filtro,
minimizando el error medio cuadrático hasta reproducir una buena copia de la señal original s. La red
es creada con la función de las herramientas de redes neuronales newlin, que genera una nueva red
tipo Adaline, a la cual se le han introducido cuatro retardos, para conformar el filtro adaptivo que
filtrará la señal de entrada. El valor de los retardos fue escogido por prueba y error, escogiendo aquel
número que presentará un mejor rendimiento para la red.

net=newlin([-1,2],1);
net.inputWeights{1,1}.delays=[0 1 2 3 4];

Los valores de los pesos iniciales y de las ganancias de la red son inicializados aleatoriamente,
con ayuda de la función rands

net.IW{1,1}=rands(1,5);
net.b{1}=[0];
pi={1 2 3 4};

Los valores correspondientes a la entrada y a la salida de la red se obtuvieron evaluando la


ecuación (1) para valores desde hasta . La red se entrenó para 5000 iteraciones, mediante
las cuales el filtro logró una excelente aproximación de la función original.

net.adaptParam.passes=5000;
[net,y,E,pf,af]=adapt(net,p,T,pi);

Para entrenar la red se generaron 101 puntos, algunos de los cuales pueden verse en la siguiente tabla:

1 2 23 51 52 78 101

Entrada a - -
0.6967 1.1345 .... 1.1926 .... 0.2119 0.8583 .... ....
la red (v) 1.1165 0.3137

Valor - -
0.0561 .... .... 0.0961 0.0365 .... 0.0107 .... 0.1176
esperado 0.0159 0.0653

………………………………………. Elaborado por: Dr. Armando Briceño A. 16


(m)

Valor
- - -
entregado .... .... 0.0766 0.0293 .... 0.0163 .... 0.1098
0.2592 0.2379 0.0385
(a)

W1=net.IW{1,1} b1=net.b{1}

I1 I2 I3 I4 I5

N1 -0.0405 -0.0127 -0.0319 -0.0389 -0.0097 N1 0.0032

Mse 0.0022

Tabla 1.- Resultados del proceso de entrenamiento

Para poder juzgar el trabajo realizado por el filtro, la figura 3.3.5 muestra la señal original y la
señal restaurada, que permiten comprobar las bondades del filtro adaptivo.

En la figura 46 se observa como la señal e (verde) reproduce la señal original s (naranja)


logrando una excelente aproximación, a partir de la cual puede retomarse el proceso de medición,
pues en este punto cualquier tratamiento que se le haga a la señal de interés es altamente confiable, ya
que ésta se encuentra libre de ruido.

………………………………………. Elaborado por: Dr. Armando Briceño A. 17


Figura 46.- Señal recuperada por el filtro

Al final del proceso iterativo el máximo error entregado por la red equivale a 1.41e-07, este es
un valor bastante aceptable teniendo en cuenta que el error difícilmente será cero, puesto que el
algoritmo LMS emplea un valor aproximado para el gradiente, que como se dijo en el capítulo 2
recibe el nombre de gradiente instantáneo, en lugar del valor real para realizar la actualización de los
pesos; este valor del gradiente es una versión distorsionada del verdadero gradiente que ocasionará
que los pesos sigan variando suavemente, a pesar de que el error medio cuadrático haya alcanzado el
mínimo valor posible.

Es importante diferenciar entre el valor del error del filtro adaptivo, el cual mide su desempeño
y corresponde al error medio cuadrático descrito anteriormente, y e la señal de error del sistema en
general, con la cual se espera reproducir la señal original sin contaminación s, trabajo que depende a
su vez del desempeño del filtro.

………………………………………. Elaborado por: Dr. Armando Briceño A. 18


En esta red todos los parámetros están muy ligados, por ejemplo en el esquema general de la
figura 42 se observa como la salida e (correspondiente a la diferencia entre a la salida del filtro y m la
señal que se esperaba que este entregará para poder reproducir la señal original s a la salida del
sistema), realimenta a el filtro adaptivo convirtiéndose en un factor decisivo en el proceso de
actualización de los pesos de la red, por otro lado la dimensión del vector de pesos tiene una
influencia directa en el tiempo necesario de entrenamiento, por lo que generalmente se debe tomar un
compromiso entre este aspecto y la aceptabilidad de la solución (normalmente se mejora el error
aumentando el número de pesos).

El valor del parámetro  en el algoritmo LMS tiene una gran influencia sobre el entrenamiento.
Si  es demasiado grande, es posible que la convergencia no se produzca debido a que se darán altos
en torno al mínimo sin alcanzarlo. Si  es demasiado pequeño, se alcanzara convergencia pero a
costa de una etapa de aprendizaje más larga.

………………………………………. Elaborado por: Dr. Armando Briceño A. 19


Capitulo 4: Redes Perceptronicas Multicapas.

Antecedentes: La regla de aprendizaje del Perceptrón de Rosenblatt y el algoritmo LMS de


Widrow y Hoff fueron diseñados para entrenar redes de una sola capa. Como se discutió
anteriormente, estas redes tienen la desventaja que solo pueden resolver problemas linealmente
separables, fue esto lo que llevo al surgimiento de las redes multicapa para sobrepasar esta dificultad
en las redes hasta entonces conocidas.

El primer algoritmo de entrenamiento para redes multicapas fue desarrollado por Paul Werbos
en 1974, este se desarrolló en un contexto general, para cualquier tipo de redes, siendo las redes
neuronales multicapas una aplicación especial, razón por la cual el algoritmo no fue aceptado dentro
de la comunidad de desarrolladores de redes neuronales. Fue solo hasta mediados de los años 80
cuando el algoritmo back propagation o algoritmo de propagación inversa o retropropagación fue
redescubierto al mismo tiempo por varios investigadores, David Rumelhart, Geoffrey Hinton y Ronal
Williams, David Parker y Yann Le Cun. El algoritmo se popularizó cuando fue incluido en el libro
"Parallel Distributed Processing Group" por los sicólogos David Rumelhart y James McClelland. La
publicación de este libro trajo consigo un auge en las investigaciones con redes neuronales, siendo
Red Backpropagation una de las redes más ampliamente empleadas, aun en nuestros días.

La red back propagation es un tipo de red de aprendizaje supervisado, que emplea un ciclo
propagación y adaptación de pesos de dos fases. Una vez que se ha aplicado un patrón a la entrada de
la red como estímulo, este se propaga desde la primera capa a través de las capas siguientes de la red,
hasta generar una salida. La salida de la red se compara con la salida deseada y se calcula una señal de
error para cada una de las salidas.

La señal de error se propaga hacia atrás, partiendo de la capa de salida, hacia todas las neuronas
de la capa oculta que contribuyen directamente a la salida. Sin embargo las neuronas de la capa oculta
solo reciben una fracción de la señal total del error, basándose aproximadamente en la contribución
relativa que haya aportado cada neurona a la salida original. Este proceso se repite, capa por capa,
hasta que todas las neuronas de la red hayan recibido una señal de error que describa su contribución
relativa al error total. Basándose en la señal de error percibida, se actualizan los pesos de conexión de
cada neurona, para hacer que la red converja hacia un estado que permita clasificar correctamente
todos los patrones de entrenamiento.

………………………………………. Elaborado por: Dr. Armando Briceño A. 20


La importancia de este proceso consiste en que, a medida que se entrena la red, las neuronas de
las capas intermedias se organizan a sí mismas de tal modo que las distintas neuronas aprenden a
reconocer distintas características del espacio total de entrada. Después del entrenamiento, cuando se
les presente un patrón arbitrario de entrada que contenga ruido o que esté incompleto, las neuronas de
la capa oculta de la red responderán con una salida activa si la nueva entrada contiene un patrón que
se asemeje a aquella característica que las neuronas individuales hayan aprendido a reconocer durante
su entrenamiento. Y a la inversa, las unidades de las capas ocultas tienen una tendencia a inhibir su
salida si el patrón de entrada no contiene la característica para reconocer, para la cual han sido
entrenadas.

Varias investigaciones han demostrado que, durante el proceso de entrenamiento, la red back
propagation tiende a desarrollar relaciones internas entre neuronas con el fin de organizar los datos de
entrenamiento en clases. Esta tendencia se puede extrapolar, para llegar a la hipótesis consistente de
que todas las unidades de la capa oculta de una back propagation son asociadas de alguna manera a
características específicas del patrón de entrada, como consecuencia del entrenamiento. Lo que sea o
no, la asociación puede no resultar evidente para el observador humano, lo importante es que la red ha
encontrado una representación interna que le permite generar las salidas deseadas cuando se le dan las
entradas en el proceso de entrenamiento. Esta misma representación interna se puede aplicar a
entradas que la red no haya visto antes, y la red clasificará estas entradas según las características que
compartan con los ejemplos de entrenamiento.

Estructura de la Red Multicapas:

Las redes neuronales multicapas o redes perceptronicas multicapas, consisten de una cantidad
de neuronas de entrada que constituyen la capa de entrada, cuyas salidas van hacia una o más
neuronas que constituyen la capa oculta, las salidas de estas se dirigen a la capa de salida que también
está constituida por una cantidad de neurona de salida. En la figura 47 se observa la topología típica
de una red perceptronica multicapas.

………………………………………. Elaborado por: Dr. Armando Briceño A. 21


Figura 47.- Topología típica de una red perceptronica multicapas.

Las redes perceptronicas multicapas, han sido aplicadas con éxitos para resolver difíciles y
diversos problemas en el campo de la ingeniería, entrenándolas de una manera supervisada usando el
algoritmo de retropropagacion (back propagation) del error, el cual está basado en la regla de
aprendizaje de la corrección del error.
Algoritmo de Retropropagacion del Error (Back Propagation).
Básicamente el algoritmo de retropropagacion del error consiste en dos pases a través de las
diferentes capas de la red, un pase en adelanto y un pase en atraso. En el pase en adelanto un patrón o
vector de entrada es aplicado a la capa de neuronas de entrada y su efecto se propaga a la red capa por
capa, finalizando con una cantidad de salidas que representan la salida actual de la red.
Durante el pase en adelanto los pesos sinápticos permanecen fijos. En el pase en atraso, una vez
obtenida la respuesta actual o salida de la red, se le resta el valor de respuesta deseado produciéndose
una señal de error, la cual se propaga entonces en atraso a través de la red en la dirección de las
conexiones de las sinapsis, de aquí, su nombre de retropropagacion del error.
Entonces los pesos de las sinapsis son ajustados de acuerdo a como la respuesta actual de la red
se acerca a la respuesta deseada. En la figura 48 se describe una porción de red multicapa en las
cuales se describen dos clases de señales:
1.- Una señal de función: Esta señal es una función de la entrada (estimulo), que se propaga en
forma adelantada (neurona por neurona) a través de la red hasta la salida de la red. Esta señal es
calculada como función de la entrada aplicada y de los pesos asociados a las diferentes neuronas.

………………………………………. Elaborado por: Dr. Armando Briceño A. 22


2.- Una señal de error: Esta señal de error se origina en las neuronas de salida de la red, y se
propaga en atraso capa por capa. Esta señal de error es procesada por cada neurona de la red como
una señal que depende del error, ya sea de alguna forma o de otra.

Figura 48.- Dirección del flujo de las dos señales básicas en la


red perceptronica multicapas.

Derivación del Algoritmo de Retropropagacion del Error.

La señal de error e j (n) en la salida de una neurona j en la interacción n (presentando el


n
patron de entrenamiento) está definido por:
e j (n)  d j (n)  y j (n) (1)

Donde d j (n) = Salida deseada de la neurona j en la interacción n. Y y j (n) = Salida actual de la

neurona j en la interacción n. Nosotros definimos el valor del error medio cuadrático para la
1
neurona j como e2j (n) .
2
1 2
Correspondientemente el valor instantáneo  (n) es obtenido sumando los e j (n) de todas las
2
neuronas en la capa de salida, la cual viene dado por:
1
 ( n)   e2j (n)
2 jC
(2)

Donde C incluye todas las neuronas de la capa de salida de la red.


Denotamos N como el número total de patrones en el conjunto entrenamiento, el error promedio

cuadrado  av es obtenido por sumatoria de  (n) y normalizado con respecto a N, el cual denotamos
por:

………………………………………. Elaborado por: Dr. Armando Briceño A. 23


N
1
 av 
N
  ( n)
n 1
(3)

El  (n) y el  av son funciones de todos los parámetros libres de la red (pesos sinápticos y

umbral o bias). Para un set de entrenamiento dado, el error promedio cuadrado  av representa la
función de costo como medida del desarrollo del aprendizaje de la red.
El objetivo del proceso de aprendizaje es el de ajustar los pesos sinápticos de la red para
minimizar la función de costo  av . Hay que considerar un método simple de entrenamiento en el cual
los pesos son actualizados básicamente patrón por patrón, los ajustes de los pesos son hechos de
acuerdo con el respectivo error calculado para cada patrón presentado a la red.
Consideremos la figura 49, la cual muestra los detalles de las señales de la neurona j. El nivel de
activación interna conocido como (net) viene dado por v j (n) , el cual es producido en la entrada de la

no-linealidad  (.) , asociada con la neurona j y viene dada por:


p
v j (n)   w ji (n) yi (n) (4)
i 0

donde:
p es el número total de la dimensión de los patrones de entrada incluyendo el umbral aplicado a la

neurona j. wj0 es el peso sináptico correspondiente a el valor fijo de entrada y0  1 , y es igual a

 j aplicado a la neurona j .

Figura 49. Detalle del flujo de la señal de función.

Entonces la señal de función y j (n) que aparece a la salida de la neurona j en la interacción n,

esta dada:

………………………………………. Elaborado por: Dr. Armando Briceño A. 24


y j (n)   j (v j (n)) (5)

De una manera similar al LMS, el algoritmo de retropropagación es aplicado a la corrección

w ji (n) para el peso sináptico w ji (n) , el cual es proporcional al gradiente instantáneo  (n)
. De
w ji (n)

acuerdo con la regla de la cadena podemos expresar el gradiente como:

 (n)  (n) e j (n) y j (n) v j (n)


 (6)
w ji (n) e j (n) y j (n) v j (n) w ji (n)

El gradiente  (n) representa el factor de sensibilidad, el cual determina la dirección de búsqueda


w ji (n)

en el espacio de los pesos para el peso de la sinapsis w ji (n) . Diferenciando ambos lados de la ec (2)

con respecto a e j (n) tenemos:

 (n)
 e j ( n) (7)
e j (n)

diferenciando ambos lados de la ec. (1) con respecto a yi (n) tenemos:


e j (n)
 1 (8)
y j (n)

Diferenciando ambos lados de la ec. (5) con respecto a v j (n) tenemos:

y j (n)
  ' j (v j (n)) (9)
v j (n)

y finalmente diferenciando la ec. (4) con respecto a w ji (n) tenemos:

v j (n)
 yi (n) (10)
w ji (n)
entonces usando las ecuaciones desde la (7) hasta la (10) en la ec (6) tenemos:
 (n)
 e j (n)  'j (v j (n)) yi (n) (11)
w ji (n)

la corrección w ji (n) aplicada a w ji (n) esta definida por la regla Delta, y viene dada por:

 (n)
w ji (n)   (12)
w ji (n)

………………………………………. Elaborado por: Dr. Armando Briceño A. 25


En donde  es una constante que determina la rata de aprendizaje y es conocida como el
parámetro de la rata de aprendizaje del algoritmo de retropropagación, el uso del signo menos en la ec
(12) indica el descenso del gradiente en el espacio de los pesos. Usando la ec (11) en la ec (12)
tenemos:
w ji (n)   j (n) y j (n) (13)

en donde  j (n) es el gradiente local y está definido por:

 (n) e j (n) y j (n)


 j ( n)    e j (n) 'j (v j (n)) (14)
e j (n) y j (n) v j (n)

De acuerdo con la ec (14) el gradiente local para la salida de la neurona j es igual al producto de

la función de error correspondiente e j (n) por la derivada de la función de activación asociada a la

neurona j (  'j (v j (n)) . De acuerdo con la ec (13) y ec (14) notamos que un factor que está envuelto en

el cálculo del ajuste del peso wji(n) , es la señal de error e j (n) en la neurona de salida j.

En este contexto nosotros podemos identificar dos casos distintos dependiendo en donde está
localizada la neurona j. En el caso 1, la neurona j está en la salida, en este caso el manejo es simple
porque cada salida de la red está relacionada con una respuesta deseada propia de la salida, siendo
esto un asunto directo para el cálculo de la señal de error e j (n) . En el caso 2, la obtención de la señal

de error es más complicada ya que la neurona j está en la capa oculta y estas neuronas ocultas no son
directamente accesibles. A continuación se estudian ambos casos con más detalles.
Caso 1.- Cuando la neurona j está localizada en la capa de salida de la red, se le puede asignar
una respuesta deseada, entonces se puede utilizar la ec (1) para calcular el error e j (n) asociado con

esta neurona, como se observa en la figura 46, al determinar e j (n) es directo calcular el gradiente

 j (n) usando la ec (14).


Caso 2.- Cuando la neurona j está localizada en la capa oculta de la red, no se le puede asignar
una respuesta deseada, entonces la señal de error podría ser determinada recursivamente en términos
de las señales de error de todas las neuronas para lo cual esas neuronas ocultas están directamente
conectadas, es aquí donde el algoritmo de retropropagación se torna complicado.

………………………………………. Elaborado por: Dr. Armando Briceño A. 26


Consideremos la situación de la figura 50.

Figura 50.- Detalles de conexión sobre el flujo de señales entre una neurona de salida k y una neurona
oculta j.

La figura 50 muestra una neurona j como un nodo oculto de la red, de acuerdo con la ec (14)
nosotros podemos redefinir el gradiente local  j (n) para la neurona oculta j como:

 (n) y j (n)  (n) '


 j ( n)     j (v j (n)) (15)
y j (n) v j (n) y j (n)

Donde la neurona j esta oculta.


 (n)
Para calcular procedemos de la siguiente manera: de la ec (2) vemos que;
y j (n)
1
 ( n)  
2 kC
ek2 (n) (16)

Donde la neurona k es una salida.


La ec 16 esta rescrita de la ec (2), excepto por el uso de k en lugar de j. Tenemos que tener pendiente
esto para evitar confusiones con el uso del subíndice j, que se refiere a la neurona oculta bajo el Caso
2, de cualquier manera diferenciando la ec (16) con respecto a la señal de función y j (n) tenemos:

 (n) e (n)
  ek k (17)
y j (n) k y j (n)

ek (n)
Usando la regla de la cadena para derivadas parciales y rescribiendo la ec (15) en una forma
y j (n)

equivalente, tenemos:

………………………………………. Elaborado por: Dr. Armando Briceño A. 27


 (n) e (n) vk (n)
  ek k (18)
y j (n) k vk (n) y j (n)

Sin embargo de la figura 50, notamos que:


ek (n)  dk (n)  yk (n)  dk (n)  k (vk (n)) (19)
la neurona k es un nodo de salida. Puesto que:
ek (n)
  k ' (vk (n)) (20)
vk (n)
también vemos de la ec(4) que para la neurona k, que el nivel de activación interna viene dado por:
q
vk (n)   wkj (n) y j (n) (21)
j 0

Donde q es la dimensión del patrón entradas (incluyendo el umbral) aplicado a la neurona k. Aquí de
nuevo el peso de la sinapsis wk 0 (n) es igual al umbral  k (n) aplicado a la neurona k , y la

correspondiente entrada y0 esta a un valor fijo –1, de cualquier manera diferenciando la ec. (21) con

respecto a y j (n) :

vk (n)
 wkj (n) (22)
y j (n)

Usando la ec. (20) y ec. (22) en la ec. (18) obtenemos la derivada parcial deseada:

(23)

Donde observamos al gradiente local  k (n) dado en la ec (14) con el índice k, sustituido por j.

Finalmente usando la ec. (23) en la ec. (15), obtenemos el gradiente local  j (n) para la neurona oculta

j. El cual podemos expresarlo como:


 j (n)   j ' (v j (n)) k (n)wkj (n) (24)
k

Donde la neurona j esta oculta.


El factor  j ' (v j (n)) envuelto en el cálculo del gradiente local  j (n) de la ec. (24) depende

únicamente de la función de activación asociada con la neurona oculta j.


El factor de mantenimiento envuelto en este calculo, es decir, la sumatoria sobre k, depende de
dos términos, el primer termino  k (n) que requiere del conocimiento de la señal de error ek (n) de

………………………………………. Elaborado por: Dr. Armando Briceño A. 28


todas las neuronas que están a la derecha de la neurona oculta j. El segundo termino el wkj (n) consiste

de los pesos sinápticos asociados con esas conexiones.


Se puede generalizar las relaciones que hemos derivado del algoritmo de retropropagacion de la
siguiente forma:
Primero: la corrección wji(n) esta definida por la regla delta:

wji(n)   j (n) yi (n) (25)

donde :
Wji(n)= peso de corrección.
= rata de aprendizaje.
 j (n) =gradiente local
yi (n) = señal de entrada a la neurona j.

Segundo: el gradiente local  j (n) depende de donde se encuentre la neurona j, en un nodo de salida o

en un nodo oculto, entonces:

1.- Si la neurona j está en un nodo de salida,  j ( n) es igual al producto de la derivada

 j ' (v j (n)) por la señal de error e j (n) ambos están asociados a la neurona j (ver ec. (14)).
2.- Si la neurona j está en un nodo oculto,  j (n) es igual al producto de la derivada asociada

 j ' (v j (n)) por la suma ponderada de los  ’s calculados para la neurona en la próxima capa de salida

u oculta que están conectadas a la neurona j (ver ec. (24)).


Los Dos Pases del Algoritmo de Retropropagación.
En la aplicación del algoritmo de retropropagacion se pueden distinguir dos pases para el
cálculo, el primero es referido como pase adelantado y el segundo como pase en atraso. En el pase
adelantado los pesos sinápticos se mantienen inalterable a través de la red, y las señales de función de
la red son calculadas básicamente neurona por neurona, específicamente la función de señales aparece
en la neurona de salida j, calculada como:
y j (n)   (v j (n)) (26)

Donde el nivel de activación interna de la neurona j viene definido por:


p
v j (n)   w ji (n) yi (n) (27)
i 0

………………………………………. Elaborado por: Dr. Armando Briceño A. 29


Donde P es el número total de entrada (incluyendo el umbral) aplicadas a la neurona j, y w ji (n) es el

peso sináptico que conecta a la neurona i con la neurona j, y yi (n) es la señal de entrada a la neurona
j, o equivalentemente, la señal de función que aparece en la salida de la neurona i. Si la neurona j está
en la primera capa oculta de la red, entonces el índice i se refiere a la i-esimo terminal de entrada de la
red, para lo cual:
yi (n)  xi (n) (28)

Donde xi (n) es el i-esimo elemento del vector (patrón) de entrada. Si de otra manera la neurona
j , el índice j se refiere al j-esimo terminal de salida de la red, para lo cual:
yi (n)   j (n) (29)

Donde  j (n ) es el j-esimo elemento del vector de salida (patrón). Esta salida es comparada con la

respuesta deseada d j (n) obteniendo la señal de error e j (n) para la j-esimo neurona de salida.

La fase de adelanto para el cálculo comienza en la primera capa oculta con la presentación del
vector de entrada y termina en la capa de salida calculando la señal de error en cada neurona de esta
capa. La fase en atraso comienza en la capa de salida por el pase de las señales de error a través de la
red hacia la izquierda de la capa de salida, capa por capa y recursivamente calculando el  (gradiente
local) para cada neurona.
Este proceso recursivo permite que los pesos sinápticos cambien de acuerdo con la regla Delta

de la ec (25). Para una neurona localizada en la capa de salida, el  es simplemente igual a la señal
de error de esa neurona multiplicado por la primera derivada de su función no lineal. Entonces usando
la ec. (25) se calculan los cambios de los pesos sinápticos de todas las conexiones que alimentan la
capa de salida.
Dados los  `s para las neuronas de la capa de salida, a continuación usamos la ec (24) para

calcular los  `s de todas las neuronas de la penúltima capa y cambiar los pesos de todas las
conexiones que la alimentan. Los cálculos recursivos se continúan capa por capa realizándose una
propagación de cambios en todos los pesos sinápticos, note que para la presentación de cada ejemplo
de entrenamiento el patrón de entrada se mantiene fijo durante el proceso de aprendizaje de la red que
involucra el paso en adelanto y el paso en atraso.
Taza de Aprendizaje y Momentum

………………………………………. Elaborado por: Dr. Armando Briceño A. 30


El algoritmo de retropropagacion provee una aproximación de la trayectoria en el espacio de los
pesos, calculada por el método de la pendiente descendiente. Disminuyendo el parámetro  (taza de
aprendizaje) podría cambiar los pesos sinápticos en la red de una interacción a otra y alisando la
trayectoria en el espacio de los pesos. Este mejoramiento, sin embargo, se logra con el costo de una
baja rata de aprendizaje, por el contrario, si se aumenta el parámetro  podría producir grandes
cambios en los pesos sinápticos llevando a la red a un estado inestable.
Un método simple para incrementar la rata de aprendizaje y evitar los peligros de la
inestabilidad, podría consistir en modificar la regla delta de la ec (13) incluyendo un término del
momento, conocido como el método del momento.
w ji (n)  w ji (n  1)   j (n) yi (n) (30)

Donde  es usualmente un número positivo llamado constante de momentun y la ec. (30) es


llamada regla Delta Generalizada, esta incluye a la regla Delta de la ec. (13) como un caso especial
cuando = 0, y w ji (n  1) indica el ajuste de los pesos en la interacción (n-1).

Parámetros que Afectan el Desempeño de la Red Multicapa.


1.- El método del momento.
2.- Tasa de aprendizaje
3.- Modalidades de entrenamiento
3.1 Por patrón
3.2 Por lotes
4.- Criterios de parada
4.1 Números de interacciones
4.2 Error mínimo
4.3 Norma del gradiente
4.4 Variación del error absoluto
4.5 Desempeño en el conjunto de evaluación
5.- Iniciación de los pesos
6.- Números de neuronas en la capa escondida
7.- Números de capas escondidas
8.- Generalización
9.- Normalización

………………………………………. Elaborado por: Dr. Armando Briceño A. 31


Capitulo 5: Redes Neuronales Autoorganizables.
Las redes neuronales estudiadas en los capítulos anteriores representan topologías y algoritmos
de entrenamientos diferentes entre sí. En este sentido hemos estudiado redes unicapas y redes
perceptrónicas multicapas, que constituyen topologías entrenadas bajo un ambiente de supervisión.
Las redes que consideraremos a continuación, representan una combinación de las arquitecturas
topológicas y los modos de acceso a información almacenada ya estudiados. La nueva particularidad
la constituirá el modo de entrenamiento no supervisado.
De esta manera, presentaremos redes cuyo aprendizaje no está basado ni en las técnicas de
descenso por gradiente, ni en la familiar regla de correlación. De hecho, no proveeremos ninguna
retroalimentación del ambiente durante la fase de entrenamiento. La red por si misma deberá
descubrir las relaciones de interés que puedan existir en sus datos de entrada. Nuestro interés es
entonces, diseñar redes que sean capaces de transformar las relaciones descubiertas en salidas.
Veremos que el descubrimiento de patrones, características, categorías, etc, pueden realizarse
sin supervisión. Las redes entrenadas sin supervisión usualmente aprenden comparando ciertos
criterios explícitos de familiaridad (parecido). Estas redes pueden producir salidas que nos dicen de su
parecido con el patrón de entrada presentado. Esto es realizado comparando el patrón de entrada
presentado con patrones típicos ya conocidos (vistos en el pasado).
Una medida importante de comparación (similitud) usada para entrenamiento es el máximo
valor del producto escalar de los pesos por el vector de entrada. Usando la medida del producto
escalar, los pesos pueden ser entrenados en un modo no supervisado para semejarlos con patrones de
entrada frecuentes, o con agrupaciones de patrones. Un aspecto peculiar del aprendizaje no
supervisado que utilizaremos es que los indicadores deberán ser creados basados en la historia de la
experiencia del aprendizaje. Estos indicadores son calculados basados en la medida de proximidad
para diferenciar entre características más o menos importantes de los datos. La falta de un supervisor
forza a la red a aprender gradualmente por si misma aquellas características necesarias para clasificar
o reconocer patrones.
Estudiaremos las siguientes arquitecturas de redes: Redes de Hamming y la Maxnet y la Red de
Teoría de Resonancia Adaptativa (TRA) para el descubrimiento de agrupaciones y la clasificación de
vectores binarios.

………………………………………. Elaborado por: Dr. Armando Briceño A. 32


La Red de Hamming y la Maxnet.
En esta sección cubriremos un clasificador de dos capas usado para vectores binarios bipolares,
para lo cual necesitamos recordar la definición de la distancia de Hamming para dos vectores binarios
bipolares X y Y , ésta se define como:
1 n
HD( X , Y )   xi  yi
2 i 1
(1)

La distancia de Hamming es proporcional a la disimilitud (diferencia) entre dos vectores y


representa un entero igual al número de bits de posiciones diferentes entre dos vectores binarios de la
misma longitud. Esto significa que el máximo valor de HD entre dos vectores cualesquiera es igual a
"n” (dimensión del vector) y corresponde a la distancia entre un vector y su complemento (diferencia
total entre vectores).
El clasificador que estudiaremos en esta sección opera seleccionando las clases almacenadas que
se encuentran a su distancia de Hamming mínima al vector presentando a la entrada de la red. Esta
selección de clases es enteramente ejecutada por la red de Hamming, la cual constituye un
clasificador de un nivel de tipo alimentación adelantada.
Una red de Hamming para "p” clases posee "p” neuronas de salida. La respuesta más fuerte de
una neurona es indicativa del valor mínimo de HD entre la entrada y la categoría que esta neurona
representa (utilizando el producto escalar como referencia). La figura 51 representa un diagrama de la
red de Hamming y Maxnet

Figura 51.- Red de Hamming y Maxnet


Aprecie que el segundo nivel del clasificador es llamado Maxnet y opera como una red
recurrente (retorna su salida). Su única función es suprimir valores a la salida de Maxnet diferentes a
aquellos del nodo de máxima salida del primer nivel. Como fue ya indicado, la parte propia del
clasificador es la red de Hamming, responsable de comparar el vector de entrada con los vectores
almacenados. La figura 52 ilustra un diagrama expandido de la red de Hamming para la clasificación

………………………………………. Elaborado por: Dr. Armando Briceño A. 33


de vectores n-dimensionales, binarios y bipolares. El propósito de este nivel es el de calcular, en
forma de alimentación adelantada, el valor de (n-HD), donde HD es la distancia de Hamming entre el
argumento de búsqueda (patrón de entrada) y el vector prototipo codificado (almacenado) en la red.

Figura 52.- Clasificador de Hamming


Ahora asumamos que el vector prototipo de la clase "m” es el vector S ( m ) para m= l,2, ...,p y
que el vector n-dimensional de entrada es X. Note que los elementos del vector de pesos " Wm "
definido por:
Wm  wm1 wm2 ..... wmn  ; m  1,2,.... p (2)
conectan las entradas a la m-ésima neurona.
Antes de que expresemos el valor de la distancia de Hamming por medio del producto escalar de
X y S ( m ) , formalicemos la medida a utilizar introducida aquí. Un vector clasificador con "p” salidas,
una para cada clase, puede ser diseñado de modo que su m-ésima salida sea igual a "n" si y solo si
X  S ( m) . Esto requeriría que los pesos fueran:
Wm  S (m) .

Las salidas del clasificador serían S (1) X , S ( 2) X , ....., S ( m) X ,......S ( p ) X . De modo que, cuando

X  S ( m) , solo la m-ésima salida resultaría igual a "n", siempre y cuando las otras clases difieran entre
sí, y asumimos que los elementos de X son iguales a ± l.
Es claro entonces, que el producto escalar de vectores resulte en una medida obvia para la
comparación de los mismos. El producto escalar S ( m) X de dos vectores binarios, bipolares, n
dimensionales puede ser escrito como el número total de posiciones en los cuales los dos vectores son
iguales menos el número de posiciones en las cuales los dos vectores son diferentes. Observe que el

………………………………………. Elaborado por: Dr. Armando Briceño A. 34


número de posiciones diferentes es el valor de HD. Se entiende entonces que el número de posiciones
en las cuales los dos vectores son iguales es (n-HD). Así, podemos escribir
S ( m) X  (n  HD( X , S ( m) ))  HD( X , S ( m) ) (3)
1 ( m) n
S X   HD( X , S ( m) ) (4)
2 2
Podemos entonces apreciar que la matriz de pesos WH de la red de Hamming, de la figura 52,
puede ser creada codificando los vectores prototipos (clases) como filas, en la forma siguiente:
 S1(1) S 2 (1) .....S n (1) 
 (2) (2) (2)

1  S1 S2 .....S n 
WH   
(5)
2 :
 
 S1( p ) S 2 ( p ) .....S n ( p ) 

1
donde el factor es conveniente para propósitos de escalamiento.
2
1 ( m)
Ahora la red con vector de entrada "X" produce el valor S X a la entrada del nodo "m",
2
n
para m=l,2,...p. Agregando el valor de sesgo o umbral fijo en cada neurona, se obtiene la entrada
2
total netm a la función de activación.
1 ( m) n
net m  S X  , m  1,2,...... p (6)
2 2
Usando la identidad (4), podemos expresar a netm como:

netm  n  HD( X , S m ) (7)


Aprecie ahora que si la función de activación de cada neurona es como la ilustrada en la figura 52,
1
entonces f (net )    netm , m  1, 2,.... p . Ya que las entradas están entre 0 y n, obtenemos las
n
salidas de cada nodo escaladas entre 0 y 1. Más aún, el número del nodo con la salida más alta
realmente indica el número de clase para el cual el patrón "X" posee la menor HD.
Una comparación perfecta del vector de entrada con la clase "m” es equivalente a poseer HD=0
lo que implica que f(net) = l. Un vector de entrada que sea el complemento de un prototipo de clase
"m" produciría f (netm ) =0.

………………………………………. Elaborado por: Dr. Armando Briceño A. 35


La respuesta de la red de Hamming esencialmente determina la clasificación en la cual solo el
primer nivel de la red, de la figura 51, calcula los valores relevantes de la comparación de clases. La
Maxnet es necesaria utilizarla como un segundo nivel para los casos en los cuales es requerida una
mejora de la respuesta dominante inicial de la m-ésima neurona. Como resultado del procesamiento
recurrente de la Maxnet, la m-ésima neurona responderá positivamente, contrario a las remanentes
neuronas cuyas respuestas deberán caer a cero.
Tal como se ilustra en la figura 53, la Maxnet es una red recurrente que involucra conexiones
excitatorias e inhibitorias. La conexión excitatoria dentro de la red es implementada en la forma de un
lazo de auto-alimentación positiva con coeficiente de ponderación (peso) igual a 1. Todas las
conexiones remanentes de la red completamente conectada son inhibitorias. Ellas son representadas
por M-l sinapsis de alimentación cruzada con coeficientes "  " desde cada salida.
La matriz de pesos del segundo nivel “ Wm ” es de orden pxp y de la forma:

1     .....   
   1   .....   
Wm    (8)
: 
 
    .....   1
donde “  ” debe estar acotado por 0<  < l/p. La cantidad “  ” pueden ser llamada el coeficiente de
interacción lateral. Ahora con una función de activación como la mostrada en la figura 53 y con las
entradas inicializadoras a la Maxnet satisfaciendo las condiciones:
0  yi 0  1, i  1, 2,.... p (9)
la red Maxnet gradualmente suprime todas las excitaciones iniciales exceptuando la mayor de todas.
Cuando la red es inicializada con un vector de entrada " Y 0 " empieza el procesamiento de este vector
con la agregación de una auto-alimentación positiva y una alimentación cruzada negativa. Como
resultado de cierto número de recurrencias, el único nodo no suprimido será aquel cuya entrada inicial
sea la mayor de todas. Esto significa que la única salida diferente de cero será aquella
correspondiente a la del nodo más cercano al argumento del vector de entrada en el sentido de la
distancia de Hamming.

………………………………………. Elaborado por: Dr. Armando Briceño A. 36


Figura 53.- Red Maxnet
El procesamiento recurrente de la Maxnet que produce la respuesta está dado por
Y k 1  f (WmY k ) (10)
cuyos elementos "f(.)" están dados por:
0 net  0
f (net )   
net net  0 
Cada elemento del vector actualizado Y k 1 decrece en el k-ésimo paso de la recursión dada en
(10), bajo el algoritmo de actualización de la Maxnet. Es claro que el mayor elemento decrecerá a
cero menos rápido que los otros. Esto es debido a la condición impuesta en los elementos de la matriz
Wm (condición (8)). Debemos tener en cuenta que una red de Hamming es un clasificador puro y no
posee ningún mecanismo de restauración de los datos. Notemos que los pesos de la red de Hamming
y de la Maxnet fueron diseñados grabando sus valores y no por medio de un mecanismo de ajuste de
pesos.
El siguiente ejemplo explica el diseño y operación del clasificador estudiado.
Diseñemos un clasificador por mínima distancia de Hamming para los caracteres C, I, T mostrado en
la siguiente figura.

Los vectores clase o prototipos bipolares, binarios correspondientes son:

………………………………………. Elaborado por: Dr. Armando Briceño A. 37


S (1)  1 1 1 1  1  1 1 1 1
T

S ( 2 )   1 1  1  1 1  1  1 1  1
T

S (3)  1 1 1 1 1  1  1 1 1
T

1
Seleccionemos a   0.2  .
3
Se pide determinar a qué clase pertenece el vector: X=[1 1 1 1 1 1 1 1 1]
Resolver

Aprendizaje no Supervisado de Grupos


Hasta ahora, nuestra discusión se ha centrado en las tareas de clasificación y reconocimiento
realizadas por redes neuronales que han sido previamente entrenadas. El entrenamiento ha sido o bajo
supervisión o de modo que los parámetros de la red han sido explícitamente calculados basados en los
requerimientos del diseño, hemos consistentemente asumido la existencia de un conjunto de
entrenamiento que contiene tanto entradas como salidas requeridas.
En esta sección presentaremos al aprendizaje no supervisado para clasificación. Este aprendizaje
está basado en el aglutinamiento de los datos de entrada. Se asumirá que no conocemos ninguna
información a priori con relación a la membresía de alguna entrada sobre alguna clase particular. En
vez de eso, gradualmente detectaremos características de los datos de entrada y una historia del
entrenamiento será usada para asistir a la red en la definición de clases y los posibles límites entre
éstas.
La clasificación no supervisada es llamada aglutinamiento. Se cree que la evolución del
aprendizaje en los humanos debe haberse originado miles de años atrás en forma no supervisada, toda
vez que no habían maestros ni libros, etc. Sobre los años, por ejemplo, los seres vivos han sido
clasificados en ciertos grupos de acuerdo a características observadas. El criterio más simple y
sensible utilizado ha sido el de las similitudes de los objetos dentro de un grupo.
El objetivo de las redes neuronales de aglutinamiento discutidas acá es el de categorizar o
producir grupos de datos. Las clases deben primero ser encontradas de las correlaciones de una
corriente (fuente) de datos de entrada. Debido a que la red trata con datos no etiquetados, el
aglutinamiento bebería ser seguido con la identificación de esos grupos con números o nombres
apropiados de categorías. El proceso de proveer de etiquetas a categorías de objetos es llamado
calibración.

………………………………………. Elaborado por: Dr. Armando Briceño A. 38


Medidas de Aglutinamiento y Similitud
El aglutinamiento es entendido como la agrupación de objetos similares y la separación de
aquellos distintos entre sí. Supongamos que nos dan cierto conjunto de patrones sin ninguna
información sobre el número de clases que pueden estar presentes en el conjunto. En este caso, el
problema de aglutinamiento consiste en identificar el número de clases de acuerdo a cierto criterio, y
de asignar la membresía de los patrones en estas clases. Por ejemplo si el conjunto de patrones
 X1 , X 2 ,....X N  es presentado a la entrada para identificar posibles grupos. Ya que no hay información
disponible acerca de las respuestas de clasificación deseadas que provenga de algún supervisor,
usaremos la similitud entre los patrones presentados como criterios para la agrupación de los mismos.
Para definir un grupo necesitamos establecer una base para asignar patrones al dominio de un
grupo particular. Básicamente existen dos bases, la primera es la regla de similitud más común, la
distancia Euclidiana entre dos patrones "X" y "Xi”, definida como:

X  X i  ( X  X i )T ( X  X i ) (20)

Esta regla de similitud es simple: mientras menor sea la distancia, más cercanos entre sí son los
patrones. Usando (20) calculamos las distancias entre todos los pares de puntos. Entonces una
distancia "T" puede ser seleccionada para discriminar entre grupos.
El valor 'T” es entendido como la máxima distancia entre patrones dentro de un mismo grupo.
La figura 54 muestra un ejemplo de dos grupos con un valor de "T” seleccionado de modo que fuera
mayor que la distancia típica dentro de los grupos, pero menor que la distancia entre grupos.

Figura 54.- Formación de grupos basado en una distancia máxima T.


La segunda regla de similitud es el coseno del ángulo entre " X ” y “ X i ”,

X T Xi
cos  (21)
X Xi

………………………………………. Elaborado por: Dr. Armando Briceño A. 39


Esta regla es útil cuando los grupos se producen a lo largo de un eje principal y otros secundarios, tal
como se ilustra en la figura 55.

Figura 55.- Formación de grupos basado en el ángulo entre dos vectores


Por ejemplo, para cos 2  cos1 , el patrón "X" es más similar a " X 2 " que a " X 1 " y
consiguientemente, sería natural agrupar al patrón "X" con el segundo grupo. Para facilitar esta
decisión, el ángulo de umbral " T " puede ser escogido para definir la distancia angular mínima entre
grupos. Deberíamos notar sin embargo, que la medida definida en (21) debería ser usada de acuerdo a
ciertas calificaciones adicionales. Estos es, para que el criterio angular (21) sea eficiente, los vectores
" X 1 ”, “ X 2 “y “ X ” deberían ser de longitudes idénticas, comparables. Cabe resaltar q existen varios
algoritmos de búsquedas de grupos como el de distancias k-medias y el de datos iguales (isodatos)
que corrientemente se utilizan para el reconocimiento de patrones pero que no lo estudiaremos en este
texto.
Red Neuronal de Descubrimiento de Grupos (TRA1)
La red estudiada en esta sección fue desarrollada por Carpenter y Grossberg (1987 -1988), y es
llamada red de teoría de resonancia adaptativa 1, TRA1. (Las siglas en Ingles corresponden a red
ART1). Esta red es usada con el propósito de hacer descubrimiento de grupos (EL GANADOR
TOMA TODO) estas redes aprenden en un modo no supervisado. La propiedad novedosa de las redes
TRA1 la constituye el descubrimiento controlado de grupos. Además, la red TRA1 puede acomodar
nuevos grupos sin afectar el almacenamiento o las capacidades de acceso para patrones ya aprendidos.
La red produce grupos por sí misma, sí tales grupos son identificados en los datos de entrada,
además almacena la información de agrupación de los patrones sin información a priori sobre el

………………………………………. Elaborado por: Dr. Armando Briceño A. 40


posible número y tipo de grupo. Esencialmente la red es una "seguidora del líder" una vez que el
primer grupo es encontrado con los primeros patrones de entrada recibidos, el segundo grupo es
entonces creado sí la distancia del segundo patrón excede cierto umbral; de lo contrario, el patrón es
agrupado con el primer grupo.
Este proceso de inspección de patrones seguido ya sea por el descubrimiento de nuevos grupos
o la aceptación de un patrón a un grupo ya descubierto representa el paso principal de la red TRA1.
La parte central de la red TRA1 calcula el puntaje de comparación que refleja el grado de similitud de
la presente entrada con los grupos previamente codificados. Esto es realizado por la red ilustrada en la
figura 56, la cual realiza un procesamiento de abajo hacia arriba.

Figura 56.- Red TRA1.(Solo se muestran algunos Pesos).

Esta parte de la red es funcionalmente idéntica a la red de Hamming y la Maxnet. La entrada


inicializadora al m-ésimo nodo de la Maxnet es la familiar medida de similitud en términos del

producto escalar entre la entrada "X” y el vector “ Wm ”.


Así tendremos los valores iníciales del puntaje de comparación

y 0m  WmT X (50)

para m = l,2,...,M 
donde Wm W1m W2m .....Wnm T .
………………………………………. Elaborado por: Dr. Armando Briceño A. 41
Es de hacer notar que el primer índice del peso indica el número del nodo de entrada, (desde
donde), el segundo índice denota el número del nodo de llegada, (hacia). La función de activación
f(net) para las neuronas de la Maxnet ya ha sido comentada en la clase pasada. También es asumido
que un elemento unitario de retardo almacena cada señal de salida de las neuronas de la Maxnet
durante el tiempo unitario  , mientras dura la recursión, antes de que éstas arriben nuevamente a los

nodos de entrada de la capa superior. La entrada de la capa superior es inicializada con el vector y 0 ,
cuyos elementos son calculados como los valores de comparación (50); para luego dar lugar a
actualizaciones recurrentes según lo expresado por la ecuación (10) de la clase pasada. Así tenemos
para esta porción de la red

Y k 1   WmY k  (51)
donde la matriz de pesos es definida como en (8) y cumple todas las condiciones relacionadas con la
matriz de pesos de la Maxnet que fueron expuestas anteriormente. El vector inicializador de valores

de comparación Y 0  net , para la ecuación (51) y para las recurrencias de la capa superior está dado
por el mapa sencillo
Y° = WX. (52)
donde "W" es la matriz de procesamiento de la red de Hamming de abajo hacia arriba cuyos
elementos son los w ij , Esto es
T
 w11 w21......wn1 
 w w ......w 
 12 22 n2 

WH  :  (53)
 
: 
 w1M w2 M .....wnM 
 

Igual que para la Maxnet, una sola salida distinta de cero para un índice de recursión grande k, y kj 1 ,

será producida por la j-ésima neurona de la capa superior. Para esta neurona ganadora tenemos que:
n  n 
y 0j   w ijx i  max   w im x i , para m  1,2,...., M (54)
i 1  i1 
Ahora una secuencia de pasos que puede ser implementada para poner en marcha al algoritmo
de descubrimiento de grupos es la siguiente:
Paso 1.

………………………………………. Elaborado por: Dr. Armando Briceño A. 42


Establecer el umbral de vigilancia ρ y para los vectores de entrada n-dimensionales y las M
neuronas de la capa superior, inicializamos los pesos. Las matrices W T y V T son (Mxn) y cada una
es inicializada con elementos idénticos:
 1 
W  (55)
1  n 
V  1 (56)

0   1 (57)
Paso 2.
El vector de entrada binario, unipolar "x" es presentado a los nodos de entrada,
xi  0,1, para i  1,2,....n.
Paso 3.
Todos los valores de comparación son calculados como sigue
n
y 0m   w im x i , para m  1,2,......M (58)
i 1

En este paso, la selección del mejor grupo existente, j, es realizada de acuerdo al criterio
máximo en la forma siguiente:

 
y 0j  max y 0m , m  1,2,.....M (59)

Paso 4.
La prueba de similitud para la neurona ganadora es realizada en la manera siguiente:
n
1
x
v
i 1
ji xi   (60)

donde  es el parámetro de vigilancia y la norma es definida para propósitos del algoritmo


n
como x   xi . (61)
i 1

Si la prueba (60) es pasada, el algoritmo va al paso 5. Si la prueba falla, el algoritmo va al paso


6 solo si el nivel superior tiene más de un nodo activo. En caso contrario, el algoritmo va al paso 5.
Paso 5.
Los elementos de las matrices de peso son actualizados para los índices j que pasan la prueba
del paso 4. Las actualizaciones son solo para los elementos (i, j), donde i=l,2,...,M y son calculadas
como sigue:

………………………………………. Elaborado por: Dr. Armando Briceño A. 43


v ji (t ) xi
wij t  1  n
(62)
0.5   v ji (t ) xi
i 1

vij (t  1)  xi vij (t ) (63)

Esto permite actualizar los pesos del j-ésimo grupo. El algoritmo retoma al paso 2.

Paso 6.
El nodo j es desactivado por medio de establecer y j igual a 0. Así, este nodo no participará en

la búsqueda del grupo en progreso. El algoritmo retorna al paso 3 e intentará establecer un nuevo
grupo diferente al j para el patrón que está siendo probado.
Ejemplo.
Este ejemplo ilustra etapas de aprendizaje en tiempo discreto de una red TRA1 con cuatro
neuronas categorizadoras que indican a cuatro grupos y una entrada para vectores de dimensión 25
con elementos iguales a 0 o 1. Asumiremos entonces que las matrices W y V son de tamaño 25 x 4.
Observe que solo hemos considerado que en la capa superior tenemos 4 neuronas (M=4). Si el
número de grupos, después del entrenamiento, resultara menor que el número de vectores de entrada,
entonces deberíamos reducir el número de neuronas de la capa superior.
Los vectores que representan los mapas de bits de los patrones de entrada, figura 5, son
arreglados en columnas en la secuencia en la que son presentados de izquierda a derecha.
Consideremos primero el caso en donde el valor de vigilancia es alto (  =0.7). Este caso se ilustra en
la figura 5. Los pesos son inicializados como:
1
wij  ; v ji  1; i  1,2,......25; j  1, 2, 3, 4
26
Paso 1.
Cuando el patrón "A" es presentado, una de las cuatro neuronas de la capa superior va a poseer
la salida más grande. Denotaremos arbitrariamente a esta neurona como la número 1. La prueba de
vigilancia es pasada incondicionalmente ya que el lado izquierdo de la ecuación (60) es de valor
unitario en la primera presentación. Esto produce una definición incondicional del primer grupo. El
resultado de ajuste de pasos calculado usando la ecuación (62) es que todos los pesos w i1 que

conectan las entradas que poseen x i =1 con el nodo 1 de la capa superior son incrementados a 2/11.

………………………………………. Elaborado por: Dr. Armando Briceño A. 44


También los pesos v i1 que van de arriba hacia abajo, ajustados según la ecuación (63), permanecerán

en valor unitario si x i =1; de lo contrario serán cambiados a 0.


La figura 5 muestra la red TRA1 después de completado el primer paso de entrenamiento. Note
que entre los 25x4 = 100 pesos que procesan entradas de abajo hacia arriba, solo 5 han cambiado.
Entre los 100 pesos de arriba hacia abajo, v j ,i , 5 son colocados en valor unitario y 19 son hechos

iguales a cero. Los restantes permanecen con su valor inicial y no son mostrados en la figura.
En resumen
2
w1,1  w7,1  w13,1  w19,1  w25,1 
11
los pesos restantes
1
wij  y wi1  0
26
para i  2,3,4,5,6,8,9,10,11,12,14,15,16,17,18,20,21,22,23 y 24

v1,1  v 7,1  v13,1  v19,1  v 25,1  1

los restantes pesos son


v j ,1  0 y v j ,i  1
.
para i  2,3,4,5,6,8,9,10,11,12,14,15,16,17,18,20,21,22,23 y 24
Paso 2.
Durante la presentación del patrón de entrada "B” no existe nodo de la capa superior que este
compitiendo por hacer grupos, (solo hay un nodo activo, el 1).
1 25
1
La prueba de vigilancia resulta en
x
v
i 1
x  5   0.7 . Debido a que la prueba de
j ,1 i
9
vigilancia falla y a la ausencia de otros nodos para posterior evaluación y para desabilitación de
potencial, el patrón "B" es tratado como un nuevo grupo.
El grupo es consiguientemente representado por otra neurona, arbitrariamente enumerada con 2.
Sus pesos de interconexión son recalculados como w i 2 y v j2 . En resumen, cuando el patrón "B" es

presentado
2
w1,2  w 5,2  w1,2  w 7,2  w 9,2  w13,2  w17,2  w19,2  w 21,2  w 25,2 
19
los pesos remanentes wi 2  0 . Igualmente

………………………………………. Elaborado por: Dr. Armando Briceño A. 45


v1,2  v 5,2  v 7,2  v 9,2  v13,2  v17,2  v19,2  v 21,2  v 25,2  1;

los pesos restantes son v i 2  0 .

Paso 3.
Presentamos el patrón C, y evaluamos la neurona 1 para verificar si el patrón C pertenece a ese
grupo. Sin embargo, la prueba de vigilancia no es pasada ya que
1 25
5
x
v
i 1
x  5   0.7
j ,1 i
 13 
El nodo 1 es entonces desactivado, y consecuentemente, el nodo 2 emerge como el ganador
debido a la ausencia de un nodo competidor. La prueba de vigilancia produce como valor
1 25
9
x
v
i 1
x  5   0.7
j ,1 i
 13 
Tampoco la prueba de vigilancia no es pasada; indicando en consecuencia una inadecuada
similitud entre la entrada "C” y cualquiera de los dos grupos ya formados.
El resultado es la adición de una nueva neurona de la capa superior para identificación a un
nuevo grupo, (neurona 3); de modo que los pesos wi 3 y v j 3 deberán ser correspondientemente

actualizados. A diferencia de los rechazos anteriores, el patrón "D" es clasificado en la categoría 3


debido a su similitud con el patrón "C". Esto es debido al hecho de que la prueba de vigilancia fue
pasada y a la resonancia del patrón "D" con la existente categoría 3.
Ejercicio: realizar el ejemplo anterior para un valor de vigilancia igual a 0.3 (   0.3 ).

………………………………………. Elaborado por: Dr. Armando Briceño A. 46


Figura 57

Figura 58.

………………………………………. Elaborado por: Dr. Armando Briceño A. 47

También podría gustarte