Está en la página 1de 33

Traducción Cap 2 / Universidad de Cundinamarca

Jonathan Sebastian Arboleda Londoño

2
Modelo de neurona y
Arquitecturas de red
Capítulos básicos.........................................................................................2-2
Notación........................................................................................................2-2

Modelo de neurona......................................................................................2-4
Neurona sencilla.........................................................................................2-4
La transferencia Funciona........................................................................2-5
Neurona Con Entrada de Vector............................................................2-7

Neto w ork Arquitecturas........................................................................2-10


Una Capa de Neuronas ............................................................................2-10
Capas múltiples de Neuronas ................................................................2-13

El dato Estructura.....................................................................................2-15
Simulacro Con Entradas Concurrentes en una Red Estática......2-15
Simulacro Con Entradas Secuenciales en una Red Dinámica .
2-16 Simulacro Con Entradas Concurrentes en una Red Dinámica .
2-18

Entrenando Estilos....................................................................................2-20
Formación incremental (de Adaptive y otras Redes).................2-20
Formación de lote.....................................................................................2-22

Resumen......................................................................................................2-26
Figuras y Ecuaciones .............................................................................2-28
Capítulos básicos
La Red Neuronal Toolbox está escrito de modo que si lees Capítulo 2, 3 y 4 te puede proceder a un capítulo
más tardío, leído lo y utilizar sus funciones sin dificultad. Para hacer posible esto, Capítulo 2 presentes el
fundamentals del modelo de neurona, las arquitecturas de redes neuronales. También hable
La notación utilizada en las arquitecturas. Todo de este es material básico. Es a vuestra ventaja para entender
este Capítulo 2 material exhaustivamente.
El modelo de neurona y la arquitectura de una red neuronal describe cómo una red transforma su entrada a
una producción. Esta transformación puede ser vista como computación. El modelo y la arquitectura cada
sitio
Limitaciones encima lo que una red neuronal particular puede computar. La manera una red computa su
producción tiene que ser entendida antes de entrenar los métodos para la red pueden ser explicados.

Notation
Notación matemática
La notación básica utilizó aquí para las ecuaciones y las figuras está dada abajo.

• Scalars-Pequeño italic letras. .un,b,c


• Vectores - negrita pequeña no-italic letras un,b,c
• Matrices - NEGRITA capital no-italic letras...Un,B,C
• El vector significa una columna de números..

Matemático y Equivalentes de Código


La transición de matemático a notación de código o viceversa puede ser hecha con la ayuda de unas cuantas
reglas. Están listados aquí para referencia futura.
Para cambiar de notación Matemática a M ATLAB notación las necesidades de usuario a:

• Superíndices de cambio a índices de variedad de la célula


Por ejemplo, 1
p p1
• Subíndices de cambio a índices de paréntesis
Por ejemplo, p 2  p  2 , y
1
p2  p  1  2 
• Índices de paréntesis del cambio a una segunda variedad de célula índice
Por ejemplo, 1
p  k – 1   p  1 k – 1 
• Operadores de matemática del cambio a MATLAB operadores y toolbox funciones
Por ejemplo, ab  Un *b
Ve Apéndice B para información adicional encima notación en este Toolbox.
Modelo de neurona

Neurona sencilla
Una neurona con una entrada escalara sola y ningún sesgo está mostrado en el dejado abajo.
Entrada - Neurona de entrada - Neuron
Título
sin sesgo Título a con
sesgo

p w n U p w n U
fn f n
b

1
Un =-f Exp
(wp ) Un =-f Exp
(wp+ b)
- -
La entrada escalara p está transmitido a través de una conexión que multiplica su
Fuerza por el peso escalar w, para formar el producto wp, otra vez un escalar.
Aquí el weighted entrada wp es el argumento único de la función de transferencia f, el cual
produce la producción escalara un. La neurona en el correcto tiene un sesgo
escalar, b. Puedes ver el sesgo tan
sencillamente siendo añadido a el producto wp tan mostrado por el
summing Cruce o cuando cambiando la función f a la izquierda por una cantidad b. El sesgo es mucho como un
peso, exceptúa que tiene una entrada constante de 1. La transferencia
Función entrada neta n , otra vez un escalar, es la suma de el weighted entrada wp y el sesgo b.
Esta suma es el argumento de la función de transferencia f. (Capítulo 6 habla una manera
diferente de formar la entrada neta n.) Aquí f es una función de
transferencia, típicamente una función de paso o una función sigmoidea, aquello toma el argumento
n y produce la
producción un. Los ejemplos de varias funciones de transferencia están dados en el
Sección próxima. Nota que w y b es ambos parámetros escalares ajustables
de la neurona. La idea central de redes neuronales es que tales parámetros pueden ser
Ajustado de modo que la red exhibe algunos comportamiento deseado o interesante. Así, podemos
entrenar la red para hacer un trabajo particular por ajustar el peso o parámetros de sesgo, o quizás la
red él ajustará estos parámetros para conseguir algunos fin deseado.
Todo de las neuronas en este toolbox tiene provisión para un sesgo, y un sesgo está utilizado en
muchos de nuestros ejemplos y será supuesto en la mayoría de este toolbox. Aun así, puedes omitir
un sesgo en una neurona si deseas.
Cuando notó encima, el sesgo b es un ajustable (escalar) parámetro de la neurona. No es una
entrada. Aun así, la constante 1 aquello conduce el sesgo es una entrada y tiene que ser tratado como
tal cuando considerando la dependencia lineal de entrada.
Vectores en Capítulo 4.

Funciones de transferencia
Muchas funciones de transferencia han sido incluidas en este toolbox. Una lista completa de ellos puede ser
encontrada en “Función de Transferencia Graphs” en Capítulo 13. Tres del más generalmente utilizó las
funciones están mostradas abajo.

Un

n
1
-
0

1
+

Un = hardlim(n)
Función de Transferencia de Límite dura

La función de transferencia de límite dura mostrada por encima de límites la producción de la neurona
A cualquier 0, si el argumento de entrada neto n es menos de 0, o 1, si n es más
grande que o igual a 0. Utilizaremos esta función en Capítulo 3 “Perceptrons” para crear
Neuronas que decisiones de clasificación de la marca.
El Toolbox tiene una función, h un r d l im , para darse cuenta la transferencia de límite dura matemática la
función mostrada encima. Vuestro podría probar el código mostrado abajo.
n=-5:0.1:5;
p lo t ( n , ha rd l im(n ) , 'c+ : ' ) ;

Yo t produce una parcela de la función hardlim sobre la gama -5 a +5.


Todo de las funciones de transferencia matemáticas en el toolbox puede ser dado cuenta con una
función habiendo el mismo nombre.
La función de transferencia lineal está mostrada abajo.
Un

0
1
+
1
- Un = purelin(n)
Función de Transferencia lineal

Las neuronas de este tipo están utilizadas como lineales approximators en “Adaptive Filtros Lineales”
en Capítulo 4.
La función de transferencia sigmoidea mostrada abajo toma la entrada, los cuales pueden tener cualquier valor
entre plus y minus infinidad, y calabazas la producción a la gama 0 a 1.
Un

n
-1

+1

Un = logsig(n)
Registro-Función de Transferencia Sigmoidea

Esta función de transferencia es generalmente utilizada en backpropagation redes, en separar porque es


diferenciable.
El símbolo en el cuadrado a la derecha de cada función de transferencia graph mostrado
Encima representa la función de transferencia asociada. Estos iconos reemplazarán el generales f en las cajas
de esquemas de red para mostrar la transferencia particular funciona aquello está siendo utilizó.
Para un listado completo de funciones de transferencia y sus iconos, ver la “Función de Transferencia
Graphs” en Capítulo 13. También puedes especificar vuestra transferencia propia
Funciones. No eres limitado a las funciones de transferencia listaron en Capítulo 13.
Puedes experimento con una neurona sencilla y varias funciones de transferencia por correr el
programa de manifestación nnd2n1 .
Neurona Con Entrada de Vector
Una neurona con un solo R-vector de entrada del elemento está mostrado abajo. Aquí las entradas de
elemento individuales

p 1 , p 2 ,... p R

Está multiplicado por pesos

w 1 1 , w1 2 ,... w 1 R

Y el weighted los valores están alimentados al summing cruce. Su suma es sencillamente


Wp, el producto de punto de el (fila sola) matricial W y el vector p.

Entr
ada Neurona w Entrada
de Vector
Dónde...
p
w1,
p1 R=#
p2 1 n U Elementos en
3 f n vector de
w1, b entrada
R
p
R

1
Un = f(Wp +b)

La neurona tiene un sesgo b, el cual es summed con el weighted entradas para formar la entrada
neta n . Esta suma, n , es el argumento de la función de transferencia f.

n = w 1 1 p 1 + w 1 2 p 2 + ... + w 1 R p R + b

Esta expresión puede, naturalmente, ser escrito en M ATLAB código cuando:

n = W*p + b

Aun así, el usuario raramente será escribiendo código en este nivel bajo, para tal código es ya construido a
funciones para definir y simular redes enteras.
La figura de una neurona sola mostrada encima contiene mucho detalle. Cuándo consideramos redes con
muchas neuronas y quizás capas de muchas neuronas, hay tanto detalle que los pensamientos principales
tienden para ser perdidos. Así, el
Los autores han ingeniado una notación abreviada para una neurona individual. Esto
Notación, el cual será utilizado más tarde en circuitos de neuronas múltiples, está ilustrado en el esquema mostrado
abajo.

Entr
ada Neurona

Dónde...
Un
p U
n
W n 1x1 R = # De
R x 11 x
1x1 f elementos en
R vector de
entrada
R
1 1x
1
U 1

n Un
+b)
= f(Wp

b
Aquí el vector de entrada p está representado por la barra vertical oscura sólida en el izquierdo.
Las dimensiones de p está mostrado bajo el símbolo p en la figura como R x1. (Nota que utilizaremos una
mayúscula, como R en la frase anterior, cuando
Refiriendo a la medida de un vector.) Así, p es un vector de R elementos de entrada. Este correo de
entradas multiplica la fila sola, R matriz de columna W. Tan antes, una constante 1 introduce la
neurona como una entrada y está multiplicado por un sesgo escalar b. La red.
Entrada a la función de transferencia f es n , la suma de el sesgo b y el producto Wp. Esta suma está
pasada a la función de transferencia f para conseguir la producción de la neurona un, el cual en este
caso es un escalar. Nota que si tuvimos más de una neurona, la red.
La producción sería un vector .
Una capa de una red está definida en la figura mostrada encima. Una capa incluye la combinación de
los pesos, la multiplicación y summing operación (aquí dado cuenta como producto de vector Wp),
el sesgo b, y la función de transferencia f. La variedad de entradas, vector p, no será incluido en o
llamó una capa.
Cada vez esto notación de red abreviada está utilizada, la medida de las matrices será mostrada justo bajo sus
nombres variables matriciales. Esperamos que esto
La notación te dejará para entender las arquitecturas y seguir la matemática matricial asociada con ellos.
Cuando hablado anteriormente, cuándo una función de transferencia concreta es para ser utilizado en
una figura, el símbolo para aquella función de transferencia reemplazará el f mostrado
encima. Aquí es algunos ejemplos.

hardlim pureli logsig


n

Puedes experimento con una 2 neurona de elemento por correr el programa de manifestación nnd2n2 .
Arquitecturas de red
Dos o más de las neuronas mostradas encima puede ser combinado en una capa, y una red particular podría
contener uno o más tales capas. Primero considerar una capa sola de neuronas.

Un La yer de N eurons
Una una red de capa con R elementos de entrada y S las neuronas está mostrada abajo.

Entr
ada Capa de
Neuronas

w1, n1 U1
p f n
1
1
Dónde...
b1
p 1n R = # De
2
2
U2 elementos en
f n vector de
p b2 entrada
3

1n S=#
p US
R
wS,
S
f n Neuronas
en Capa
R bS

Un= f (Wp + b)

En esta red, cada elemento de el vector de entrada p está conectado a cada entrada de neurona a
través de la matriz de peso W. El ith la neurona tiene un verano que
reúne
Su weighted entradas y sesgo para formar su producción escalara propia n(i). El varios n(i)
forma junta tomada un S -elemento vector de entrada neta n . Finalmente, las producciones de capa de la
neurona forman un vector de columna un . Muestramos la expresión para un en el fondo
de la figura.
Nota que es común para el número de entradas a una capa para ser diferente del número de neuronas (i.e. R ¦
S ). Una capa no es apremiada para tener el
Número de sus entradas iguales al número de sus neuronas.
Puedes crear un solo (composite) capa de neuronas habiendo funciones de transferencia diferente
sencillamente por poner dos de las redes mostradas encima en paralelo. Ambos
A

Las redes tendrían las mismas entradas, y cada red crearía algunos de las producciones.
Los elementos de vector de la entrada introducen la red a través de la matriz de peso W.

w 1 1 w 1 2  w 1 R
w 2 1 w 2 2  w 2 R
W =

w S 1 w S  2  w S R

Nota que los índices de fila en los elementos de matriciales W indicar la neurona de
destino de el peso y los índices de columna indican qué fuente es la entrada
for that weiGht. Thus, the indices in w 1 2s uny thun t the strength of the signunl
Del segundo elemento de entrada al primero (y único) la neurona es w 1 .2

El S neurona R entrada una red de capa también puede ser dibujada en notación abreviada.
Capa de entrada de Neuronas
Dónde...
U R = # De
p n elementos en
W
SxR
R
x
n
Sx1
U Sx
1
vector de
entrada
1

1 b n S=#
Neuronas
f en Capa
R Sx S
1

Un= f (Wp + b)

Aquí p es un R vector de entrada de la longitud, W es un SxR matriz, y un y b es S


Vectores de longitud. Cuando definió anteriormente, la capa de neurona incluye el peso
Matricial, las operaciones de multiplicación, el vector de sesgo b, el verano, y las
cajas de función de la transferencia.

Entradas y Capas
Estamos a punto de hablar redes habiendo capas múltiples tan necesitaremos extender nuestra notación para
hablar sobre tales redes. Específicamente, necesitamos hacer una distinción entre matrices de peso que está
conectado a entradas y peso
Matrices que está conectado entre capas. También necesitamos identificar la fuente y destino para las
matrices de peso.
Llamaremos matrices de peso conectaron a entradas, pesos de entrada, y llamaremos
matrices de peso que provienen pesos de capa de producciones de capa. Más allá,
utilizaremos superíndices para identificar la fuente (índice de segundo) y el destino (primero
Índice) para los varios pesos y otros elementos de la red. Para ilustrar, hemos re-dibujados el capa red de
entrada múltiple mostrada encima en
Forma abreviada abajo.

Entrada
Capa 1
Dónde...
p Un
yoW 1,1
Un1
Rx
1 S 1x R
S
n1
1x 1
Un
S1x
R = # De elementos
En entrada
1
R b1
1 S1 = # Neuronas
S1 S en capa 1
Un
f1
x1
1
Un1 = f1(IW1,1p +b1)

Cuando puedes ver, hemos labeled la matriz de peso conectó al vector de entrada
p Como una matriz de Peso de la Entrada ( IW1,1) teniendo una fuente 1 (índice de segundo) y un destino 1
(primero índice). También, elementos de capa un, como su sesgo, red
La entrada y la producción tienen un superíndice 1 para decir que están asociados con la primera capa.
En la sección próxima utilizaremos Peso de Capa ( LW) matrices así como Peso
de Entrada ( IW) matrices.
Podrías recordar de la sección de notación a principios de este capítulo que conversión de la matriz de peso
de la capa de matemáticas al código para una red particular llamó neto es:

1 1
IW  net.iw 1  1 

Así, podríamos escribir el código para obtener la entrada neta a la función de transferencia cuando:
n {1 } = n e t . IW{ 1 , 1} *p + ne t .b{ 1 } ;
Capas múltiples de Neuronas
Una red puede tener varias capas. Cada capa tiene una matriz de peso W, un
vector de sesgo b, y un vector de producción un. Para distinguir entre las matrices de peso, vectores de
producción, etc., para cada de estas capas en nuestras figuras, anexaremos el
Número de la capa como superíndice a la variable de interés. Puedes ver el uso de esta notación de capa en la
tres red de capa mostrada abajo, y en las ecuaciones bajo la figura.

Entrada Primera Capa Segunda Capa Tercera Capa

iw1,1 n1 U lw2,1 n2 U lw3,2 n3 U


1 1 1
p 1, 1
1 f n1 1,1 f n2 1,1 f n3
1 1 1
b1 1 b2 2 b3 3
1 1 1
p 1 1 1
2 n1
2 U
n
U
n1
n2
2
f
U
n2
n3
2
f
U
n3
p f1 2
2 2
3 2
3 b1 b2 b3
2 2 2
p1 1 1
R n1 1 U Un n2 2
U Un 1n3 3 Un3
iw1,1
S, R
S

b1 1
n
f1
11
S lw2,1 2
S,S
1
S

b2 2 2
n
f
22
S lw3,2 3
S,S
2
b3 3
S f
3
3
S

S S S
1 1 1

Un1 = f1 (IW1,1p +b1) un2 = f2 (LW2,1un1 +b2) un3 =f3 (LW3,2 un2 +

b3) un3 =f3 (LW3,2 f2 (LW2,1f1 (IW1,1p +b1)+ b2)+ b3)

La red mostrada encima ha R 1 entradas, S 1 neuronas en la primera capa, S 2


Neuronas en la segunda capa, etc. es común para capas diferentes para tener
Números diferentes de neuronas. Una entrada constante 1 está alimentado a los sesgos para cada neurona.
Nota que las producciones de cada capa intermedia son las entradas al siguientes
Capa. Por ello capa 2 puede ser analizado como una red de capa con S 1 entradas, S 2 neuronas, y un S 1 x
S 2
matriz de peso W 2 . La entrada a capa 2 es un 1 , la producción es una 2 . Ahora que hemos
identificado todos los vectores y matrices de capa 2 podemos
Trata él como red de capa sola en su propio. Esta aproximación puede ser tomada con cualquier capa de la
red.
Las capas de un multilayer juego de red funciones diferentes. Una capa que productos
La producción de red se apellida una capa de producción . Todas otras capas se apellidan capas
escondidas . La tres red de capa mostrada encima tiene una capa de producción (capa 3) y
Dos capas escondidas (capa 1 y capa 2). Algunos autores refieren a las entradas como cuarta capa. No
utilizaremos aquel señalamiento.
La misma tres red de capa hablada anteriormente también puede ser dibujado utilizando nuestra notación
abreviada.

Entra Primera Capa Segunda Capa Tercera


da Capa
Un3 = y
p
R
IW1,1
n1
Un1
S 1x 1
LW2,1 nU
un2 L
W 3,2
nf S3
Un
S2x 1
x n2
1 S 1x f1 S 2x S1
S 3x S2
S33 3 x
S 2x f2 x 1
1 b1 b2

R S 1x
1
R S 1x

S
1
S2
1

S
U 1

1 x1
1 2
n
Un
b3
1
S3 S
x
1 3
Un1 = f1 (IW1,1p +b1) un2 = f2 (LW2,1 un1 +b2) un3 =f3 (LW3,2un2 +b3)

Un3 =f3 (LW3,2 f2 (LW2,1f1 (IW1,1p +b1)+ b2)+ b3 = y

Redes de capa múltiple son bastante potentes. Para caso, una red de dos capas, donde la primera capa es
sigmoidea y la segunda capa es lineal, puede ser entrenado para aproximar cualquier función (con un número
finito de discontinuidades) arbitrariamente bien. Esta clase de red de dos capas está utilizada extensamente en
Capítulo 5, “Backpropagation.”

Nota que hemos labeled la producción de la una 3 capa como y .


Utilizaremos esta notación para especificar la producción de tales redes.
Estructuras de dato
Esta sección hablará cómo el formato de estructuras de dato de la entrada efectúa el simulacro de redes.
Empezaremos con redes estáticas y entonces mover a redes dinámicas.
Seremos preocupados aproximadamente dos tipos básicos de vectores de entrada: los que ocurren al mismo
tiempo (al mismo tiempo, o en ninguna secuencia de tiempo particular) y los que ocurren sequentially en
tiempo. Para vectores secuenciales, el orden en qué los vectores aparece es importante. Para vectores
concurrentes, el orden no es importante,
Y si tuvimos un número de las redes que corren en paralelo podríamos presentar un vector de entrada a cada
cual de las redes.

Simulacro Con Entradas Concurrentes en un Estáticos N etw


ork
La situación más sencilla para simular una red ocurre cuándo la red para ser simulada es estático (tiene ninguna
retroalimentación o retrasos). En este caso no tenemos que ser preocupados aproximadamente si o no los
vectores de entrada ocurren en una secuencia de tiempo particular, así que podemos tratar las entradas como
concurrentes. Además, para hacer el
El problema incluso más sencillo, empezaremos por suponer que la red ha sólo un vector de entrada.
Utilizaremos la red siguiente como un ejemplo.

Entradas Neurona Lineal

p
1
n un
p
w b

2
2
,
1

1
,
1

1
Un = purelin (Wp + b)

Para instalar este feedforward red podemos utilizar la orden siguiente.


n e t = n ewl i n ( [-1 1 ; - 1 1 ] , 1 ) ;

Para simplicidad asignaremos la matriz de peso y sesgo para ser


W = 1 2 ,b = 0 .
Las órdenes para estas asignaciones son
n e t . IW{ 1 ,1 } = [1 2 ] ;
n e t .b {1 } = 0 ;

Supone que el conjunto de dato de simulacro de red consta de Q=4


vectores concurrentes:

p1 = 1 2 2 3
, p2 = , p3 = , p4 =
2 1 3 1

Los vectores concurrentes están presentados a la red como matriz sola:


P=[1223;2131];

Ahora podemos simular la red:


Un = s im( ne t , P )
Un =
5 4 8 5

Una matriz sola de vectores concurrentes está presentada a la red y el


La red produce una matriz sola de vectores concurrentes cuando producción. El resultado sería igual si había
cuatro redes operando en paralelo y cada red recibió uno de los vectores de entrada y produjo uno de las
producciones. El ordenando de los vectores de entrada no es importantes cuando no interaccionan con cada
Otro.

Simulacro Con Entradas Secuenciales en un Dyna mic N et w ork


Cuándo una red contiene retrasos, la entrada a la red normalmente sería una secuencia de vectores de
entrada qué ocurrir en un orden de tiempo seguro. Para ilustrar
Este caso utilizaremos una red sencilla qué contiene uno retrasa
Entradas Neurona Lineal

p(t) w1,
1
n( U
t) n(
D 1,
2 t)
w

Un(t) = w p(t) + w p(t


- 1)
11 12

Las órdenes siguientes crearán esta red:


n e t = n ewl i n ( [-1 1 ] , 1 , [ 0 1 ] ) ;
n e t .b ia sConn ec t = 0 ;

Asignar la matriz de peso para ser


W=12.
La orden es
n e t . IW{ 1 , 1} = [1 2 ] ;

Supone que la secuencia de entrada es


p1  = 1 2 3 4
, p 2  = , p 3  = , p 4  =
Las entradas secuenciales están presentadas a la red como elementos de una variedad de célula:
P={1234};

Ahora podemos simular la red:


Un = s im(n e t , P )
Un =
[1] [4] [7 ] [10 ]

Nosotros entrada una variedad de célula que contiene una secuencia de entradas, y la red.
Producido una variedad de célula que contiene una secuencia de producciones. Nota que el orden de
las entradas es importante cuándo están presentados como secuencia. En este caso la producción
actual está obtenida por multiplicar la entrada actual por 1 y el.
Precediendo entrada por 2 y summing el resultado. Si éramos para cambiar el orden de las entradas cambie los
números obtendríamos en la producción.

Simulacro W ith Entradas Concurrentes en un Dinámicos N et


work
Si éramos para aplicar las mismas entradas de el ejemplo anterior como puesto de entradas
concurrentes en vez de una secuencia de entradas obtendríamos una respuesta completamente
diferente. (A pesar de que no es aclarar por qué querríamos esto con una red dinámica.) Yo t sería
como si cada entrada estuvo aplicada al mismo tiempo a una red paralela separada. Para el ejemplo
anterior, si utilizamos un concurrentes
Puesto de entradas tenemos
p1 = 1 2 3 4
, p2 = , p3 = , p4 = ,
Cuáles pueden ser creados con el código siguiente:
P=[1234];

Cuándo simulamos con entradas concurrentes obtenemos


Un = s im( ne t , P )
Un =
1 2 3 4

El resultado es igual como si hubimos al mismo tiempo aplicó cada cual uno de las entradas a una red
separada y computó una producción. Nota que desde entonces nosotros no
Asignar cualesquier condiciones iniciales a los retrasos de red estuvieron supuestos para ser cero. Para este
caso la producción sencillamente será 1 tiempo la entrada, desde el peso qué multiplica la entrada actual es 1.
En casos especiales seguros podríamos querer simular la respuesta de red a varias secuencias diferentes al
mismo tiempo. En este caso querríamos
Presente la red con un conjunto concurrente de secuencias. Por ejemplo, dejado es dice quisimos presentar el
siguientes dos secuencias a la red:
p1  1  = 3 , p 4  =
1 , p1  2  = 2 , p1  3  = 1 4,
p2  1  =
4 , p2  2  = 3 , p2  3  = 2 , p 2 4  = 1 .
La entrada P tendría que ser una variedad de célula, donde cada elemento de la
variedad contiene los dos elementos de las dos secuencias qué ocurrir al mismo
tiempo:
P = { [1 4 ] [ 2 3 ] [ 3 2 ] [4 1 ]} ;
Ahora podemos simular la red:
Un = s im(n e t , P ) ;

La producción de red resultante sería


Un = { [ 1 4 ] [4 11 ] [ 7 8 ] [10 5 ]}

Cuando puedes ver, la primera columna de cada matriz hace la secuencia de producción producida por la
primera secuencia de entrada, el cual era el utilizamos en un ejemplo más temprano. La segunda columna de
cada matriz hace la secuencia de producción
Producido por la segunda secuencia de entrada. no hay ninguna interacción entre las dos secuencias
concurrentes. Es como si eran cada aplicados para separar
Las redes que corren en paralelo.
El esquema siguiente muestra el formato general para la entrada P a el s im
Función cuándo hemos Q secuencias concurrentes de T S pasos de tiempo. Cubre todos los casos donde hay un
vector de entrada solo. Cada elemento de la variedad de célula es un
Matriz de vectores concurrentes qué corresponder al mismo punto en tiempo para cada secuencia. Si hay
vectores de entrada múltiple habrá filas múltiples de matrices en la variedad de célula.

Q th Secuencia

·
 p1  1  2p  1  
Q
p 1 
1
 p 2 2  p  2Q   p  21   2 p  T S  pQ  T S 
 p  T S 

Primera
Secuencia

En esta sección hemos aplicado entradas secuenciales y concurrentes a redes dinámicas. En la sección
anterior aplicamos entradas concurrentes a estáticos Redes. Es también posible de aplicar entradas
secuenciales a redes estáticas. No cambie la respuesta simulada de la red, pero pueda afectar la manera en
qué la red está entrenada. Esto devendrá claro en la sección próxima.
Entrenando Estilos
En esta sección describiremos dos estilos diferentes de entrenar. En incrementalEntrenando los pesos y los sesgos de
la red están actualizados cada vez una entrada está presentado a la red. En el lote que entrena los
pesos y los sesgos son sólo actualizados después de todo de las entradas han sido presentadas.

Formación incremental (de Adaptive y Otro N et w orks)


La formación incremental puede ser aplicada a ambas redes estáticas y dinámicas,
A pesar de que es más generalmente utilizado con redes dinámicas, como adaptive filtros. En esta
sección demostraremos formación qué incremental puede ser actuada en ambas redes estáticas y
dinámicas..

Formación incremental con Redes Estáticas


Considera otra vez la red estática utilizamos para nuestro primer ejemplo. Queremos
Tren él incrementally, de modo que los pesos y los sesgos serán actualizados después de que cada cual
La entrada está presentada. En este caso utilizamos la función un da p t , y presentamos
las entradas y objetivos como secuencias.
Supone queremos entrenar la red para crear la función lineal

t=2p1+p2.
Entonces para las entradas anteriores utilizamos,
1 2 2 3
p1 = , p2 = , p3 = , p4 = ,
2 1 3 1
Los objetivos serían

t1 =
4 ,t = 5 ,t = 7 ,t = 7 .
2 3 4
Nosotros primero instalados la red con cero pesos iniciales y sesgos. Nosotros también puestos el índice de
aprendizaje a cero inicialmente, para mostrar el efecto de la formación incremental.
n e t = n ew l En ( [-1 1 ; -1 1 ] , 1 , 0 , 0 ) ;
n e t . IW{ 1 ,1 } = [0 0 ] ;
n e t .b {1 } = 0 ;
Para formación incremental queremos presentar las entradas y objetivos como secuencias:
P = { [1 ;2 ] [ 2 ; 1 ] [ 2 ; 3 ] [3 ;1 ]} ;
T={4577};

Recuerda de la discusión más temprana que para una red estática el simulacro de la red producirá
las mismas producciones si las entradas están presentadas como matriciales de vectores
concurrentes o como variedad de célula de vectores secuenciales. Esto no es Cierto cuándo entrenando
la red, aun así. Cuándo utilizando el adap t función, si las entradas están presentadas como
variedad de célula de vectores secuenciales, entonces los pesos Será actualizado como cada entrada está
presentada (modo incremental). Cuando veremos en la sección próxima, si las entradas están presentadas
como matriciales de concurrentes
Vectores, entonces los pesos serán actualizados sólo después de todo las entradas han sido presentadas
(modo de lote).
Somos ahora a punto para entrenar la red incrementally.
[ ne t , un , e , p f] = un da p t (n e t , P , T) ;

Las producciones de red quedarán cero, desde el índice de aprendizaje es cero, y los
pesos no son actualizados. Los errores serán iguales a los objetivos:
Un = [ 0 ] [ [0 ] [0 ]
0
]
e=[4] [ [7 ] [7 ]
5
]

Si nosotros ahora puestos el índice de aprendizaje a 0.1 podemos ver cómo la


red está ajustada como cada entrada está presentada:
n e t . i npu tWe i gh ts {1 ,1 } . l ea rn Pa Carnero . l r
= 0 . 1 ; n e t .b ia se s{ 1 ,1 } . lea r nPa Carnero . l r
=0 .1 ;
[ ne t , un , e , p f] = un da p t (n e t , P , T) ;
Un = [ 0 ] [ [6 .0 ] [5 .8 ]
2
]
e=[4] [ [1 .0 ] [1 .2 ]
3
]

La primera producción es igual cuando sea con cero índice de aprendizaje, desde ninguna actualización está
hecha hasta la primera entrada está presentada. La segunda producción es diferente, desde los pesos han sido
actualizados. Los pesos continúan ser modificados cuando cada cual
El error está computado. Si la red es capaz y el índice de aprendizaje está puesto correctamente, el
error finalmente será conducido a cero.
Formación incremental Con Redes Dinámicas
También podemos entrenar redes dinámicas incrementally. De hecho, esto sería la situación más común .
Dejado es tomar la red lineal con una retrasa en el Entrada que utilizamos en un ejemplo anterior.
Inicializaremos los pesos a cero y poner el índice de aprendizaje a 0.1.
n e t = n ew l En ( [-1 1 ] ,1 , [ 0 1 ] ,0 . 1 ) ;
n e t . IW{ 1 ,1 } = [0 0 ] ;
n e t .b ia s Conn ec t = 0 ;

Para entrenar esta red incrementally presentaremos las entradas y objetivos como
elementos de variedades de célula.
P i = {1 } ;
P = {2 3 4};
T = {3 5 7};

Aquí estamos intentando para entrenar la red a suma las entradas actuales y anteriores para crear la producción
actual. Esto es la misma secuencia de entrada utilizamos en el ejemplo anterior de utilizar s im, exceptúa que
estamos asignando el primero Plazo en la secuencia como la condición inicial para el retraso. Somos ahora a
punto a sequentially entrena la red que utiliza adapta.
[ ne t , un , e ,p f ] = un da p t ( ne t , P , T , P i ) ;
Un = [ 0 ] [2 .4 ] [ 7 . 98 ]
e = [ 3 ] [2 .6 ] [ -1 . 98 ]

La primera producción es cero, desde los pesos no han sido todavía actualizados. El cambio de pesos
en cada paso de tiempo subsiguiente.

Formación de lote
Formación de lote, en qué pesos y los sesgos son sólo actualizados después de todo de las entradas y los
objetivos han sido presentados, puede ser aplicado a ambas redes estáticas y dinámicas. Hablaremos ambos
tipos de redes en esta sección.

Formación de lote Con Redes Estáticas


Formación de lote puede ser hecha utilizando tampoco un d ap t o t ra en , a pesar de que t ra
en es generalmente la opción mejor, desde entonces típicamente tiene acceso a formación más eficaz
Algoritmos. La formación incremental sólo puede ser hecha con un da p t ; t ra en sólo
puede actuar formación de lote.
Dejado es empezar con la red estática utilizamos en ejemplos anteriores. El índice de
aprendizaje será puesto a 0.1.
n e t = n ewl i n ( [-1 1 ; - 1 1 ] , 1 , 0 , 0 . 1
) ; n e t . IW{ 1 , 1} = [0 0 ] ;
n e t .b {1 } = 0 ;

Para formación de lote de una red estática con adap t , los vectores de
entrada tienen que ser colocados en uno matricial de vectores concurrentes.
P = [1 2 2 3 ; 2 1 3 1 ] ;
T=[4577];

Cuándo llamamos un da p t lo invocará adap twb, el cual es el default adaptación


Función para la red lineal, y lea rnwh es el default función de
aprendizaje para los pesos y sesgos. Por tanto, Widrow-Hoff el aprendizaje
será utilizado.
[ ne t , un , e , p f] = un da p t (n e t , P ,
T) ; un = 0 0 0 0
e = 4 5 77

Nota que las producciones de la red son todos cero, porque los pesos no son
actualizados hasta que todo del conjunto de formación ha sido presentado. Si
muestramos el
Pesos encontramos:
»ne t . IW{1 ,1 }
Un ns = 4 .9000 4 .1000
»ne t . b{ 1}
un ns =
2 .3000

Esto es diferente que el resultado hubimos después uno pasa de anuncio


un p t con incremental actualizando.

Ahora dejado es actuar la misma formación de lote que utiliza t ra en . Desde el Widrow-Hoff la regla
puede ser utilizada en incremental o modo de lote, pueda ser invocado por un da p t o t r un en . Hay
varios algoritmos cuáles sólo pueden ser utilizados en modo de lote (p. ej.,
Levenberg-Marquardt), y así que estos algoritmos sólo pueden ser invocados por t ra en . La red será
instalada en la misma manera.
n e t = n ewl i n ( [-1 1 ; - 1 1 ] , 1 , 0 , 0 . 1
) ; n e t . IW{ 1 , 1} = [0 0 ] ;
n e t .b {1 } = 0 ;
Para este caso los vectores de entrada tampoco pueden ser colocados en una matriz de concurrente
Vectores o en una variedad de célula de vectores secuenciales. Dentro de t ra en cualquier
variedad de célula de vectores secuenciales sería convertida a una matriz de vectores concurrentes. Esto
Es porque la red es estática, y porque t ra en siempre opera en el
modo de lote. Operación de modo concurrente es generalmente utilizada siempre que posible, porque
tiene un más eficaz M ATLAB implementación.
P=[1223;2131];
T=[4577];

Ahora estamos a punto para entrenar la red. Entrenaremos él para único una época, desde entonces
utilizamos sólo uno pasa de un d ap t . El default función de formación para la red lineal es t ra inwb , y
el default función de aprendizaje para los pesos y Los sesgos es l ea r nwh , así que tendríamos que
conseguir los mismos resultados que obtuvimos utilizar
Un da p t en el ejemplo anterior, donde el default función de adaptación era
Un da p twb .

n e t . i npu tWe i gh ts {1 , 1} . l ea rn Pa r Soy. l r = 0 .


1 ; n e t .b ia s es {1 } . lea r n Pa Carnero . l r = 0 .1 ;
n e t . t ra i nPa r Soy.e po c hs =
1 ; n e t = t r un i n ( ne t , P , T ) ;

Si muestramos los pesos después de que una época de entrenar encontramos:


»ne t . IW{ 1 , 1}
Un ns = 4 .9000 4 .1000
»ne t . b{ 1 }
un ns =
2 .3000

Esto es el mismo resultado tuvimos con la formación de modo del lote en un da p t .


Con redes estáticas el anuncio un p t la función puede implementar incremental o lote.
La formación que depende de el formato del dato de entrada. Si el dato está presentado como matricial de
formación de lote de vectores concurrente ocurrirá. Si el dato está presentado
Como secuencia, la formación incremental ocurrirá . Esto no es cierto para t ra en , el
cual siempre actúa formación de lote, a toda costa de el formato de la entrada.

Formación de lote Con Redes Dinámicas


Entrenando las redes estáticas es relativamente sinceras. Si utilizamos t ra i n la red será entrenada en el modo
de lote y las entradas serán convertidos a vectores concurrentes (columnas de un matriciales), incluso si son
originalmente pasados cuando Una secuencia (elementos de una variedad de célula). Si utilizamos adap t , el
formato de la entrada
Determinará el método de entrenar. Si las entradas están pasadas como secuencia, entonces la red será
entrenada en modo incremental. Si las entradas están pasadas como vectores concurrentes, entonces formación
de modo del lote será utilizada. Con modo de lote de redes dinámico la formación típicamente sería hecha con
t r Un en único, especialmente si sólo uno entrenando la secuencia existe. Para ilustrar esto, dejado es considera
otra vez la red lineal con un retraso. Utilizaremos un índice de aprendizaje de 0.02 para la formación. (Cuándo
utilizando un algoritmo de descenso del gradiente, nosotros Típicamente utilizar un índice de aprendizaje más
pequeño para formación de modo del lote que formación incremental, porque todos de los gradientes individuales
son summed juntos antes de determinar el cambio de paso a los pesos.)
n e t = n ewl i n ( [-1 1 ] , 1 , [ 0 1 ] ,0 .02 ) ;
n e t . IW{ 1 , 1}= [0 0 ] ;
n e t .b ia sConn ec t= 0 ;
n e t . t ra En Pa r soy.e po ch s =
1 ; P i = { 1} ;
P = { 2 3 4} ;
T = { 3 5 6} ;

Queremos entrenar la red con la misma secuencia utilizamos para el Incremental entrenando más temprano, pero este tiempo
queremos actualizar los pesos sólo después de todo de las entradas han sido aplicadas (modo de lote). La red será
Simulado en modo secuencial porque la entrada es una secuencia , pero los pesos serán actualizados en modo de
lote.
n e t = t ra En (n e t , P , T , P i ) ;

Los pesos después de que una época de entrenar es


»ne t . IW{1 ,1 }
Un ns = 0 .9000 0 .6200

Estos son pesos diferentes que obtendríamos utilizar formación incremental, donde los pesos habrían sido
actualizados tres tiempos durante uno pasan A través del conjunto de formación. Para el lote que entrena los
pesos son sólo actualizados una vez en cada época
Resumen

Las entradas a una neurona incluyen su sesgo y la suma de su weighted entradas (utilizando el producto
interior). La producción de una neurona depende de la neurona es
Entradas y en su función de transferencia. Hay muchos funciones de transferencia útil.
Una neurona sola puede no mucho. Aun así, varias neuronas pueden ser combinadas a una capa o capas
múltiples que tiene poder grande. Hopefully Este toolbox lo hace fácil de crear y entender tales redes grandes.
La arquitectura de una red consta de una descripción de cuántas capas una red tiene, el número de neuronas
en cada capa, la transferencia de cada capa
Función, y cómo las capas están conectadas a cada cual otro. La arquitectura mejor a uso depende de el
tipo de problema para ser representado por la red.
Una red efectúa una computación por valores de entrada del mapeo a valores de producción. El problema de
mapeo particular para ser actuado fija el número de entradas así como el número de producciones para la red.
Aparte del número de neuronas en la capa de producción de una red, el número de las neuronas en cada capa
es hasta el diseñador. Excepto puramente redes lineales, el más neuronas en una capa escondida el más
potente la red.
Si unas necesidades de mapeo lineales para ser las neuronas lineales representadas tendrían que ser utilizadas.
Aun así, las redes lineales no pueden actuar cualquier nonlinear computación. Uso de un nonlinear función de
transferencia hace una red capaz de almacenar nonlinear
Relaciones entre entrada y producción.
Un problema muy sencillo puede ser representado por una capa sola de neuronas. Aun así, redes de
capa sola no pueden solucionar problemas seguros. Múltiple alimentar-adelante las capas dan una red
libertad más grande. Por ejemplo, cualquiera
La función razonable puede ser representada con una dos red de capa: una capa sigmoidea que alimenta
una capa de producción lineal.
Las redes con sesgos pueden representar relaciones entre entradas y producciones más fácilmente que redes
sin sesgos. (Por ejemplo, una neurona sin un
El sesgo siempre tendrá una entrada neta a la función de transferencia de cero cuando todos de sus entradas
son cero. Aun así, una neurona con un sesgo puede aprender para tener cualquier red
Entrada de función de la transferencia bajo las mismas condiciones por aprender un valor apropiado para el
sesgo.)
Alimenta-adelante las redes no pueden actuar temporal computación. Redes más coomplejas con caminos de retroalimentación
interna están requeridas para temporal comportamiento.
Si varios vectores de entrada son para ser presentados a una red, pueden ser presentados sequentially o al
mismo tiempo. Batching De las entradas concurrentes es computacionalmente más eficaces y puede ser qué
está deseado de todas formas. La notación matricial
Utilizado enM ATLAB hace batching sencillo.

Figuras y Ecuaciones
Neurona sencilla

Entrada - Neurona de entrada - Neuron


Título
sin sesgo Título a con
sesgo

p w n U p w n U
f n f n
b

1
Un =-f Exp
(wp ) Un =-f Exp
(wp+ b)
- -
Función de Transferencia de Límite dura

Un

n
1
-
0

1
+

Un = hardlim(n)
Función de Transferencia de Límite dura

Purelin Función de transferencia

Un

n
0
1
+
1
-

Un = purelin(n)
Función de Transferencia lineal
Registro Función de Transferencia Sigmoidea

Un

n
-1

+1
Un = logsig(n)
Registro-Función de Transferencia Sigmoidea

Neurona Con Entrada de Vector

Entr Neurona w Entrada


ada de Vector
Dónde...
p
p1
w1, R=#
n U Elementos en
p2 1
3 f n
vector de
entrada
w1, b
p R
R

1
Un = f(Wp +b)

Entrada neta

n = w 1 1 p 1 + w 1 2 p 2 + ... + w 1 R p R + b
La neurona sola que Utiliza Notación Abreviada

Entr Neurona
ada
Dónde...
p U
n
W n
Un
1x1 R = # De
R x 11 x
1x1 f elementos en
R vector de
b entrada
1 1x
1
1
R
Un = f(Wp
+b)

Iconos para Funciones de Transferencia

hardlim pureli logsig


n

Capa de Neuronas

Capa de entrada de
Neuronas.
Dónde...
U R = # De
p W n elementos en
R
xS x R
Sx1
n U Sx1 vector de
entrada
1
1 b
n S=#
f Neuronas
en Capa
R Sx S
1

Un= f (Wp + b)
Tres Capas de Neuronas

Entr Capa de
ada Neuronas

w1, n1 U1
f n
p 1
Dónde...
1 b1
1n R = # De
p U2 elementos en
2 2
f n vector de
p b2 entrada
3
1n
p US S=#
R wS,
S
f n Neuronas
en Capa
R bS

Un= f (Wp + b)

Matriz de peso

w 1 1 w 1 2  w 1 R
W= w 2 1 w 2 2  w 2 R

w S 1 w S 2  w S R
Capa de Neuronas, Notación Abreviada

Capa de entrada de
Neuronas.
Dónde...
U R = # De
p W n elementos en
R
xS x R
Sx1
n U Sx1 vector de
entrada
1
1 b
n S=#
f Neuronas
en Capa
R Sx S
1

Un= f (Wp + b)

Capa de las neuronas que Muestran Índices

Entrada
Capa 1
Dónde...
p Un
yoW 1,1
Un1
Rx n1 R = # De elementos
1 S 1x R
S 1x 1 Un
f 1

S1x
En entrada

R b1 1
1 S1 = # Neuronas
S1 S en capa 1
x1
1
Un1 = f1(IW1,1p +b1)
Tres Capas de Neuronas

Entra
Primera Capa Segunda Capa Tercera Capa
da

iw1,1 n1 Un1lw2,1 n2 Un2lw3,2 n3 U


1, 1
1 f 11,1 1 f 11,1 1 f n3
p 1
1 b1 1 b2 2 b3 3
1 1 1
111
p n1 U n2 U n3 U
2
2 f n1 2 f n2 2 f n3
p b1 1 2
b2 2 2
b3 3 2
3
2 2 2
1 1
p1 n1 1 Un1 1 1n2 2 Un2 2 n3 3 Un3 3
R
i 1,1 S f S S f S
S f3S
S, R lw2,1 2 1 lw3,2 3 2
w b1 1 1 b2 2 2 b3 3
S,S S,S
S S S
1 1 1

Un1 = f1 (IW1,1p +b1) un2 = f2 (LW2,1un1 +b2) un3 =f3 (LW3,2 un2 +

b3) un3 =f3 (LW3,2 f2 (LW2,1f1 (IW1,1p +b1)+ b2)+ b3)

Tres Capas, Notación Abreviada

Entrada Primera Capa Segunda Capa Tercera Capa

Un1 Un3 =
p
IW1,1 S1 L S2 L y
R un2 x 1W x 1W
x f n3
S
1 n1 f1 2,1
n2 2
3,2 3
x
S 1x
S 2x S1 S 3x S2 f3
1 S 2x1 S 3x 1 1

1 1 b
U RS1x
1
U 3

R n
S 1x 1 S1 S2x 1
n S2 S3x 1 S3

b 11 = f (IW1,1p +b1)
Un 1 un2b 2= f2 (LW2,1 un1 +b2) un3 =f3 (LW3,2un2 +b3)

Un3 =f3 (LW3,2 f2 (LW2,1f1 (IW1,1p +b1)+ b2)+ b3 = y


Neurona lineal Con Dos Vector de Elemento Entrada.

Entradas Neurona Lineal

p
1
n un
p
w1, b

w1,
2
2

1
Un = purelin (Wp + b)

La red dinámica Con Una Retrasa.

Entradas Neurona Lineal

p(t) w1,
1
n( U
t) n(
D 1,
2 t)
w

Un(t) = w p(t) + w p(t - 1)


11 12

También podría gustarte