Documentos de Académico
Documentos de Profesional
Documentos de Cultura
2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Pgina 12
MODELADO DE LA FRECUENCIA FUNDAMENTAL MEDIANTE REDES NEURONALES PARA SNTESIS DE VOZ EN DOMINIO RESTRINGIDO Carlos Martn Valle
21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
Pgina 13
MODELADO DE LA FRECUENCIA FUNDAMENTAL MEDIANTE REDES NEURONALES PARA SNTESIS DE VOZ EN DOMINIO RESTRINGIDO Carlos Martn Valle
41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61
Captulo 2: Las Redes Neuronales Pgina 14
MODELADO DE LA FRECUENCIA FUNDAMENTAL MEDIANTE REDES NEURONALES PARA SNTESIS DE VOZ EN DOMINIO RESTRINGIDO Carlos Martn Valle
62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82
Captulo 2: Las Redes Neuronales Pgina 15
MODELADO DE LA FRECUENCIA FUNDAMENTAL MEDIANTE REDES NEURONALES PARA SNTESIS DE VOZ EN DOMINIO RESTRINGIDO Carlos Martn Valle
83
Pgina 16
MODELADO DE LA FRECUENCIA FUNDAMENTAL MEDIANTE REDES NEURONALES PARA SNTESIS DE VOZ EN DOMINIO RESTRINGIDO Carlos Martn Valle
Pgina 17
MODELADO DE LA FRECUENCIA FUNDAMENTAL MEDIANTE REDES NEURONALES PARA SNTESIS DE VOZ EN DOMINIO RESTRINGIDO Carlos Martn Valle
Pgina 18
MODELADO DE LA FRECUENCIA FUNDAMENTAL MEDIANTE REDES NEURONALES PARA SNTESIS DE VOZ EN DOMINIO RESTRINGIDO Carlos Martn Valle
Pgina 19
MODELADO DE LA FRECUENCIA FUNDAMENTAL MEDIANTE REDES NEURONALES PARA SNTESIS DE VOZ EN DOMINIO RESTRINGIDO Carlos Martn Valle
Pgina 20
MODELADO DE LA FRECUENCIA FUNDAMENTAL MEDIANTE REDES NEURONALES PARA SNTESIS DE VOZ EN DOMINIO RESTRINGIDO Carlos Martn Valle
Pgina 21
MODELADO DE LA FRECUENCIA FUNDAMENTAL MEDIANTE REDES NEURONALES PARA SNTESIS DE VOZ EN DOMINIO RESTRINGIDO Carlos Martn Valle
Introduccin
Las Redes Neuronales constituyen una familia muy variada de arquitecturas. Estn basadas en el modelo cerebral: las neuronas establecen conexiones entre ellas (sinapsis), de manera que cuando un animal recibe un estmulo, ciertas conexiones se refuerzan ms que otras, provocando una cierta respuesta. Siempre que el animal reciba un estmulo (entrada) similar, generar la misma respuesta (aprendizaje): se puede decir que el cerebro reconoce diferentes patrones. Este comportamiento es fcilmente caracterizable mediante un modelado
matemtico (simulacin). El tratamiento de la informacin (computacin) no va a ser el tradicional: se basa en la evolucin temporal del sistema y en la interpretacin de ciertos parmetros (informacin). El sistema se compone de un nmero elevado de unidades muy simples (neuronas) altamente interconectadas: el paralelismo es masivo. Se puede decir que una neurona es un tipo de autmata (sistema dinmico), de ah el carcter temporal. Las Redes Neuronales artificiales pueden aprender modificando el peso de las conexiones entre las unidades; as es posible distinguir patrones. La idea de las Redes Neuronales es definir una funcin a partir de la cual poder distinguir patrones con los datos de salida: dependiendo del valor obtenido catalogamos la entrada como perteneciente a un cierto grupo. El tipo de entradas y su nmero determinar la capacidad de discriminacin de la Red [Martn-01]. En el ejemplo siguiente, una entrada (x1) no es suficiente para determinar si estamos en el patrn A o el B. Con otra entrada (x2) ya somos capaces de discriminar.
Pgina 22
MODELADO DE LA FRECUENCIA FUNDAMENTAL MEDIANTE REDES NEURONALES PARA SNTESIS DE VOZ EN DOMINIO RESTRINGIDO Carlos Martn Valle
Historia
McCullogh y Pitts realizaron en 1943 un estudio biolgico del cerebro obteniendo un modelo formal de neurona, con lo que introdujeron as el concepto de umbral: una neurona responde a un cierto estmulo siempre que ste sobrepase un cierto umbral de activacin. Posteriormente, en 1949, Hebb desarroll el Hebbian Learning: aprendizaje mediante adaptacin de sinapsis o reforzamiento de las conexiones. En 1959, Rosenblat defini el perceptrn, uno de los conceptos ms importantes dentro del desarrollo de las Redes Neuronales: el perceptrn consiste en una estructura ms una regla de aprendizaje o regla del perceptrn. Esa estructura es la combinacin de una neurona y una funcin de salida que es la que define el umbral de activacin. La misin de la neurona es implementar una combinacin lineal de las entradas. Cada entrada posee un peso, que se adapta temporalmente. Es esto lo que se conoce como aprendizaje. Misky y Papert desarrollaron en 1969 un perceptrn unicapa que consegua una clasificacin de primer orden (XOR). Se plante entonces el problema del entrenamiento de varias capas. As, en 1974 Werbos defini el algoritmo de retropropagacin y el uso de la funcin sigmoidal como funcin de salida de un perceptrn. El algoritmo de retropropagacin permite modificar los pesos partiendo de la ltima capa hasta la inicial basndose en el error cometido en la iteracin anterior. Ese error es la diferencia entre la salida de la Red Neuronal y la salida real que deberamos haber obtenido. Como el algoritmo de retropropagacin est basado en la derivada del error, se decidi utilizar la funcin sigmoidea en vez del escaln para representar el umbral de activacin (la funcin escaln tiene derivada infinita en el origen). Posteriormente se desarrollaron otros tipos de redes: Kohonen en los 70 cre los mapas topolgicos y las memorias asociativas, y en 1982 Hopfield defini las redes de Hopfield. Finalmente, en 1986 Rumelhart y McClelland desarrollaron el perceptrn multicapa, popularizndose as el algoritmo de retropropagacin. En 1989, Cybenko, Hornik et al. y Funahashi definieron el perceptrn multicapa como el aproximador universal [Martn-01].
Pgina 23
MODELADO DE LA FRECUENCIA FUNDAMENTAL MEDIANTE REDES NEURONALES PARA SNTESIS DE VOZ EN DOMINIO RESTRINGIDO Carlos Martn Valle
Clasificacin
Existen diferentes criterios de clasificacin para las Redes Neuronales: o Caracterizacin temporal: se refiere a la caracterizacin temporal de las entradas. Continua en el tiempo: cuando la funcin de entrada es una funcin continua. Este tipo de redes se utiliza en sistemas donde es necesario una clasificacin inmediata de las entradas, como por ejemplo un sistema de alarma que se active ante la presencia de ciertos parmetros peligrosos. Discreta: cuando las entradas se toman en determinados instantes de tiempo. Se utilizan en sistemas donde no es necesario un control inmediato de las entradas y slo se busca ver su evolucin sin saturar demasiado el sistema con una gran cantidad de datos. Entrada: se refiere a los valores que toman las entradas. Binaria: cero o uno. Se puede utilizar cuando las entradas son codificadas, por ejemplo, representando el intervalo sobre el que caen dentro de un rango. Si el rango se divide en x intervalos, cada entrada se representa con x valores, todos a cero menos uno, el que corresponde al intervalo de valores de la entrada. Continua: el valor de la entrada puede ser cualquiera dentro de un rango. Es posible definir diferentes rangos de variacin. o Entrenamiento: se refiere al aprendizaje seguido por la Red. Supervisado: cuando se vigila la evolucin de la Red. Por ejemplo, cuando se le ofrecen a la Red ejemplos sealando las salidas que se deberan obtener. Con recompensa/castigo: cuando la Red acierta se le ofrece una recompensa. Cuando falla se le castiga. As aprende cmo debe comportarse. No supervisado: no se le dice a la Red lo que debe dar. Esto se suele utilizar en aquellos casos en que tenemos una serie de entradas y no sabemos cmo clasificarlas. Dependiendo de lo que se obtenga tras el entrenamiento tendremos un criterio de clasificacin. o Realimentacin:
Pgina 24
MODELADO DE LA FRECUENCIA FUNDAMENTAL MEDIANTE REDES NEURONALES PARA SNTESIS DE VOZ EN DOMINIO RESTRINGIDO Carlos Martn Valle
Feedforward: realimentacin hacia delante. Es la estructura normal, donde las salidas de una capa se introducen en la siguiente.
Feedback: realimentacin hacia atrs. Las salidas de ciertas capas se introducen en capas anteriores para que stas sepan cul ha sido el comportamiento posterior y se adapten en consecuencia.
Entre los modelos ms representativos se encuentran los mapas asociativos, el perceptrn multicapa, las redes de Hopfield (memorias autoasociativas), los mapas topolgicos autoorganizativos de Kohonen y las redes hebbianas [Martn-01].
Propiedades
Las propiedades que comparten todas las Redes Neuronales son: o o o o o Alto grado de paralelismo: varias neuronas pueden estar trabajando a la vez. Fcil implementacin Hardware (o Software). Robustez frente a posibles fallos: la informacin est distribuida. Naturaleza adaptativa que sustenta la capacidad de aprendizaje. Capacidad de generalizacin: a partir de unas entradas definimos un patrn.
Neurona
Una neurona artificial se implementa de la siguiente manera: las entradas (x) se introducen en las dendritas. Cada una posee un peso (w ij, neurona j entrada i). Dentro del cuerpo se aplican diferentes funciones de procesamiento (propagacin, activacin, salida) hasta llegar al axn (salida y). Todo esto queda reflejado en la siguiente grfica:
Pgina 25
MODELADO DE LA FRECUENCIA FUNDAMENTAL MEDIANTE REDES NEURONALES PARA SNTESIS DE VOZ EN DOMINIO RESTRINGIDO Carlos Martn Valle
En la prctica, las funciones de propagacin y activacin no suelen diferenciarse y constituyen una combinacin lineal de las entradas o su distancia eucldea. La funcin de salida se establece fuera de la neurona.
Pgina 26
MODELADO DE LA FRECUENCIA FUNDAMENTAL MEDIANTE REDES NEURONALES PARA SNTESIS DE VOZ EN DOMINIO RESTRINGIDO Carlos Martn Valle
Aparte de las entradas propias de la neurona, se puede considerar un cierto umbral (qi) que comporta una cierta decisin como se ver ms adelante.
Topologa
Comprende varios aspectos: o Definicin de conectividad: se refiere a la forma de conectarse las neuronas para formar una cierta estructura. De esta forma, podemos obtener redes monocapa o multicapa. Las redes monocapa consiguen una clasificacin de primer orden como puede ser un XOR. Sin embargo, una red de varias capas puede diferenciar entre diferentes regiones, como se ver prximamente. o Temporizacin o sincronizacin del flujo de informacin: Tiempo continuo-discreto: se refiere a si la informacin se actualiza continuamente o slo en ciertos instantes de tiempo. Secuencia de computaciones: flujo directo o bucles de realimentacin. El flujo directo consiste en un mero paso de informacin de una capa a la siguiente. Pero con la realimentacin una capa obtiene informacin sobre lo que estn haciendo las capas que la siguen, y as, se obra en consecuencia.
Pgina 27
MODELADO DE LA FRECUENCIA FUNDAMENTAL MEDIANTE REDES NEURONALES PARA SNTESIS DE VOZ EN DOMINIO RESTRINGIDO Carlos Martn Valle
En una red multicapa se definen tres tipos de capas: de entrada, oculta y de salida.
Dependiendo del nmero de capas ocultas que consideremos y movindonos dentro de un espacio bidimensional, se pueden definir regiones (conjunto de entradas que conforman un patrn) de diferentes formas, como se puede apreciar en la figura 2-7.
Pgina 28
MODELADO DE LA FRECUENCIA FUNDAMENTAL MEDIANTE REDES NEURONALES PARA SNTESIS DE VOZ EN DOMINIO RESTRINGIDO Carlos Martn Valle
Figura 2-7: Regiones que se pueden delimitar segn el nmero de Capas Ocultas que se consideren.
Entrenamiento o aprendizaje
El aprendizaje consiste en el ajuste de pesos de interconexin entre las neuronas. Existen diferentes criterios de ajuste: o Supervisado: Heurstico: perceptrn. Minimizan funcin de coste (algoritmos tradicionales de adaptacin): se minimiza la funcin de error de evaluacin para ajustar los pesos. Un ejemplo es el perceptrn multicapa. o Mediante refuerzo (con recompensa/castigo): o Actor/crtico. Q-learning.
Pgina 29
MODELADO DE LA FRECUENCIA FUNDAMENTAL MEDIANTE REDES NEURONALES PARA SNTESIS DE VOZ EN DOMINIO RESTRINGIDO Carlos Martn Valle
El aprendizaje es un algoritmo por el cual se le dan datos a la neurona y sta aprende a reconocer patrones con ellos. El aprendizaje no supervisado es aqul en el que se tienen un conjunto de patrones pero no estn catalogados. El objetivo es que sea la Red la que los clasifique segn los criterios que se le suministran (similitudes que deben cumplir los patrones para pertenecer a una clase) y segn posibles analogas que pueda encontrar en los datos de entrada. El aprendizaje supervisado es aqul en el que se cuenta con patrones catalogados que sirven de ejemplo a la Red.
El perceptrn multicapa
Este tipo de redes se caracterizan por su facilidad de implementacin. Su aprendizaje se basa en la retropropagacin: se parte de unos pesos iniciales en las conexiones interneuronales. Para un conjunto de entradas se obtiene una cierta salida. Basndose en que se conoce la salida que deberamos haber obtenido (patrn catalogado aprendizaje supervisado), calculamos el error. A partir de este error se modifican los pesos siguiendo el sentido inverso al de evolucin de la Red (se parte de la salida hasta llegar a la entrada). De la misma manera se opera con el resto de entradas de entrenamiento. Se puede observar que el error ir disminuyendo a medida que se aplique el algoritmo. Sin embargo un entrenamiento reiterado con las mismas entradas acaba provocando un sobre-entrenamiento a la Red Neuronal, memorizando caractersticas de un conjunto, impidiendo as que aprenda a generalizar. Por eso tras cada iteracin hay que evaluar: introducir nuevos valores distintos a los de entrenamiento y calcular el error de salida. De esta manera se obtiene una funcin (error de evaluacin) de la que nos interesa hallar su mnimo absoluto (puede haber mnimos locales). Determinando el nmero de iteraciones con que se alcanza dicho valor, nos aseguramos, en cierta forma, obtener un bajo error para cualquier conjunto de datos de entrada. Despus, se puede aplicar un test con un conjunto nuevo de entradas que nos dar una medida de la capacidad de discriminacin de la Red.
Qu es un perceptrn?
Un perceptrn es una estructura neuronal ms una regla de aprendizaje. Como se explicaba anteriormente, una neurona se compone de un conjunto de entradas, cada una con un peso, que se introducen en el cuerpo de la misma para su procesamiento. Ese procesamiento puede consistir en:
Pgina 30
MODELADO DE LA FRECUENCIA FUNDAMENTAL MEDIANTE REDES NEURONALES PARA SNTESIS DE VOZ EN DOMINIO RESTRINGIDO Carlos Martn Valle
Combinacin lineal:
y = i x i
i
Distancia eucldea:
y=
( x )
i i i
Este resultado se introduce posteriormente en un bloque caracterizado por una de las siguientes funciones:
La funcin que representa el comportamiento ideal de una neurona es la funcin escaln: dependiendo de la entrada se activa la conexin entre neuronas (salida = 1) o no (salida = 0). Esta decisin puede depender de un cierto umbral (que la salida sea capaz de superarlo), representado en las expresiones anteriores por q: introducir este trmino negativo equivale a considerar que la funcin vale uno a partir de q y no a partir de cero como se representa en la tabla.
Pgina 31
MODELADO DE LA FRECUENCIA FUNDAMENTAL MEDIANTE REDES NEURONALES PARA SNTESIS DE VOZ EN DOMINIO RESTRINGIDO Carlos Martn Valle
Aunque ste sea el comportamiento ideal, en la prctica se suele utilizar la funcin sigmoidea. Esto se debe a que es una funcin muy parecida al escaln y derivable en el entorno de cualquier punto del eje x. Como se ver, esto es necesario en el algoritmo de retropropagacin ya que est basado en la minimizacin del error con respecto al valor de los pesos, por lo que hay que derivar e igualar a cero. El algoritmo de aprendizaje para un perceptrn aislado es el siguiente:
Wk +1 = Wk X t y d y
donde: o o o o o o W = vector de pesos. k = iteracin actual. h = factor de aprendizaje. X = vector de entradas. yd = salida deseada. y = salida obtenida en la iteracin k.
Una propiedad muy importante de este algoritmo es la convergencia en presencia de solucin y la posibilidad de implementar ciclos lmite en ausencia de la misma. El factor de aprendizaje h determina la rapidez del algoritmo pero tambin su exactitud. Cuanto mayor sea, necesitaremos menos iteraciones (antes alcanzaremos las cercanas del mnimo error de evaluacin) pero el aprendizaje es muy grosero (es ms probable que nos quedemos oscilando en las cercanas del mnimo error de evaluacin que lo alcancemos realmente). Cuanto menor sea, ms lento es pero ms fino en el aprendizaje. Por lo tanto hay que llegar a un compromiso.
Retropropagacin
A continuacin, se va a explicar el mtodo utilizado para entrenar un perceptrn multicapa.
Pgina 32
MODELADO DE LA FRECUENCIA FUNDAMENTAL MEDIANTE REDES NEURONALES PARA SNTESIS DE VOZ EN DOMINIO RESTRINGIDO Carlos Martn Valle
Algoritmo
El aprendizaje de un perceptrn multicapa es ms complejo. Como se apunt anteriormente, el entrenamiento de este tipo de Redes Neuronales es un entrenamiento supervisado. Se define un conjunto de pares de patrones (X i, Yi) de entrenamiento y se define una funcin de error (diferencia entre la salida deseada y la obtenida). Una vez obtenido dicho error se actualizan los pesos para minimizarlo. El procedimiento que se emplea es el descenso en la direccin del gradiente: una manera muy eficiente de implementarlo es a travs de un procedimiento equivalente a computar la Red hacia atrs. Esto da lugar al algoritmo de retropropagacin:
ET = E p =
p =1
1 P S 2 ( d p Op ) 2 p =1
donde: o o o o o ET = error total de salida. Ep = error de la salida p. P = nmero de neuronas de la ltima capa. OpS = salida obtenida en la neurona p de la capa S (la de salida). dp = salida esperada en la neurona p.
L ij ( k + 1) = ijL ( k )
ET L (k) ij
donde: o o o wijL = peso de la entrada i de la neurona j en la capa L. k = iteracin actual. m = factor de aprendizaje.
Pgina 33
MODELADO DE LA FRECUENCIA FUNDAMENTAL MEDIANTE REDES NEURONALES PARA SNTESIS DE VOZ EN DOMINIO RESTRINGIDO Carlos Martn Valle
L (k) ij
ET
=
p =1
L (k) ij
E p
OL j =
donde: o o o
1 1+ e
yL j
L L1 ; yL j = ij Oi i =1
NL
NL = nmero de neuronas de la capa L. OjL = salida de la neurona j de la capa L. yjL = estado de activacin de la neurona j de la capa L.
L y L ET ET O j j = L L L ij ( k ) O L y j j ij ( k )
O L j y
y L j
L j
(1 + e )
yL j
L 1 i
yL j
1 1+ e
yL j
yL j yL j
1+ e
L = OL j (1 O j )
L ij (k)
=O
1 ij (k )
y 1j
= ii
= d j OS j
L =S
ET S S = d j OS = j Oj 1Oj y S j
= d j O Sj f ' y Sj = jS
donde jS = seal de error.
) ( )
Pgina 34
MODELADO DE LA FRECUENCIA FUNDAMENTAL MEDIANTE REDES NEURONALES PARA SNTESIS DE VOZ EN DOMINIO RESTRINGIDO Carlos Martn Valle
Para el resto de las capas, cuando vara la salida de la neurona de una de ellas afecta a la salida de las neuronas de la siguiente capa:
L +1 L +1 ET ET y1L +1 ET y 21 ET y N L +1 = L +1 + L +1 + ... + L +1 = L L L O L y O y O y O j 1 j 21 j N L +1 j
N L +1
ET y iL +1 N L +1 L +1 L +1 = i ij (k) L +1 L O j i =1 y i i =1
Resumen
En resumen, el algoritmo de actualizacin de pesos queda:
L ij ( k + 1) = ijL ( k ) OiL 1 jL
L +1 +1 jL = f ' ( y L L j ) k j (k) N L +1 i =1
Pgina 35
MODELADO DE LA FRECUENCIA FUNDAMENTAL MEDIANTE REDES NEURONALES PARA SNTESIS DE VOZ EN DOMINIO RESTRINGIDO Carlos Martn Valle
6. Ir al paso 2.
Mejoras y variantes
Se pueden introducir algunas mejoras a este algoritmo que pretenden asegurar la convergencia o hacer ms rpido el proceso: o o o o Inicializacin de pesos: enfocado a la convergencia. Factor de aprendizaje: enfocado a la convergencia. Tamao de la red: enfocado a la generalizacin. Trmino del momento: enfocado a obtener mnimos locales en la funcin de error y a acelerar el proceso.
L L L ( k + 1) = ijL ( k ) jL O L ij j + ij ( k ) ij ( k 1)
Pgina 36
MODELADO DE LA FRECUENCIA FUNDAMENTAL MEDIANTE REDES NEURONALES PARA SNTESIS DE VOZ EN DOMINIO RESTRINGIDO Carlos Martn Valle
Todas las ideas de este ltimo apartado han sido extradas de [Martn-01], [Pardo, 00] y [Zufiria, 98].
Pgina 37