Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Diseo de
Experimentos para el
Reconocimiento de
Patrones
4
5
8
9
Introduccin.............................................................................................................................4
1.1 Descripcin del Curso......................................................................................................4
1.2 Objetivos..........................................................................................................................4
1.3 Contenido.........................................................................................................................4
1.4 Metodologa Docente.......................................................................................................4
1.5 Bibliografa Recomendada...............................................................................................4
1.6 El problema de la clasificacin........................................................................................4
1.7 Aplicacin de las tcnicas de clasificacin.......................................................................5
1.8 Mtodos y Herramientas..................................................................................................5
Mtodos Estadsticos...............................................................................................................6
2.1 Introduccin.....................................................................................................................6
2.2 Distribuciones y Funciones de Densidad de Probabilidad ms usuales............................6
2.3 Inferencia Estadstica.......................................................................................................7
2.4 Modelos Lineales.............................................................................................................7
2.5 Modelo de componentes Principales................................................................................7
2.6 Anlisis de conglomerados y Descomposicin de mezclas..............................................7
2.7 Mtodos Bayesianos........................................................................................................7
2.8 Procesos Estocsticos.......................................................................................................7
Redes Neuronales Artificiales................................................................................................10
3.1 Aprendizaje y Generalizacin........................................................................................10
3.2 Dimensiones de la Red...................................................................................................10
3.3 Problemas Linealmente Separables y No Separables.....................................................10
3.4 Perceptrn y Perceptrn Multicapa................................................................................10
3.5 Clasificacin..................................................................................................................10
3.6 RBF................................................................................................................................10
3.7 Componentes Principales y RNA...................................................................................10
3.8 Redes Dinmicas............................................................................................................10
Sistemas Basados en Reglas..................................................................................................12
Reconocimiento No Supervisado...........................................................................................14
5.1 Aprendizaje Competitivo...............................................................................................14
5.2 Mapas Autoorganizados.................................................................................................14
5.3 LVQ...............................................................................................................................14
Series Temporales..................................................................................................................16
6.1 Anlisis de Series Temporales........................................................................................16
6.2 Sistemas Estacionarios...................................................................................................16
6.3 Sistemas Lineales...........................................................................................................16
6.4 Sistemas No Lineales.....................................................................................................16
6.5 Uso de las RNA con Series Temporales.........................................................................16
Sistemas Modulares, Mezcla de Expertos y Sistemas Hbridos.............................................17
7.1 Introduccin. Mdulos, expertos e hibridacin..............................................................17
7.2 Sistemas Globales y Sistemas Locales...........................................................................18
7.3 Ventajas e Inconvenientes de la Aproximacin Modular................................................22
7.4 Estado del Arte...............................................................................................................22
7.5 Ajuste del tamao y estructura de los mdulos..............................................................31
7.6 Ajuste de la Arquitectura Modular.................................................................................32
7.7 Extraccin de reglas del sistema ya ajustado..................................................................36
7.8 Algunos Ejemplos..........................................................................................................39
7.9 Resumen........................................................................................................................44
7.10
Bibliografa................................................................................................................44
Combinacin de Redes Neuronales Artificiales.....................................................................47
Aproximacin Modular..........................................................................................................47
9.1 Sistemas Globales y Sistemas Locales...........................................................................47
9.2 Ventajas e Inconvenientes de la Aproximacin Modular................................................48
9.3 Antecedentes y Descripcin General del Problema........................................................48
9.4
1 Introduccin
1.1 Descripcin del Curso
1.2 Objetivos
Realizar una introduccin al problema genrico del reconocimiento de patrones (clasificacin),
abarcando desde los aspectos fundamentales de tipo terico, a la aplicacin prctica.
1.3 Contenido
a) Parte Terica.
Introduccin
Mtodos estadsticos.
Uso de las Redes Neuronales Artificiales.
Sistemas basados en reglas.
Reconocimiento no supervisado.
Series temporales.
Combinacin de clasificadores.
Otros mtodos.
b) Parte Prctica.
Diseo y Evaluacin de experimentos.
Herramientas.
Trabajo Prctico.
2 Mtodos Estadsticos
2.1 Introduccin
2.1.1 Objetivos de la Estadstica
2.1.2 Estadstica Descriptiva
Referencia: [3][4]
Poblacin.
Variable aleatoria.
Muestras.
Tablas de frecuencias. Distribuciones marginales y condicionales.
Histogramas.
Parmetros de posicin (media, mediana...)
Parmetros de dispersin.
Covarianza y correlacin.
Anlisis de residuos.
Parmetros de simetra.
1
f ( x)
e
2
( x m )2
2 2
tX
De una poblacin es posible a priori obtener una gran cantidad de muestras diferentes. Existe
por tanto una poblacin de posibles muestras, es decir, una poblacin cuyos individuos son dichas
muestras. A cada individuo de dicha poblacin se le puede hacer corresponder diferentes caractersticas
numricas (p.ej. media muestral y desviacin tpica muestral referidas a la muestra considerada), que
por lo tanto, sern nuevas variables aleatorias. La distribucin estadstica de estas nuevas variables
depender de la poblacin muestreada y el tamao de la muestra.
Cualquier funcin de las variables muestrales se denomina estadstico.
En cuanto a la distribucin de las medias muestrales:
Media de las medias muestrales = media de la poblacin.
Varianza de las medias muestrales = varianza de la poblacin / nmero de muestras
En cuanto a la distribucin de las varianzas muestrales:
La media de la varianza muestral es la varianza de la poblacin.
La varianza de las varianzas muestrales tiende a cero cuando el nmero de muestras
tiende a infinito.
3.6 RBF
3.7 Componentes Principales y RNA
3.8 Redes Dinmicas
3.8.1 Redes con retardos
3.8.2 Redes con realimentacin
5 Reconocimiento No Supervisado
5.1 Aprendizaje Competitivo
5.2 Mapas Autoorganizados
5.3 LVQ
6 Series Temporales
6.1 Anlisis de Series Temporales
6.1.1 Autocorrelacin y Autocorrelacin Parcial
6.1.2 Anlisis de Fourier
6.1.3 Estacionalidad
6.1.4 Eliminacin de Tendencias
A pesar de que las redes neuronales son por su propia naturaleza un sistema modular (el elemento
que se replica es la neurona en un sistema biolgico o el elemento de proceso en una red neuronal
artificial), los primeros modelos que aparecieron, y los que ms se han difundido en su aplicacin son los
paradigmas globales, en los que no se realiza ningn intento por encontrar subtareas, o partes ms
elementales del problema en cuestin.
Hay varios problemas que subyacen en la filosofa de las redes neuronales artificiales como
sistemas globales, relacionados principalmente con una caracterstica que les es inherente, como es el
hecho de son sistemas que aprenden.
El primer punto, que ms que un problema se podra considerar como una situacin ''incmoda``,
es la incapacidad de dichos sistemas en justificar razonadamente (mediante reglas, leyes o algoritmos) la
solucin obtenida, tal como hara un experto humano. Es decir, no hay nada que justifique de una manera
razonada la forma que ha tomado la informacin adquirida durante el proceso de entrenamiento (en el este
caso, los valores de los pesos entre los distintos elementos de proceso). Cmo fiarse de un sistema de
proceso de datos o control del que no se sabe nada acerca de cmo se ha representado internamente la
informacin que es utilizada para resolver el problema propuesto? El sistema de caja negra no es muy
bien aceptado por el usuario final.
En relacin con un modelo muy extendido de redes neuronales artificiales como es el perceptrn
multicapa entrenado con el mtodo de retropropagacin del error, se pueden sealar varias cuestiones:
Dado el algoritmo de entrenamiento empleado (retropropagacin del error), cabe la posibilidad de
alcanzar un mnimo local en la superficie funcin del error, o bien que en la zona en la que se est
evaluando dicha funcin la pendiente sea muy escasa (superficie de error casi plana), producindose
un aprendizaje demasiado lento.
En general, cuando el sistema (la red neuronal) es demasiado grande, el nmero de parmetros a
ajustar durante el entrenamiento es tambin muy elevado. Puede que esta red an siendo capaz de
aprender los ejemplos de entrenamiento, con ejemplos no vistos en la fase de aprendizaje los
resultados sean malos, es decir, el sistema no es capaz de generalizar. Este problema recibe el
nombre de sobreentrenamiento (``overfitting'') [Mac99,Koh95], y refleja el compromiso existente
entre el sesgo (``bias'') y la varianza. Cuando el nmero de parmetros que definen el sistema es
grande, y el nmero de iteraciones de entrenamiento es tambin muy elevado, el sistema no
solamente modela la relacin entre entrada y salida deseada (sesgo muy pequeo), sino que tambin
modela el ruido que se encuentra mezclado con la seal bajo estudio. Para aliviarlo hay ciertas
alternativas, como pueden ser:
detener el proceso de aprendizaje en un nmero bajo de iteraciones ``early stopping''), con lo que
no se llega a producir el sobreajuste de los parmetros,
la reduccin del tamao de la red mediante poda, con lo que se reduce el nmero de parmetros
involucrados en el sistema,
utilizar un mtodo incremental, aumentando el nmero de parmetros (elementos de proceso y
conexiones) desde un nivel bajo, hasta alcanzar el grado de respuesta ptimo requerido,
la utilizacin de tcnicas como el ``weight decay'', consistente en definir la actualizacin de los
pesos de las conexiones entre los distintos elementos de proceso imponiendo una condicin de
que sus correspondientes valores absolutos sean lo ms pequeos posibles.
Si bien el primer mtodo parece un poco drstico, ya que se enfrenta al problema del elevado
nmero de parmetros por ajustar dejndolos sin ajustar del todo, el hecho de detener el proceso de
aprendizaje cuando an el nmero de pocas presentadas (iteraciones) es bajo, hace que el tiempo
consumido en esta etapa sea pequeo. La segunda solucin propuesta, la poda, parece ms razonable,
ya que desecha aquellos elementos de proceso que no forman parte relevante de la solucin buscada,
pero hay que tener en cuenta que, una vez que se haya decidido cules sern los elementos de proceso
vctimas de la poda, hay que eliminarlos y volver a entrenar, aumentndose el tiempo de
procesamiento. Algo parecido se puede indicar sobre el mtodo de crecimiento de la red.
Otro problema que aparece es que hay tareas complejas que un solo sistema no puede resolver. Este
problema recibe el nombre de interferencia (``crosstalk''), y tiene dos variantes: la espacial y la
temporal. En ambos casos, los elementos que aprenden (los elementos de proceso en las redes
neuronales artificiales) reciben informacin contradictoria, ya sea de modo simultneo (interferencia
espacial) o en instantes distintos de tiempo (interferencia temporal).
7.2.1 Ejemplos
En este apartado se mostrarn ejemplos en los que se pone de manifiesto la necesidad de alejarse
de un enfoque global y utilizar sistemas modulares a la hora de resolver problemas complejos. Estos
ejemplos se centran sobre todo en la aparicin de interferencia tanto espacial como temporal durante el
aprendizaje de la resolucin de la tarea propuesta.
Un nico mdulo que intente aprender su resolucin no ofrece buenos resultados, y en [FGP95]
se propone el uso de dos mdulos especializados en el cumplimiento de cada uno de las subtareas antes
expuestas. Un tercer mdulo coordina los resultados y genera la salida del sistema.
(a)
(b)
(c)
apareciendo a lo largo de los ltimos aos, como puede ser el ``Stacked Generalization'' propuesto por
Wolpert,
En la tarea de aplicar mezcla de mdulos o expertos se puede considerar varios puntos [RG95]:
1. Descomposicin de la tarea principal en subtareas,
2. Determinacin de la naturaleza del mdulo que se asocia a cada subtarea.
Por medio de lgica borrosa. Una funcin de pertenencia borrosa determina cul o cules de los
mdulos han de ser ajustados.
Por medio de tcnicas estadsticas. Mediante una distribucin de probabilidad (o una densidad de
probabilidad) se determina qu mdulo ha de ajustarse.
7.4.2.2 Integracin
Una vez efectuado el anlisis del problema, construidos y ajustados los mdulos que se hacen
responsables de su resolucin, es necesario especificar el mecanismo que rena cada uno de las
soluciones parciales alcanzadas para crear la solucin al problema original.
De un modo ms general y, por supuesto, acorde a la manera en que se ha hecho el reparto de la
informacin, se pueden distinguir diferentes mtodos de integracin o combinacin de los mdulos que se
hayan considerado [MSJ97]:
El mecanismo de ``el ganador se lo lleva todo'' slo se puede plantear en aquellos sistemas en los
que los expertos realizan tareas parecidas y ofrecen resultados homogneos, no siendo este el
caso de tareas como el de aparcar un camin, en el que el resultado (el ngulo de giro de las
ruedas) es funcin de la posicin de la cabina y del remolque. Para estos casos, es habitual
encontrarse con un esquema de mdulos
en serie.
Modelos en serie: la salida de un modelo
es utilizada como entrada para el
siguiente.
Mecanismos de votacin: la funcin
softmax Una arquitectura muy simple
para construir sistemas modulares se basa
en la creacin de una batera de mdulos
expertos, cada uno de ellos especializado
en una tarea especfica que ha sido
determinada a priori, y establecer un
sencillo mecanismo de votacin, en el
que cada uno de los mdulos indica con
su salida la certeza (probabilidad a
Ilustracin 4: Mecanismo de votacin.
posteriori) que existe sobre la salida final
a generar conocida la entrada actual en el
sistema. La salida efectiva del sistema
ser la asociada al mdulo experto que ofrezca mayor certeza.
De una manera esquemtica se puede observar esta procedimiento en la ilustracin 7. En
ella aparecen K expertos, cada uno de ellos con una nica salida escalar con la que valoran de
forma independiente unos de otros, si la presente entrada al sistema pertenece o no al tipo para el
que ha sido entrenado cada uno de ellos. As, cuanta mayor certeza se tenga sobre la pertenencia
de dicha entrada al conjunto utilizado en su aprendizaje, ms alta ser la salida que genere el
mdulo.
Pero para que el esquema expuesto tenga sentido, las salidas proporcionadas por cada uno
de los mdulos expertos han de ser equiparadas a probabilidades, es decir, deben cumplir dos
condiciones: que sus valores estn comprendidos entre cero y uno, y que su suma siempre sea
uno. Estas dos condiciones no se dan necesariamente para cualquier tipo de sistema con el que se
construyan los mdulos expertos, por lo que para que ocurra esto ser necesaria la existencia de
una etapa previa a la salida que adapte dichos valores. Una forma de lograrlo es a travs de la
funcin softmax. Si se denomina por i a las salidas o activaciones generadas por cada mdulo
experto, se asocia a cada uno un valor P(i/x) que se obtiene al aplicar la frmula:
P (i / x )
exp(i )
k
j 1
exp( j )
Los valores P(i/x), que hacen las veces de probabilidades, permitirn seleccionar de todos
los expertos aquel que ofrezca la mayor certeza. La salida del sistema ser la etiqueta que se haya
dado a los ejemplos utilizados durante el entrenamiento del experto ganador.
Cuando las etiquetas que se asignan a los expertos representan una variable cuantitativa,
podra tener sentido el ofrecer como resultado final del sistema una combinacin lineal de las
etiquetas asociadas a cada mdulo experto. El peso se cada mdulo en la generacin de la salida
ser proporcional a su probabilidad de xito en el reconocimiento de la entrada como
perteneciente a la clase para la que ha sido entrenado.
La combinacin lineal de resultados slo tiene sentido cuando las salidas de los mdulos son
todas cuantitativas. Este es el esquema propuesto por [Has94] en su combinacin ptima lineal de
redes neuronales mediante minimizacin del error cuadrtico medio ( MSE-OLC).
En un principio se parte de un conjunto de distintas redes neuronales a las cuales se ha entrenado
para la resolucin del mismo problema. La idea subyacente es que combinacin de los distintos
resultados proporcionados por las diferentes redes neuronales permite integrar el conocimiento
adquirido por cada una de ellas, consiguiendo as un aumento en la eficiencia del sistema. Esta
combinacin se hace mediante una suma ponderada de los resultados. El peso del resultado de
cada una de las redes sobre el resultado final es ajustado de forma que el resultado final sea
ptimo en el sentido de minimizar el error cuadrtico medio.
Este sistema tiene dos variantes:
MSE-OLC con restricciones, segn el cual, los coeficientes que ponderan la influencia de
cada red individual sobre la salida final del sistema estn limitados por la condicin de
sumar 1.
MSE-OLC sin restricciones, en el que los coeficientes de peso de cada red sobre la salida
pueden tener cualquier valor.
Mediante Lgica Discreta. Las circunstancias bajo las cuales se selecciona un mdulo para
generar la salida quedan definidas por una funcin lgica. Este mtodo presenta problemas en las
proximidades de las discontinuidades o
transiciones entre las distintas zonas.
Si
se
dispone
de
un
conocimiento previo que plasmado en
una variable ndice es capaz de
identificar el mdulo responsable de la
generacin de la salida, se podra utilizar
un mecanismo multiplexor como el
mostrado en la ilustracin 8.
Usando un Autmata de Estados Finito
que determina el estado siguiente en
funcin de una secuencia finita de los
Ilustracin 5: Mecanismo multiplexor para
estados recorridos hasta el momento. Al seleccionar el mdulo que genera la salida.
igual que en el caso de la lgica discreta,
pueden presentarse problemas en los
instantes de transicin entre un estado y el siguiente.
Por medio de Lgica Borrosa. Se define una funcin de pertenencia difusa que indica el modelo
a utilizar, lo que proporciona una transicin suave entre los modelos al dar mayor o menor peso a
cada modelo en funcin de un conjunto de variables borrosas.
Usando tcnicas probabilsticas. En los tres casos anteriores la transicin entre modelos era
determinista, otra alternativa es utilizar mtodos estadsticos para deducir qu modelo utilizar en
cada instante. En este caso, cada modelo posee una densidad de probabilidad que indica lo
apropiado que es para describir el funcionamiento del sistema en funcin de los datos disponibles.
Ilustracin 6
Otra manera de integrar a los expertos puede llevarse a cabo mediante una jerarqua, estrategia
que principalmente se usa para reducir la complejidad de los problemas, siendo en estos casos bastante
habituales la asignacin de significados a cada experto en trminos de representacin interna de la tarea
problema. La forma habitual de abordar el problema es buscar una variable que pueda describir la
variacin del comportamiento del sistema, con lo que se obtendr una serie de puntos de funcionamiento
que podrn dar origen a los correspondientes modelos y mdulos.
P ( y / x ) gi Pi ( y / x )
i 1
P( y / x)
K
1
2
1
g exp yi i
k 2 i
(2 ) i 1
2
gi
exp i
exp
j 1
i 1
j 1
P ( y / x , ) gi ( x , vi ) g j / i ( x , v j / i ) Pji ( y / x , w ji )
donde es el conjunto de parmetros que definen el sistema, que incluye los de los expertos wji,
y los de las redes de puertas vi y vji.
Ntese que en el esquema que se acaba de exponer todos los niveles y mdulos reciben como
entrada el mismo vector x.
Previo a la descripcin de algn mtodo de ajuste de los parmetros del sistema, se definen por
cuestiones de notacin las siguientes probabilidades condicionales a posteriori:
L
gi g j / i Pji ( y )
hi
j 1
L
g g
i
i 1
j 1
j /i
Pji ( y )
g j / i Pji ( y )
hj /i
g
j 1
j /i
Pji ( y )
Una manera de medir la bondad de los resultados obtenidos con el sistema es a travs de la
probabilidad de que dado un vector de entrada se obtenga su correspondiente vector de salida asociado. Si
este mismo objetivo se debe cumplir simultneamente para todos los pares de entrada y salida usados en
el ajuste del sistema, un buen parmetro de evaluacin sera el producto de las distribuciones de
probabilidad (ecuacin 1.5) que ofrece el sistema para todos los pares de datos utilizados en el
N
Q P ( y ( t ) / x ( t ) , )
t 1
entrenamiento:
Este parmetro Q recibe el nombre de verosimilitud (``likelihood'' en ingls). Cuanto mayor sea
este parmetro, mayor ser la probabilidad de que el sistema asocie todos los vectores de entrada con sus
correspondientes salidas, y como es natural, durante el proceso de ajuste del sistema, el objetivo ser
hacer mximo su valor, o lo que es equivalente, su logaritmo L
L ln
P( y
t 1
(t )
/ x , ) ln
t 1
(t )
g g
i 1
(t )
i
J 1
(t )
j /i
Pji ( y ( t ) )
Aplicando la regla del gradiente decreciente para el caso de mezcla de gaussianas, y derivando el
coeficiente L con respecto a las correspondientes activaciones se tiene:
La ecuacin
L
hi gi
i
que refleja el hecho de que durante el aprendizaje la red de puertas del nivel superior va
ajustndose de tal forma que las probabilidades a priori g i se van aproximando hacia las
probabilidades a posteriori hi.
La ecuacin
L
hi ( h j / i g j / i )
j / i
que refleja el hecho de que durante el aprendizaje de los conglomerados de expertos las
probabilidades a priori gj/i se van acercando a las probabilidades a posteriori h j/i.
La ecuacin
L
hi h j / i ( y y j / i )
y ji
indica que los mdulos expertos durante el entrenamiento ajustan sus pesos en proporcin
al error cometido en la salida y tambin proporcionalmente a la probabilidad de que el experto en
cuestin genere la salida deseada.
Aplicando a cada una de las ecuaciones anteriores la regla de la cadena, es posible llegar a
conseguir frmulas con las que poder actualizar adecuadamente los pesos de las redes de puertas y cada
uno de los expertos.
En [Hay94] se puede encontrar de forma detallada los pasos a seguir para el entrenamiento de
este tipo de sistemas.
zij
ln
i
j / i ji
t 1
J 1
t 1
i 1
i 1 j 1
que valga justamente Pji(y) cuando se trate del mdulo experto correcto. De esta forma la funcin
N
L ln
( p 1)
ji
t 1
N
t 1 k 1
K
L
(t )
k
t 1 k 1
l 1
N
(t )
l/k
ln gl( t/ )k
Una primera aproximacin al problema del ajuste del sistema modular desde un punto
de vista supervisado, es el ajuste de forma individual de cada uno de los mdulos de los que
consta. Esto es factible puesto que es conocido el comportamiento que se espera de cada uno de
ellos. Usando mtodos tan elementales como el simple ensayo y error se ajustaran los
correspondientes parmetros del mdulo.
Qu hacer cuando no se tiene informacin sobre la estructura que debe tomar el
sistema modular? En estos casos una posible solucin es la utilizacin de algoritmos de
bsqueda, como lo son los Algoritmos Genticos, o el mtodo de Monte Carlo 3.
La filosofa del mtodo de Monte Carlo se puede describir en los siguientes pasos:
1. Generar K puntos aleatorios en el espacio de parmetros.
2. Evaluar la bondad del sistema en cada uno de esos puntos.
a. Si en alguno de esos puntos el error cometido en el sistema es menor que una
determinada cota, o se han superado el nmero prefijado de iteraciones del
proceso de bsqueda, el conjunto de parmetros a utilizar ser el definido por el
punto que ofrezca mejores resultados. Ir al paso 3.
b. Si el error en todos los puntos es superior a la cota elegida, se escoge aquel
punto de resultado mejor y se generan de forma aleatoria otros K puntos
prximos a l. Incrementar el nmero de iteraciones en uno, e ir al paso 1.
3. Fin.
La configuracin de parmetros a utilizar sera la del ganador, pero dado que es una
bsqueda aleatoria, todo el proceso debera repetirse un nmero lo suficientemente grande de
veces. El valor final de los parmetros sera, por ejemplo, aquel que haya ofrecido el mejor
resultado entre todas las pruebas realizadas.
En el mtodo de Monte Carlo que se acaba de describir la bsqueda se realizaba
generando puntos al azar dentro del espacio de parmetros, y se escoga aquel punto para el que
el sistema ofreca el mejor comportamiento. Los Algoritmos Genticos [Gol89,Koz93]tambin
se basan en la generacin de un nmero muy elevado de puntos dentro del espacio de
parmetros, para posteriormente calcular la bondad de los sistemas a los que dan origen. En este
mtodo, la bondad o aptitud de cada sistema para cumplir correctamente con su objetivo se
mide a travs de una funcin denominada ``fitness'' en ingls.
Las diferencias comienzan a partir de este punto. De entre todos los sistemas generados
a partir de los distintos puntos en el espacio de parmetros, se hacen dos conjuntos disjuntos: los
que dan buenos resultados y los que dan malos resultados. La poblacin (sistemas) que ofrecen
malos resultados son descartados, y los miembros de la poblacin que ofrecen buenos resultados
se dice que sobreviven. A partir de estos ltimos se genera una nueva poblacin mediante los
mecanismos de seleccin, cruce. inversin, y mutacin.
Por medio de estos mecanismos aparecen varias posibilidades:
conservar los rasgos de la poblacin que ofrece buenos resultados y que esta poblacin
sobreviva, haciendo que estos rasgos se conserven en la siguiente generacin,
aparicin de nuevos rasgos, ya sea por mezcla de los existentes, o por la introduccin de
caractersticas totalmente nuevas que no existan en la poblacin original.
Para poder realizar las operaciones anteriormente descritas, es necesario definir la
funcin fitnness, as como disponer de un mtodo que permita la representacin adecuada de los
parmetros que definen a los distintos sistemas (individuos en la terminologa de los algoritmos
genticos) bajo estudio, y que a la vez permita la realizacin de las operaciones de seleccin,
cruce, inversin y mutacin. De una manera intuitiva, se pueden definir los mtodos de
3 Tambin se podra incluir aqu los mtodos de ajuste basados en la minimizacin de
una funcin coste mediante el uso de los algoritmos del tipo del gradiente decreciente, pero su
aplicacin slo sera adecuada cuando se tratase del ajuste de parmetros de naturaleza
continua, para las que existe el concepto de derivada. En el caso de ajuste de parmetros
discretos, como el nmero de capas en una red neuronal, o el de elementos de proceso en una
capa especfica, carece de sentido este mtodo.
Ilustracin 13: Ejemplos de codificacin para dos reglas en las redes KBANN.
Sistemas Hbridos
Algunos de los sistemas modulares que se han descrito utilizan un conocimiento
apriorstico para establecer la divisin de la tarea objetivo en subtareas, y posteriormente se
asigna un subsistema especfico cuya naturaleza puede ser diferente para cada uno de ellos.
De entre la multitud de paradigmas de redes neuronales artificiales existentes en la
actualidad, se encuentran algunos que en s mismos constituyen sistemas hbridos, y que de
alguna manera combinan diferentes mecanismos de entrenamiento y procesamiento de la
informacin. As, es posible enumerar entre otros:
Redes de Contra Propagacin (``Counter Propagation''). Una primera parte de la red
realiza un aprendizaje no supervisado competitivo, dividiendo el espacio de entradas. Despus
del aprendizaje competitivo, se entrena de forma supervisada el segundo nivel de la red para que
se obtenga la salida deseada.
Redes de Funcin de Base Radial (RBF). Una primera capa est constituida por
elementos que implantan funciones de base radial, cuya activacin es proporcionarl a la
distancia entre la entrada y el centroide de la correspondiente funcin de base radial. El segundo
nivel de la red RBF est constituido por elementos de proceso que aprenden de forma
supervisada a producir la salida deseada a partir de la activacin proporcionada por las
funciones de base radial.
Redes ARTMAP. Estas redes realizan un aprendizaje no supervisado tanto en la
entrada como a la salida, con lo que se pretende obtener un agrupamiento adecuado de los datos.
El entrenamiento supervisado se lleva a cabo en la parte intermedia de la red, siendo su objetivo
el asociar patrones de entrada con patrones de salida.
Ilustracin 14
significativo en dos aspectos: primero el modelo ataca el problema de la relacin temporal entre
los datos que forman la serie manteniendo un estado interno, y segundo, es posible la extraccin
de reglas generales de la red una vez entrenada, posibilitando al usuario humano la
interpretacin de los resultados obtenidos. Las reglas as obtenidas pueden dar origen a un
autmata finito determinista que refleje el funcionamiento del sistema.
El problema a resolver en este ejemplo es efectuar un pronstico sobre la razn de
cambio entre monedas de distintos pases. El sistema de pronstico utilizado se muestra en la
figura 1.14, donde aparece un diagrama que puede considerarse dividido en dos grandes partes:
los dos primeros mdulos encargados del preprocesamiento y adaptacin de los datos de partida,
y los dos ltimos que procesan la informacin y generan el pronstico final.
Los datos de partida son la serie formada por la relacin de cambio entre monedas al
cierre de las sesiones a lo largo de varios das para una moneda en particular: y(k), k= 1, 2,...N.
La primera operacin que se lleva a cabo es la diferenciacin de la serie (k) = y(k) - y(k-1): no
se van a predecir los cambios absolutos, sino su variacin de un da para otro. Para facilitar su
manipulacin reduciendo su rango de variacin, se utiliza una escala de tipo logartmica:
x(k)=signo( (k))(log (| (k)|+1)).
Sobre la serie transformada x(k), k=1,...,N-1 se considera una ventana de d datos que se
va desplazando a lo largo del tiempo. En definitiva se tiene un conjunto de vectores X (k, d),
donde el ancho de la ventana (historia a considerar en cada entrada al sistema de pronstico)
slo fue considerado con dos valores: 1 2.
El mdulo encargado de realizar la cuantificacin, es decir, transformar la serie X (k,d)
en una secuencia de smbolos discretos, es un mapa autoorganizado de Kohonen, que ofrecer
como informacin de salida las coordenadas del nodo con la mxima activacin para cada
vector de entrada que se le presente: S(k)=g (X (k,d)).
Una red recurrente tipo Elman toma la salida del mdulo autoorganizado, se entrena
para realizar la inferencia gramatical oportuna y obtener la prediccin buscada.
Entender la forma de funcionamiento de una red neuronal artificial se puede intentar
mediante la extraccin de reglas. La terna que define un proceso discreto de Markov (estado;
entrada siguiente estado) puede dar origen a un autmata de estados finito, cuyo
funcionamiento ya es determinista, y por lo tanto proporcionara las reglas buscadas. En el
problema que se ha planteado, esto puede ser realizado mediante el agrupamiento de los valores
de activacin de los elementos de proceso de contexto que almacenan el estado del sistema, y a
partir de los estados (clases) detectados, un simple algoritmo puede asignar probabilidades de
transicin entre los distintos estados descubiertos. De forma ms detallada, la activacin de cada
uno de los N elementos de proceso de contexto es dividido en q intervalos de igual tamao,
producindose una particin del espacio de estados en q N zonas o estados. Comenzando por el
estado inicial, se considera que los smbolos de entrada siguen el orden. Si un smbolo de
entrada causa una transicin de estado, entonces se crea un estado del correspondiente autmata
finito determinista, que lleva del estado de partida al nuevo a travs de la transicin descrita y
con el smbolo de entrada correspondiente. Abordar el problema directamente puede ser
intratable ya que el nmero de estados posibles es exponencial q N, y por eso se realiza un
agrupamiento, reduciendo la dimensionalidad del problema.
del mapa de Kohonen: el vector de pesos que lleva asociado, la etiqueta asignada, una serie de
contadores (uno por cada clase con la que se est trabajando), y un coeficiente de confianza o
certeza.
Cada vez que se presenta un vector de activaciones de la correspondiente capa oculta al
mapa, segn el algoritmo de aprendizaje de Kohonen, se busca el nodo del mapa que tiene el
vector de pesos i,j ms parecido en el sentido de distancia eucldea, y se ajusta a l y a los
nodos que lo rodean para que se parezcan ms (ver el apndice B). Cuando ya se ha presentado
todos los datos de entrenamiento, se podra etiquetar el mapa simplemente contando el nmero
de veces que se activa cada nodo con las entradas de las distintas clases. Cada uno de los
contadores asociados a cada nodo almacena el nmero de veces que se ha activado dicho nodo
con cada entrada de la correspondiente clase. La etiqueta asociada ser la de aquella clase cuyo
contador tiene el valor ms alto. El ltimo parmetro, el factor de confianza, mide la certeza que
se tiene sobre el valor de la etiqueta que se le ha asociado. Puede darse la existencia de nodos
que no se han activado nunca, y por lo tanto no tienen etiqueta asociada.
Siguiendo con el ejemplo de la figura en el que slo hay una capa oculta, el proceso de
clculo de la seal error asociada a cada capa oculta se puede describir como sigue:
1. Se presenta al perceptrn multicapa el vector de entradas y se generan las activaciones de la
capa oculta y la salida.
2. El vector de activaciones de la capa oculta es utilizado como entradas al mapa
autoorganizado
asociado.
De entre todos los nodos del mapa que han sido etiquetados con la clase a la que pertenece
la entrada actual al sistema, se escoge aquel que posee la menor distancia eucldea entre su
vector de pesos i,j y el vector de activaciones de la capa oculta. Este elemento de proceso
escogido puede que no sea el que tenga el vector de pesos ms parecido al de activaciones si
se considera todo el mapa (en trminos de distancia eucldea).
3. Se calcula el error en la capa de salida del perceptrn multicapa y por medio del algoritmo
de retropropagacin del error se determina la seal de error en la capa oculta. Sea V BP-error
este valor.
4. El mapa autoorganizado proporciona una seal de error adicional V SOM-error, consistente en la
diferencia entre el valor del vector de activaciones de la capa oculta y el vector de pesos del
nodo ganador del mapa asociado con la misma clase que el dato de entrada. Es posible que
no existan nodos con la etiqueta de la clase a la que pertenece la entrada actual del sistema;
en este caso la nueva seal de error VSOM-error es cero.
De acuerdo con esto, la seal de error asociada a la capa oculta vendr dada por:
Si r t
Si r t
As, el mdulo autoorganizado recibe como entrada las activaciones de los elementos de
proceso de la capa oculta, y es entrenado para etiquetar los casos dudosos a partir de las
activaciones de la capa oculta. Como es natural, slo se emplea cuando el perceptrn multicapa
es incapaz de ofrecer una respuesta clara.
Dos problemas dentro de este mismo rea de investigacin son:
Verificacin del Hablante: consiste en verificar cuando una voz desconocida encaja con el
patrn de voz almacenado de la persona que dice ser.
Identificacin del Hablante: consiste en identificar o clasificar una voz desconocida de
entre un conjunto de voces conocidas.
Muchas de las aproximaciones que se han hecho a estos problemas se basan en la
utilizacin de redes sin realimentacin (``feed-forward''), y por lo tanto toda la dinmica de la
informacin contenida en la seal hablada se pierde. Para evitar este efecto indeseable, muchas
veces esta informacin que es funcin del tiempo es extrada por algoritmos como la
diferenciacin a lo largo del tiempo, o por un anlisis regresivo, todo ello fuera de lnea y
aadida como entrada al sistema, y as el clasificador utiliza la combinacin obtenida como si
fuera un patrn esttico. Sin embargo, la dependencia a una escala de tiempo ms grande no es
recogida por estos mtodos.
El uso de redes recurrentes ofrece un medio para incorporar esta informacin temporal
que se quedaba perdida o enmascarada con otros mtodos, a la vez que conservan la capacidad
como herramientas de clasificacin propia de las redes neuronales. De este modo, la extraccin
de estas caractersticas temporales ya no es necesario realizarla en la etapa de preprocesamiento,
ya que ahora es llevada a cabo de forma natural por la propia red recurrente.
En concreto, en [Mak95] se us una aproximacin muy sencilla al problema de la
identificacin del hablante consistente en la creacin de un mdulo experto en la identificacin
Ilustracin 18
de seales producidas por un hablante especfico. As, por ejemplo, cuando el sistema consiste
en la identificacin de uno entre N posibles hablantes, se tendrn N mdulos, cada uno de ellos
encargado de identificar la seal de uno solo de los N hablantes. Un mecanismo de toma de
decisiones determina cul es la identidad del hablante cuya seal se encuentra en la entrada del
sistema 1.17(a).
Los mdulos de identificacin se construyeron con redes neuronales RTRL (``Real
Time Recurrent Learning''), cuya arquitectura genrica se muestra en la figura 1.17(b). Como
all se puede ver, consiste en una red con una capa de entrada, y una capa de elementos de
proceso totalmente interconectados entre s. Cada salida y Q (t+1) vendr determinada (a travs
de la funcin de activacin f) por la suma ponderada de las entradas (x i (t) y de las salidas
generadas por los elementos de proceso de la capa y j (t). El mecanismo de aprendizaje
propuesto consiste en aplicar el algoritmo del gradiente decreciente.
Gracias al empleo de este mecanismo de modularizacin, se evita la interferencia en el
proceso de aprendizaje a la hora de distinguir entre la seal de los distintos hablantes que
utilizan el sistema.
7.9 Resumen
Los sistemas modulares aplican la conocida tctica de ``divide y vencers'', o si se
prefiere, ``la unin hace la fuerza''. Este ltimo aspecto, el de cooperacin, ya fue utilizado por
Laplace en el siglo XIX al combinar los resultados de varios predictores.
El uso de tcnicas de aprendizaje y funcionamiento hbridas puede ayudar a minimizar
ciertos efectos no deseables inherentes a algunas tcnicas de resolucin de probleas. Este es el
caso del sobreentrenamiento y las redes neuronales tipo perceptrn multicapa entrenadas con
retropropagacin del error.
Gracias a la a combinacin de distintos paradigmas de aprendizaje se abren nuevos
caminos a la investigacin y a la resolucin de problemas que hasta el momento se haban
considerado difciles.
Cuando la estructura de los mdulos con la que se est trabajando es lo suficientemente
regular, como en el caso de los rboles constituidos por expertos todos del mismo tipo, se
pueden disear estrategias de aprendizaje aplicables de manera sistemtica, como los algoritmos
estocsticos o el de maximizacin del valor esperado. En casos ms heterogneos, el diseo del
procedimiento de ajuste de los parmetros debe hacerse de manera especfica para cada
situacin.
Un punto a considerar es que siempre que se disponga de informacin apriorstica
acerca de la descomposicin de la tarea en subtareas ms elementales, debera utilizarse, gracias
a lo cual se podra alcanzar configuraciones de sistemas ms eficientes.
El ajuste de sistemas modulares (nmero, relacin y tipo de los mdulos) es una tarea
compleja, donde pueden aplicarse tcnicas tan elementales como el simple ensayo y error, o
algo ms sistemticas como el Mtodo de Monte Carlo o los Algoritmos Genticos.
Por ltimo, sealar que la extraccin de reglas es un objetivo muy interesante pero poco
factible. En la actualidad existen mtodos para la extraccin de reglas de un sistema ya ajustado,
pero resultan ser unas tcnicas muy poco generalizables, ya que dependen fuertemente de la
naturaleza del problema bajo estudio y del o de los sistemas aplicados.
7.10 Bibliografa
BKHSK93
Egbert J.W. Bors, Herman Kuiper, Bart L.M. Happel, y Ida G. Sprinkhuizen-Kuyper.
Designing
modular
artificial
neural
networks.
Informe tcnico, Departement of Computer Science. Leiden University, 1993.
BSCH94
Mehdi Bazoon, Deborah A. Stacey, Chen Cui, y George Harauz.
A hierarchical artificial neural networks system for the classification of cervical cells.
En Proceedings of the International Congress on Computational Inteligence ICNN'94, Julio
1994.
FGP95
M.
Figueiredo,
F.
Gomide,
y
W.
Pedrycz.
Fuzzy
neurons
and
networks:
Models
and
learning.
ECLA005, 1995.
GLT97
C.
Lee
Giles,
Steve
Lawrence,
y
Ah
Chung
Tsoi.
Rule inference for financial prediction using recurrent neural networks.
En IEEE, editor, Proceedings of IEEE/IAFE Conference on Computational Inteligence for
Financial Engineering. IEEE, 1997.
Gol89
David
E.
Goldberg.
Genetic
Algorithms
in
Search,
Optimization,
and
Machine
Learning.
Addison-Wesley Publishing Company, 1989.
Has94
Sherif
Hashem.
Optimal
linear
combinations
of
neural
networks.
Neural Networks, 1994.
Hay94
Simon
Haykin.
Neural
Networks.
A
Comprehensive
Foundation.
Prentice Hall, 1994.
JJ94
Michael
I.
Jordan
y
Robert
A.
Jacobs.
Hierarchical
mixtures
of
experts
and
the
EM
algorithm.
Neural Computations, 5:181-214, 1994.
KKL92
Teuvo
Kohonen,
Jari
Kangas,
y
Jorma
Laaksomen.
SOM_PAK.
The
Self-Organizing
Map
Program
Package
V1.2.
SOM Programming Team of the Helsinki University, Rakentajamaukio 2 C, SF- 02150 Espoo,
Finland, 1992.
Koh89
Teuvo
Kohonen.
Self-Organization
and
Associative
Memory.
Springer-Verlag, 1989.
Koh95
Ron
Kohavi.
Wrappers for performance enhancement and oblivious decision graphs, 1995.
Koz93
John
R.
Koza.
Genetic
Programming.
MIT Press, 1993.
LYC97
Steve
Lawrence,
Peter
Yianilos,
y
Ingemar
Cox.
Face
recognition
using
mixture-distance
and
raw
images.
International Conference on Systems, Man, and Cybernetics, pginas 2016-2021, 1997.
Mac99
David
J.C.
Mackay.
Information
Theory,
Inference,
and
Learning
Algorithms.
http://wol.ra.phy.cam.ac.uk/mackay, 1999.
Mak95
Man-Way
Mak.
Speaker
identification
using
modular
recurrent
neural
networks.
En Proceedings 4th. IEEE International Conference on Artificial Neural Networks, pginas 1-6,
Junio 1995.
Moe97
Perry
Moerland.
Some
methods
for
training
mixtures
of
experts.
Informe tcnico, Dalle Molle Institute for Perceptive Artificial Intelligence, 1997.
MSJ97
R.
Murray-Smith
y
T.
A.
Johansen,
editores.
Multiple
Model
Approaches
to
Modelling
and
Control.
Taylor and Francis, 1997.
MT94
Ryszard
Michalski
y
Gheorghe
Tecuci,
editores.
Machine
Learning.
A
Multistrategy
Approach.
Morgan Kaufmann Publishers, 1994.
OS93
David
W.
Opitz
y
Jude
W.
Shavlik.
Heuristically
expanding
knowledge-based
neural
networks.
9 Aproximacin Modular
Esta primera seccin se encuentra disponible en un Informe Tcnico del
Departamento de Informtica de la Universidad de Valladolid en:
http://www.infor.uva.es/docs/itdpto/IT-DI-2000-0001.ps
http://www.infor.uva.es/docs/itdpto/IT-DI-2000-0001.ps
9.4.1 Bagging
Bagging (Boosting Averagging) tiene como idea bsica la construccin de un
conjunto (ensemble) de clasificadores base, en los que cada uno es creado usando un
conjunto de datos distintos. Como la disponibilidad de datos suele ser limitada, se
utiliza la tcnica de bootstrapping consistente en crear conjuntos de aprendizaje
usando un procedimiento de muestreo aleatorio donde se permite la repeticin de los
ejemplos.
Una vez construidos los clasificadores existen varias opciones:
Suponiendo que cada clasificador ofrece una etiqueta como resultado, se cuenta el
nmero de clasificadores que ofrecen una determinada etiqueta, y la etiqueta ms
votada es el resultado final.
Si los clasificadores ofrecen algo parecido a una distribucin de probabilidades a
posteriori sobre todo el conjunto de etiquetas, lo que se puede hacer es sumar las ntuplas de salida de todos los clasificadores, y asignar como salida del sistema de
clasificacin la etiqueta de la componente ms alta.
).
Si
5. Crear un nuevo
.
6. La salida final del sistema de clasificacin ser:
(5.1)
, que de
y
son
entrenamiento de
son aquellos en los que discrepan
y
.
Aqu aparece un problema: no se suele tener un Orculo que proporcione un
nmero ilimitado de ejemplos. Aparece as un nuevo algoritmo llamado AdaBoost.M1
(Adaptive Boosting), en el que partiendo de un nmero finito de ejemplos para
entrenamiento, se van extrayendo con repeticin de forma aleatoria
ejemplos que
son usados para entrenar los clasificadores. Con cada nuevo clasificador habr
ejemplos sobre los que los resultados sean correctos, y otros que sean errneamente
clasificados. Aquellos que son errneamente clasificados vern aumentada su
probabilidad de ser escogidos como ejemplos de entrenamiento de los siguientes
clasificadores base. Al final se tendr una secuencia de clasificadores base, cada vez
ms especializados en aprender casos difciles. La salida final ser una suma
ponderada de las salidas, donde el peso ser una funcin del error de clasificacin
ofrecido.
Una modificacin para problemas multiclase es el algoritmo AdaBoost.M2 que
se detalla a continuacin.
Algoritmo AdaBoost.M2: Sea un conjunto de
, con etiquetas
crear
ejemplos de entrenamiento
y un procedimiento para
1. Sea
, es decir,
es el conjunto de
2. Inicializar
, es decir, asigna una probabilidad
inicial de eleccin a cada ejemplo de entrenamiento, de acuerdo al nmero de ejemplos
que no son de esa clase. Tambin se inicializa un ndice
contador de
3. Repetir mientras
o
Crear un clasificador
Probar la hiptesis
Calcular el pseudoerror (pseudoloss):
.
.
(5.2)
Sea
Actualizar la distribucin
:
(5.3)
donde
es una constante de normalizacin, tal que se cumpla que
una distribucin de probabilidad (su suma ha de ser 1.0).
sea
1. donde
es la distancia Eucldea.
6. donde:
(5.9)
Contraste de Hiptesis
10.1.2
10.3.1.1
10.3.2
10.3.3
Planes 2k
10.3.4
Fracciones factoriales
10.3.5
Matriz de Contingencia
10.4.2
Anlisis de errores
Autocorrelacin.
Espectro.
10.5.1
10.5.2
Funciones de coste
10.5.3
Matriz de confusin
10.5.4
Curvas ROC
10.5.5
Curvas DET
10.6.1
10.6.2
Clases frontera
10.6.3
Normalizacin
10.7.2
Codificacin
10.7.2.1
Lineal
10.7.2.2
Continua
10.7.2.3
Circular
10.7.3
Descartar datos
10.7.3.1
Datos perdidos
10.8.1
Tasa de equierror
11 Herramientas
12 Trabajos Prcticos
Referencias Bibliogrficas
[1] Amanda J.C. Sharkey, Combining Artificial Neural Nets. Ensemble and Modular