Curso Doctorado V02

Introduccin al
Diseo de
Experimentos para el
Reconocimiento de
Patrones
4
5
8
9
Introduccin.............................................................................................................................4
1.1 Descripcin del Curso......................................................................................................4
1.2 Objetivos..........................................................................................................................4
1.3 Contenido.........................................................................................................................4
1.4 Metodologa Docente.......................................................................................................4
1.5 Bibliografa Recomendada...............................................................................................4
1.6 El problema de la clasificacin........................................................................................4
1.7 Aplicacin de las tcnicas de clasificacin.......................................................................5
1.8 Mtodos y Herramientas..................................................................................................5
Mtodos Estadsticos...............................................................................................................6
2.1 Introduccin.....................................................................................................................6
2.2 Distribuciones y Funciones de Densidad de Probabilidad ms usuales............................6
2.3 Inferencia Estadstica.......................................................................................................7
2.4 Modelos Lineales.............................................................................................................7
2.5 Modelo de componentes Principales................................................................................7
2.6 Anlisis de conglomerados y Descomposicin de mezclas..............................................7
2.7 Mtodos Bayesianos........................................................................................................7
2.8 Procesos Estocsticos.......................................................................................................7
Redes Neuronales Artificiales................................................................................................10
3.1 Aprendizaje y Generalizacin........................................................................................10
3.2 Dimensiones de la Red...................................................................................................10
3.3 Problemas Linealmente Separables y No Separables.....................................................10
3.4 Perceptrn y Perceptrn Multicapa................................................................................10
3.5 Clasificacin..................................................................................................................10
3.6 RBF................................................................................................................................10
3.7 Componentes Principales y RNA...................................................................................10
3.8 Redes Dinmicas............................................................................................................10
Sistemas Basados en Reglas..................................................................................................12
Reconocimiento No Supervisado...........................................................................................14
5.1 Aprendizaje Competitivo...............................................................................................14
5.2 Mapas Autoorganizados.................................................................................................14
5.3 LVQ...............................................................................................................................14
Series Temporales..................................................................................................................16
6.1 Anlisis de Series Temporales........................................................................................16
6.2 Sistemas Estacionarios...................................................................................................16
6.3 Sistemas Lineales...........................................................................................................16
6.4 Sistemas No Lineales.....................................................................................................16
6.5 Uso de las RNA con Series Temporales.........................................................................16
Sistemas Modulares, Mezcla de Expertos y Sistemas Hbridos.............................................17
7.1 Introduccin. Mdulos, expertos e hibridacin..............................................................17
7.2 Sistemas Globales y Sistemas Locales...........................................................................18
7.3 Ventajas e Inconvenientes de la Aproximacin Modular................................................22
7.4 Estado del Arte...............................................................................................................22
7.5 Ajuste del tamao y estructura de los mdulos..............................................................31
7.6 Ajuste de la Arquitectura Modular.................................................................................32
7.7 Extraccin de reglas del sistema ya ajustado..................................................................36
7.8 Algunos Ejemplos..........................................................................................................39
7.9 Resumen........................................................................................................................44
7.10
Bibliografa................................................................................................................44
Combinacin de Redes Neuronales Artificiales.....................................................................47
Aproximacin Modular..........................................................................................................47
9.1 Sistemas Globales y Sistemas Locales...........................................................................47
9.2 Ventajas e Inconvenientes de la Aproximacin Modular................................................48
9.3 Antecedentes y Descripcin General del Problema........................................................48
9.4
Tcnicas de Combinacin de ClasificadoresCompromiso Sesgo-Varianza (bias-variance)

49
9.5 Adjuntando Probabilidades a Posteriori a las Etiquetas: Etiquetado Borroso.................53
10
Diseo y Evaluacin de Experimentos...............................................................................56
10.1
Inferencia respecto a una poblacin normal...............................................................56
10.2
Comparacin de dos poblaciones normales................................................................56
10.3
Diseo de Experimentos. Diseo Factorial................................................................56
10.4
Validacin del modelo: Anlisis de resultados...........................................................56
10.5
Evaluacin de resultados de RNA..............................................................................56
10.6
RNA: Disear el conjunto de entrenamiento..............................................................56
10.7
Preprocesamiento de los datos...................................................................................57
10.8
Optimizacin de umbrales..........................................................................................57
11
Herramientas......................................................................................................................58
12
Trabajos Prcticos..............................................................................................................59
Referencias Bibliogrficas............................................................................................................60
1 Introduccin
1.1 Descripcin del Curso
Profesores: Quiliano Isaac Moro Sancho, Mara Aranzazu Simn Hurtado.

Calendario: 1 al 5 de marzo, y del 8 al 12 de marzo.
Horario: de 16:30 a 18:30 (aprox.)
Duracin: 30 horas
Crditos: 3
Contenido
o Parte Terica. 50%
o Parte Practica. 50%
Evaluacin por el trabajo prctico entregado.
Herramientas
1.2 Objetivos
Realizar una introduccin al problema genrico del reconocimiento de patrones (clasificacin),
abarcando desde los aspectos fundamentales de tipo terico, a la aplicacin prctica.
1.3 Contenido
a) Parte Terica.
Introduccin
Mtodos estadsticos.
Uso de las Redes Neuronales Artificiales.
Sistemas basados en reglas.
Reconocimiento no supervisado.
Series temporales.
Combinacin de clasificadores.
Otros mtodos.
b) Parte Prctica.
Diseo y Evaluacin de experimentos.
Herramientas.
Trabajo Prctico.
1.4 Metodologa Docente

Se estructura el curso en dos partes bien diferenciadas. En la primera se presentan los
fundamentos tericos, comprendiendo distintas perspectivas del problema,.
La segunda parte consistir en la realizacin de un pequeo trabajo prctico en el que aplicar los
conocimientos tericos tratados. Este apartado incluye como parte esencial del curso, la exposicin
pblica de los resultados obtenidos.
1.5 Bibliografa Recomendada

1.6 El problema de la clasificacin
La clasificacin como un problema genrico:

Reconocimiento de formas.
Deteccin de patrones.
Punto de vista matemtico.
Transformacin de otros problemas a uno de clasificacin:

Clasificacin Prediccin Sntesis
1.7 Aplicacin de las tcnicas de clasificacin

Control
Diagnosis
Construccin de interfaces
Psicologa ?
1.8 Mtodos y Herramientas

Estadsticos
Conexionistas
I.A.
Cada uno con sus herramientas. Aqu se exponen las que estn disponibles en el Departamento.
SNNS,
GES
Matlab
SOM
LVQ
2 Mtodos Estadsticos
2.1 Introduccin
2.1.1 Objetivos de la Estadstica
2.1.2 Estadstica Descriptiva
Referencia: [3][4]
Poblacin.
Variable aleatoria.
Muestras.
Tablas de frecuencias. Distribuciones marginales y condicionales.
Histogramas.
Parmetros de posicin (media, mediana...)
Parmetros de dispersin.
Covarianza y correlacin.
Anlisis de residuos.
Parmetros de simetra.
2.1.3 Conceptos bsicos del Clculo de Probabilidades

Probabilidad, probabilidad condicional y conjunta.
Teorema de Bayes
Distribuciones de probabilidad.
Funciones densidad de probabilidad.
2.2 Distribuciones y Funciones de Densidad de Probabilidad ms

usuales
2.2.1 Distribuciones de Probabilidad
2.2.2 Funciones de Densidad de Probabilidad
Distribucin normal:
1
f ( x)
e
2
( x m )2
2 2
Distribucin 2: suma de cuadrados de distribuciones normales.

Distribucin t de Student: X es normal, Y es 2 de grados de libertad
tX
2.2.3 Teorema Central del Lmite

2.2.4 Distribucin de las Caractersticas Muestrales
Sea una poblacin a cuyos individuos va asociada una variable aleatoria X. Para obtener
conclusiones sobre la distribucin de esta variable se obtiene una muestra aleatoria constituida por N
individuos de la poblacin
De una poblacin es posible a priori obtener una gran cantidad de muestras diferentes. Existe
por tanto una poblacin de posibles muestras, es decir, una poblacin cuyos individuos son dichas
muestras. A cada individuo de dicha poblacin se le puede hacer corresponder diferentes caractersticas
numricas (p.ej. media muestral y desviacin tpica muestral referidas a la muestra considerada), que
por lo tanto, sern nuevas variables aleatorias. La distribucin estadstica de estas nuevas variables
depender de la poblacin muestreada y el tamao de la muestra.
Cualquier funcin de las variables muestrales se denomina estadstico.
En cuanto a la distribucin de las medias muestrales:
Media de las medias muestrales = media de la poblacin.
Varianza de las medias muestrales = varianza de la poblacin / nmero de muestras
En cuanto a la distribucin de las varianzas muestrales:
La media de la varianza muestral es la varianza de la poblacin.
La varianza de las varianzas muestrales tiende a cero cuando el nmero de muestras
tiende a infinito.
2.3 Inferencia Estadstica

Procedimiento que permita obtener conclusiones sobre el valor de una variable aleatoria en la
poblacin a partir de la informacin que hemos obtenido en la muestra.
Muchas tcnicas de inferencia estadstica asumen distribuciones normales en las variables
aleatorias a estudiar. Primero hay que ver si de verdad las poblaciones muestreadas se ajustan a la
normalidad, y para ello lo ms fcil es utilizar tests grficos:
Histogramas. Se necesitan al menos 40 50 datos.
Papel probabilstico.
Primero hacer un anlisis descriptivo de la muestra: calcular diferentes parmetros de la muestra
(media, desviacin estndar, coeficiente de asimetra, coeficiente de curtosis...). Con esto determinamos si
la muestra es normal o no.
A continuacin hagamos un contraste de hiptesis: Supongamos como hiptesis de partida =m.
A esta hiptesis de partida se la llama hiptesis nula H0. Primera idea: cunto ms cercano est m de ,
xm
t N 1
S
N
mejor. Qu se entiende por cercano? Se usa el estadstico t de Student,

Generalmente se rechaza la hiptesis nula si el estadstico t resulta mayor (en valor absoluto) al valor
correspondientes al tN-1(0.05).
2.4 Modelos Lineales

2.5 Modelo de componentes Principales
2.6 Anlisis de conglomerados y Descomposicin de mezclas
2.6.1 K-means
2.7 Mtodos Bayesianos

2.7.1 Inferencia Bayesiana
2.7.2 Modelos de Bayes
2.8 Procesos Estocsticos

Referencia: [4]
2.8.1 Conceptos fundamentales
2.8.1.1 Proceso Estocstico

2.8.1.2 Proceso Estacionario
2.8.2 Procesos de Markov
2.8.2.1 Cadenas de Harkov discretas
3 Redes Neuronales Artificiales

3.1 Aprendizaje y Generalizacin
3.1.1 Sobreentrenamiento
Early Stopping.
3.1.2 Uso del Conjunto de Validacin
3.2 Dimensiones de la Red

Capas.
Elementos de proceso.
Poda.
Crecimiento.
3.3 Problemas Linealmente Separables y No Separables

3.4 Perceptrn y Perceptrn Multicapa
3.5 Clasificacin
3.5.1 Binario
3.5.2 Mltiples
Codificacin.
Uno contra todos.
Uno a uno.
3.5.3 Enfoque bsico

3.5.4 Con redes autoasociativas
3.5.5 Con redes como predictoras
3.6 RBF
3.7 Componentes Principales y RNA
3.8 Redes Dinmicas
3.8.1 Redes con retardos
3.8.2 Redes con realimentacin
4 Sistemas Basados en Reglas
5 Reconocimiento No Supervisado
5.1 Aprendizaje Competitivo
5.2 Mapas Autoorganizados
5.3 LVQ
6 Series Temporales
6.1 Anlisis de Series Temporales
6.1.1 Autocorrelacin y Autocorrelacin Parcial
6.1.2 Anlisis de Fourier
6.1.3 Estacionalidad
6.1.4 Eliminacin de Tendencias
6.2 Sistemas Estacionarios

6.2.1 Tcnicas de Preprocesamiento
6.3 Predicciones Simples y Predicciones Mltiples

[8]
6.4 Medida del Error de Prediccin

[8]
6.5 Sistemas Lineales

6.5.1 Modelos ARMA
6.6 Sistemas No Lineales

6.7 Uso de las RNA con Series Temporales
7 Sistemas Modulares, Mezcla de Expertos y Sistemas

Hbridos
Como es habitual en muchas disciplinas cientficas, previo a la bsqueda de soluciones al
problema que se plantea en cada momento, es razonable y preferible pararse un instante y realizar un
anlisis del problema. El fruto de este anlisis ser una visin de las distintas partes que forman el todo,
habindose transformado la tarea inicial, probablemente compleja, en un conjunto de subtareas ms
elementales, susceptibles de ser abordadas de manera ms sencilla y eficiente. Una vez hecho esto el
problema se transforma en el opuesto: integrar los resultados parciales obtenidos de cada una de esas
subtareas y generar la solucin al problema completo.
En este captulo inicialmente se plantear el problema de poner en prctica un mtodo de ''divide
y vencers`` de forma genrica, buscando alguna estrategia que pueda sistematizar el procedimiento, para
seguidamente presentar algunos mtodos habitualmente utilizados en sistemas basados en la mezcla de
expertos, algunos de ellos basados en tcnicas estadsticas extrapolables a las redes neuronales. En la
ltima parte del captulo se repasarn algunos ejemplos concretos de sistemas que utilizan esta
aproximacin para buscar soluciones.
7.1 Introduccin. Mdulos, expertos e hibridacin

Las redes neuronales se utilizan ampliamente en tareas genricas (especialmente el Perceptrn
Multicapa usando como algoritmo de aprendizaje el de Retropropagacin del Error), o bien en tareas ms
especficas, tpicamente de clasificacin o clustering (cuyo exponente ms habitual entre las redes
neuronales artificiales lo forman los mapas autoorganizados de Kohonen).
Cada una de estas aproximaciones presenta sus ventajas e inconvenientes, y se abre la posibilidad
de combinar ambos aspectos de la computacin conexionista, consiguiendo de alguna manera la unin de
sendas caractersticas: potencial de aprendizaje de los sistemas supervisados junto con el potencial de los
clasificadores no supervisados.
El primer paso para poder aplicar tcnicas de mezclas de expertos es dividir la tarea problema en
subtareas, y posteriormente crear y organizar adecuadamente los subsistemas construidos para permitir la
comunicacin entre ellas y as integrarse como un todo que proporcione la solucin buscada.
La idea de modularidad, al igual que ocurri en los orgenes de la computacin conexionista,
puede haber surgido bajo la inspiracin de los modelos biolgicos. Un examen de las estructuras
fisiolgicas del sistema nervioso en los animales vertebrados revela la existencia de una representacin y
procesamiento modular jerrquica de la informacin, siendo este hecho particularmente evidente en el
crtex visual [Hay94]:
1. En el crtex visual existen mdulos diferenciados, cada uno de ellos especializado en una tarea
especfica. De esta manera, se permite que la arquitectura neuronal de cada mdulo sea ptima para el
tipo de tarea que va a desempear.
2. La estructura creada se replica un nmero muy elevado de veces en la zona del crtex visual.
3. Como punto adicional, es necesario aadir un sistema de coordinacin y reparto de la informacin
(seales) entre los distintos mdulos existentes que posibilite un aprendizaje e integracin correctos.
Tomando como base los indicios biolgicos, una primera aproximacin modular de sistemas
complejos podra ser la descrita por Jacobs y Jordan [JJ94], que implicara dos tipos bien diferenciados
de aprendizaje:
Aprendizaje supervisado, durante el cual un maestro externo suministra para cada estmulo de
entrada la salida correcta. Sin embargo, este maestro no especifica qu mdulo es el que debe
aprender el correspondiente par [estimulo de entrada, salida deseada].
Aprendizaje no supervisado, que bsicamente consiste en un aprendizaje competitivo, en el que los
distintos mdulos compiten por aprender el ejemplo presentado.
Dado el modo de funcionamiento expuesto,

el sistema puede ser representado por un esquema
como el mostrado en la ilustracin 1. En dicha figura
se ven los k mdulos propiamente dichos; cada uno
constituye un experto en una tarea especfica. Un
mdulo especial formado por una red de puertas
(''Gating Network'') es el encargado de coordinar el
funcionamiento de los mdulos durante el
aprendizaje, responsabilizndose de determinar cul
de los k mdulos es el que debe aprender a generar la
respuesta buscada, as como de generarla durante el
funcionamiento del sistema completo. Cada una de
las k salidas de dicho mdulo es un escalar que har
las labores de compuerta para ajustar la influencia o
Ilustracin 1: Sistema Modular [Hay94].
peso que tendr cada uno de los k mdulos en la
formacin de la salida final del sistema. A parte, aparece un mdulo sumador que produce la salida final.
El modelo aqu descrito representa muy bien al caso particular de los sistemas compuestos por
mezcla de gaussianas, en el que cada mdulo i constituye una regla o experto que produce una salida yi,
fruto de un proceso aleatorio cuya funcin de distribucin es gaussiana. El experto es escogido de entre
los dems de acuerdo a la ley de probabilidad, siendo esta probabilidad P(i/x)condicionada al valor del
vector de entradas x que se presente al sistema en cada momento. La salida generada por el sistema ser
una suma ponderada por los valores generados por el mdulo gating network. Es inmediato identificar los
valores gi con las probabilidades P(i/x).
Es posible reinterpretar el modelo de Jacobs-Jordan desde el punto de vista del control de
sistemas, identificando cada experto como el mecanismo encargado del comportamiento de sistema en un
determinado punto de funcionamiento. Esta es la que se denomina aproximacin del punto de
funcionamiento [MSJ97].
El esquema modular que se acaba de exponer, as como el mecanismo de aprendizaje propuesto,
se fundamentan grandemente en hechos fisiolgicos. Sin embargo, por qu habra de confiarse la
asignacin de tareas a cada mdulo experto a un mecanismo de aprendizaje no supervisado, cuando en
muchos casos reales se dispone de informacin para asociar subtareas a mdulos al menos con un cierto
grado de certeza o intuicin? Esto significara que el entrenamiento del sistema modular se podra realizar
completamente en modo supervisado.
En cualquiera de los casos presentados, no se ha especificado la naturaleza final de los
denominados mdulos o expertos, pudindose realizar mediante mltiples posibilidades, como Sistemas
Expertos que utilicen reglas (Inteligencia Artificial), lgica difusa, mtodos estadsticos (como pueden ser
los modelos bayesianos o los modelos ocultos de Markov), redes neuronales, etc.
En el caso ms general, la estructura topolgica que presentase el sistema completo no tendra por
qu limitarse a una jerarqua de dos niveles, siendo posible estructuras ms complejas y genricas, e
incluso cabe la posibilidad de integrar en el mismo sistema mdulos de distinta naturaleza, dndose
origen a los sistemas hbridos, donde tampoco es necesario que todos los mdulos reciban el mismo
conjunto de entradas.
Lamentablemente, cuando se habla de sistemas modulares hbridos en general no es posible
establecer un procedimiento sistemtico para ajustar los parmetros que los definen, como es el caso bien
conocido de la mezcla de gaussianas. Esta desagradable circunstancia es debida a que la asignacin de
tareas a mdulos y el ajuste de cada mdulo dependern de la naturaleza de la tarea en s y de la del
mdulo en cuestin, as como del modo en que se hallen interrelacionados los distintos mdulos.
7.2 Sistemas Globales y Sistemas Locales

A la hora de plantearse la resolucin de un problema generalmente se puede realizar de distintas
maneras:
Abordar el problema de forma global, es decir, como si fuera un todo.
Analizar el problema procurando encontrar cada una de sus partes constituyentes ms simples, y
buscar una solucin para cada una de ellas. Este sera un enfoque local.
A pesar de que las redes neuronales son por su propia naturaleza un sistema modular (el elemento
que se replica es la neurona en un sistema biolgico o el elemento de proceso en una red neuronal
artificial), los primeros modelos que aparecieron, y los que ms se han difundido en su aplicacin son los
paradigmas globales, en los que no se realiza ningn intento por encontrar subtareas, o partes ms
elementales del problema en cuestin.
Hay varios problemas que subyacen en la filosofa de las redes neuronales artificiales como
sistemas globales, relacionados principalmente con una caracterstica que les es inherente, como es el
hecho de son sistemas que aprenden.
El primer punto, que ms que un problema se podra considerar como una situacin ''incmoda``,
es la incapacidad de dichos sistemas en justificar razonadamente (mediante reglas, leyes o algoritmos) la
solucin obtenida, tal como hara un experto humano. Es decir, no hay nada que justifique de una manera
razonada la forma que ha tomado la informacin adquirida durante el proceso de entrenamiento (en el este
caso, los valores de los pesos entre los distintos elementos de proceso). Cmo fiarse de un sistema de
proceso de datos o control del que no se sabe nada acerca de cmo se ha representado internamente la
informacin que es utilizada para resolver el problema propuesto? El sistema de caja negra no es muy
bien aceptado por el usuario final.
En relacin con un modelo muy extendido de redes neuronales artificiales como es el perceptrn
multicapa entrenado con el mtodo de retropropagacin del error, se pueden sealar varias cuestiones:
Dado el algoritmo de entrenamiento empleado (retropropagacin del error), cabe la posibilidad de
alcanzar un mnimo local en la superficie funcin del error, o bien que en la zona en la que se est
evaluando dicha funcin la pendiente sea muy escasa (superficie de error casi plana), producindose
un aprendizaje demasiado lento.
En general, cuando el sistema (la red neuronal) es demasiado grande, el nmero de parmetros a
ajustar durante el entrenamiento es tambin muy elevado. Puede que esta red an siendo capaz de
aprender los ejemplos de entrenamiento, con ejemplos no vistos en la fase de aprendizaje los
resultados sean malos, es decir, el sistema no es capaz de generalizar. Este problema recibe el
nombre de sobreentrenamiento (`òverfitting'') [Mac99,Koh95], y refleja el compromiso existente
entre el sesgo (``bias'') y la varianza. Cuando el nmero de parmetros que definen el sistema es
grande, y el nmero de iteraciones de entrenamiento es tambin muy elevado, el sistema no
solamente modela la relacin entre entrada y salida deseada (sesgo muy pequeo), sino que tambin
modela el ruido que se encuentra mezclado con la seal bajo estudio. Para aliviarlo hay ciertas
alternativas, como pueden ser:
detener el proceso de aprendizaje en un nmero bajo de iteraciones `èarly stopping''), con lo que
no se llega a producir el sobreajuste de los parmetros,
la reduccin del tamao de la red mediante poda, con lo que se reduce el nmero de parmetros
involucrados en el sistema,
utilizar un mtodo incremental, aumentando el nmero de parmetros (elementos de proceso y
conexiones) desde un nivel bajo, hasta alcanzar el grado de respuesta ptimo requerido,
la utilizacin de tcnicas como el ``weight decay'', consistente en definir la actualizacin de los
pesos de las conexiones entre los distintos elementos de proceso imponiendo una condicin de
que sus correspondientes valores absolutos sean lo ms pequeos posibles.
Si bien el primer mtodo parece un poco drstico, ya que se enfrenta al problema del elevado
nmero de parmetros por ajustar dejndolos sin ajustar del todo, el hecho de detener el proceso de
aprendizaje cuando an el nmero de pocas presentadas (iteraciones) es bajo, hace que el tiempo
consumido en esta etapa sea pequeo. La segunda solucin propuesta, la poda, parece ms razonable,
ya que desecha aquellos elementos de proceso que no forman parte relevante de la solucin buscada,
pero hay que tener en cuenta que, una vez que se haya decidido cules sern los elementos de proceso
vctimas de la poda, hay que eliminarlos y volver a entrenar, aumentndose el tiempo de
procesamiento. Algo parecido se puede indicar sobre el mtodo de crecimiento de la red.
Otro problema que aparece es que hay tareas complejas que un solo sistema no puede resolver. Este
problema recibe el nombre de interferencia (``crosstalk''), y tiene dos variantes: la espacial y la
temporal. En ambos casos, los elementos que aprenden (los elementos de proceso en las redes
neuronales artificiales) reciben informacin contradictoria, ya sea de modo simultneo (interferencia
espacial) o en instantes distintos de tiempo (interferencia temporal).
7.2.1 Ejemplos
En este apartado se mostrarn ejemplos en los que se pone de manifiesto la necesidad de alejarse
de un enfoque global y utilizar sistemas modulares a la hora de resolver problemas complejos. Estos
ejemplos se centran sobre todo en la aparicin de interferencia tanto espacial como temporal durante el
aprendizaje de la resolucin de la tarea propuesta.
7.2.1.1 Interferencia Espacial. El problema ``Qu y Dnde'' (``What and

Where'').
El primer ejemplo consiste en la
resolucin de una tarea doble: determinar la
posicin y la forma de un objeto bidimensional.
En concreto, los objetos que se usarn son dos:
uno en forma de ''T'', y otro en forma de ''C'', que
pueden tener cualquiera de las 4 orientaciones
mostradas en la parte izquierda de la ilustracin 2.
En cuanto a la posicin del objeto, se ha limitado
a un retculo de Error! marcador no
definido.4x4, lo que ofrece un total de 4
Ilustracin 2: El problema Qu y Dnde
posiciones distintas (las cuatro esquinas del tal y como se plantea en [BKHSK93].
retculo), pudiendo encontrarse en cualquiera de
sus cuatro posibles orientaciones1, tal y como se
ve en la parte derecha de la misma figura. El problema consiste en dada una situacin como la mostrada
en la parte derecha de la ilustracin 2, el sistema habr de identificar qu tipo de objeto se halla
representado en ella e indicar su posicin (en este caso una ''T'' en la esquina superior izquierda), con
independencia de la orientacin del objeto.
El problema as planteado presenta el efecto de la interferencia espacial cuando se quiere
solucionar de forma global utilizando para ello una nica red neuronal tipo perceptrn multicapa con una
nica capa oculta completamente interconectada con la capa de entrada y de salida. Ms concretamente,
las dificultades aparecen cuando hay que adaptar las conexiones los distintos elementos de proceso de la
capa oculta de tal forma que se satisfagan simultneamente las salidas deseadas para el problema de
identificacin de la forma y de su localizacin en el
retculo. Esta circunstancia se refleja en la
obtencin de un sistema que no es capaz de
solucionar de manera eficiente el problema
planteado (considerando la ineficiencia tanto en
trminos de tamao de la red, el tiempo de
aprendizaje y en la obtencin de las respuestas
correctas).
En [RG95] se propone la divisin de la
capa oculta en dos subcapas, y a partir de ah, cada
subcapa se conecta de forma exclusiva una con las
salidas que proporcionan la identificacin del
objeto y la otra con las salidas que lo localizan,
como se puede ver en la ilustracin 3 2. De esta
Ilustracin 3: Solucin al problema ``Que
manera, las conexiones entre los elementos de y Dnde'' propuesta por [RG95]
proceso de la capa oculta y las correspondientes
salidas slo habr de hacerse responsables de una
tarea.
1 Algunos autores [Rij95,RG95] utilizan un rea de Error!Marcador no definido.5x5.

2 Esta divisin en la prctica da lugar a dos sistemas o mdulos totalmente independientes (salvo
el detalle de que comparten las mismas entradas), uno dedicado a la deteccin de la forma del objeto, y
otro de su posicin.
7.2.1.2 Interferencia Temporal. Aparcar un remolque marcha atrs.

El problema consiste en definir el ngulo de giro del volante de un camin para conseguir llevarlo
a una drsena, todo ello en marcha atrs. El sistema toma como informaciones de entrada el estado del
camin, descrito por la posicin del camin respecto a la drsena (xi,yi) y los ngulos que forman el
remolque con la drsena, la cabina con el remolque y las ruedas con la cabina (parte izquierda de la
ilustracin 4). El objetivo final es colocar el remolque a lo largo del eje Y, de tal forma que el final del
remolque est en el origen de coordenadas (0,0). Los autores R. Jenkins y B. Yuhas propusieron en 1993
descomponer la resolucin del problema en distintas subtareas, siendo todas ellas procesadas
simultneamente:
Subtarea 1: orientacin del remolque; debe girar hasta que el camin est casi perpendicular a la
drsena. Esta subtarea es independiente de la distancia del camin a la drsena, y por lo tanto, slo
necesita como entradas los ngulos de la cabina con el remolque y del remolque con la drsena.
Subtarea 2: dirigir el final del camin hasta llegar a Y=0. Esta tarea es independiente del valor de la
Ilustracin 4: El problema de aparcar un remolque.

coordenada x.
Cada una de estas subtareas se realiza mediante un nico elemento Perceptrn, y se integran los
resultados mediante la simple suma ponderada. Utilizando determinados conocimientos previos se
ajustaron los pesos de las conexiones entre los dos mdulos asociados a cada subtarea, y la estructura
resultante es la mostrada en la parte derecha de la ilustracin 4. Si este problema se hubiera planteado
como un todo, la estructura de la red perceptrn multicapa resultante hubiera tenido 25 elementos de
proceso en la capa oculta. Con este ejemplo, Jenkins y Yuhas queran poner de manifiesto que el
entrenamiento de una red neuronal artificial puede verse enormemente simplificado si se es capaz de
identificar las subtareas en el problema e incorporar dicha informacin en la estructura de la red,
reducindose as la dimensin del espacio de entrada a la red.
7.2.1.3 Navegacin autnoma de un robot

El objetivo es construir un sistema capaz de guiar un robot situado en un entorno desconocido
desde una posicin inicial hacia un objetivo, evitando los obstculos que encuentra en el camino. En esta
tarea se pueden ver dos elementos contrapuestos: alcanzar el objetivo y evitar los obstculos. La solucin
inmediata es establecer la accin a llevar a cabo en todos y cada uno de los distintos estados (situacin y
orientacin) en los que se puede encontrar el robot, lo que conduce a un uso exhaustivo de recursos como
es la memoria del sistema, y adems con toda probabilidad sera incapaz de realizar una generalizacin
para nuevas situaciones de entorno, obstculos y objetivos diferentes.
Un nico mdulo que intente aprender su resolucin no ofrece buenos resultados, y en [FGP95]
se propone el uso de dos mdulos especializados en el cumplimiento de cada uno de las subtareas antes
expuestas. Un tercer mdulo coordina los resultados y genera la salida del sistema.
(a)
(b)
(c)
Ilustracin 5: Navegacin autnoma de un robot. En la figura (a) se presenta el caso de

prioridad en el avance, en la figura (b) se da ms prioridad a evitar los obstculos, y en la (c) se
combinan ambos aspectos.
7.3 Ventajas e Inconvenientes de la Aproximacin Modular

De un modo general, y en una primera aproximacin, ya es posible enumerar algunas de las
ventajas e inconvenientes que ofrecen los enfoques global y local [Has94,Hay94,RG95]:
El uso de una aproximacin local proporciona un aumento de la velocidad de aprendizaje, ya que
cada mdulo experto tiene menor tamao (elementos de proceso), y se encarga de una subtarea, que
por definicin es de resolucin ms sencilla que la tarea global.
Utilizado una aproximacin local resulta mucho ms fcil llegar a comprender la tarea de la que se ha
hecho responsable un mdulo (en el caso de haberse realizado una divisin en subtareas por medio de
un conocimiento apriorstico, este punto resulta evidente).
La aproximacin modular es coherente con las limitaciones de espacio que se presentan en los
modelos biolgicos, ya que no podran dar soporte a sistemas muy complejos (por ejemplo, mantener
una red neuronal con un nmero muy elevado de subcapas y elementos de proceso, cada uno de ellos
totalmente interconectados entre s).
Relativa sencillez de los mdulos constituyentes. Los mdulos expertos no necesitan ser complicados,
ya que tal y como se ha indicado antes, cada subtarea se hace responsable de un subproceso
elemental.
Cada mdulo puede ser construido de manera diferente, de forma que se ajuste a las exigencias de
cada subtarea. Esta idea da paso a los sistemas heterogneos, introducindose de manera intuitiva el
concepto de sistema hbridos.
Si se considera la aproximacin global, el sistema (red) resultante puede alcanzar unas dimensiones
demasiado grandes para poder aprender la tarea global propuesta. Esto dar lugar a un sistema con un
nmero muy elevado de parmetros para ajustar (pesos entre las conexiones), y en consecuencia,
tambin seran necesarios un gran nmero de ejemplos de entrenamiento, corrindose el riesgo de
producirse sobreentrenamiento. Sin embargo, cuando se utiliza una aproximacin modular, los
mdulos que se encargan de resolver cada subtarea tienen una estructura ms simple, un menor
nmero de conexiones y pesos que ajustar, reducindose el problema del sobreentrenamiento.
7.4 Estado del Arte

La idea de combinar las respuestas de ms de un mecanismo de pronstico o estimacin con el fin
de mejorar los resultados obtenidos de manera individual no es nueva. As, es posible remontarse hasta
Laplace en el ao 1818, quien ya propuso la combinacin de varios estimadores. Ya ms recientemente, a
finales de los aos 80, Jacobs y Jordan desarrollaron lo que denominaron arquitectura de mezcla
jerrquica de expertos (HME), que utiliza la tcnica del ``divide y vencers'', segn la cual, se ha de
dividir un sistema complejo en problemas ms sencillos que son resueltos por separado, utilizando para
cada uno de ellos un mdulo (red neuronal). La solucin final se construye mediante un mdulo
denominado ``Gating Network'' o red de puertas. Otras variaciones sobre este mismo esquema han ido
apareciendo a lo largo de los ltimos aos, como puede ser el ``Stacked Generalization'' propuesto por
Wolpert,
En la tarea de aplicar mezcla de mdulos o expertos se puede considerar varios puntos [RG95]:
1. Descomposicin de la tarea principal en subtareas,
2. Determinacin de la naturaleza del mdulo que se asocia a cada subtarea.
Ilustracin 6: Distintos modos de dividir el espacio de entradas segn la red neuronal

artificial usada. Las dos ilustraciones de la izquierda muestran la filosofa seguida por
una red Perceptrn Multicapa, particionando el espacio de entradas por medio de
hiperplanos. Las redes de Funciones de Base Radial utilizan un mtodo diferente,
buscando agrupamientos en las entradas y cubrindolos con funciones de base radial
que luego se superponen las unas a las otras.
3. Organizacin de los mdulos conseguidos segn una arquitectura apropiada, y
4. Establecimiento de las lneas de comunicacin entre dichos mdulos a dos niveles: reparto de la
infornacin durante la etapa de aprendizaje, e integracin de la informacin a la hora de generar la
salida del sistema completo.
Seguidamente se pasar a describir con ms detalle estos puntos.
7.4.1 Descomposicin especfica (`àd hoc'') y descomposicin sistemtica

del entorno
Cuando la tarea principal es bsicamente la resolucin de un problema de clasificacin, es decir,
particionar el espacio de entrada en subespacios segn las propiedades de los objetos (medidas o entradas
al sistema), es bastante natural realizar una divisin en subtareas de acuerdo a las clases o categoras a
detectar. En este caso, en general es indiferente el hecho de realizar una particin en subtareas de manera
no supervisada (por ejemplo con sistemas autoorganizados) o bien de manera supervisada.
Buenos ejemplos de redes neuronales modulares para este tipo de problemas pueden ser:
Redes de Funcin de Base Radial (RBF). Este tipo de redes realizan un agrupamiento
(``clustering'') hiperesfrico del espacio de entrada. El problema de este tipo de sistemas es que al
ir aumentando la dimensionalidad de la funcin objetivo a sintetizar, el nmero de elementos de
proceso (funciones de base radial) a usar aumenta exponencialmente, producindose un sistema
intensivo en memoria.
El modo de entrenamiento del sistema para ajustar el centro del potencial de cada elemento de
proceso RBF es autoorganizado. Si se dispone de conocimiento apriorstico, es posible mejorar el
comportamiento del sistema, reflejndose esta mejora en la mayora de las ocasiones en un

reduccin del nmero de elementos RBF necesarios, lo que implica que cada nodo RBF aumenta
su ``zona de responsabilidad''.
Otra variante es utilizar en vez de RBF un mapa autoorganizado de Kohonen para particionar
el espacio de entrada, y a continuacin un sistema local supervisado, es decir, un nodo experto
que proporcione la salida deseada para cada clase que haya detectado el mapa de Kohonen.
Un modelo que tambin puede ser incluido en este esquema es el constituido por las redes TDNN
(Time Delay Neural Network), en el que los elementos de proceso de la o las capas ocultas no
estn totalmente conectados con los de las capas anteriores, sino que slo reciben un subconjunto
de las seales de las capas previas, lo que da lugar a un conjunto de sistemas locales.
El esquema de procesamiento que se acaba de indicar no siempre es susceptible de ser aplicado.

Simplemente pinsese que se est realizando un agrupamiento o divisin del espacio de entradas en la
mayora de los casos de acuerdo con un criterio de vecindad espacial, es decir, aquellas entradas o
estmulos que se encuentras prximos (por ejemplo segn un criterio de distancia eucldea), sern
asignados al mismo modo o clase. Sin embargo, existen problemas que no permiten usar de manera
razonable ese mismo concepto de distancia; este es el caso de la conduccin de un coche, para el que el
espacio de entradas es tan heterogneo (velocidades, posiciones, ngulos, ...) que no es posible establecer
un agrupamiento razonable de dichas entradas.
El modelo de Jacobs-Jordan [JJ94] ya expuesto en el apartado 1.1 no es capaz de realizar una
divisin del espacio de entradas cuando dicho espacio no es `àgrupable'' en subtareas de manera
autnoma.
En general se puede decir que en el caso de entradas heterogneas ser necesaria la utilizacin de
una descomposicin ``had hoc'' o especfica en la que se utilice un conocimiento previo del
funcionamiento del sistema. En esta descomposicin del problema en subtareas, hay que considerar
siempre las propiedades fsicas o funcionales de dicha tarea, y realizar de acuerdo con estas propiedades
las divisiones oportunas. Obviamente, este reparto en subtareas y mdulos depender de la tarea
problema, y por lo tanto no es generalizable el procedimiento que se alcance.
7.4.2 La comunicacin entre los mdulos

La pregunta a responder en este apartado es Cmo hacer interaccionar los distintos mdulos para
que el sistema completo realice la tarea objetivo? Normalmente esta tarea se lleva a cabo por medio de un
elemento, mdulo, o capa que permite establecer una decisin a la vista de los resultados ofrecidos por los
distintos mdulos.
La comunicacin entre los mdulos se puede describir desde dos puntos de vista:
1. Cmo repartir la informacin durante la etapa de entrenamiento entre los distintos mdulos.
2. Cmo integrar los distintos resultados ofrecidos por los diferentes mdulos constitutivos del
sistema para generar la salida final.
7.4.2.1 Reparto de Informacin

El problema de cmo repartir la informacin durante la etapa de entrenamiento entre los distintos
mdulos es equivalente a determinar qu mdulo debe ajustarse para aprender un determinado ejemplo, y
de qu magnitud debe ser ese ajuste. Pueden destacarse algunas soluciones inmediatas a este problema:
Por un criterio de proximidad. Puede reducirse al caso `èl ganador se lo lleva todo'', o bien puede
haber varios ganadores. Posibles ejemplos de este proceder son los mapas autoorganizados de
Kohonen, los sistemas de mezclas de gaussianas o el modelo de mezcla jerrquica de expertos de
Jacobs-Jordan.
Por una funcin lgica que de acuerdo con el valor o valores de ciertas variables de entrada,
determina de forma nica el mdulo que debe ajustarse.
Como caso particular, en algunos sistemas es posible determinar la existencia de una variable
ndice que permite seleccionar para cada momento el mdulo a ajustar.
Por medio de un autmata de estados finito, que de acuerdo no slo a los valores de las entradas
actuales, sino tambin de acuerdo a una secuencia finita de entradas que la precedieron, determina
el mdulo a ajustar y la cuanta del ajuste.
Por medio de lgica borrosa. Una funcin de pertenencia borrosa determina cul o cules de los
mdulos han de ser ajustados.
Por medio de tcnicas estadsticas. Mediante una distribucin de probabilidad (o una densidad de
probabilidad) se determina qu mdulo ha de ajustarse.
7.4.2.2 Integracin
Una vez efectuado el anlisis del problema, construidos y ajustados los mdulos que se hacen
responsables de su resolucin, es necesario especificar el mecanismo que rena cada uno de las
soluciones parciales alcanzadas para crear la solucin al problema original.
De un modo ms general y, por supuesto, acorde a la manera en que se ha hecho el reparto de la
informacin, se pueden distinguir diferentes mtodos de integracin o combinacin de los mdulos que se
hayan considerado [MSJ97]:
El mecanismo de `èl ganador se lo lleva todo'' slo se puede plantear en aquellos sistemas en los
que los expertos realizan tareas parecidas y ofrecen resultados homogneos, no siendo este el
caso de tareas como el de aparcar un camin, en el que el resultado (el ngulo de giro de las
ruedas) es funcin de la posicin de la cabina y del remolque. Para estos casos, es habitual
encontrarse con un esquema de mdulos
en serie.
Modelos en serie: la salida de un modelo
es utilizada como entrada para el
siguiente.
Mecanismos de votacin: la funcin
softmax Una arquitectura muy simple
para construir sistemas modulares se basa
en la creacin de una batera de mdulos
expertos, cada uno de ellos especializado
en una tarea especfica que ha sido
determinada a priori, y establecer un
sencillo mecanismo de votacin, en el
que cada uno de los mdulos indica con
su salida la certeza (probabilidad a
Ilustracin 4: Mecanismo de votacin.
posteriori) que existe sobre la salida final
a generar conocida la entrada actual en el
sistema. La salida efectiva del sistema
ser la asociada al mdulo experto que ofrezca mayor certeza.
De una manera esquemtica se puede observar esta procedimiento en la ilustracin 7. En
ella aparecen K expertos, cada uno de ellos con una nica salida escalar con la que valoran de
forma independiente unos de otros, si la presente entrada al sistema pertenece o no al tipo para el
que ha sido entrenado cada uno de ellos. As, cuanta mayor certeza se tenga sobre la pertenencia
de dicha entrada al conjunto utilizado en su aprendizaje, ms alta ser la salida que genere el
mdulo.
Pero para que el esquema expuesto tenga sentido, las salidas proporcionadas por cada uno
de los mdulos expertos han de ser equiparadas a probabilidades, es decir, deben cumplir dos
condiciones: que sus valores estn comprendidos entre cero y uno, y que su suma siempre sea
uno. Estas dos condiciones no se dan necesariamente para cualquier tipo de sistema con el que se
construyan los mdulos expertos, por lo que para que ocurra esto ser necesaria la existencia de
una etapa previa a la salida que adapte dichos valores. Una forma de lograrlo es a travs de la
funcin softmax. Si se denomina por i a las salidas o activaciones generadas por cada mdulo
experto, se asocia a cada uno un valor P(i/x) que se obtiene al aplicar la frmula:
P (i / x )
exp(i )
k
j 1
exp( j )
Los valores P(i/x), que hacen las veces de probabilidades, permitirn seleccionar de todos
los expertos aquel que ofrezca la mayor certeza. La salida del sistema ser la etiqueta que se haya
dado a los ejemplos utilizados durante el entrenamiento del experto ganador.
Cuando las etiquetas que se asignan a los expertos representan una variable cuantitativa,
podra tener sentido el ofrecer como resultado final del sistema una combinacin lineal de las
etiquetas asociadas a cada mdulo experto. El peso se cada mdulo en la generacin de la salida
ser proporcional a su probabilidad de xito en el reconocimiento de la entrada como
perteneciente a la clase para la que ha sido entrenado.
La combinacin lineal de resultados slo tiene sentido cuando las salidas de los mdulos son
todas cuantitativas. Este es el esquema propuesto por [Has94] en su combinacin ptima lineal de
redes neuronales mediante minimizacin del error cuadrtico medio ( MSE-OLC).
En un principio se parte de un conjunto de distintas redes neuronales a las cuales se ha entrenado
para la resolucin del mismo problema. La idea subyacente es que combinacin de los distintos
resultados proporcionados por las diferentes redes neuronales permite integrar el conocimiento
adquirido por cada una de ellas, consiguiendo as un aumento en la eficiencia del sistema. Esta
combinacin se hace mediante una suma ponderada de los resultados. El peso del resultado de
cada una de las redes sobre el resultado final es ajustado de forma que el resultado final sea
ptimo en el sentido de minimizar el error cuadrtico medio.
Este sistema tiene dos variantes:
MSE-OLC con restricciones, segn el cual, los coeficientes que ponderan la influencia de
cada red individual sobre la salida final del sistema estn limitados por la condicin de
sumar 1.
MSE-OLC sin restricciones, en el que los coeficientes de peso de cada red sobre la salida
pueden tener cualquier valor.
Mediante Lgica Discreta. Las circunstancias bajo las cuales se selecciona un mdulo para
generar la salida quedan definidas por una funcin lgica. Este mtodo presenta problemas en las
proximidades de las discontinuidades o
transiciones entre las distintas zonas.
Si
se
dispone
de
un
conocimiento previo que plasmado en
una variable ndice es capaz de
identificar el mdulo responsable de la
generacin de la salida, se podra utilizar
un mecanismo multiplexor como el
mostrado en la ilustracin 8.
Usando un Autmata de Estados Finito
que determina el estado siguiente en
funcin de una secuencia finita de los
Ilustracin 5: Mecanismo multiplexor para
estados recorridos hasta el momento. Al seleccionar el mdulo que genera la salida.
igual que en el caso de la lgica discreta,
pueden presentarse problemas en los
instantes de transicin entre un estado y el siguiente.
Por medio de Lgica Borrosa. Se define una funcin de pertenencia difusa que indica el modelo
a utilizar, lo que proporciona una transicin suave entre los modelos al dar mayor o menor peso a
cada modelo en funcin de un conjunto de variables borrosas.
Usando tcnicas probabilsticas. En los tres casos anteriores la transicin entre modelos era
determinista, otra alternativa es utilizar mtodos estadsticos para deducir qu modelo utilizar en
cada instante. En este caso, cada modelo posee una densidad de probabilidad que indica lo
apropiado que es para describir el funcionamiento del sistema en funcin de los datos disponibles.
Ilustracin 6
Otra manera de integrar a los expertos puede llevarse a cabo mediante una jerarqua, estrategia
que principalmente se usa para reducir la complejidad de los problemas, siendo en estos casos bastante
habituales la asignacin de significados a cada experto en trminos de representacin interna de la tarea
problema. La forma habitual de abordar el problema es buscar una variable que pueda describir la
variacin del comportamiento del sistema, con lo que se obtendr una serie de puntos de funcionamiento
que podrn dar origen a los correspondientes modelos y mdulos.
7.4.3 Aprendizaje (ajuste de los mdulos)

El ajuste o aprendizaje de cada uno de los mdulos que conforman el sistema completo, de tal
forma que cada mdulo realice correctamente la subtarea que le ha sido asignada, en el caso de los
sistemass en los que se ha efectuado una descomposicin especfica depender de la naturaleza del
mdulo y de la subtarea que se le haya asignado.
Cuando no existe un conocimiento previo del problema que pueda ayudar a realizar una divisin
en subtareas, la principal cuestin ser cmo realizar esta divisin. Inspirndose como siempre en los
sistema biolgicos, la idea que surge es la del aprendizaje progresivo: dividir la tarea principal en
subtareas, seguidamente aprender a resolver todas las subtareas y por ltimo integrar los resultados de
cada subtarea para resolver el problema original. Este esquema es esencialmente un tipo de aprendizaje
autoorganizado, en el que se desarrolla de forma autnoma una estructura para interactuar con el entorno.
En el caso de descomposicin genrica, que principalmente se lleva a cabo de una manera no
supervisada, hay ciertos procedimientos ampliamente utilizados que se basan en la homogeneidad de los
mdulos involucrados en la construccin del sistema; al ser todos del mismo tipo, el procedimiento a
seguir es sistematizable. A continuacin se presentan dos de estos procedimientos de ajuste, relacionados
ntimamente con la mezcla jerrquica de expertos que representa el modelo de Jacobs-Jordan.
7.4.3.1 Algoritmo da aprendizaje estocstico

Tal y como ya se vio al principio de este captulo, uno de los tipos de sistemas modulares es el de
Jacobs-Jordan. El modelo mostrado en la figura 1.1 se ajustaba fcilmente al caso particular de los
sistemas compuestos por mezcla o superposicin de procesos estocsticos, en el que cada mdulo i
constituye una regla o experto que produce una salida y i, fruto de un proceso aleatorio cuya funcin de
distribucin para muchos casos prcticos suele considerarse gaussiana de media i. Este valor i es el
valor medio de la respuesta deseada y condicionado a conocer el vector de entradas x, con lo que su
valores medios coincidirn: yi=i.
As, se puede escribir la funcin de distribucin de la salida deseada y condicionada al
conocimiento de la entrada x como sigue:
K
P ( y / x ) gi Pi ( y / x )
i 1
donde gi son las correspondientes salidas de las redes de puertas.
P( y / x)
K
1
2
1
g exp yi i
k 2 i
(2 ) i 1
2
Ilustracin 10: El modelo de Jacobs-Jordan. El nodelo aqu mostrado posee dos

niveles de mdulos expertos, y las redes de puertas (gating networks) generan
tantos escalares de salida gi como expertos tengan que controlar.
Para el caso particular de mezcla de gaussianas con matriz de covarianzas identidad, la expresin
anterior quedara como sigue:
Tambin se habl al principio de este captulo de la existencia de sistemas ms genricos, en los

que se dispona de una jerarqua de expertos, tal y como se puede apreciar en la figura 1.10. En esta figura
se representa un modelo jerrquico formado por un rbol de dos niveles de expertos. El primer nivel, que
es el ms profundo, est constituido por K bloques de L expertos cada uno, cuyos resultados se combinan
por varios mdulos de redes de puertas, dando origen a K conglomerados de expertos, y stos a su vez se
combinan por otra red de puertas para generar la salida.
Para este sistema en particular, se considera que cada una de las redes de expertos lleva a sociada
una distribucin de probabilidad P ij, que ser funcin implcita de los parmetros de los que dependa el
experto wij y de las entradas y salidas que se hayan utilizado para su ajuste{(x (t), y(t)), t=1...N}. Las
denominadas redes de puertas del primer nivel generarn un conjunto de salidas {g j/i},i=1...K, j=1...L, y la
red de puertas del segundo nivel generar un conjunto {g i}, i=1...K que en ambos casos dependern de
una serie de parmetros {uji} y {vji} respectivamente, y adems de los pares de entrada y salida deseada
utilizados durante su ajuste. Dado que las salidas de todas las redes de puertas se van a comportar como
distribuciones de probabilidades que ponderan la participacin de cada mdulo experto en la salida final,
los {gi}y { gj/i } habrn de ser todos positivos y sumar uno; una manera de conseguir esto es mediante la
utilizacin de la funcin softmax. As, si se denomina por i a la activacin correspondiente a la salida isima del la red de puertas del segundo nivel, los valores g i se generaran por medio de la frmula:
gi
exp i
exp
j 1
Una frmula anloga se tendra para los coeficientes g j/i.

Ahora podra escribirse una frmula semejante a la 1.2, pero para este nuevo sistema jerrquico a
dos niveles, incluyendo de forma explcita la dependencia con los parmetros de todos los subsistemas:
K
i 1
j 1
P ( y / x , ) gi ( x , vi ) g j / i ( x , v j / i ) Pji ( y / x , w ji )
donde es el conjunto de parmetros que definen el sistema, que incluye los de los expertos wji,
y los de las redes de puertas vi y vji.
Ntese que en el esquema que se acaba de exponer todos los niveles y mdulos reciben como
entrada el mismo vector x.
Previo a la descripcin de algn mtodo de ajuste de los parmetros del sistema, se definen por
cuestiones de notacin las siguientes probabilidades condicionales a posteriori:
L
gi g j / i Pji ( y )
hi
j 1
L
g g
i
i 1
j 1
j /i
Pji ( y )
El valor hi representa la probabilidad de que el agrupamiento i-simo de expertos genere la

respuesta deseada y.
Tambin se define otro conjunto de probabilidades a posteriori, que dan cuenta de la probabilidad
de que el experto j-simo del agrupamiento i-simo genere una determinada salida deseada y:
g j / i Pji ( y )
hj /i
g
j 1
j /i
Pji ( y )
Una manera de medir la bondad de los resultados obtenidos con el sistema es a travs de la
probabilidad de que dado un vector de entrada se obtenga su correspondiente vector de salida asociado. Si
este mismo objetivo se debe cumplir simultneamente para todos los pares de entrada y salida usados en
el ajuste del sistema, un buen parmetro de evaluacin sera el producto de las distribuciones de
probabilidad (ecuacin 1.5) que ofrece el sistema para todos los pares de datos utilizados en el
N
Q P ( y ( t ) / x ( t ) , )
t 1
entrenamiento:
Este parmetro Q recibe el nombre de verosimilitud (``likelihood'' en ingls). Cuanto mayor sea
este parmetro, mayor ser la probabilidad de que el sistema asocie todos los vectores de entrada con sus
correspondientes salidas, y como es natural, durante el proceso de ajuste del sistema, el objetivo ser
hacer mximo su valor, o lo que es equivalente, su logaritmo L
L ln
P( y
t 1
(t )
/ x , ) ln
t 1
(t )
g g
i 1
(t )
i
J 1
(t )
j /i
Pji ( y ( t ) )
Aplicando la regla del gradiente decreciente para el caso de mezcla de gaussianas, y derivando el
coeficiente L con respecto a las correspondientes activaciones se tiene:
La ecuacin
L
hi gi
i
que refleja el hecho de que durante el aprendizaje la red de puertas del nivel superior va
ajustndose de tal forma que las probabilidades a priori g i se van aproximando hacia las
probabilidades a posteriori hi.
La ecuacin
L
hi ( h j / i g j / i )
j / i
que refleja el hecho de que durante el aprendizaje de los conglomerados de expertos las
probabilidades a priori gj/i se van acercando a las probabilidades a posteriori h j/i.
La ecuacin
L
hi h j / i ( y y j / i )
y ji
indica que los mdulos expertos durante el entrenamiento ajustan sus pesos en proporcin
al error cometido en la salida y tambin proporcionalmente a la probabilidad de que el experto en
cuestin genere la salida deseada.
Aplicando a cada una de las ecuaciones anteriores la regla de la cadena, es posible llegar a
conseguir frmulas con las que poder actualizar adecuadamente los pesos de las redes de puertas y cada
uno de los expertos.
En [Hay94] se puede encontrar de forma detallada los pasos a seguir para el entrenamiento de
este tipo de sistemas.
7.4.3.2 El algoritmo de Maximizacin del Valor Esperado (EM)

Otra posible alternativa para el ajuste de los parmetros que definen la mezcla jerrquica de
expertos es el uso del algoritmo de maximizacin del valor esperado (`Èxpectation Maximissation'').
La idea fundamental en el algoritmo EM es que la tarea de maximizar el parmetro L se hace ms
sencilla si pudiera conocerse los valores que toman un conjunto de parmetros que permanecen
desconocidos. As, por ejemplo, la tarea de calcular el valor de la funcin de coste L sera trivial si se
dispusiera de un conjunto Z constituido por {zi} y {zj/i}. Estas variables respectivamente hacen las veces
de etiquetas que identifican para cada vector de entradas x cul es el conglomerado de expertos que debe
tenerse en cuenta en el proceso de generacin de la salida y, y cul de todos los mdulos que forman el
conglomerado i es el que en concreto genera la salida. As se podra definir otro conjunto de variables
1 si es el experto j del conglomerado i el que genera la salida
0 en cualquier otro caso
zij
{zij=zIzj/i}, tal que

Como es obvio, estas variables zi y zj/i no son conocidas, ya que si lo fueran, el problema del
aprendizaje estara resuelto, porque slo se ajustara el mdulo y la conexin oportuna. Gracias a la
introduccin de estas variables, la expresin de L que aparece en la ecuacin 1.9 se puede volver a
escribir como sigue:
gracias a que la variable zij hace que cada trmino producto sea 1 en el caso de que no sea el
experto responsable de esa salida deseada y (y por lo tanto no afecte al resto de trminos del producto), y
L
N
(t )
K L
(t )
(t )
(t )
( gi( t ) g (jt/)i Pji ( y ( t ) )) z ij
g
g
P
(
y
)
ln
i
j / i ji
t 1
J 1
t 1
i 1
i 1 j 1
que valga justamente Pji(y) cuando se trate del mdulo experto correcto. De esta forma la funcin
N
L ln
L zij( t ) ln gi( t ) ln g (jt/)i ln Pji ( y ( t ) )

t 1 i 1 j 1
logaritmo se puede reescribir como suma de logaritmos:

El algoritmo EM se lleva a cabo de forma iterativa en dos pasos:
1. Paso E: clculo de la esperanza matemtica de Error!Marcador no definido. sobre el
conjunto formado por todos los pares de entrenamiento
K
E ( , ( p ) ) E ( L( , Z ) / X ) zij( t ) ln gi( t ) ln g (jt/)i ln Pji ( y ( t ) )

i 1 j 1
donde (p) es la estimacin de los parmetros en la iteracin p, Z es el conjunto de

variables ocultas, y se ha tenido en cuenta adems que E (z ij(t) / X)=hij(t).
2. Paso M: obtener la siguiente estimacin de los parmetros (p+1) que maximice el valor esperado
estimado calculado en la fase E:
( p1) arg max E ( , ( p ) )
3. Este problema de maximizacin se puede reducir a la maximizacin de cada uno de los

tres sumandos ms interiores que aparecen en la ecuacin 1.15. As se tienen las
siguientes operaciones:
( p 1)
ji
arg max h (jit ) ln Pij ( y ( t ) )

w ji
t 1
N
vi( p1) arg max hk( t ) ln g k( t )

vi
t 1 k 1
K
L
(t )
k
t 1 k 1
l 1
N
v (jip1) arg max h

v ji
(t )
l/k
ln gl( t/ )k
En la literatura se pueden encontrar mtodos para resolver estos problemas de

maximizacin, como pueden ser el WLS (``Weighted Least-Squares'')[Moe97], o IRLS
(`Ìteratively Reweighted Least Squares'') [JJ94],
Analizando 1.16, los dos primeros trminos hji ln gi y hji ln gj/i se pueden asimilar
a entropas conjuntas, que mediran la entropa de la distribucin de los patrones x entre los
conglomerados de expertos y los expertos respectivamente. De acuerdo con esta interpretacin,
el valor esperado E se maximiza cuando los conglomerados son mutuamente excluyentes, y
disminuye cuando existen datos de entrada que hacen que se activen simultneamente ms de
un conglomerado. De forma anloga se puede razonar con el segundo trmino para cada uno de
los expertos que forman los conglomerados. En cuanto al tercer trmino, hji Pji(y) indica que
los expertos que ms pesan en el valor de E son aquellos cuya probabilidad h ij es mayor
[Moe97].
7.5 Ajuste del tamao y estructura de los mdulos

Como siempre, no es posible indicar un nico mtodo que determine el nmero de
elementos de capas, elementos de proceso en cada una de ellas, o las conexiones entre ellos.
Algunas tcnicas aplicables se exponen a continuacin.
Los mtodos de poda reducen el nmero de elementos constituyentes de cada mdulo.
Se basan en una vez entrenada la red neuronal artificial, buscar conexiones entre elementos de
proceso que al ser eliminadas produzcan una variacin mnima en el comportamiento de la
respuesta del sistema. Una manera de llevar a cabo esto es mediante el uso de tcnicas como el
``weight decay'', consistente en agregar al algoritmo de actualizacin de pesos durante el
aprendizaje la condicin de minimizar el mdulo de los pesos de las conexiones entre los
elementos de proceso (ver el apndice A). Otra alternativa es observar en el valor de los pesos:
si es prximo a cero, la seal que circule a travs de esa conexin afectar pobremente a la
salida del elemento de proceso receptor, y por lo tanto, es susceptible de ser eliminada. En
cualquier caso, el uso de esta tcnica implica volver a entrenar la red despus de haber
eliminado dicha conexin.
Una alternativa ms para la aplicacin de los mtodos de poda es usar el mtodo
denominado `Òptimal Brain Damage'' propuesto por Le Cun, que bsicamente recalcula la
funcin de error con y sin una determinada conexin (la ausencia de conexin implica que el
peso es nulo). Si se parte de un sistema bien entrenado, la funcin error se estar evaluando en
un mnimo (al menos un mnimo local), y por lo tanto, su expansin en serie de Taylor de
segundo orden ser de la forma E=1/2 hii (ui)2, donde E es la funcin de error, h ii=2 E / ui2
(elemento i-simo de la diagonal del Hessiano) y ui es la variacin que se va a dar al peso bajo
estudio. Puede indicarse [Sva94] que uno de los problemas que conlleva este mtodo es que se
est calculando el cambio en la funcin error antes de volver a entrenar, y que el clculo del
Hessiano es computacionalmente muy costoso.
Los mtodos incrementales se basan en la idea de la ``modularizacin evolutiva'',
consistente en una modificacin del bien conocido algoritmo de correlacin en cascada
(``cascade correlation''). Se parte de un mdulo que es entrenado para responder adecuadamente
Ilustracin 11: Esquema del mtodo Correlacin en Cascada.

a una tarea. Cuando se ha alcanzado una determinada cota de error, se aade un segundo
mdulo en cascada con el primero, y se le entrena para mejorar la respuesta del sistema,
utilizando para ello los resultados generados por el primer mdulo, al que ya no se le modifica
(ahora slo `àprende'' el segundo mdulo). Este esquema se repite aadiendo tantos mdulos
nuevos en serie con los anteriores como sea necesario para alcanzar la cota de error deseada.
Otra alternativa relacionada con los mtodos incrementales son las redes RCE
(Restricted Coulonb Energy) [Tve95]. En ellas se parte de un conjunto de datos (puntos en el
espacio de representacin). Cada elemento de proceso de la capa de entrada de la red neuronal
artificial lleva asociada una hiperesfera en el espacio de entrada cuyo radio representa el entorno
en el que dicho elemento de proceso es activo; si con la primera hiperesfera no es suficiente
para resolver el problema considerado, se le aade un segundo elemento de proceso con su
correspondiente hiperesfera, y se reajustan todas las hiperesferas (centros y radios) que se hayan
construido hasta ese momento, de tal forma que se satisfaga la tarea problema sobre los puntos
considerados. Como se puede ver, se trata de un mecanismo parecido al seguido con las redes
tipo RBF, pero ahora se opera de una manera incremental.
7.6 Ajuste de la Arquitectura Modular

En esta seccin se plantea el problema de cmo ajustar los parmetros libres del sistema
como pueden ser el nmero y tipo de mdulos que lo componen, o la arquitectura que los
relaciona.
Algunos autores estiman el nmero de expertos por el nmero de clases que se pueden
encontrar en el conjunto de datos de entrada. Otros proponen incluir en los propios algoritmos
de aprendizaje mecanismos para definir la estructura modular. As, se tienen los mtodos de
poda y los incrementales que ya han sido descritos para el ajuste de los mdulos individuales.
Muchas veces, cuando se dispone de informacin a priori de la tarea a realizar y del
sistema que da lugar a dicha tarea, es posible llevar a cabo un anlisis del problema planteado
para as descomponerlo en subtareas que son asignadas de manera supervisada a los distintos
mdulos constitutivos, quedando as definido su nmero, funcin y relacin entre ellos.
Cuando no se dispone de este tipo de informacin previa sobre el problema a resolver,
se confiar en el uso de mtodos no supervisados para la determinacin del nmero de mdulos
a usar, su funcin asociada y la relacin que se debe establecer entre ellos.
Si bien la interpretacin razonada de los resultados obtenidos por medio de un enfoque
basado en una asignacin explcita utilizando conocimientos apriorsticos parece inmediata (o al
menos debiera ser posible), la aproximacin no supervisada abre la puerta al descubrimiento de
una interpretacin a posteriori de la funcionalidad de los mdulos usados y de las relaciones
existentes entre ellos, con lo que adems de resolver el problema planteado (generalmente la
sntesis de una funcin desconocida que relacione las entradas con las salidas deseadas), sera
posible obtener informacin acerca del mecanismo interno intrnseco al sistema que genera esa
funcin.
Una primera aproximacin al problema del ajuste del sistema modular desde un punto
de vista supervisado, es el ajuste de forma individual de cada uno de los mdulos de los que
consta. Esto es factible puesto que es conocido el comportamiento que se espera de cada uno de
ellos. Usando mtodos tan elementales como el simple ensayo y error se ajustaran los
correspondientes parmetros del mdulo.
Qu hacer cuando no se tiene informacin sobre la estructura que debe tomar el
sistema modular? En estos casos una posible solucin es la utilizacin de algoritmos de
bsqueda, como lo son los Algoritmos Genticos, o el mtodo de Monte Carlo 3.
La filosofa del mtodo de Monte Carlo se puede describir en los siguientes pasos:
1. Generar K puntos aleatorios en el espacio de parmetros.
2. Evaluar la bondad del sistema en cada uno de esos puntos.
a. Si en alguno de esos puntos el error cometido en el sistema es menor que una
determinada cota, o se han superado el nmero prefijado de iteraciones del
proceso de bsqueda, el conjunto de parmetros a utilizar ser el definido por el
punto que ofrezca mejores resultados. Ir al paso 3.
b. Si el error en todos los puntos es superior a la cota elegida, se escoge aquel
punto de resultado mejor y se generan de forma aleatoria otros K puntos
prximos a l. Incrementar el nmero de iteraciones en uno, e ir al paso 1.
3. Fin.
La configuracin de parmetros a utilizar sera la del ganador, pero dado que es una
bsqueda aleatoria, todo el proceso debera repetirse un nmero lo suficientemente grande de
veces. El valor final de los parmetros sera, por ejemplo, aquel que haya ofrecido el mejor
resultado entre todas las pruebas realizadas.
En el mtodo de Monte Carlo que se acaba de describir la bsqueda se realizaba
generando puntos al azar dentro del espacio de parmetros, y se escoga aquel punto para el que
el sistema ofreca el mejor comportamiento. Los Algoritmos Genticos [Gol89,Koz93]tambin
se basan en la generacin de un nmero muy elevado de puntos dentro del espacio de
parmetros, para posteriormente calcular la bondad de los sistemas a los que dan origen. En este
mtodo, la bondad o aptitud de cada sistema para cumplir correctamente con su objetivo se
mide a travs de una funcin denominada ``fitness'' en ingls.
Las diferencias comienzan a partir de este punto. De entre todos los sistemas generados
a partir de los distintos puntos en el espacio de parmetros, se hacen dos conjuntos disjuntos: los
que dan buenos resultados y los que dan malos resultados. La poblacin (sistemas) que ofrecen
malos resultados son descartados, y los miembros de la poblacin que ofrecen buenos resultados
se dice que sobreviven. A partir de estos ltimos se genera una nueva poblacin mediante los
mecanismos de seleccin, cruce. inversin, y mutacin.
Por medio de estos mecanismos aparecen varias posibilidades:
conservar los rasgos de la poblacin que ofrece buenos resultados y que esta poblacin
sobreviva, haciendo que estos rasgos se conserven en la siguiente generacin,
aparicin de nuevos rasgos, ya sea por mezcla de los existentes, o por la introduccin de
caractersticas totalmente nuevas que no existan en la poblacin original.
Para poder realizar las operaciones anteriormente descritas, es necesario definir la
funcin fitnness, as como disponer de un mtodo que permita la representacin adecuada de los
parmetros que definen a los distintos sistemas (individuos en la terminologa de los algoritmos
genticos) bajo estudio, y que a la vez permita la realizacin de las operaciones de seleccin,
cruce, inversin y mutacin. De una manera intuitiva, se pueden definir los mtodos de
3 Tambin se podra incluir aqu los mtodos de ajuste basados en la minimizacin de
una funcin coste mediante el uso de los algoritmos del tipo del gradiente decreciente, pero su
aplicacin slo sera adecuada cuando se tratase del ajuste de parmetros de naturaleza
continua, para las que existe el concepto de derivada. En el caso de ajuste de parmetros
discretos, como el nmero de capas en una red neuronal, o el de elementos de proceso en una
capa especfica, carece de sentido este mtodo.
codificacin de variables de tipo cuantitativo (por ejemplo el nmero de elementos de proceso

en una red neuronal, o el nmero de capas), pero ya no es tan inmediato cuando se intenta
describir aspectos tales como la arquitectura del sistema modular (los distintos mdulos y su
forma de interconexin, si forman capas o no, si reciben o no sus entradas de todas las salidas
de una capa ya existente, ...).
En [Rij95] se puede encontrar detallado un mtodo basado en lenguajes formales para la
descripcin de la arquitectura de un sistema modular de redes neuronales, as como la de los
operadores genticos que aplicados a una poblacin darn origen a una nueva.
7.6.1.1 El problema ``TC'': ajuste del sistema modular por medio de

los Algoritmos Genticos.
En [BKHSK93,Rij95] se intenta
dar solucin al problema ``Qu y Dnde''
descrito en el apartado 1.2, pero esta vez
usando tcnicas de Algoritmos Genticos
para encontrar la arquitectura ptima. El
procedimiento se inicia generando una
poblacin de redes cuya estructura es
generada aleatoriamente (con un nmero
aleatorio de capas y subcapas, elementos
de proceso y conexiones entre las distintas
subcapas). Mediante un simulador de
redes neuronales artificiales y el algoritmo
de retropropagacin del error se entrenan
las redes de la poblacin y el error
Ilustracin 12: Solucin para la tarea de
residual que se produce al probarlas es
identificacin en el problema TC propuesta
usado como parmetro para seleccionar
por [BKHSK93] que usa algoritmos genticos
aquellas redes (individuos de la poblacin)
para el ajuste de la arquitectura del sistema.
que sern utilizados para dar lugar a la
siguiente generacin mediante las operaciones de seleccin, cruce, inversin y mutacin. Los
experimentos se repitieron 50 veces, y la estructura final resultante para la red encargada de la
identificacin del tipo de objeto despus de 7500 recombinaciones (iteraciones del algoritmo
gentico) se puede observar en la figura 1.12.
Los resultados que se obtuvieron, dada la naturaleza aleatoria de la inicializacin de
pesos y de la generacin de los nuevos individuos, fueron que 45 de las 50 ocasiones en las que
se entren la red, sta ofreci siempre los resultados correctos, mientras que si se utilizaba un
perceptrn multicapa con 6 elementos de proceso en la capa oculta, slo se lleg a un acierto del
100% en 30 de los 50 intentos (el resto de las arquitecturas que se probaron ofrecieron peores
resultados). Una nota curiosa que podra destacarse es que el sistema ganador slo posee 13
entradas de las 16 que cabra esperar. Esto es posible justificarlo teniendo en cuenta que
cualquiera de los objetos (''T'' ''C'' en cualquiera de las posibles posiciones) al ser colocado en
la rejilla de 4x4 se puede identificar con slo 13 de las 16 entradas (los valores de las otras 3
que faltan se pueden calcular perfectamente).
En el ejemplo que se acaba de presentar, cada individuo que se generaba en la nueva
generacin era creado compartiendo ciertas caractersticas arquitectnicas de sus progenitores, a
las que se aadan las que pudieran aparecer por los procedimientos de cruce inversin y
mutacin, es decir, se heredaban ciertos rasgos arquitectnicos, pero en ningn caso se
heredaban los conocimientos que haban adquirido los progenitores; lo que se hereda es la
capacidad de aprendizaje y en consecuencia, de adaptacin al entorno (esto se conoce como el
efecto Baldwin [Rij95]).
Ilustracin 13: Ejemplos de codificacin para dos reglas en las redes KBANN.
Sistemas Hbridos
Algunos de los sistemas modulares que se han descrito utilizan un conocimiento
apriorstico para establecer la divisin de la tarea objetivo en subtareas, y posteriormente se
asigna un subsistema especfico cuya naturaleza puede ser diferente para cada uno de ellos.
De entre la multitud de paradigmas de redes neuronales artificiales existentes en la
actualidad, se encuentran algunos que en s mismos constituyen sistemas hbridos, y que de
alguna manera combinan diferentes mecanismos de entrenamiento y procesamiento de la
informacin. As, es posible enumerar entre otros:
Redes de Contra Propagacin (``Counter Propagation''). Una primera parte de la red
realiza un aprendizaje no supervisado competitivo, dividiendo el espacio de entradas. Despus
del aprendizaje competitivo, se entrena de forma supervisada el segundo nivel de la red para que
se obtenga la salida deseada.
Redes de Funcin de Base Radial (RBF). Una primera capa est constituida por
elementos que implantan funciones de base radial, cuya activacin es proporcionarl a la
distancia entre la entrada y el centroide de la correspondiente funcin de base radial. El segundo
nivel de la red RBF est constituido por elementos de proceso que aprenden de forma
supervisada a producir la salida deseada a partir de la activacin proporcionada por las
funciones de base radial.
Redes ARTMAP. Estas redes realizan un aprendizaje no supervisado tanto en la
entrada como a la salida, con lo que se pretende obtener un agrupamiento adecuado de los datos.
El entrenamiento supervisado se lleva a cabo en la parte intermedia de la red, siendo su objetivo
el asociar patrones de entrada con patrones de salida.
7.7 Extraccin de reglas del sistema ya ajustado

Uno de los puntos dbiles de las redes neuronales artificiales es su incapacidad para
poder justificar razonadamente sus resultados, y en consecuencia, esta situacin da origen a una
desconfianza implcita en el usuario final, cuando estos sistemas son utilizados por el pblico en
general y se se aplican a problemas del mundo real. Si se fuera capaz de extraer reglas
simblicas de las propias redes neuronales que justifiquen su comportamiento, esto
tranquilizara al usuario potencial.
De un modo general, es muy difcil la tarea de extraer reglas de una red neuronal ya
entrenada, y an as, el conocimiento embebido en la red a veces no es completo, por lo que el
proceso de extraccin puede que no produzca un conjunto de reglas del todo correctas. Hay
ciertos tipos de redes neuronales artificiales que hacen fcil la tarea de extraccin de reglas, ya
sea por sus caractersticas arquitectnicas o por las funcionales; y de otro lado, existen
paradigmas de redes en los que esta tarea de extraccin no es tan inmediata. Un tipo especial de
redes que se adapta muy bien a este proceso de extraccin son las KBANN (``Knowledge
Based Artificial Neural Network'') [OS93,MT94,OS94,OS97], de las que conviene aclarar que
sus entradas y salidas son binarias.
El punto de partida de estas redes es la denominada teora de dominio. Se trata de
sistemas inductivos que utilizan un conjunto de reglas aproximadamente correcta inferidas de
un dominio o problema especfico, para intentar describir lo que se conoce sobre dicho dominio.
El algoritmo KBANN traduce cada regla de partida que describe el comportamiento de
un sistema en su equivalente en forma de red neuronal artificial, ofreciendo una primera
aproximacin a la arquitectura y pesos de las conexiones entre los distintos elementos de
proceso, y posteriormente aplica el algoritmo de retropropagacin del error para reajustarla y
refinar su comportamiento.
Ilustracin 14
Ilustracin 15: Diagrama de bloques del procedimiento seguido en [GLT97].

Al aplicar el algoritmo KBANN, las reglas conjuntivas se transforman en redes
neuronales en las que los pesos de los enlaces correspondientes a antecedentes no negados se les
asigna valor + las conexiones con antecedentes negados se les asigna pesos con valor - y el
trmino polarizacin del elemento de proceso que genera el consecuente toma un valor2P-1/
(2), donde P es el nmero de premisas no negadas. En la mayora de los casos, se ha
encontrado que =4 es un valor que ofrece buenos resultados. Para codificar una regla
disyuntiva, KBANN asigna el valor a los pesos a cada enlace con los antecedentes, mientras
que al trmino polarizacin del elemento de proceso que genera el consecuente le asigna el
valor /2. En la figura 1.13 (a) y (b) se puede ver las subestructuras generadas por las reglas que
se indican.
El algoritmo KBANN traduce una coleccin de reglas en una red neuronal tomando
cada regla de forma individual y transformndola en una subred que reproduzca de manera
precisa el comportamiento de dicha regla. Todas las subredes que se hayan ido construyendo se
ensamblan en una red neuronal cuyo comportamiento ha de ser el de la regla completa. Una vez
obtenida la red completa (figura 1.13(c)), se completa con aquellas conexiones que no se
incluyen de forma explicita a travs de las reglas, con un valor de peso aleatorio. A partir de
aqu, y por medio del algoritmo de retropropagacin del error, se ajusta el sistema, confiando en
que el resultado final sea una refinacin del original.
Una vez entrenado el sistema, se puede emprender el camino inverso: examinando los
pesos de las interconexiones entre los distintos elementos de proceso, construir reglas que
justifiquen el comportamiento de la red.
Esta operacin presupone que durante el funcionamiento de la red neuronal las salidas
de todos los elementos de proceso (incluidos los de las capas ocultas) van a ser binarias (cercana
a 0 a 1). Cuando un elemento de proceso tiene una activacin igual a uno, indica que la
premisa que representa es verdadera, y cuando est a 0, se supone que la correspondiente
premisa es falsa. En consecuencia, para la extraccin de reglas slo se necesita examinar los
valores de los pesos asociados con el elemento de proceso.
7.7.1.1 Un ejemplo: extraccin de reglas en prediccin de series

econmicas
Uno de los tipos de redes neuronales artificiales ms utilizados es el perceptrn
multicapa, al que se le han asignado tareas de reconocimiento de patrones en series temporales y
obtenindose resultados aceptables en ellas. Sin embargo, la forma de trabajar de estas redes
obliga a presentar como entrada una ventana temporal sobre los datos, es decir, la red no guarda
internamente ninguna nocin semejante a la de `èstado'', pasando a ser responsabilidad del
diseador el presentar la historia adecuadamente ordenada al sistema de pronstico.
Las redes neuronales recurrentes incluyen de forma natural la nocin de estado gracias a
los diferentes lazos de realimentacin que se establecen en su diseo. Una consecuencia de esto
es que parecen ms adecuadas para tratar con problemas relacionados con la deteccin de
patrones en las series temporales.
El mtodo propuesto en [GLT97,LYC97] consiste en primeramente convertir la serie de
valores de entrada en una secuencia de smbolos de un alfabeto discreto, y alimentar una red
recurrente con estos smbolos adecuadamente codificados, siendo sta la encargada de producir
el pronstico requerido. Este esquema aprovecha la habilidad de las redes neuronales
recurrentes en la extraccin del conocimiento simblico. El uso de la red recurrente es
significativo en dos aspectos: primero el modelo ataca el problema de la relacin temporal entre
los datos que forman la serie manteniendo un estado interno, y segundo, es posible la extraccin
de reglas generales de la red una vez entrenada, posibilitando al usuario humano la
interpretacin de los resultados obtenidos. Las reglas as obtenidas pueden dar origen a un
autmata finito determinista que refleje el funcionamiento del sistema.
El problema a resolver en este ejemplo es efectuar un pronstico sobre la razn de
cambio entre monedas de distintos pases. El sistema de pronstico utilizado se muestra en la
figura 1.14, donde aparece un diagrama que puede considerarse dividido en dos grandes partes:
los dos primeros mdulos encargados del preprocesamiento y adaptacin de los datos de partida,
y los dos ltimos que procesan la informacin y generan el pronstico final.
Los datos de partida son la serie formada por la relacin de cambio entre monedas al
cierre de las sesiones a lo largo de varios das para una moneda en particular: y(k), k= 1, 2,...N.
La primera operacin que se lleva a cabo es la diferenciacin de la serie (k) = y(k) - y(k-1): no
se van a predecir los cambios absolutos, sino su variacin de un da para otro. Para facilitar su
manipulacin reduciendo su rango de variacin, se utiliza una escala de tipo logartmica:
x(k)=signo( (k))(log (| (k)|+1)).
Sobre la serie transformada x(k), k=1,...,N-1 se considera una ventana de d datos que se
va desplazando a lo largo del tiempo. En definitiva se tiene un conjunto de vectores X (k, d),
donde el ancho de la ventana (historia a considerar en cada entrada al sistema de pronstico)
slo fue considerado con dos valores: 1 2.
El mdulo encargado de realizar la cuantificacin, es decir, transformar la serie X (k,d)
en una secuencia de smbolos discretos, es un mapa autoorganizado de Kohonen, que ofrecer
como informacin de salida las coordenadas del nodo con la mxima activacin para cada
vector de entrada que se le presente: S(k)=g (X (k,d)).
Una red recurrente tipo Elman toma la salida del mdulo autoorganizado, se entrena
para realizar la inferencia gramatical oportuna y obtener la prediccin buscada.
Entender la forma de funcionamiento de una red neuronal artificial se puede intentar
mediante la extraccin de reglas. La terna que define un proceso discreto de Markov (estado;
entrada siguiente estado) puede dar origen a un autmata de estados finito, cuyo
funcionamiento ya es determinista, y por lo tanto proporcionara las reglas buscadas. En el
problema que se ha planteado, esto puede ser realizado mediante el agrupamiento de los valores
de activacin de los elementos de proceso de contexto que almacenan el estado del sistema, y a
partir de los estados (clases) detectados, un simple algoritmo puede asignar probabilidades de
transicin entre los distintos estados descubiertos. De forma ms detallada, la activacin de cada
uno de los N elementos de proceso de contexto es dividido en q intervalos de igual tamao,
producindose una particin del espacio de estados en q N zonas o estados. Comenzando por el
estado inicial, se considera que los smbolos de entrada siguen el orden. Si un smbolo de
entrada causa una transicin de estado, entonces se crea un estado del correspondiente autmata
finito determinista, que lleva del estado de partida al nuevo a travs de la transicin descrita y
con el smbolo de entrada correspondiente. Abordar el problema directamente puede ser
intratable ya que el nmero de estados posibles es exponencial q N, y por eso se realiza un
agrupamiento, reduciendo la dimensionalidad del problema.
Ilustracin 16: Sistema hbrido BP-SOM
7.8 Algunos Ejemplos

7.8.1 El sistema hbrido BP-SOM
El sistema BP-SOM [WBH96,WHBP97] es un caso especial entre los sistemas
hbridos, en el que coexisten varios subsistemas (un perceptrn multicapa y uno o ms mapas
autoorganizados de Kohonen) slo durante la etapa de aprendizaje, mientras que una vez
ajustado el sistema completo, se prescinde de los mapas autoorganizados, siendo el perceptrn
multicapa el que procesa la informacin de entrada y ofrece la salida del sistema.
Las redes neuronales tipo perceptrn multicapa entrenadas con el algoritmo de
retropropagacin del error son uno de los paradigmas conexionistas ms utilizados por su
potencia y flexibilidad en la resolucin de problemas genricos. Sin embargo, este tipo de redes
neuronales artificiales posee un problema inherente: la escasa generalizacin cuando se
enfrentan a tareas para las que se usa un conjunto de datos para entrenamiento con ciertas
caractersticas que lo hacen poco adecuado para este propsito. As, el fenmeno del
sobreentrenamiento consiste en la incapacidad de proporcionar respuestas correctas a entradas
desconocidas an habiendo aprendido perfectamente a producir las respuestas correctas con los
ejemplos de entrenamiento. Muchas veces este efecto es debido a causas tales como la
dispersin de los datos utilizados en el entrenamiento, o la existencia de una no linealidad muy
elevada en la tarea propuesta.
El mtodo propuesto en el modelo BP-SOM consiste en la definicin de un nuevo
algoritmo de aprendizaje que tiene como objetivo guiar el aprendizaje de una red perceptrn
multicapa, de tal manera que las activaciones de los elementos de proceso de la capa oculta
producidas por entradas de la misma clase sean lo ms parecidas entre s. Para conseguir esto se
combina la red perceptrn multicapa con un mapa autoorganizado de Kohonen asignado a cada
una de las capas ocultas. Durante el entrenamiento de los pesos de cada capa oculta, tambin es
entrenado el correspondiente mapa autoorganizado, tomando como entrada de ste ltimo las
activaciones de los elementos de proceso de la capa oculta asociada. El error calculado con el
algoritmo de retropropagacin es completado aadindole informacin sobre el mapa adjunto, y
a partir de l se actualizan los pesos. El efecto buscado es que los patrones de activacin de las
capas ocultas generados por entradas de la misma clase sean similares entre s.
En la figura 1.15 se puede observar de forma esquemtica un sistema BP-SOM con una
nica capa oculta. All se detalla la informacin asociada a cada uno de los elementos o nodos
del mapa de Kohonen: el vector de pesos que lleva asociado, la etiqueta asignada, una serie de
contadores (uno por cada clase con la que se est trabajando), y un coeficiente de confianza o
certeza.
Cada vez que se presenta un vector de activaciones de la correspondiente capa oculta al
mapa, segn el algoritmo de aprendizaje de Kohonen, se busca el nodo del mapa que tiene el
vector de pesos i,j ms parecido en el sentido de distancia eucldea, y se ajusta a l y a los
nodos que lo rodean para que se parezcan ms (ver el apndice B). Cuando ya se ha presentado
todos los datos de entrenamiento, se podra etiquetar el mapa simplemente contando el nmero
de veces que se activa cada nodo con las entradas de las distintas clases. Cada uno de los
contadores asociados a cada nodo almacena el nmero de veces que se ha activado dicho nodo
con cada entrada de la correspondiente clase. La etiqueta asociada ser la de aquella clase cuyo
contador tiene el valor ms alto. El ltimo parmetro, el factor de confianza, mide la certeza que
se tiene sobre el valor de la etiqueta que se le ha asociado. Puede darse la existencia de nodos
que no se han activado nunca, y por lo tanto no tienen etiqueta asociada.
Siguiendo con el ejemplo de la figura en el que slo hay una capa oculta, el proceso de
clculo de la seal error asociada a cada capa oculta se puede describir como sigue:
1. Se presenta al perceptrn multicapa el vector de entradas y se generan las activaciones de la
capa oculta y la salida.
2. El vector de activaciones de la capa oculta es utilizado como entradas al mapa
autoorganizado
asociado.
De entre todos los nodos del mapa que han sido etiquetados con la clase a la que pertenece
la entrada actual al sistema, se escoge aquel que posee la menor distancia eucldea entre su
vector de pesos i,j y el vector de activaciones de la capa oculta. Este elemento de proceso
escogido puede que no sea el que tenga el vector de pesos ms parecido al de activaciones si
se considera todo el mapa (en trminos de distancia eucldea).
3. Se calcula el error en la capa de salida del perceptrn multicapa y por medio del algoritmo
de retropropagacin del error se determina la seal de error en la capa oculta. Sea V BP-error
este valor.
4. El mapa autoorganizado proporciona una seal de error adicional V SOM-error, consistente en la
diferencia entre el valor del vector de activaciones de la capa oculta y el vector de pesos del
nodo ganador del mapa asociado con la misma clase que el dato de entrada. Es posible que
no existan nodos con la etiqueta de la clase a la que pertenece la entrada actual del sistema;
en este caso la nueva seal de error VSOM-error es cero.
De acuerdo con esto, la seal de error asociada a la capa oculta vendr dada por:
((1 ) VBPerror ( r VSOM error

VBPerror
VBP SOM error
Si r t
Si r t
donde se han incluido tres parmetros:

que controla la influencia del elemento SOM sobre el aprendizaje. Cuando = 0 el
algoritmo se reduce al de retropropagacin del error, desapareciendo el trmino asociado al
mapa autoorganizado.
r es el factor de confianza que se tiene sobre el elemento ganador en el mapa. Una certeza
elevada sobre el elemento ganador hace que la seal de error generada por el mapa tenga
ms peso sobre la seal de error total.
t es un umbral de confianza, por debajo del cual no se tiene en cuenta el efecto de la seal
de error generada por el mapa en el error total.
Una vez obtenido el valor de la seal error, es posible adaptar los pesos de las
conexiones entre las distintas capas del perceptrn multicapa. Cuando se d por finalizado el
proceso de aprendizaje, simplemente se eliminan los correspondientes mapas autoorganizados,
puesto que la informacin que proporciona a su salida es redundante con la que se obtiene en el
perceptrn multicapa.
Dado que con este sistema se ha buscado una representacin de los vectores de entrada
en las correspondientes capas ocultas en la que se mantenga un criterio de proximidad (vectores
de la misma clase han de tener

representaciones internas en las capas ocultas
similares), podra intentarse extraer reglas
explcitas a partir de la simple inspeccin de
los vectores de entrada que activan cada uno
de los nodos del mapa de Kohonen. En
[WBH96] se presenta el caso particular de una
tarea de clasificacin en la que los vectores de
entrada se componen de una serie de atributos
discretos.
Un ltimo rasgo a destacar del sistema
BP-SOM es que puede ayudar a ajustar el
tamao del perceptrn multicapa [WHBP97].
Supngase que el tamao de partida (nmero
de elementos de proceso en la capa oculta) es
Ilustracin 17
demasiado grande, cabra la posibilidad de
reducir su tamao sin que se vea afectada la
calidad de los resultados.
Considrese un elemento de proceso particular en la capa oculta en una red tipo
perceptrn multicapa; si se observa que sobre el conjunto de ejemplos de entrenamiento su
activacin se mantiene a un nivel aproximadamente constante para cualquier ejemplo de
entrenamiento que se presente a la red (o lo que es lo mismo, la desviacin estndar de su
activacin es baja) indicara que en promedio ese elemento de proceso aportara una entrada a
los elementos de proceso a los que enva su seal que prcticamente se mantiene constante para
todos los ejemplos de entrenamiento, y por lo tanto, podra asimilarse a una entrada constante
con efecto similar a la entrada de polarizacin existente en todos los elementos de proceso
estndar en las redes perceptrn. En consecuencia, dicho elemento de proceso bajo estudio
podra ser eliminado de la red, eso s, hacindose imprescindible una nueva etapa de
entrenamiento para la nueva estructura de la red.
Este efecto de baja desviacin estndar en la activacin de los elementos de proceso de
las capas ocultas se puede observar slo si durante el entrenamiento se fuerza a que entradas de
la misma clase tengan representaciones en las capas ocultas tambin semejantes.
7.8.2 Procesamiento automtico del habla

En [SL94] se propone un sistema hbrido perceptrn multicapa y mapa autoorganizado
para el reconocimiento automtico del habla. Las caractersticas del problema son:
reconocimiento de palabras aisladas, con un vocabulario restringido e independencia del
hablante. Como entrada al sistema se utilizaron 8 espectrogramas de 16 bandas de la seal
emitidas por los locutores.
La salida del perceptrn multicapa consta de diez elementos de proceso, uno por cada
dgito que ha de reconocer, y se entrena para que genere un valor mximo en el elemento de
proceso asociado con la etiqueta correcta. Si se quiere dar una interpretacin probabilstica a
estas salidas, se pueden pasar por una funcin softmax; el dgito pronunciado por el hablante
sera el asociado a la salida de mayor valor de activacin, o lo que es lo mismo, la que ofrece
ms probabilidad de reconocer la entrada como la del dgito asociado.
Sin embargo, cuando el sistema es probado con datos nuevos, es posible que haya varias
salidas con activaciones semejantes, o lo que es lo mismo, con probabilidades parecidas, siendo
imposible ofrecer una identificacin del dgito sin ambigedades. En estos casos entra en
funcionamiento el mapa autoorganizado.
La idea subyacente en este modelo es que en la capa oculta del perceptrn multicapa se
encuentra una representacin simplificada (suponiendo que el nmero de elementos de proceso
en la capa oculta es menor que en la capa de entrada) de la informacin de entrada al sistema, y
que dicha representacin es ms eficiente para realizar con ella las tareas de reconocimiento.
As, el mdulo autoorganizado recibe como entrada las activaciones de los elementos de
proceso de la capa oculta, y es entrenado para etiquetar los casos dudosos a partir de las
activaciones de la capa oculta. Como es natural, slo se emplea cuando el perceptrn multicapa
es incapaz de ofrecer una respuesta clara.
Dos problemas dentro de este mismo rea de investigacin son:
Verificacin del Hablante: consiste en verificar cuando una voz desconocida encaja con el
patrn de voz almacenado de la persona que dice ser.
Identificacin del Hablante: consiste en identificar o clasificar una voz desconocida de
entre un conjunto de voces conocidas.
Muchas de las aproximaciones que se han hecho a estos problemas se basan en la
utilizacin de redes sin realimentacin (``feed-forward''), y por lo tanto toda la dinmica de la
informacin contenida en la seal hablada se pierde. Para evitar este efecto indeseable, muchas
veces esta informacin que es funcin del tiempo es extrada por algoritmos como la
diferenciacin a lo largo del tiempo, o por un anlisis regresivo, todo ello fuera de lnea y
aadida como entrada al sistema, y as el clasificador utiliza la combinacin obtenida como si
fuera un patrn esttico. Sin embargo, la dependencia a una escala de tiempo ms grande no es
recogida por estos mtodos.
El uso de redes recurrentes ofrece un medio para incorporar esta informacin temporal
que se quedaba perdida o enmascarada con otros mtodos, a la vez que conservan la capacidad
como herramientas de clasificacin propia de las redes neuronales. De este modo, la extraccin
de estas caractersticas temporales ya no es necesario realizarla en la etapa de preprocesamiento,
ya que ahora es llevada a cabo de forma natural por la propia red recurrente.
En concreto, en [Mak95] se us una aproximacin muy sencilla al problema de la
identificacin del hablante consistente en la creacin de un mdulo experto en la identificacin
Ilustracin 18
de seales producidas por un hablante especfico. As, por ejemplo, cuando el sistema consiste
en la identificacin de uno entre N posibles hablantes, se tendrn N mdulos, cada uno de ellos
encargado de identificar la seal de uno solo de los N hablantes. Un mecanismo de toma de
decisiones determina cul es la identidad del hablante cuya seal se encuentra en la entrada del
sistema 1.17(a).
Los mdulos de identificacin se construyeron con redes neuronales RTRL (``Real
Time Recurrent Learning''), cuya arquitectura genrica se muestra en la figura 1.17(b). Como
all se puede ver, consiste en una red con una capa de entrada, y una capa de elementos de
proceso totalmente interconectados entre s. Cada salida y Q (t+1) vendr determinada (a travs
de la funcin de activacin f) por la suma ponderada de las entradas (x i (t) y de las salidas
generadas por los elementos de proceso de la capa y j (t). El mecanismo de aprendizaje
propuesto consiste en aplicar el algoritmo del gradiente decreciente.
Gracias al empleo de este mecanismo de modularizacin, se evita la interferencia en el
proceso de aprendizaje a la hora de distinguir entre la seal de los distintos hablantes que
utilizan el sistema.
7.8.3 Diagnstico de enfermedades

Un ejemplo de diagnstico utilizando un sistema modular constituido por varias de
redes neuronales en cascada se puede encontrar en [SHARAL+99]. El autor propone clasificar
los defectos incipientes en el campo visual causados por diversas enfermedades.
Los datos utilizados estn formados por los defectos de sensibilidad (medidos en
decibelios) medidos en 59 puntos del campo visual del ojo humano, as como su desviacin
media (media de los defectos de sensibilidad presentes en cada punto) y la varianza de la
prdida (indica la variacin de la sensibilidad en toda la extensin del campo visual).
En un primer intento de efectuar el diagnstico partiendo de las medidas del campo
visual se utiliz un nico mapa autoorganizado, que una vez entrenado fue etiquetado de tres
maneras diferentes:
Clasificacin en dos categoras: glaucoma y no glaucoma.
Clasificacin en tres categoras: normal, glaucoma y otras patologas.
Clasificacin en cinco categoras: normal, glaucoma, diabetes, cataratas y HTA (Retinopata
Hipertensiva).
Para evaluar la bondad de las clasificaciones se utilizaron dos parmetros: la
sensibilidad y la especificidad. La sensibilidad indica la proporcin de individuos de una
determinada categora detectados como tales, y la especificidad indica la proporcin de
individuos que no pertenecen a esa categora y que no han sido clasificados dentro de ella.
Los resultados obtenidos en este primer intento usando un nico mapa mostraron que,
cuando se utilizan cinco categoras los valores de sensibilidad y especificidad para las categoras
de diabetes, cataratas y HTA eran muy bajos como para considerarse fiables.
Para resolver este problema se desarroll
un algoritmo jerrquico de tres etapas con mapas
autoorganizados
entrenados
de
forma
independiente. En la figura 1.18 se puede ver un
esquema del procedimiento. El vector de entradas
es presentado al primer mapa responsable de la
etapa 1, que lo clasifica en normal o patolgico. Si
el vector es considerado como patolgico por este
primer mdulo, es pasado al segundo mapa, que
discrimina entre los que pertenecen a la categora
de glaucomatoso o no. Si segn el mdulo de la
etapa 2 el vector de datos es no glaucomatoso, este
vector es enviado a la etapa 3 que lo clasifica entre
cataratas, HTA y diabetes.
Ilustracin
19:
Tres
mapas
La evaluacin de los resultados de este
autoorganizados en cascada para el diagnstico
nuevo algoritmo jerrquico indican una gran
del glaucoma.
mejora respecto al uso de un nico mapa,
encontrndose un aumento de la sensibilidad desde aproximadamente 20% en las categoras de
diabetes, cataratas y HTA, a cerca del 80% en las categoras de cataratas y HTA.
Otra referencia de uso de sistemas jerrquicos de redes neuronales artificiales aplicados
al diagnstico puede encontrarse en [BSCH94], donde una jerarqua de redes neuronales tipo
perceptrn multicapa trabajan en cascada para clasificar clulas en distintas categoras que
abarcan desde las no enfermas a las malignas. El objetivo final es evitar en lo posible la
aparicin de falsos negativos, es decir, que clulas malignas sean clasificadas como clulas no
enfermas. Adems de este mtodo de clasificacin mediante una cascada de clasificadores que
filtran los resultados que se van obteniendo, se propone la utilizacin de una red tipo ART2 para
discriminar de entre las 57 caractersticas morfolgicas utilizadas como informaciones de
entrada al sistema cules son aquellas que ms influyen en el diagnstico.
7.9 Resumen
Los sistemas modulares aplican la conocida tctica de ``divide y vencers'', o si se
prefiere, ``la unin hace la fuerza''. Este ltimo aspecto, el de cooperacin, ya fue utilizado por
Laplace en el siglo XIX al combinar los resultados de varios predictores.
El uso de tcnicas de aprendizaje y funcionamiento hbridas puede ayudar a minimizar
ciertos efectos no deseables inherentes a algunas tcnicas de resolucin de probleas. Este es el
caso del sobreentrenamiento y las redes neuronales tipo perceptrn multicapa entrenadas con
retropropagacin del error.
Gracias a la a combinacin de distintos paradigmas de aprendizaje se abren nuevos
caminos a la investigacin y a la resolucin de problemas que hasta el momento se haban
considerado difciles.
Cuando la estructura de los mdulos con la que se est trabajando es lo suficientemente
regular, como en el caso de los rboles constituidos por expertos todos del mismo tipo, se
pueden disear estrategias de aprendizaje aplicables de manera sistemtica, como los algoritmos
estocsticos o el de maximizacin del valor esperado. En casos ms heterogneos, el diseo del
procedimiento de ajuste de los parmetros debe hacerse de manera especfica para cada
situacin.
Un punto a considerar es que siempre que se disponga de informacin apriorstica
acerca de la descomposicin de la tarea en subtareas ms elementales, debera utilizarse, gracias
a lo cual se podra alcanzar configuraciones de sistemas ms eficientes.
El ajuste de sistemas modulares (nmero, relacin y tipo de los mdulos) es una tarea
compleja, donde pueden aplicarse tcnicas tan elementales como el simple ensayo y error, o
algo ms sistemticas como el Mtodo de Monte Carlo o los Algoritmos Genticos.
Por ltimo, sealar que la extraccin de reglas es un objetivo muy interesante pero poco
factible. En la actualidad existen mtodos para la extraccin de reglas de un sistema ya ajustado,
pero resultan ser unas tcnicas muy poco generalizables, ya que dependen fuertemente de la
naturaleza del problema bajo estudio y del o de los sistemas aplicados.
7.10 Bibliografa
BKHSK93
Egbert J.W. Bors, Herman Kuiper, Bart L.M. Happel, y Ida G. Sprinkhuizen-Kuyper.
Designing
modular
artificial
neural
networks.
Informe tcnico, Departement of Computer Science. Leiden University, 1993.
BSCH94
Mehdi Bazoon, Deborah A. Stacey, Chen Cui, y George Harauz.
A hierarchical artificial neural networks system for the classification of cervical cells.
En Proceedings of the International Congress on Computational Inteligence ICNN'94, Julio
1994.
FGP95
M.
Figueiredo,
F.
Gomide,
y
W.
Pedrycz.
Fuzzy
neurons
and
networks:
Models
and
learning.
ECLA005, 1995.
GLT97
C.
Lee
Giles,
Steve
Lawrence,
y
Ah
Chung
Tsoi.
Rule inference for financial prediction using recurrent neural networks.
En IEEE, editor, Proceedings of IEEE/IAFE Conference on Computational Inteligence for
Financial Engineering. IEEE, 1997.
Gol89
David
E.
Goldberg.
Genetic
Algorithms
in
Search,
Optimization,
and
Machine
Learning.
Addison-Wesley Publishing Company, 1989.
Has94
Sherif
Hashem.
Optimal
linear
combinations
of
neural
networks.
Neural Networks, 1994.
Hay94
Simon
Haykin.
Neural
Networks.
A
Comprehensive
Foundation.
Prentice Hall, 1994.
JJ94
Michael
I.
Jordan
y
Robert
A.
Jacobs.
Hierarchical
mixtures
of
experts
and
the
EM
algorithm.
Neural Computations, 5:181-214, 1994.
KKL92
Teuvo
Kohonen,
Jari
Kangas,
y
Jorma
Laaksomen.
SOM_PAK.
The
Self-Organizing
Map
Program
Package
V1.2.
SOM Programming Team of the Helsinki University, Rakentajamaukio 2 C, SF- 02150 Espoo,
Finland, 1992.
Koh89
Teuvo
Kohonen.
Self-Organization
and
Associative
Memory.
Springer-Verlag, 1989.
Koh95
Ron
Kohavi.
Wrappers for performance enhancement and oblivious decision graphs, 1995.
Koz93
John
R.
Koza.
Genetic
Programming.
MIT Press, 1993.
LYC97
Steve
Lawrence,
Peter
Yianilos,
y
Ingemar
Cox.
Face
recognition
using
mixture-distance
and
raw
images.
International Conference on Systems, Man, and Cybernetics, pginas 2016-2021, 1997.
Mac99
David
J.C.
Mackay.
Information
Theory,
Inference,
and
Learning
Algorithms.
http://wol.ra.phy.cam.ac.uk/mackay, 1999.
Mak95
Man-Way
Mak.
Speaker
identification
using
modular
recurrent
neural
networks.
En Proceedings 4th. IEEE International Conference on Artificial Neural Networks, pginas 1-6,
Junio 1995.
Moe97
Perry
Moerland.
Some
methods
for
training
mixtures
of
experts.
Informe tcnico, Dalle Molle Institute for Perceptive Artificial Intelligence, 1997.
MSJ97
R.
Murray-Smith
y
T.
A.
Johansen,
editores.
Multiple
Model
Approaches
to
Modelling
and
Control.
Taylor and Francis, 1997.
MT94
Ryszard
Michalski
y
Gheorghe
Tecuci,
editores.
Machine
Learning.
A
Multistrategy
Approach.
Morgan Kaufmann Publishers, 1994.
OS93
David
W.
Opitz
y
Jude
W.
Shavlik.
Heuristically
expanding
knowledge-based
neural
networks.
En Proceedings of the Thirteenth International Joint Conference on Artificial Inteligence

(IJCAI'93), 1993.
OS94
David
W.
Opitz
y
Jude
W.
Shavlik.
Genetically
refining
topologies
of
knowledge-based
neural
networks.
En Proceedings of the International Symposium on Integrating Khowledge and Neural
Heuristics (ISIKNH'94), 1994.
OS97
David
W.
Opitz
y
Jude
W.
Savlik.
Connectionist theory refinement: Genetically searching the space of network topologies.
Journal of Artificial Inteligence Research, 6, 1997.
RG95
Eric
Ronco
y
Peter
Gawthrop.
Modular
neural
networks:
a
state
of
the
art.
Informe tcnico, Centre for System and Control. University of Glasgow, Glasgow, UK, 1995.
Rij95
Alphen
ann
den
Rijn.
Structure
optimisation
of
modular
neural
network.
Tesis de Maestra, Departement of Computer Science, Leiden University, 1995.
SHARAL+99
Mara Arnzadu Simn Hurtado, Luis Alonso Romero, Alfonso Antn Lpez, Daniel
Bahillo
Prez,
y
Eduardo
S.
de
la
Fuente
Gallego.
Clasifiacin
de
campos
visuales
mediante
redes
neuronales.
Informe tcnico, Proyecto AIRENE. CYTED subprograma VII Electrnica e Informtica
Aplicada. Universidad de Valladolid - Espaa, Mayo 1999.
SL94
Angel
Luis
Snchez
Lzaro.
Redes Neuronales Artificiales Aplicadas al Reconocimiento de Palabras Independiente de
Locutor.
Tesis Doctoral, Departamento de Informtica. Universidad de Valladolid (Espaa), 1994.
Sva94
Claus
Svarer.
Neural
Networks
for
Signal
Processing.
Tesis Doctoral, CONNECT, Electronics Institute, Technical University of Denmark. DK-2800
Lyngby, Denmark, 1994.
Tve95
Donald
R.
Tveter.
The pattern recognition basis of AI - chapter 11, 1995.
WBH96
Ton Weijters, Antal van den Bosch, y H. Jaap van den Herik.
Beahvioural
aspects
of
BP-SOM.
Informe tcnico, MATRIKS / Department of Computer Science. University of Maastricht, 1996.
WHBP97
Ton Weijters, H. Jaap van den Herik, Antal van den Bosch, y Eric Postma.
Avoiding
overfitting
with
BP-SOM.
En 15th International Joint Conference on Artificial Inteligence, pginas 1140 - 1145. Norman
Kaufmann, 1997.
8 Combinacin de Redes Neuronales Artificiales

Dado que el problema que centra este proyecto puede ser reducido a uno de
clasificacin (ms que a uno de regresin), el objetivo ser buscar un sistema (red
neuronal artificial en nuestro caso) que asocie a cada vector de entradas (datos
biomtricos) una etiqueta que identifique al usuario origen de esos datos. Tambin
sera de gran ayuda poder adjuntar a esa etiqueta un factor de certeza, o probabilidad
a posteriori, acerca de la pertenencia del vector de entradas a la correspondiente
etiqueta.
Es posible dar dos enfoques a la tarea: combinacin de tcnicas de
reconocimiento que probablemente involucren datos biomtricos de distinta naturaleza
(por ejemplo voz, huellas dactilares, firmas, caras...), o bien utilizando un nico tipo de
datos (por ejemplo slo firmas) construir un sistema clasificador compuesto por varios
ms sencillos (que por simplicidad supondremos todos de la misma naturaleza, por
ejemplo, todos MLP o todos SOM).
El primer enfoque se aborda en la seccin Aproximacin Modular, y el segundo
en la seccin Tcnicas de Combinacin de Clasificadores.
9 Aproximacin Modular
Esta primera seccin se encuentra disponible en un Informe Tcnico del
Departamento de Informtica de la Universidad de Valladolid en:
http://www.infor.uva.es/docs/itdpto/IT-DI-2000-0001.ps
http://www.infor.uva.es/docs/itdpto/IT-DI-2000-0001.ps
9.1 Sistemas Globales y Sistemas Locales

A la hora de plantearse la resolucin de un problema generalmente se puede
realizar de distintas maneras:
Abordar el problema de forma global, es decir, como si fuera un todo.
Analizar el problema procurando encontrar cada una de sus partes constituyentes ms
simples y buscar una solucin para cada una de ellas. Este sera un enfoque local.
A pesar de que las redes neuronales son por su propia naturaleza un sistema modular (el
elemento que se replica es la neurona en un sistema biolgico o el elemento de proceso en una
red neuronal artificial), los primeros modelos que aparecieron, y los que ms se han difundido
en su aplicacin, son los paradigmas globales, en los que no se realiza ningn intento por
encontrar subtareas, o partes ms elementales del problema en cuestin.
Hay varios problemas que subyacen en la filosofa de las redes neuronales
artificiales como sistemas globales, relacionados principalmente con una caracterstica
que les es inherente, como es el hecho de ser sistemas que aprenden.
El primer punto, que ms que un problema se podra considerar como una
situacin incmoda, es la incapacidad de dichos sistemas en justificar
razonadamente (mediante reglas, leyes o algoritmos) la solucin obtenida, tal como
hara un experto humano. Es decir, no hay nada que justifique de una manera
razonada la forma que ha tomado la informacin adquirida durante el proceso de
entrenamiento (en el este caso, los valores de los pesos entre los distintos elementos
de proceso). Cmo fiarse de un sistema de proceso de datos o control del que no se
sabe nada acerca de cmo se ha representado internamente la informacin que es
utilizada para resolver el problema propuesto? El sistema alcanzado es estable?
Cul es su granularidad? ... El sistema de caja negra no es muy bien aceptado por el
usuario final.
9.2 Ventajas e Inconvenientes de la Aproximacin Modular

De un modo general, y en una primera aproximacin, ya es posible enumerar
algunas de las ventajas e inconvenientes que ofrecen los enfoques global y local
[Has94,Hay94,RG95]:
El uso de una aproximacin local proporciona un aumento de la velocidad de
aprendizaje, ya que cada mdulo experto tiene menor tamao (elementos de proceso), y
se encarga de una subtarea, que por definicin es de resolucin ms sencilla que la tarea
global.
Utilizado una aproximacin local resulta mucho ms fcil llegar a comprender la tarea
de la que se ha hecho responsable un mdulo (en el caso de haberse realizado una
divisin en subtareas por medio de un conocimiento apriorstico, este punto resulta
trivial).
La aproximacin modular es coherente con las limitaciones de espacio que se presentan
en los modelos biolgicos, ya que no podran dar soporte a sistemas muy complejos
(por ejemplo, mantener una red neuronal con un nmero muy elevado de subcapas y
elementos de proceso, cada uno de ellos totalmente interconectados entre s).
Relativa sencillez de los mdulos constituyentes. Los mdulos expertos no necesitan ser
complicados, ya que tal y como se ha indicado antes, cada subtarea se hace responsable
de un subproceso elemental.
Cada mdulo puede ser construido de manera diferente, de forma que se ajuste a las
exigencias de cada subtarea. Esta idea da paso a los sistemas heterogneos,
introducindose de manera intuitiva el concepto de sistema hbridos.
Si se considera la aproximacin global, el sistema (red) resultante puede alcanzar unas
dimensiones demasiado grandes para poder aprender la tarea global propuesta. Esto
dar lugar a un sistema con un nmero muy elevado de parmetros para ajustar (pesos
entre las conexiones), y en consecuencia, tambin seran necesarios un gran nmero de
ejemplos de entrenamiento, corriendose el riesgo de producirse sobreentrenamiento.
Sin embargo, cuando se utiliza una aproximacin modular, los mdulos
que se encargan de resolver cada subtarea tienen una estructura ms simple,
un menor nmero de conexiones y pesos que ajustar, reducindose el
problema del sobreentrenamiento.
9.3 Antecedentes y Descripcin General del Problema

La idea de combinar las respuestas de ms de un mecanismo de pronstico o
estimacin con el fin de mejorar los resultados obtenidos de manera individual no es
nueva. As, es posible remontarse hasta Laplace en el ao 1818, quien ya propuso la
combinacin de varios estimadores. Ya ms recientemente, a finales de los aos 80,
Jacobs y Jordan desarrollaron lo que denominaron arquitectura de mezcla
jerrquica de expertos (HME), que utiliza la tcnica del divide y vencers, segn la
cual, se ha de dividir un sistema complejo en problemas ms sencillos que son
resueltos por separado, utilizando para cada uno de ellos un mdulo (red neuronal). La
solucin final se construye mediante un mdulo denominado Gating Network o red de
puertas. Otras variaciones sobre este mismo esquema han ido apareciendo a lo largo
de los ltimos aos, como puede ser el Stacked Generalization propuesto por
Wolpert,
En la tarea de aplicar mezcla de mdulos o expertos se puede considerar
varios puntos [RG95]:
1. Descomposicin de la tarea principal en subtareas,
2. Determinacin de la naturaleza del mdulo que se asocia a cada subtarea.
3. Organizacin de los mdulos conseguidos segn una arquitectura apropiada, y
4. Establecimiento de las lneas de comunicacin entre dichos mdulos a dos niveles:
reparto de la informacin durante la etapa de aprendizaje, e integracin de la
informacin a la hora de generar la salida del sistema completo.
9.4 Tcnicas de Combinacin de ClasificadoresCompromiso

Sesgo-Varianza (bias-variance)
Una de las primeras caractersticas que se observa en el uso real de las redes
neuronales, es que el conjunto de funciones sintetizables es muy elevado,
dependiendo de:
La naturaleza de cada uno de los elementos de proceso, en concreto de la funcin de
transferencia aplicada a la suma ponderada de sus entradas (incluido el trmino
polarizacin).
La manera en que se hallen interconectados los elementos de proceso para configurar la
red en si (es decir, la arquitectura).
El algoritmo de aprendizaje, as como el modo de funcionamiento (asncrono o
sncrono, dependiendo de la manera en que se actualicen los pesos). Aqu se incluyen
parmetros propios del algoritmo de aprendizaje, tales como las constantes de
aprendizaje, trmino momentum o la constante de regularizacin (relacionada con la
tcnica weight decay).
Los datos especficos que se han utilizado durante la etapa de entrenamiento (y
validacin, si es que existe esta etapa). Distintos conjuntos de datos producirn distintos
conjuntos de pesos, y en consecuencia, distintos sistemas clasificadores.
Si a esto aadimos que en el caso de uso de MLP SOM es un requisito
indispensable, previo al entrenamiento, la inicializacin aleatoria de los pesos de todas
las conexiones, se podra concluir que las RNA son sistemas con una gran varianza
(variabilidad en las soluciones para un mismo problema).
Pero tambin se ha indicado que las RNA son sistemas muy flexibles
(plasticidad), capaces de adaptarse para dar respuestas ms o menos correctas en un
conjunto muy amplio de situaciones. Esto tambin es una consecuencia de la elevada
variabilidad de estos sistemas: siempre hay una red capaz de responder
adecuadamente. As, por ejemplo, en el MLP si la funcin a sintetizar es
suficientemente suave, y hay un nmero suficiente de elementos de proceso en la
capa oculta, al final el proceso de aprendizaje dar como resultado un sistema
correcto. Este es un ejemplo claro de que las RNA son sistemas de muy bajo sesgo.
Debido a esto, se est convirtiendo en algo habitual la utilizacin junto a las
RNA, tcnicas de combinacin de clasificadores, como Boosting, Bagging. o
AdaBoosting, con las que se consigue reducir la varianza sin aumentar el sesgo.
Todas estas tcnicas se basan en la construccin de un conjunto de
clasificadores base con las siguientes propiedades:
No es necesario que los clasificadores base ofrezcan resultados correctos sobre todos
los ejemplos de entrenamiento.
S es necesario que los fallos aparezcan en ejemplos diferentes.
Este segundo punto descarta lo que de forma intuitiva ya se vea venir: los
clasificadores base que se construyan han de ser diferentes (ya sea por ser construidos con
distintos mtodos, o por haber sido entrenado con distintos ejemplos, o por haber sido
inicializado de distinta manera, etc.), ya que si fueran todos los clasificadores base iguales, no
habra variabilidad. La gracia del invento consiste en combinar adecuadamente los resultados
obtenidos por medio de estos clasificadores base.
Algunas Tcnicas Sencillas
9.4.1 Bagging
Bagging (Boosting Averagging) tiene como idea bsica la construccin de un
conjunto (ensemble) de clasificadores base, en los que cada uno es creado usando un
conjunto de datos distintos. Como la disponibilidad de datos suele ser limitada, se
utiliza la tcnica de bootstrapping consistente en crear conjuntos de aprendizaje
usando un procedimiento de muestreo aleatorio donde se permite la repeticin de los
ejemplos.
Una vez construidos los clasificadores existen varias opciones:
Suponiendo que cada clasificador ofrece una etiqueta como resultado, se cuenta el
nmero de clasificadores que ofrecen una determinada etiqueta, y la etiqueta ms
votada es el resultado final.
Si los clasificadores ofrecen algo parecido a una distribucin de probabilidades a
posteriori sobre todo el conjunto de etiquetas, lo que se puede hacer es sumar las ntuplas de salida de todos los clasificadores, y asignar como salida del sistema de
clasificacin la etiqueta de la componente ms alta.
9.4.2 Boosting y AdaBoosting

Existen varios algoritmos de Boosting y AdaBoosting, dependiendo de si se
est tratando con problemas de clasificacin o de regresin, o si se dispone de un
nmero ilimitado de datos o no. Aqu se expondr simplemente la filosofa en la que se
basan todos ellos. En [Sha99] hay una completa y detallada descripcin de estos
algoritmos, a los que se ha hecho una especial aproximacin para su aplicacin a las
redes neuronales artificiales.
Boosting fue originalmente diseado para problemas de clasificacin binarios,
en los que se puede construir clasificadores base con una probabilidad de acierto al
menos mejor que un 50%, es decir, mejor que un simple proceso de clasificacin
aleatoria (un 50% a cada clase).
Algoritmo Boost.1: Sea un Orculo que proporciona m ejemplos de
entrenamiento, y un ClasificadorBase:
1. Conseguir
ejemplos nuevos por medio del Orculo, y entrenar el

con ellos. Sea
(
son datos de la clase
la hiptesis de salida generada por este
=a la vista de los datos de entrada, la hiptesis es que
).
2. Repetir hasta tener

nuvos ejemplos de entrenamiento:
o Lanzar una moneda no cargada al aire.
o Si sale cara: llamar al Orculo y los patrones que se obtengan son enviados al
clasificador
hasta que la respuesta d como resultado un error de
clasificacin; este patrn es aadido al conjunto de entrenamiento de un
segundo
.
Si sale cruz: llamar al Orculo y los ejemplos obtenidos son
enviados hacia
hasta que se obtenga un patrn que sea
correctamente clasificado, que ser agregado como ejemplo de
entrenamiento para el nuevo clasificador
3. Con estos nuevos
datos de entrenamiento, construir un nuevo

.
4. Repetir hasta tener

o
nuevos ejemplos de entrenamiento:
Llamar al Orculo y pasar los patrones obtenidos a travs de
Si
discrepan en la clasificacin, aadir el ejemplo al conjunto de
entrenamiento para un nuevo clasificador

ejemplo.
. En caso contrario, descartar el
5. Crear un nuevo
.
6. La salida final del sistema de clasificacin ser:
(5.1)
Es fcil ver que se han construido tres clasificadores
alguna manera realizan un filtrado del problema: los clasificadores

entrenados con distintos ejemplos. Los ejemplos usados con
pasados por
, que de
y
son
son aquellos que
tienen una probabilidad de error de un 50% o mayor. Los ejemplos de
entrenamiento de
son aquellos en los que discrepan
y
.
Aqu aparece un problema: no se suele tener un Orculo que proporcione un
nmero ilimitado de ejemplos. Aparece as un nuevo algoritmo llamado AdaBoost.M1
(Adaptive Boosting), en el que partiendo de un nmero finito de ejemplos para
entrenamiento, se van extrayendo con repeticin de forma aleatoria
ejemplos que
son usados para entrenar los clasificadores. Con cada nuevo clasificador habr
ejemplos sobre los que los resultados sean correctos, y otros que sean errneamente
clasificados. Aquellos que son errneamente clasificados vern aumentada su
probabilidad de ser escogidos como ejemplos de entrenamiento de los siguientes
clasificadores base. Al final se tendr una secuencia de clasificadores base, cada vez
ms especializados en aprender casos difciles. La salida final ser una suma
ponderada de las salidas, donde el peso ser una funcin del error de clasificacin
ofrecido.
Una modificacin para problemas multiclase es el algoritmo AdaBoost.M2 que
se detalla a continuacin.
Algoritmo AdaBoost.M2: Sea un conjunto de
, con etiquetas
crear
ejemplos de entrenamiento
y un procedimiento para
1. Sea
, es decir,
es el conjunto de
pares (ndice, etiqueta) que permiten localizar las salidas distintas a
2. Inicializar
, es decir, asigna una probabilidad
inicial de eleccin a cada ejemplo de entrenamiento, de acuerdo al nmero de ejemplos
que no son de esa clase. Tambin se inicializa un ndice
contador de
iteraciones y el nmero total de iteraciones a dar al algoritmo
3. Repetir mientras
o
Crear un clasificador
utilizando los datos extrados del conjunto de
entrenamiento utilizando la distribucin

o
o
Probar la hiptesis
Calcular el pseudoerror (pseudoloss):
.
.
(5.2)
Sea
Actualizar la distribucin
:
(5.3)
donde
es una constante de normalizacin, tal que se cumpla que
una distribucin de probabilidad (su suma ha de ser 1.0).
sea
4. Por ltimo se genera la salida del sistema de clasificacin:

(5.4)
Una cuestin importante a tener en cuenta es que estos algoritmos permiten

crear sistemas de clasificacin que convergen hacia un error de clasificacin todo lo
bajo que se quiera (basta con aumentar el nmero de iteraciones
todo lo
necesario); lo que no est garantizado es el poder de generalizacin, que ya depende
de la calidad de los datos y del mtodo de construccin del
9.5 Adjuntando Probabilidades a Posteriori a las Etiquetas:

Etiquetado Borroso
Una manera habitual de utilizar el MLP como clasificador consiste en asignar a
cada posible clase o etiqueta un elemento de proceso en la capa de salida, y entrenar
la red para que aquel elemento de proceso asociado con la clase a la que pertenece el
vector de entrada tenga mxima activacin (prxima a 1.0), y aquellos asociados a las
dems clases tengan activaciones mnimas (prximas a 0.0) 5.1. Si al vector de salidas
generado por la red se le transforma adecuadamente por ejemplo mediante el uso de
la funcin softmax (ver ms adelante), se habra conseguido que el MLP funcionase
como un estimador de probabilidades a posteriori, con lo que se habra asignado a
cada posible clase un grado de certeza una vez conocida la entrada al sistema.
El problema aparece cuando el clasificador base es un mapa autoorganizado
(SOM). El modo de funcionamiento de estos sistemas [Koh97,KKL92] proporciona
como salida un nico valor, la etiqueta asociada al nodo del mapa con menor distancia
entre el vector de entrada y su vector de pesos, lo que en principio no ofrece ninguna
idea acerca de la certeza que se tiene sobre la etiqueta obtenida como salida.
Para solventar esta situacin se ha ideado [MSAGRD01] un procedimiento de
etiquetado borroso para los mapas autoasociativos que se describe a continuacin:
[][width=0.45, clip=true] ./Graf/SingleClassifier [][width=0.45, clip=true]
./Graf/EnsembleClassifier
Figura: La figura (a) muestra el procedimiento seguido

para construir un conjunto de clasificadores. Se da por
supuesto que la salida del clasificador representa una
distribucin de probabilidad a posteriori. Dado que aqu se
trata con RNA cuyos pesos son inicializados de forma
aleatoria, ser preciso repetir varias veces el mismo
experimento con distintas inicializaciones, y luego realizar
un promedio de los resultados. El esquema de cmo se
obtiene el resultado final se puede ver en la figura (b).
Se presenta el vector de entrada
cuerdo a la siguiente frmula:
al papa y se calcula el error asociado a cada nodo, de

(5.5)
1. donde
es la distancia Eucldea.
2. Para cada clase

error ms bajo:
se localiza el nodo ganador, es decir, aquel con el

(5.6)
3. donde es un ndice que recorre los nodos etiquetados como

.
4. La idea original es que los nodos con errores ms bajos son los que ms probablemente
indiquen la clase correcta para la entrada actual. Para poder seguir utilizando este
criterio, se realiza un cambio de signo en el error calculado (errores bajos se

corresponden con probabilidades altas):
(5.7)
5. Como ltimo paso de este procedimiento, se transforma por medio de la funcin

softmax los valores de la ecuacin 5.7 en un nuevo conjunto de valores que ya pueden
ser considerados como una distribucin de probabilidades a posteriori (todos
comprendidos entre 0.0 y 1.0, y su suma es igual a 1.0):
(5.8)
6. donde:
(5.9)
7. La etiqueta asociada con la probabilidad a posteriori ms alta ser la proporcionada

como salida por el clasificador (que coincide, como es de esperar, con el resultado
obtenido con el mtodo indicado en el algoritmo tradicional), salvo que ahora se le ha
agregado a la etiqueta el dato relativo a la probabilidad a posteriori.
[width=0.45, clip=true] ./Graf/FuzzyLabelling
Figura: Esquema en el que se muestra

esquemticamente el procedimiento seguido para asignar a
cada vector de entradas al SOM con un conjunto de
etiquetas, cada una de ellas con su correspondiente grado
de certeza. En la figura superior, se muestra slo la etiqueta
del nodo ganador, que ser la nica respuesta
proporcionada por el mapa: no hay informacin acerca de la
certidumbre que se tiene sobre la salida. En la figura inferior
se muestra el esquema seguido para conseguir un
etiquetado borroso; ahora el resultado no es una nica
etiqueta, sino una distribucin de probabilidades a posteriori
sobre el conjunto de etiquetas utilizado.
Figura: Ejemplo de un etiquetado borroso sobre un

mapa autoorganizado de
nodos. Una vez entrenado y
etiquetado el mapa, se le ha presentado un vector de
entradas nuevo, en este caso de clase tipo B. En cada nodo
se muestra por un lado la etiqueta asociada durante el
entrenamiento y etiquetado (etiquetas B, C, F), y por otro,
en forma de sombreado gris, se muestra el grado de
activacin de cada nodo. As, los nodos con tonos claros son
los que tienen activaciones ms altas, y los de tonos
oscuros los de activaciones ms bajas. Existen tambin
nodos sin etiquetar (nunca resultaron ganadores durante el
proceso de etiquetado). Para cada clase considerada en el
problema, se puede determinar cul es el nodo ganador. As:
para la clase B el nodo ganador est en la fila 1 y columna
5, con un error de 12.501, para la C en la fila 5 columna 6
con un error de 22.784, y para la clase F en la fila 4 y
columna 5, con un error de 19.502. El error ms bajo se
tiene para la clase B, por lo que la etiqueta de salida ser
B, con una probabilidad a posteriori 0.999906, mientras
que las probabilidades a posteriori para las clases C y F
son 0.00003 y 0.00091 respectivamente.
10 Diseo y Evaluacin de Experimentos

Referencia: [4], Captulo 9.
10.1 Inferencia respecto a una poblacin normal

10.1.1
Contraste de Hiptesis
10.1.2
Intervalo de confianza para la media y la varianza
10.2 Comparacin de dos poblaciones normales

10.3 Diseo de Experimentos. Diseo Factorial
10.3.1
Estudio simultneo de 2 variables
10.3.1.1
Efectos Simples: ortogonalidad
10.3.2
Planes factoriales equilibrados
10.3.3
Planes 2k
10.3.4
Fracciones factoriales
10.3.5
Anlisis de Varianza (ANOVA)
Para determinar la influencia de uno o varios factores sobre una variable.
10.4 Validacin del modelo: Anlisis de resultados

10.4.1
Matriz de Contingencia
10.4.2
Anlisis de errores
Autocorrelacin.
Espectro.
10.5 Evaluacin de resultados de RNA

Referencia: [8] captulo 19.
10.5.1
Error cuadrtico medio
10.5.2
Funciones de coste
10.5.3
Matriz de confusin
10.5.4
Curvas ROC
10.5.5
Curvas DET
10.6 RNA: Disear el conjunto de entrenamiento

Referencia: [8] captulo 13.
10.6.1
Tamao de la red y del conjunto de entrenamiento
10.6.2
Clases frontera
10.6.3
Equilibrando las clases
10.7 Preprocesamiento de los datos

10.7.1
Normalizacin
10.7.2
Codificacin
10.7.2.1
Lineal
10.7.2.2
Continua
10.7.2.3
Circular
10.7.3
Descartar datos
10.7.3.1
Datos perdidos
10.8 Optimizacin de umbrales

Referencia: [8] captulo 21
10.8.1
Tasa de equierror
11 Herramientas
12 Trabajos Prcticos
Referencias Bibliogrficas
[1] Amanda J.C. Sharkey, Combining Artificial Neural Nets. Ensemble and Modular
Multi-net Systems, Springer, 1999.

[2] Christopheer M. Bishop, Neural Networks for Pattern Recognition, Oxford
University Press, 1995.

[3] Michael Berthold, David J. Hand (eds.), Intelligent Data Analysis, Springer, 2003.
[4] Rafael Romero Villafranca, Luisa Znica Ramajo, Estadstica Diseo de Experimentos
Modelos de Regresin, Proyecto de Innovacin Educativa, Universidad Politcnica de

Valencia, 1993.
[5] Randy Haupt, Sue Ellen Hupt, Practical Genetic Algoritms, John Wiley & Sons,
1998.
[6] Richard A. Johnson & Dean W. Wichern, Applied Multivariate Statistical Analysis,
Prentice Hall, 1992.
[7] Siegmund Brandt. Statistical and Computational Methods in Data Analysis, NorthHolland Publishing Company, 1989.
[8] Timothy Masters, Practical Neural Network Recipes in C++, Morgan Kauffman,
[9] Willian T. Vetterling. Numerical Recipes in C: The Art of Scientific Computing.
Cambridge University Press, 1997.
[10] Ian H. Witten, Eibe Prank, Data Mining. Morgan Kaufmann Publishers, 2000.

Curso Doctorado V02

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Curso Doctorado V02

Cargado por

Copyright:

Formatos disponibles

Introduccin al

Tcnicas de Combinacin de ClasificadoresCompromiso Sesgo-Varianza (bias-variance)

Profesores: Quiliano Isaac Moro Sancho, Mara Aranzazu Simn Hurtado.

1.4 Metodologa Docente

1.5 Bibliografa Recomendada

La clasificacin como un problema genrico:

Transformacin de otros problemas a uno de clasificacin:

1.7 Aplicacin de las tcnicas de clasificacin

1.8 Mtodos y Herramientas

2.1.3 Conceptos bsicos del Clculo de Probabilidades

2.2 Distribuciones y Funciones de Densidad de Probabilidad ms

Distribucin 2: suma de cuadrados de distribuciones normales.

2.2.3 Teorema Central del Lmite

2.3 Inferencia Estadstica

mejor. Qu se entiende por cercano? Se usa el estadstico t de Student,

2.4 Modelos Lineales

2.7 Mtodos Bayesianos

2.8 Procesos Estocsticos

2.8.1 Conceptos fundamentales

2.8.1.1 Proceso Estocstico

2.8.2.1 Cadenas de Harkov discretas

3 Redes Neuronales Artificiales

3.1.2 Uso del Conjunto de Validacin

3.2 Dimensiones de la Red

3.3 Problemas Linealmente Separables y No Separables

3.5.3 Enfoque bsico

4 Sistemas Basados en Reglas

6.2 Sistemas Estacionarios

6.3 Predicciones Simples y Predicciones Mltiples

6.4 Medida del Error de Prediccin

6.5 Sistemas Lineales

6.6 Sistemas No Lineales

7 Sistemas Modulares, Mezcla de Expertos y Sistemas

7.1 Introduccin. Mdulos, expertos e hibridacin

Dado el modo de funcionamiento expuesto,

7.2 Sistemas Globales y Sistemas Locales

7.2.1.1 Interferencia Espacial. El problema ``Qu y Dnde'' (``What and

1 Algunos autores [Rij95,RG95] utilizan un rea de Error!Marcador no definido.5x5.

7.2.1.2 Interferencia Temporal. Aparcar un remolque marcha atrs.

Ilustracin 4: El problema de aparcar un remolque.

7.2.1.3 Navegacin autnoma de un robot

Ilustracin 5: Navegacin autnoma de un robot. En la figura (a) se presenta el caso de

7.3 Ventajas e Inconvenientes de la Aproximacin Modular

7.4 Estado del Arte

Ilustracin 6: Distintos modos de dividir el espacio de entradas segn la red neuronal

7.4.1 Descomposicin especfica (``ad hoc'') y descomposicin sistemtica

comportamiento del sistema, reflejndose esta mejora en la mayora de las ocasiones en un

El esquema de procesamiento que se acaba de indicar no siempre es susceptible de ser aplicado.

7.4.2 La comunicacin entre los mdulos

7.4.2.1 Reparto de Informacin

7.4.3 Aprendizaje (ajuste de los mdulos)

7.4.3.1 Algoritmo da aprendizaje estocstico

donde gi son las correspondientes salidas de las redes de puertas.

Ilustracin 10: El modelo de Jacobs-Jordan. El nodelo aqu mostrado posee dos

Tambin se habl al principio de este captulo de la existencia de sistemas ms genricos, en los

Una frmula anloga se tendra para los coeficientes g j/i.

El valor hi representa la probabilidad de que el agrupamiento i-simo de expertos genere la

7.4.3.2 El algoritmo de Maximizacin del Valor Esperado (EM)

{zij=zIzj/i}, tal que

L zij( t ) ln gi( t ) ln g (jt/)i ln Pji ( y ( t ) )

logaritmo se puede reescribir como suma de logaritmos:

E ( , ( p ) ) E ( L( , Z ) / X ) zij( t ) ln gi( t ) ln g (jt/)i ln Pji ( y ( t ) )

donde (p) es la estimacin de los parmetros en la iteracin p, Z es el conjunto de