Está en la página 1de 37

MASTER DE INGENIERA

BIOMDICA.
Mtodos de ayuda al diagnstico
clnico.
Tema 5: Redes Neuronales
Emilio Soria, Antonio Jos Serrano y Jos David Martn Dpto Ingeniera Electrnica, ETSE
Sistemas de Ayuda a la Decisin Clnica, Curso 2009-2010
1

Objetivos del tema


Conocer las limitaciones de los modelos lineales en problemas de modelizacin/
clasificacin.
Aprender los problemas que pueden surgir al aplicar estos mtodos
neuronales.
Aprender a aplicar la regla delta para cualquier estructura que se tenga.
Conocer el Teorema de Cybenko y sus implicaciones en cuanto al uso de redes
multicapa en la resolucin de problemas.
Saber cmo analizar los resultados obtenidos con una red neuronal al tiempo que
se extrae conocimiento de dicho modelo neuronal.
Conocer las funciones de base radial (RBF).
Emilio Soria, Antonio Jos Serrano y Jos David Martn Dpto Ingeniera Electrnica, ETSE
Sistemas de Ayuda a la Decisin Clnica, Curso 2009-2010
2

Dnde estamos

Se ha implementado un modelo lineal


en los parmetros y hemos
comprobado que no ha funcionado;
esta comprobacin la podemos tener
a varios niveles:
Los errores cometidos por el modelo
son muy grandes
El modelo desarrollado no da buenos
resultados en datos no usados para
construir el modelo
Las conclusiones que se obtienen del
modelo son absurdas.
No se cumplen las hiptesis de
partida del modelo lineal (errores
i.i.d, normales, de varianza cte)

Ahora tenemos dos opciones volvemos atrs para


obtener ms datos o bien usamos modelos no lineales;
los primeros que describiremos sern las redes
neuronales.

No cumple algunos de los tests


estadsticos planteados para ese
modelo
Emilio Soria, Antonio Jos Serrano y Jos David Martn Dpto Ingeniera Electrnica, ETSE
Sistemas de Ayuda a la Decisin Clnica, Curso 2009-2010
3

Redes neuronales, algunas definiciones


Haykin; Una red neuronal es un procesador distribuido y con una estructura
paralela que tiene una tendencia natural a almacenar conocimiento experimental,
hacindolo apto para su uso. Se parece al cerebro en dos cosas:
El conocimiento es adquirido por la red a travs de un proceso de aprendizaje
Ese conocimiento se almacena en los pesos sinpticos o conexiones entre
neuronas
Fausset; Una red neuronal artificial es un sistema de procesado de la informacin
que tiene ciertas caractersticas de funcionamiento en comn con redes neuronales
biolgicas.
Hassoun; Las redes neuronales son modelos computacionales compuestos de
unidades de proceso adaptativas: las neuronas.

En todas las definiciones aparece el concepto de neurona como elemento


individual de proceso. Son definiciones muy generales porque existen gran
cantidad de modelos neuronales.
Emilio Soria, Antonio Jos Serrano y Jos David Martn Dpto Ingeniera Electrnica, ETSE
Sistemas de Ayuda a la Decisin Clnica, Curso 2009-2010
4

Algunas cuestiones a tener en cuenta.


Son modelos matemticos que se ajustan a los datos que se tienen sin necesidad de
hacer ninguna suposicin a priori (los mtodos bayesianos deben suponer alguna
distribucin en los datos; la de normalidad es la ms usada).
Muchos de ellos suponen una generalizacin a mtodos estadsticos usados desde
hace mucho tiempo. Por ejemplo el perceptrn multicapa es una generalizacin de
la regresin logstica.
Se pueden establecer relaciones no lineales entre conjuntos de datos sin necesidad de
conocer el tipo de relacin de antemano. Por ejemplo, si se realiza un anlisis
multivariante y queremos introducir un efecto no lineal de las variables de
entrada entonces debemos conocer la expresin matemtica de ese efecto
(logartmico, exponencial, etc).
Como cualquier modelo matemtico se pueden analizar y extraer conclusiones
cualitativas de ellos. De hecho, por su gran flexibilidad es absolutamente
necesario realizar esto (en la bibliografa existente se observa una ausencia de
este anlisis final).
Son de uso habitual en otras reas de conocimiento por ser modelos no lineales, no
paramtricos y con gran robustez al ruido en los datos; por qu no usarlos en
problemas clnicos?.
Emilio Soria, Antonio Jos Serrano y Jos David Martn Dpto Ingeniera Electrnica, ETSE
Sistemas de Ayuda a la Decisin Clnica, Curso 2009-2010
5

Un pequeo test sobre el problema a resolver


No se tiene (o no se plantea) ninguna
suposicin a priori sobre la cuestin a
resolver. Si se tiene un modelo
estructural del problema y es correcto
este modelo no tendr rival.
TENEMOS DICHO MODELO?.

Los datos presentan imprecisiones


bien por errores de los sensores, por
error del experimentador, adems
algunos datos estn incompletos...
NUESTROS DATOS SON
PERFECTOS?.

El problema presenta a priori una


alta complejidad ya que
suponemos que aparecen efectos
de memoria, saturacin, relaciones
no lineales.... QUEREMOS UN
MODELO SIMPLE PERO FALSO?.

Nuestro problema conlleva un gran


nmero de variables a priori porque
no conocemos si existe o no la
relacin que queremos establecer
VAMOS A PLANTEAR UN
MODELO CON POCAS VARIABLES
DE ENTRADA?.

RESULTADO DEL TEST:


Si ha contestado a la mayora de preguntas NO su problema
puede tener como solucin un modelo neuronal artificial.
Emilio Soria, Antonio Jos Serrano y Jos David Martn Dpto Ingeniera Electrnica, ETSE
Sistemas de Ayuda a la Decisin Clnica, Curso 2009-2010
6

Una posible clasificacin.


APRENDIZAJE
NO
SUPERVISADO

APRENDIZAJE
SUPERVISADO

NO EXISTE LA
FIGURA DE MAESTRO

AUTOORGANIZA LA
SEAL DE ENTRADA,
DESCUBRE
PROPIEDADES DE LOS
DATOS

APRENDIZAJE
APRENDIZAJE
CORRELACIONAL COMPETITIVO
REDES PCA
(ROBUST
PCA).
MEMORIAS
ASOCIATIVAS

ART
SOM
GTM.
KERNEL SOM

SE NECESITA UNA
SEAL DESEADA

APRENDE A
PRODUCIR SEALES
DESEADAS A PARTIR
DE LOS DATOS DE
ENTRADA.

APRENDIZAJE
APRENDIZAJE POR SIMILITUD
POR ERROR
MLP
RBF
ELMAN
JORDAN

FUZZY ART
FUZZY
ARTMAP

Existen muchos ms
modelos de los que
aparecen en la figura
aplicndose cada
uno de ellos segn
las caractersticas
del problema a
resolver. A modo de
ejemplo, en un
problema de
modelizacin con
una fuerte
componente local,
sera ms apropiado
el uso de las RBF
(Funciones de Base
Radial) que el
perceptron
multicapa.

Emilio Soria, Antonio Jos Serrano y Jos David Martn Dpto Ingeniera Electrnica, ETSE
Sistemas de Ayuda a la Decisin Clnica, Curso 2009-2010
7

Algunos puntos importantes en redes neuronales


NO SON CAJAS NEGRAS: si se han entrenado correctamente se puede extraer nuevo
conocimiento sobre el problema a resolver: obtencin de nuevas conclusiones y posibilidad
de obtener modelos neuronales ms refinados.
LOS ESTADSTICOS LAS REHUYEN: libros modernos de anlisis multivariante las incluyen
en sus ltimos captulos, importantes estadsticos tienen libros sobre redes neuronales
tratadas como modelos estadsticos (B. Ripley, 1993) y paquetes de estadstica (SPSS) las
incluyen como libreras.
CUIDADO CON LOS PROGRAMAS (I): existe un gran cantidad de trabajos donde se han
aplicado por no expertos dando los resultados numricos como reflejo de la bondad de la
red; SE NECESITA UNA VALIDACIN CUALITATIVA DEL MODELO; es bueno un ajuste a
un polinomio de 7 grado usando 8 datos?.
CUIDADO CON LOS PROGRAMAS (II): el otro peligro de las redes viene del otro extremo;
en el anterior caso se sobreajustaban a los datos pero puede pasar que, debido a una mala
eleccin de los parmetros las redes no aprendan el problema a resolver.....HAY QUE TENER
EXPERIENCIA PARA LLEGAR A RESULTADOS CORRECTOS.
Emilio Soria, Antonio Jos Serrano y Jos David Martn Dpto Ingeniera Electrnica, ETSE
Sistemas de Ayuda a la Decisin Clnica, Curso 2009-2010
8

Problemas de los
modelos lineales.

TEMPERATURA

Un ejemplo simple.....supongamos que


vivimos en un mundo donde el
diagnstico de las enfermedades viene
dado por la temperatura corporal y el
nmero de latidos/minuto. En un
mundo as se tendra lo siguiente

35

ENFERMOS

ENFERMOS

ENFERMOS

ENFERMOS

SANOS

ENFERMOS

ENFERMOS

ENFERMOS

ENFERMOS

60
LATIDOS

Recopilamos datos y queremos sacar un modelo que, dadas las variables temperatura y
latidos nos proporcione como salida la probabilidad que el paciente est enfermo: USAMOS $
1
EL CLSICO: UNA REGRESIN LOGSTICA!!.....PERO..........
y=
%

1+ e"[ w0 +w1 # Latidos+w2 #Temperatura] &

$> (k) umbral enfermo


Superficie de
y=
%
"[ w 0 +w1 # Latidos+w 2 #Temperatura ]
# w1y=k.
&
separacin
sano
1+ e
&< (k) umbral
Temperatura = % " ( ) Latidos +
$ w2 '
# w1 &
* # k & ! - 1
Temperatura = % " ( ) Latidos + ,ln%
( " w 0/ )
+ $1" k '
. w 0 Temperatura = A " Latidos + B
$ w2 '
1

A nivel geomtrico
la separacin
entre enfermos
y sanos es una LNEA
!
Temperatura
= A " Latidos
+B
RECTA!!..NO PODEMOS RESOLVER ESTE PROBLEMA CON LA R.L.

Emilio Soria, Antonio Jos Serrano y Jos David Martn Dpto Ingeniera Electrnica, ETSE
Sistemas de Ayuda a la Decisin Clnica, Curso 2009-2010
9

Problemas de los
modelos lineales (II).

Una solucin a nuestro problema puede


venir desde dos puntos de vista; uno
geomtrico y otro estadstico.

Transformamos las variables de entrada


usando alguna transformacin
geomtrica; en nuestro ejemplo una
posible transformacin sera
2
2
z
z
z
z
z
=
T
L
T
"
L
T
L
[ 1 2 3 4 5] [
]

Atencin al aumento del nmero de


variables; si hubisemos tenido tres
variables esta transformacin me
hubiese conducido a 10 variables
nuevas; cuatro variables a 19....
MALDICIN DE LA
DIMENSIONALIDAD

Usamos un modelo estadstico ms


avanzado.....atacamos el problema con
otro GLM (Generalized Linear Model).
TEMPERATURA

35

ENFERMOS

ENFERMOS

ENFERMOS

ENFERMOS

SANOS

ENFERMOS

ENFERMOS

ENFERMOS

ENFERMOS

60
LATIDOS

Ahora la superficie se separacin es ms


compleja..........se pueden tener elipses!
En las dos aproximaciones hay una cuestin a tener
en cuenta: LA ELECCIN DE LA
TRANSFORMACIN GEOMTRICA Y DEL
MODELO......CMO LA HACEMOS?.... en un
problema multidimensional no vemos el
problema como en este caso.
Emilio Soria, Antonio Jos Serrano y Jos David Martn Dpto Ingeniera Electrnica, ETSE
Sistemas de Ayuda a la Decisin Clnica, Curso 2009-2010
10

Problemas de los modelos lineales (III)


La herramienta ms utilizada es la regresin
mltiple.....tenemos ventajas....sencillez, gran
cantidad de programas lo realizan, intervalos de
confianza para los parmetros obtenidos y las
predicciones......PERO.......

Antes hemos visto un


problema de
clasificacin.....veamos ahora
uno de modelizacin......

[z1 z2 z3 z4 z5 ] = [T

L T " L T 2 L2 ]

a) No explica efectos de memoria;


histresis, en general efectos no lineales.

y = w 0 + w1 " x1 + .....+ w n " x n


y = w 0 + w1 " #1 ( x1 ) + .....+

b) Se tiene siempre la misma relacin salidaentrada; si aumento/disminuyo la entrada


w n " # n aumenta/disminuye
xn
la salida (absolutamente
mdicos).
yfalso
= wen+problemas
w " x + .....+
w "x

( )

Fcil solucin.........vamos a
transformar las entradas !!!!

[z1 z2 z3 z4 z5 ] = [T L T " L T 2 L2 ]

y = w 0 + w1 " #1 ( x1 ) + .....+ w n " # n ( x n )

PERO........QU TRANSFORMACIN
ESCOGEMOS PARA CADA UNA DE ELLAS?;
!
SABEMOS CON TOTAL CERTEZA ESA TRANSFORMACIN? SI LO SABEN HGANLA Y
NO SE PREOCUPEN DE LAS REDES
! NEURONALES.... SI NO LA SABEN EL PERCEPTRON
MULTICAPA PUEDE AYUDAR.
Emilio Soria, Antonio Jos Serrano y Jos David Martn Dpto Ingeniera Electrnica, ETSE
Sistemas de Ayuda a la Decisin Clnica, Curso 2009-2010
11

Neurona y Perceptron multicapa ES UNA REGRESIN


Elemento bsico: neurona;
consta de un multiplicador (entradasparmetros; pesos sinpticos)
seguido de un sumador y una
funcin no lineal (normalmente la
tangente hiperblica).
Arquitectura: se conoce bajo este nombre a la
forma en la que se disponen las neuronas. En la
red ms extendida, el perceptrn
multicapa (MLP) las neuronas se disponen
en una serie de capas. La primera se conoce
como capa de entrada y la ltima como capa
de salida; las intermedias se conocen como
capas ocultas. Destacar su capacidad de
aproximador universal; un MLP con
dos capas ocultas es capaz de
establecer cualquier mapeo entre
dos conjuntos de datos (!!!!!).

LOGSTICA!!!!!!

COMBINACIN DE
REGRESIONES!

Emilio Soria, Antonio Jos Serrano y Jos David Martn Dpto Ingeniera Electrnica, ETSE
Sistemas de Ayuda a la Decisin Clnica, Curso 2009-2010
12

Tipos de estructuras multicapa


No recurrentes; en ese tipo de estructuras
no se plantea ningn tipo de realimentacin en
la estructura. La seal slo se propaga en un
sentido; el modelo no tiene memoria. Este tipo
ser el que usaremos en este curso siendo el
ms extendido en cuanto a aplicaciones. Hay
que destacar que, en aplicaciones temporales,
podemos escoger como entradas del
perceptrn la variable temporal en diferentes
intervalos de tiempo, x(n), x(n-1), etc.

Neural Networks in a Softcomputing Framework, Springer

Recurrentes; aqu se tienen realimentaciones


que pueden ser en una misma neurona, entre
neuronas (pertenecientes a la misma capa o a
diferentes capas) o entre la salida y la entrada
del modelo. Este tipo de estructuras se utilizan
para modelizar sistemas dinmicos (prediccin
de series temporales por ejemplo).
Emilio Soria, Antonio Jos Serrano y Jos David Martn Dpto Ingeniera Electrnica, ETSE
Sistemas de Ayuda a la Decisin Clnica, Curso 2009-2010
13

Perceptron multicapa.
La capacidad de modelizacin y flexibilidad
del perceptron multicapa (MLP) es una gran
ventaja y un serio inconveniente
Podemos establecer el modelo
que buscamos entre dos
conjuntos de variables SI EXISTE.
Podemos obtener autnticas
burradas si no se maneja con
cuidado el proceso de obtencin
de los parmetros
El MLP es un modelo no lineal que obtiene sus
parmetros de mtodos clsicos iterativos de
optimizacin de funciones (mtodos de
gradiente, Newton, gradiente-conjugado, etc).
La eleccin de la arquitectura sigue un mtodo
de prueba y error aunque existen mtodos de
poda y crecimiento).

Una vez se ha realizado correctamente


el entrenamiento y validacin de un
MLP ste puede proporcionar:
a) Informacin sobre el ajuste obtenido
b) Informacin sobre la importancia
relativa de las variables de entrada.
c) Podemos establecer dicho MLP como
modelo del problema (puedo variar
concentraciones de frmacos en el
modelo sin tener que perjudicar al
paciente).
d) Podemos obtener informacin
cualitativa al usarlo junto con el SOM.

Emilio Soria, Antonio Jos Serrano y Jos David Martn Dpto Ingeniera Electrnica, ETSE
Sistemas de Ayuda a la Decisin Clnica, Curso 2009-2010
14

Regla Delta

Dnde aplicamos la regla delta?

El problema que se plantea en una red neuronal es


Esta regla se aplica en aquellos
exactamente el mismo que en un modelo lineal; hay unos
parmetros a determinar usando la minimizacin del error problemas en los que la solucin
directa no conduce a ecuaciones
cuadrtico. Una posible forma es resolverlo de forma
lineales en los parmetros. En el
iterativa mediante lo que se conoce como regla delta. El
problema, consiste en que el valor inicial de los parmetros mtodos de mnimos cuadrados se
llegaba a ecuaciones lineales al
nos puede conducir a un mnimo local; solucin:
derivar parcialmente e igualar a
probamos diferentes valores iniciales con diferentes
entrenamientos!!
cero esas derivadas.

Cmo aplicamos la regla delta?


La forma de aplicarla es siempre la
misma; los parmetros se inicializan
de forma aleatoria; se determina la
salida del modelo y el error
cometido se usa (junto con otros
factores) para modificar esos
parmetros y obtener un mejor
funcionamiento.....es un
procedimiento iterativo
Emilio Soria, Antonio Jos Serrano y Jos David Martn Dpto Ingeniera Electrnica, ETSE
Sistemas de Ayuda a la Decisin Clnica, Curso 2009-2010
15

Repaso de mnimos cuadrados


En plan de repaso; en el mtodo de mnimos
cuadrados se planteaba una funcin de coste
que dependa de los parmetros del modelo y
el objetivo era minimizar esa funcin de coste.
Donde el error era la diferencia
A nivel matemtico se deriva con respecto a
entre el valor que se quiere ajustar
cada parmetro y se iguala a cero.
y el que da el modelo.
Si planteamos una regresin simple

Se llega a un sistema de dos ecuaciones


con dos incgnitas en las que hay que
obtener b0 y b1 siendo A,B,C, D,E y F
las siguientes cantidades (B=D).
AHORA ES INMEDIATO OBTENER
LOS PARMETROS DEL MODELO
Emilio Soria, Antonio Jos Serrano y Jos David Martn Dpto Ingeniera Electrnica, ETSE
Sistemas de Ayuda a la Decisin Clnica, Curso 2009-2010
16

Regla delta y regresin


robusta (I).

Derivamos parcialmente con respecto a


los parmetros; ahora hay que derivar
un mdulo (derivada, funcin signo)

Queremos implementar una


regresin simple robusta usando
otra funcin de coste en este caso
la del mdulo del error

Las ltimas ecuaciones no tienen una


resolucin directa; hay que encontrar los
parmetros que cumplan.
Aplicando la regla delta

Esa regla conduce a la siguientes reglas de actualizacin.

Emilio Soria, Antonio Jos Serrano y Jos David Martn Dpto Ingeniera Electrnica, ETSE
Sistemas de Ayuda a la Decisin Clnica, Curso 2009-2010
17

Regla delta y regresin robusta. MATLAB (I)

Aqu la variable x est en el


intervalo [-2 2] y la variable i es
de tipo normal, media cero y
desv. estndar 0.2.

El ejemplo que vamos a plantear


es el siguiente; generamos 25
datos de acuerdo a
Al hacer un ajuste de mnimos
cuadrados (se puede hacer con las
instrucciones polyfit y regress)
obtenemos los siguientes resultados.

Si introducimos un outlier obtenemos

!#$

'

R2

= 0.9216

&"#

R2

&

()*+,-.

=0.1766

"#$
%"#

"
!"#

%#$

$"#

b1=0.4934;
b0=0.969

!%#$
!!

b1=0.9294
b0=1.5335

!$"#
!!"#

!"#$

!"

!%#$

%
&

%#$

"

"#$

!!

!$"#

$"#

!"#

Emilio Soria, Antonio Jos Serrano y Jos David Martn Dpto Ingeniera Electrnica, ETSE
Sistemas de Ayuda a la Decisin Clnica, Curso 2009-2010
18

Regla delta y regresin robusta. MATLAB (II)

Emilio Soria, Antonio Jos Serrano y Jos David Martn Dpto Ingeniera Electrnica, ETSE
Sistemas de Ayuda a la Decisin Clnica, Curso 2009-2010
19

Regla delta en una neurona (I)

Si se aplica la regla delta a un


determinado coeficiente

Se plantea el modelo (neurona) as como la


funcin de coste a minimizar.
$

%$
"#

%&

"$
"&

!
!

)*(+

-.!

"'
/0,

%'

Donde el error es la diferencia entre la seal


deseada, des, y la seal de salida de la neurona,
De acuerdo a la actuacin de la neurona se
tiene lo siguiente:

Por lo tanto la actualizacin quedar

-1<s<1
Emilio Soria, Antonio Jos Serrano y Jos David Martn Dpto Ingeniera Electrnica, ETSE
Sistemas de Ayuda a la Decisin Clnica, Curso 2009-2010
20

Regla delta en una neurona (I)


Algunas cuestiones importantes.
ALGORITMO
0-Se inicializan de forma
aleatoria los coeficientes y se le
da un valor a la constante de
adaptacin.
1-Se coge otro patrn de
entrada y se determina la salida
de la neurona.
2-Se determina el error
cometido por la neurona.
3-Se actualizan los coeficientes
de la neurona.
4- Si no se da la condicin de
parada volvemos al paso 1.

No es necesario conocer nada del problema para


resolverlo NO HAY QUE DESPEJAR NADA; segn
este tipo de procedimientos lo fundamental es hacer
una buena seleccin de entradas.
La inicializacin en una neurona da igual, slo tenemos
un mnimo global, esto no ocurrir al considerar
estructuras multicapa .
El cambiar una funcin de coste SLO supone
cambiar un trmino de la actualizacin; el
correspondiente a la derivada de la funcin de coste
con respecto del error.
Este algoritmo es fcilmente factorizable y, por lo
tanto, directamente implementable en Matlab.

Emilio Soria, Antonio Jos Serrano y Jos David Martn Dpto Ingeniera Electrnica, ETSE
Sistemas de Ayuda a la Decisin Clnica, Curso 2009-2010
21

Regla delta en una


neurona. MATLAB

Emilio Soria, Antonio Jos Serrano y Jos David Martn Dpto Ingeniera Electrnica, ETSE
Sistemas de Ayuda a la Decisin Clnica, Curso 2009-2010
22

Regla delta y perceptrn multicapa (MLP)

Etapas del
algoritmo
Inicializacin aleatoria de los
coeficientes; se fijan las constantes de
adaptacin.

Ahora se plantea el mismo


procedimiento, regla delta, pero se
nos complica porque tenemos una
estructura multicapa. Slo hay que
tener en cuenta la salida de cada
una de las neuronas.
Determinacin de la salida de la red.
Neurona A

1- Se coge un patrn de entrada y se


determina su salida
2- Se determina el error cometido
3- Actualizacin de los coeficientes del
MLP.
4- Si no se cumple el criterio de parada
se vuelve al paso 1.

Neurona B

Neurona C

Emilio Soria, Antonio Jos Serrano y Jos David Martn Dpto Ingeniera Electrnica, ETSE
Sistemas de Ayuda a la Decisin Clnica, Curso 2009-2010
23

Regla delta y perceptrn multicapa (II)


Clculo del error
Actualizacin de los
coeficientes (capa de salida).

Aplicamos la regla delta a los


coeficientes (suponemos una
funcin de coste cuadrtica).

Actualizacin de los coeficientes (capa oculta).

En esta capa es donde aparecen problemas en la


actualizacin. Si se plantea la regla delta:

Determinando cada derivada se llega a:

El resto de coeficientes se calcularan de forma similar.


El algoritmo obtenido se conoce con el nombre de
Determinando todas las derivadas algoritmo de retropropagacin (BP). Se ha obtenido
un modelo matemtico no lineal en el que sus
parciales se obtiene lo siguiente:
parmetros se obtienen de forma iterativa sin
necesidad de un conocimiento previo del problema.
Existen dos tipos de algoritmos on-line (se actualiza
patrn a patrn) y batch (se actualiza al final).
donde todas las constantes quedan
englobadas en
Emilio Soria, Antonio Jos Serrano y Jos David Martn Dpto Ingeniera Electrnica, ETSE
Sistemas de Ayuda a la Decisin Clnica, Curso 2009-2010
24

Perceptrn multicapa y Matlab (I).

Emilio Soria, Antonio Jos Serrano y Jos David Martn Dpto Ingeniera Electrnica, ETSE
Sistemas de Ayuda a la Decisin Clnica, Curso 2009-2010
25

Perceptrn multicapa y Matlab (II).


Si en la implementacin anterior se introducen
ms entradas/neuronas entonces hay que
aumentar el nmero de ecuaciones por lo que
se hace necesario otra implementacin ms
ptima.....lo que se hace es expresar ese
algoritmo en forma matricial.

Emilio Soria, Antonio Jos Serrano y Jos David Martn Dpto Ingeniera Electrnica, ETSE
Sistemas de Ayuda a la Decisin Clnica, Curso 2009-2010
26

Validacin.

Neural Networks in a Softcomputing Framework, Springer

Una red neuronal es capaz de


establecer cualquier relacin
entre dos conjuntos
Ventaja: Se Inconveniente: Se
tiene un
tiene un
modelizador
modelizador
universal
demasiado flexible
Es necesario definir dos
conjuntos dentro de nuestros
datos; conjunto de
entrenamiento y validacin
El conjunto de validacin sirve
para controlar el overfitting del
modelo. Existen muchas
estrategias para realizar esta
validacin.

Evolucin del aprendizaje


Conjunto de
validacin.

Error

Conjunto de
entrenamiento

Stop

poca

Emilio Soria, Antonio Jos Serrano y Jos David Martn Dpto Ingeniera Electrnica, ETSE
Sistemas de Ayuda a la Decisin Clnica, Curso 2009-2010
27

Eleccin de la arquitectura de la red neuronal.

El teorema de Cybenko asegura que un percetrn multicapa (MLP) con dos capas
ocultas puede establecer una relacin entre dos conjuntos pero no especifica el
nmero de neuronas que debe tener cada capa.
Hay tres tipos de aproximaciones en este problema; una aproximacin
constructiva otra destructiva y, por ltimo el mtodo de prueba/error. La
primera consiste en partir de pocas neuronas y aadir stas si se comprueba que
el funcionamiento de la red ha mejorado. La segunda aproximacin parte de redes
de gran tamao y elimina, o bien pesos sinpticos,o bien neuronas; esta ltima
aproximacin tambin se conoce como mtodos de poda.
Dada la capacidad de los ordenadores el mtodo de prueba y error, a da de hoy,
puede ofrecer mejores resultados que las otras dos aproximaciones.
Entre las aproximaciones constructivas y las de
poda estn ms extendidas las de poda y, entre
ellas las que ms se suelen utilizar son aquellas
que suman un trmino a la funcin de coste que
penaliza los pesos de alto valor. Se hace tender
entonces los pesos a cero; eliminndose aquellos
que estn por debajo de un cierto umbral.
Emilio Soria, Antonio Jos Serrano y Jos David Martn Dpto Ingeniera Electrnica, ETSE
Sistemas de Ayuda a la Decisin Clnica, Curso 2009-2010
28

Variantes del algoritmo bsico de aprendizaje.

Existen gran cantidad de algoritmos de aprendizaje (algoritmos de bsqueda de mnimos en


funciones multidimensionales). Algunos de ellos usan slo informacin de la primera derivada de
la funcin de coste, como el BP, otros usan informacin de la segunda derivada y, por ltimo,
existen otros de bsqueda de mnimos globales (genticos, simulated annealing y swarm
intelligence). Aqu solo comentaremos, por su sencillez, los basados en la primera derivada.

Algoritmo de momento
Aumenta la velocidad y reduce el
problema de convergencia en la zonas
planas.

Algoritmo Silva-Almeida
Se usa la regla delta pero la constante cambia con
el tiempo; 0<d<1, u>1. Mejora la velocidad de
convergencia; el conocer si se est lejos/cerca del
mnimo nos lo da los cambios de signo en dos
valores consecutivos el gradiente.

Algoritmo Delta-Bar-Delta.
Ahora se tiene lo mismo que en el algoritmo de
Silva-Almeida (0<d<1, u>1) pero, ahora, se compara
el gradiente actual y un promedio de los anteriores

Todos los algoritmos que usan la


primera derivada se basan en lo
mismo; lejos del mnimo la
constante tiene que tomar un
valor alto y, cerca del mnimo, la
constante debe ser baja.
Emilio Soria, Antonio Jos Serrano y Jos David Martn Dpto Ingeniera Electrnica, ETSE
Sistemas de Ayuda a la Decisin Clnica, Curso 2009-2010
29

Problemas que puedo tener en el aprendizaje.


Algoritmo
Derivada
inestable,
de la
no se
funcin de
converge a
coste igual
ninguna
a cero
solucin.

El algoritmo
no
evoluciona.
Anlisis de
sensibilidad
errneo.

Zonas
Malas
Mala
Mala
planas de la elecciones
inicializacin inicializacin
funcin de
de las
de los pesos de los pesos
error
constantes

Mal
procesado
de las
entradas

Cada en
un
Efecto mnimo
local

Causa

Solucin.

Saturacin de
las neuronas
(derivada de la
funcin de
activacin
igual a cero)

Uso de
Inicializacin de Uso de otros Se cambian los
algoritmos de los pesos con
HAY QUE
algoritmos
parmetros o
bsqueda
una distribucin
distintos al BP bien se recurre REALIZAR UN
global;
normal de
PROCESADO
a
algoritmos
CUIDADOSO Y
realizacin de
media cero y (algoritmos de
de segundo
segundo
CORRECTO
mltiples
varianza de
orden.
orden)
pruebas
bajo valor.

Emilio Soria, Antonio Jos Serrano y Jos David Martn Dpto Ingeniera Electrnica, ETSE
Sistemas de Ayuda a la Decisin Clnica, Curso 2009-2010
30

Anlisis de sensibilidad.
Una vez obtenido un perceptrn multicapa, que
proporciona buenos resultados en los conjuntos de
entrenamiento y validacin puede proporcionar ms
informacin realizando un anlisis de sensibilidad
Mediante este anlisis se determina la importancia
relativa de las variables de entrada. Esta informacin se
puede utilizar en primer lugar para obtener informacin
cualitativa del problema que se intenta resolver y, en
segundo lugar, para eliminar posibles entradas de cara a
obtener un modelo neuronal ms sencillo.

En un modelo neuronal se hace algo


parecido, se determina la salida de la red
para los patrones que se tienen y la salida
tomando esa variable igual a cero. Despus
se calcula una funcin creciente de la
diferencia entre esas salidas

En cualquier modelo este tipo


de anlisis se hace mediante la
siguiente derivada

Donde S designa la sensibilidad


de una determinada variable. En
un modelo lineal esta sensibilidad
es proporcional al coeficiente
que acompaa a esa variable.

El ltimo paso es ordenar


de mayor a menor esas
cantidades; ese es el orden
de la importancia de la
entradas a la red (sabras
razonar por qu?). Es un
mtodo sencillo pero que
funciona muy bien.
Emilio Soria, Antonio Jos Serrano y Jos David Martn Dpto Ingeniera Electrnica, ETSE
Sistemas de Ayuda a la Decisin Clnica, Curso 2009-2010
31

Pasos a la hora de aplicar perceptrn multicapa


1- Identificar el tipo de problema a resolver; clasificacin, prediccin?
2- Tratamiento de los datos: eliminacin de valores extremos, normalizacin de variables, filtrado
e interpolado y reduccin de caractersticas si es posible.
3-Divisin de los datos en dos conjuntos; entrenamiento y validacin. Hay que tener especial
cuidado que al dividir los conjuntos se tenga la misma distribucin.
4- Eleccin de la arquitectura de la red....hasta ahora el mejor mtodo es prueba y error (esto lo
podemos hacer por la capacidad actual de los ordenadores).
5-Eleccin del algoritmo de obtencin de los parmetros, algoritmo de aprendizaje, as como el
tipo de aprendizaje (online o batch). Si se escogen algoritmos de bsqueda local (que son casi
todos!!!) hay que repetir el proceso de entrenamiento con diferentes valores iniciales de los
parmetros de la red.
6- La etapa final es un anlisis en profundidad de los modelos para evitar conclusiones
errneas.

Emilio Soria, Antonio Jos Serrano y Jos David Martn Dpto Ingeniera Electrnica, ETSE
Sistemas de Ayuda a la Decisin Clnica, Curso 2009-2010
32

Funciones de Base
Radial (RBF).

Data Mining: A Knowledge Discovery Approach, Springer

MLP

Suponen una aproximacin diferente a la


solucin de problemas respecto de los
perceptrones multicapa (MLP). En los MLP
la solucin obtenida es global mientras que,
con este tipo de redes la solucin es local.
Arquitectura de la red.

RBF

Aqu se tiene la capa oculta y la de


salida; la de salida realiza una
combinacin lineal de sus entradas
y la oculta realiza un clustering
de los datos de entrada.

o0=1

Como siempre el problema


es determinar los
parmetros de la RBF

Emilio Soria, Antonio Jos Serrano y Jos David Martn Dpto Ingeniera Electrnica, ETSE
Sistemas de Ayuda a la Decisin Clnica, Curso 2009-2010
33

Algoritmo de aprendizaje de la RBF (I)

La salida de la RBF se obtiene como:

Funcionamiento de la
RBF.
0- Se inicializan aleatoriamente
los parmetros de la RBF (c, 2
y w).
1- Se escoge un patrn de
entrada y se determina la salida
de la RBF.

Para la actualizacin de los coeficientes se usar la


regla delta; se plantea una funcin de coste que
determine el funcionamiento de la red; la ms usual es
la cuadrtica. En el caso de los coeficientes w

2- Se calcula el error cometido.


3- Se actualizan los parmetros
de la RBF.
4- Si no se cumple a condicin
de parada se vuelve al paso 1.
Emilio Soria, Antonio Jos Serrano y Jos David Martn Dpto Ingeniera Electrnica, ETSE
Sistemas de Ayuda a la Decisin Clnica, Curso 2009-2010
34

Algoritmo de aprendizaje de la RBF (II)


Si se plantea el mismo
procedimiento para los centros

CUIDADO QUE ESTA


ECUACIN ES VECTORIAL.

Aplicando ahora para


las varianzas se obtiene
Tenemos un procedimiento iterativo para calcular los
parmetros del sistema neuronal. Al igual que pasaba
con el perceptrn multicapa el principal problema de
esta aproximacin son los mnimos locales.

Existen otros procedimientos para calcular los parmetros de la RBF y que se pueden
combinar con el comentado aqu. Por ejemplo, la capa intermedia determina un
clustering de los datos; podemos aplicar aqu el algoritmo HCM para determinar los
centros (o el algoritmo FCM). Adems la capa de salida es lineal respecto de los
parmetros w por lo que se pueden plantear mnimos cuadrados para estos parmetros.
Emilio Soria, Antonio Jos Serrano y Jos David Martn Dpto Ingeniera Electrnica, ETSE
Sistemas de Ayuda a la Decisin Clnica, Curso 2009-2010
35

Algunas cuestiones a tener en cuenta.


Se han visto tres estructuras
neuronales; SOM, MLP y RBF pero
existen muchas ms (incluso
existen hbridos de stas).
Mientras el principal uso del SOM
es el anlisis exploratorio de datos
la RBF se utiliza para problemas de
modelizacin/prediccin y el MLP
se aplica en dichos problemas y en
problemas de clasificacin.
La regla delta se puede aplicar en
todo modelo matemtico.
IMPRESCINDIBLE CONOCERLA.
Proporciona un mtodo general
para obtener los parmetros de
cualquier modelo. El problema son
los mnimos locales.

El Perceptrn Multicapa permite


establecer cualquier relacin entre dos
conjuntos de datos POR ESO MISMO ES
NECESARIO Y FUNDAMENTAL
ANALIZAR LOS RESULTADOS.
Los resultados obtenidos con el
MLP se pueden analizar de la
misma forma que los modelos
lineales; podemos establecer
ANOVAS, intervalos de confianza,
etc; lo nico que hacemos es
aumentar la POTENCIA DEL
MODELO MATEMTICO; si el
problema es complicado.....la
solucin va a ser un modelo
sencillo?
Emilio Soria, Antonio Jos Serrano y Jos David Martn Dpto Ingeniera Electrnica, ETSE
Sistemas de Ayuda a la Decisin Clnica, Curso 2009-2010
36

MASTER DE INGENIERA
BIOMDICA.
Mtodos de ayuda al diagnstico
clnico.
Tema 5: Redes neuronales.
Emilio Soria, Antonio Jos Serrano y Jos David Martn Dpto Ingeniera Electrnica, ETSE
Sistemas de Ayuda a la Decisin Clnica, Curso 2009-2010
37

También podría gustarte