Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Aplicadas
C URSO DE E XPERTOS DE U.C.M. (2010)
jmmarin@est-econ.uc3m.es
INDICE:
• El Perceptrón Multicapa.
inante.
1
• SOM.
• Aplicaciones.
recursos y scheduling.
• Marketing
viada como AMT) donde se aplican redes neuronales que incluyen diversos
sistemas expertos. Se utiliza una red neuronal que usa el algoritmo de back-
• Evaluación de Créditos
2
El sistema HNC se aplica también para calcular el riesgo hipotecario. La
empresa Nestor aplica redes neuronales para aplicar seguros de manera au-
como mı́nimo.
Introducción
Las Redes Neuronales (NN : Neural Networks) fueron originalmente una sim-
El primer modelo de red neuronal fue propuesto en 1943 por McCulloch y Pitts
similitud estricta con los sistemas biológicos. Sus arquitecturas están bas-
tante ligadas a las necesidades de las aplicaciones para las que son diseñados.
3
Redes Neuronales de tipo biológico
Se estima que el cerebro humano contiene más de cien mil millones (1011 ) de
anatomı́a del cerebro humano concluyen que hay, en general, más de 1000 sinapsis
de las computadoras, las neuronas naturales tienen una conectividad miles de ve-
temas biológicos.
4
Figure 1: Esquema de una neurona biológica
Las neuronas y las conexiones entre ellas (sinapsis) constituyen la clave para
el procesado de la información.
La mayor parte de las neuronas poseen una estructura de árbol, llamada den-
dritas, que reciben las señales de entrada procedentes de otras neuronas a través
de las sinapsis.
1. El cuerpo de la neurona,
conocida, y depende además del tipo particular de cada neurona. En general, una
5
neurona envı́a su salida a otras por su axón, y éste lleva la información por medio
resentada por una función u(·). La neurona recoge las señales por su sinapsis
doras positivas dominan, entonces la neurona produce una señal positiva y manda
este mensaje a otras neuronas por sus sinapsis de salida. En este sentido, la neu-
6
Figure 3: Esquema de una neurona
las siguientes:
7
sado, con alto nivel de interconectividad.
ualmente nodo o unidad. Recibe un input desde otras unidades o de una fuente
X
yi = wij yj
j
iones jerárquicas.
8
Hay dos fases en la modelización con redes neuronales:
breajuste).
real esperado.
9
Redes Neuronales Supervisadas y No Supervisadas
Las redes neuronales se clasifican comúnmente en términos de sus correspon-
10
supervisadas, y redes de entrenamiento supervisado. Para las redes de pesos fijos
Los datos para el entrenamiento están constituidos por varios pares de patrones
siguiente forma:
m+1 m m
wij = wij + ∆wij
11
Para los modelos de entrenamiento no supervisado, el conjunto de datos de
conocida previamente, entonces la inclusión de este nuevo patrón a esta clase ma-
12
red neuronal serán ajustados para reconocer a la nueva clase.
función de activación.
{wij }, que determina el efecto del nodo j-ésimo sobre el nodo i-ésimo.
Las entradas al nodo i-ésimo que provienen de las otros nodos son acumulados
de las entradas,
n
X
ui (w, x) = wij xj
j=1
13
patrón de referencia,
v
u n
uX
ui (w, x) = t (xj − wij )2
j=1
El valor de red, expresado por la función de base, u(w, x), se transforma me-
diante una función de activación no lineal. Las funciones de activación más co-
• Función sigmoidal
1
f (ui ) =
1 + exp{− σu2i }
• Función gausiana
u2i
f (ui ) = c exp{− }
σ2
• la capa de entrada,
• la capa oculta y
• la capa de salida.
Entre dos capas de neuronas existe una red de pesos de conexión, que puede
14
hacia delante, hacia atrás, lateral y de retardo:
1. Conexiones hacia delante: los valores de las neuronas de una capa inferior
son propagados hacia las neuronas de la capa superior por medio de las
2. Conexiones hacia atrás: estas conexiones llevan los valores de las neuronas
15
valor total (por ejemplo, 1), mientras que a todas las demás se le da un valor
de 0
También es posible que las redes sean de una capa con el modelo de pesos
hacia atrás o bien el modelo multicapa hacia adelante. Es posible ası́ mismo, el
conectar varias redes de una sola capa para dar lugar a redes más grandes.
En una red multicapa de propagación hacia delante, puede haber una o más
capas ocultas entre las capas de entrada y salida. El tamaño de las redes depende
dades de la red. Para que el comportamiento de la red sea correcto, se tiene que
16
determinar apropiadamente el número de neuronas de la capa oculta.
de xi .
N
X
η= β i xi
i=0
donde
η = h(µ)
E(y) = µ
En estas expresiones h(·) es la función que liga los componentes, βi son los
Un modelo lineal se puede implementar como una red neuronal simple: tiene
una unidad de sesgo, una unidad de input y una unidad de salida. El input se
refiere a una variable x, mientras que el sesgo siempre es una constante igual a 1.
El output serı́a
y2 = y1 w21 + 1.0w20
17
El modelo tiene tres componentes:
σ2.
18
El modelo lineal generalizado se reduce al modelo de regresión lineal múltiple
N
X
yp = β0 + βi xpi + εp
i=1
donde εp ∼ N (0, σ 2 ).
Este problema es equivalente al recogido por una red neuronal con una sola
activación es la identidad.
El Perceptrón Multicapa
Es capaz de actuar como un aproximador universal de funciones: una red
Rumelhart et al. (1986) formalizaron un método para que una red del tipo
19
patrones de entrada y sus salidas correspondientes: método backpropagation error
Arquitectura
Un perceptrón multicapa está compuesto por una capa de entrada, una capa de
salida y una o más capas ocultas; aunque se ha demostrado que para la mayorı́a
de problemas bastará con una sola capa oculta. En la figura siguiente se puede
observar un perceptrón tı́pico formado por una capa de entrada, una capa oculta y
una de salida.
20
Figure 4: Perceptrón multicapa
Las conexiones entre neuronas son siempre hacia delante: las conexiones van
desde las neuronas de una determinada capa hacia las neuronas de la siguiente
capa; no hay conexiones laterales ni conexiones hacia atrás. Por tanto, la infor-
neurona de salida k.
Algoritmo backpropagation
21
trenada, un patrón de entrada y éste se transmite a través de las sucesivas capas de
neuronas hasta obtener una salida y, después, una etapa de entrenamiento o apren-
dizaje donde se modifican los pesos de la red de manera que coincida la salida
Etapa de funcionamiento
transmite a través de los pesos wji desde la capa de entrada hacia la capa oculta.
Las neuronas de esta capa intermedia transforman las señales recibidas mediante
de salida. Este se transmite a través de los pesos vkj hacia la capa de salida, donde
aplicando la misma operación que en el caso anterior, las neuronas de esta última
La entrada total o neta que recibe una neurona oculta j, netpj , es:
N
X
netpj = wji xpi + θj
i=1
yjp = f netpj
22
De igual forma, la entrada neta que recibe una neurona de salida k, netpk , es:
H
X
netpk = vkj yjp + θk
j=1
ykp = f (netpk )
Etapa de aprendizaje
La función de error que se pretende minimizar para cada patrón p viene dada
por:
M
1X p
Ep = (d − ykp )2
2 k=1 k
donde dpk es la salida deseada para la neurona de salida k ante la presentación del
patrón p.
A partir de esta expresión se puede obtener una medida general de error me-
diante:
P
X
E= Ep
p=1
23
Como E p es función de todos los pesos de la red, el gradiente de E p es un
decremento más rápido en el error. Por tanto, el error puede reducirse ajustando
P
∂E p X
∆vkj (n + 1) = −η =η δkp yjp
∂vkj p=1
donde
y n indica la iteración.
P
X
∆wji (n + 1) = η δjp xpi
p=1
24
donde
M
X
δjp =f netpj δkp vkj
k=1
Se puede observar que el error o valor delta asociado a una neurona oculta j,
viene determinado por la suma de los errores que se cometen en las k neuronas de
salida que reciben como entrada la salida de esa neurona oculta j. De ahı́ que el
sugirieron añadir un factor momento, α, que tiene en cuenta la dirección del in-
Una red del tipo perceptrón multicapa intenta resolver dos tipos de problemas:
25
– Problemas de clasificación, que consisten en la asignación de la categorı́a de
a su vez no tengan relaciones entre sı́ ya que esto puede provocar un sobreajuste
innecesario en el modelo.
entre 0 y 1 ó entre −1 y 1.
sentada por una única neurona. La variable nivel social podrı́a codificarse como:
100 = bajo, 010 = medio, 001 = alto; estando representada por tres neuronas.
26
Entrenamiento de la red neuronal
Arquitectura de la red
de variables predictoras.
Ası́, en los ejemplos anteriores, la variable sexo estarı́a representada por una
neurona que recibirı́a los valores 0 ó 1. La variable status social estarı́a represen-
tada por tres neuronas. La variable puntuación en CI estarı́a representada por una
entre 0 y 1.
esquema que en el caso anterior. Cuando intentamos discriminar entre dos cate-
gorı́as, bastará con utilizar una única neurona (por ejemplo, salida 1 para la cate-
tendremos una única neurona que dará como salida el valor de la variable a esti-
mar.
27
El número de neuronas ocultas determina la capacidad de aprendizaje de la
número de neuronas ocultas con las cuales la red rinda de forma adecuada. Esto
Hay dos formas básicas que cumplen esta condición: la función lineal (o iden-
28
Figure 5: Función lineal
29
Figure 7: Función sigmoidal tangente hiperbólica
al menos en las neuronas de la capa oculta. Por tanto, en general se utilizará una
30
Una vez seleccionado el modelo de red cuya configuración de parámetros ha
el análisis de sensibilidad.
en una salida yk debido al cambio que se produce en una entrada xi . Cuanto mayor
efecto se observe sobre la salida, mayor sensibilidad se puede deducir que presenta
respecto a la entrada.
31
registrando el valor de salida de la red.
forma
m
X
gj (x) = wji φi (x; µi ) + wj0 ,
i=1
j = 1, . . . , C;
donde hay m funciones base, φi , cada una de las cuales tiene una serie de parámetros,
esto es, x se asigna a la clase cuya función discriminante alcanza mayor valor.
ciones no lineales φi .
Si,
32
• φi (x; µi ) ≡ (x)i , esto es, una función lineal discriminante m = p, donde p
es la dimensión de x.
m
X
gj (x) = wji φi (|x − µi |) + wj0
i=1
donde j = 1, . . . n. Los parámetros wji son los pesos; wj0 se denomina el sesgo y
competitivo.
No existe ningún maestro externo que indique si la red neuronal está operando
33
La red auto-organizada debe descubrir rasgos comunes, regularidades, correla-
En el aprendizaje competitivo las neuronas compiten unas con otras con el fin
de llevar a cabo una tarea dada. Se pretende que cuando se presente a la red un
active.
Por tanto, las neuronas compiten por activarse, quedando finalmente una como
neurona vencedora y anuladas el resto, que son forzadas a sus valores de respuesta
mı́nimos.
Las clases o categorı́as deben ser creadas por la propia red, puesto que se trata
entrada.
Fundamentos biológicos
nadas; de forma que las informaciones captadas del entorno a través de los órganos
34
sensoriales, se representan internamente en forma de mapas bidimensionales.
sugiere, por tanto, que el cerebro podrı́a poseer la capacidad inherente de formar
También se ha observado que la influencia que una neurona ejerce sobre las
demás es función de la distancia entre ellas, siendo muy pequeña cuando están
muy alejadas.
en una corona circular de 150 a 400 micras de anchura alrededor del cı́rculo ante-
rior, y de tipo excitatorio muy débil desde ese punto hasta una distancia de varios
centı́metros.
35
Figure 8: Esquema del SOM
serie de medidas de similitud. Estas últimas no tiene por qué ser simétricas
los puntos mantienen las mismas distancias relativas que en el espacio orig-
36
• En el algoritmo de las k-medias cada observación se asigna al cluster cuyo
• El SOM es muy parecido, salvo que en este caso se asocia una cierta estruc-
más próximos en la rejilla sean más parecidos entre sı́ que los que estén muy
separados.
rejilla. Los representantes que están en clases próximas se parecen entre sı́.
• El espı́ritu del SOM es, ası́, proporcionar una versión discreta de MDS.
37
• Kohonen afirma: I just wanted an algorithm that would effectively map sim-
ilar patterns (pattern vectors close to each other in the input signal space)
mapa se conectan con las neuronas adyacentes mediante una relación de vecindad,
que produce la topologı́a o estructura del mapa. Las topologı́as más frecuentes son
la rectangular y la hexagonal.
Durante la fase de entrenamiento, el SOM forma una red elástica que se pl-
que tiende a aproximar la densidad de los datos. Los vectores de referencia del
38
baja densidad de datos.
distancia (similitud) a los vectores del codebook, usando, por ejemplo, la distancia
euclı́dea:
kx − mc k = min {kx − mi k}
i
Paso 2. Una vez que se ha encontrado el vector más próximo o BMU (best match-
ing unit) el resto de vectores del codebook es actualizado. El BMU y sus vecinos
número de pasos de entrenamiento se debe fijar antes a priori, para calcular la tasa
39
centes o incluso en la misma neurona.
den las neuronas a los datos. Habitualmente, el numero de datos es mayor que el
N
1 X
εq = kxi − mc k
N i=1
SOM preserva la topologı́a del conjunto de datos. Esta medida considera la es-
tructura del mapa. En un mapa que esté retorcido de manera extraña, el error
N
1 X
εt = u (xk )
N k=1
40
El SOM es fácil de visualizar y, además, en los últimos años se han desar-
muestra en la figura 9.
para los datos en alta dimensión, de manera que los vectores que se proyectan en
tamaño y topologı́a del mapa se puede observar en el gráfico donde cada elemento
Después se selecciona algún tipo de representación gráfica, por ejemplo una escala
de grises. Los colores en la figura se seleccionan de modo que cuanto más claro
41
Figure 9: Visualización mediante la matriz U. Es un mapa de de tamaño 12 × 8
Se trata de mostrar cómo los vectores de datos son clasificados por el SOM. El
junto de datos.
42
Figure 10: Visualización de un histograma 3D
Aplicaciones
Con el fin de llegar al entendimiento global de las redes neuronales, se suele
43
Las principales aplicaciones son el procesado de señales y el reconocimiento
alelo, adaptativo y no lineal. Las redes neuronales se han aplicado con éxito en
Las aplicaciones más importantes de las redes neuronales son las de aso-
Asociación y Clasificación
44
deben ser clasificadas o reconocidas. Idealmente, un clasificador deberı́a ser en-
trenado para que cuando se le presente una versión ligeramente distorsionada del
red deberı́a presentar cierta inmunidad contra el ruido, esto es, deberı́a ser capaz
ciación y heteroasociación.
termina los pesos en las redes autoasociativas. Por otro lado, la correlación
la red de heteroasociación.
45
supervisadas, como las redes de retropropagación. Este tipo de redes son
apropiadas para las aplicaciones que tienen una gran cantidad de clases con
Generalización
de aprendizaje supervisado.
Una red se considera que esta entrenada con éxito si puede aproximar los
46
Optimización
función de energı́a.
Una vez que se define la función de energı́a, se determinan los pesos sinápticos.
estocásticos.
47
Páginas sobre Redes Neuronales
http://www.bibliopsiquis.com/psicologiacom/vol6num1/3301/
http://www.bibliopsiquis.com/psicologiacom/vol5num2/2833/
http://www.cs.stir.ac.uk/∼lss/NNIntro/InvSlides.html
http://www.willamette.edu/%7Egorr/classes/cs449/intro.html
http://www.ewh.ieee.org/tc/nnc/research/nnpubs.html
http://www.doc.ic.ac.uk/∼nd/
surprise 96/journal/vol4/cs11/report.html
http://www.mathworks.com/access/helpdesk/help/toolbox/nnet/
http://www-ra.informatik.uni-tuebingen.de/SNNS/
48