IA2-C01-P3 - Fundamentos - Ipynb - Colaboratory

Redes Neuronales Arti ciales
Introducción
Ls redes neuronales arti ciales son estructuras paralelas inspiradas en las neuronas biológicas. Una red neuronal está compuesta por
multitud de elementos simples, las llamadas neuronas, interconectadas de una manera más o menos densa y cuyo funcionamiento en
conjunto puede dar lugar a un procesamiento no lineal complejo.
Las redes son capaces de ajustar su funcionamiento a partir de datos experimentales y en base a algún procedimiento de modo que son muy
útiles en situaciones donde el conocimiento del problema es incompleto o varía en el tiempo.
Comenzaremos viendo que es una red neuronal arti cial y su relación con las neuronas biológicas. Una vez comprendido ésto, mostraremos
cuáles son sus principales características y sus ventajas más importantes.
Base biológica de las Redes Neuronales Arti ciales

El elemento básico de una red neuronal es la neurona. Una neurona biológica tiene tres partes principales, a saber, las dendritas, el cuerpo de
la neurona o soma y el axón. Puede ver una imagen de las partes de una neurona biológica aqui.
Las dendritas son bras que transmiten las señales eléctricas al cuerpo de las neuronas, que las suma y si el estímulo es lo su cientemente
grande, potencial de excitación, el cuerpo de la neurona o soma provocará un estímulo, potencial de acción, que transmitirá el estado de la
neurona a las otras neuronas con las que está conectada. Esta conexión se realiza a través de unas largas las denominadas axones.
De manera similar, siguiendo la analogía con la neurona biológica, una neurona arti cial se representa por nodos, el cuerpo de la neurona,
donde se realiza la sumatoria de las señales que recibe de otros nodos o neuronas, valor que es utilizado para generar una señal que es
transmitida a otras neuronas. Puede ver una imagen de las partes de una neurona arti cial aquí.
La teoría y modelado de las redes neuronales arti ciales está inspirada en la estructura y funcionamiento de los sistemas nerviosos, en los
que la neurona es el elemento fundamental de procesamiento. Las unidades de proceso (neuronas arti ciales) son las unidades básicas de
cómputo en una red de neuronas arti ciales y están inspiradas en las neuronas biológicas.Una de las características que diferencian a las
neuronas biológicas del resto de las células vivas, es su capacidad de comunicarse.
Entre las estructuras fundamentales de una célula nerviosa (neurona) típica se encuentran las dendritas, el cuerpo (o soma) de la célula y un
único axón. El axón de muchas neuronas está rodeado por una membrana que se denomina vaina de mielina que se encuentra periódicamente
interrumpida por los nodos de Ranvier. Las conexiones que llegan a una neurona procedentes de otras neuronas se producen en distintos
lugares de la misma conocidos con el nombre de sinapsis.
En términos generales, las dendritas y el cuerpo celular reciben señales de entrada; el cuerpo las combina e integra y emite señales de salida.
El axón transporta esas señales a los terminales axónicos, que se encargan de distribuir información a un nuevo conjunto de neuronas.
Los impulsos nerviosos que pasan a través de estas neuronas que están conectadas pueden dar lugar a cambios locales en el potencial del
cuerpo celular de la neurona receptora. Dichos potenciales pueden ser excitatorios (que hacen disminuir la polarización de la célula) o bien
inhibitorios (que incrementan la polarización de la célula).
Los potenciales de entrada se suman en el montículo del axón. Si la cantidad de despolarización del montículo del axón es su ciente, se
genera un potencial de acción que viaja a lo largo del axón, alejándose del cuerpo celular.
Características de las unidades de proceso inspiradas en las neuronas biológicas

Algunas características de las unidades de proceso inspiradas en las neuronas biológicas son:
1. La unidad de proceso recibe muchas señales.
2. Las señales se pueden modi car por un peso en la sinapsis receptora.
3. La unidad de proceso suma las entradas ponderadas.
4. En la circunstancias propicias (entradas su cientes) la neurona transmite una única salida.
5. La salida de una unidad de proceso puede ser la entrada de otras unidades de proceso.
6. El procesamiento de la información es local.
7. La memoria es distribuida:
La memoria a largo plazo reside en los pesos sinápticos.

La memoria a corto plazo corresponde a las señales enviadas por las neuronas.
8. Los pesos sinápticos se pueden modi car por la experiencia.
Elementos de una red neuronal

Los elementos esenciales de una red neuronal arti cial y las características que los distinguen son los siguientes:
Conexiones entre neuronas, son el equivalente a los axones que transmiten la señal desde el cuerpo de una neurona hacia la salida a
otras neuronas. El peso o importancia de una conexión entre dos neuronas i y j vendrá dado por el peso wij de esa conexión.
wij > 0 → enlace excitador

wij < 0 → enlace inhibidor
Potencial de entrada, son los potenciales de entrada (valores) que son recibidos por una neurona, por las distintas conexiones. Una
neurona sólo es activada cuando el potencial sináptico alcanza un determinado umbral, este potencial es la suma de todos los
potenciales de entrada. Se suele identi car como N etj para el caso de la neurona j.
n
N etj = ∑ wij ⋅ xi
i=1
Estado de activación, es el estado en el que se encuentra toda la neurona, de forma simpli cada, reposo o excitación. En las neuronas
arti ciales simples, no se considera el estado anterior por lo que el estado de activación dependerá exclusivamente de la entrada actual.
Su valor puede ser discreto o continuo.
Estado Descripción del estado Ejemplos
Valores binarios o
Valores Discretos ;
{0, 1} {−1, 1}
conjunto pequeño de elementos

Valores limitados o
Valores continuos ;
[0, 1] [−1, 1]
Valores ilimitados, cualquier real
Función de activación, elemento que permite la evaluación de las entradas dadas a una neurona, para veri car si su salida debe activarse
o no. De esto se encarga la función de activación, que dependiendo del estado de activación actual y de su entrada modi cará su estado.
aj (k + 1) = F (N etj ; aj (k))
Función de salida, elemento que permite a la neurona generar un valor de salida adecuado, de acuerdo a su estado de activación,
también conocido con el nombre de función de transferencia.
y j (k + 1) = f (aj (k + 1))
Aunque pueden utilizarse todos estos elementos para cada neurona, normalmente se simpli ca y se traslada gran parte de la funcionalidad de
la red a la estructura de interconexión entre las neuronas. Por esto, no se almacena o se utiliza el estado anterior de la neurona, sino que el
estado es directamente provocado por sus entradas en cada momento de operación. Así mismo, tampoco se utiliza la función de
transferencia, sino que se utiliza el valor de la función de activación como salida de la red. De este modo la salida de la red resulta ser la
siguiente:
y j = F (N etj )
Topología: Organización de las neuronas y conectividad

Las neuronas en una red neuronal se organizan en niveles o capas, existen redes monocapa y redes multicapa. Las neuronas se pueden
conectar entre neuronas de una capa y la siguiente de modo que no existen lazos, como las redes del tipo hacia adelante (feedforward)
también se permiten que existan conexiones entre neuronas de la misma capa, conexiones hacia capa anteriores o conexiones a sí mismas,
dependiendo del tipo de red.
En general, una red neuronal puede ser considerado como un grafo dirigido y ponderado. Cada uno de sus nodos representa una neurona
arti cial. Si el arco es de entrada, llevará asociado en cada momento un valor o peso o ponderación.
Una clasi cación de las redes atendiendo a las características del grafo y a si posee lazos de realimentación es el siguiente:
Redes monocapa, establece conexiones laterales entre las neuronas de la misma capa, se utilizan típicamente en tareas relacionales, lo
que se conoce como auto-asociación, por ejemplo para la generación de informaciones de entrada que son incompletas o están
distorsionadas. Ejemplo de este tipo de redes son la red de Hop eld y la red Brain-State-In-A-Box.
Redes multicapa, disponde de neuronas agrupadas en varios niveles que se identi can como 1, 2, … , N , las capas se distinguen por
las señales que reciben:
Conexiones sólo hacia adelante (feedforward), no existen conexiones hacia neuronas previas, es decir de una neurona i
hacia una neurona i − 1 , ni autorecurrentes, ni laterales. Ejemplos de este tipo de red, son el perceptron, la adaline, el
perceptron multicapa, entre otros.
Conexiones hacia atrás (feedback), suelen aparecer en redes bicapa y son útiles para realizar una asociación de las
entradas con la salida, se basan en la resonancia. Ejemplos de este tipo de red, son la ART o el Neocognitron.
Tipo de asociación de entrada/salida

Dependiendo del tipo de relación que se busca que cree la red entre los datos de entrada y su salida, las redes neuronales se pueden clasi car
en heteroasociativas o autoasociativas.
Redes heteroasociativas, en este tipo de red, la red aprende parejas de datos [(A1 , B1 ), (A2 , B2 ), (A3 , B3 ), …] de forma que si se
presenta Ai la red responderá Bi .Estas redes calculan una cierta función, no necesariamente expresable analíticamente, entre la
entrada y la salida. Necesitan al menos dos capas, una para captar y retener la información de entrada y otra para retener la salida.
Ejemplos de este tipo de redes son el perceptron, los SOM o mapas auto-organizados, la ART, la backpropagation, entre otros.
Redes autoasociativas, son aquellas en que la red aprende ciertas con guraciones A1 , A2 , A3 , … , An de forma que cuando se
presenta una información de entrada, realizará una correlación respondiendo con uno de los datos almacenados, el que más se le
parezca. Su principal objetivo es reconstruir la información que se le presenta incompleta o distorsionada. Ejemplos de este tipo de
redes son la red de Hop eld o la red Brain-State-In-A-Box.
Ventajas de las redes neuronales arti ciales
Las ventajas de las redes neuronales arti ciales, como sistemas de aprendizaje, son diversas, las más destacadas se detallan a continuación:
Aprendizaje adaptativo, capacidad de aprender a realizar tareas basadas en la experiencia a partir de un entrenamiento con datos
parciales. Se puede aplicar a muchos problemas, siempre que haya algunos datos. Si hay un patrón, entonces las redes neuronales
deberían resolverlo rápidamente, incluso si los datos son "ruidosos".
Auto organización, la red puede crear su propia organización o su propia representación de los datos después de una etapa de
aprendizaje, esta representación se basa en datos utilizados para el aprendizaje.
Tolerancia a fallos, una destrucción parcial de la red conduce a una degradación de los resultados pero, en muchos casos, la red puede
seguir funcionando. Siempre da alguna respuesta incluso cuando la información de entrada no está completa.
Operación en tiempo real, los computadores neuronales pueden ser realizados para trabajar en paralelo.
Fácil inserción dentro de tecnología existente, una red puede ser rápidamente entrenada, comprobada, veri cada y trasladada a
hardware con bajo costo, lo que permite su inserción a tareas especí cas.
No linealidad, la neurona realiza, en general, una transformación no lineal de su entrada, la combinación de las distintas neuronas podrá
representar funciones no lineales. Es decir, se pueden utilizar para modelar dependencias no lineales.
Método de aproximación para estudio, Se puede aplicar a problemas, para los cuales aún no existen métodos analíticos.
Fáciles de contruir y mantener, las redes son fáciles de mantener.
Limitaciones de las redes neuronales
Al igual que con cualquier modelo basado en datos, no se pueden utilizar si no hay o son muy pocos los datos disponibles.
En las redes neuronales hay muchos parámetros libres, como el número de nodos ocultos, la velocidad de aprendizaje, el error mínimo,
que puede in uir enormemente en el resultado nal.
Las redes neuronales no son buenas para aritmética y cálculos precisos.
Las redes neuronales no proporcionan explicaciones. Si hay muchos nodos, entonces hay demasiados pesos que son difíciles de
interpretar (a diferencia del pendientes en modelos lineales, que pueden verse como correlaciones). En algunas tareas, las explicaciones
son cruciales (por ejemplo, control de trá co aéreo, diagnóstico médico).
El proceso de aprendizaje
Una de las características más importantes de las redes neuronales es su capacidad de aprendizaje, esto es, la posibilidad de modi car los
parámetros para adaptarse a la interacción con una entrada proporcionada por el medio que las rodea. (Pajares y Cruz, 2011)
Según sea la forma de adaptación nos referiremos a un determinado tipo de aprendizaje u otro, en general, el proceso de aprendizaje implica
un estímulo o interacción de la red con el medio y un ajuste de sus parámetros mediante un algoritmo concreto.
La interacción de la red con el medio se la conoce como tipo de aprendizaje o paradigma, entre los más importantes se puede destacar el
aprendizaje supervisado, el aprendizaje por refuerzo y el aprendizaje no supervisado.
Tengamos en cuenta que se considera que una red ha aprendido cuando los parámetros que se están ajustando, por medio de algún
algoritmo, permanecen estables durante la fase de entrenamiento, a partir de un determinado momento de tiempo.
Así por ejemplo, si los parámetros variables de la red son los pesos, wij que conectan dos neuronas, se considera que la red ha aprendido
cuando se cumple que:
dwij
= 0
dt
Algoritmo de aprendizaje
Los algoritmos de aprendizaje tratan de buscar la forma de modi car los parámetros de la red para que el funcionamiento de ésta sea
semejante a lo que se busca. Normalmente los parámetros a modi car son los pesos de las conexiones de nidas entre las neuronas y la
forma de cómo se realiza la modi cación dependerá del modo en que se desea que la red aprenda.
Corrección del error
En los algoritmos de aprendizaje se conoce como error a la diferencia que existe entre la salida que proporciona la red y la salida que se
espere proporcione. Modi car los parámetros de la red para que disminuya este error es la forma más clara de intento para que la red aprenda.
El objetivo para el aprendizaje será minimizar el error en todas las neuronas de salida, para esto se puede de nir una función de coste, por lo
que el problema del aprendizaje se reduce a un problema de optimización.
Si consideramos a y n (k) la salida de una neurona n en el punto k y dn (k) la salida deseada, el error en el punto k se puede de nir como:
en (k) = y n (k) − dn (k)
Una forma de obtener una función de costo razonable es aplicar el criterio de mínimos cuadrados y reducir el valor esperado del error:
N
1
2
J = E [ ∑ en ]
2
n=0
Así, buscamos encontrar cuál es la variación de parámetros que minimice la suma de los cuadrados de los errores de todas las neuronas de
salida (LSM, Least_Mean-Squared-Error). Se utiliza el cuadrado de la salida para no tener en cuenta el signo del error, es decir, que sea
equivalente el pasarse por exceso que por defecto.
Esta función de costo es la más utilizada y da lugar al método de retro propagación o de backpropagation. Una aproximación a la ecuación
anterior es usar el error instantáneo:
N
1
2
J (k) = ∑ en (k)
2
n=0
Al buscar el mínimo de la función de nida en la ecuación previa obtenemos, en caso de no tener neuronas ocultas, la regla de Widrow-Hoff o
regla delta:
Δwij = α ⋅ y i (dj − y j )
donde y i es la salida de la neurona de entrada, y j la salida de la neurona de salida y α es un parámetro que ajusta la velocidad de aprendizaje,
este parámetro deberá elegirse con cuidado para evitar inestabilidades en el proceso.
Regla de Hebb
La regla de Hebb es otro algoritmo de aprendizaje, en este caso se intenta que la red aprenda siguiendo el mecanismo biológico, fue propuesta
por (Hebb, 1949). Mantiene que cuando dos neuronas están conectadas y están activas simultáneamente el peso sináptico que las une
debería reforzarse, pero que cuando una neurona está activa y la otra inhibida, su peso debería disminuir.
Para formular matemáticamente la regla de aprendizaje de Hebb deberíamos encontrar una ecuación que nos marque la variación del peso de
conexión wij dependiendo de las señales pre y post sinápticas xi y y j
Δwij = F (xi (k), y j (k))
La expresión más sencilla para realizar la ecuación anterior es:
Δwij = α ⋅ xi (k) ⋅ y j (k)
La expresión anterior representa claramente la regla de Hebb, supongamos que valores positivos representan activación y valores negativos
representan inhibición. Cuando la entrada xi de la neurona (la salida de la neurona anterior) está activa al igual que su salida y j , se refuerza la
conexión, esto es se incrementa wij y si las dos están inhibidas, tambien se incrementa. Y cuando la salida de la primera neurona xi que es la
entrada de la segunda, está activa pero la neurona está inhibida (podría ser a la inversa también) tenemos que xi y y j tienen signos contrarios,
con lo que el valor de wij decrece, es decir se penaliza la conexión.
El mayor problema de la ecuación anterior es que los pesos wij crecen inde nidamente y por lo tanto se hace necesario jar un límite, esto es
establecer un nivel de saturación. Una forma sencilla de evitar este crecimiento ilimitado consiste en añadir un factor de olvido, de esta forma
obtenemos la regla de Oja (Oja y col., 1992) que mantiene los pesos acotados en torno al valor de la unidad,
Δwij = α ⋅ y j (k) (xi (k) − y j (k) ⋅ wij (k))
Algoritmo Competitivo
En el algoritmo competitivo, las neuronas de la capa de salida se conectan entre sí y compiten entre ellas de forma que se inhiben unas a
otras, siendo la ganadora la que inhibe. De este modo, para cada entrada de una muestra sólo queda una neurona activa, que es la que
representará al patrón de entrada. Este tipo de aprendizaje, que se denomina “el ganador toma todo” es muy útil para encontrar patrones,
agrupaciones de características, como el del problema de la investigación, siendo la neurona vencedora la que detecta y representa la
característica del grupo.
El algoritmo está orientado a que la neurona ganadora actualice sus pesos de forma que aprenda las características del patrón de la entrada.
Bajo esta consideración, el procedimiento de aprendizaje es el que aparece en la ecuación:
α ⋅ (x − wij ) si la neurona j vence
Δwij = {
0 si la neurona j pierde
A partir de la ecuación anterior se puede ver que los pesos entre las neuronas de entrada y la neurona ganadora tienden a tomar el mismo
valor que la entrada x, estando la velocidad de la tendencia controlada por el factor α .
Tipos de aprendizaje
Por tipo de aprendizaje entendemos el modo en el que la red interactúa con su entorno para aprender. Es decir, la forma en la que se trata o
interpreta el estímulo que se le presenta a la red y cómo se aplica el algoritmo de aprendizaje.
Entre los más conocidos se encuentran el aprendizaje supervisado, el aprendizaje por refuerzo y el aprendizaje no supervisado.
Aprendizaje supervisado
En el aprendizaje supervisado se le muestra a la red un conjunto de experiencias, denominados patrones y se le indica que es lo que debería
generar la red como salida, denominada salida deseada. Con esta información la red calcula cuál debería ser el cambio en sus parámetros
para ajustar la salida a la esperada. Para ajustar sus parámetros se aplica alguno de los algoritmos de aprendizaje indicados en la sección
anterior.
La formulación matemática inicial del problema es la siguiente:

Dado un conjunto de puntos x(1) , . . . , x(m) asociado a un conjunto de etiquetas y (1) , . . . , y (m) , queremos construir un algoritmo que
aprenda cómo predecir y dado x.
Tendremos así reglas de aprendizaje basadas en la corrección del error, como la regla de retropropagación del error en el caso del Perceptrón
y el algoritmo de mínimos cuadrados, muy utilizados en problemas de clasi cación y predicción.
Las aplicaciones en donde esta modalidad de aprendizaje es más utilizado son en la clasi cación de patrones, la aproximación de funciones y
la identi cación o construcción de modelos.
Aprendizaje por refuerzo

Este tipo de aprendizaje consiste en aplicar un proceso de prueba y error donde se intenta maximizar un determinado parámetro escalar,
denominado señal de refuerzo.
Tiene su origen en el aprendizaje llevado a cabo con ciertos animales donde se aplica la recompensa o penalización dependiendo de si la
acción realizada es correcta o no, es decir, si como resultado de una acción se obtiene un resultado satisfactorio el sistema de aprendizaje
refuerza la señal que provoca esa acción y en caso contrario la señal se disminuye.
El objetivo del aprendizaje por refuerzo es encontrar la secuencia de acciones que dan lugar a la mayor recompensa, lo que implica que se
obtenga la máxima señal de refuerzo posible. En este tipo de aprendizaje se considera que los procesos a estudiar son Procesos de Decisión
de Markov (MDP) de primer orden. Estos procesos se caracterizan porque la probabilidad de que un agente en un estado determinado
x(k + 1) reciba un refuerzo (o recompensa) r(k + 1) sólo depende del estado anterior x(k) y de la acción aplicada a(k),
independientemente del proceso previo o histórico que le haya llevado al estado x(k).
Aprendizaje no supervisado
En este tipo de aprendizaje el proceso de aprendizaje no requiere algún elemento externo que le indique la calidad de la medida o
representación de la red, es decir no recibe información sobre si la respuesta de la red es correcta o no a alguna entrada. Esto es, para ajustar
los valores de sus pesos o ponderaciones de las conexiones de las neuronas solo dispone de las entradas a la red.
La red por sí misma buscará su comportamiento más adecuado atendiendo a cierto criterio y encontrará estructuras o prototipos en el
conjunto de patrones de entrenamiento.
Este tipo de redes, dado su modo de aprendizaje, pueden llevar a cabo operaciones relacionadas con los siguientes aspectos:
Mapeo de características, las neuronas de salida representan un mapa topográ co de las características de los datos de entrada,
informaciones similares afectan siempre a neuronas próximas entre sí.
Determinar el grado de familiaridad o similitud entre la información presentada y la mostrada anteriormente en el pasado.
Establecer categorías o agrupamientos, que indican a qué categoría pertenece la información presentada, siendo la red la que crea las
categorías.
Codi car los datos de entradas, manteniendo por ejemplo la información relevante.
Como ejemplo tenemos la regla de aprendizaje competitivo no supervisado (utilizada en problemas de agrupación de patrones y obtención de
prototipos), la regla de Kohonen (utilizada en reconocimiento e identi cación de patrones) y la regla de Hebb.
Referencias
Inspiración biológica de las redes neuronales arti ciales
Hoja de referencia de Aprendizaje Supervisado
Hoja de Referencia de Aprendizaje no Supervisado

IA2-C01-P3 - Fundamentos - Ipynb - Colaboratory

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

IA2-C01-P3 - Fundamentos - Ipynb - Colaboratory

Cargado por

Copyright:

Formatos disponibles

Redes Neuronales Arti ciales

Base biológica de las Redes Neuronales Arti ciales

Características de las unidades de proceso inspiradas en las neuronas biológicas

1. La unidad de proceso recibe muchas señales.

2. Las señales se pueden modi car por un peso en la sinapsis receptora.

3. La unidad de proceso suma las entradas ponderadas.

4. En la circunstancias propicias (entradas su cientes) la neurona transmite una única salida.

6. El procesamiento de la información es local.

La memoria a largo plazo reside en los pesos sinápticos.

8. Los pesos sinápticos se pueden modi car por la experiencia.

Elementos de una red neuronal

wij > 0 → enlace excitador

conjunto pequeño de elementos

Topología: Organización de las neuronas y conectividad

Tipo de asociación de entrada/salida

en (k) = y n (k) − dn (k)

Δwij = F (xi (k), y j (k))

La expresión más sencilla para realizar la ecuación anterior es:

Δwij = α ⋅ xi (k) ⋅ y j (k)

Δwij = α ⋅ y j (k) (xi (k) − y j (k) ⋅ wij (k))

La formulación matemática inicial del problema es la siguiente:

Aprendizaje por refuerzo

Hoja de referencia de Aprendizaje Supervisado

Hoja de Referencia de Aprendizaje no Supervisado

También podría gustarte