Está en la página 1de 4

Aprendizaje de Hebb

A finales de la década de 1940 el psicólogo Donald Hebb34 creó una hipótesis de


aprendizaje basado en el mecanismo de plasticidad neuronal que ahora se conoce como
aprendizaje de Hebb. Aprendizaje de Hebb se considera que es un "típico" de
aprendizaje no supervisado y sus variantes posteriores fueron los primeros modelos
de la potenciación a largo plazo. Los investigadores empezaron a aplicar estas
ideas a los modelos computacionales en 1948 con la sugerencia de Turing, que el
córtex humano infantil es lo que llamaba "máquina desorganizada" (también conocido
como "máqina Turing Tipo B").56

Farley y Wesley A. Clark7 (1954) al principio utilizaron máquinas computacionales,


que entonces se llamaban "calculadoras", para simular una red de Hebb en el MIT.
Otras simulaciones de redes neuronales por computadora han sido creadas por
Rochester, Holanda, Hábito y Duda (1956).8

Frank Rosenblatt9 10 (1958) creó el perceptrón, un algoritmo de reconocimiento de


patrones basado en una red de aprendizaje de computadora de dos capas, que
utilizaba adición y sustracción simples. Con la notación matemática, Rosenblatt
también describe circuitería que no está en el perceptrón básico, tal como el
circuito de o-exclusiva, un circuito que no se pudo procesar por redes neuronales
antes de la creación del algoritmo de propagación hacia atrás por Paul Werbos
(1975).11

En 1959, un modelo biológico propuesto por dos laureados de los Premios Nobel,
David H. Hubel y Torsten Wiesel, estaba basado en su descubrimiento de dos tipos de
células en la corteza visual primaria: células simples y células complejas.12

El primer reporte sobre redes funcionales multicapas fue publicado en 1965 por
Ivakhnenko y Lapa, y se conoce como el método de agrupamiento para el manejo de
datos.131415

La investigación de redes neuronales se estancó después de la publicación de la


investigación de aprendizaje automático por Marvin Minsky y Seymour Papert (1969)16
, que descubrió dos cuestiones fundamentales con las máquinas computacionales que
procesan las redes neuronales. La primera fue que los perceptrones básicos eran
incapaces de procesar el circuito de o-exclusivo. La segunda cuestión importante
era que los ordenadores no tenían suficiente poder de procesamiento para manejar
eficazmente el gran tiempo de ejecución requerido por las grandes redes neuronales.

Propagación hacia atrás y el resurgimiento


Un avance clave posterior fue el algoritmo de propagación hacia atrás que resuelve
eficazmente el problema de o-exclusivo, y en general el problema del entrenamiento
rápido de redes neuronales de múltiples capas (Werbos 1975). El proceso de
propagación hacia atrás utiliza la diferencia entre el resultado producido y el
resultado deseado para cambiar los "pesos" de las conexiones entre las neuronas
artificiales.11

A mediados de la década de 1980, el procesamiento distribuido en paralelo se hizo


popular con el nombre conexionismo. El libro de David E. Rumelhart y James
McClelland (1986) proporcionan una exposición completa de la utilización de
conexionismo en los ordenadores para simular procesos neuronales.17

Las redes neuronales, tal como se utilizan en la inteligencia artificial, han sido
consideradas tradicionalmente como modelos simplificados de procesamiento neuronal
en el cerebro, a pesar de que la relación entre este modelo y la arquitectura
biológica del cerebro se debate; no está claro en qué medida las redes neuronales
artificiales reflejan el funcionamiento cerebral.

Máquinas de soporte vectorial y otros métodos mucho más simples, tales como los
clasificadores lineales, alcanzaron gradualmente popularidad en el aprendizaje
automático. No obstante, el uso de redes neuronales ha cambiado algunos campos,
tales como la predicción de las estructuras de las proteínas.1819

En 1992,fue introducido el max-pooling (una forma de submuestreo, en la que se


divide los datos en grupos de tamaños iguales, que no tienen elementos en común, y
se transmite solamente el valor máximo de cada grupo)para ayudar con el
reconocimiento de objetos tri-dimensionales.202122

En 2010, el uso de max-pooling en el entrenamiento por propagación hacia atrás fue


acelerado por los GPUs, y se demostró que ofrece mejor rendimiento que otros tipos
de agrupamiento.23

El problema del desvanecimiento del gradiente afecta las redes neuronales


prealimentadas de múltiples capas, que usan la propagación hacia atrás, y también
los redes neuronales recurrentes (RNNs).2425 Aunque los errores se propagan de una
capa a otra, disminuyen exponencialmente con el número de capas, y eso impide el
ajuste hacia atrás de los pesos de las neuronas basado en esos errores. Las redes
profundas se ven particularmente afectadas.

Para vencer este problema, Schmidhuber adoptaba una jerarquía multicapa de redes
(1992) pre entrenados, una capa a la vez, por aprendizaje no supervisado, y
refinado por propagación hacia atrás.26 Behnke (2003) contaba solamente con el
signo del gradiente (Rprop)27 tratándose de problemas tales como la reconstrucción
de imágenes y la localización de caras.

Como retos anteriores en redes neuronales profundas de capacitación se resolvieron


con métodos como pre-entrenamiento no supervisado y potencia de cálculo
incrementada a través del uso de las GPU y la computación distribuida, las redes
neuronales se desplegaron de nuevo a gran escala, sobre todo en problemas de
procesamiento de imágenes y de reconocimiento visual. Esto se conoció como
"aprendizaje profundo", aunque el aprendizaje profundo no es estrictamente sinónimo
de redes neuronales profundas.

Diseños basados en Hardware


Se crearon en CMOS dispositivos de cómputo para la simulación biofísica al igual
que para la cómputo neuromórfico. Nanodispositivos28 para análisis de componentes
principales de escala muy grande y convolución pueden crear una clase nueva de
cómputo neuronal, porque son fundamentalmente analógicos en vez de digitales
(aunque las primeras implementaciones puedan utilizar dispositivos digitales).29
Ciresan y sus cólegos (2010)30 en el grupo de Schmidhuber mostraron que, a pesar
del problema del desvanecimiento del gradiente, los GPUs hacen factible la
propagación hacia atrás para las redes neuronales prealimentadas con múltiples
capas.

Mejoras desde 2006


Se han creado dispositivos computacionales en el CMOS, tanto para la simulación
biofísica como para computación neuromórfica. Los esfuerzos más recientes se
muestran prometedores para la creación de nanodispositivos31 para análisis de
componentes principales de gran escala. Si tiene éxito, se crearía una nueva clase
de computación neuronal, ya que depende de aprendizaje automático en lugar de la
programación y porque es fundamentalmente analógico en lugar de digital a pesar de
que las primeras instancias pueden ser de hecho con los dispositivos digitales
CMOS.32

Entre 2009 y 2012, las redes neuronales recurrentes y redes neuronales profundas
feedforward desarrollados en el grupo de investigación de Jürgen Schmidhuber en el
laboratorio suizo de IA IDSIA han ganado ocho concursos internacionales de
reconocimiento de patrones y aprendizaje automático. Por ejemplo, la memoria bi-
direccional y multidimensional de largo a corto plazo (LSTM) de Alex Graves ha
ganado tres competiciones en el reconocimiento de escritura conectada en
Conferencia Internacional sobre Análisis de documentos y Reconocimiento (ICDAR) del
2009, sin ningún conocimiento previo acerca de los tres idiomas diferentes que se
pueden aprender.

Implementaciones de este método basadas en unidades de procesamiento gráfico


rápidas, hechos por Dan Ciresan y sus colegas de IDSIA han ganado varios concursos
de reconocimiento de patrones, incluyendo la Competición de Reconocimiento de
Señales de Tráfico del 2011,33 el desafío de ISBI 2012 de segmentación de
estructuras neuronales en series de imágenes de Microscopía Electrónica,34 y otros.
Sus redes neuronales también fueron las primeras reconocedoras artificiales de
patrones en lograr un rendimiento superior al humano en los puntos de referencia
importantes, tales como el reconocimiento de señales de tráfico (IJCNN 2012) o el
problema de clasificación de dígitos escritos a mano.

Arquitecturas profundas altamente no lineales similares a las del 1980 Neocognitrón


por Kunihiko Fukushima y la "arquitectura estándar de la visión", inspirados en las
células simples y complejas identificadas por David H. Hubel y Torsten Wiesel en la
corteza visual, pueden también ser pre-formados por métodos no supervisados en el
laboratorio de la universidad de Toronto. Un equipo de este laboratorio ganó un
concurso en 2012 patrocinado por Merck para el diseño de software para ayudar a
encontrar moléculas que podrían conducir a nuevos medicamentos.

Modelos
Los modelos de redes neuronales en la inteligencia artificial se refieren
generalmente a las redes neuronales artificiales (RNA); estos son modelos
matemáticos esencialmente simples que definen una función f:X→Y o una distribución
más X o ambos X e Y. Pero a veces los modelos también están íntimamente asociadas
con un algoritmo de aprendizaje en particular o regla de aprendizaje. Un uso común
de la frase "modelo ANN" es en realidad la definición de una clase de tales
funciones (donde los miembros de la clase se obtiene variando parámetros, los pesos
de conexión, o específicos de la arquitectura, tales como el número de neuronas o
su conectividad).

Función de red
La palabra red en el término "red neuronal artificial" se refiere a las
interconexiones entre las neuronas en las diferentes capas de cada sistema. Un
sistema ejemplar tiene tres capas. La primera capa tiene neuronas de entrada que
envían datos a través de las sinapsis a la segunda capa de neuronas, y luego a
través de más sinapsis a la tercera capa de neuronas de salida. Los sistemas más
complejos tendrán más capas, algunos aumentando las de entrada y de salida de
neuronas. Las sinapsis almacenan parámetros llamados "pesos" que manipulan los
datos en los cálculos.

Un RNA se define típicamente por tres tipos de parámetros:

1. El patrón de interconexión entre las diferentes capas de neuronas

2. El proceso de aprendizaje para la actualización de los pesos de las


interconexiones

3. La función de activación que convierte las entradas ponderadas de una neurona a


su activación a la salida.

Matemáticamente, la función de red de una neurona {\displaystyle {\begin{alignedat}


{2}f(x)\\\end{alignedat}}}{\displaystyle {\begin{alignedat}
{2}f(x)\\\end{alignedat}}} se define como una composición de otras funciones
{\displaystyle g_{i}{\begin{alignedat}{2}(x)\\\end{alignedat}}}{\displaystyle g_{i}
{\begin{alignedat}{2}(x)\\\end{alignedat}}}. Este se representa como una estructura
de red, con flechas que representan las dependencias entre variables.Un tipo
ampliamente utilizado de la composición es la suma ponderada no lineal ,
donde{\displaystyle {\begin{alignedat}{2}f(x)&=k&{\bigl (}\textstyle \sum
_{i}\displaystyle &w_{i}&g_{i}(x))\\\end{alignedat}}}{\displaystyle
{\begin{alignedat}{2}f(x)&=k&{\bigl (}\textstyle \sum _{i}\displaystyle
&w_{i}&g_{i}(x))\\\end{alignedat}}}, dónde k (denominado comúnmente como la función
de activación35) es una función predefinida, como la tangente hiperbólica o función
sigmoide . La característica importante de la función de activación es que
proporciona una transición suave como valores de entrada de cambio, es decir, un
pequeño cambio en la entrada produce un pequeño cambio en la producción. Será
conveniente para la siguiente para referirse a una colección de funciones
{\displaystyle g_{i}}{\displaystyle g_{i}}simplemente como un vector {\displaystyle
g=(g_{i},g_{2},...,g_{n})}{\displaystyle g=(g_{i},g_{2},...,g_{n})} .

Esta cifra representa una descomposición de tales {\displaystyle f}f, Con las
dependencias entre las variables indicadas por las flechas. Estos pueden ser
interpretados de dos maneras.

La primera vista es la vista funcional: la entrada {\displaystyle x}x se transforma


en un vector de 3 dimensiones {\displaystyle h}h, Que se transforma a continuación
en un vector de 2 dimensiones {\displaystyle g}g, Que es finalmente transformado en
{\displaystyle f}f. Este punto de vista se encuentra más comúnmente en el contexto
de la optimización.

También podría gustarte