Introduccion A Redes Neuronales. WIKI

Las redes neuronales artificiales (tambi�n conocidas como sistemas conexionistas)
son un modelo computacional vagamente inspirado en el comportamiento observado en

su hom�logo biol�gico1?. Consiste en un conjunto de unidades, llamadas neuronas
artificiales, conectadas entre s� para transmitirse se�ales. La informaci�n de
entrada atraviesa la red neuronal (donde se somete a diversas operaciones)
produciendo unos valores de salida.
Cada neurona est� conectada con otras a trav�s de unos enlaces. En estos enlaces el
valor de salida de la neurona anterior es multiplicado por un valor de peso. Estos
pesos en los enlaces pueden incrementar o inhibir el estado de activaci�n de las
neuronas adyacentes. Del mismo modo, a la salida de la neurona, puede existir una
funci�n limitadora o umbral, que modifica el valor resultado o impone un l�mite que
se debe sobrepasar antes de propagarse a otra neurona. Esta funci�n se conoce como
funci�n de activaci�n.
Estos sistemas aprenden y se forman a s� mismos, en lugar de ser programados de

forma expl�cita, y sobresalen en �reas donde la detecci�n de soluciones o
caracter�sticas es dif�cil de expresar con la programaci�n convencional. Para
realizar este aprendizaje autom�tico, normalmente, se intenta minimizar una funci�n
de p�rdida que eval�a la red en su total. Los valores de los pesos de las neuronas
se van actualizando buscando reducir el valor de la funci�n de p�rdida. Este
proceso se realiza mediante la propagaci�n hacia atr�s.
El objetivo de la red neuronal es resolver los problemas de la misma manera que el

cerebro humano, aunque las redes neuronales son m�s abstractas. Las redes
neuronales actuales suelen contener desde unos miles a unos pocos millones de
unidades neuronales.
Nuevas investigaciones sobre el cerebro a menudo estimulan la creaci�n de nuevos

patrones en las redes neuronales. Un nuevo enfoque est� utilizando conexiones que
se extienden mucho m�s all� y capas de procesamiento de enlace en lugar de estar
siempre localizado en las neuronas adyacentes. Otra investigaci�n est� estudiando
los diferentes tipos de se�al en el tiempo que los axones se propagan, como el
aprendizaje profundo, interpola una mayor complejidad que un conjunto de variables
booleanas que son simplemente encendido o apagado.
Las redes neuronales se han utilizado para resolver una amplia variedad de tareas,
como la visi�n por computador y el reconocimiento de voz, que son dif�ciles de
resolver usando la ordinaria programaci�n basado en reglas. Hist�ricamente, el uso
de modelos de redes neuronales marc� un cambio de direcci�n a finales de los a�os
ochenta de alto nivel, que se caracteriza por sistemas expertos con conocimiento
incorporado en si-entonces las reglas, a bajo nivel de aprendizaje autom�tico,
caracterizado por el conocimiento incorporado en los par�metros de un modelo
cognitivo con alg�n sistema din�mico.
�ndice
1 Historia
1.1 Aprendizaje de Hebb
1.2 Propagaci�n hacia atr�s y el resurgimiento
1.3 Dise�os basados en Hardware
2 Mejoras desde 2006
3 Modelos
3.1 Funci�n de red
3.2 El aprendizaje
3.3 La elecci�n de una funci�n de coste
3.4 Paradigmas de aprendizaje
3.4.1 El aprendizaje supervisado
3.4.2 Aprendizaje no supervisado
3.4.3 Aprendizaje por refuerzo
3.5 Tipo de entrada
4 Algoritmos de aprendizaje
4.1 Algoritmo recursivo convergente de aprendizaje
4.2 El empleo de redes neuronales artificiales
5 Aplicaciones
5.1 Aplicaciones de la vida real
5.2 Las redes neuronales y la neurociencia
6 Potencia del c�lculo
7 La cr�tica
7.1 Cuestiones de capacitaci�n
7.2 Cuestiones te�ricas
8 Las clases y tipos de RNAs
9 Ejemplos
9.1 Quake II Neuralbot
9.2 Clasificador No Sesgado de Prote�nas
10 Galer�a
11 Herramientas de software
12 V�ase tambi�n
13 Referencias
14 Enlaces externos
Historia
Warren McCulloch y Walter Pitts 2? (1943) crearon un modelo inform�tico para redes
neuronales, que se llama l�gica umbral, que se base en las matem�ticas y los
algoritmos. Este modelo se�al� el camino para que la investigaci�n de redes
neuronales se divida en dos enfoques distintos. Un enfoque se centr� en los
procesos biol�gicos en el cerebro y el otro se centr� en la aplicaci�n de redes
neuronales para la inteligencia artificial.
Aprendizaje de Hebb
A finales de la d�cada de 1940 el psic�logo Donald Hebb3?4? cre� una hip�tesis de
aprendizaje basado en el mecanismo de plasticidad neuronal que ahora se conoce como
aprendizaje de Hebb. Aprendizaje de Hebb se considera que es un "t�pico" de
aprendizaje no supervisado y sus variantes posteriores fueron los primeros modelos
de la potenciaci�n a largo plazo. Los investigadores empezaron a aplicar estas
ideas a los modelos computacionales en 1948 con la sugerencia de Turing, que el
c�rtex humano infantil es lo que llamaba "m�quina desorganizada" (tambi�n conocido
como "m�qina Turing Tipo B").5?6?
Farley y Wesley A. Clark7? (1954) al principio utilizaron m�quinas computacionales,

que entonces se llamaban "calculadoras", para simular una red de Hebb en el MIT.
Otras simulaciones de redes neuronales por computadora han sido creadas por
Rochester, Holanda, H�bito y Duda (1956).8?
Frank Rosenblatt9? 10? (1958) cre� el perceptr�n, un algoritmo de reconocimiento de

patrones basado en una red de aprendizaje de computadora de dos capas, que
utilizaba adici�n y sustracci�n simples. Con la notaci�n matem�tica, Rosenblatt
tambi�n describe circuiter�a que no est� en el perceptr�n b�sico, tal como el
circuito de o-exclusiva, un circuito que no se pudo procesar por redes neuronales
antes de la creaci�n del algoritmo de propagaci�n hacia atr�s por Paul Werbos
(1975).11?
En 1959, un modelo biol�gico propuesto por dos laureados de los Premios Nobel,
David H. Hubel y Torsten Wiesel, estaba basado en su descubrimiento de dos tipos de
c�lulas en la corteza visual primaria: c�lulas simples y c�lulas complejas.12?
El primer reporte sobre redes funcionales multicapas fue publicado en 1965 por
Ivakhnenko y Lapa, y se conoce como el m�todo de agrupamiento para el manejo de
datos.13?14?15?
La investigaci�n de redes neuronales se estanc� despu�s de la publicaci�n de la
investigaci�n de aprendizaje autom�tico por Marvin Minsky y Seymour Papert
(1969)16?, que descubri� dos cuestiones fundamentales con las m�quinas
computacionales que procesan las redes neuronales. La primera fue que los
perceptrones b�sicos eran incapaces de procesar el circuito de o-exclusivo. La
segunda cuesti�n importante era que los ordenadores no ten�an suficiente poder de
procesamiento para manejar eficazmente el gran tiempo de ejecuci�n requerido por
las grandes redes neuronales.
Propagaci�n hacia atr�s y el resurgimiento

Un avance clave posterior fue el algoritmo de propagaci�n hacia atr�s que resuelve
eficazmente el problema de o-exclusivo, y en general el problema del entrenamiento
r�pido de redes neuronales de m�ltiples capas (Werbos 1975). El proceso de
propagaci�n hacia atr�s utiliza la diferencia entre el resultado producido y el
resultado deseado para cambiar los "pesos" de las conexiones entre las neuronas
artificiales.11?
A mediados de la d�cada de 1980, el procesamiento distribuido en paralelo se hizo

popular con el nombre conexionismo. El libro de David E. Rumelhart y James
McClelland (1986) proporcionan una exposici�n completa de la utilizaci�n de
conexionismo en los ordenadores para simular procesos neuronales.17?
Las redes neuronales, tal como se utilizan en la inteligencia artificial, han sido
consideradas tradicionalmente como modelos simplificados de procesamiento neuronal
en el cerebro, a pesar de que la relaci�n entre este modelo y la arquitectura
biol�gica del cerebro se debate; no est� claro en qu� medida las redes neuronales
artificiales reflejan el funcionamiento cerebral.
M�quinas de soporte vectorial y otros m�todos mucho m�s simples, tales como los
clasificadores lineales, alcanzaron gradualmente popularidad en el aprendizaje
autom�tico. No obstante, el uso de redes neuronales ha cambiado algunos campos,
tales como la predicci�n de las estructuras de las prote�nas.18?19?
En 1992, max-pooling (una forma de submuestreo, en la que se divide los datos en

grupos de tama�os iguales, que no tienen elementos en com�n, y se transmite
solamente el valor m�ximo de cada grupo) fue introducido para ayudar con el
reconocimiento de objetos tri-dimensionales.20? 21? 22?
En 2010, el uso de max-pooling en el entrenamiento por propagaci�n hacia atr�s fue

acelerado por los GPUs, y se demostr� que ofrece mejor rendimiento que otros tipos
de agrupamiento.23?
El problema del desvanecimiento del gradiente afecta las redes neuronales

prealimentadas de m�ltiples capas, que usan la propagaci�n hacia atr�s, y tambi�n
los redes neuronales recurrentes (RNNs).24?25? Aunque los errores se propagan de
una capa a otra, disminuyen exponencialmente con el n�mero de capas, y eso impide
el ajuste hacia atr�s de los pesos de las neuronas basado en esos errores. Las
redes profundas se ven particularmente afectadas.
Para vencer este problema, Schmidhuber adoptaba una jerarqu�a multicapa de redes
(1992) pre entrenados, una capa a la vez, por aprendizaje no supervisado, y
refinado por propagaci�n hacia atr�s.26? Behnke (2003) contaba solamente con el
signo del gradiente (Rprop)27? trat�ndose de problemas tales como la reconstrucci�n
de im�genes y la localizaci�n de caras.
Como retos anteriores en redes neuronales profundas de capacitaci�n se resolvieron

con m�todos como pre-entrenamiento no supervisado y potencia de c�lculo
incrementada a trav�s del uso de las GPU y la computaci�n distribuida, las redes
neuronales se desplegaron de nuevo a gran escala, sobre todo en problemas de
procesamiento de im�genes y de reconocimiento visual. Esto se conoci� como
"aprendizaje profundo", aunque el aprendizaje profundo no es estrictamente sin�nimo
de redes neuronales profundas.
Dise�os basados en Hardware

Se crearon en CMOS dispositivos de c�mputo para la simulaci�n biof�sica al igual
que para la c�mputo neurom�rfico. Nanodispositivos28? para an�lisis de componentes
principales de escala muy grande y convoluci�n pueden crear una clase nueva de
c�mputo neuronal, porque son fundamentalmente anal�gicos en vez de digitales
(aunque las primeras implementaciones puedan utilizar dispositivos digitales).29?
Ciresan y sus c�legos (2010)30? en el grupo de Schmidhuber mostraron que, a pesar
del problema del desvanecimiento del gradiente, los GPUs hacen factible la
propagaci�n hacia atr�s para las redes neuronales prealimentadas con m�ltiples
capas.
Mejoras desde 2006

Se han creado dispositivos computacionales en el CMOS, tanto para la simulaci�n
biof�sica como para computaci�n neurom�rfica. Los esfuerzos m�s recientes se
muestran prometedores para la creaci�n de nanodispositivos31? para an�lisis de
componentes principales de gran escala. Si tiene �xito, se crear�a una nueva clase
de computaci�n neuronal, ya que depende de aprendizaje autom�tico en lugar de la
programaci�n y porque es fundamentalmente anal�gico en lugar de digital a pesar de
que las primeras instancias pueden ser de hecho con los dispositivos digitales
CMOS.32?
Entre 2009 y 2012, las redes neuronales recurrentes y redes neuronales profundas
feedforward desarrollados en el grupo de investigaci�n de J�rgen Schmidhuber en el
laboratorio suizo de IA IDSIA han ganado ocho concursos internacionales de
reconocimiento de patrones y aprendizaje autom�tico. Por ejemplo, la memoria bi-
direccional y multidimensional de largo a corto plazo (LSTM) de Alex Graves ha
ganado tres competiciones en el reconocimiento de escritura conectada en
Conferencia Internacional sobre An�lisis de documentos y Reconocimiento (ICDAR) del
2009, sin ning�n conocimiento previo acerca de los tres idiomas diferentes que se
pueden aprender.
Implementaciones de este m�todo basadas en unidades de procesamiento gr�fico

r�pidas, hechos por Dan Ciresan y sus colegas de IDSIA han ganado varios concursos
de reconocimiento de patrones, incluyendo la Competici�n de Reconocimiento de
Se�ales de Tr�fico del 2011,33? el desaf�o de ISBI 2012 de segmentaci�n de
estructuras neuronales en series de im�genes de Microscop�a Electr�nica,34? y
otros. Sus redes neuronales tambi�n fueron las primeras reconocedoras artificiales
de patrones en lograr un rendimiento superior al humano en los puntos de referencia
importantes, tales como el reconocimiento de se�ales de tr�fico (IJCNN 2012) o el
problema de clasificaci�n de d�gitos escritos a mano.
Arquitecturas profundas altamente no lineales similares a las del 1980 Neocognitr�n

por Kunihiko Fukushima y la "arquitectura est�ndar de la visi�n", inspirados en las
c�lulas simples y complejas identificadas por David H. Hubel y Torsten Wiesel en la
corteza visual, pueden tambi�n ser pre-formados por m�todos no supervisados en el
laboratorio de la universidad de Toronto. Un equipo de este laboratorio gan� un
concurso en 2012 patrocinado por Merck para el dise�o de software para ayudar a
encontrar mol�culas que podr�an conducir a nuevos medicamentos.
Modelos
Los modelos de redes neuronales en la inteligencia artificial se refieren
generalmente a las redes neuronales artificiales (RNA); estos son modelos
matem�ticos esencialmente simples que definen una funci�n f:X?Y o una distribuci�n
m�s X o ambos X e Y. Pero a veces los modelos tambi�n est�n �ntimamente asociadas
con un algoritmo de aprendizaje en particular o regla de aprendizaje. Un uso com�n
de la frase "modelo ANN" es en realidad la definici�n de una clase de tales
funciones (donde los miembros de la clase se obtiene variando par�metros, los pesos
de conexi�n, o espec�ficos de la arquitectura, tales como el n�mero de neuronas o
su conectividad).
Funci�n de red
La palabra red en el t�rmino "red neuronal artificial" se refiere a las
interconexiones entre las neuronas en las diferentes capas de cada sistema. Un
sistema ejemplar tiene tres capas. La primera capa tiene neuronas de entrada que
env�an datos a trav�s de las sinapsis a la segunda capa de neuronas, y luego a
trav�s de m�s sinapsis a la tercera capa de neuronas de salida. Los sistemas m�s
complejos tendr�n m�s capas, algunos aumentando las de entrada y de salida de
neuronas. Las sinapsis almacenan par�metros llamados "pesos" que manipulan los
datos en los c�lculos.
Un RNA se define t�picamente por tres tipos de par�metros:
1. El patr�n de interconexi�n entre las diferentes capas de neuronas
2. El proceso de aprendizaje para la actualizaci�n de los pesos de las

interconexiones
3. La funci�n de activaci�n que convierte las entradas ponderadas de una neurona a

su activaci�n a la salida.
Matem�ticamente, la funci�n de red de una neurona {\displaystyle {\begin{alignedat}

{2}f(x)\\\end{alignedat}}} {\displaystyle {\begin{alignedat}
{2}f(x)\\\end{alignedat}}} se define como una composici�n de otras funciones
{\displaystyle g_{i}{\begin{alignedat}{2}(x)\\\end{alignedat}}} {\displaystyle
g_{i}{\begin{alignedat}{2}(x)\\\end{alignedat}}}. Este se representa como una
estructura de red, con flechas que representan las dependencias entre variables.Un
tipo ampliamente utilizado de la composici�n es la suma ponderada no lineal , donde
{\displaystyle {\begin{alignedat}{2}f(x)&=k&{\bigl (}\textstyle \sum
_{i}\displaystyle &w_{i}&g_{i}(x))\\\end{alignedat}}} {\displaystyle
{\begin{alignedat}{2}f(x)&=k&{\bigl (}\textstyle \sum _{i}\displaystyle
&w_{i}&g_{i}(x))\\\end{alignedat}}}, d�nde k (denominado com�nmente como la funci�n
de activaci�n35?) es una funci�n predefinida, como la tangente hiperb�lica o
funci�n sigmoide . La caracter�stica importante de la funci�n de activaci�n es que
proporciona una transici�n suave como valores de entrada de cambio, es decir, un
peque�o cambio en la entrada produce un peque�o cambio en la producci�n. Ser�
conveniente para la siguiente para referirse a una colecci�n de funciones
{\displaystyle g_{i}} {\displaystyle g_{i}}simplemente como un vector
{\displaystyle g=(g_{i},g_{2},...,g_{n})} {\displaystyle g=(g_{i},g_{2},...,g_{n})}
.
Esta cifra representa una descomposici�n de tales {\displaystyle f} f, Con las

dependencias entre las variables indicadas por las flechas. Estos pueden ser
interpretados de dos maneras.
La primera vista es la vista funcional: la entrada {\displaystyle x} x se

transforma en un vector de 3 dimensiones {\displaystyle h} h, Que se transforma a
continuaci�n en un vector de 2 dimensiones {\displaystyle g} g, Que es finalmente
transformado en {\displaystyle f} f. Este punto de vista se encuentra m�s
com�nmente en el contexto de la optimizaci�n.
El segundo punto de vista es la vista probabil�stico: la variable aleatoria

{\displaystyle F=f(G)} {\displaystyle F=f(G)} depende de la variable aleatoria
{\displaystyle G=g(H)} {\displaystyle G=g(H)}, Que depende de {\displaystyle
H=h(X)} {\displaystyle H=h(X)}, Que depende de la variable aleatoria {\displaystyle
X} X. Este punto de vista se encuentra m�s com�nmente en el contexto de modelos
gr�ficos .
Grafo de dependencias ANN

Los dos puntos de vista son en gran medida equivalente. En cualquier caso, para
esta arquitectura de red en particular, los componentes de las capas individuales
son independientes entre s� (por ejemplo, los componentes de {\displaystyle g} g
son independientes entre s�, dada su aportaci�n {\displaystyle h} h). Esto permite,
naturalmente, un grado de paralelismo en la ejecuci�n.
Las redes como la anterior se llaman com�nmente alimentaci�n hacia delante , porque
su gr�fica es un grafo dirigido ac�clico . Las redes con ciclos se denominan
com�nmente recurrentes . Tales redes se representan com�nmente de la manera
mostrada en la parte superior de la figura, donde {\displaystyle f} f se muestra
como dependiente sobre s� misma. Sin embargo, no se muestra una dependencia
temporal impl�cita.
El aprendizaje
Lo que ha atra�do el mayor inter�s en las redes neuronales es la posibilidad de
aprendizaje. Dada una determinada tarea a resolver, y una clase de funciones
{\displaystyle F} F, el aprendizaje consiste en utilizar un conjunto de
observaciones para encontrar {\displaystyle f^{*}\in F} {\displaystyle f^{*}\in F}
la cual resuelve la tarea de alguna forma �ptima.
Esto implica la definici�n de una funci�n de coste {\displaystyle \textstyle

C:F\rightarrow \mathbb {R} } {\displaystyle \textstyle C:F\rightarrow \mathbb {R} }
tal que, para la soluci�n �ptima {\displaystyle f^{*},C(f^{*})\leq C(f)\forall f\in
F} {\displaystyle f^{*},C(f^{*})\leq C(f)\forall f\in F}. Es decir, ninguna
soluci�n tiene un costo menor que el costo de la soluci�n �ptima.
La funci�n de coste {\displaystyle \textstyle C} {\displaystyle \textstyle C} es un

concepto importante en el aprendizaje, ya que representa lo lejos que una soluci�n
particular se encuentra de la soluci�n �ptima al problema a resolver. Los
algoritmos de aprendizaje buscan a trav�s del espacio de soluciones para encontrar
una funci�n que tiene el menor costo posible.
Dos representaciones separadas del recurrente gr�fico de dependencias ANN

Para aplicaciones en las que la soluci�n es dependiente de algunos datos, el costo
debe ser necesariamente una funci�n de las observaciones, de lo contrario no
estar�amos modelando todo lo relacionado con los datos. Con frecuencia se define
como una estad�stica a la que se pueden realizar s�lo aproximaciones. Como un
simple ejemplo, considere el problema de encontrar el modelo {\displaystyle f} f,
Lo que reduce al m�nimo {\displaystyle C=E[(f(x)-y)^{2}]} {\displaystyle C=E[(f(x)-
y)^{2}]}, Para pares de datos {\displaystyle (x,y)} (x,y) extra�da de alguna
distribuci�n {\displaystyle D} D. En situaciones pr�cticas s�lo tendr�amos
{\displaystyle N} N muestras de {\displaystyle D} D y, por tanto, para el ejemplo
anterior, tendr�amos solamente minimizar {\displaystyle C={\frac {i}
{N}}\textstyle \sum _{i=1}^{N}\displaystyle (f(x_{i})-y_{i})^{2}} {\displaystyle
C={\frac {i}{N}}\textstyle \sum _{i=1}^{N}\displaystyle (f(x_{i})-y_{i})^{2}}. Por
lo tanto, el coste se reduce al m�nimo a trav�s de una muestra de los datos en
lugar de toda la distribuci�n de la generaci�n de los datos.
Cuando {\displaystyle N\rightarrow \infty } {\displaystyle N\rightarrow \infty }

alguna forma de aprendizaje autom�tico en l�nea debe ser utilizada, donde el costo
se reduce al m�nimo parcialmente como se ve cada nuevo ejemplo. Mientras que la
m�quina de aprendizaje en l�nea se utiliza a menudo cuando {\displaystyle D} D se
fija, es m�s �til en el caso en el que la distribuci�n cambia lentamente con el
tiempo. En los m�todos de redes neuronales, alguna forma de aprendizaje en l�nea de
la m�quina se utiliza con frecuencia para conjuntos de datos finitos.
La elecci�n de una funci�n de coste

Si bien es posible definir alguna funci�n de coste, con frecuencia un coste
particular, se utilizar�, ya sea porque tiene propiedades deseables (tales como
convexidad) o porque surge de forma natural a partir de una formulaci�n particular
del problema (por ejemplo, en una formulaci�n probabil�stica la probabilidad
posterior del modelo puede ser utilizada como un costo inverso). En �ltima
instancia, la funci�n de coste depender� de la tarea deseada.
Paradigmas de aprendizaje
Hay tres grandes paradigmas de aprendizaje, cada uno correspondiente a una tarea de
aprendizaje abstracto en particular. Estos son el aprendizaje supervisado ,el
aprendizaje no supervisado y el aprendizaje por refuerzo.
El aprendizaje supervisado
En el aprendizaje supervisado, se nos da una serie de ejemplos de pares
{\displaystyle (x,y),x\in X,y\in Y} {\displaystyle (x,y),x\in X,y\in Y} y el
objetivo es encontrar una funci�n {\displaystyle f:X\rightarrow Y} f:X\rightarrow
Yen la clase permitido de funciones que corresponden con los ejemplos. En otras
palabras, deseamos inferir el mapeo derivado de los datos; la funci�n de coste est�
relacionado con la falta de coincidencia entre nuestro mapeo y los datos, y
contiene impl�citamente el conocimiento previo sobre el dominio del problema.36?
Un coste de uso com�n es el error cuadr�tico medio, que trata de minimizar el error
cuadr�tico medio entre las salidas de la red, {\displaystyle f(x)} {\displaystyle
f(x)} y el valor objetivo {\displaystyle y} {\displaystyle y} sobre todos los pares
ejemplares. Cuando uno trata de minimizar este coste utilizando descenso de
gradiente para la clase de las redes neuronales llamadas perceptrones multicapas
(MLP), se obtiene el com�n y bien conocido algoritmo de propagaci�n hacia atr�s
para la formaci�n de redes neuronales.
Tareas que caen dentro del paradigma de aprendizaje supervisado son el

reconocimiento de patrones (tambi�n conocido como clasificaci�n) y regresi�n
(tambi�n conocido como aproximaci�n de funci�n). El paradigma de aprendizaje
supervisado es aplicable tambi�n a los datos secuenciales (por ejemplo,
reconocimiento del habla, del manuscrito, y de gestos). Esto se puede considerar
como una forma de aprendizaje con un "maestro", en la forma de una funci�n que
proporciona informaci�n continua sobre la calidad de las soluciones obtenidas hasta
el momento.
Aprendizaje no supervisado
En el aprendizaje no supervisado, algunos datos {\displaystyle x} x se da y la
funci�n de coste que se reduce al m�nimo, que puede ser cualquier funci�n de los
datos {\displaystyle x} x y la salida de la red, {\displaystyle f} f.
La funci�n de coste depende de la tarea (lo que estamos tratando de modelar) y

nuestros a priori suposiciones impl�citas (las propiedades de nuestro modelo, sus
par�metros y las variables observadas).
Como un ejemplo trivial, considere el modelo {\displaystyle f(x)=a} {\displaystyle

f(x)=a} donde {\displaystyle a} a es una constante y el costo {\displaystyle
C=E[(x-f(x))^{2}]} {\displaystyle C=E[(x-f(x))^{2}]}. Minimizar este coste nos dar�
un valor de {\displaystyle a} a que es igual a la media de los datos. La funci�n de
coste puede ser mucho m�s complicado. Su forma depende de la aplicaci�n: por
ejemplo, en la compresi�n de que podr�a estar relacionado con la informaci�n mutua
entre {\displaystyle x} x y {\displaystyle f(x)} f(x), Mientras que en la
modelizaci�n estad�stica, que podr�a estar relacionado con la probabilidad
posterior del modelo dados los datos (tenga en cuenta que en estos dos ejemplos
esas cantidades se maximizar�a en lugar de reducirse al m�nimo).
Tareas que caen dentro del paradigma de aprendizaje no supervisado est�n en

generales de estimaci�n de problemas; las aplicaciones incluyen el agrupamiento, la
estimaci�n de distribuciones estad�sticas, la compresi�n de datos y el filtrado
bayesiano de spam.
Aprendizaje por refuerzo

En el aprendizaje por refuerzo , los datos {\displaystyle x} x por lo general no se
dan, pero generada por la interacci�n de un agente con el medio ambiente. En cada
punto en el tiempo {\displaystyle t} t, El agente realiza una acci�n {\displaystyle
y_{t}} {\displaystyle y_{t}}y el medio ambiente genera una observaci�n
{\displaystyle x_{t}} {\displaystyle x_{t}}y un costo instant�neo {\displaystyle
c_{t}} {\displaystyle c_{t}}, De acuerdo con algunas din�micas (por lo general
desconocidos). El objetivo es descubrir una pol�tica para la selecci�n de las
acciones que minimiza una cierta medida de un costo a largo plazo, por ejemplo, el
coste acumulativo esperado. La din�mica del medio ambiente y el coste a largo plazo
para cada pol�tica general son desconocidos, pero pueden ser estimados.
M�s formalmente el medio ambiente se modela como un proceso de decisi�n de Markov

(MDP) con los estados {\displaystyle s1,....,s_{n}\in S} {\displaystyle
s1,....,s_{n}\in S} y acciones {\displaystyle a1,.....,a_{m}\in A} {\displaystyle
a1,.....,a_{m}\in A}con las siguientes distribuciones de probabilidad: la
distribuci�n de costos instant�nea {\displaystyle P(c_{t}|s_{t})} {\displaystyle
P(c_{t}|s_{t})},La distribuci�n de observaci�n {\displaystyle P(x_{t}|s_{t})}
{\displaystyle P(x_{t}|s_{t})} y la transici�n {\displaystyle P(s_{t}+1|
s_{t}a_{t})} {\displaystyle P(s_{t}+1|s_{t}a_{t})} Mientras que una pol�tica se
define como la distribuci�n condicional sobre las acciones dadas las observaciones.
Tomados en conjunto, los dos entonces definen una cadena de M�rkov (MC). El
objetivo es descubrir la pol�tica (es decir, el MC) que minimice el costo.
RNAs se utilizan con frecuencia en el aprendizaje de refuerzo como parte del

algoritmo general.37?38? La programaci�n din�mica se ha unido a las RNA (dando la
programaci�n neurodin�mica) por Bertsekas y Tsitsiklis39? y se aplic� problemas no
lineales a la multi-dimensionales, tales como los implicados en enrutamiento de
veh�culos , gesti�n de los recursos naturales40?41? o la medicina42? debido a la
capacidad de RNAs para mitigar las p�rdidas de precisi�n incluso cuando la
reducci�n de la densidad de la red de discretizaci�n para aproximar num�ricamente
la soluci�n de los problemas de control originales.
Tareas que caen dentro del paradigma de aprendizaje por refuerzo son problemas de
control, juegos y otras secuenciales tareas.
Tipo de entrada
Finalmente tambi�n se pueden clasificar las RNAs seg�n sean capaces de procesar
informaci�n de distinto tipo en:
Redes anal�gicas: procesan datos de entrada con valores continuos y, habitualmente,

acotados. Ejemplos de este tipo de redes son: Hopfield, Kohonen y las redes de
aprendizaje competitivo.
Redes discretas: procesan datos de entrada de naturaleza discreta; habitualmente
valores l�gicos booleanos. Ejemplos de este segundo tipo de redes son: las m�quinas
de Boltzmann y Cauchy, y la red discreta de Hopfield.
Algoritmos de aprendizaje
El entrenamiento de un modelo de red neuronal en esencia significa seleccionar un
modelo de la serie de modelos permitidos (o, en un bayesiano marco, la
determinaci�n de una distribuci�n en el conjunto de modelos permitidos) que
minimiza el criterio de costo. Hay numerosos algoritmos disponibles para la
formaci�n de los modelos de redes neuronales; la mayor�a de ellos puede ser vista
como una aplicaci�n directa de la teor�a de optimizaci�n y la estimaci�n
estad�stica.
La mayor�a de los algoritmos utilizados en las redes neuronales artificiales de

formaci�n emplean alguna forma de descenso de gradiente, utilizando propagaci�n
hacia atr�s para calcular los gradientes reales. Esto se hace simplemente tomando
la derivada de la funci�n de coste con respecto a los par�metros de la red y a
continuaci�n, cambiando los par�metros en una direcci�n relacionada al gradiente.
Los algoritmos de entrenamiento de propagaci�n hacia atr�s generalmente se
clasifican en tres categor�as:
Descenso del gradiente (con tasa variable de aprendizaje y momentum,

retropropagaci�n el�stica (Rprop));
cuasi-Newton ( Broyden-Fletcher-Goldfarb-Shannon, M�todo de la secante );
Levenberg-Marquardt y gradiente conjugado (actualizaci�n Fletcher-Reeves,
actualizaaci�n Polak-Ribiere, Powell-Beale reinicio, gradiente conjugado
escalado).43?
M�todos evolutivos,44? de programaci�n de la expresi�n g�nica,45? de recocido
simulado,46? de esperanza-maximizaci�n, los m�todos no param�tricos y la
optimizaci�n por enjambre de part�culas47? son algunos otros m�todos para la
formaci�n de redes neuronales.
Algoritmo recursivo convergente de aprendizaje

Este es un m�todo de aprendizaje espec�ficamente desegnado para redes neuronales
controladores de articulaci�n (CMAC por sus siglas en ingl�s) de modelo cerebelosa.
En 2004, un algoritmo recursivo de m�nimos cuadrados estaba introducido para formar
en l�nea redes neuronales CMAC. 48? Este algoritmo puede convergir en un solo paso,
y actualizar todos los pesos en un solo paso con cualquier dato nuevo de entrada.
Al principio, este algoritmo ten�a complejidad computacional de O(N3). Basado en
factorizaci�n QR, este algoritmo recursivo de aprendizaje hab�a sido simplificado
para hacerlo O(N).49?
El empleo de redes neuronales artificiales

Tal vez la mayor ventaja de las RNA es su capacidad de ser utilizado como un
mecanismo de funci�n de aproximaci�n arbitraria que "aprende" a partir de datos
observados. Sin embargo, su uso no es tan sencillo, y una relativamente buena
comprensi�n de la teor�a subyacente es esencial.
Elecci�n de modelo
Esto depender� de la representaci�n de datos y la aplicaci�n. Excesivamente
complejos modelos tienden a conducir a problemas en el aprendizaje.
Algoritmo de aprendizaje
Existen numerosas soluciones de compromiso entre los algoritmos de aprendizaje.
Casi cualquier algoritmo va a funcionar bien con los hiperpar�metros correctos para
la formaci�n de un conjunto espec�fico de datos fijos. Sin embargo, la selecci�n y
el ajuste de un algoritmo para la formaci�n en datos no previstos requieren una
cantidad significativa de experimentaci�n.
Robustez
Si se seleccionan apropiadamente el modelo, la funci�n de coste y el algoritmo de
aprendizaje, la RNA resultante puede ser extremadamente robusto.
Con la aplicaci�n correcta, las RNA pueden ser utilizadas de forma natural en el
aprendizaje online y aplicaciones de grandes conjuntos de datos. Su aplicaci�n
sencilla y la existencia de dependencias en su mayor�a locales expuestos en la
estructura permiten implementaciones r�pidas y paralelas en el hardware.
Aplicaciones
RNA las hacen bastante apropiadas para aplicaciones en las que no se dispone a
priori de un modelo identificable que pueda ser programado, pero se dispone de un
conjunto b�sico de ejemplos de entrada (previamente clasificados o no). Asimismo,
son altamente robustas tanto al ruido como a la disfunci�n de elementos concretos y
son f�cilmente paralelizables.
Esto incluye problemas de clasificaci�n y reconocimiento de patrones de voz,

im�genes, se�ales, etc. Asimismo se han utilizado para encontrar patrones de fraude
econ�mico, hacer predicciones en el mercado financiero, hacer predicciones de
tiempo atmosf�rico, etc.
Tambi�n se pueden utilizar cuando no existen modelos matem�ticos precisos o

algoritmos con complejidad razonable, por ejemplo la red de Kohonen ha sido
aplicada con un �xito m�s que razonable al cl�sico problema del viajante (un
problema para el que no se conoce soluci�n algor�tmica de complejidad polin�mica).
Otro tipo especial de redes neuronales artificiales se ha aplicado en conjunci�n

con los algoritmos gen�ticos (AG) para crear controladores para robots. La
disciplina que trata la evoluci�n de redes neuronales mediante algoritmos gen�ticos
se denomina Rob�tica Evolutiva. En este tipo de aplicaci�n el genoma del AG lo
constituyen los par�metros de la red (topolog�a, algoritmo de aprendizaje,
funciones de activaci�n, etc.) y la adecuaci�n de la red viene dada por la
adecuaci�n del comportamiento exhibido por el robot controlado (normalmente una
simulaci�n de dicho comportamiento).
Aplicaciones de la vida real

Las tareas se aplican a las redes neuronales artificiales tienden a caer dentro de
las siguientes categor�as generales:
Aproximaci�n de funciones, o el an�lisis de regresi�n, incluyendo la predicci�n de

series temporales, funci�nes de aptitud y el modelado.
Clasificaci�n, incluyendo el reconocimiento de patrones y la secuencia de
reconocimiento, detecci�n y de la toma de decisiones secuenciales.
Procesamiento de datos, incluyendo el filtrado, el agrupamiento, la separaci�n
ciega de las se�ales y compresi�n.
Rob�tica, incluyendo la direcci�n de manipuladores y pr�tesis.
Ingenier�a de control, incluyendo control num�rico por computadora.
Las �reas de aplicaci�n incluyen la identificaci�n de sistemas y el control
(control del veh�culo, predicci�n de trayectorias50?, el control de procesos,
manejo de recursos naturales), la qu�mica cu�ntica, juegos y la toma de decisiones
(backgammon, ajedrez, p�quer ), el reconocimiento de patrones (sistemas radar,
reconocimiento facial, clasificaci�n de se�ales,51? reconocimiento de objetos y
m�s), de reconocimiento de secuencia (gesto, voz, reconocimiento de texto escrito a
mano), diagn�stico m�dico , aplicaciones financieras (por ejemplo, sistemas
automatizados de comercio (trading algor�tmico) ), miner�a de datos (o
descubrimiento de conocimiento en bases de datos, "KDD"), la visualizaci�n,
traducci�n autom�tica, diferenciando entre informes deseados y no deseados en redes
sociales,52? prevenci�n de spam (correo basura) de correo electr�nico.
Las redes neuronales artificiales se han utilizado tambi�n para el diagn�stico de

varios tipos de c�ncer. Un sistema de detecci�n de c�ncer de pulm�n h�brido basado
ANN llamado HLND mejora la precisi�n del diagn�stico y la velocidad de la
radiolog�a c�ncer de pulm�n. Estas redes tambi�n se han utilizado para diagnosticar
el c�ncer de pr�stata. Los diagn�sticos se pueden utilizar para hacer modelos
espec�ficos tomados de un gran grupo de pacientes en comparaci�n con la informaci�n
de un paciente dado. Los modelos no dependen de suposiciones acerca de las
correlaciones de diferentes variables. El c�ncer color rectal tambi�n se ha
previsto el uso de las redes neuronales. Las redes neuronales podr�an predecir el
resultado de un paciente con c�ncer color rectal con m�s precisi�n que los m�todos
cl�nicos actuales. Despu�s del entrenamiento, las redes podr�an predecir m�ltiples
resultados de los pacientes de instituciones relacionadas.
Las redes neuronales y la neurociencia

La Neurociencia Te�rica y computacional son el �mbito en que se trata del an�lisis
te�rico y el modelado computacional de sistemas neuronales biol�gicos. Dado que los
sistemas neurales est�n �ntimamente relacionados con los procesos cognitivos y de
comportamiento, el campo est� muy relacionada con el modelado cognitivo y
conductual.
El objetivo del campo es la creaci�n de modelos de sistemas neuronales biol�gicas

con el fin de comprender c�mo funcionan los sistemas biol�gicos. Para ganar este
entendimiento, los neur�logos se esfuerzan por hacer un v�nculo entre los procesos
biol�gicos observados (datos), biol�gicamente plausibles mecanismos para el
procesamiento neuronal y aprendizaje ( redes neuronales biol�gicas modelos) y la
teor�a (la teor�a del aprendizaje estad�stico y la teor�a de la informaci�n ).
Tipos de modelos
Muchos modelos se utilizan en el campo, que se define en diferentes niveles de

abstracci�n y el modelado de diferentes aspectos de los sistemas neurales. Se
extienden desde modelos del comportamiento a corto plazo de las neuronas
individuales, tras los modelos del surgimiento de la din�mica de los circuitos
neuronales de la interacci�n entre las neuronas individuales hasta, finalmente, los
modelos del surgimiento del comportamiento de los m�dulos neuronales abstractos que
representan subsistemas completas. Estos incluyen modelos de plasticidad de largo y
corto plazo, y de los sistemas neuronales y sus relaciones con el aprendizaje y la
memoria de la neurona individual a nivel del sistema.
Las redes con memoria
La integraci�n de los componentes de memoria externa con redes neuronales

artificiales tiene una larga historia que se remonta a las primeras investigaciones
en las representaciones distribuidas y mapas de auto-organizaci�n . Por ejemplo, en
memoria distribuida dispersa los patrones codificados por las redes neuronales se
utilizan como direcciones de memoria para la memoria de contenido direccionable,
con "neuronas" que sirven esencialmente como direcci�n codificadores y
decodificadores .
M�s recientemente aprendizaje profundo ha demostrado ser �til enhashing sem�ntica ,

donde un profundo modelo gr�fico de los vectores de palabra de recuento de se
obtiene a partir de un gran conjunto de documentos. Los documentos se asignan a las
direcciones de memoria de tal manera que los documentos sem�nticamente similares se
encuentran en direcciones cercanas. Documentos similares a un documento de consulta
a continuaci�n, se pueden encontrar simplemente accediendo a todas las direcciones
que difieren por s�lo unos pocos bits de la direcci�n del documento de consulta.
Redes de memoria es otra extensi�n de las redes neuronales que incorporan la

memoria a largo plazo que fue desarrollado por Facebook investigaci�n. La memoria a
largo plazo puede ser le�do y escrito para, con el objetivo de utilizarlo para la
predicci�n. Estos modelos se han aplicado en el contexto de la b�squeda de
respuestas (QA), donde la memoria a largo plazo que de hecho act�a como un
(din�mico) base de conocimientos, y la salida es una respuesta textual.
M�quinas de Turing neuronales desarrollados por Google DeepMind permiten ampliar

las capacidades de las redes neuronales profundas mediante el acoplamiento a los
recursos de memoria externos, que pueden interactuar con los procesos atencionales.
El sistema combinado es an�logo a una m�quina de Turing pero es diferenciable de
extremo a extremo, lo que le permite ser entrenado de manera eficiente con descenso
del gradiente. Los resultados preliminares demuestran que las m�quinas de Turing
neuronales puede deducir algoritmos simples, tales como copiar, clasificar, y
recuerdo asociativo a partir de ejemplos de entrada y salida.
Computadoras neuronales diferenciables (DNC) son una extensi�n de las m�quinas de

Turing neuronal, tambi�n de DeepMind. Se han realizado fuera de las m�quinas de
Turing neuronales, la memoria de largo a corto plazo los sistemas y redes de la
memoria en las tareas de procesamiento de secuencia.
Software de red neuronal
Software de la red neuronal se utiliza para simular, investigaci�n , desarrollo y

aplicaci�n de redes neuronales artificiales, redes neuronales biol�gicas y, en
algunos casos, una gama m�s amplia de sistemas adaptativos.
Tipos de redes neuronales artificiales
Tipos de redes neuronales artificiales var�an de aquellos con s�lo una o dos capas
de l�gica �nica direcci�n, para muchos bucles complejos multi-direccionales de
entrada de realimentaci�n y capas. En general, estos sistemas utilizan algoritmos
en su programaci�n para determinar el control y la organizaci�n de sus funciones.
La mayor�a de los sistemas utilizan "pesos" para cambiar los par�metros del
rendimiento y las diferentes conexiones con las neuronas. Las redes neuronales
artificiales pueden ser aut�nomas y aprender mediante el aporte de "maestros"
externos o incluso auto-ense�anza de las reglas escritas de entrada. Redes
neuronales estilo Cubo Neural primera por primera vez por Gianna Giavelli
proporcionan un espacio din�mico en el que las redes se recombinan din�micamente
informaci�n y enlaces a trav�s de miles de millones de nodos independientes que
utilizan la adaptaci�n neuronal darwinismo , una t�cnica desarrollada por Gerald
Edelman , que permite sistemas m�s modeladas biol�gicamente.
Potencia del c�lculo

El perceptr�n multicapa es un aproximado de la funci�n universal, como lo demuestra
el teorema de aproximaci�n universal . Sin embargo, la prueba no es constructivo
sobre el n�mero de neuronas es necesario, la topolog�a de red, la configuraci�n de
los pesos y los par�metros de aprendizaje.
El trabajo de Hava Siegelmann y Eduardo D. Sontag ha proporcionado una prueba de

que una arquitectura espec�fica recurrente con los pesos valorados racionales (en
oposici�n a la precisi�n total n�mero real -valued pesos) tiene toda la potencia de
una m�quina universal de Turing [59]utilizando un n�mero finito de las neuronas y
las conexiones lineales est�ndar. Adem�s, se ha demostrado que el uso de valores
irracionales para resultados pesos en una m�quina con super-Turing poder.
Capacidad
Los modelos de redes neuronales artificiales tienen una propiedad denominada

"capacidad", que corresponde aproximadamente a su capacidad para modelar cualquier
funci�n dada. Se relaciona con la cantidad de informaci�n que puede ser almacenada
en la red y a la noci�n de complejidad.
Convergencia
Nada se puede decir en general sobre la convergencia ya que depende de una serie de
factores. En primer lugar, pueden existir muchos m�nimos locales. Esto depende de
la funci�n de coste y el modelo. En segundo lugar, el m�todo de optimizaci�n
utilizado no puede ser garantizado a converger cuando lejos de un m�nimo local. En
tercer lugar, para una cantidad muy grande de datos o par�metros, algunos m�todos
se vuelven poco pr�ctico. En general, se ha encontrado que las garant�as te�ricas
sobre la convergencia son una gu�a fiable para la aplicaci�n pr�ctica.
Generalizaci�n y estad�sticas
En aplicaciones donde el objetivo es crear un sistema que generaliza bien en los

ejemplos que no se ven, ha surgido el problema de la formaci�n excesiva. Esto surge
en los sistemas complicados o sobre especificadas cuando la capacidad de la red
supera significativamente los par�metros libres necesarios. Hay dos escuelas de
pensamiento para evitar este problema: La primera es utilizar la validaci�n cruzada
t�cnicas similares y para comprobar la presencia de un exceso de entrenamiento y de
manera �ptima seleccione hiper- tales que se minimice el error de generalizaci�n.
La segunda es utilizar alg�n tipo de regularizaci�n . Este es un concepto que surge
de manera natural en un marco probabil�stico (Bayesiano), donde la regularizaci�n
puede realizarse mediante la selecci�n de una probabilidad a priori m�s grande
sobre los modelos m�s simples; sino tambi�n en la teor�a estad�stica de
aprendizaje, donde el objetivo es reducir al m�nimo m�s de dos cantidades: el
"riesgo emp�rico" y el "riesgo estructural ', que corresponde aproximadamente al
error sobre el conjunto de entrenamiento y el error de predicci�n en los datos que
no se ven debido a sobreajuste. Redes neuronales supervisadas que utilicen un error
cuadr�tico medio (MSE) funci�n de coste se pueden utilizar m�todos estad�sticos
formales para determinar la confianza del modelo entrenado. El MSE en un conjunto
de validaci�n se puede utilizar como una estimaci�n de la varianza. Este valor
puede ser utilizado para calcular el intervalo de confianza de la salida de la red,
suponiendo una distribuci�n normal . Un an�lisis de confianza realizado de esta
manera es estad�sticamente v�lida siempre que la salida de distribuci�n de
probabilidad sigue siendo el mismo y la red no es modificada.
An�lisis de confianza de una red neuronal

Mediante la asignaci�n de una funci�n de activaci�n softmax , una generalizaci�n de
la funci�n log�stica , en la capa de salida de la red neuronal (o un componente
softmax en una red neuronal basada en componentes) para las variables categ�ricas
de destino, las salidas se pueden interpretar como las probabilidades. Esto es muy
�til en la clasificaci�n, ya que da una medida de la seguridad en las
clasificaciones.
La funci�n de activaci�n softmax es: {\displaystyle y_{i}={\frac {e^{x_{i}}}

{\sum \limits _{j=1}^{c}e^{x_{j}}}}} {\displaystyle y_{i}={\frac {e^{x_{i}}}
{\sum \limits _{j=1}^{c}e^{x_{j}}}}}
La cr�tica
Cuestiones de capacitaci�n
Una cr�tica com�n de las redes neuronales, en particular en la rob�tica, es que
requieren una gran diversidad de entrenamiento para el funcionamiento del mundo
real. Esto no es sorprendente, ya que cualquier m�quina de aprendizaje necesita
suficientes ejemplos representativos con el fin de capturar la estructura
subyacente que le permite generalizar a nuevos casos. Dean A. Powerless, en su
investigaci�n presentada en el documento "Formaci�n basada en el conocimiento de
redes neuronales artificiales para la conducci�n aut�noma del robot", utiliza una
red neuronal para entrenar a un veh�culo rob�tico para conducir en m�ltiples tipos
de carreteras (de un solo carril, varios carriles, suciedad, etc.). Una gran
cantidad de su investigaci�n est� dedicada a (1) la extrapolaci�n de m�ltiples
escenarios de entrenamiento a partir de una sola experiencia de formaci�n, y (2) la
preservaci�n de la diversidad de entrenamiento pasado para que el sistema no se
convierta en sobre entrenamiento (si, por ejemplo, se presenta con una serie de
giros a la derecha - no debe aprender a girar siempre a la derecha). Estos
problemas son comunes en las redes neuronales que debe decidir de entre una amplia
variedad de respuestas, pero se pueden tratar de varias maneras, por ejemplo por
revolver al azar los ejemplos de entrenamiento, mediante el uso de un algoritmo de
optimizaci�n num�rica que no toma demasiado grandes pasos cuando el cambio de las
conexiones de red siguiendo un ejemplo, o mediante la agrupaci�n de ejemplos en los
llamados mini-lotes.
Cuestiones te�ricas
AK Dewdney , un cient�fico matem�tico e inform�tica de la Universidad de Ontario
Occidental y ex Scientific American columnista, escribi� en 1997, "A pesar de que
las redes neurales hacen resolver algunos problemas de juguete, su poder de
computaci�n son tan limitados que me sorprende que nadie los toma en serio como una
herramienta general de resoluci�n de problemas ". No existe una red neuronal nunca
se ha demostrado que resuelve los problemas computacionalmente dif�ciles, tales
como la N-Queens problema, el problema del viajante de comercio , o el problema de
factorizar enteros grandes.
Aparte de su utilidad, una objeci�n fundamental a las redes neuronales artificiales

es que no logran reflejar c�mo funcionan las neuronas reales. Propagaci�n hacia
atr�s est� en el coraz�n de las redes neuronales artificiales y la mayor�a no s�lo
no hay evidencia de ning�n mecanismo de este tipo de redes neuronales naturales,53?
parece contradecir el principio fundamental de las neuronas reales que la
informaci�n s�lo puede fluir hacia adelante a lo largo del ax�n. Como la
informaci�n est� codificada por las neuronas reales a�n no se conoce. Lo que se
sabe es que las neuronas sensoriales disparan potenciales de acci�n con mayor
frecuencia con la activaci�n del sensor y las c�lulas musculares tiran m�s
fuertemente cuando sus neuronas motoras asociadas reciben los potenciales de acci�n
con m�s frecuencia.54? Aparte del caso m�s simple de solo transmisi�n de
informaci�n de una neurona a un sensor de la neurona motora casi nada se conoce de
los principios generales subyacentes de c�mo se maneja la informaci�n por las redes
neuronales reales.
La motivaci�n detr�s de las redes neuronales artificiales no es necesariamente para

replicar la funci�n neural real, pero para utilizar redes neuronales naturales como
inspiraci�n para un acercamiento a la computaci�n que es inherentemente paralelo y
que proporciona soluciones a los problemas que tienen hasta ahora ha considerado
intratable. Por tanto, una afirmaci�n central de las redes neuronales artificiales
es que encarna alg�n principio general nuevo y potente para el procesamiento de la
informaci�n. Por desgracia, estos principios generales est�n mal definidos y que a
menudo se afirma que son emergentes de la red neuronal en s�. Esto permite la
asociaci�n estad�stica sencilla (la funci�n b�sica de las redes neuronales
artificiales), que se describe como el aprendizaje o el reconocimiento. Como
resultado, las redes neuronales artificiales tienen, seg�n Dewdney, un "algo para
nada la calidad, que imparte un aura peculiar de la pereza y una clara falta de
curiosidad acerca de lo bien que estos sistemas de computaci�n son Ninguna mano
humana (o la mente) interviene; soluciones. Se encuentran como por arte de magia, y
nadie, al parecer, ha aprendido nada�.55?
Los problemas de hardware
Para implementar el software de redes neuronales grandes y eficaces, considerables

recursos de procesamiento y almacenamiento deben estar comprometidos. Mientras que
el cerebro ha hardware adaptado a la tarea de procesamiento de se�ales a trav�s de
un gr�fico de las neuronas, simulando incluso una forma m�s simplificada en la
arquitectura von Neumann puede obligar a un dise�ador de la red neural para llenar
muchos millones de bases de datos filas por sus conexiones - que puede consumir
grandes cantidades de equipo de memoria y disco duro espacio. Adem�s, el dise�ador
de sistemas de redes neurales a menudo necesitar� para simular la transmisi�n de
se�ales a trav�s de muchas de estas conexiones y sus neuronas asociadas - que a
menudo deben coincidir con una incre�ble cantidad de CPU potencia de procesamiento
y tiempo.
J�rgen Schmidhuber toma nota de que el resurgimiento de las redes neuronales en el
siglo XXI, y su �xito renovado en tareas de reconocimiento de imagen es atribuible
en gran medida a los avances en el hardware: de 1991 a 2015, el poder de
computaci�n, especialmente en lo entregado por GPGPUs (en las GPU ), ha aumentado
alrededor de un mill�n de veces, por lo que el algoritmo de retropropagaci�n
est�ndar viable para las redes de formaci�n que son varias capas m�s profundas que
antes (pero a�ade que esto no resuelve los problemas algor�tmicos tales como fuga
gradientes "de una manera fundamental"). El uso de la GPU en lugar de CPUs
ordinarios puede traer los tiempos de entrenamiento para algunas redes por debajo
de los meses a meros d�as.
Potencia de c�lculo sigue creciendo m�s o menos de acuerdo con la Ley de Moore ,
que puede proporcionar recursos suficientes para llevar a cabo nuevas tareas.
Ingenier�a neuromorphic aborda la dificultad de hardware directamente, mediante la
construcci�n de chips de no-von Neumann con circuitos dise�ados para implementar
redes neuronales desde el principio. Google tambi�n ha dise�ado un chip optimizado
para el procesamiento de red neural llamado Unidad de Procesamiento Tensor o TPU.

Introduccion A Redes Neuronales. WIKI

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Introduccion A Redes Neuronales. WIKI

Cargado por

Copyright:

Formatos disponibles

Las redes neuronales artificiales (tambi�n conocidas como sistemas conexionistas)

son un modelo computacional vagamente inspirado en el comportamiento observado en

Estos sistemas aprenden y se forman a s� mismos, en lugar de ser programados de

El objetivo de la red neuronal es resolver los problemas de la misma manera que el

Nuevas investigaciones sobre el cerebro a menudo estimulan la creaci�n de nuevos

Farley y Wesley A. Clark7? (1954) al principio utilizaron m�quinas computacionales,

Frank Rosenblatt9? 10? (1958) cre� el perceptr�n, un algoritmo de reconocimiento de

Propagaci�n hacia atr�s y el resurgimiento

A mediados de la d�cada de 1980, el procesamiento distribuido en paralelo se hizo

En 1992, max-pooling (una forma de submuestreo, en la que se divide los datos en

En 2010, el uso de max-pooling en el entrenamiento por propagaci�n hacia atr�s fue

El problema del desvanecimiento del gradiente afecta las redes neuronales

Como retos anteriores en redes neuronales profundas de capacitaci�n se resolvieron

Dise�os basados en Hardware

Mejoras desde 2006

Implementaciones de este m�todo basadas en unidades de procesamiento gr�fico

Arquitecturas profundas altamente no lineales similares a las del 1980 Neocognitr�n

Un RNA se define t�picamente por tres tipos de par�metros:

1. El patr�n de interconexi�n entre las diferentes capas de neuronas

2. El proceso de aprendizaje para la actualizaci�n de los pesos de las

3. La funci�n de activaci�n que convierte las entradas ponderadas de una neurona a

Matem�ticamente, la funci�n de red de una neurona {\displaystyle {\begin{alignedat}

Esta cifra representa una descomposici�n de tales {\displaystyle f} f, Con las

La primera vista es la vista funcional: la entrada {\displaystyle x} x se

El segundo punto de vista es la vista probabil�stico: la variable aleatoria

Grafo de dependencias ANN

Esto implica la definici�n de una funci�n de coste {\displaystyle \textstyle

La funci�n de coste {\displaystyle \textstyle C} {\displaystyle \textstyle C} es un

Dos representaciones separadas del recurrente gr�fico de dependencias ANN

Cuando {\displaystyle N\rightarrow \infty } {\displaystyle N\rightarrow \infty }

La elecci�n de una funci�n de coste

Tareas que caen dentro del paradigma de aprendizaje supervisado son el

La funci�n de coste depende de la tarea (lo que estamos tratando de modelar) y

Como un ejemplo trivial, considere el modelo {\displaystyle f(x)=a} {\displaystyle

Tareas que caen dentro del paradigma de aprendizaje no supervisado est�n en

Aprendizaje por refuerzo

M�s formalmente el medio ambiente se modela como un proceso de decisi�n de Markov

RNAs se utilizan con frecuencia en el aprendizaje de refuerzo como parte del

Redes anal�gicas: procesan datos de entrada con valores continuos y, habitualmente,

La mayor�a de los algoritmos utilizados en las redes neuronales artificiales de

Descenso del gradiente (con tasa variable de aprendizaje y momentum,

Algoritmo recursivo convergente de aprendizaje

El empleo de redes neuronales artificiales

Esto incluye problemas de clasificaci�n y reconocimiento de patrones de voz,

Tambi�n se pueden utilizar cuando no existen modelos matem�ticos precisos o

Otro tipo especial de redes neuronales artificiales se ha aplicado en conjunci�n

Aplicaciones de la vida real

Aproximaci�n de funciones, o el an�lisis de regresi�n, incluyendo la predicci�n de

Las redes neuronales artificiales se han utilizado tambi�n para el diagn�stico de

Las redes neuronales y la neurociencia

El objetivo del campo es la creaci�n de modelos de sistemas neuronales biol�gicas

Muchos modelos se utilizan en el campo, que se define en diferentes niveles de

Las redes con memoria

La integraci�n de los componentes de memoria externa con redes neuronales

M�s recientemente aprendizaje profundo ha demostrado ser �til enhashing sem�ntica ,

Redes de memoria es otra extensi�n de las redes neuronales que incorporan la

M�quinas de Turing neuronales desarrollados por Google DeepMind permiten ampliar

Computadoras neuronales diferenciables (DNC) son una extensi�n de las m�quinas de

Software de red neuronal

Software de la red neuronal se utiliza para simular, investigaci�n , desarrollo y

Tipos de redes neuronales artificiales

Potencia del c�lculo

El trabajo de Hava Siegelmann y Eduardo D. Sontag ha proporcionado una prueba de