Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Introduccion A Redes Neuronales. WIKI
Introduccion A Redes Neuronales. WIKI
Cada neurona est� conectada con otras a trav�s de unos enlaces. En estos enlaces el
valor de salida de la neurona anterior es multiplicado por un valor de peso. Estos
pesos en los enlaces pueden incrementar o inhibir el estado de activaci�n de las
neuronas adyacentes. Del mismo modo, a la salida de la neurona, puede existir una
funci�n limitadora o umbral, que modifica el valor resultado o impone un l�mite que
se debe sobrepasar antes de propagarse a otra neurona. Esta funci�n se conoce como
funci�n de activaci�n.
Las redes neuronales se han utilizado para resolver una amplia variedad de tareas,
como la visi�n por computador y el reconocimiento de voz, que son dif�ciles de
resolver usando la ordinaria programaci�n basado en reglas. Hist�ricamente, el uso
de modelos de redes neuronales marc� un cambio de direcci�n a finales de los a�os
ochenta de alto nivel, que se caracteriza por sistemas expertos con conocimiento
incorporado en si-entonces las reglas, a bajo nivel de aprendizaje autom�tico,
caracterizado por el conocimiento incorporado en los par�metros de un modelo
cognitivo con alg�n sistema din�mico.
�ndice
1 Historia
1.1 Aprendizaje de Hebb
1.2 Propagaci�n hacia atr�s y el resurgimiento
1.3 Dise�os basados en Hardware
2 Mejoras desde 2006
3 Modelos
3.1 Funci�n de red
3.2 El aprendizaje
3.3 La elecci�n de una funci�n de coste
3.4 Paradigmas de aprendizaje
3.4.1 El aprendizaje supervisado
3.4.2 Aprendizaje no supervisado
3.4.3 Aprendizaje por refuerzo
3.5 Tipo de entrada
4 Algoritmos de aprendizaje
4.1 Algoritmo recursivo convergente de aprendizaje
4.2 El empleo de redes neuronales artificiales
5 Aplicaciones
5.1 Aplicaciones de la vida real
5.2 Las redes neuronales y la neurociencia
6 Potencia del c�lculo
7 La cr�tica
7.1 Cuestiones de capacitaci�n
7.2 Cuestiones te�ricas
8 Las clases y tipos de RNAs
9 Ejemplos
9.1 Quake II Neuralbot
9.2 Clasificador No Sesgado de Prote�nas
10 Galer�a
11 Herramientas de software
12 V�ase tambi�n
13 Referencias
14 Enlaces externos
Historia
Warren McCulloch y Walter Pitts 2? (1943) crearon un modelo inform�tico para redes
neuronales, que se llama l�gica umbral, que se base en las matem�ticas y los
algoritmos. Este modelo se�al� el camino para que la investigaci�n de redes
neuronales se divida en dos enfoques distintos. Un enfoque se centr� en los
procesos biol�gicos en el cerebro y el otro se centr� en la aplicaci�n de redes
neuronales para la inteligencia artificial.
Aprendizaje de Hebb
A finales de la d�cada de 1940 el psic�logo Donald Hebb3?4? cre� una hip�tesis de
aprendizaje basado en el mecanismo de plasticidad neuronal que ahora se conoce como
aprendizaje de Hebb. Aprendizaje de Hebb se considera que es un "t�pico" de
aprendizaje no supervisado y sus variantes posteriores fueron los primeros modelos
de la potenciaci�n a largo plazo. Los investigadores empezaron a aplicar estas
ideas a los modelos computacionales en 1948 con la sugerencia de Turing, que el
c�rtex humano infantil es lo que llamaba "m�quina desorganizada" (tambi�n conocido
como "m�qina Turing Tipo B").5?6?
En 1959, un modelo biol�gico propuesto por dos laureados de los Premios Nobel,
David H. Hubel y Torsten Wiesel, estaba basado en su descubrimiento de dos tipos de
c�lulas en la corteza visual primaria: c�lulas simples y c�lulas complejas.12?
El primer reporte sobre redes funcionales multicapas fue publicado en 1965 por
Ivakhnenko y Lapa, y se conoce como el m�todo de agrupamiento para el manejo de
datos.13?14?15?
La investigaci�n de redes neuronales se estanc� despu�s de la publicaci�n de la
investigaci�n de aprendizaje autom�tico por Marvin Minsky y Seymour Papert
(1969)16?, que descubri� dos cuestiones fundamentales con las m�quinas
computacionales que procesan las redes neuronales. La primera fue que los
perceptrones b�sicos eran incapaces de procesar el circuito de o-exclusivo. La
segunda cuesti�n importante era que los ordenadores no ten�an suficiente poder de
procesamiento para manejar eficazmente el gran tiempo de ejecuci�n requerido por
las grandes redes neuronales.
Las redes neuronales, tal como se utilizan en la inteligencia artificial, han sido
consideradas tradicionalmente como modelos simplificados de procesamiento neuronal
en el cerebro, a pesar de que la relaci�n entre este modelo y la arquitectura
biol�gica del cerebro se debate; no est� claro en qu� medida las redes neuronales
artificiales reflejan el funcionamiento cerebral.
M�quinas de soporte vectorial y otros m�todos mucho m�s simples, tales como los
clasificadores lineales, alcanzaron gradualmente popularidad en el aprendizaje
autom�tico. No obstante, el uso de redes neuronales ha cambiado algunos campos,
tales como la predicci�n de las estructuras de las prote�nas.18?19?
Para vencer este problema, Schmidhuber adoptaba una jerarqu�a multicapa de redes
(1992) pre entrenados, una capa a la vez, por aprendizaje no supervisado, y
refinado por propagaci�n hacia atr�s.26? Behnke (2003) contaba solamente con el
signo del gradiente (Rprop)27? trat�ndose de problemas tales como la reconstrucci�n
de im�genes y la localizaci�n de caras.
Entre 2009 y 2012, las redes neuronales recurrentes y redes neuronales profundas
feedforward desarrollados en el grupo de investigaci�n de J�rgen Schmidhuber en el
laboratorio suizo de IA IDSIA han ganado ocho concursos internacionales de
reconocimiento de patrones y aprendizaje autom�tico. Por ejemplo, la memoria bi-
direccional y multidimensional de largo a corto plazo (LSTM) de Alex Graves ha
ganado tres competiciones en el reconocimiento de escritura conectada en
Conferencia Internacional sobre An�lisis de documentos y Reconocimiento (ICDAR) del
2009, sin ning�n conocimiento previo acerca de los tres idiomas diferentes que se
pueden aprender.
Modelos
Los modelos de redes neuronales en la inteligencia artificial se refieren
generalmente a las redes neuronales artificiales (RNA); estos son modelos
matem�ticos esencialmente simples que definen una funci�n f:X?Y o una distribuci�n
m�s X o ambos X e Y. Pero a veces los modelos tambi�n est�n �ntimamente asociadas
con un algoritmo de aprendizaje en particular o regla de aprendizaje. Un uso com�n
de la frase "modelo ANN" es en realidad la definici�n de una clase de tales
funciones (donde los miembros de la clase se obtiene variando par�metros, los pesos
de conexi�n, o espec�ficos de la arquitectura, tales como el n�mero de neuronas o
su conectividad).
Funci�n de red
La palabra red en el t�rmino "red neuronal artificial" se refiere a las
interconexiones entre las neuronas en las diferentes capas de cada sistema. Un
sistema ejemplar tiene tres capas. La primera capa tiene neuronas de entrada que
env�an datos a trav�s de las sinapsis a la segunda capa de neuronas, y luego a
trav�s de m�s sinapsis a la tercera capa de neuronas de salida. Los sistemas m�s
complejos tendr�n m�s capas, algunos aumentando las de entrada y de salida de
neuronas. Las sinapsis almacenan par�metros llamados "pesos" que manipulan los
datos en los c�lculos.
Las redes como la anterior se llaman com�nmente alimentaci�n hacia delante , porque
su gr�fica es un grafo dirigido ac�clico . Las redes con ciclos se denominan
com�nmente recurrentes . Tales redes se representan com�nmente de la manera
mostrada en la parte superior de la figura, donde {\displaystyle f} f se muestra
como dependiente sobre s� misma. Sin embargo, no se muestra una dependencia
temporal impl�cita.
El aprendizaje
Lo que ha atra�do el mayor inter�s en las redes neuronales es la posibilidad de
aprendizaje. Dada una determinada tarea a resolver, y una clase de funciones
{\displaystyle F} F, el aprendizaje consiste en utilizar un conjunto de
observaciones para encontrar {\displaystyle f^{*}\in F} {\displaystyle f^{*}\in F}
la cual resuelve la tarea de alguna forma �ptima.
Paradigmas de aprendizaje
Hay tres grandes paradigmas de aprendizaje, cada uno correspondiente a una tarea de
aprendizaje abstracto en particular. Estos son el aprendizaje supervisado ,el
aprendizaje no supervisado y el aprendizaje por refuerzo.
El aprendizaje supervisado
En el aprendizaje supervisado, se nos da una serie de ejemplos de pares
{\displaystyle (x,y),x\in X,y\in Y} {\displaystyle (x,y),x\in X,y\in Y} y el
objetivo es encontrar una funci�n {\displaystyle f:X\rightarrow Y} f:X\rightarrow
Yen la clase permitido de funciones que corresponden con los ejemplos. En otras
palabras, deseamos inferir el mapeo derivado de los datos; la funci�n de coste est�
relacionado con la falta de coincidencia entre nuestro mapeo y los datos, y
contiene impl�citamente el conocimiento previo sobre el dominio del problema.36?
Un coste de uso com�n es el error cuadr�tico medio, que trata de minimizar el error
cuadr�tico medio entre las salidas de la red, {\displaystyle f(x)} {\displaystyle
f(x)} y el valor objetivo {\displaystyle y} {\displaystyle y} sobre todos los pares
ejemplares. Cuando uno trata de minimizar este coste utilizando descenso de
gradiente para la clase de las redes neuronales llamadas perceptrones multicapas
(MLP), se obtiene el com�n y bien conocido algoritmo de propagaci�n hacia atr�s
para la formaci�n de redes neuronales.
Aprendizaje no supervisado
En el aprendizaje no supervisado, algunos datos {\displaystyle x} x se da y la
funci�n de coste que se reduce al m�nimo, que puede ser cualquier funci�n de los
datos {\displaystyle x} x y la salida de la red, {\displaystyle f} f.
Tareas que caen dentro del paradigma de aprendizaje por refuerzo son problemas de
control, juegos y otras secuenciales tareas.
Tipo de entrada
Finalmente tambi�n se pueden clasificar las RNAs seg�n sean capaces de procesar
informaci�n de distinto tipo en:
Elecci�n de modelo
Esto depender� de la representaci�n de datos y la aplicaci�n. Excesivamente
complejos modelos tienden a conducir a problemas en el aprendizaje.
Algoritmo de aprendizaje
Existen numerosas soluciones de compromiso entre los algoritmos de aprendizaje.
Casi cualquier algoritmo va a funcionar bien con los hiperpar�metros correctos para
la formaci�n de un conjunto espec�fico de datos fijos. Sin embargo, la selecci�n y
el ajuste de un algoritmo para la formaci�n en datos no previstos requieren una
cantidad significativa de experimentaci�n.
Robustez
Si se seleccionan apropiadamente el modelo, la funci�n de coste y el algoritmo de
aprendizaje, la RNA resultante puede ser extremadamente robusto.
Con la aplicaci�n correcta, las RNA pueden ser utilizadas de forma natural en el
aprendizaje online y aplicaciones de grandes conjuntos de datos. Su aplicaci�n
sencilla y la existencia de dependencias en su mayor�a locales expuestos en la
estructura permiten implementaciones r�pidas y paralelas en el hardware.
Aplicaciones
RNA las hacen bastante apropiadas para aplicaciones en las que no se dispone a
priori de un modelo identificable que pueda ser programado, pero se dispone de un
conjunto b�sico de ejemplos de entrada (previamente clasificados o no). Asimismo,
son altamente robustas tanto al ruido como a la disfunci�n de elementos concretos y
son f�cilmente paralelizables.
Tipos de modelos
Tipos de redes neuronales artificiales var�an de aquellos con s�lo una o dos capas
de l�gica �nica direcci�n, para muchos bucles complejos multi-direccionales de
entrada de realimentaci�n y capas. En general, estos sistemas utilizan algoritmos
en su programaci�n para determinar el control y la organizaci�n de sus funciones.
La mayor�a de los sistemas utilizan "pesos" para cambiar los par�metros del
rendimiento y las diferentes conexiones con las neuronas. Las redes neuronales
artificiales pueden ser aut�nomas y aprender mediante el aporte de "maestros"
externos o incluso auto-ense�anza de las reglas escritas de entrada. Redes
neuronales estilo Cubo Neural primera por primera vez por Gianna Giavelli
proporcionan un espacio din�mico en el que las redes se recombinan din�micamente
informaci�n y enlaces a trav�s de miles de millones de nodos independientes que
utilizan la adaptaci�n neuronal darwinismo , una t�cnica desarrollada por Gerald
Edelman , que permite sistemas m�s modeladas biol�gicamente.
Capacidad
Convergencia
Nada se puede decir en general sobre la convergencia ya que depende de una serie de
factores. En primer lugar, pueden existir muchos m�nimos locales. Esto depende de
la funci�n de coste y el modelo. En segundo lugar, el m�todo de optimizaci�n
utilizado no puede ser garantizado a converger cuando lejos de un m�nimo local. En
tercer lugar, para una cantidad muy grande de datos o par�metros, algunos m�todos
se vuelven poco pr�ctico. En general, se ha encontrado que las garant�as te�ricas
sobre la convergencia son una gu�a fiable para la aplicaci�n pr�ctica.
Generalizaci�n y estad�sticas
La cr�tica
Cuestiones de capacitaci�n
Una cr�tica com�n de las redes neuronales, en particular en la rob�tica, es que
requieren una gran diversidad de entrenamiento para el funcionamiento del mundo
real. Esto no es sorprendente, ya que cualquier m�quina de aprendizaje necesita
suficientes ejemplos representativos con el fin de capturar la estructura
subyacente que le permite generalizar a nuevos casos. Dean A. Powerless, en su
investigaci�n presentada en el documento "Formaci�n basada en el conocimiento de
redes neuronales artificiales para la conducci�n aut�noma del robot", utiliza una
red neuronal para entrenar a un veh�culo rob�tico para conducir en m�ltiples tipos
de carreteras (de un solo carril, varios carriles, suciedad, etc.). Una gran
cantidad de su investigaci�n est� dedicada a (1) la extrapolaci�n de m�ltiples
escenarios de entrenamiento a partir de una sola experiencia de formaci�n, y (2) la
preservaci�n de la diversidad de entrenamiento pasado para que el sistema no se
convierta en sobre entrenamiento (si, por ejemplo, se presenta con una serie de
giros a la derecha - no debe aprender a girar siempre a la derecha). Estos
problemas son comunes en las redes neuronales que debe decidir de entre una amplia
variedad de respuestas, pero se pueden tratar de varias maneras, por ejemplo por
revolver al azar los ejemplos de entrenamiento, mediante el uso de un algoritmo de
optimizaci�n num�rica que no toma demasiado grandes pasos cuando el cambio de las
conexiones de red siguiendo un ejemplo, o mediante la agrupaci�n de ejemplos en los
llamados mini-lotes.
Cuestiones te�ricas
AK Dewdney , un cient�fico matem�tico e inform�tica de la Universidad de Ontario
Occidental y ex Scientific American columnista, escribi� en 1997, "A pesar de que
las redes neurales hacen resolver algunos problemas de juguete, su poder de
computaci�n son tan limitados que me sorprende que nadie los toma en serio como una
herramienta general de resoluci�n de problemas ". No existe una red neuronal nunca
se ha demostrado que resuelve los problemas computacionalmente dif�ciles, tales
como la N-Queens problema, el problema del viajante de comercio , o el problema de
factorizar enteros grandes.
Potencia de c�lculo sigue creciendo m�s o menos de acuerdo con la Ley de Moore ,
que puede proporcionar recursos suficientes para llevar a cabo nuevas tareas.
Ingenier�a neuromorphic aborda la dificultad de hardware directamente, mediante la
construcci�n de chips de no-von Neumann con circuitos dise�ados para implementar
redes neuronales desde el principio. Google tambi�n ha dise�ado un chip optimizado
para el procesamiento de red neural llamado Unidad de Procesamiento Tensor o TPU.