Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Vea los debates, las estadísticas y los perfiles de los autores de esta publicación en: https://www.researchgate.net/publication/2453996
CITACIONE LEE
S
28,475
307
2 autores:
Algunos de los autores de esta publicación también están trabajando en estos proyectos relacionados:
series temporales
1
LeCun & Bengio: Redes convolucionales para imágenes, voz y series temporales 2
convolucionales:
Yann LeCun
1 INTRODUCCIÓN
puede hacer con una red de feed-forward totalmente conectada con cierto éxito para tareas
habladas, son grandes, a menudo con varios cientos de variables. Una primera capa
varios 10.000 pesos. Si los datos de entrenamiento son escasos, pueden surgir
distorsiones locales de las entradas. Antes de ser enviado a la capa de entrada de tamaño
xed de una red neuronal, las imágenes de caracteres, los espectros de palabras habladas u
pueden hablarse a una velocidad, tono y entonación variables. Esto causará variaciones en
la posición de las características distintivas de los objetos de entrada. En principio, una red
varíen con respecto a esas variaciones. Sin embargo, aprender tal tarea probablemente
instancias de entrenamiento para cubrir el espacio de posibles variaciones. Por otro lado,
presentar en cualquier orden ("xed") sin tener que elegir el resultado del entrenamiento.
Por el contrario, las imágenes o representaciones espectrales del habla tienen una fuerte
estructura local 2D, las series temporales tienen una fuerte estructura 1D: las variables (o
píxeles) que están espacial o temporalmente cercanas están altamente correlacionadas. Las
correlaciones locales son las razones de las conocidas ventajas de extraer y combinar
REDES2 CONVOLUCIONALES
Las redes convolucionales combinan tres ideas arquitectónicas para asegurar cierto grado
replicación del peso) y, a veces, submuestreo espacial o temporal. Una red convolucional
típica para reconocer caracteres se muestra en el gure 1 (de (LeCun et al., 1990)). El plano
centrados. Cada unidad de una capa recibe entradas de un conjunto de unidades ubicadas
receptivos locales en la entrada se remonta a principios de los años 60, y fue casi
orientación selectiva en el sistema visual del gato. Las conexiones locales han sido
reutilizadas muchas veces en modelos neurales de aprendizaje visual (ver (Mozer, 1991; Le
Cun, 1986) y NEOCOGNITRON en este manual). Con los elds receptivos locales, las
neuronas pueden extraer características visuales elementales tales como bordes orientados,
puntos finales, esquinas (o características similares en los espectrogramas del habla). Estas
características son entonces combinadas por las capas superiores. Como ya se ha dicho, las
que son útiles en una parte de la imagen son probablemente útiles en toda la imagen. Este
conocimiento puede ser aplicado forzando a un conjunto de unidades, cuyos elds receptivos
la imagen de entrada con una sola neurona que tenga un eld receptivo local, y
capa convolucional suele estar compuesta por varios mapas de características (con
4 mapas de características con 5 x 5 elds receptivos . Desplazar la entrada de una capa convolucional
cambiar la salida, pero de lo contrario no se modificará. Una vez que una característica ha
mantenga su posición aproximada en relación con otras características. Por lo tanto, cada
capa convolucional es seguida por una capa adicional que realiza un promedio local y un
neurona opera en modo casi lineal). Las capas sucesivas de convoluciones y submuestreos
son típicamente alternadas, resultando en una \bi-pirámide": en cada capa, el número de
gure 1 puede tener conexiones de entrada de varios mapas de características en la capa anterior. El
LeCun & Bengio: Redes convolucionales para imágenes, voz y series temporales7
Figura 1: Red neuronal convolucional para el procesamiento de imágenes, por ejemplo, reconocimiento
de escritura a mano
Dado que todos los pesos se aprenden con la retropaginación, las redes convolucionales
La red en la gure 1 contiene alrededor de 100.000 conexiones, pero sólo unos 2.600
parámetros libres debido al reparto de peso. Estas redes se comparan favorablemente con
otros métodos de reconocimiento de caracteres escritos a mano (Bottou et al., 1994) (véase
comerciales.
LeCun & Bengio: Redes convolucionales para imágenes, voz y series temporales8
Las redes convolucionales de tamaño fijo que comparten pesos a lo largo de una sola
VARIABLE, SDNN
Reconocim
iento de
caracteres
simples
SDNN
Mientras que los caracteres o las palabras habladas cortas pueden normalizarse en tamaño
y alimentarse a una red de tamaño xed, los objetos más complejos, como las palabras y las
simples que puedan ser reconocidos individualmente (por ejemplo, caracteres, fonemas).
Sin embargo, no existe una heurística de segmentación fiable para el habla o la escritura
entrada. Aunque esto puede ser prohibitivamente costoso en general, las redes
convolucionales pueden ser escaneadas o replicadas muy fácilmente sobre grandes elds de
entrada de tamaño variable. Considere un ejemplo de una red convolucional y su alter ego en
un lugar cercano. Debido a la naturaleza convolucional de las redes, las unidades en las
dos redes que miran a ubicaciones idénticas en la entrada tienen salidas idénticas, por lo
tanto su salida no necesita ser calculada dos veces. En e ect, la replicación de una red de
convolución puede hacerse simplemente aumentando el tamaño del elfo sobre el cual se
una capa convolucional. Una salida cuyo eld receptivo está centrado en un objeto elemental
producirá la clase de este objeto, mientras que una salida intermedia puede estar vacía o
contener basura. Las salidas pueden ser interpretadas como evidencia para las categorías
de objetos centrados en posiciones di erentes del eld de entrada. Por lo tanto, se requiere
utilizan a menudo modelos de Markov ocultos (HMM) u otros métodos basados en gráficos
1000 caracteres por segundo con una red de alrededor de 100.000 conexiones (mostradas
en la tabla 1).
La idea del submuestreo se puede cambiar para construir redes similares a las de los
TDNN, pero que pueden generar secuencias a partir de etiquetas. Estas redes se denominan
RTN-TDN inversas porque pueden verse como TDNNs invertidas: la resolución temporal
4 DISCUSIÓN
Las redes neuronales convolucionales son un buen ejemplo de una idea inspirada por la
favorablemente con otros métodos (Bottou et al., 1994). Mientras que la aplicación de redes
convolucionales para el reconocimiento de imágenes elimina la necesidad de un
LeCun & Bengio: Redes convolucionales para imágenes, voz y series temporales 11
extractor de características hecho a mano por separado, normalizando las imágenes por
tamaño y orientación (aunque sólo sea de forma aproximada). Los pesos compartidos y el
distorsiones, pero el reconocimiento totalmente invariable sigue estando fuera del alcance.
Agradecimientos
Los autores desean agradecer a Leon Bottou, Chris Burges, Isabelle Guyon, Larry
Referencias
Boser, B., Sackinger, E., Bromley, J., LeCun, Y., y Jackel, L. (1991). Un procesador de red
26(12):2017{2025.
Bottou, L., Cortes, C., Denker, J., Drucker, H., Guyon, I., Jackel, L., LeCun, Y., Muller, U.,
Guyon, I., Albrecht, P., Le Cun, Y., Denker, J. S., y ubbard W., H. (1991). diseño de un
patrones, 24(2):105{119.
Mellon University.
LeCun & Bengio: Redes convolucionales para imágenes, voz y series temporales 13
stock, E., Fogelman-Souli e, F., y Weisbuch, G., editores, Disordered systems and bio-
LeCun, Y., Boser, B., Denker, J., Henderson, D., Howard, R., Hubbard, W., y Jackel, L.
Systems, volumen 2, páginas 396{404, Denver 1989. Morgan Kaufmann, San Mateo.
Matan, O., Burges, C., LeCun, Y., y Denker, J. (1992). Reconocimiento de varios dígitos
utilizando una red neuronal de desplazamiento espacial. En Moody, J., Hanson, S.,
MIT.
Schenkel, M., Weissman, H., Guyon, I., Nohl, C., y Henderson, D. (1993).
CO.
trayectorias. En Moody, J., Hanson, S., y Lipmann, R., editores, Advances in Neural
Waibel, A., Hanazawa, T., Hinton, G., Shikano, K., y Lang, K. (1989). Reconocimiento