Está en la página 1de 24

Suscríbete a DeepL Pro para poder editar este documento.

Entra en www.DeepL.com/pro para más información.

Vea los debates, las estadísticas y los perfiles de los autores de esta publicación en: https://www.researchgate.net/publication/2453996

Redes convolucionales para imágenes, voz y series temporales

Artículo - Noviembre 1997


Fuente: CiteSeer

CITACIONE LEE
S
28,475
307

2 autores:

Y. Bengio Yann Lecun


Universidad de Montreal Universidad de Nueva York
666 PUBLICACIONES 87.507 CITAS 521 PUBLICACIONES 48.169 CITAS

VER PERFIL VER PERFIL

Algunos de los autores de esta publicación también están trabajando en estos proyectos relacionados:

Proyecto MoDeep View

Análisis del proyecto Vista


Todo el contenido de esta página fue subido por Yann Lecun el 23 de mayo de 2013.

El usuario ha solicitado la mejora del archivo descargado.


Redes convolucionales para imágenes, voz y

series temporales

Yann LeCunYoshua Bengio

Salón 4G332, AT&T B e l l Dept.Laboratories Informatique et Recherche

101 Crawfords Corner RoadOp erationnelle, Universit e de Montr eal,

Holmdel, NJ07733 Montreal, Qc, Canadá, H3C-

3J7 yann@research.att.com bengioy@iro.umontreal.ca

1
LeCun & Bengio: Redes convolucionales para imágenes, voz y series temporales 2

RUNNING HEAD: Correspondencia de redes

convolucionales:

Yann LeCun

Salón 4G332, AT&T Bell Laboratories, 101 Crawfords Corner Road

Holmdel, NJ 07733, teléfono: 908-949-4038, fax: 908-949-7322

correo electrónico: yann@research.att.com


LeCun & Bengio: Redes convolucionales para imágenes, voz y series temporales 3

1 INTRODUCCIÓN

La capacidad de las redes de propagación inversa multicapa para aprender mapeos

complejos, de alta dimensión y no lineales a partir de grandes colecciones de ejemplos las

convierte en candidatas obvias para tareas de reconocimiento de imágenes o

reconocimiento de voz (ver RECONOCIMIENTO DE PATRÓN Y REDES NEURALES). En

el modelo tradicional de reconocimiento de patrones, un extractor de características

diseñado a mano recopila información relevante de la entrada y elimina las variantes

irrelevantes. Un clasificador entrenable categoriza entonces los vectores de características

resultantes (o cadenas de símbolos) en clases. En este esquema, se pueden utilizar como

clasificadores redes multicapa estándar totalmente conectadas. Un esquema potencialmente

más interesante es eliminar el extractor de características, alimentando la red con entradas

de"raw" (por ejemplo, imágenes normalizadas), y confiar en la retropropagación para

convertir las primeras capas en un extractor de características apropiado. Aunque esto se

puede hacer con una red de feed-forward totalmente conectada con cierto éxito para tareas

como el reconocimiento de caracteres, hay problemas.

En primer lugar, las imágenes típicas, o representaciones espectrales de las palabras

habladas, son grandes, a menudo con varios cientos de variables. Una primera capa

completamente conectada con, digamos, unas 100 unidades ocultas, ya contendría

varios 10.000 pesos. Si los datos de entrenamiento son escasos, pueden surgir

problemas de sobreentrenamiento. Además, el requisito de memoria para tantos pesos

puede descartar ciertas implementaciones de hardware. Pero, la principal


característica de las redes no estructuradas para aplicaciones de imagen o voz es que

no tienen invariancia incorporada con respecto a las traducciones, o bien


LeCun & Bengio: Redes convolucionales para imágenes, voz y series temporales 4

distorsiones locales de las entradas. Antes de ser enviado a la capa de entrada de tamaño

xed de una red neuronal, las imágenes de caracteres, los espectros de palabras habladas u

otras señales 2D o 1D deben estar aproximadamente normalizadas en tamaño y centradas

en el eld de entrada. Desafortunadamente, ningún preprocesamiento puede ser perfecto: la

escritura a mano a menudo se normaliza a nivel de palabra, lo que puede causar

variaciones de tamaño, inclinación y posición de los caracteres individuales; las palabras

pueden hablarse a una velocidad, tono y entonación variables. Esto causará variaciones en

la posición de las características distintivas de los objetos de entrada. En principio, una red

plenamente conectada de tamaño suficiente podría aprender a producir resultados que no

varíen con respecto a esas variaciones. Sin embargo, aprender tal tarea probablemente

resultaría en múltiples unidades con patrones de peso idénticos posicionadas en varios

lugares de la entrada. Aprender estas variaciones de peso requiere un gran número de

instancias de entrenamiento para cubrir el espacio de posibles variaciones. Por otro lado,

en las redes convolucionales, la invariabilidad de los desplazamientos se obtiene

automáticamente forzando la replicación de las variaciones de peso a través del espacio.

En segundo lugar, una característica de las arquitecturas totalmente conectadas es que

la topología de la entrada se ignora por completo. Las variables de entrada se pueden

presentar en cualquier orden ("xed") sin tener que elegir el resultado del entrenamiento.

Por el contrario, las imágenes o representaciones espectrales del habla tienen una fuerte

estructura local 2D, las series temporales tienen una fuerte estructura 1D: las variables (o

píxeles) que están espacial o temporalmente cercanas están altamente correlacionadas. Las

correlaciones locales son las razones de las conocidas ventajas de extraer y combinar

características locales antes de reconocer objetos espaciales o temporales. Las redes


convolucionales fuerzan la extracción de rasgos locales restringiendo los elds receptivos de

las unidades ocultas para que sean locales.


LeCun & Bengio: Redes convolucionales para imágenes, voz y series temporales 5

REDES2 CONVOLUCIONALES

Las redes convolucionales combinan tres ideas arquitectónicas para asegurar cierto grado

de cambio e invariabilidad de la distorsión: elds receptivos locales, pesos compartidos (o

replicación del peso) y, a veces, submuestreo espacial o temporal. Una red convolucional

típica para reconocer caracteres se muestra en el gure 1 (de (LeCun et al., 1990)). El plano

de entrada recibe imágenes de caracteres que están aproximadamente normalizados y

centrados. Cada unidad de una capa recibe entradas de un conjunto de unidades ubicadas

en un pequeño vecindario en la capa anterior. La idea de conectar unidades a los elds

receptivos locales en la entrada se remonta a principios de los años 60, y fue casi

simultánea con el descubrimiento de Hubel y Wiesel de neuronas localmente sensibles y de

orientación selectiva en el sistema visual del gato. Las conexiones locales han sido

reutilizadas muchas veces en modelos neurales de aprendizaje visual (ver (Mozer, 1991; Le

Cun, 1986) y NEOCOGNITRON en este manual). Con los elds receptivos locales, las

neuronas pueden extraer características visuales elementales tales como bordes orientados,

puntos finales, esquinas (o características similares en los espectrogramas del habla). Estas

características son entonces combinadas por las capas superiores. Como ya se ha dicho, las

distorsiones o los desplazamientos de la entrada pueden hacer que la posición de las

características más destacadas varíe. Además, los detectores de características elementales

que son útiles en una parte de la imagen son probablemente útiles en toda la imagen. Este

conocimiento puede ser aplicado forzando a un conjunto de unidades, cuyos elds receptivos

están ubicados en lugares di erentes de la imagen, a tener vectores de peso idénticos

(Rumelhart, Hinton y Williams, 1986). Los resultados de tal conjunto de neuronas


constituyen un mapa de características. En cada posición, los tipos de unidades en di erente
LeCun & Bengio: Redes convolucionales para imágenes, voz y series temporales 6

los mapas de características calculan diferentes tipos de características. Una

implementación secuencial de esto, para cada mapa de características, sería escanear

la imagen de entrada con una sola neurona que tenga un eld receptivo local, y

almacenar los estados de esta neurona en las ubicaciones correspondientes en el mapa

de características. Esta operación equivale a una convolución con un núcleo de

pequeño tamaño, seguido de una función de aplastamiento. El proceso puede realizarse

en paralelo implementando el mapa de características como un plano de neuronas que

comparten un único vector de peso. Las unidades en un mapa de características están

restringidas para realizar la misma operación en partes concretas de la imagen. Una

capa convolucional suele estar compuesta por varios mapas de características (con

vectores de peso di erente), de modo que se pueden extraer múltiples características en

cada ubicación. La primera capa oculta en la regla 1 tiene

4 mapas de características con 5 x 5 elds receptivos . Desplazar la entrada de una capa convolucional

cambiar la salida, pero de lo contrario no se modificará. Una vez que una característica ha

sido detectada, su ubicación exacta se vuelve menos importante, siempre y cuando se

mantenga su posición aproximada en relación con otras características. Por lo tanto, cada

capa convolucional es seguida por una capa adicional que realiza un promedio local y un

submuestreo, reduciendo la resolución del mapa de características y reduciendo la

sensibilidad de la salida a cambios y distorsiones. La segunda capa oculta en la gure 1

realiza un promedio y submuestreo de 2 por 2, seguida de un coeficiente entrenable, un

sesgo entrenable y un sigmoide. El coeficiente entrenable y el sesgo controlan el e ect de la

no linealidad de aplastamiento (por ejemplo, si el coeficiente es pequeño, entonces la

neurona opera en modo casi lineal). Las capas sucesivas de convoluciones y submuestreos
son típicamente alternadas, resultando en una \bi-pirámide": en cada capa, el número de

mapas de características se incrementa a medida que la resolución e s p a c i a l disminuye.

Cada unidad en la tercera capa oculta en

gure 1 puede tener conexiones de entrada de varios mapas de características en la capa anterior. El
LeCun & Bengio: Redes convolucionales para imágenes, voz y series temporales7

La combinación de convolución/submuestreo, inspirada en las nociones de Hubel y Wiesel

de células simples y complejas, fue implementada en el modelo Neocognitrón (ver

NEOCOGNITRON), aunque no se disponía entonces de un procedimiento de aprendizaje

supervisado a nivel mundial como la retropropagación.

ENTRADA mapas de mapas de mapas de mapas de SALIDA


28x28 característic característic característic característic 26@1x1
as as as as
4@24x24 4@12x12 12@8x8 12@4x4

Figura 1: Red neuronal convolucional para el procesamiento de imágenes, por ejemplo, reconocimiento
de escritura a mano

Dado que todos los pesos se aprenden con la retropaginación, las redes convolucionales

pueden ser vistas como sintetizadoras de su propio extractor de características. La técnica

de reparto de peso tiene el lado interestático e ect de reducir el número de parámetros

libres, reduciendo así la"capacidad" de la máquina y mejorando su capacidad de

generalización (véase (LeCun, 1989) sobre reparto de peso, y APRENDIZAJE Y

GENERALIZACIÓN para una explicación de las nociones de capacidad y generalización).

La red en la gure 1 contiene alrededor de 100.000 conexiones, pero sólo unos 2.600

parámetros libres debido al reparto de peso. Estas redes se comparan favorablemente con

otros métodos de reconocimiento de caracteres escritos a mano (Bottou et al., 1994) (véase

también HAND WRITTEN DIGIT RECOGNITION), y se han utilizado en aplicaciones

comerciales.
LeCun & Bengio: Redes convolucionales para imágenes, voz y series temporales8

Las redes convolucionales de tamaño fijo que comparten pesos a lo largo de una sola

dimensión temporal se conocen como Redes Neuronales de Retardo de Tiempo (TDNNs).

Los TDNN se han utilizado en el reconocimiento de fonemas (sin submuestreo) (Lang y

Hinton, 1988; Waibel et al., 1989), en el reconocimiento de palabras habladas (con

submuestreo) (Bottou et al., 1990) y en el reconocimiento de escritura a mano en línea

(Guyon et al., 1991).

3REDES CONVOLUCIONALES DE TAMAÑO

VARIABLE, SDNN

Reconocim
iento de
caracteres

simples
SDNN

Figura 2: Red convolucional replicada de tamaño variable, SDNN

Mientras que los caracteres o las palabras habladas cortas pueden normalizarse en tamaño

y alimentarse a una red de tamaño xed, los objetos más complejos, como las palabras y las

oraciones escritas o habladas, tienen un tamaño inherentemente variable. Una forma de

manejar un objeto compuesto de este tipo es segmentarlo heurísticamente en objetos más

simples que puedan ser reconocidos individualmente (por ejemplo, caracteres, fonemas).
Sin embargo, no existe una heurística de segmentación fiable para el habla o la escritura

manuscrita cursiva. Una solución de fuerza bruta


LeCun & Bengio: Redes convolucionales para imágenes, voz y series temporales 9

es escanear (o replicar) un reconocedor en todas las ubicaciones posibles a través de la

entrada. Aunque esto puede ser prohibitivamente costoso en general, las redes

convolucionales pueden ser escaneadas o replicadas muy fácilmente sobre grandes elds de

entrada de tamaño variable. Considere un ejemplo de una red convolucional y su alter ego en

un lugar cercano. Debido a la naturaleza convolucional de las redes, las unidades en las

dos redes que miran a ubicaciones idénticas en la entrada tienen salidas idénticas, por lo

tanto su salida no necesita ser calculada dos veces. En e ect, la replicación de una red de

convolución puede hacerse simplemente aumentando el tamaño del elfo sobre el cual se

realizan las convoluciones, y replicando la capa de salida, convirtiéndola ectivamente en

una capa convolucional. Una salida cuyo eld receptivo está centrado en un objeto elemental

producirá la clase de este objeto, mientras que una salida intermedia puede estar vacía o

contener basura. Las salidas pueden ser interpretadas como evidencia para las categorías

de objetos centrados en posiciones di erentes del eld de entrada. Por lo tanto, se requiere

un post-procesador para extraer interpretaciones consistentes de la salida. Para ello se

utilizan a menudo modelos de Markov ocultos (HMM) u otros métodos basados en gráficos

(véase RECONOCIMIENTO DE VOZ, y RECONOCIMIENTO DE PATRÓN Y REDES

NEURALES en este volumen). La red replicada y el HMM pueden ser entrenados

simultáneamente mediante la retropropagación de gradientes a través del HMM. Se han

utilizado híbridos TDNN/HMM de tamaño variable y con formación mundial para el

reconocimiento de voz (véase la lista de referencias en PATTERN RECOGNITION AND

NEURAL NETWORKS) y el reconocimiento de escritura a mano en línea (Schenkel et al.,

1993). Se han utilizado redes convolucionales bidimensionales replicadas, llamadas"Space

Displacement Neural Networks" (SDNN) en combinación con HMM u otros métodos de


correspondencia elástica para el reconocimiento de palabras manuscritas (Keeler y

Rumelhart, 1991; Matan et al., 1992; Bengio, LeCun and


LeCun & Bengio: Redes convolucionales para imágenes, voz y series temporales 10

Henderson, 1994). Otra aplicación interesante de los SDNNs es la localización de objetos

(Wolf y Platt, 1994).

Una ventaja importante de las redes neuronales convolucionales es la facilidad con la

que se pueden implementar en hardware. Se han diseñado y utilizado chips

analógicos/digitales especializados en el reconocimiento de caracteres y en aplicaciones de

preprocesamiento de imágenes (Boser et al., 1991). Se obtuvieron velocidades de más de

1000 caracteres por segundo con una red de alrededor de 100.000 conexiones (mostradas

en la tabla 1).

La idea del submuestreo se puede cambiar para construir redes similares a las de los

TDNN, pero que pueden generar secuencias a partir de etiquetas. Estas redes se denominan

RTN-TDN inversas porque pueden verse como TDNNs invertidas: la resolución temporal

aumenta desde la entrada a la salida, a través de sobremuestreos alternados y capas de

convolución (Simard y LeCun, 1992).

4 DISCUSIÓN

Las redes neuronales convolucionales son un buen ejemplo de una idea inspirada por la

biología que resultó en soluciones de ingeniería competitivas que se comparan

favorablemente con otros métodos (Bottou et al., 1994). Mientras que la aplicación de redes
convolucionales para el reconocimiento de imágenes elimina la necesidad de un
LeCun & Bengio: Redes convolucionales para imágenes, voz y series temporales 11

extractor de características hecho a mano por separado, normalizando las imágenes por

tamaño y orientación (aunque sólo sea de forma aproximada). Los pesos compartidos y el

submuestreo traen invariancia con respecto a pequeñas transformaciones geométricas o

distorsiones, pero el reconocimiento totalmente invariable sigue estando fuera del alcance.

Se requerirán ideas arquitectónicas radicalmente nuevas, posiblemente sugeridas por la

biología, para un sistema de reconocimiento de voz o de imagen completamente neural.

Agradecimientos

Los autores desean agradecer a Leon Bottou, Chris Burges, Isabelle Guyon, Larry

Jackel y a los demás miembros del Departamento de Investigación de Sistemas

Adaptativos por su apoyo y sus comentarios.

Referencias

Bengio, Y., LeCun, Y., y Henderson, D. (1994). Recreador de palabras manuscritas

globalmente capacitado que utiliza representación espacial, redes neuronales de

desplazamiento espacial y modelos de Markov ocultos. En Advances in Neural Information

Processing Systems, volumen 6, páginas 937{944.


LeCun & Bengio: Redes convolucionales para imágenes, voz y series temporales 12

Boser, B., Sackinger, E., Bromley, J., LeCun, Y., y Jackel, L. (1991). Un procesador de red

neuronal analógico con topología programable. IEEE Journal of Solid-State Circuits,

26(12):2017{2025.

Bottou, L., Cortes, C., Denker, J., Drucker, H., Guyon, I., Jackel, L., LeCun, Y., Muller, U.,

Sackinger, E., Simard, P., y Vapnik, V. (1994). Comparación de métodos de

clasificación: un estudio de caso sobre el reconocimiento manuscrito de dígitos. En la

Conferencia Internacional sobre Reconocimiento de Patrones, Jerusalén, Israel.

Bottou, L., Fogelman-Soulie, F., Blanchet, P., y Lienard, J. S. (1990). Reconocimiento de

dígitos aislado e independiente del altavoz: percepciones multicapa frente a distorsión

dinámica del tiempo. Redes neuronales, 3:453{465.

Guyon, I., Albrecht, P., Le Cun, Y., Denker, J. S., y ubbard W., H. (1991). diseño de un

reconocedor de caracteres de red neural para un terminal táctil al. Reconocimiento de

patrones, 24(2):105{119.

Keeler, J. y Rumelhart, D. y Leow, W. (1991). segmentación y reconocimiento integrados de

números impresos a mano. En Lippman, R. P., Moody, J. M. y Touretzky,

D. S., editores, Neural Information Processing Systems, volumen 3, páginas 557{563.

Mor- gan Kaufmann Publishers, San Mateo, CA.

Lang, K. y Hinton, G. (1988). El desarrollo de la arquitectura de la Red Neural de Retardo

de Tiempo para el reconocimiento de voz. Informe técnico CMU-CS-88-152, Carnegie-

Mellon University.
LeCun & Bengio: Redes convolucionales para imágenes, voz y series temporales 13

Le Cun, Y. (1986). Procesos de aprendizaje en una red de umbrales asimétricos. En Bienen-

stock, E., Fogelman-Souli e, F., y Weisbuch, G., editores, Disordered systems and bio-

logical organization, páginas 233{240, Les Houches, Francia. Springer-Verlag.

LeCun, Y. (1989). Estrategias de generalización y diseño de redes. Informe Técnico CRG-

TR-89-4, Departamento de Ciencias de la Computación, Universidad de Toronto.

LeCun, Y., Boser, B., Denker, J., Henderson, D., Howard, R., Hubbard, W., y Jackel, L.

(1990). Reconocimiento de dígitos escritos a mano con una red de

retropropagación. En Touret-zky, D., editor, Advances in Neural Information Processing

Systems, volumen 2, páginas 396{404, Denver 1989. Morgan Kaufmann, San Mateo.

Matan, O., Burges, C., LeCun, Y., y Denker, J. (1992). Reconocimiento de varios dígitos

utilizando una red neuronal de desplazamiento espacial. En Moody, J., Hanson, S.,

y Lipmann, R., editores, Advances in Neural Information Processing Systems 4, páginas

488{495, San Mateo CA. Morgan Kaufmann.

Mozer, M. (1991). La percepción de múltiples objetos, un enfoque conexionista. Prensa del

MIT.

Rumelhart, D., Hinton, G., y Williams, R. (1986). Aprendizaje de Representaciones por

Errores de Retropropagación. Naturaleza, 323:533{536.

Schenkel, M., Weissman, H., Guyon, I., Nohl, C., y Henderson, D. (1993).

Reconocimiento - Segmentación basada en el reconocimiento de palabras impresas

a mano en línea. En Hanson, C. y Giles, editores, Advances in Neural Information

Processing Systems, volumen 5, páginas 723{730, Denver,


LeCun & Bengio: Redes convolucionales para imágenes, voz y series temporales14

CO.

Simard, P. y LeCun, Y. (1992). Invertir TDNN: Una arquitectura para la generación de

trayectorias. En Moody, J., Hanson, S., y Lipmann, R., editores, Advances in Neural

In- formation Processing Systems 4, páginas 579{588, Denver 1991. Morgan

Kaufmann, San Mateo.

Waibel, A., Hanazawa, T., Hinton, G., Shikano, K., y Lang, K. (1989). Reconocimiento

de fonemas mediante redes neuronales con retardo de tiempo. IEEE Transactions on

Acoustics, Speech, and Signal Processing, 37:328{339.

Wolf, R. y Platt, J. (1994). Localización de bloques de direcciones postales mediante

una red de localizadores convolucionales. En Advances in Neural Information

Processing Systems 6, páginas 745{752.


Ver estadísticas de publicación

También podría gustarte