Redes Convolucionales para Voz

Suscríbete a DeepL Pro para poder editar este documento.
Entra en www.DeepL.com/pro para más información.
Vea los debates, las estadísticas y los perfiles de los autores de esta publicación en: https://www.researchgate.net/publication/2453996
Redes convolucionales para imágenes, voz y series temporales
Artículo - Noviembre 1997

Fuente: CiteSeer
CITACIONE LEE
S
28,475
307
2 autores:
Y. Bengio Yann Lecun

Universidad de Montreal Universidad de Nueva York
666 PUBLICACIONES 87.507 CITAS 521 PUBLICACIONES 48.169 CITAS
VER PERFIL VER PERFIL
Algunos de los autores de esta publicación también están trabajando en estos proyectos relacionados:
Proyecto MoDeep View
Análisis del proyecto Vista

Todo el contenido de esta página fue subido por Yann Lecun el 23 de mayo de 2013.
El usuario ha solicitado la mejora del archivo descargado.

Redes convolucionales para imágenes, voz y
series temporales
Yann LeCunYoshua Bengio
Salón 4G332, AT&T B e l l Dept.Laboratories Informatique et Recherche
101 Crawfords Corner RoadOp erationnelle, Universit e de Montr eal,
Holmdel, NJ07733 Montreal, Qc, Canadá, H3C-
3J7 yann@research.att.com bengioy@iro.umontreal.ca
1
LeCun & Bengio: Redes convolucionales para imágenes, voz y series temporales 2
RUNNING HEAD: Correspondencia de redes
convolucionales:
Yann LeCun
Salón 4G332, AT&T Bell Laboratories, 101 Crawfords Corner Road
Holmdel, NJ 07733, teléfono: 908-949-4038, fax: 908-949-7322
correo electrónico: yann@research.att.com

1 INTRODUCCIÓN
La capacidad de las redes de propagación inversa multicapa para aprender mapeos
complejos, de alta dimensión y no lineales a partir de grandes colecciones de ejemplos las
convierte en candidatas obvias para tareas de reconocimiento de imágenes o
reconocimiento de voz (ver RECONOCIMIENTO DE PATRÓN Y REDES NEURALES). En
el modelo tradicional de reconocimiento de patrones, un extractor de características
diseñado a mano recopila información relevante de la entrada y elimina las variantes
irrelevantes. Un clasificador entrenable categoriza entonces los vectores de características
resultantes (o cadenas de símbolos) en clases. En este esquema, se pueden utilizar como
clasificadores redes multicapa estándar totalmente conectadas. Un esquema potencialmente
más interesante es eliminar el extractor de características, alimentando la red con entradas
de"raw" (por ejemplo, imágenes normalizadas), y confiar en la retropropagación para
convertir las primeras capas en un extractor de características apropiado. Aunque esto se
puede hacer con una red de feed-forward totalmente conectada con cierto éxito para tareas
como el reconocimiento de caracteres, hay problemas.
En primer lugar, las imágenes típicas, o representaciones espectrales de las palabras
habladas, son grandes, a menudo con varios cientos de variables. Una primera capa
completamente conectada con, digamos, unas 100 unidades ocultas, ya contendría
varios 10.000 pesos. Si los datos de entrenamiento son escasos, pueden surgir
problemas de sobreentrenamiento. Además, el requisito de memoria para tantos pesos
puede descartar ciertas implementaciones de hardware. Pero, la principal

característica de las redes no estructuradas para aplicaciones de imagen o voz es que
no tienen invariancia incorporada con respecto a las traducciones, o bien

distorsiones locales de las entradas. Antes de ser enviado a la capa de entrada de tamaño
xed de una red neuronal, las imágenes de caracteres, los espectros de palabras habladas u
otras señales 2D o 1D deben estar aproximadamente normalizadas en tamaño y centradas
en el eld de entrada. Desafortunadamente, ningún preprocesamiento puede ser perfecto: la
escritura a mano a menudo se normaliza a nivel de palabra, lo que puede causar
variaciones de tamaño, inclinación y posición de los caracteres individuales; las palabras
pueden hablarse a una velocidad, tono y entonación variables. Esto causará variaciones en
la posición de las características distintivas de los objetos de entrada. En principio, una red
plenamente conectada de tamaño suficiente podría aprender a producir resultados que no
varíen con respecto a esas variaciones. Sin embargo, aprender tal tarea probablemente
resultaría en múltiples unidades con patrones de peso idénticos posicionadas en varios
lugares de la entrada. Aprender estas variaciones de peso requiere un gran número de
instancias de entrenamiento para cubrir el espacio de posibles variaciones. Por otro lado,
en las redes convolucionales, la invariabilidad de los desplazamientos se obtiene
automáticamente forzando la replicación de las variaciones de peso a través del espacio.
En segundo lugar, una característica de las arquitecturas totalmente conectadas es que
la topología de la entrada se ignora por completo. Las variables de entrada se pueden
presentar en cualquier orden ("xed") sin tener que elegir el resultado del entrenamiento.
Por el contrario, las imágenes o representaciones espectrales del habla tienen una fuerte
estructura local 2D, las series temporales tienen una fuerte estructura 1D: las variables (o
píxeles) que están espacial o temporalmente cercanas están altamente correlacionadas. Las
correlaciones locales son las razones de las conocidas ventajas de extraer y combinar
características locales antes de reconocer objetos espaciales o temporales. Las redes

convolucionales fuerzan la extracción de rasgos locales restringiendo los elds receptivos de
las unidades ocultas para que sean locales.

REDES2 CONVOLUCIONALES
Las redes convolucionales combinan tres ideas arquitectónicas para asegurar cierto grado
de cambio e invariabilidad de la distorsión: elds receptivos locales, pesos compartidos (o
replicación del peso) y, a veces, submuestreo espacial o temporal. Una red convolucional
típica para reconocer caracteres se muestra en el gure 1 (de (LeCun et al., 1990)). El plano
de entrada recibe imágenes de caracteres que están aproximadamente normalizados y
centrados. Cada unidad de una capa recibe entradas de un conjunto de unidades ubicadas
en un pequeño vecindario en la capa anterior. La idea de conectar unidades a los elds
receptivos locales en la entrada se remonta a principios de los años 60, y fue casi
simultánea con el descubrimiento de Hubel y Wiesel de neuronas localmente sensibles y de
orientación selectiva en el sistema visual del gato. Las conexiones locales han sido
reutilizadas muchas veces en modelos neurales de aprendizaje visual (ver (Mozer, 1991; Le
Cun, 1986) y NEOCOGNITRON en este manual). Con los elds receptivos locales, las
neuronas pueden extraer características visuales elementales tales como bordes orientados,
puntos finales, esquinas (o características similares en los espectrogramas del habla). Estas
características son entonces combinadas por las capas superiores. Como ya se ha dicho, las
distorsiones o los desplazamientos de la entrada pueden hacer que la posición de las
características más destacadas varíe. Además, los detectores de características elementales
que son útiles en una parte de la imagen son probablemente útiles en toda la imagen. Este
conocimiento puede ser aplicado forzando a un conjunto de unidades, cuyos elds receptivos
están ubicados en lugares di erentes de la imagen, a tener vectores de peso idénticos
(Rumelhart, Hinton y Williams, 1986). Los resultados de tal conjunto de neuronas

constituyen un mapa de características. En cada posición, los tipos de unidades en di erente
los mapas de características calculan diferentes tipos de características. Una
implementación secuencial de esto, para cada mapa de características, sería escanear
la imagen de entrada con una sola neurona que tenga un eld receptivo local, y
almacenar los estados de esta neurona en las ubicaciones correspondientes en el mapa
de características. Esta operación equivale a una convolución con un núcleo de
pequeño tamaño, seguido de una función de aplastamiento. El proceso puede realizarse
en paralelo implementando el mapa de características como un plano de neuronas que
comparten un único vector de peso. Las unidades en un mapa de características están
restringidas para realizar la misma operación en partes concretas de la imagen. Una
capa convolucional suele estar compuesta por varios mapas de características (con
vectores de peso di erente), de modo que se pueden extraer múltiples características en
cada ubicación. La primera capa oculta en la regla 1 tiene
4 mapas de características con 5 x 5 elds receptivos . Desplazar la entrada de una capa convolucional
cambiar la salida, pero de lo contrario no se modificará. Una vez que una característica ha
sido detectada, su ubicación exacta se vuelve menos importante, siempre y cuando se
mantenga su posición aproximada en relación con otras características. Por lo tanto, cada
capa convolucional es seguida por una capa adicional que realiza un promedio local y un
submuestreo, reduciendo la resolución del mapa de características y reduciendo la
sensibilidad de la salida a cambios y distorsiones. La segunda capa oculta en la gure 1
realiza un promedio y submuestreo de 2 por 2, seguida de un coeficiente entrenable, un
sesgo entrenable y un sigmoide. El coeficiente entrenable y el sesgo controlan el e ect de la
no linealidad de aplastamiento (por ejemplo, si el coeficiente es pequeño, entonces la
neurona opera en modo casi lineal). Las capas sucesivas de convoluciones y submuestreos
son típicamente alternadas, resultando en una \bi-pirámide": en cada capa, el número de
mapas de características se incrementa a medida que la resolución e s p a c i a l disminuye.
Cada unidad en la tercera capa oculta en
gure 1 puede tener conexiones de entrada de varios mapas de características en la capa anterior. El
LeCun & Bengio: Redes convolucionales para imágenes, voz y series temporales7
La combinación de convolución/submuestreo, inspirada en las nociones de Hubel y Wiesel
de células simples y complejas, fue implementada en el modelo Neocognitrón (ver
NEOCOGNITRON), aunque no se disponía entonces de un procedimiento de aprendizaje
supervisado a nivel mundial como la retropropagación.
ENTRADA mapas de mapas de mapas de mapas de SALIDA

28x28 característic característic característic característic 26@1x1
as as as as
4@24x24 4@12x12 12@8x8 12@4x4
Figura 1: Red neuronal convolucional para el procesamiento de imágenes, por ejemplo, reconocimiento
de escritura a mano
Dado que todos los pesos se aprenden con la retropaginación, las redes convolucionales
pueden ser vistas como sintetizadoras de su propio extractor de características. La técnica
de reparto de peso tiene el lado interestático e ect de reducir el número de parámetros
libres, reduciendo así la"capacidad" de la máquina y mejorando su capacidad de
generalización (véase (LeCun, 1989) sobre reparto de peso, y APRENDIZAJE Y
GENERALIZACIÓN para una explicación de las nociones de capacidad y generalización).
La red en la gure 1 contiene alrededor de 100.000 conexiones, pero sólo unos 2.600
parámetros libres debido al reparto de peso. Estas redes se comparan favorablemente con
otros métodos de reconocimiento de caracteres escritos a mano (Bottou et al., 1994) (véase
también HAND WRITTEN DIGIT RECOGNITION), y se han utilizado en aplicaciones
comerciales.
Las redes convolucionales de tamaño fijo que comparten pesos a lo largo de una sola
dimensión temporal se conocen como Redes Neuronales de Retardo de Tiempo (TDNNs).
Los TDNN se han utilizado en el reconocimiento de fonemas (sin submuestreo) (Lang y
Hinton, 1988; Waibel et al., 1989), en el reconocimiento de palabras habladas (con
submuestreo) (Bottou et al., 1990) y en el reconocimiento de escritura a mano en línea
(Guyon et al., 1991).
3REDES CONVOLUCIONALES DE TAMAÑO
VARIABLE, SDNN
Reconocim
iento de
caracteres
simples
SDNN
Figura 2: Red convolucional replicada de tamaño variable, SDNN
Mientras que los caracteres o las palabras habladas cortas pueden normalizarse en tamaño
y alimentarse a una red de tamaño xed, los objetos más complejos, como las palabras y las
oraciones escritas o habladas, tienen un tamaño inherentemente variable. Una forma de
manejar un objeto compuesto de este tipo es segmentarlo heurísticamente en objetos más
simples que puedan ser reconocidos individualmente (por ejemplo, caracteres, fonemas).
Sin embargo, no existe una heurística de segmentación fiable para el habla o la escritura
manuscrita cursiva. Una solución de fuerza bruta

es escanear (o replicar) un reconocedor en todas las ubicaciones posibles a través de la
entrada. Aunque esto puede ser prohibitivamente costoso en general, las redes
convolucionales pueden ser escaneadas o replicadas muy fácilmente sobre grandes elds de
entrada de tamaño variable. Considere un ejemplo de una red convolucional y su alter ego en
un lugar cercano. Debido a la naturaleza convolucional de las redes, las unidades en las
dos redes que miran a ubicaciones idénticas en la entrada tienen salidas idénticas, por lo
tanto su salida no necesita ser calculada dos veces. En e ect, la replicación de una red de
convolución puede hacerse simplemente aumentando el tamaño del elfo sobre el cual se
realizan las convoluciones, y replicando la capa de salida, convirtiéndola ectivamente en
una capa convolucional. Una salida cuyo eld receptivo está centrado en un objeto elemental
producirá la clase de este objeto, mientras que una salida intermedia puede estar vacía o
contener basura. Las salidas pueden ser interpretadas como evidencia para las categorías
de objetos centrados en posiciones di erentes del eld de entrada. Por lo tanto, se requiere
un post-procesador para extraer interpretaciones consistentes de la salida. Para ello se
utilizan a menudo modelos de Markov ocultos (HMM) u otros métodos basados en gráficos
(véase RECONOCIMIENTO DE VOZ, y RECONOCIMIENTO DE PATRÓN Y REDES
NEURALES en este volumen). La red replicada y el HMM pueden ser entrenados
simultáneamente mediante la retropropagación de gradientes a través del HMM. Se han
utilizado híbridos TDNN/HMM de tamaño variable y con formación mundial para el
reconocimiento de voz (véase la lista de referencias en PATTERN RECOGNITION AND
NEURAL NETWORKS) y el reconocimiento de escritura a mano en línea (Schenkel et al.,
1993). Se han utilizado redes convolucionales bidimensionales replicadas, llamadas"Space
Displacement Neural Networks" (SDNN) en combinación con HMM u otros métodos de

correspondencia elástica para el reconocimiento de palabras manuscritas (Keeler y
Rumelhart, 1991; Matan et al., 1992; Bengio, LeCun and

Henderson, 1994). Otra aplicación interesante de los SDNNs es la localización de objetos
(Wolf y Platt, 1994).
Una ventaja importante de las redes neuronales convolucionales es la facilidad con la
que se pueden implementar en hardware. Se han diseñado y utilizado chips
analógicos/digitales especializados en el reconocimiento de caracteres y en aplicaciones de
preprocesamiento de imágenes (Boser et al., 1991). Se obtuvieron velocidades de más de
1000 caracteres por segundo con una red de alrededor de 100.000 conexiones (mostradas
en la tabla 1).
La idea del submuestreo se puede cambiar para construir redes similares a las de los
TDNN, pero que pueden generar secuencias a partir de etiquetas. Estas redes se denominan
RTN-TDN inversas porque pueden verse como TDNNs invertidas: la resolución temporal
aumenta desde la entrada a la salida, a través de sobremuestreos alternados y capas de
convolución (Simard y LeCun, 1992).
4 DISCUSIÓN
Las redes neuronales convolucionales son un buen ejemplo de una idea inspirada por la
biología que resultó en soluciones de ingeniería competitivas que se comparan
favorablemente con otros métodos (Bottou et al., 1994). Mientras que la aplicación de redes
convolucionales para el reconocimiento de imágenes elimina la necesidad de un
extractor de características hecho a mano por separado, normalizando las imágenes por
tamaño y orientación (aunque sólo sea de forma aproximada). Los pesos compartidos y el
submuestreo traen invariancia con respecto a pequeñas transformaciones geométricas o
distorsiones, pero el reconocimiento totalmente invariable sigue estando fuera del alcance.
Se requerirán ideas arquitectónicas radicalmente nuevas, posiblemente sugeridas por la
biología, para un sistema de reconocimiento de voz o de imagen completamente neural.
Agradecimientos
Los autores desean agradecer a Leon Bottou, Chris Burges, Isabelle Guyon, Larry
Jackel y a los demás miembros del Departamento de Investigación de Sistemas
Adaptativos por su apoyo y sus comentarios.
Referencias
Bengio, Y., LeCun, Y., y Henderson, D. (1994). Recreador de palabras manuscritas
globalmente capacitado que utiliza representación espacial, redes neuronales de
desplazamiento espacial y modelos de Markov ocultos. En Advances in Neural Information
Processing Systems, volumen 6, páginas 937{944.

Boser, B., Sackinger, E., Bromley, J., LeCun, Y., y Jackel, L. (1991). Un procesador de red
neuronal analógico con topología programable. IEEE Journal of Solid-State Circuits,
26(12):2017{2025.
Bottou, L., Cortes, C., Denker, J., Drucker, H., Guyon, I., Jackel, L., LeCun, Y., Muller, U.,
Sackinger, E., Simard, P., y Vapnik, V. (1994). Comparación de métodos de
clasificación: un estudio de caso sobre el reconocimiento manuscrito de dígitos. En la
Conferencia Internacional sobre Reconocimiento de Patrones, Jerusalén, Israel.
Bottou, L., Fogelman-Soulie, F., Blanchet, P., y Lienard, J. S. (1990). Reconocimiento de
dígitos aislado e independiente del altavoz: percepciones multicapa frente a distorsión
dinámica del tiempo. Redes neuronales, 3:453{465.
Guyon, I., Albrecht, P., Le Cun, Y., Denker, J. S., y ubbard W., H. (1991). diseño de un
reconocedor de caracteres de red neural para un terminal táctil al. Reconocimiento de
patrones, 24(2):105{119.
Keeler, J. y Rumelhart, D. y Leow, W. (1991). segmentación y reconocimiento integrados de
números impresos a mano. En Lippman, R. P., Moody, J. M. y Touretzky,
D. S., editores, Neural Information Processing Systems, volumen 3, páginas 557{563.
Mor- gan Kaufmann Publishers, San Mateo, CA.
Lang, K. y Hinton, G. (1988). El desarrollo de la arquitectura de la Red Neural de Retardo
de Tiempo para el reconocimiento de voz. Informe técnico CMU-CS-88-152, Carnegie-
Mellon University.
Le Cun, Y. (1986). Procesos de aprendizaje en una red de umbrales asimétricos. En Bienen-
stock, E., Fogelman-Souli e, F., y Weisbuch, G., editores, Disordered systems and bio-
logical organization, páginas 233{240, Les Houches, Francia. Springer-Verlag.
LeCun, Y. (1989). Estrategias de generalización y diseño de redes. Informe Técnico CRG-
TR-89-4, Departamento de Ciencias de la Computación, Universidad de Toronto.
LeCun, Y., Boser, B., Denker, J., Henderson, D., Howard, R., Hubbard, W., y Jackel, L.
(1990). Reconocimiento de dígitos escritos a mano con una red de
retropropagación. En Touret-zky, D., editor, Advances in Neural Information Processing
Systems, volumen 2, páginas 396{404, Denver 1989. Morgan Kaufmann, San Mateo.
Matan, O., Burges, C., LeCun, Y., y Denker, J. (1992). Reconocimiento de varios dígitos
utilizando una red neuronal de desplazamiento espacial. En Moody, J., Hanson, S.,
y Lipmann, R., editores, Advances in Neural Information Processing Systems 4, páginas
488{495, San Mateo CA. Morgan Kaufmann.
Mozer, M. (1991). La percepción de múltiples objetos, un enfoque conexionista. Prensa del
MIT.
Rumelhart, D., Hinton, G., y Williams, R. (1986). Aprendizaje de Representaciones por
Errores de Retropropagación. Naturaleza, 323:533{536.
Schenkel, M., Weissman, H., Guyon, I., Nohl, C., y Henderson, D. (1993).
Reconocimiento - Segmentación basada en el reconocimiento de palabras impresas
a mano en línea. En Hanson, C. y Giles, editores, Advances in Neural Information
Processing Systems, volumen 5, páginas 723{730, Denver,

CO.
Simard, P. y LeCun, Y. (1992). Invertir TDNN: Una arquitectura para la generación de
trayectorias. En Moody, J., Hanson, S., y Lipmann, R., editores, Advances in Neural
In- formation Processing Systems 4, páginas 579{588, Denver 1991. Morgan
Kaufmann, San Mateo.
Waibel, A., Hanazawa, T., Hinton, G., Shikano, K., y Lang, K. (1989). Reconocimiento
de fonemas mediante redes neuronales con retardo de tiempo. IEEE Transactions on
Acoustics, Speech, and Signal Processing, 37:328{339.
Wolf, R. y Platt, J. (1994). Localización de bloques de direcciones postales mediante
una red de localizadores convolucionales. En Advances in Neural Information
Processing Systems 6, páginas 745{752.

Ver estadísticas de publicación

Redes Convolucionales para Voz

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Redes Convolucionales para Voz

Cargado por

Copyright:

Formatos disponibles

Suscríbete a DeepL Pro para poder editar este documento.

Entra en www.DeepL.com/pro para más información.

Redes convolucionales para imágenes, voz y series temporales

Artículo - Noviembre 1997

Y. Bengio Yann Lecun

VER PERFIL VER PERFIL

Proyecto MoDeep View

Análisis del proyecto Vista

El usuario ha solicitado la mejora del archivo descargado.

Yann LeCunYoshua Bengio

Salón 4G332, AT&T B e l l Dept.Laboratories Informatique et Recherche

101 Crawfords Corner RoadOp erationnelle, Universit e de Montr eal,

Holmdel, NJ07733 Montreal, Qc, Canadá, H3C-

3J7 yann@research.att.com bengioy@iro.umontreal.ca

RUNNING HEAD: Correspondencia de redes

Salón 4G332, AT&T Bell Laboratories, 101 Crawfords Corner Road

Holmdel, NJ 07733, teléfono: 908-949-4038, fax: 908-949-7322

correo electrónico: yann@research.att.com

La capacidad de las redes de propagación inversa multicapa para aprender mapeos

complejos, de alta dimensión y no lineales a partir de grandes colecciones de ejemplos las

convierte en candidatas obvias para tareas de reconocimiento de imágenes o

reconocimiento de voz (ver RECONOCIMIENTO DE PATRÓN Y REDES NEURALES). En

el modelo tradicional de reconocimiento de patrones, un extractor de características

diseñado a mano recopila información relevante de la entrada y elimina las variantes

irrelevantes. Un clasificador entrenable categoriza entonces los vectores de características

resultantes (o cadenas de símbolos) en clases. En este esquema, se pueden utilizar como

clasificadores redes multicapa estándar totalmente conectadas. Un esquema potencialmente

más interesante es eliminar el extractor de características, alimentando la red con entradas

de"raw" (por ejemplo, imágenes normalizadas), y confiar en la retropropagación para

convertir las primeras capas en un extractor de características apropiado. Aunque esto se

como el reconocimiento de caracteres, hay problemas.

En primer lugar, las imágenes típicas, o representaciones espectrales de las palabras

completamente conectada con, digamos, unas 100 unidades ocultas, ya contendría

problemas de sobreentrenamiento. Además, el requisito de memoria para tantos pesos

puede descartar ciertas implementaciones de hardware. Pero, la principal

no tienen invariancia incorporada con respecto a las traducciones, o bien

otras señales 2D o 1D deben estar aproximadamente normalizadas en tamaño y centradas

en el eld de entrada. Desafortunadamente, ningún preprocesamiento puede ser perfecto: la

escritura a mano a menudo se normaliza a nivel de palabra, lo que puede causar

variaciones de tamaño, inclinación y posición de los caracteres individuales; las palabras

plenamente conectada de tamaño suficiente podría aprender a producir resultados que no

resultaría en múltiples unidades con patrones de peso idénticos posicionadas en varios

lugares de la entrada. Aprender estas variaciones de peso requiere un gran número de

en las redes convolucionales, la invariabilidad de los desplazamientos se obtiene

automáticamente forzando la replicación de las variaciones de peso a través del espacio.

En segundo lugar, una característica de las arquitecturas totalmente conectadas es que

la topología de la entrada se ignora por completo. Las variables de entrada se pueden

características locales antes de reconocer objetos espaciales o temporales. Las redes

las unidades ocultas para que sean locales.

de cambio e invariabilidad de la distorsión: elds receptivos locales, pesos compartidos (o

de entrada recibe imágenes de caracteres que están aproximadamente normalizados y

en un pequeño vecindario en la capa anterior. La idea de conectar unidades a los elds

simultánea con el descubrimiento de Hubel y Wiesel de neuronas localmente sensibles y de

distorsiones o los desplazamientos de la entrada pueden hacer que la posición de las

características más destacadas varíe. Además, los detectores de características elementales

están ubicados en lugares di erentes de la imagen, a tener vectores de peso idénticos

(Rumelhart, Hinton y Williams, 1986). Los resultados de tal conjunto de neuronas

los mapas de características calculan diferentes tipos de características. Una

implementación secuencial de esto, para cada mapa de características, sería escanear

almacenar los estados de esta neurona en las ubicaciones correspondientes en el mapa

de características. Esta operación equivale a una convolución con un núcleo de

pequeño tamaño, seguido de una función de aplastamiento. El proceso puede realizarse

en paralelo implementando el mapa de características como un plano de neuronas que