Está en la página 1de 14

Traducido del inglés al español - www.onlinedoctranslator.

com

MobileNetV2: residuos invertidos y cuellos de botella lineales

Mark Sandler Andrew Howard Menglong Zhu Andrey Zhmoginov Liang-Chieh Chen
Corporación Google.

{sandler, howarda, menglong, azhmogin, lcchen}@google.com

Abstracto aplicaciones
arXiv:1801.04381v4 [cs.CV] 21 de marzo de 2019

Este documento presenta una nueva arquitectura de red neuronal


En este documento, describimos una nueva arquitectura diseñada específicamente para entornos móviles y con recursos
móvil, MobileNetV2, que mejora el rendimiento de última limitados. Nuestra red impulsa el estado del arte de los modelos de
generación de los modelos móviles en múltiples tareas y visión por computadora personalizados para dispositivos móviles, al
puntos de referencia, así como en un espectro de diferentes disminuir significativamente la cantidad de operaciones y la memoria
tamaños de modelos. También describimos formas eficientes necesaria mientras se mantiene la misma precisión.
de aplicar estos modelos móviles a la detección de objetos en Nuestra principal contribución es un módulo de capa
un marco novedoso que llamamos SSDLite. Además, novedoso: el residual invertido con cuello de botella lineal. Este
demostramos cómo construir modelos de segmentación módulo toma como entrada una representación comprimida
semántica móvil a través de una forma reducida de DeepLabv3 de baja dimensión que primero se expande a una dimensión
que llamamos Mobile DeepLabv3. alta y se filtra con una convolución ligera en profundidad.
se basa en una estructura residual invertida donde las Posteriormente, las características se proyectan de nuevo a una
conexiones de acceso directo se encuentran entre las capas representación de baja dimensión con unconvolución lineal. La
delgadas de cuello de botella. La capa de expansión intermedia implementación oficial está disponible como parte de la
utiliza circunvoluciones ligeras en profundidad para filtrar biblioteca de modelos TensorFlow-Slim en [4].
entidades como fuente de no linealidad. Además, encontramos Este módulo se puede implementar de manera eficiente utilizando
que es importante eliminar las no linealidades en las capas operaciones estándar en cualquier marco moderno y permite que
estrechas para mantener el poder de representación. nuestros modelos superen el estado del arte en múltiples puntos de
Demostramos que esto mejora el rendimiento y rendimiento utilizando puntos de referencia estándar. Además, este
proporcionamos una intuición que llevó a este diseño. módulo convolucional es particularmente adecuado para diseños
Finalmente, nuestro enfoque permite desacoplar los móviles, ya que permite reducir significativamente la huella de memoria
dominios de entrada/salida de la expresividad de la necesaria durante la inferencia al no materializar completamente
transformación, lo que proporciona un marco conveniente para grandes tensores intermedios. Esto reduce la necesidad de acceso a la
un análisis posterior. Medimos nuestro desempeño en memoria principal en muchos diseños de hardware integrado, que
ImageNet [1] clasificación, detección de objetos COCO [2], proporcionan pequeñas cantidades de memoria caché controlada por
segmentación de imágenes VOC [3]. Evaluamos las ventajas y software muy rápida.
desventajas entre la precisión y la cantidad de operaciones
medidas por sumas múltiples (MAdd), así como la latencia real 2. Trabajo relacionado
y la cantidad de parámetros.
Ajustar arquitecturas neuronales profundas para lograr un
equilibrio óptimo entre precisión y rendimiento ha sido un área
de investigación activa durante los últimos años. Tanto la
1. Introducción
búsqueda de arquitectura manual como las mejoras en los
Las redes neuronales han revolucionado muchas áreas de la inteligencia algoritmos de entrenamiento, realizadas por numerosos
artificial, permitiendo una precisión sobrehumana para tareas desafiantes de equipos, han llevado a mejoras dramáticas con respecto a los
reconocimiento de imágenes. Sin embargo, el impulso para mejorar la primeros diseños como AlexNet [5], VGGNet [6], GoogleLeNet [
precisión a menudo tiene un costo: las redes modernas de última generación 7]. y ResNet [8]. Recientemente ha habido mucho progreso en
requieren altos recursos computacionales más allá de las capacidades de la exploración de la arquitectura algorítmica, incluida la
muchos dispositivos móviles e integrados. optimización de hiperparámetros [9,10,11] así como varios
métodos de poda de redes [12,13,14,15,dieciséis,17] y circunvoluciones Efectivamente, la convolución separable en profundidad
aprendizaje de conectividad [18,19]. También se ha dedicado reduce el cálculo en comparación con las capas tradicionales en casi un
una cantidad sustancial de trabajo a cambiar la estructura de factor dek21. Usos de MobileNetV2k=3 (3×3convoluciones separables en
conectividad de los bloques convolucionales internos, como en profundidad) por lo que el costo computacional es8a9veces más
ShuffleNet [20] o introduciendo la escasez [21] y otros [22]. pequeño que el de las circunvoluciones estándar con solo una pequeña
reducción en la precisión [27].
Recientemente, [23,24,25,26], abrió una nueva dirección para
3.2. Cuellos de botella lineales
incorporar métodos de optimización, incluidos algoritmos genéticos
y aprendizaje por refuerzo, a la búsqueda arquitectónica. Sin Considere una red neuronal profunda que consta denortecapas
embargo, un inconveniente es que las redes resultantes terminan Licada uno de los cuales tiene un tensor de activación de
siendo muy complejas. En este artículo, perseguimos el objetivo de dimensiones hi×wi×di. A lo largo de esta sección discutiremos las
desarrollar una mejor intuición sobre cómo funcionan las redes propiedades básicas de estos tensores de activación, que
neuronales y utilizarla para guiar el diseño de red más simple trataremos como contenedores dehi×wi“píxeles” condidimensiones.
posible. Nuestro enfoque debe verse como complementario al Informalmente, para un conjunto de entrada de imágenes reales,
descrito en [23] y trabajos relacionados. En este sentido, nuestro decimos que el conjunto de activaciones de capa (para cualquier
enfoque es similar al adoptado por [20,22] y permite mejorar aún capaLi) forma una “multiplicidad de intereses”. Durante mucho
más el rendimiento, al tiempo que permite vislumbrar su tiempo se asumió que las variedades de interés en las redes
funcionamiento interno. Nuestro diseño de red se basa en neuronales podrían estar incrustadas en subespacios de baja
MobileNetV1 [27]. Mantiene su simplicidad y no requiere ningún dimensión. En otras palabras, cuando miramos a todos los
operador especial, mientras que mejora significativamente su individuosd-píxeles de canal de una capa convolucional profunda, la
precisión, logrando lo último en tareas de clasificación y detección información codificada en esos valores en realidad se encuentra en
de múltiples imágenes para aplicaciones móviles. una variedad, que a su vez se puede incrustar en un subespacio de
baja dimensión2.
A primera vista, tal hecho podría capturarse y explotarse
3. Preliminares, discusión e intuición simplemente reduciendo la dimensionalidad de una capa,
reduciendo así la dimensionalidad del espacio operativo. Esto
3.1. Circunvoluciones separables en profundidad
ha sido explotado con éxito por MobileNetV1 [27] para
Las circunvoluciones separables en profundidad son un equilibrar efectivamente el cálculo y la precisión a través de un
componente clave para muchas arquitecturas de redes parámetro multiplicador de ancho, y también se ha
neuronales eficientes [27,28,20] y los usamos en el presente incorporado en diseños de modelos eficientes de otras redes [
trabajo también. La idea básica es reemplazar un operador 20]. Siguiendo esa intuición, el enfoque del multiplicador de
convolucional completo con una versión factorizada que divide ancho permite reducir la dimensionalidad del espacio de
la convolución en dos capas separadas. La primera capa se activación hasta que la variedad de interés abarque todo este
denomina convolución en profundidad y realiza un filtrado espacio. Sin embargo, esta intuición se rompe cuando
ligero mediante la aplicación de un único filtro convolucional recordamos que las redes neuronales convolucionales
por canal de entrada. La segunda capa es una1×1convolución, profundas en realidad tienen transformaciones no lineales por
llamada convolución puntual, que es responsable de crear coordenadas, comoReLU.Por ejemplo, ReLUaplicado a una
nuevas funciones mediante el cálculo de combinaciones línea en el espacio 1D produce un 'rayo', donde como enRnorte
lineales de los canales de entrada. espacio, generalmente da como resultado una curva lineal por
La convolución estándar toma unhi×wi×ditensor partes connorte-articulaciones.
de entradaLi, y aplica kernel convolucionalk∈ Rk×k×di× Es fácil ver que, en general, si como resultado de una
djpara producir unhi×wi×djtensor de salidaLj. Las transformación de capaReLU(caja)tiene un volumen distinto de cero
capas convolucionales estándar tienen el costo S, los puntos asignados ainteriorSse obtienen mediante una
computacional dehi·wi·di·dj·k·k. transformación linealBde la entrada, lo que indica que la parte del
Las circunvoluciones separables en profundidad son un espacio de entrada correspondiente a la salida dimensional
reemplazo directo de las capas convolucionales estándar. completa está limitada a una transformación lineal. En otras
Empíricamente, funcionan casi tan bien como las circunvoluciones palabras, las redes profundas solo tienen el poder de un clasificador
regulares, pero solo cuestan: lineal en la parte de volumen distinta de cero del

1más precisamente, por un factork2dj/(k2+dj)


hi·wi·di(k2+dj) (1) 2Tenga en cuenta que la dimensionalidad de la variedad difiere de la
dimensionalidad de un subespacio que podría incorporarse mediante una
que es la suma de las profundidades y1×1puntualmente transformación lineal.
Salida/dim=2 Salida/dim=3 Salida/dim=5 Salida/dim=15 Salida/dim=30
Aporte
(a) Bloque residual (b) Bloque residual invertido

Figura 1: Ejemplos deReLUtransformaciones de


variedades de baja dimensión incrustadas en espacios de mayor
dimensión. En estos ejemplos, la espiral inicial está incrustada en un
norte-espacio dimensional usando matriz aleatoriaTseguido por ReLU,y
luego se proyecta de nuevo al espacio 2D usandoT−1. En los ejemplos Figura 3: La diferencia entre bloque residual [8,30] y residual
anterioresnorte=2,3dar como resultado la pérdida de información donde invertido. Las capas sombreadas en diagonal no utilizan no
ciertos puntos de la variedad colapsan entre sí, mientras que paranorte= linealidades. Usamos el grosor de cada bloque para indicar su
15a30la transformación es altamente no convexa. número relativo de canales. Observe cómo los residuos clásicos
conectan las capas con un gran número de canales, mientras
(un habitual (b) Separables que los residuos invertidos conectan los cuellos de botella. Se
ve mejor en color.

2.ReLUes capaz de conservar información completa sobre la


variedad de entrada, pero solo si la variedad de entrada se
encuentra en un subespacio de baja dimensión del espacio de
(c) Separable con cuello de (d) cuello de botella con ex- entrada.
botella lineal capa de pansión

Estas dos ideas nos brindan una pista empírica para


optimizar las arquitecturas neuronales existentes: asumiendo
que la variedad de interés es de baja dimensión, podemos
capturar esto insertandocuello de botella linealcapas en los
Figura 2: Evolución de los bloques de convolución separables. El bloques convolucionales. La evidencia experimental sugiere
la textura sombreada en diagonal indica capas que no que el uso de capas lineales es crucial, ya que evita que las no
contienen no linealidades. La última capa (de color claro) indica linealidades destruyan demasiada información. En la sección6,
el comienzo del siguiente bloque. Nota:2dy2cson bloques mostramos empíricamente que el uso de capas no lineales en
equivalentes cuando se apilan. Se ve mejor en color. los cuellos de botella perjudica el rendimiento en varios
porcentajes, lo que valida aún más nuestra hipótesis3.
Observamos que informes similares en los que se ayudó a la no
dominio de salida. Nos referimos al material complementario para linealidad se informaron en [29] donde se eliminó la no
una declaración más formal. linealidad de la entrada del bloque residual tradicional y eso
Por otro lado, cuandoReLUcolapsa el canal, inevitablemente condujo a un mejor rendimiento en el conjunto de datos CIFAR.
pierde información enese canal. Sin embargo, si tenemos En el resto de este artículo utilizaremos convoluciones de
muchos canales y hay una estructura en el múltiple de cuello de botella. Nos referiremos a la relación entre el tamaño
activación, esa información aún podría conservarse en los otros del cuello de botella de entrada y el tamaño interno como el
canales. En materiales complementarios, mostramos que si la relación de expansión.
variedad de entrada se puede incrustar en un subespacio de
dimensiones significativamente más bajas del espacio de 3.3. Residuos invertidos
activación, entonces elReLULa transformación conserva la
Los bloques de cuello de botella parecen similares a los bloques
información al tiempo que introduce la complejidad necesaria
residuales, donde cada bloque contiene una entrada seguida de
en el conjunto de funciones expresables.
varios cuellos de botella, seguidos de una expansión [8]. Sin
Para resumir, hemos resaltado dos propiedades que
embargo, inspirados por la intuición de que los cuellos de botella en
son indicativas del requisito de que la variedad de interés
realidad contienen toda la información necesaria, mientras que una
se encuentre en un subespacio de baja dimensión del
capa de expansión actúa simplemente como un detalle de
espacio de activación de dimensión superior:
implementación que acompaña a una transformación no lineal del
tensor, usamos atajos directamente entre los cuellos de botella.
1. Si la variedad de interés sigue siendo un volumen distinto
de cero despuésReLUtransformación, corresponde a una 3Notamos que en presencia de atajos, la pérdida de información es en
transformación lineal. realidad menos fuerte.
Cifra3proporciona una visualización esquemática de la diferencia en Aporte Operador Producción

los diseños. La motivación para insertar atajos es similar a la de las h × w×k 1x1conv2d , ReLU6 h × w×(conocimientos tradicionales)

conexiones residuales clásicas: queremos mejorar la capacidad de h


3x3sabios=s,ReLU6
h × w×conocimientos tradicionales s×w s×(conocimientos tradicionales)

un degradado para propagarse a través de capas multiplicadoras. h h


s×w s×conocimientos lineal 1x1conv2d
tradicionales s×w s×k′
Sin embargo, el diseño invertido es considerablemente más
eficiente en memoria (consulte la Sección5para más detalles), así
Tabla 1:Bloque residual cuello de botellatransformándose
como funciona un poco mejor en nuestros experimentos.
dek ak′canales, con pasosy factor de expansiónt.

Tiempo de ejecución y recuento de parámetros para


convolución de cuello de botellaLa estructura de Mesa1. La arquitectura de MobileNetV2 contiene la capa inicial
implementación básica se ilustra en la Tabla1. Para un bloque de convolución completa con32 filtros, seguidos de19cuello de
de tamañoh×w, factor de expansiónty tamaño del núcleokcond′ botella residualcapas descritas en la Tabla2. UsamosReLU6
canales de entrada yd"canales de salida, el número total de como la no linealidad debido a su robustez cuando se usa con
multiplicación requerida esh·w·d′·t(d′+k2+d"). Comparado con (1 computación de baja precisión [27]. Siempre usamos el tamaño
) esta expresión tiene un término extra, ya que de hecho del kernel3×3como es estándar para las redes modernas, y
tenemos un término extra1×1convolución, sin embargo, la utiliza la normalización por lotes y abandono durante el
naturaleza de nuestras redes nos permite utilizar dimensiones entrenamiento.
de entrada y salida mucho más pequeñas. En mesa3
Con la excepción de la primera capa, usamos una tasa de
comparamos los tamaños necesarios para cada resolución
expansión constante en toda la red. En nuestros experimentos
entre MobileNetV1, MobileNetV2 y ShuffleNet.
encontramos que las tasas de expansión entre5y10dan como
3.4. Interpretación del flujo de información resultado curvas de rendimiento casi idénticas, con redes más
pequeñas mejor con tasas de expansión ligeramente más bajas
Una propiedad interesante de nuestra arquitectura es que y redes más grandes con un rendimiento ligeramente mejor
proporciona una separación natural entre la entrada/salida con tasas de expansión más altas.
dominiosde los bloques de construcción (capas de cuello de
Para todos nuestros experimentos principales usamos el factor
botella), y latransformación de capas–esa es una función no lineal
de expansión de6aplicado al tamaño del tensor de entrada. Por
que convierte la entrada en la salida. El primero puede verse como
ejemplo, para una capa de cuello de botella que toma64-tensor de
elcapacidadde la red en cada capa, mientras que este último como
entrada de canal y produce un tensor con128canales, la capa de
elexpresividad. Esto contrasta con los bloques convolucionales
expansión intermedia es entonces64·6 = 384canales
tradicionales, tanto regulares como separables, donde tanto la
expresividad como la capacidad se entrelazan y son funciones de la
profundidad de la capa de salida.
En particular, en nuestro caso, cuando la profundidad de la capa
interna es0la convolución subyacente es la función de identidad Hiperparámetros de compensaciónComo en [27] adaptamos
gracias a la conexión de acceso directo. Cuando la relación de nuestra arquitectura a diferentes puntos de rendimiento, mediante
expansión es menor que1,este es un bloque convolucional residual el uso de la resolución de la imagen de entrada y el multiplicador de
clásico [8,30]. Sin embargo, para nuestros propósitos mostramos ancho como hiperparámetros ajustables, que se pueden ajustar
que la relación de expansión mayor que1es el más útil. según las compensaciones deseadas de precisión/rendimiento.
Nuestra red principal (multiplicador de ancho1, 224×224),tiene un
Esta interpretación nos permite estudiar la expresividad costo computacional de 300 millones de multiplicaciones y utiliza
de la red por separado de su capacidad y creemos que se 3,4 millones de parámetros. Exploramos las compensaciones de
justifica una mayor exploración de esta separación para rendimiento, para resoluciones de entrada de96a224, y ancho
proporcionar una mejor comprensión de las propiedades multiplicadores de0.35a1.4.El costo computacional de la red oscila
de la red. entre7la multiplicación suma 585 millones de MAdds, mientras que
el tamaño del modelo varía entre 1,7 millones y 6,9 millones de
4. Arquitectura modelo parámetros.

Ahora describimos nuestra arquitectura en detalle. Como se Una pequeña diferencia de implementación, con [27] es que para
discutió en la sección anterior, el componente básico es una multiplicadores menores que uno, aplicamos el ancho del multiplicador a
convolución separable en profundidad de cuello de botella con todas las capas excepto a la última capa convolucional. Esto mejora el
residuos. La estructura detallada de este bloque se muestra en rendimiento de los modelos más pequeños.
Aporte Operador t C norte s conversión 1x1, Relu6

2242×3 conv2d - 32 1 2
1122×32 embotellamiento 1 16 1 1
1122×dieciséis embotellamiento 6 24 2 2 Dwise 3x3,
zancada=s, Relu6
562×24 embotellamiento 6 32 3 2
282×32 embotellamiento 6 64 4 2
142×64 embotellamiento 6 96 3 1 aporte

142×96 embotellamiento 6 160 3 2


72×160 embotellamiento 6 320 1 1 (a) NasNet[23] (b) Red móvil[27]
72×320 conv2d 1x1 - 1280 1 1
72×1280 avgpool 7x7 - - 1 - Agregar conv 1x1, lineal

1×1×1280 conv2d 1x1 - k - conv 1x1, lineal


Dwise 3x3,
zancada=2, Relu6

Dwise 3x3, Relu6

Tabla 2: MobileNetV2: cada línea describe una secuencia de 1 o


más capas idénticas (paso de módulo), repetidas norteveces.
Conversión 1x1, Relu6

Conversión 1x1, Relu6

Todas las capas en la misma secuencia tienen el mismo aporte aporte

númeroCde canales de salida. La primera capa de cada Paso = 1 bloque Paso = 2 bloques

secuencia tiene un pasosy todos los demás usan zancada1. (c) ShuffleNet [20] (d) Red móvil V2
Todas las circunvoluciones espaciales utilizan3×3granos El
factor de expansióntsiempre se aplica al tamaño de entrada Figura 4: Comparación de bloques convolucionales para diferentes
como se describe en la Tabla1. arquitecturas. ShuffleNet usa circunvoluciones de grupo [20] y
barajar, también utiliza un enfoque residual convencional en el que
Tamaño MobileNetV1 MobileNetV2 ShuffleNet los bloques internos son más estrechos que los de salida. Las
(2x,g=3) ilustraciones de ShuffleNet y NasNet son de sus respectivos
112x112 64/1600 16/400 32/800 artículos.
56x56 128/800 32/200 48/300
28x28 256/400 64/100 400/600K
14x14 512/200 160/62 800/310
7x7 1024/199 320/32 1600/156
Implementación eficiente de inferencia que usa, por
1x1 1024/2 1280/2 1600/3
ejemplo, TensorFlow[31] o Café [32], crea un hipergráfico
máximo 1600K 400K 600K
de cómputo acíclico dirigidoGRAMO, que consta de aristas
que representan las operaciones y nodos que representan
Tabla 3: El número máximo de canales/memoria (en Kb)
tensores de cálculo intermedio. El cálculo está programado
que debe materializarse en cada resolución espacial para
para minimizar el número total de tensores que deben
diferentes arquitecturas. Asumimos flotantes de 16 bits
almacenarse en la memoria. En el caso más general, busca
para activaciones. Para ShuffleNet, usamos2x, gramo= 3
en todos los órdenes de cálculo plausibles Σ(GRAMO) y
que coincide con el rendimiento de MobileNetV1 y
elige el que minimiza
MobileNetV2. Para la primera capa de MobileNetV2 y
ShuffleNet podemos emplear el truco descrito en la Sección - -
5para reducir el requisito de memoria. Aunque ShuffleNet ∑
emplea cuellos de botella en otros lugares, los tensores METRO(GRAMO) = mín máx - |A|- +tamaño(πi).
π∈Σ(GRAMO)i∈1..norte
que no son cuellos de botella aún deben materializarse A∈R(yo, π, G)

debido a la presencia de atajos entre los tensores que no


son cuellos de botella. dóndeR(yo, π, G)es la lista de tensores intermedios que están
conectados a cualquiera deπi. . . πnortenodos,|A|representa el
tamaño del tensorAytamaño(i)es la cantidad total de memoria
5. Notas de implementación necesaria para el almacenamiento interno durante el
funcionamiento i.
5.1. Inferencia eficiente en memoria
Para los gráficos que tienen solo una estructura paralela
Las capas de cuello de botella residuales invertidas permiten una trivial (como la conexión residual), solo hay un orden de
implementación particularmente eficiente de la memoria, lo cual es muy cálculo factible no trivial y, por lo tanto, la cantidad total y
importante para las aplicaciones móviles. Un rendimiento estándar un límite en la memoria necesaria para inferir.
ence en el gráfico de cálculoGRAMOse puede simplificar: 77.5 96x9 6 V2 1. 4
75,0
128x 1 28
- -
V2 1.0
72.5
160x 1 60
70.0

∑ ∑ 67.5 192x 1 92

|A|+
224x224
|B|+|op|-
65,0

Precisión, Top 1, %
METRO(GRAMO) = máx - 62.5 NasNet
op∈GRAMO 60.0 móvileNetV1
A∈opEn p B∈opafuera 57.5
ShuffleNet
(2) 55,0
52.5
50.0
O para reafirmar, la cantidad de memoria es simplemente el 47.5
45,0
tamaño total máximo de entradas y salidas combinadas en todas 42.5
40,0
las operaciones. A continuación mostramos que si tratamos un 37.5
35,0
bloque residual de cuello de botella como una sola operación (y 7.5 10 15 20 30 40 50 75 100 150 200 300 400 500 600
Multiplicar sumas, millones

tratamos la convolución interna como un tensor desechable), la


cantidad total de memoria estaría dominada por el tamaño de los Figura 5: Curva de rendimiento de MobileNetV2 vs
tensores de cuello de botella, en lugar del tamaño de los tensores MobileNetV1, ShuffleNet, NAS. Para nuestras redes usamos
que son internos al cuello de botella (y mucho más grandes). multiplicadores0.35, 0.5, 0.75, 1.0para todas las
resoluciones, y adicional1.4para224.Se ve mejor en color.
Bloque residual de cuello de botellaUn operador de bloque
de cuello de botellaF(X)se muestra en la figura3bse puede 72 72

expresar como una composición de tres operadoresF(X) = [


71 71

70 70

A◦ N ◦B]X, dóndeAes una transformación linealA:Rs×s×k→ Rs×s

1 mayor precisión

1 mayor precisión
69 69

×norte,nortees una transformación por canal no lineal: norte:


68 68
Atajo entre mi
n botella cuellos

67
Línea r botelladiablos 67
Atajo entre mi
n expatriadonsiones

relu6 en botella eneck


Rs×s×norte→ Rs′×s′×norte, yBes de nuevo una transformación
sin residir doble
66 66
0 1 2 3 4 5 6 7 0 1 2 3 4 5 6 7
paso, millones paso, millones

lineal al dominio de salida:B:Rs′×s′×norte→


Rs′×s′×k′. (a) Impacto de la no linealidad en (b) Impacto de las variaciones en la capa de
cuello de botella. bloques residuales.
Por nuestras redesnorte=ReLU6◦sabio◦ReLU6 , pero los
resultados se aplican a cualquier transformación por canal. Figura 6: El impacto de las no linealidades y varios tipos de
Supongamos que el tamaño del dominio de entrada es|x|y el conexiones de acceso directo (residuales).
tamaño del dominio de salida es|y|, entonces la memoria
necesaria para calcularF(X)puede ser tan bajo como|s2k|+|s′2k′
|+ O(máx(s2, s′2)).
fallas de caché arrugadas. Encontramos que este enfoque es el más
El algoritmo se basa en el hecho de que el tensor internoIpuede
útil para ser utilizado contsiendo una pequeña constante entre2y5.
representarse como una concatenación dettensores, de tamañoNuevo
Reduce significativamente el requisito de memoria, pero aún
Testamentocada una y nuestra función se pueden representar
permite utilizar la mayoría de las eficiencias obtenidas mediante el
como
uso de operadores de convolución y multiplicación de matrices
∑t
F(X) = (Ai◦norte◦Bi)(X) altamente optimizados proporcionados por marcos de aprendizaje
i=1 profundo. Queda por ver si la optimización especial del nivel del
marco puede conducir a más mejoras en el tiempo de ejecución.
al acumular la suma, solo requerimos un bloque intermedio de
tamañoNuevo Testamentopara ser recordado en todo
momento. Usandonorte=tterminamos teniendo que mantener
un solo canal de la representación intermedia en todo
6. Experimentos
momento. Las dos restricciones que nos permitieron usar este
truco son (a) el hecho de que la transformación interna (que 6.1. Clasificación de ImageNet
incluye la no linealidad y la profundidad) es por canal, y (b) los
operadores consecutivos que no son por canal tienen una Configuración de entrenamientoEntrenamos nuestros modelos
proporción significativa de el tamaño de entrada a la salida. usando TensorFlow[31]. Usamos el RMSPropOptimizer estándar con
Para la mayoría de las redes neuronales tradicionales, tal truco el decaimiento y el impulso configurados para0.9. Usamos la
no produciría una mejora significativa. normalización por lotes después de cada capa, y la disminución de
Observamos que, el número de operadores de multiplicación y suma peso estándar se establece en0.00004.Siguiendo MobileNetV1[27]
necesarios para calcularF(X)usandot-way split es independiente det, sin configuración usamos la tasa de aprendizaje inicial de 0.045,y tasa
embargo, en las implementaciones existentes encontramos que de aprendizaje tasa de decaimiento de0.98por época. Usamos
reemplazar una multiplicación de matriz con varias más pequeñas trabajadores asincrónicos de 16 GPU y un tamaño de lote de96.
perjudica el rendimiento del tiempo de ejecución debido a la in-
ResultadosNosotros comparar nuestro redes contra Parámetros MAdds
Modelos MobileNetV1, ShuffleNet y NASNet-A. Las estadísticas
de algunos modelos seleccionados se muestran en la Tabla4
SSD[34] 14,8 millones 1.25B
con el gráfico de rendimiento completo que se muestra en la
SSDLite 2,1 millones 0.35B
Figura5.
Tabla 5: Comparación del tamaño y el cálculo
6.2. Detección de objetos costo adicional entre SSD y SSDLite configurado con
MobileNetV2 y hacer predicciones para80clases
Evaluamos y comparamos el rendimiento de MobileNetV2 y
MobileNetV1 como extractores de funciones [33] para la
detección de objetos con una versión modificada del Single Red mapa Parámetros MAdd UPC
Shot Detector (SSD) [34] en el conjunto de datos COCO [2]. SSD300[34] 23.2 36,1 millones 35.2B -
También comparamos con YOLOv2 [35] y SSD original (con SSD512[34] 26,8 36,1 millones 99.5B -
VGG-16 [6] como red base) como líneas base. No comparamos YOLOv2[35] 21.6 50,7 millones 17.5B -
el rendimiento con otras arquitecturas como Faster-RCNN [36]
MNet V1 + SSDLite 22.2 5,1 millones 1.3B 270ms

y RFCN [37] ya que nuestro enfoque está en modelos móviles/ MNet V2 + SSDLite 22.1 4,3 millones 0.8B 200ms

en tiempo real.
SSDLite:En este documento, presentamos una variante Tabla 6: Comparación de rendimiento de MobileNetV2 +
compatible con dispositivos móviles de SSD normal. Reemplazamos SSDLite y otros detectores en tiempo real en la tarea de
todas las circunvoluciones regulares con circunvoluciones detección de objetos del conjunto de datos COCO. MobileNetV2
separables (seguidas en profundidad por1×1proyección) en capas + SSDLite logra una precisión competitiva con muchos menos
de predicción SSD. Este diseño está en línea con el diseño general parámetros y menor complejidad computacional. Todos los
de MobileNets y se considera que es mucho más eficiente desde el modelos están entrenados entrenval35ky evaluado en
punto de vista computacional. Llamamos a esta versión modificada desarrollo de pruebaLos números SSD/YOLOv2 son de [35]. El
SSDLite. En comparación con SSD normal, SSDLite reduce tiempo de ejecución se informa para el gran núcleo del
drásticamente tanto el recuento de parámetros como el costo teléfono Google Pixel 1, utilizando una versión interna del
computacional, como se muestra en la Tabla5. motor TF-Lite.
Para MobileNetV1, seguimos la configuración en [33]. Para
MobileNetV2, la primera capa de SSDLite se adjunta a la
expansión de la capa 15 (con paso de salida de 16). La segunda Ambos modelos de MobileNet se entrenan y evalúan con la
y el resto de las capas SSDLite se adjuntan encima de la última API de detección de objetos TensorFlow de código abierto [38].
capa (con un paso de salida de32).Esta configuración es La resolución de entrada de ambos modelos es320×
coherente con MobileNetV1, ya que todas las capas se adjuntan 320.Evaluamos y comparamos tanto mAP (métricas de
al mapa de características de los mismos pasos de salida. desafío COCO), número de parámetros y número de
Multiply-Adds. Los resultados se muestran en la Tabla6.
MobileNetV2 SSDLite no solo es el modelo más eficiente,
Red 1 superior Parámetros MAdds UPC sino también el más preciso de los tres. En particular,
MobileNetV2 SSDLite es20×más eficiente y 10×más
MobileNetV1 70.6 4,2 millones 575M 113ms
Red aleatoria (1.5) 71.5 3,4 millones 292M - pequeño mientras que aún supera a YOLOv2 en el conjunto
Red aleatoria (x2) 73.7 5,4 millones 524M - de datos COCO.
NasNet-A 74.0 5,3 millones 564M 183ms
MobileNetV2 72.0 3.4M 300M 75ms 6.3. Segmentación Semántica
MobileNetV2 (1.4) 74.7 6,9 millones 585 millones 143ms
En esta sección, comparamos los modelos
MobileNetV1 y MobileNetV2 utilizados como
Tabla 4: Rendimiento en ImageNet, comparación para extractores de características con DeepLabv3 [39]
diferentes redes. Como es una práctica común para las para la tarea de segmentación semántica móvil.
operaciones, contamos el número total de Multiply-Adds. En la DeepLabv3 adopta una convolución atrosa [40, 41
última columna, informamos el tiempo de ejecución en ,42[43] que contiene tres3×3circunvoluciones con
milisegundos (ms) para un solo núcleo grande del teléfono diferentes velocidades atrosas, (b)1×1cabeza de
Google Pixel 1 (usando TF-Lite). No informamos los números de convolución, y (c) características de nivel de
ShuffleNet ya que aún no se admiten las convoluciones de imagen [44]. Denotamos por
grupo eficientes y el barajado.
zancada de salidala relación entre la resolución espacial de la imagen de Red Sistema operativo ASPP MF mIOU Parámetros Mañade
entrada y la resolución de salida final, que se controla aplicando MNet V1 dieciséis X 75.29 11.15M 14.25B
correctamente la convolución atrosa. Para la segmentación semántica, 8 X X 78.56 11.15M 941.9B
generalmente empleamoszancada de salida=dieciséiso8 para mapas de MNet V2* dieciséis X 75.70 4.52M 5.8B
características más densos. Realizamos los experimentos en el conjunto 8 X X 78.42 4.52M 387B
de datos PASCAL VOC 2012 [3], con imágenes anotadas adicionales de [ MNet V2* dieciséis 75.32 2.11M 2.75B
45] y métrica de evaluación mIOU. 8 X 77.33 2.11M 152.6B

Para construir un modelo móvil, experimentamos con tres ResNet-101 dieciséis X 80.49 58.16M 81.0B
8 X X 82.70 58.16M 4870.6B
variaciones de diseño: (1) diferentes extractores de funciones, (2)
simplificando los cabezales DeepLabv3 para un cálculo más rápido y
Tabla 7: Estrategia de inferencia MobileNet + DeepLabv3
(3) diferentes estrategias de inferencia para aumentar el
sobre PASCAL VOC 2012validacióncolocar.MNet V2*:El penúltimo
rendimiento. Nuestros resultados se resumen en la Tabla7. Hemos
mapa de características se usa para las cabezas de DeepLabv3, que
observado que: (a) las estrategias de inferencia, incluidas las
incluye (1) Agrupación de pirámide espacial de Atrous (ASPP)
entradas de múltiples escalas y la adición de imágenes invertidas de
módulo, y (2)1×1convolución, así como función de agrupación de
izquierda a derecha, aumentan significativamente las MAdd y, por
imágenes.sistema operativo:zancada de salidaque controla la
lo tanto, no son adecuadas para aplicaciones en el dispositivo, (b)
resolución de salida del mapa de segmentación.FM: Entradas
usandozancada de salida=dieciséises más eficiente que zancada de
multiescala e invertidas de izquierda a derecha durante la prueba.
salida=8, (c) MobileNetV1 ya es un poderoso extractor de
Todos los modelos han sido entrenados previamente en COCO. El
características y solo requiere alrededor4.9−5.7 veces menos MAdds
candidato potencial para aplicaciones en el dispositivo se muestra
que ResNet-101 [8] (p.ej., mIOU: 78,56contra82.70 y MAD añade:
en negrita. Las imágenes PASCAL tienen dimensión512×512 y una
941.9Bcontra4870.6B), (d) es más eficiente construir cabezales
convolución atrosa nos permite controlar la resolución de las
DeepLabv3 encima del penúltimo mapa de características de
características de salida sin aumentar el número de parámetros.
MobileNetV2 que en el mapa de características de la última capa
original, ya que el penúltimo mapa de características contiene320
canales en lugar de1280,y al hacerlo, logramos un rendimiento
similar, pero requerimos sobre2.5veces menos operaciones que las
7. Conclusiones y trabajo futuro
contrapartes MobileNetV1, y (e) los cabezales DeepLabv3 son
costosos desde el punto de vista computacional y la eliminación del Describimos una arquitectura de red muy simple que nos
módulo ASPP reduce significativamente los MAdd con solo una permitió construir una familia de modelos móviles altamente
ligera degradación del rendimiento. Al final de la Mesa7, eficientes. Nuestra unidad de construcción básica tiene varias
identificamos un candidato potencial para aplicaciones en el propiedades que la hacen particularmente adecuada para
dispositivo (en negrita), que alcanza75.32%mIOU y solo requiere 2. aplicaciones móviles. Permite una inferencia muy eficiente en la
75B Mañade. memoria y confía en utilizar operaciones estándar presentes en
todos los marcos neuronales.
Para el conjunto de datos de ImageNet, nuestra arquitectura mejora
el estado del arte para una amplia gama de puntos de rendimiento.
6.4. Estudio de ablación
Para la tarea de detección de objetos, nuestra red supera a los

Conexiones residuales invertidas.La importancia de la conexión detectores en tiempo real de última generación en el conjunto de datos

residual ha sido estudiada extensamente [8, 30,46]. El nuevo COCO tanto en términos de precisión como de complejidad del modelo.

resultado informado en este documento es que el atajo que En particular, nuestra arquitectura combinada con el módulo de

conecta el cuello de botella funciona mejor que los atajos que detección SSDLite es20×menos cómputo y10×menos parámetros que

conectan las capas expandidas (consulte la Figura6b para YOLOv2.

comparacion). En el lado teórico: el bloque convolucional propuesto tiene


una propiedad única que permite separar la expresividad de la
Importancia de los cuellos de botella lineales.Los modelos de cuello
red (codificada por capas de expansión) de su capacidad
de botella lineal son estrictamente menos poderosos que los
(codificada por entradas de cuello de botella). Explorar esto es
modelos con no linealidades, porque las activaciones siempre
una dirección importante para futuras investigaciones.
pueden operar en régimen lineal con los cambios apropiados de
polarización y escala. Sin embargo, nuestros experimentos que se
muestran en la figura6aindican que los cuellos de botella lineales Expresiones de gratitudNos gustaría agradecer a Matt
mejoran el rendimiento, lo que respalda que la no linealidad Streeter y Sergey Ioffe por sus útiles comentarios y
destruye la información en un espacio de baja dimensión. debates.
Referencias [11] Jasper Snoek, Oren Rippel, Kevin Swersky, Ryan Kiros,
Nadathur Satish, Narayanan Sundaram, Md. Mostofa
[1] Olga Russakovsky, Jia Deng, Hao Su, Jonathan
Ali Patwary, Prabhat y Ryan P. Adams. Optimización
Krause, Sanjeev Satheesh, Sean Ma, Zhiheng
bayesiana escalable utilizando redes neuronales
Huang, Andrej Karpathy, Aditya Khosla, Michael
profundas. En Francis R. Bach y David M.
Bernstein, Alexander C. Berg y Li Fei-Fei. Desafío
Blei, editores,Actas de la 32.ª Conferencia
de reconocimiento visual a gran escala Imagenet.
Internacional sobre Aprendizaje Automático, ICML
En t. J. Cómputo. Visión, 115(3):211–252, diciembre de
2015, Lille, Francia, 6-11 de julio de 2015, volumen
2015.1
37 deActas del taller y la conferencia de la JMLR,
[2] Tsung-Yi Lin, Michael Maire, Serge Belongie, James páginas 2171–2180. JMLR.org, 2015.1
Hays, Pietro Perona, Deva Ramanan, Piotr Dollár y
[12] Babak Hassibi y David G. Stork. Derivadas de segundo
C Lawrence Zitnick. Microsoft COCO: Objetos
orden para la poda de redes: cirujano cerebral
comunes en contexto. EnECCV, 2014.1,7
óptimo. En Stephen Jose Hanson, Jack D. Cowan y C.
[3] Mark Everingham, SM Ali Eslami, Luc Van Gool, Lee Giles, editores,Advances in Neural Information
Christopher KI Williams, John Winn y Andrew Processing Systems 5, [Conferencia NIPS, Denver,
Zisserma. Las clases de objetos visuales pascal Colorado, EE. UU., 30 de noviembre - 3 de diciembre
desafían una retrospectiva.IJCV, 2014.1,8 de 1992], páginas 164–171. Morgan Kaufmann, 1992.
2
[4] Código fuente de Mobilenetv2. Disponible de
https://github.com/tensorflow/models/tree/ [13] Yann LeCun, John S. Denker y Sara A. Solla. Daño
master/research/slim/nets/mobilenet.1 cerebral óptimo. En David S. Touretzky, editor,
Advances in Neural Information Processing
Systems 2, [Conferencia NIPS, Denver, Colorado,
[5] Alex Krizhevsky, Ilya Sutskever y Geoffrey E. Hinton.
EE. UU., 27-30 de noviembre de 1989], páginas
Clasificación de Imagenet con redes neuronales
598– 605. Morgan Kaufmann, 1989.2
convolucionales profundas. En Bartlett et al. [48],
páginas 1106–1114.1
[14] Song Han, Jeff Pool, John Tran y William J. Dally.
[6] Karen Simonyan y Andrew Zisserman. Redes convolucionales Aprendizaje de pesos y conexiones para una red
muy profundas para el reconocimiento de imágenes a gran neuronal eficiente. En Corinna Cortes, Neil D.
escala.CoRR, abs/1409.1556, 2014.1,7 Lawrence, Daniel D. Lee, Masashi Sugiyama y Roman
Garnett, editores,Avances en sistemas de
[7] Christian Szegedy, Wei Liu, Yangqing Jia, Pierre Sermanet, procesamiento de información neuronal 28:
Scott E. Reed, Dragomir Anguelov, Dumitru Erhan, Conferencia anual sobre sistemas de procesamiento
Vincent Vanhoucke y Andrew Rabinovich. Profundizando de información neuronal 2015, del 7 al 12 de
con las circunvoluciones. En Conferencia IEEE sobre diciembre de 2015, Montreal, Quebec, Canadá,
visión por computadora y reconocimiento de patrones, páginas 1135–1143, 2015. 2
CVPR 2015, Boston, MA, EE. UU., 7 al 12 de junio de 2015,
páginas 1–9. Sociedad de Computación IEEE, 2015.1 [15] Song Han, Jeff Pool, Sharan Narang, Huizi Mao, Shijian
Tang, Erich Elsen, Bryan Catanzaro, John Tran y
William J. Dally. DSD: regularización de redes
[8] Kaiming He, Xiangyu Zhang, Shaoqing Ren y Jian Sun.
neuronales profundas con flujo de entrenamiento
Aprendizaje residual profundo para el reconocimiento de
denso-escaso-denso.CoRR, abs/1607.04381, 2016.2
imágenes.CoRR, abs/1512.03385, 2015.1,3,4,8
[16] Yiwen Guo, Anbang Yao y Yurong Chen. Cirugía de red
[9] James Bergstra y Yoshua Bengio. Búsqueda aleatoria para
dinámica para dnns eficientes. En Daniel D. Lee,
la optimización de hiperparámetros.Revista de
Masashi Sugiyama, Ulrike von Luxburg, Isabelle
investigación de aprendizaje automático, 13:281–305,
Guyon y Roman Garnett, editores,Avances en
2012. 1
sistemas de procesamiento de información neuronal
[10] Jasper Snoek, Hugo Larochelle y Ryan P. Adams. 29: Conferencia anual sobre sistemas de
Práctica optimización bayesiana de algoritmos de procesamiento de información neuronal 2016, del 5 al
aprendizaje automático. En Bartlett et al. [48], 10 de diciembre de 2016, Barcelona, España,
páginas 2960–2968.1 páginas 1379–1387, 2016. 2
[17] Hao Li, Asim Kadav, Igor Durdanovic, Hanan Mobilenets: redes neuronales convolucionales
Samet y Hans Peter Graf. Filtros de poda para eficientes para aplicaciones de visión móvil. CoRR
abs/ ,
convnets eficientes.CoRR, abs/1608.08710, 1704.04861, 2017.2,4,5,6
2016. 2
[28] François Chollet. Xception: profundo con circunvoluciones
aprendiendo
[18] Karim Ahmed y Lorenzo Torresani. aprendizaje Conectar El
Envisión
separables en profundidad. Conferencia IEEE sobre
de la actividad en redes multi-sucursales. abs/ CoRR, artificial y reconocimiento de patrones (CVPR), julio de
1709.09582, 2017.2 2017.2

[19] Tom Veniat y Ludovic Denoyer. Aprendizaje de arquitecturas


[29] Dongyoon Han, Jiwhan Kim y Junmo Kim. Redes
profundas eficientes en el tiempo con superredes
residuales piramidales profundas. CoRR,
presupuestadas.CoRR, abs/1706.00046, 2017.2
abs/1610.02915, 2016.3
[20] Xiangyu Zhang, Xinyu Zhou, Mengxiao Lin y Jian
Sun. Shufflenet: una red neuronal convolucional [30] Saining Xie, Ross B. Girshick, Piotr Dollár, Zhuowen
extremadamente eficiente para dispositivos Tu y Kaiming He. Transformaciones residuales
móviles. CoRR, abs/1707.01083, 2017.2,5 agregadas para redes neuronales profundas.
CoRR, abs/1611.05431, 2016.3,4,8
[21] Soravit Changpinyo, Mark Sandler y Andrey
Zhmoginov. El poder de la escasez en las redes [31] Martín Abadi, Ashish Agarwal, Paul Barham,
neuronales convolucionales.CoRR, abs/ Eugene Brevdo, Zhifeng Chen, Craig Citro, Greg S.
1702.06257, 2017.2 Corrado, Andy Davis, Jeffrey Dean, Matthieu Devin,
Sanjay Ghemawat, Ian Goodfellow, Andrew Harp,
[22] Min Wang, Baoyuan Liu y Hassan Foroosh. Diseño
Geoffrey Irving, Michael Isard, Yangqing Jia, Rafal
de capas convolucionales eficientes utilizando
Jozefowicz, Lukasz Kaiser, Manjunath Kudlur, Josh
convolución intracanal única, subdivisión
Levenberg, Dan Mané, Rajat Monga, Sherry
topológica y estructura de "cuello de botella"
Moore, Derek Murray, Chris Olah, Mike Schuster,
espacial.CoRR, abs/1608.04337, 2016.2
Jonathon Shlens, Benoit Steiner, Ilya Sutskever,
[23] Barret Zoph, Vijay Vasudevan, Jonathon Shlens y Quoc Kunal Talwar, Paul Tucker, Vincent Vanhoucke ,
V. Le. Aprendizaje de arquitecturas transferibles para Vijay Vasudevan, Fernanda Viégas, Oriol Vinyals,
el reconocimiento escalable de imágenes.CoRR, abs/ Pete Warden, Martin Wattenberg, Martin Wicke,
1707.07012, 2017.2,5 Yuan Yu y Xiaoqiang Zheng. TensorFlow:
aprendizaje automático a gran escala en sistemas
[24] Lingxi Xie y Alan L. Yuille. CNN genética. CoRR heterogéneos, 2015. Software disponible en
, abs/1703.01513, 2017.2 tensorflow.org.5,6

[25] Esteban Real, Sherry Moore, Andrew Selle, Saurabh


[32] Yangqing Jia, Evan Shelhamer, Jeff Donahue, Sergey Karayev,
Saxena, Yutaka Leon Suematsu, Jie Tan, Quoc V. Le y
Jonathan Long, Ross Girshick, Sergio Guadarrama y Trevor
Alexey Kurakin. Evolución a gran escala de los
Darrell. Caffe: arquitectura convolucional para la
clasificadores de imágenes. En Doina Precup y Yee
incorporación rápida de características.preimpresión de arXiv
Whye Teh, editores,Actas de la 34.ª Conferencia
arXiv:1408.5093, 2014.5
Internacional sobre Aprendizaje Automático, ICML
2017, Sydney, NSW, Australia, 6-11 de agosto de 2017,
[33] Jonathan Huang, Vivek Rathod, Chen Sun,
volumen 70 deProcedimientos de investigación de
Menglong Zhu, Anoop Korattikara, Alireza Fathi,
aprendizaje automático, páginas 2902–2911. PMLR,
Ian Fischer, Zbigniew Wojna, Yang Song, Sergio Guadarrama,
2017.2
et al. Compensaciones de velocidad/precisión para
detectores de objetos convolucionales modernos. EnCVPR,
[26] Barret Zoph y Quoc V. Le. Búsqueda de arquitectura
2017.7
neuronal con aprendizaje por refuerzo.CoRR, abs/
1611.01578, 2016.2
[34] Wei Liu, Dragomir Anguelov, Dumitru Erhan,
[27] Andrew G. Howard, Menglong Zhu, Bo Chen, Christian Szegedy, Scott Reed, Cheng-Yang Fu y
Dmitry Kalenichenko, Weijun Wang, Tobias Alexander C Berg. Ssd: detector multibox de
Weyand, Marco Andreetto y Hartwig Adam. disparo único. EnECCV, 2016.7
[35] Joseph Redmon y Ali Farhadi. Mejor Yolo9000: [45] Bharath Hariharan, Pablo Arbeláez, Lubomir Bourdev,
mas rapido mas fuerte. arXiv preimpresión Subhransu Maji y Jitendra Malik. Contornos
arXiv:1612.08242, 2016.7 semánticos a partir de detectores inversos. EnICCV,
2011.8
[36] Shaoqing Ren, Kaiming He, Ross Girshick y Jian Sun. R-cnn
más rápido: hacia la detección de objetos en tiempo real [46] Christian Szegedy, Sergey Ioffe y Vincent Vanhoucke.
con redes de propuesta de región. EnAvances en los Inception-v4, inception-resnet y el impacto de las
sistemas de procesamiento de información neuronal, conexiones residuales en el aprendizaje.CoRR, abs/
páginas 91–99, 2015.7 1602.07261, 2016.8

[47] Guido Montúfar, Razvan Pascanu, Kyunghyun Cho y


[37] Jifeng Dai, Yi Li, Kaiming He y Jian Sun. Rfcn: detección de
Yoshua Bengio. Sobre el número de regiones lineales de
objetos a través de redes totalmente convolucionales
las redes neuronales profundas. EnActas de la 27ª
basadas en regiones. EnAvances en los sistemas de
Conferencia Internacional sobre Sistemas de
procesamiento de información neuronal, páginas 379–387,
Procesamiento de Información Neural, NIPS'14, páginas
2016. 7
2924– 2932, Cambridge, MA, EE. UU., 2014. MIT Press.13

[38] Jonathan Huang, Vivek Rathod, Derek Chow, Chen [48] Peter L. Bartlett, Fernando CN Pereira, Christopher JC
Sun y Menglong Zhu. API de detección de objetos Burges, Léon Bottou y Kilian Q. Weinberger, editores.
Tensorflow, 2017.7 Advances in Neural Information Processing Systems
25: 26th Annual Conference on Neural Information
[39] Liang-Chieh Chen, George Papandreou, Florian Schroff Processing Systems 2012. Actas de una reunión
y Hartwig Adam. Repensando la convolución atrosa celebrada del 3 al 6 de diciembre de 2012, Lake
para la segmentación semántica de imágenes. CoRR, Tahoe, Nevada, Estados Unidos, 2012. 9
abs/1706.05587, 2017.7

[40] Matthias Holschneider, Richard Kronland- A. Transformación de cuellos de botella


Martinet, Jean Morlet y Ph Tchamitchian.
Un algoritmo en tiempo real para el análisis de señales En esta sección estudiamos las propiedades de un operador A

con la ayuda de la transformada wavelet. EnWavelets: ReLU(caja), dóndeX∈ Rnorterepresenta unnorte-píxel de canal,Bes un

métodos de tiempo-frecuencia y espacio de fase, páginas metro ×nortematriz yAes unnorte× metromatriz. Argumentamos
289–297. 1989.7 que simetro≤norte, las transformaciones de esta forma solo pueden
explotar la no linealidad a costa de perder información. En cambio,
[41] Pierre Sermanet, David Eigen, Xiang Zhang, siNuevo Méjico, tales transformaciones pueden ser altamente no
Michaël Mathieu, Rob Fergus y Yann Le-Cun. lineales pero aún invertibles con alta probabilidad (para los pesos
Overfeat: Reconocimiento, localización y aleatorios iniciales).
detección integrados mediante redes Primero mostramos queReLUes una transformación de identidad
convolucionales. arXiv:1312.6229, 2013.7 para cualquier punto que se encuentre en el interior de su imagen.

Lema 1DejarS(X) ={ReLU(X)|x∈X}.Si un volumen deS(


[42] George Papandreou, Iasonas Kokkinos y Pierre-Andre
X)es distinto de cero, entoncesinteriorS(X)⊆X.
Savalle. Modelado de deformaciones locales y globales
en aprendizaje profundo: convolución epitómica,
aprendizaje de instancias múltiples y detección de Prueba:DejarS′=interior ReLU(S). Primero observamos que
ventana deslizante. EnCVPR, 2015.7 siX∈S′, entoncesXi>0para todosi. De hecho, imagen deReLU
no contiene puntos con coordenadas negativas, y los
[43] Liang-Chieh Chen, George Papandreou, Iasonas puntos con coordenadas de valor cero no pueden ser
Kokkinos, Kevin Murphy y Alan L Yuille. Deeplab: puntos interiores. Por lo tanto para cadaX∈S′,X=ReLU(X)
Segmentación semántica de imágenes con redes como se desee.
convolucionales profundas, convolución atrosa y crfs De ello se deduce que para una composición arbitraria de
totalmente conectados.TPAMI, 2017.7 transformación lineal intercalada yReLUoperadores, si conserva
un volumen distinto de cero, esa parte del espacio de entrada X
[44] Wei Liu, Andrew Rabinovich y Alexander C. Berg. que se conserva sobre tal composición es una transformación
Parsenet: Mirando más amplio para ver mejor.CoRR, lineal y, por lo tanto, es probable que sea un contribuyente
abs/1506.04579, 2015.7 menor al poder de las redes profundas. Sin embargo, esto
es una afirmación bastante débil. De hecho, si la variedad de el canal positivo (según lo predicho por las simetrías de inicialización).
entrada se puede incrustar en (norte -1)-variedad dimensional Para una red completamente entrenada, mientras que la desviación
(fuera denortedimensiones totales), el lema es trivialmente cierto, estándar creció significativamente, todas las capas, excepto las dos,
ya que el volumen inicial es0.A continuación, mostramos que todavía están por encima de los umbrales de invertibilidad. Creemos que
cuando la dimensionalidad de la variedad de entrada es se justifica un mayor estudio de esto y podría conducir a conocimientos
significativamente menor, podemos asegurar que no habrá pérdida útiles sobre el diseño de la red.
de información.
Desde elReLU(X)la no linealidad es una función sobreyectiva que Teorema 1DejarSser un compactonorte-subvariedad
mapea todo el rayoX≤0a0,el uso de esta no linealidad en una red dimensional deRnorte. Considere una familia de funcionesFB(X) =
neuronal puede provocar la pérdida de información. Una vezReLU ReLU(caja)deRnorteaRmetroparametrizado pormetro×norte
colapsa un subconjunto de la variedad de entrada a una salida de matricesB∈ B.Dejarpag(B)ser una densidad de probabilidad en
dimensiones más pequeñas, las siguientes capas de red ya no el espacio de todas las matricesBque satisface:
pueden distinguir entre muestras de entrada colapsadas. A
continuación, mostramos que los cuellos de botella con capas de
• PAG(Z) = 0para cualquier subconjunto de medida ceroZ⊂B;

expansión lo suficientemente grandes son resistentes a la pérdida • (una condición de simetría)pag(base de datos) =pag(B)para
de información causada por la presencia deReLUfunciones de cualquier B∈By cualquierametro×metromatriz diagonalD
activación. siendo todos los elementos diagonales+1o -1.

Lema 2 (Invertibilidad de ReLU)Considere un operadorReLU( Entonces, el promedionorte-volumen del subconjunto deSque está
caja), dóndeBes unmetro×nortematriz yX∈ Rnorte. Dejary0= colapsado porFBa una variedad de menor dimensión es
ReLU(caja0)para algunosX0∈ Rnorte, entonces ecuacióny0=ReLU(
caja)tiene una solución única con respecto aXsi y solo siy0tiene
V- ,
norteMinnesotaV

al menosnortevalores distintos de cero y haynortefilas 2metro

linealmente independientes deBque corresponden a


coordenadas distintas de cero dey0.
dóndeV=volumenSy
∑norte(
m− )
metro
Prueba:Denote el conjunto de coordenadas distintas de cero dey0 .
k
norteMinnesota≡

comoTy dejayTyBTser restricciones deyyB al subespacio k=0


definido porT.Si|T| < norte, tenemos yT=BTX0dóndeBT
está subdeterminado con al menos una soluciónX0, por Prueba:Para cualquierσ= (s1, . . . , smetro)consk ∈
lo que hay infinitas soluciones. Ahora considere el caso {−1,+1}, dejarqσ={X∈ Rmetro|xisi>0}ser un cuadrante
de|T|≥nortey deja el rango deBTsernorte. Supongamos correspondiente enRmetro. Para cualquiernortesubvariedad
que hay una solución adicional.X16=X0tal quey0=ReLU( -dimensional Γ⊂ Rmetro,ReLUactúa como una biyección en Γ∩ qσ
caja1), entonces nosotros tenemos yT=BTX0=BTX1, que no siσtiene al menosnortevalores positivos4y contratos Γ∩ qσ
se puede satisfacer a menos que X0=X1. de lo contrario. Observe también que la intersección de
licenciaturacon Rmetro\(∪σqσ)es casi seguro (n−1)-dimensional.
Uno de los corolarios de este lema dice que siMinnesota, La medianorte-volumen deSque no se colapsa aplicando ReLUa
solo necesitamos una pequeña fracción de los valores decaja licenciaturapor tanto viene dada por:
ser positivo paraReLU(caja)ser invertible. ∑
Las restricciones del lema2puede validarse empíricamente para miB[Vσ(B)], (3)
redes reales y entradas reales y, por lo tanto, podemos estar σ∈Σnorte

seguros de que la información se conserva. Además mostramos ∑


donde Σnorte={(s1, . . . , smetro)| kθ(sk)≥norte},θes un paso
que con respecto a la inicialización, podemos estar seguros de que
función yVσ(B)es un volumen del subconjunto más grande deS
estas restricciones se cumplen con alta probabilidad. Tenga en
que está mapeado porBaqσ. Ahora calculemosmiB[Vσ(B)].
cuenta que para la inicialización aleatoria las condiciones del lema2
Recordando esopag(base de datos) =pag(B)para cualquierD=
se satisfacen debido a las simetrías de inicialización. Sin embargo,
diag(s1, . . . , smetro)consk∈ {−1,+1}, este promedio se puede
incluso para gráficos entrenados, estas restricciones se pueden
reescribir comomiBmiD[Vσ(base de datos)].Al notar que el
validar empíricamente ejecutando la red sobre entradas válidas y
subconjunto deSmapeado porbase de datosaqσtambién está
verificando que todas o la mayoría de las entradas estén por encima
mapeado porBaD−1qσ, inmediatamente obtenemos
del umbral. en la figura7mostramos cómo esta distribución busca
diferentes capas de MobileNetV2. al paso0 los patrones de 4a menos que al menos una de las coordenadas positivas para todosX∈Γ∩qσ
activación se concentran en tener la mitad de es fijo, lo que no sería el caso para casi todosBy Γ =licenciatura
1000 1.0
1000 1.0
promedio
0.9 promedio

min
800
0.8
min
800 0.8
máximo
máximo

Número de filtros positivos

Fracción de filtros
Número de filtros positivos

Fracción de filtros
total 0.7 total
600
límite 0.6
600 límite 0.6

0.5
400 400 0.4
0.4

0.3 200 0.2


200

0.2
0 0.0
0 0.1 0 2 4 6 8 10 12 14 dieciséis 0 2 4 6 8 10 12 14 dieciséis

0 2 4 6 8 10 12 14 0 2 4 6 8 10 12 14
Capa N Capa N
dieciséis dieciséis

Capa N Capa N

(b) Completamente capacitado


(a) En el paso 0

Figura 7: Distribución de patrones de activación. ElX-axis es el índice de capa, y mostramos el número mínimo/máximo/
promedio de canales positivos después de cada convolución conReLU.y-axis es el número absoluto o relativo de canales. La
línea “umbral” indica elReLUUmbral de invertibilidad: es decir, el número de dimensiones positivas es mayor que el espacio
de entrada. En nuestro caso esto es1/6fracción de los canales. Observe cómo al comienzo del entrenamiento en Figura7ala
distribución está mucho más estrechamente concentrada alrededor de la media. Una vez finalizada la formación (Figura7b),
el promedio no ha cambiado pero la desviación estándar creció dramáticamente. Se ve mejor en color.

∑ ∑
σ′Vσ[diagnóstico(σ′)B] = σ′Vσ′[B] = volumenSy ahí-
[VBσ∑(B
delanteromi )] (=| 2−mvolumenS. Sustituyendo esto y
Σnorte|= metro)
m−n

ken la ecuación3concluye la demostración.


k=0
Observe que para capas de expansión suficientemente grandes con
Minnesota, la fracción del espacio colapsadonorteMinnesota/2metro
puede estar delimitado por:

metronorte+1
norteMinnesota
≥1 − ≥1−2(norte+1) registrom−m≥1−2−m/2
2metro
2metronorte!

y por lo tantoReLU(caja)realiza una transformación no


lineal conservando la información con alta probabilidad.

Discutimos cómo los cuellos de botella pueden prevenir el


colapso múltiple, pero aumentar el tamaño de la expansión del
cuello de botella también puede hacer posible que la red
represente funciones más complejas. Tras los principales
resultados de [47], se puede mostrar, por ejemplo, que para
cualquier enteroL≥1ypag >1existe una red deLReLU capas, cada
una de las cuales contienenorteneuronas y un cuello de botella
expansión de tamañopntal que mapeapagnLvolúmenes de
entrada (linealmente isomorfos a [0,1]norte) a la misma región
de salida [0,1]norte. Cualquier función compleja posiblemente no
lineal adjunta a la salida de la red calcularía efectivamente los
valores de función parapagnLregiones lineales de entrada.

B. Resultados de visualización de segmentación


semántica
Figura 8: Resultados de visualización de segmentación semántica de MobileNetv2 en PASCAL VOC 2012valorcolocar.sistema operativo:zancada
de salida. S:entrada de escala única.EM+F:Entradas multiescala con escalas ={0.5,0.75,1,1.25,1.5,1.75}y entradas invertidas izquierda-derecha.
empleozancada de salida=dieciséisy la escala de entrada única = 1 logra un buen equilibrio entre FLOPS y precisión.

También podría gustarte