Documentos de Académico
Documentos de Profesional
Documentos de Cultura
com
Mark Sandler Andrew Howard Menglong Zhu Andrey Zhmoginov Liang-Chieh Chen
Corporación Google.
Abstracto aplicaciones
arXiv:1801.04381v4 [cs.CV] 21 de marzo de 2019
los diseños. La motivación para insertar atajos es similar a la de las h × w×k 1x1conv2d , ReLU6 h × w×(conocimientos tradicionales)
Ahora describimos nuestra arquitectura en detalle. Como se Una pequeña diferencia de implementación, con [27] es que para
discutió en la sección anterior, el componente básico es una multiplicadores menores que uno, aplicamos el ancho del multiplicador a
convolución separable en profundidad de cuello de botella con todas las capas excepto a la última capa convolucional. Esto mejora el
residuos. La estructura detallada de este bloque se muestra en rendimiento de los modelos más pequeños.
Aporte Operador t C norte s conversión 1x1, Relu6
2242×3 conv2d - 32 1 2
1122×32 embotellamiento 1 16 1 1
1122×dieciséis embotellamiento 6 24 2 2 Dwise 3x3,
zancada=s, Relu6
562×24 embotellamiento 6 32 3 2
282×32 embotellamiento 6 64 4 2
142×64 embotellamiento 6 96 3 1 aporte
númeroCde canales de salida. La primera capa de cada Paso = 1 bloque Paso = 2 bloques
secuencia tiene un pasosy todos los demás usan zancada1. (c) ShuffleNet [20] (d) Red móvil V2
Todas las circunvoluciones espaciales utilizan3×3granos El
factor de expansióntsiempre se aplica al tamaño de entrada Figura 4: Comparación de bloques convolucionales para diferentes
como se describe en la Tabla1. arquitecturas. ShuffleNet usa circunvoluciones de grupo [20] y
barajar, también utiliza un enfoque residual convencional en el que
Tamaño MobileNetV1 MobileNetV2 ShuffleNet los bloques internos son más estrechos que los de salida. Las
(2x,g=3) ilustraciones de ShuffleNet y NasNet son de sus respectivos
112x112 64/1600 16/400 32/800 artículos.
56x56 128/800 32/200 48/300
28x28 256/400 64/100 400/600K
14x14 512/200 160/62 800/310
7x7 1024/199 320/32 1600/156
Implementación eficiente de inferencia que usa, por
1x1 1024/2 1280/2 1600/3
ejemplo, TensorFlow[31] o Café [32], crea un hipergráfico
máximo 1600K 400K 600K
de cómputo acíclico dirigidoGRAMO, que consta de aristas
que representan las operaciones y nodos que representan
Tabla 3: El número máximo de canales/memoria (en Kb)
tensores de cálculo intermedio. El cálculo está programado
que debe materializarse en cada resolución espacial para
para minimizar el número total de tensores que deben
diferentes arquitecturas. Asumimos flotantes de 16 bits
almacenarse en la memoria. En el caso más general, busca
para activaciones. Para ShuffleNet, usamos2x, gramo= 3
en todos los órdenes de cálculo plausibles Σ(GRAMO) y
que coincide con el rendimiento de MobileNetV1 y
elige el que minimiza
MobileNetV2. Para la primera capa de MobileNetV2 y
ShuffleNet podemos emplear el truco descrito en la Sección - -
5para reducir el requisito de memoria. Aunque ShuffleNet ∑
emplea cuellos de botella en otros lugares, los tensores METRO(GRAMO) = mín máx - |A|- +tamaño(πi).
π∈Σ(GRAMO)i∈1..norte
que no son cuellos de botella aún deben materializarse A∈R(yo, π, G)
∑ ∑ 67.5 192x 1 92
|A|+
224x224
|B|+|op|-
65,0
Precisión, Top 1, %
METRO(GRAMO) = máx - 62.5 NasNet
op∈GRAMO 60.0 móvileNetV1
A∈opEn p B∈opafuera 57.5
ShuffleNet
(2) 55,0
52.5
50.0
O para reafirmar, la cantidad de memoria es simplemente el 47.5
45,0
tamaño total máximo de entradas y salidas combinadas en todas 42.5
40,0
las operaciones. A continuación mostramos que si tratamos un 37.5
35,0
bloque residual de cuello de botella como una sola operación (y 7.5 10 15 20 30 40 50 75 100 150 200 300 400 500 600
Multiplicar sumas, millones
70 70
1 mayor precisión
1 mayor precisión
69 69
67
Línea r botelladiablos 67
Atajo entre mi
n expatriadonsiones
y RFCN [37] ya que nuestro enfoque está en modelos móviles/ MNet V2 + SSDLite 22.1 4,3 millones 0.8B 200ms
en tiempo real.
SSDLite:En este documento, presentamos una variante Tabla 6: Comparación de rendimiento de MobileNetV2 +
compatible con dispositivos móviles de SSD normal. Reemplazamos SSDLite y otros detectores en tiempo real en la tarea de
todas las circunvoluciones regulares con circunvoluciones detección de objetos del conjunto de datos COCO. MobileNetV2
separables (seguidas en profundidad por1×1proyección) en capas + SSDLite logra una precisión competitiva con muchos menos
de predicción SSD. Este diseño está en línea con el diseño general parámetros y menor complejidad computacional. Todos los
de MobileNets y se considera que es mucho más eficiente desde el modelos están entrenados entrenval35ky evaluado en
punto de vista computacional. Llamamos a esta versión modificada desarrollo de pruebaLos números SSD/YOLOv2 son de [35]. El
SSDLite. En comparación con SSD normal, SSDLite reduce tiempo de ejecución se informa para el gran núcleo del
drásticamente tanto el recuento de parámetros como el costo teléfono Google Pixel 1, utilizando una versión interna del
computacional, como se muestra en la Tabla5. motor TF-Lite.
Para MobileNetV1, seguimos la configuración en [33]. Para
MobileNetV2, la primera capa de SSDLite se adjunta a la
expansión de la capa 15 (con paso de salida de 16). La segunda Ambos modelos de MobileNet se entrenan y evalúan con la
y el resto de las capas SSDLite se adjuntan encima de la última API de detección de objetos TensorFlow de código abierto [38].
capa (con un paso de salida de32).Esta configuración es La resolución de entrada de ambos modelos es320×
coherente con MobileNetV1, ya que todas las capas se adjuntan 320.Evaluamos y comparamos tanto mAP (métricas de
al mapa de características de los mismos pasos de salida. desafío COCO), número de parámetros y número de
Multiply-Adds. Los resultados se muestran en la Tabla6.
MobileNetV2 SSDLite no solo es el modelo más eficiente,
Red 1 superior Parámetros MAdds UPC sino también el más preciso de los tres. En particular,
MobileNetV2 SSDLite es20×más eficiente y 10×más
MobileNetV1 70.6 4,2 millones 575M 113ms
Red aleatoria (1.5) 71.5 3,4 millones 292M - pequeño mientras que aún supera a YOLOv2 en el conjunto
Red aleatoria (x2) 73.7 5,4 millones 524M - de datos COCO.
NasNet-A 74.0 5,3 millones 564M 183ms
MobileNetV2 72.0 3.4M 300M 75ms 6.3. Segmentación Semántica
MobileNetV2 (1.4) 74.7 6,9 millones 585 millones 143ms
En esta sección, comparamos los modelos
MobileNetV1 y MobileNetV2 utilizados como
Tabla 4: Rendimiento en ImageNet, comparación para extractores de características con DeepLabv3 [39]
diferentes redes. Como es una práctica común para las para la tarea de segmentación semántica móvil.
operaciones, contamos el número total de Multiply-Adds. En la DeepLabv3 adopta una convolución atrosa [40, 41
última columna, informamos el tiempo de ejecución en ,42[43] que contiene tres3×3circunvoluciones con
milisegundos (ms) para un solo núcleo grande del teléfono diferentes velocidades atrosas, (b)1×1cabeza de
Google Pixel 1 (usando TF-Lite). No informamos los números de convolución, y (c) características de nivel de
ShuffleNet ya que aún no se admiten las convoluciones de imagen [44]. Denotamos por
grupo eficientes y el barajado.
zancada de salidala relación entre la resolución espacial de la imagen de Red Sistema operativo ASPP MF mIOU Parámetros Mañade
entrada y la resolución de salida final, que se controla aplicando MNet V1 dieciséis X 75.29 11.15M 14.25B
correctamente la convolución atrosa. Para la segmentación semántica, 8 X X 78.56 11.15M 941.9B
generalmente empleamoszancada de salida=dieciséiso8 para mapas de MNet V2* dieciséis X 75.70 4.52M 5.8B
características más densos. Realizamos los experimentos en el conjunto 8 X X 78.42 4.52M 387B
de datos PASCAL VOC 2012 [3], con imágenes anotadas adicionales de [ MNet V2* dieciséis 75.32 2.11M 2.75B
45] y métrica de evaluación mIOU. 8 X 77.33 2.11M 152.6B
Para construir un modelo móvil, experimentamos con tres ResNet-101 dieciséis X 80.49 58.16M 81.0B
8 X X 82.70 58.16M 4870.6B
variaciones de diseño: (1) diferentes extractores de funciones, (2)
simplificando los cabezales DeepLabv3 para un cálculo más rápido y
Tabla 7: Estrategia de inferencia MobileNet + DeepLabv3
(3) diferentes estrategias de inferencia para aumentar el
sobre PASCAL VOC 2012validacióncolocar.MNet V2*:El penúltimo
rendimiento. Nuestros resultados se resumen en la Tabla7. Hemos
mapa de características se usa para las cabezas de DeepLabv3, que
observado que: (a) las estrategias de inferencia, incluidas las
incluye (1) Agrupación de pirámide espacial de Atrous (ASPP)
entradas de múltiples escalas y la adición de imágenes invertidas de
módulo, y (2)1×1convolución, así como función de agrupación de
izquierda a derecha, aumentan significativamente las MAdd y, por
imágenes.sistema operativo:zancada de salidaque controla la
lo tanto, no son adecuadas para aplicaciones en el dispositivo, (b)
resolución de salida del mapa de segmentación.FM: Entradas
usandozancada de salida=dieciséises más eficiente que zancada de
multiescala e invertidas de izquierda a derecha durante la prueba.
salida=8, (c) MobileNetV1 ya es un poderoso extractor de
Todos los modelos han sido entrenados previamente en COCO. El
características y solo requiere alrededor4.9−5.7 veces menos MAdds
candidato potencial para aplicaciones en el dispositivo se muestra
que ResNet-101 [8] (p.ej., mIOU: 78,56contra82.70 y MAD añade:
en negrita. Las imágenes PASCAL tienen dimensión512×512 y una
941.9Bcontra4870.6B), (d) es más eficiente construir cabezales
convolución atrosa nos permite controlar la resolución de las
DeepLabv3 encima del penúltimo mapa de características de
características de salida sin aumentar el número de parámetros.
MobileNetV2 que en el mapa de características de la última capa
original, ya que el penúltimo mapa de características contiene320
canales en lugar de1280,y al hacerlo, logramos un rendimiento
similar, pero requerimos sobre2.5veces menos operaciones que las
7. Conclusiones y trabajo futuro
contrapartes MobileNetV1, y (e) los cabezales DeepLabv3 son
costosos desde el punto de vista computacional y la eliminación del Describimos una arquitectura de red muy simple que nos
módulo ASPP reduce significativamente los MAdd con solo una permitió construir una familia de modelos móviles altamente
ligera degradación del rendimiento. Al final de la Mesa7, eficientes. Nuestra unidad de construcción básica tiene varias
identificamos un candidato potencial para aplicaciones en el propiedades que la hacen particularmente adecuada para
dispositivo (en negrita), que alcanza75.32%mIOU y solo requiere 2. aplicaciones móviles. Permite una inferencia muy eficiente en la
75B Mañade. memoria y confía en utilizar operaciones estándar presentes en
todos los marcos neuronales.
Para el conjunto de datos de ImageNet, nuestra arquitectura mejora
el estado del arte para una amplia gama de puntos de rendimiento.
6.4. Estudio de ablación
Para la tarea de detección de objetos, nuestra red supera a los
Conexiones residuales invertidas.La importancia de la conexión detectores en tiempo real de última generación en el conjunto de datos
residual ha sido estudiada extensamente [8, 30,46]. El nuevo COCO tanto en términos de precisión como de complejidad del modelo.
resultado informado en este documento es que el atajo que En particular, nuestra arquitectura combinada con el módulo de
conecta el cuello de botella funciona mejor que los atajos que detección SSDLite es20×menos cómputo y10×menos parámetros que
[38] Jonathan Huang, Vivek Rathod, Derek Chow, Chen [48] Peter L. Bartlett, Fernando CN Pereira, Christopher JC
Sun y Menglong Zhu. API de detección de objetos Burges, Léon Bottou y Kilian Q. Weinberger, editores.
Tensorflow, 2017.7 Advances in Neural Information Processing Systems
25: 26th Annual Conference on Neural Information
[39] Liang-Chieh Chen, George Papandreou, Florian Schroff Processing Systems 2012. Actas de una reunión
y Hartwig Adam. Repensando la convolución atrosa celebrada del 3 al 6 de diciembre de 2012, Lake
para la segmentación semántica de imágenes. CoRR, Tahoe, Nevada, Estados Unidos, 2012. 9
abs/1706.05587, 2017.7
con la ayuda de la transformada wavelet. EnWavelets: ReLU(caja), dóndeX∈ Rnorterepresenta unnorte-píxel de canal,Bes un
métodos de tiempo-frecuencia y espacio de fase, páginas metro ×nortematriz yAes unnorte× metromatriz. Argumentamos
289–297. 1989.7 que simetro≤norte, las transformaciones de esta forma solo pueden
explotar la no linealidad a costa de perder información. En cambio,
[41] Pierre Sermanet, David Eigen, Xiang Zhang, siNuevo Méjico, tales transformaciones pueden ser altamente no
Michaël Mathieu, Rob Fergus y Yann Le-Cun. lineales pero aún invertibles con alta probabilidad (para los pesos
Overfeat: Reconocimiento, localización y aleatorios iniciales).
detección integrados mediante redes Primero mostramos queReLUes una transformación de identidad
convolucionales. arXiv:1312.6229, 2013.7 para cualquier punto que se encuentre en el interior de su imagen.
expansión lo suficientemente grandes son resistentes a la pérdida • (una condición de simetría)pag(base de datos) =pag(B)para
de información causada por la presencia deReLUfunciones de cualquier B∈By cualquierametro×metromatriz diagonalD
activación. siendo todos los elementos diagonales+1o -1.
Lema 2 (Invertibilidad de ReLU)Considere un operadorReLU( Entonces, el promedionorte-volumen del subconjunto deSque está
caja), dóndeBes unmetro×nortematriz yX∈ Rnorte. Dejary0= colapsado porFBa una variedad de menor dimensión es
ReLU(caja0)para algunosX0∈ Rnorte, entonces ecuacióny0=ReLU(
caja)tiene una solución única con respecto aXsi y solo siy0tiene
V- ,
norteMinnesotaV
min
800
0.8
min
800 0.8
máximo
máximo
Fracción de filtros
Número de filtros positivos
Fracción de filtros
total 0.7 total
600
límite 0.6
600 límite 0.6
0.5
400 400 0.4
0.4
0.2
0 0.0
0 0.1 0 2 4 6 8 10 12 14 dieciséis 0 2 4 6 8 10 12 14 dieciséis
0 2 4 6 8 10 12 14 0 2 4 6 8 10 12 14
Capa N Capa N
dieciséis dieciséis
Capa N Capa N
Figura 7: Distribución de patrones de activación. ElX-axis es el índice de capa, y mostramos el número mínimo/máximo/
promedio de canales positivos después de cada convolución conReLU.y-axis es el número absoluto o relativo de canales. La
línea “umbral” indica elReLUUmbral de invertibilidad: es decir, el número de dimensiones positivas es mayor que el espacio
de entrada. En nuestro caso esto es1/6fracción de los canales. Observe cómo al comienzo del entrenamiento en Figura7ala
distribución está mucho más estrechamente concentrada alrededor de la media. Una vez finalizada la formación (Figura7b),
el promedio no ha cambiado pero la desviación estándar creció dramáticamente. Se ve mejor en color.
∑ ∑
σ′Vσ[diagnóstico(σ′)B] = σ′Vσ′[B] = volumenSy ahí-
[VBσ∑(B
delanteromi )] (=| 2−mvolumenS. Sustituyendo esto y
Σnorte|= metro)
m−n
metronorte+1
norteMinnesota
≥1 − ≥1−2(norte+1) registrom−m≥1−2−m/2
2metro
2metronorte!