Documentos de Académico
Documentos de Profesional
Documentos de Cultura
1901.06013 NNNN - ESPAÑOL
1901.06013 NNNN - ESPAÑOL
Abstracto
tenga un efecto dramático en la reducción adicional de muertes, tal vez reducir las lesiones.
hasta en un 90 % [6]. Sin embargo, hasta que esta tecnología madure, Los protocolos de
se implementarán políticas y el público adoptará vehículos impulsados por máquinas.
Machine Translated by Google
Evaluamos este enfoque en un gran conjunto de datos de imágenes del mundo real y
descubrimos que supera varias líneas base naturales. Por último, presentamos un
estudio de ablación que demuestra los beneficios de los diversos componentes de
nuestro enfoque.
2. Trabajo relacionado
Figura 2: panoramas de ejemplo que utiliza nuestro sistema para estimar la calificación el estado del arte en la clasificación de escenas ha mejorado drásticamente. Hoy en
de estrellas de seguridad. Los dos primeros tienen una calificación de 1 estrella, los día, la mayoría, si no todos, los métodos de mejor rendimiento son instancias de redes
más peligrosos. Los dos inferiores tienen una calificación de 5 estrellas, los más seguros. neuronales convolucionales profundas (CNN). Para muchas tareas, estos métodos
pueden estimar la distribución de probabilidad en cientos de clases en milisegundos
con una precisión humana [8]. Un ejemplo sin tabla es Places CNN [33], desarrollado
el Programa de Evaluación de Carreteras de los Estados Unidos (usRAP). En este por Zhou et al., que adapta una red creada para la clasificación de imágenes [12]. Esta
proceso, un codificador capacitado anota, a intervalos regulares, varias características red, o redes similares, se ha adaptado para una variedad de tareas, que incluyen:
de la calzada, como el ancho de la calzada, las características del arcén y los peligros estimación de la línea del horizonte [31], estimación de la distancia focal [26],
a los lados de la calzada, y la presencia de dispositivos de protección de la calzada, geolocalización [15] y una variedad de atributos geoinformativos [13].
calificación de estrellas de 5 niveles, desde el riesgo más alto (1 estrella) hasta el más escenas y la segmentación de imágenes a otras tareas fue una de las principales
bajo (5 estrellas). Este proceso manual es laborioso y requiere mucho tiempo, ya veces motivaciones de nuestro trabajo. Sin embargo, descubrimos que la aplicación ingenua
su costo es prohibitivo. Además, la velocidad y la precisión del proceso de calificación de estas técnicas a la tarea de comprender el panorama no funcionó bien. El principal
pueden variar y varían entre codificadores y con el tiempo. problema es que estos métodos normalmente usan imágenes de menor resolución, lo
que significa que no pueden identificar pequeñas características de las carreteras que
tienen un impacto significativo en la evaluación de la seguridad.
estrellas a partir de un panorama a nivel del suelo. Consulte la Figura 2 para ver incorporación de un mecanismo de atención espacial para apoyar la extracción de
ejemplos de panoramas de entrada. Tenga en cuenta la falta de una mediana física, pequeñas características de la imagen.
arcén pavimentado y aceras en las carreteras menos seguras. Las características clave En cierto modo, lo que proponemos es similar a la tarea de segmentación semántica
de nuestro enfoque son: [3], que se centra en estimar las propiedades de los píxeles individuales. Los mejores
métodos actuales están todos basados en CNN y requieren un conjunto de
• aprendizaje multitarea: encontramos que aumentar la red para respaldar la entrenamiento densamente anotado. La construcción de dichos conjuntos de datos es
estimación de las características de la calzada de nivel inferior mejora el un proceso intensivo en mano de obra.
desempeño en la tarea principal de estimar la calificación de estrellas; Afortunadamente, a diferencia de la segmentación semántica, estamos estimando un
atributo de alto nivel de toda la escena, por lo que el esfuerzo requerido para construir
un conjunto de datos anotado es menor. También significa que nuestras CNN pueden
• capa de atención espacial dependiente de la tarea: esto permite que la red se tener una estructura diferente; extraemos características con una resolución más
enfoque en regiones particulares del panorama que son más útiles para una gruesa y tenemos muchos menos cálculos de pérdida. Esto significa un entrenamiento
tarea en particular; y e inferencia más rápidos.
Machine Translated by Google
Percepción urbana y mapeo de alta definición Recientemente ha habido 5 bloques convolucionales seguidos de 3 capas completamente
un gran interés por aplicar técnicas de clasificación de escenas [2, 4, 17, conectadas, totalizando 16 capas individuales. Eliminamos las capas
19, 22, 27, 28] y segmentación de imágenes para comprender las áreas completamente conectadas y usamos la salida del último bloque
urbanas y la infraestructura de transporte [5 , 16, 25]. El primero se enfoca convolucional, después de la agrupación espacial. Denotamos este mapa
en etiquetas de nivel más alto, como la seguridad percibida, la densidad de características de salida como S1, que es un tensor de 7 × 30 con 512
de población o la belleza, mientras que el segundo se enfoca en etiquetas canales. Luego, S1 se pasa a una capa convolucional (función de
más detalladas, como la ubicación en las marcas de líneas o la presencia activación ReLU), con núcleos de tamaño 1 × 1, un paso de 1 y 512
de aceras. Nuestro trabajo, hasta cierto punto, combina ambas ideas. Sin canales de salida. El tensor resultante, S2, tiene la siguiente forma: 7 × 30
embargo, nos enfocamos en estimar las etiquetas de nivel superior y × 512. Esto nos da un conjunto de características de nivel medio que
usamos etiquetas más detalladas como una forma de aprendizaje usamos para predecir la seguridad de un panorama dado.
multitarea. Nuestra evaluación demuestra que al combinarlos en una sola Dado que la calificación de seguridad objetivo puede depender de en
red se obtienen mejores resultados. qué parte de la imagen esté presente una característica particular de la
carretera, presentamos una capa de atención para fusionar las
características de nivel medio. Específicamente, usamos un vector
Práctica actual en la evaluación de carreteras El Manual de seguridad aprendible que toma el promedio ponderado de S2 en las dos primeras
vial (HSM) [10] describe estrategias para realizar análisis cuantitativos dimensiones. Nuestro proceso es el siguiente: aplanamos las dimensiones
de seguridad, incluido un método predictivo para estimar la frecuencia y espaciales de S2 (210 × 512) y las multiplicamos por a (1 × 210). Este
la gravedad de los choques a partir del volumen de tráfico y las proceso es similar a la agrupación promedio global [14], pero con pesos
características de la carretera. El Protocolo de calificación de estrellas específicos de ubicación. La salida (1 × 512) luego se pasa a una capa
usRAP es una metodología establecida internacionalmente para evaluar totalmente conectada dependiente de la tarea con K salidas.
la seguridad vial y se utiliza para asignar puntajes de protección vial que
3.2. Función de pérdida
dan como resultado calificaciones de cinco estrellas de los segmentos viales.
Una calificación de estrellas se determina en parte en función de la presencia de Un desafío clave en el entrenamiento de arquitecturas de redes
aproximadamente 60 características de seguridad vial [7]. Una mayor neuronales grandes, especialmente con conjuntos de datos pequeños,
implementación de las funciones de seguridad vial implica una calificación de es evitar el sobreajuste. Para este trabajo, proponemos utilizar una
seguridad más alta, y viceversa. Hay clasificaciones separadas para ocupantes combinación de aprendizaje supervisado, multitarea y no supervisado para
de vehículos, ciclistas y peatones, pero en este documento nos enfocamos en las entrenar nuestro modelo. El resultado final es una función de pérdida total:
clasificaciones con estrellas de los ocupantes de vehículos.
L = λsLs + λmLm + λuLu.
3. Enfoque
Cada función de pérdida de componente procesa panoramas utilizando la
Proponemos una arquitectura CNN para la evaluación automática de
arquitectura base definida en la sección anterior. En todos los casos, los
la seguridad vial. Optimizamos los parámetros de este modelo minimizando
parámetros de la subred VGG y la subsiguiente convolución 1 × 1 están
una función de pérdida que combina pérdidas de componentes
vinculados. La atención y las capas finales totalmente conectadas son
supervisadas, multitarea y no supervisadas. Comenzamos describiendo
independientes y, por lo tanto, específicas de la tarea. El resto de esta
nuestra arquitectura base, que usamos para calcular todas las funciones
sección describe en detalle los diversos componentes de esta pérdida.
de pérdida de componentes.
Nuestra arquitectura base de CNN toma como entrada un panorama 3.2.1 Pérdida Supervisada
equirectangular a nivel de calle (por ejemplo, de Google Street View) y
El primer componente, Ls, de nuestra pérdida total, L, corresponde al
genera una distribución categórica en un espacio de etiqueta discreto.
objetivo principal de nuestro proyecto: estimar la seguridad de una vía
Nuestro enfoque está en el espacio de la etiqueta de seguridad vial, que
determinada a partir de un panorama de entrada. Cada panorama está
usRAP define para tener cinco niveles. Otros espacios de etiquetas se
asociado con una etiqueta de calificación de estrellas, l {1, . . . , 5}.
definirán en la siguiente sección. En todos los experimentos, las
Aplicamos la red definida en la Sección 3.1 con K = 5 salidas, lo que
panorámicas se recortan verticalmente, para reducir el número de píxeles
representa una distribución categórica sobre clasificaciones de estrellas.
distorsionados del cielo y del suelo, y luego se redimensionan a 224 × 960.
Nuestra primera pérdida, Ls, incorpora un componente de clasificación y
regresión. Para la clasificación, usamos la pérdida de entropía cruzada
La CNN consta de una parte de la arquitectura VGG [24], seguida de
estándar entre la distribución predicha, yˆ, y la distribución objetivo, y:
una convolución 1×1, una capa de atención espacial y una capa final
totalmente conectada. Consulte la Figura 3 para obtener una descripción
general visual de la arquitectura completa y las diversas formas en que la norte
donde N es el número de ejemplos de entrenamiento. Para la regresión, las panorámicas a nivel de calle deben tener clasificaciones de estrellas
usamos la distancia de Cramer entre yˆ e y: similares, y animamos a la red a producir distribuciones de salida idénticas
para panorámicas adyacentes. Si bien esta suposición no siempre es
norte
donde F(x) es la función de distribución acumulativa de x. panorámicas se anoten manualmente. Por lo tanto, podemos ampliar
Cada componente está ponderado por λs 1 y λs 2 , respectivamente: considerablemente el tamaño de nuestro conjunto de entrenamiento al
incluir ejemplos no supervisados. Esto es importante, porque debido al
Ls = λs 1 Ls 1 + λs 2 Ls 2 . (3) pequeño tamaño del conjunto de datos de calificación de seguridad y una
gran cantidad de parámetros en la red, nos resultó imposible actualizar los
3.2.2 Pérdida multitarea pesos de capa VGG sin sobreajustar cuando usamos solo pérdidas
supervisadas.
El segundo componente, Lm, de nuestra pérdida total, L, representa un Para definir esta pérdida, primero construimos un conjunto, U = {(ai ,
conjunto de tareas auxiliares. Seleccionamos M tareas auxiliares con bi)} de pares panorámicos. Los pares se seleccionan para que estén
espacio de etiqueta discreto para el aprendizaje, específicamente: tipo de espacialmente cerca (dentro de 50 pies) y a lo largo del mismo camino.
área, canalización de intersección, curvatura, costo de actualización, uso de Para cada par, calculamos la distancia de Cramer entre sus predicciones
la tierra (lado del conductor/pasajero), tipo de mediana, severidad del camino de calificación, (ˆya, yˆb), como en:
(distancia del lado del conductor/pasajero/objeto). ), arcén pavimentado
1
(lado del conductor/del pasajero), volumen de la vía de intersección, calidad
Lu = F(ˆya) − F(ˆyb) 22. (4)
de la intersección, número de carriles, ancho del carril, calidad de la curva, |T|
(a,b) U
condición de la carretera, estacionamiento de vehículos, acera (lado del
pasajero/del conductor) e instalaciones para bicicletas. Todas las imágenes 3.3. Detalles de implementacion
fueron anotadas por un codificador capacitado como parte del protocolo usRAP.
Para cada nueva tarea, el proceso de predicción es muy similar a la Nuestra red está optimizada usando ADAM [11]. Inicializamos VGG
tarea de calificación de seguridad, con su propio mecanismo de atención y utilizando pesos previamente entrenados para la clasificación de objetos
capa de predicción final. La única diferencia es el tamaño de salida de la [21]. Experimentamos con pesos para la categorización de escenas [32]
capa de predicción, que varía para coincidir con el espacio de la etiqueta y descubrimos que la clasificación de objetos era superior, y ambas eran
de la tarea específica. Para calcular Lm, sumamos la pérdida de entropía significativamente mejores que la inicialización aleatoria. Permitimos que
cruzada en todas las tareas: Lm = Lt donde Lt es la pérdida de t=1
la tarea t. el bloque convolucional final de VGG se optimice con una tasa de
METRO
4. Evaluación
Evaluamos nuestros métodos tanto cuantitativa como cualitativamente. A
continuación, describimos los conjuntos de datos utilizados para estos
experimentos, exploramos el rendimiento de nuestra red a través de un estudio
de ablación y presentamos una aplicación para la generación de rutas para
vehículos conscientes de la seguridad.
conjuntos de datos, consulte [1] [7] [18]. conjunto de prueba estén al menos a 300 metros de distancia de las ubicaciones
El área Rural tiene 1.829 panoramas y el área Urbana tiene 5.459 panoramas, en el conjunto de trenes.
4.2. preprocesamiento Primero encontramos el vector de peso de cada clase de calificación de estrellas w
a través de la siguiente ecuación:
Procesamiento de panorama Para cada muestra, descargamos un panorama
orbital a través de Google Street View. Orientamos los panoramas al encabezado norte
relación de aspecto de la imagen recortada cuando se remodela. L1=− wli yi(li) log ˆyi(li) (6)
norte
yo=1
norte
1
2
Ls 2 = wli F(ˆyi) − F(yi) 2 (7)
División de entrenamiento/prueba Para crear divisiones de entrenamiento/prueba norte
yo=1
para el entrenamiento y la evaluación de la red, utilizamos un método de muestreo
estratificado para los datos de cada región, 90 % para entrenamiento y 10 % para donde wli es el peso de la clase li .
Machine Translated by Google
1 1
1 0 000
1 1 0,001
1 1 0 0,001
lado D Estacionamiento
de vehículos Estado de la vía 51,38 33,35 18.03
(a) Clasificación por estrellas
P. acera lateral 60.34 43.54 Calidad 16.80
pocas opciones disponibles para priorizar las inversiones en seguridad vial. Incluso
cuando y donde hay suficientes datos disponibles, las agencias más pequeñas
vial que es significativamente más rápido que los métodos anteriores que requieren un
aprendizaje no supervisado da como resultado el mejor rendimiento en un gran conjunto Agradecemos el apoyo financiero de la subvención NSF CAREER IIS1553116 y los
de datos de imágenes del mundo real. Este enfoque tiene el potencial de afectar recursos informáticos proporcionados por el Centro de Ciencias Computacionales de la
dramáticamente el despliegue de fondos limitados para la mejora de la red de transporte Universidad de Kentucky, incluida una donación de hardware de IBM.
hacia lugares que tendrán el máximo impacto en la seguridad. El enfoque descrito aborda
usRAP): el costo de recopilar y procesar datos. Dado que la disponibilidad de panorámicas Referencias
a pie de calle está creciendo rápidamente, el empleo de técnicas de automatización podría
[1] Programa de evaluación de carreteras de los Estados Unidos.
permitir que muchas más agencias aprovechen las técnicas de seguridad vial sistémicas.
http://www. usrap.org. Acceso: 2018113.
Para muchas agencias, hay
[2] SM Arietta, AA Efros, R. Ramamoorthi y M. Agrawala. Análisis
forense de la ciudad: uso de elementos visuales para predecir
atributos no visuales de la ciudad. IEEE Transactions on
Visualization and Computer Graphics, 20(12):2624–2633, 2014.
Machine Translated by Google
[3] M. Cordts, M. Omran, S. Ramos, T. Rehfeld, M. Enzweiler, R. Benenson, U. en Kansas. Revista del Foro de Investigación del Transporte, 56(1), 2017.
Franke, S. Roth y B. Schiele. El conjunto de datos de paisajes urbanos para
la comprensión semántica de la escena urbana. [19] V. Ordóñez y TL Berg. Aprendizaje de juicios de alto nivel de percepción
En IEEE Conference on Computer Vision and Pattern Recognition, 2016. urbana. En Conferencia Europea de Visión por Computador, 2014.
[4] A. Dubey, N. Naik, D. Parikh, R. Raskar y CA Hidalgo. [20] D. Quercia, R. Schifanella y LM Aiello. El camino más corto a la felicidad:
Aprendizaje profundo de la ciudad: cuantificación de la percepción urbana a Recomendando rutas hermosas, tranquilas y alegres en la ciudad. CoRR,
escala global. En Conferencia Europea de Visión por Computador, 2016. abs/1407.1031, 2014.
[21] O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z. Huang, A.
[5] A. Geiger, P. Lenz y R. Urtasun. ¿Estamos preparados para la conducción Karpathy, A. Khosla, M. Bernstein, et al. Desafío de reconocimiento visual a
autónoma? la suite kitti vision benchmark. En IEEE Conference on Computer gran escala Imagenet.
Vision and Pattern Recognition, 2012. Revista internacional de visión artificial, 115(3):211–252, 2015.
[6] B. Gibson. Análisis de pólizas de vehículos autónomos. Informe técnico, [22] P. Salesses, K. Schechtner y CA Hidalgo. La imagen colaborativa de la
Kentucky Transportation Center, 2017. ciudad: mapeando la desigualdad de la percepción urbana. PloS uno,
[7] D. Harwood, K. Bauer, D. Gilmore, R. Souleyrette y Z. Hans. Validación del 8(7):e68400, 2013.
protocolo de calificación de estrellas del programa de evaluación de carreteras
[23] W. Sha, D. Kwak, B. Nath y L. Iftode. Navegación social de vehículos:
de EE. UU.: Aplicación a la gestión de la seguridad de las carreteras de EE. UU.
integración de la experiencia de conducción compartida en la navegación de
Registro de investigación de transporte: Diario de la Junta de Investigación
vehículos. En Actas del 14.° taller sobre sistemas y aplicaciones de
de Transporte, 2147: 33–41, 2010.
computación móvil, 2013.
[8] K. He, X. Zhang, S. Ren y J. Sun. Profundizando en los rectificadores:
[24] K. Simonyan y A. Zisserman. Redes convolucionales muy profundas para el
superando el rendimiento a nivel humano en la clasificación de imagenet. En
reconocimiento de imágenes a gran escala. En Conferencia Internacional
IEEE International Conference on Computer Vision, 2015.
sobre Representaciones de Aprendizaje, 2015.
[25] S. Wang, M. Bai, G. Mattyus, H. Chu, W. Luo, B. Yang, J. Liang, J. Cheverie,
[9] W. He, K. Hwang y D. Li. Enrutamiento inteligente de vehículos compartidos
S. Fidler y R. Urtasun. Torontocity: Ver el mundo con un millón de ojos. En
para viajes compartidos urbanos mediante la extracción de trayectorias gps.
IEEE International Conference on Computer Vision, 2017.
Transacciones IEEE sobre sistemas de transporte inteligentes, 15:2286–
2296, 2014.
[26] S. Workman, C. Greenwell, M. Zhai, R. Baltenberger y N. Jacobs. DeepFocal:
[10] Grupo de Trabajo Conjunto sobre el Manual de Seguridad Vial. Manual de
un método para la estimación directa de la distancia focal. En Congreso
seguridad en las carreteras, volumen 1. Asociación estadounidense de
Internacional de Procesamiento de Imágenes, 2015.
funcionarios estatales de carreteras y transporte, 2010.
[11] D. Kingma y J. Ba. Adam: Un método para la optimización estocástica. En
[27] S. Workman, R. Souvenir y N. Jacobs. Comprensión y mapeo de la belleza
Conferencia Internacional sobre Representaciones de Aprendizaje, 2014.
natural. En IEEE International Conference on Computer Vision, 2017.
[15] T.Y. Lin, Y. Cui, S. Belongie y J. Hays. Aprendizaje de representaciones Muertes: datos finales para 2014. Informes Nacionales de Estadísticas
profundas para la geolocalización de tierra a aire. En IEEE Conference on Vitales, 65(5):1–122, 2016.
Computer Vision and Pattern Recognition, 2015. [31] M. Zhai, S. Workman y N. Jacobs. Detección de puntos de fuga utilizando el
contexto de imagen global en un mundo fuera de Manhattan. En IEEE
´
[16] G. Mattyus, S. Wang, S. Fidler y R. Urtasun. Mapas de alta definición: Conference on Computer Vision and Pattern Recognition, 2016.
[17] N. Naik, J. Philipoom, R. Raskar y C. Hidalgo. IEEE Transactions on Pattern Analysis and Machine Intelligence, PP(99),
Streetscore: predice la seguridad percibida de un millón de paisajes urbanos. 2017.
En IEEE Conference on Computer Vision and Pattern Recognition Workshops, [33] B. Zhou, A. Lapedriza, J. Xiao, A. Torralba y A. Oliva.
2014. Aprendizaje de funciones profundas para el reconocimiento de escenas utilizando la
[18] B. Nye, E. Fitzsimmons y S. Dissanayake. Demostración de la Evaluación vial base de datos de lugares. En Avances en sistemas de procesamiento de información
de los Estados Unidos (usRAP) como una herramienta de seguridad neuronal, 2014.