1901.06013 NNNN - ESPAÑOL

Machine Translated by Google
FARSA: Evaluación de Seguridad Vial Completamente Automatizada
Canción weiliana1 scott trabajador1 armin hadzic1 Xu Zhang2,3

eric verde2,3 Mei Chen2,3 Reginald Souleyrette2,3 nathan jacobs1
1Departamento de Ciencias de la Computación, Universidad de Kentucky

2Departamento de Ingeniería Civil, Universidad de Kentucky
3Centro de Transporte de Kentucky, Universidad de Kentucky
Abstracto
Este trabajo aborda la tarea de evaluación de la seguridad vial.

Un enfoque emergente para realizar tales evaluaciones en los Estados
Unidos es a través del Programa de Evaluación de Carreteras de los
Estados Unidos (usRAP), que califica las carreteras desde el riesgo más
alto (1 estrella) hasta el más bajo (5 estrellas). Obtener estas
clasificaciones requiere un etiquetado manual y detallado de las
características de la calzada en panoramas a nivel de calle, un proceso
lento y costoso. Proponemos automatizar este proceso utilizando una
arXiv:1901.06013v1
[cs.CV]
enero
2019
de
17
red neuronal convolucional profunda que estima directamente la

calificación de estrellas de un panorama a pie de calle, lo que requiere
milisegundos por imagen en el momento de la prueba. Nuestra red
también estima muchos otros atributos del nivel de la carretera, incluida
la curvatura, los peligros en la carretera y el tipo de mediana. Para
respaldar esto, incorporamos capas de atención específicas de tareas
Figura 1: Algunas carreteras son más seguras que otras. Nuestro
para que la red pueda enfocarse en las regiones panorámicas que son más útiles para una tarea en particular.
trabajo explora métodos automáticos para cuantificar la seguridad vial.
Evaluamos nuestro enfoque en un gran conjunto de datos de imágenes
del mundo real de dos estados de EE. UU. Descubrimos que la
incorporación de tareas adicionales y el uso de un enfoque de
hicles, debemos confiar en otros métodos para mejorar la seguridad.
capacitación semisupervisado redujeron significativamente los problemas
En los EE. UU. y otros países desarrollados, se identificaron y
de sobreajuste, nos permitieron optimizar más capas de la red y dieron
abordaron predominantemente los lugares con un alto índice de accidentes.
como resultado una mayor precisión.
Las autoridades de carreteras estatales y locales ahora recurren cada
vez más al análisis sistémico para reducir aún más la ocurrencia de
accidentes, lesiones y muertes en las carreteras. El análisis sistémico
1. Introducción
requiere datos para identificar y evaluar las características y condiciones
de las carreteras que se sabe que aumentan el riesgo de accidentes.
Con más de 35 000 muertes al año, los choques en las carreteras
son una de las principales causas de muertes accidentales en los EE. Abordamos la tarea de evaluar automáticamente la seguridad de las
UU. [30]. Los enfoques basados en datos para la seguridad vial se han vías para los conductores. Estas calificaciones pueden ser utilizadas por
utilizado ampliamente para apuntar a segmentos de carreteras de alto las autoridades de autopistas para decidir, utilizando un análisis de costo/
riesgo e intersecciones a través de varios programas que conducen a beneficio, dónde invertir en mejoras de infraestructura. La automatización
una reducción en el número de muertes observadas [29] . de esta tarea típicamente manual permitirá una evaluación mucho más
Desafortunadamente, esta reducción se ha estancado en los últimos rápida de los problemas de seguridad de grandes regiones, áreas
años. Es probable que la perspectiva de los vehículos automatizados urbanas enteras, condados y estados. Al final, esto puede salvar vidas y
tenga un efecto dramático en la reducción adicional de muertes, tal vez reducir las lesiones.
hasta en un 90 % [6]. Sin embargo, hasta que esta tecnología madure, Los protocolos de
se implementarán políticas y el público adoptará vehículos impulsados por máquinas.
• aprendizaje no supervisado: añadimos una pérdida que favorece que la distribución

de estrellas sea similar para las panorámicas cercanas, ampliando
considerablemente el número de panorámicas vistas por la red, sin necesidad
de realizar anotaciones manuales.
Evaluamos este enfoque en un gran conjunto de datos de imágenes del mundo real y
descubrimos que supera varias líneas base naturales. Por último, presentamos un
estudio de ablación que demuestra los beneficios de los diversos componentes de
nuestro enfoque.
2. Trabajo relacionado
Nuestro trabajo se basa en el trabajo en varias áreas: comprensión de la escena

de propósito general, métodos automáticos para comprender las áreas urbanas y la
práctica actual en la evaluación de las características de las carreteras.
Clasificación de escenas y segmentación de imágenes Durante los últimos diez años,
Figura 2: panoramas de ejemplo que utiliza nuestro sistema para estimar la calificación el estado del arte en la clasificación de escenas ha mejorado drásticamente. Hoy en
de estrellas de seguridad. Los dos primeros tienen una calificación de 1 estrella, los día, la mayoría, si no todos, los métodos de mejor rendimiento son instancias de redes
más peligrosos. Los dos inferiores tienen una calificación de 5 estrellas, los más seguros. neuronales convolucionales profundas (CNN). Para muchas tareas, estos métodos
pueden estimar la distribución de probabilidad en cientos de clases en milisegundos
con una precisión humana [8]. Un ejemplo sin tabla es Places CNN [33], desarrollado
el Programa de Evaluación de Carreteras de los Estados Unidos (usRAP). En este por Zhou et al., que adapta una red creada para la clasificación de imágenes [12]. Esta
proceso, un codificador capacitado anota, a intervalos regulares, varias características red, o redes similares, se ha adaptado para una variedad de tareas, que incluyen:
de la calzada, como el ancho de la calzada, las características del arcén y los peligros estimación de la línea del horizonte [31], estimación de la distancia focal [26],
a los lados de la calzada, y la presencia de dispositivos de protección de la calzada, geolocalización [15] y una variedad de atributos geoinformativos [13].
como barandas. Estas anotaciones se basan en la observación directa o en imágenes

capturadas en el campo y se pueden usar para aumentar cualquier inventario existente
de carreteras de estas características. Luego, estos datos se utilizan para calificar la

carretera y, a su vez, estas calificaciones se pueden clasificar en una escala de Esta capacidad de adaptar los métodos desarrollados para la clasificación de
calificación de estrellas de 5 niveles, desde el riesgo más alto (1 estrella) hasta el más escenas y la segmentación de imágenes a otras tareas fue una de las principales
bajo (5 estrellas). Este proceso manual es laborioso y requiere mucho tiempo, ya veces motivaciones de nuestro trabajo. Sin embargo, descubrimos que la aplicación ingenua
su costo es prohibitivo. Además, la velocidad y la precisión del proceso de calificación de estas técnicas a la tarea de comprender el panorama no funcionó bien. El principal
pueden variar y varían entre codificadores y con el tiempo. problema es que estos métodos normalmente usan imágenes de menor resolución, lo
que significa que no pueden identificar pequeñas características de las carreteras que
tienen un impacto significativo en la evaluación de la seguridad.
Para automatizar este proceso manual, proponemos una arquitectura de red

neuronal convolucional profunda (CNN) que estima directamente la calificación de Proponemos una arquitectura CNN que supera estos problemas mediante la
estrellas a partir de un panorama a nivel del suelo. Consulte la Figura 2 para ver incorporación de un mecanismo de atención espacial para apoyar la extracción de
ejemplos de panoramas de entrada. Tenga en cuenta la falta de una mediana física, pequeñas características de la imagen.
arcén pavimentado y aceras en las carreteras menos seguras. Las características clave En cierto modo, lo que proponemos es similar a la tarea de segmentación semántica
de nuestro enfoque son: [3], que se centra en estimar las propiedades de los píxeles individuales. Los mejores
métodos actuales están todos basados en CNN y requieren un conjunto de
• aprendizaje multitarea: encontramos que aumentar la red para respaldar la entrenamiento densamente anotado. La construcción de dichos conjuntos de datos es
estimación de las características de la calzada de nivel inferior mejora el un proceso intensivo en mano de obra.
desempeño en la tarea principal de estimar la calificación de estrellas; Afortunadamente, a diferencia de la segmentación semántica, estamos estimando un
atributo de alto nivel de toda la escena, por lo que el esfuerzo requerido para construir
un conjunto de datos anotado es menor. También significa que nuestras CNN pueden
• capa de atención espacial dependiente de la tarea: esto permite que la red se tener una estructura diferente; extraemos características con una resolución más
enfoque en regiones particulares del panorama que son más útiles para una gruesa y tenemos muchos menos cálculos de pérdida. Esto significa un entrenamiento
tarea en particular; y e inferencia más rápidos.
Percepción urbana y mapeo de alta definición Recientemente ha habido 5 bloques convolucionales seguidos de 3 capas completamente
un gran interés por aplicar técnicas de clasificación de escenas [2, 4, 17, conectadas, totalizando 16 capas individuales. Eliminamos las capas
19, 22, 27, 28] y segmentación de imágenes para comprender las áreas completamente conectadas y usamos la salida del último bloque
urbanas y la infraestructura de transporte [5 , 16, 25]. El primero se enfoca convolucional, después de la agrupación espacial. Denotamos este mapa
en etiquetas de nivel más alto, como la seguridad percibida, la densidad de características de salida como S1, que es un tensor de 7 × 30 con 512
de población o la belleza, mientras que el segundo se enfoca en etiquetas canales. Luego, S1 se pasa a una capa convolucional (función de
más detalladas, como la ubicación en las marcas de líneas o la presencia activación ReLU), con núcleos de tamaño 1 × 1, un paso de 1 y 512
de aceras. Nuestro trabajo, hasta cierto punto, combina ambas ideas. Sin canales de salida. El tensor resultante, S2, tiene la siguiente forma: 7 × 30
embargo, nos enfocamos en estimar las etiquetas de nivel superior y × 512. Esto nos da un conjunto de características de nivel medio que
usamos etiquetas más detalladas como una forma de aprendizaje usamos para predecir la seguridad de un panorama dado.
multitarea. Nuestra evaluación demuestra que al combinarlos en una sola Dado que la calificación de seguridad objetivo puede depender de en
red se obtienen mejores resultados. qué parte de la imagen esté presente una característica particular de la
carretera, presentamos una capa de atención para fusionar las
características de nivel medio. Específicamente, usamos un vector
Práctica actual en la evaluación de carreteras El Manual de seguridad aprendible que toma el promedio ponderado de S2 en las dos primeras
vial (HSM) [10] describe estrategias para realizar análisis cuantitativos dimensiones. Nuestro proceso es el siguiente: aplanamos las dimensiones
de seguridad, incluido un método predictivo para estimar la frecuencia y espaciales de S2 (210 × 512) y las multiplicamos por a (1 × 210). Este
la gravedad de los choques a partir del volumen de tráfico y las proceso es similar a la agrupación promedio global [14], pero con pesos
características de la carretera. El Protocolo de calificación de estrellas específicos de ubicación. La salida (1 × 512) luego se pasa a una capa
usRAP es una metodología establecida internacionalmente para evaluar totalmente conectada dependiente de la tarea con K salidas.
la seguridad vial y se utiliza para asignar puntajes de protección vial que
3.2. Función de pérdida
dan como resultado calificaciones de cinco estrellas de los segmentos viales.
Una calificación de estrellas se determina en parte en función de la presencia de Un desafío clave en el entrenamiento de arquitecturas de redes
aproximadamente 60 características de seguridad vial [7]. Una mayor neuronales grandes, especialmente con conjuntos de datos pequeños,
implementación de las funciones de seguridad vial implica una calificación de es evitar el sobreajuste. Para este trabajo, proponemos utilizar una
seguridad más alta, y viceversa. Hay clasificaciones separadas para ocupantes combinación de aprendizaje supervisado, multitarea y no supervisado para
de vehículos, ciclistas y peatones, pero en este documento nos enfocamos en las entrenar nuestro modelo. El resultado final es una función de pérdida total:
clasificaciones con estrellas de los ocupantes de vehículos.
L = λsLs + λmLm + λuLu.
3. Enfoque
Cada función de pérdida de componente procesa panoramas utilizando la
Proponemos una arquitectura CNN para la evaluación automática de
arquitectura base definida en la sección anterior. En todos los casos, los
la seguridad vial. Optimizamos los parámetros de este modelo minimizando
parámetros de la subred VGG y la subsiguiente convolución 1 × 1 están
una función de pérdida que combina pérdidas de componentes
vinculados. La atención y las capas finales totalmente conectadas son
supervisadas, multitarea y no supervisadas. Comenzamos describiendo
independientes y, por lo tanto, específicas de la tarea. El resto de esta
nuestra arquitectura base, que usamos para calcular todas las funciones
sección describe en detalle los diversos componentes de esta pérdida.
de pérdida de componentes.
3.1. Arquitectura de red neuronal convolucional
Nuestra arquitectura base de CNN toma como entrada un panorama 3.2.1 Pérdida Supervisada
equirectangular a nivel de calle (por ejemplo, de Google Street View) y
El primer componente, Ls, de nuestra pérdida total, L, corresponde al
genera una distribución categórica en un espacio de etiqueta discreto.
objetivo principal de nuestro proyecto: estimar la seguridad de una vía
Nuestro enfoque está en el espacio de la etiqueta de seguridad vial, que
determinada a partir de un panorama de entrada. Cada panorama está
usRAP define para tener cinco niveles. Otros espacios de etiquetas se
asociado con una etiqueta de calificación de estrellas, l {1, . . . , 5}.
definirán en la siguiente sección. En todos los experimentos, las
Aplicamos la red definida en la Sección 3.1 con K = 5 salidas, lo que
panorámicas se recortan verticalmente, para reducir el número de píxeles
representa una distribución categórica sobre clasificaciones de estrellas.
distorsionados del cielo y del suelo, y luego se redimensionan a 224 × 960.
Nuestra primera pérdida, Ls, incorpora un componente de clasificación y
regresión. Para la clasificación, usamos la pérdida de entropía cruzada
La CNN consta de una parte de la arquitectura VGG [24], seguida de
estándar entre la distribución predicha, yˆ, y la distribución objetivo, y:
una convolución 1×1, una capa de atención espacial y una capa final
totalmente conectada. Consulte la Figura 3 para obtener una descripción
general visual de la arquitectura completa y las diversas formas en que la norte
usamos para entrenar nuestro modelo. Usamos la arquitectura VGG16 1

L1=− yi(li) log ˆyi(li) (1)
[24] para la extracción de características de bajo nivel. Consiste en ni
=1
Figura 3: Descripción general de nuestra arquitectura de red.
donde N es el número de ejemplos de entrenamiento. Para la regresión, las panorámicas a nivel de calle deben tener clasificaciones de estrellas
usamos la distancia de Cramer entre yˆ e y: similares, y animamos a la red a producir distribuciones de salida idénticas
para panorámicas adyacentes. Si bien esta suposición no siempre es
norte
1 2 cierta, encontramos que mejora la precisión de nuestra red final.

Ls 2 = F(ˆyi) − F(yi) 2 (2)
ni
=1
La característica clave de esta pérdida es que no requiere que las
donde F(x) es la función de distribución acumulativa de x. panorámicas se anoten manualmente. Por lo tanto, podemos ampliar
Cada componente está ponderado por λs 1 y λs 2 , respectivamente: considerablemente el tamaño de nuestro conjunto de entrenamiento al
incluir ejemplos no supervisados. Esto es importante, porque debido al
Ls = λs 1 Ls 1 + λs 2 Ls 2 . (3) pequeño tamaño del conjunto de datos de calificación de seguridad y una
gran cantidad de parámetros en la red, nos resultó imposible actualizar los
3.2.2 Pérdida multitarea pesos de capa VGG sin sobreajustar cuando usamos solo pérdidas
supervisadas.
El segundo componente, Lm, de nuestra pérdida total, L, representa un Para definir esta pérdida, primero construimos un conjunto, U = {(ai ,
conjunto de tareas auxiliares. Seleccionamos M tareas auxiliares con bi)} de pares panorámicos. Los pares se seleccionan para que estén
espacio de etiqueta discreto para el aprendizaje, específicamente: tipo de espacialmente cerca (dentro de 50 pies) y a lo largo del mismo camino.
área, canalización de intersección, curvatura, costo de actualización, uso de Para cada par, calculamos la distancia de Cramer entre sus predicciones
la tierra (lado del conductor/pasajero), tipo de mediana, severidad del camino de calificación, (ˆya, yˆb), como en:
(distancia del lado del conductor/pasajero/objeto). ), arcén pavimentado
1
(lado del conductor/del pasajero), volumen de la vía de intersección, calidad
Lu = F(ˆya) − F(ˆyb) 22. (4)
de la intersección, número de carriles, ancho del carril, calidad de la curva, |T|
(a,b) U
condición de la carretera, estacionamiento de vehículos, acera (lado del
pasajero/del conductor) e instalaciones para bicicletas. Todas las imágenes 3.3. Detalles de implementacion
fueron anotadas por un codificador capacitado como parte del protocolo usRAP.
Para cada nueva tarea, el proceso de predicción es muy similar a la Nuestra red está optimizada usando ADAM [11]. Inicializamos VGG
tarea de calificación de seguridad, con su propio mecanismo de atención y utilizando pesos previamente entrenados para la clasificación de objetos
capa de predicción final. La única diferencia es el tamaño de salida de la [21]. Experimentamos con pesos para la categorización de escenas [32]
capa de predicción, que varía para coincidir con el espacio de la etiqueta y descubrimos que la clasificación de objetos era superior, y ambas eran
de la tarea específica. Para calcular Lm, sumamos la pérdida de entropía significativamente mejores que la inicialización aleatoria. Permitimos que
cruzada en todas las tareas: Lm = Lt donde Lt es la pérdida de t=1
la tarea t. el bloque convolucional final de VGG se optimice con una tasa de
METRO
aprendizaje de 0,0001, mientras que todas las capas específicas de tareas

usan una tasa de aprendizaje de 0,001. Decaemos las tasas de aprendizaje
tres veces durante el entrenamiento, por un factor de 10 cada vez.
3.2.3 Pérdida no supervisada
A través de la experimentación, encontramos que optimizar la pérdida
El tercer componente, Lu, de nuestra pérdida total, L, representa la Primera total con λs 1 = 1, λs 2 = 100, λs = 0,1, λm = 1 y λu = 0,001 ofrece
Ley de la Geografía de Tobler: “Todo está relacionado con todo lo demás, los mejores resultados. Usamos activaciones ReLU en todo momento,
pero las cosas cercanas están más relacionadas que las distantes”. excepto en los mecanismos de atención y las capas de salida final, que
Específicamente, asumimos que geográficamente cerca aplican una función softmax. Para cada
capa entrenable distinta de los mecanismos de atención, aplicamos la

regularización L2 a los pesos con una escala de 0.0005.
Entrenamos con un tamaño de mini lote de 16, cada lote consta de 16
panoramas supervisados y etiquetas junto con 16 pares de panoramas no
supervisados.
4. Evaluación
Evaluamos nuestros métodos tanto cuantitativa como cualitativamente. A
continuación, describimos los conjuntos de datos utilizados para estos
experimentos, exploramos el rendimiento de nuestra red a través de un estudio
de ablación y presentamos una aplicación para la generación de rutas para
vehículos conscientes de la seguridad.
4.1. conjuntos de datos
Para la capacitación supervisada y de tareas múltiples, utilizamos un conjunto

de datos anotados a través del Programa de evaluación de carreteras de EE.
UU. (usRAP), que contiene calificaciones de estrellas y etiquetas de tareas Figura 4: Mapas que muestran las ubicaciones y las clasificaciones de estrellas (el
auxiliares para segmentos de carreteras de 100 metros en regiones urbanas y rojo es el riesgo más alto, el amarillo es el riesgo promedio y el verde es el riesgo
rurales. Para obtener las etiquetas de cada ubicación, un codificador capacitado mínimo) de los panoramas en nuestras regiones de estudio urbanas (izquierda) y
inspecciona visualmente las imágenes de un segmento de carretera y asigna rurales (derecha).
etiquetas multitarea mediante una interfaz de usuario personalizada. Durante
este proceso, el codificador es libre de ajustar la dirección de visualización. La
calificación de estrellas para cada ubicación se calcula luego a partir de las prueba. Se utiliza un conjunto de validación (2% del tren) para la selección del
etiquetas auxiliares utilizando las ecuaciones de puntuación de calificación de modelo. Las divisiones correspondientes de las dos regiones se combinan para
estrellas. Para obtener más información sobre los métodos de anotación de formar los conjuntos finales. Nos hemos asegurado de que las ubicaciones en el
conjuntos de datos, consulte [1] [7] [18]. conjunto de prueba estén al menos a 300 metros de distancia de las ubicaciones
El área Rural tiene 1.829 panoramas y el área Urbana tiene 5.459 panoramas, en el conjunto de trenes.
para un total de 7.288 muestras. La figura 4 muestra diagramas de dispersión de

ubicaciones panorámicas para cada región, codificados por colores según la
Ponderación de clases La distribución de etiquetas en nuestra división de
puntuación de seguridad estimada manualmente a partir de las imágenes. Para
entrenamiento está muy desequilibrada, lo que condujo a un mal ajuste de las
datos de entrenamiento no supervisados, tomamos muestras uniformemente de
panorámicas con etiquetas en los grupos minoritarios (carreteras de 1 estrella
segmentos de carreteras del estado que rodea la región rural y luego buscamos
específicamente). Para aliviar este problema, implementamos una estrategia de
panoramas que estén a menos de 50 pies de distancia a lo largo del segmento.
ponderación de clase en la función de pérdida de calificación de estrellas para
El resultado es un conjunto de datos de aproximadamente 36 000 pares de
ajustar proporcionalmente la pérdida de cada muestra en función de la frecuencia
panoramas.
de su etiqueta de verdad de campo.
4.2. preprocesamiento Primero encontramos el vector de peso de cada clase de calificación de estrellas w
a través de la siguiente ecuación:
Procesamiento de panorama Para cada muestra, descargamos un panorama
orbital a través de Google Street View. Orientamos los panoramas al encabezado norte
utilizado durante la codificación manual. Esto es importante porque las wl = (5)

K cuenta(l)
clasificaciones de seguridad son sensibles a la dirección del viaje. Solo durante
el entrenamiento, el aumento aleatorio se realiza alterando aleatoriamente la donde wl es el peso para la clase l. Con el vector de pesos w, modificamos las
dirección de viaje uniformemente entre 5 y 5 grados. Finalmente, cada imagen ecuaciones 1 y 2 de la siguiente manera,
se recorta verticalmente y se remodela a 224 × 960. La operación de recorte
elimina la porción innecesaria de cielo y tierra del panorama, y conservamos la 1
norte
relación de aspecto de la imagen recortada cuando se remodela. L1=− wli yi(li) log ˆyi(li) (6)
norte
yo=1
norte
1
2
Ls 2 = wli F(ˆyi) − F(yi) 2 (7)
División de entrenamiento/prueba Para crear divisiones de entrenamiento/prueba norte
yo=1
para el entrenamiento y la evaluación de la red, utilizamos un método de muestreo
estratificado para los datos de cada región, 90 % para entrenamiento y 10 % para donde wli es el peso de la clase li .
Tabla 1: Configuración de parámetros para cada método.
Método λs 1 λs 2 λs λm λu 102 1 Línea

M2 102 1 M3 102
1 0,1base
M4 102
1020,1
1 M1
Nuestro
102
0 0,1
1 0
1 1
1 0 000
1 1 0,001
1 1 0 0,001
Tabla 2: Precisión Top1 para cada método.
Método Attn. Multi. no super Cuenta

Línea base 43,06 M1 43,28 M2 43,56 M3 X 43,63
M4 45,68 X 46,91
X
X
X
XX
Nuestro XX
Figura 5: La matriz de confusión del conjunto de pruebas (fila normalizada)

4.3. Estudio de ablación para nuestro método.
Comparamos nuestra arquitectura completa con cinco variantes.

El método más simple, Línea de base, omite la capa de atención
todas las muestras son carreteras de 1 estrella.
adaptativa y, en su lugar, pondera por igual todas las partes del
mapa de características de entrada (es decir, agrupación promedio
global). Las variantes restantes incluyen diferentes combinaciones 4.4. Visualizando la atención
de atención adaptativa, pérdida multitarea y pérdida no supervisada.
Para cada método, realizamos una búsqueda de hiperparámetros Como se describe en la Sección 3.2.2, cada tarea tiene una
codiciosos utilizando nuestro conjunto de validación. Inicialmente máscara de atención independiente, a, cuya forma (1 × 210)
seleccionamos la ponderación óptima de λs 2 relativa a λs 1 corresponde a las dimensiones espaciales aplanadas del mapa de
seleccionando λs 2 de (.01, .1, 1, 10, 100). Usamos la misma características, S2, generado por la capa convolucional anterior.
estrategia al agregar una nueva característica, manteniendo fijos Por lo tanto, una versión reformada de a corresponde a las regiones
en S2 que son importantes al hacer predicciones para una tarea determinada.
los hiperparámetros existentes. Entrenamos todas las redes para 10,000 iteraciones.
La Tabla 2 muestra la precisión macropromediada para todos La Figura 6 visualiza el mecanismo de atención para nuestra tarea
los métodos en el conjunto de prueba, donde para cada método principal y varias de nuestras tareas auxiliares, donde las regiones más
calculamos la precisión por clase y promediamos las precisiones claras (amarillas) tienen mayor peso que las regiones más oscuras (rojas).
de clase. Nuestro método supera a todos los demás métodos, cada Por ejemplo, en la Figura 6 (e), la atención se centra en el lado izquierdo
uno de los cuales incluye un subconjunto del enfoque completo. del panorama, lo que tiene sentido dado que la tarea está relacionada con
Observamos que los métodos Baseline, M1, M2 y M3 logran una la identificación de objetos peligrosos del lado del conductor, como una
precisión similar. El siguiente método, M4, que combina la atención zanja de drenaje o una barrera de seguridad.
por tarea y el aprendizaje de tareas múltiples, funciona
significativamente mejor. Parece que la pérdida de atención y la 4.5. Evaluación multitarea
pérdida de múltiples tareas de forma aislada no son particularmente
útiles, pero cuando se combinan conducen a un mejor rendimiento. Evaluamos el rendimiento de predicción multitarea de nuestra
También observamos que la pérdida no supervisada solo es arquitectura. La Tabla 3 muestra la precisión macropromediada
significativamente útil cuando se combina con la atención por tarea Top1 para cada una de nuestras tareas auxiliares, junto con el
y la pérdida multitarea. rendimiento aleatorio si muestreamos predicciones basadas en la
La Figura 5 muestra la matriz de confusión del conjunto de pruebas para nuestro distribución previa de etiquetas para esa tarea. La columna más a
mejor método. Los resultados son bastante satisfactorios excepto por la categoría la derecha muestra el aumento relativo en la precisión de cada
de calificación de 1 estrella, pero eso es lo que se esperaba debido a la naturaleza tarea sobre el rendimiento aleatorio, en algunos casos con una
desequilibrada de nuestro conjunto de datos de entrenamiento, con solo el 5,6 % de ganancia de rendimiento de casi el 50 %.
Tabla 3: Evaluación multitarea para nuestra arquitectura. R. = borde de la
carretera, P. = pasajero y D. = conductor.
Tipo de Top1 Aleatorio % inc. 97,40 50,39

etiqueta Tipo 47,01 77,22 33,25 43,97 63,57
32,78
Panorama de ejemplo de área Ancho 30,79 54,88 28,38 26,50 52,72

28,32
de carril Calidad 24,40 77,17 57,00 20,17 52,39

33,06
de curva Uso de 19,33
suelo lado P. Uso de
suelo lado D. Acera
lado D Estacionamiento
de vehículos Estado de la vía 51,38 33,35 18.03
(a) Clasificación por estrellas
P. acera lateral 60.34 43.54 Calidad 16.80
de la intersección 83.06 66.69 Volumen

intersección
de carretera
28.21
de 16,37
14.18 D. Lado de hombro pavimentado 38.61 24.71 P. 14,03
Lado de hombro pavimentado 37.56 24.42

carriles
Número
45.78 de
33.13 13,90
RD Distancia lateral 37.51 25.47 RP Distancia

24.98 Median
36.45Tipo 13,14
57.89.86 RD AD Distancia 37.51 25.47 RP Distancia
36.45 24.98 Median 12,65
(b) Tipo mediano
Tipo 57.86. Coste 42,82 33,93 Objeto 41,15
lateralCanal
RD 49,24
de 12,04
intersección 56,25 49,88 Instalaciones75,19
para 71,51
bicicletas 11,47
Curvatura 25,83 25,52 10,44

9,30
8,89
8,09
(c) Uso de la tierra (lado del conductor) 6,37
3,68
0,31
ing a un destino, con el fin de equilibrar la velocidad y la seguridad.

(d) Número de carriles
Seleccionamos un subconjunto de la división de prueba panorámica y lo
usamos para influir en el cálculo del costo de borde de los motores de
enrutamiento de Mapzen Valhalla. Del subconjunto, cada puntaje de seguridad
se usó como un factor de borde correspondiente a la coordenada GPS de los
puntajes de seguridad. Cuando el motor de enrutamiento buscaba en el gráfico
de GPS el costo de recorrido de una ruta, identificaba si existía un factor de
(e) Gravedad en la carretera (objeto del lado del conductor) costo correspondiente a un borde específico en el subconjunto.
Si estuviera presente un factor de costo, el costo de borde del recorrido sería
Figura 6: Mapas de calor que visualizan los pesos de las capas de atención
borde = co factor. El motor de enrutamiento utiliza los costos de borde
específicas de la tarea. El blanco (rojo) corresponde a mayor (menor) peso. aumentados para determinar la ruta óptima, es decir, la ruta de costo acumulativo
más bajo.
Las dos rutas representadas en la Figura 7 demuestran el impacto de las

rutas conscientes de la seguridad en una importante área urbana de EE. UU.
4.6. Rutas de vehículos conscientes de la seguridad
La Figura 7 a la derecha muestra una ruta menos riesgosa, pero más larga,
Si bien nuestro enfoque está en la evaluación de la seguridad vial para la elegida por el motor de enrutamiento mejorado, mientras que la Figura 7 a la
planificación de infraestructuras, nuestra red podría utilizarse para otras tareas. izquierda muestra la ruta predeterminada. El motor de generación de rutas
Aquí mostramos cómo podría usarse para sugerir rutas de manejo menos mejorado elige esta ruta para eludir una carretera con puntuación de seguridad
riesgosas. Usamos un motor de enrutamiento GPS que identifica la ruta óptima, baja (1 o 2) y, en su lugar, viaja por una carretera con puntuación alta (4 o 5).
generalmente la más corta y simple, que un vehículo debe atravesar para llegar La figura 8arriba muestra un panorama desde la carretera de mayor riesgo.
a un destino objetivo. Se han realizado algunos trabajos para explorar el Tiene numerosos problemas, incluyendo el mal estado del pavimento y anchos
enrutamiento semántico con respecto al escenario [20], el uso compartido del de carril pequeños. La figura 8abajo muestra un panorama desde el camino
automóvil [9] y la personalización [23]. Proponemos enrutamiento que emplea menos riesgoso. Esta carretera tiene carriles más anchos, mejor pavimento y
puntajes de seguridad vial para navigat una mediana física. Si bien esta ruta puede llevar más tiempo, es
Figura 8: Anotación de caminos de una estrella (arriba) y cuatro estrellas (abajo).
Figura 7: Ruta inalterada (izquierda) y ruta de puntuación de seguridad prevista (derecha).
pocas opciones disponibles para priorizar las inversiones en seguridad vial. Incluso
cuando y donde hay suficientes datos disponibles, las agencias más pequeñas
generalmente carecen de la experiencia para realizar un análisis de seguridad sólido como

claramente atraviesa un camino menos arriesgado. se describe en el HSM [ 10] para la evaluación de la ubicación de accidentes altos o en el
Si bien esta es una modificación menor a un motor de enrutamiento existente, creemos usRAP para el estudio sistémico.
que la capacidad de optimizar la seguridad sobre la velocidad podría conducir a una Nuestro enfoque podría reducir el costo del análisis sistémico para estas agencias, o
reducción significativa de lesiones y muertes para los usuarios de vehículos. ayudar a las agencias más grandes a evaluar más de sus caminos, con más frecuencia.
Para contribuciones futuras, planeamos explorar al menos tres ramificaciones de este
trabajo: 1) aplicar el método propuesto a tareas adicionales de seguridad vial, 2) integrar
5. Conclusión imágenes aéreas y 3) realizar evaluaciones usando múltiples panoramas.
En este documento, presentamos un enfoque automatizado para estimar la seguridad
vial que es significativamente más rápido que los métodos anteriores que requieren un
esfuerzo manual significativo. Demostramos cómo una combinación de un mecanismo de

Expresiones de gratitud
atención espacial, transferencia de aprendizaje, aprendizaje de múltiples tareas y
aprendizaje no supervisado da como resultado el mejor rendimiento en un gran conjunto Agradecemos el apoyo financiero de la subvención NSF CAREER IIS1553116 y los
de datos de imágenes del mundo real. Este enfoque tiene el potencial de afectar recursos informáticos proporcionados por el Centro de Ciencias Computacionales de la
dramáticamente el despliegue de fondos limitados para la mejora de la red de transporte Universidad de Kentucky, incluida una donación de hardware de IBM.
hacia lugares que tendrán el máximo impacto en la seguridad. El enfoque descrito aborda
la principal preocupación de muchas agencias al implementar el análisis sistémico (como
usRAP): el costo de recopilar y procesar datos. Dado que la disponibilidad de panorámicas Referencias
a pie de calle está creciendo rápidamente, el empleo de técnicas de automatización podría
[1] Programa de evaluación de carreteras de los Estados Unidos.
permitir que muchas más agencias aprovechen las técnicas de seguridad vial sistémicas.
http://www. usrap.org. Acceso: 2018113.
Para muchas agencias, hay
[2] SM Arietta, AA Efros, R. Ramamoorthi y M. Agrawala. Análisis
forense de la ciudad: uso de elementos visuales para predecir
atributos no visuales de la ciudad. IEEE Transactions on
Visualization and Computer Graphics, 20(12):2624–2633, 2014.
[3] M. Cordts, M. Omran, S. Ramos, T. Rehfeld, M. Enzweiler, R. Benenson, U. en Kansas. Revista del Foro de Investigación del Transporte, 56(1), 2017.
Franke, S. Roth y B. Schiele. El conjunto de datos de paisajes urbanos para
la comprensión semántica de la escena urbana. [19] V. Ordóñez y TL Berg. Aprendizaje de juicios de alto nivel de percepción
En IEEE Conference on Computer Vision and Pattern Recognition, 2016. urbana. En Conferencia Europea de Visión por Computador, 2014.
[4] A. Dubey, N. Naik, D. Parikh, R. Raskar y CA Hidalgo. [20] D. Quercia, R. Schifanella y LM Aiello. El camino más corto a la felicidad:
Aprendizaje profundo de la ciudad: cuantificación de la percepción urbana a Recomendando rutas hermosas, tranquilas y alegres en la ciudad. CoRR,
escala global. En Conferencia Europea de Visión por Computador, 2016. abs/1407.1031, 2014.
[21] O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z. Huang, A.
[5] A. Geiger, P. Lenz y R. Urtasun. ¿Estamos preparados para la conducción Karpathy, A. Khosla, M. Bernstein, et al. Desafío de reconocimiento visual a
autónoma? la suite kitti vision benchmark. En IEEE Conference on Computer gran escala Imagenet.
Vision and Pattern Recognition, 2012. Revista internacional de visión artificial, 115(3):211–252, 2015.
[6] B. Gibson. Análisis de pólizas de vehículos autónomos. Informe técnico, [22] P. Salesses, K. Schechtner y CA Hidalgo. La imagen colaborativa de la
Kentucky Transportation Center, 2017. ciudad: mapeando la desigualdad de la percepción urbana. PloS uno,
[7] D. Harwood, K. Bauer, D. Gilmore, R. Souleyrette y Z. Hans. Validación del 8(7):e68400, 2013.
protocolo de calificación de estrellas del programa de evaluación de carreteras
[23] W. Sha, D. Kwak, B. Nath y L. Iftode. Navegación social de vehículos:
de EE. UU.: Aplicación a la gestión de la seguridad de las carreteras de EE. UU.
integración de la experiencia de conducción compartida en la navegación de
Registro de investigación de transporte: Diario de la Junta de Investigación
vehículos. En Actas del 14.° taller sobre sistemas y aplicaciones de
de Transporte, 2147: 33–41, 2010.
computación móvil, 2013.
[8] K. He, X. Zhang, S. Ren y J. Sun. Profundizando en los rectificadores:
[24] K. Simonyan y A. Zisserman. Redes convolucionales muy profundas para el
superando el rendimiento a nivel humano en la clasificación de imagenet. En
reconocimiento de imágenes a gran escala. En Conferencia Internacional
IEEE International Conference on Computer Vision, 2015.
sobre Representaciones de Aprendizaje, 2015.
[25] S. Wang, M. Bai, G. Mattyus, H. Chu, W. Luo, B. Yang, J. Liang, J. Cheverie,
[9] W. He, K. Hwang y D. Li. Enrutamiento inteligente de vehículos compartidos
S. Fidler y R. Urtasun. Torontocity: Ver el mundo con un millón de ojos. En
para viajes compartidos urbanos mediante la extracción de trayectorias gps.
IEEE International Conference on Computer Vision, 2017.
Transacciones IEEE sobre sistemas de transporte inteligentes, 15:2286–
2296, 2014.
[26] S. Workman, C. Greenwell, M. Zhai, R. Baltenberger y N. Jacobs. DeepFocal:
[10] Grupo de Trabajo Conjunto sobre el Manual de Seguridad Vial. Manual de
un método para la estimación directa de la distancia focal. En Congreso
seguridad en las carreteras, volumen 1. Asociación estadounidense de
Internacional de Procesamiento de Imágenes, 2015.
funcionarios estatales de carreteras y transporte, 2010.
[11] D. Kingma y J. Ba. Adam: Un método para la optimización estocástica. En
[27] S. Workman, R. Souvenir y N. Jacobs. Comprensión y mapeo de la belleza
Conferencia Internacional sobre Representaciones de Aprendizaje, 2014.
natural. En IEEE International Conference on Computer Vision, 2017.
[12] A. Krizhevsky, I. Sutskever y G. Hinton. Clasificación de Imagenet con redes

[28] S. Workman, M. Zhai, DJ Crandall y N. Jacobs. Un modelo unificado para la
neuronales convolucionales profundas. En Ad vances in Neural Information
detección cercana y remota. En IEEE International Conference on Computer
Processing Systems, 2012.
Vision, 2017.
[13] S. Lee, H. Zhang y DJ Crandall. Predicción de atributos geoinformativos en
[29] K.F. Wu, S. Himes y M. Pietrucha. Evaluación de la efectividad del programa
colecciones de imágenes a gran escala utilizando redes neuronales
convolucionales. En IEEE Winter Conference on Applications of Computer federal de mejora de la seguridad vial.
Vision, 2015. Registro de investigación de transporte: Revista de la Junta de investigación

de transporte, (2318): 23–34, 2012.
[14] M. Lin, Q. Chen y S. Yan. Red en red. En Conferencia Internacional sobre
Representaciones de Aprendizaje, 2014. [30] J. Xu, KD Kochanek, SL Murphy y B. TejadaVera.
[15] T.Y. Lin, Y. Cui, S. Belongie y J. Hays. Aprendizaje de representaciones Muertes: datos finales para 2014. Informes Nacionales de Estadísticas
profundas para la geolocalización de tierra a aire. En IEEE Conference on Vitales, 65(5):1–122, 2016.
Computer Vision and Pattern Recognition, 2015. [31] M. Zhai, S. Workman y N. Jacobs. Detección de puntos de fuga utilizando el
contexto de imagen global en un mundo fuera de Manhattan. En IEEE
´
[16] G. Mattyus, S. Wang, S. Fidler y R. Urtasun. Mapas de alta definición: Conference on Computer Vision and Pattern Recognition, 2016.
segmentación de carreteras de granularidad fina mediante el análisis de

imágenes terrestres y aéreas. En IEEE Conference on Computer Vision and [32] B. Zhou, A. Lapedriza, A. Khosla, A. Oliva y A. Torralba.
Pattern Recognition, 2016. Lugares: una base de datos de 10 millones de imágenes para el reconocimiento de escenas.
[17] N. Naik, J. Philipoom, R. Raskar y C. Hidalgo. IEEE Transactions on Pattern Analysis and Machine Intelligence, PP(99),
Streetscore: predice la seguridad percibida de un millón de paisajes urbanos. 2017.
En IEEE Conference on Computer Vision and Pattern Recognition Workshops, [33] B. Zhou, A. Lapedriza, J. Xiao, A. Torralba y A. Oliva.
2014. Aprendizaje de funciones profundas para el reconocimiento de escenas utilizando la
[18] B. Nye, E. Fitzsimmons y S. Dissanayake. Demostración de la Evaluación vial base de datos de lugares. En Avances en sistemas de procesamiento de información
de los Estados Unidos (usRAP) como una herramienta de seguridad neuronal, 2014.
sistemática para carreteras y autopistas de dos carriles

1901.06013 NNNN - ESPAÑOL

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

1901.06013 NNNN - ESPAÑOL

Cargado por

Copyright:

Formatos disponibles

Machine Translated by Google

FARSA: Evaluación de Seguridad Vial Completamente Automatizada

Canción weiliana1 scott trabajador1 armin hadzic1 Xu Zhang2,3

1Departamento de Ciencias de la Computación, Universidad de Kentucky

Este trabajo aborda la tarea de evaluación de la seguridad vial.

red neuronal convolucional profunda que estima directamente la

• aprendizaje no supervisado: añadimos una pérdida que favorece que la distribución

Nuestro trabajo se basa en el trabajo en varias áreas: comprensión de la escena

Clasificación de escenas y segmentación de imágenes Durante los últimos diez años,

como barandas. Estas anotaciones se basan en la observación directa o en imágenes

de carreteras de estas características. Luego, estos datos se utilizan para calificar la

Para automatizar este proceso manual, proponemos una arquitectura de red

3.1. Arquitectura de red neuronal convolucional

usamos para entrenar nuestro modelo. Usamos la arquitectura VGG­16 1

Figura 3: Descripción general de nuestra arquitectura de red.

1 2 cierta, encontramos que mejora la precisión de nuestra red final.

aprendizaje de 0,0001, mientras que todas las capas específicas de tareas

capa entrenable distinta de los mecanismos de atención, aplicamos la

4.1. conjuntos de datos

Para la capacitación supervisada y de tareas múltiples, utilizamos un conjunto

para un total de 7.288 muestras. La figura 4 muestra diagramas de dispersión de

utilizado durante la codificación manual. Esto es importante porque las wl = (5)

Tabla 1: Configuración de parámetros para cada método.

Método λs 1 λs 2 λs λm λu 102 1 Línea

Tabla 2: Precisión Top­1 para cada método.

Método Attn. Multi. no super Cuenta

Figura 5: La matriz de confusión del conjunto de pruebas (fila normalizada)

Comparamos nuestra arquitectura completa con cinco variantes.

Tabla 3: Evaluación multitarea para nuestra arquitectura. R. = borde de la

carretera, P. = pasajero y D. = conductor.

Tipo de Top­1 Aleatorio % inc. 97,40 50,39

Panorama de ejemplo de área Ancho 30,79 54,88 28,38 26,50 52,72

de carril Calidad 24,40 77,17 57,00 20,17 52,39

de la intersección 83.06 66.69 Volumen

Lado de hombro pavimentado 37.56 24.42

RD Distancia lateral 37.51 25.47 RP Distancia

Curvatura 25,83 25,52 10,44

ing a un destino, con el fin de equilibrar la velocidad y la seguridad.

Las dos rutas representadas en la Figura 7 demuestran el impacto de las

Figura 8: Anotación de caminos de una estrella (arriba) y cuatro estrellas (abajo).

Figura 7: Ruta inalterada (izquierda) y ruta de puntuación de seguridad prevista (derecha).

generalmente carecen de la experiencia para realizar un análisis de seguridad sólido como

Para contribuciones futuras, planeamos explorar al menos tres ramificaciones de este

trabajo: 1) aplicar el método propuesto a tareas adicionales de seguridad vial, 2) integrar

5. Conclusión imágenes aéreas y 3) realizar evaluaciones usando múltiples panoramas.

En este documento, presentamos un enfoque automatizado para estimar la seguridad

esfuerzo manual significativo. Demostramos cómo una combinación de un mecanismo de

la principal preocupación de muchas agencias al implementar el análisis sistémico (como

[12] A. Krizhevsky, I. Sutskever y G. Hinton. Clasificación de Imagenet con redes

Vision, 2015. Registro de investigación de transporte: Revista de la Junta de investigación

segmentación de carreteras de granularidad fina mediante el análisis de

sistemática para carreteras y autopistas de dos carriles

También podría gustarte

usamos para entrenar nuestro modelo. Usamos la arquitectura VGG16 1

Tabla 2: Precisión Top1 para cada método.

Tipo de Top1 Aleatorio % inc. 97,40 50,39