Está en la página 1de 15

Suscríbete a DeepL Pro para poder traducir archivos de mayor tamaño.

Más información disponible en www.DeepL.com/pro.

Sistemas de asistencia al conductor basados en la


visión: Estudio, taxonomía y avances
Jonathan Horgan, Ciarán Hughes, John McDonald, Senthil Yogamani
Departamento de Visión por Computador,
Aparcamiento Automatizado Valeo Vision Systems,
Irlanda senthil.yogamani@valeo.com

Resumen: Los sistemas de asistencia al conductor basados en


productos basados en visión disponibles en la actualidad, junto
la visión son una de las áreas de investigación de ITS en rápido con las aplicaciones emergentes y de próxima generación en
crecimiento, debido a diversos factores como el aumento del nivel sistemas de visión para automóviles [1][2][3]. Por último,
de requisitos de seguridad en automoción, la potencia de cálculo hablaremos de la tendencia hacia el uso de sistemas de visión
de los sistemas embebidos y el deseo de acercarse a la conducción en vehículos autónomos, que es un tema especialmente
autónoma. Se trata de un área interdisciplinar que abarca importante en la actualidad.
campos especializados como la visión por ordenador, el
aprendizaje automático, la navegación robótica, los sistemas
integrados, la electrónica del automóvil y el software crítico para
la seguridad. En este artículo, analizamos la lista de sistemas
avanzados de asistencia al conductor basados en la visión con una
terminología coherente y proponemos una taxonomía. También
proponemos un modelo abstracto en un intento de formalizar
una visión descendente del desarrollo de aplicaciones para
avanzar hacia un sistema de conducción autónoma.

Palabras clave-Visión en automoción; Visión integrada;


Conducción autónoma; ADAS; Aprendizaje automático; Visión por
ordenador

I. INTRODUCCIÓN
La mayoría de los fabricantes de automóviles emplean
algún tipo de sistema de cámaras, al menos en sus modelos de
gama alta, ya sea una simple cámara de visión trasera para
protección en caso de vuelco, una cámara frontal para aviso de
salida de carril, aviso de colisión frontal, etc., o cámaras
estéreo para una estimación más completa de la profundidad
del entorno por delante del vehículo. Naturalmente, las
aplicaciones más avanzadas requieren unidades de
procesamiento de gama más alta y, como tales, suponen un
mayor coste de producción para los fabricantes. Sin embargo,
a medida que avanza la legislación sobre seguridad de los
automóviles, los sistemas de cámaras se irán incorporando
cada vez más a los vehículos de gama baja, y pronto serán un
equipamiento de serie en muchas variantes de vehículos.
La Fig. 1 ofrece una visión general de varias aplicaciones
actuales basadas en la visión, desde aplicaciones de
visualización como Surround View (SV) hasta sistemas de
asistencia al conductor como Cross Traffic Alert (CTA), Park
Assist (PA) y Collision Warning (FCW y RCW). También se
están produciendo (o se producirán pronto) varios sistemas de
visión críticos para la seguridad, como el Control de Crucero
Adaptativo (ACC) y la sustitución electrónica de retrovisores
(CMS). Lo que salta a la vista es que los sistemas de cámaras
se cuentan entre los sensores más versátiles disponibles para el
mercado de la automoción, ya que ofrecen la gama de
aplicaciones más amplia de todos los sistemas de sensores.
El objetivo de este artículo es ofrecer un estudio de alto
nivel sobre la tecnología, el desarrollo de aplicaciones de
visión y las tecnologías actuales y futuras. Se incluirán los
tema pertinente, ya que en muchas jurisdicciones los
legisladores están empezando a aplicar leyes que permiten los
vehículos autónomos en las vías públicas. Con ello, están
reconociendo el hecho de que los vehículos autónomos
revolucionarán la industria automovilística en todo el mundo,
al mejorar la seguridad vial, la eficiencia del tráfico y la
experiencia general de la conducción. Discutiremos la
necesidad de modelar y formular el problema en un marco
genérico, que sea robusto y escalable para dar soporte a
diferentes aplicaciones. También propondremos un modelo
de software genérico escalable para el desarrollo de ADAS
basados en la visión.
Fig. 1. Interconexión del sistema de cámaras y campo de visión de la
aplicación.

II. TAXONOMÍA
En esta sección, presentamos diferentes formas de
clasificar los sistemas de visión y su uso para ofrecer
funcionalidades ADAS. En la bibliografía actual, no existe
una terminología y una clasificación coherentes para las
aplicaciones analizadas en este documento. Aquí proponemos
una terminología coherente y precisa para los ADAS basados
en la visión.

Visualización (A_DI)/Alerta (A_AL)/Semiautomatizado


(A_SA)/Automatizado (A_AD)/Autónomo (A_AS): Esta
clasificación describe el nivel de interacción entre el sistema
de visión y el propio usuario/sistema. Este desglose es similar
a los niveles de automatización propuestos por la NHTSA
[4]. Si una función alcanza el nivel autónomo, también puede
emplearse como función en un nivel inferior de
automatización.

Cuando las cámaras se instalaron por primera vez en los


vehículos de serie hace casi 25 años, se utilizaban
simplemente como ayuda para mejorar la visibilidad del
conductor en situaciones difíciles, como la marcha atrás o la
visión nocturna. Con las entradas individuales de las cámaras
se pueden obtener distintos puertos de visión, y las
superposiciones, como el tubo de conducción, pueden ayudar
aún más a posicionar el vehículo. Los avances en el número
de cámaras y el hardware permitieron la
de cuatro entradas de cámara, proporcionan al usuario una devolverán el control al conductor (con un preaviso adecuado),
vista superior 2D casi sin fisuras. Esto proporciona ayuda al en situaciones en las que la conducción autónoma sea más
conductor en muchas más situaciones de conducción, como el difícil. Con el tiempo, estas situaciones difíciles se manejarán
aparcamiento y las maniobras a baja velocidad cerca de de forma totalmente
objetos. El avance más reciente en materia de visión es la
creación de una vista de cuenco 3D alrededor del vehículo,
que permite al usuario cambiar el punto de vista de una
cámara virtual.

Mientras que la visualización es la función principal de las


cámaras de visión envolvente (espejo delantero, trasero,
izquierdo y derecho), las cámaras de visión delantera, como se
conocen (montadas normalmente detrás del espejo retrovisor),
tienen como único objetivo proporcionar ayudas al conductor
y no suelen tener una salida visual directa para el usuario. Las
cámaras se han convertido en sensores esenciales en funciones
estándar de tipo alerta, como el reconocimiento de señales de
tráfico (TSR) [5][6], la alerta de tráfico cruzado (CTA) [7], el
aviso de salida de carril (LDW) [8] y la detección de objetos
(OD) [7]. Estas funciones proporcionan al c o n d u c t o r
información valiosa sobre la situación de la conducción, pero
depende de él actuar o no en función de esa información.

Los sistemas semiautomatizados ofrecen funciones en las que


el conductor sigue siendo plenamente responsable del control
general del vehículo, pero una función
(frenado/dirección/cambio de luces) está automatizada. El
conductor puede asumir el control de la función automatizada
en cualquier momento. Ejemplos de este tipo de funciones son
el control de crucero adaptativo (ACC) [9], el frenado de
emergencia automático (AEB) [10], el mantenimiento de carril
(LK) [11] o el asistente de luz de carretera (HBA) [12].

Los sistemas automatizados permiten al conductor ceder el


control de más de una función crítica para la seguridad de la
navegación del vehículo (aceleración/frenado/dirección) a la
vez, en determinadas condiciones, y confiar en que el vehículo
navegue por sí mismo de forma segura por el entorno. El
control del vehículo se devuelve al conductor a petición de
éste, o al término de la tarea, o cuando el sistema reconoce una
situación que no puede automatizarse con seguridad. El
conductor debe estar atento y preparado para tomar el control
del sistema en un plazo razonablemente breve. Algunos
ejemplos de estos sistemas son el aparcamiento automático
(AP), la asistencia a la conducción en autopista (HDA) y la
asistencia en atascos (TJA).

La conducción autónoma es el objetivo final de la industria.


Este tipo de automatización permitiría al usuario simplemente
introducir un destino y, a continuación, no se esperaría que
asumiera el control del vehículo d u r a n t e t o d o e l
trayecto. Estos sistemas constarán de muchas de las funciones
antes mencionadas y funcionarán como parte de un sistema
global de conducción autónoma. El sistema totalmente
autónomo también podrá funcionar sin conductor. Esta
categoría puede subdividirse aún más, ya que habrá niveles de
conducción autónoma que se irán introduciendo por etapas en
los próximos años.

Los primeros sistemas que estarán disponibles en el mercado


serán parcialmente autónomos. Estos sistemas asumirán el
control total del vehículo durante gran parte del trayecto y
Los sistemas autónomos llegarán al mercado. Hay que tener existen cámaras activas para automóviles, como las cámaras
en cuenta que, para lograrlo, cabe esperar ciertos niveles de activas de visión nocturna (NV) [16] y de tiempo de vuelo
infraestructura. (TOF) [17], que requieren un infrarrojo artificial.

Interior (V_I)/Exterior (V_E): Una clasificación general de


los sistemas de cámaras para automóviles es si son cámaras
interiores o exteriores. Esta categorización se refiere al lugar
que cubre el campo de visión de la cámara, más que a la
ubicación física de la cámara en el vehículo. Las cámaras
típicas de los automóviles están orientadas hacia el exterior,
por lo que proporcionan información al usuario (o a los
sistemas del vehículo) sobre el entorno externo en el que
navega el vehículo. Este sistema puede proporcionar
aplicaciones como CTA y TSR, entre otras. En los últimos
años, existe una tendencia hacia la incorporación de cámaras
de vigilancia interior. La finalidad de estos sistemas suele ser
vigilar a los ocupantes del vehículo (al conductor en
particular), proporcionando funciones como la vigilancia del
conductor (DM), la vigilancia de los niños en el asiento
trasero [13] y el reconocimiento de gestos [14].

Vista única/redonda (SV): Las soluciones tradicionales de


cámaras de visión trasera/frontal/nocturna se manejan como
fuentes únicas, sin interacción con otros sistemas de cámaras
a bordo. Las cámaras i n d i v i d u a l e s delanteras suelen
tener un campo de visión (FOV) estrecho (<60 grados),
mientras que las cámaras de marcha atrás pueden tener FOV
más amplios. Los sistemas de visión envolvente constan de
cuatro cámaras de ojo de pez (>160 grados FOV) (vista
frontal (montada en la parrilla delantera), vista de retrovisor
izquierdo y derecho (montada bajo los retrovisores
exteriores) y vista trasera (normalmente montada bajo el
borde del maletero)), conectadas a una única ECU [15]. Estas
cámaras se controlan desde el punto de vista de la
adquisición, la calibración y la calidad de imagen para
permitir la generación de vistas como la vista superior y la
vista de cuenco en 3D, al tiempo que permiten funciones de
procesamiento de imágenes. Estas funciones pueden
aprovechar v i s t a s únicas o múltiples, como la detección de
marcas de carril y la detección de objetos (OD).

Mono/estéreo (ST): La gran mayoría de los sistemas de


cámaras para automóviles son monoculares. En los últimos
años, algunos fabricantes de automóviles han optado por los
sistemas estéreo. Una cámara estéreo consta de dos o más
lentes con un sensor de imagen independiente para cada
lente. Estas cámaras, en realidad independientes, se
emparejan con una línea de base conocida entre ellas y un
campo de visión superpuesto. Para aplicaciones de cámara
frontal, esto permite una estimación más precisa de la
profundidad en la escena, una mayor robustez y proporciona
un nivel de redundancia. Las cámaras estereoscópicas pueden
mejorar funciones como AEB y ACC. Estos sistemas son
más caros que los monoculares debido a la cámara adicional y
al hardware de procesamiento necesario, además de tener un
mayor tamaño.

Activo (C_A)/Pasivo (C_P): Las cámaras típicas de los


automóviles son sistemas pasivos. Utilizan la luz ambiental
del entorno y operan dentro del espectro electromagnético
visible. Por lo tanto, el rendimiento del sistema suele
degradarse en condiciones de poca luz. E n e l mercado
fuente de luz para iluminar la escena. La longitud de onda de mayoría de las aplicaciones ADAS basadas en el procesamiento
la fuente de luz en los sistemas activos la hace invisible al ojo de imágenes.
humano. Por lo general, estas cámaras se centran en
proporcionar funciones ADAS al usuario, en lugar de Adquisición: En primer lugar, se captura una imagen y se
utilizarse con fines de visualización, aunque algunos presenta al algoritmo de procesamiento de imágenes para que
fabricantes ofrecen la opción de visualización. la procese en un determinado

Baja velocidad (S_L)/Alta velocidad (S_H): Las cámaras


utilizadas para fines puramente de visualización/maniobra a
baja velocidad (<20Kph), tienden a funcionar a una frecuencia
de imagen de entre 25 y 30 fotogramas por segundo (fps) (a
menudo guiadas por los requisitos de la pantalla de la unidad
principal). La frecuencia de imagen de estas cámaras puede
reducirse aún más (por ejemplo, 15 fps) en condiciones de
poca luz, para mejorar la calidad de la imagen aumentando el
tiempo de exposición. Las cámaras utilizadas para
aplicaciones de alta velocidad, como ACC o AEB, y las
cámaras utilizadas para visión a alta velocidad, como las
cámaras de sustitución de espejos (CMS), pueden funcionar
hasta 60 fps o más. Las aplicaciones de visión que se ejecutan
en todas estas cámaras pueden procesar todas las imágenes
capturadas o una frecuencia de imagen inferior múltiplo de la
frecuencia de captura de la cámara. La selección de la
frecuencia de fotogramas de procesamiento del algoritmo
depende de muchos factores, como la velocidad del vehículo
durante el funcionamiento de la función, los requisitos de
movimiento entre fotogramas, la carga computacional del
algoritmo y la frecuencia de actualización requerida de la
propia función.

Autónomo/Fusión (FUS): Las cámaras autónomas son


sistemas que proporcionan la salida pertinente al usuario sin
ninguna fusión de datos con otros sistemas de sensores. Este
es el caso de la mayoría de las cámaras de visualización, ya
que la fusión no es necesaria, pero también es el caso de la
mayoría de las soluciones de visión frontal/trasera y
envolvente disponibles en la actualidad. Actualmente existen
en el mercado sistemas de fusión que fusionan datos de
sensores Lidar y Radar, junto con información visual para
mejorar la disponibilidad, precisión y robustez del sistema. La
fusión de sensores sigue siendo un campo de investigación
relativamente joven en el sector de la automoción; sin
embargo, está creciendo rápidamente debido a su reconocida
importancia para alcanzar los objetivos de la conducción
automatizada. La fusión de datos multisensor procedentes de
cámaras, sensores ultrasónicos, lidar y radar permitirá a los
sistemas de próxima generación alcanzar la disponibilidad,
precisión y robustez necesarias para lograr el objetivo de la
conducción automatizada.
III. COMPONENTES DEL ALGORITMO DE VISIÓN
En esta sección se describen los componentes básicos de
las aplicaciones ADAS de visión para automóviles con
cámaras monoculares y estereoscópicas estándar. Esta sección
no cubre la visión nocturna ni las cámaras de tiempo de vuelo,
pero muchos pasos siguen siendo aplicables. Estos temas se
tratan en detalle en los libros de texto de visión por ordenador
y en las bibliotecas de software de código abierto [18][19] y
aquí lo resumimos según las necesidades de las aplicaciones
de visión típicas. Una combinación de un subconjunto de las
siguientes técnicas de procesamiento de imágenes, junto con
una lógica de interpretación de alto nivel, forman la base de la
frecuencia de imagen predefinida. La función puede procesar cambios de iluminación y las transformaciones proyectivas;
únicamente imágenes en escala de grises, o también puede sin embargo, son más dispersos en la imagen y, lo que es más
requerir información en color dependiendo de la importante, su cálculo es más costoso desde el punto de vista
implementación del algoritmo. informático.

Controlador: Antes del procesamiento, es habitual que se


realicen algunas comprobaciones en la imagen para
garantizar que tanto la imagen como la propia función se
encuentran en un estado capaz de proporcionar resultados
útiles. Estas comprobaciones podrían incluir algunas de las
siguientes (si la información pertinente está disponible en el
sistema): comprobaciones de precisión de la calibración,
comprobación de la suciedad de la imagen y comprobaciones
de la calidad de la imagen, como el ruido y el nivel de luz.

Tratamiento previo: El objetivo de este paso es mejorar la


imagen adquirida para aumentar la eficacia del tratamiento
posterior. El preprocesamiento puede consistir en muchas
operaciones diferentes, como la extracción de la región de
interés, el muestreo descendente de la imagen, la generación
de pirámides de imágenes (para manejar la escala), el
suavizado de imágenes (como Gauss para reducir el ruido de
la imagen) o la detección de bordes (como Sobel para resaltar
los gradientes de la imagen).

Segmentación: La segmentación es el proceso de dividir una


imagen en múltiples áreas de características similares. El
objetivo es simplificar la representación de una imagen
localizando los límites de los objetos (como el borde de una
carretera o el cielo), lo que puede reducir el tiempo de
procesamiento y mejorar el rendimiento de los pasos
posteriores [20]. La segmentación por cuencas hidrográficas
es un ejemplo de enfoque comúnmente utilizado [21].

Estimación del movimiento: Es la base de muchas


aplicaciones ADAS interesantes y suele ser la parte del
algoritmo más costosa desde el punto de vista computacional.
La estimación del movimiento consiste en rastrear o hacer
coincidir en el tiempo los píxeles de una imagen con los de la
siguiente. El movimiento de los píxeles en la imagen es el
resultado de dos movimientos: 1) el punto 3D
correspondiente se mueve en la escena y/o 2) la propia
cámara se mueve con respecto a la escena. El seguimiento
puede subdividirse en dos métodos principales: disperso y
denso. El rastreo disperso consiste en detectar primero las
características más destacadas de la imagen (como las
esquinas, por ejemplo, el detector de esquinas de Harris [22])
y, a continuación, rastrearlas mediante técnicas de flujo
óptico (por ejemplo, el rastreador Lucas Kanade [23]). El
flujo óptico denso implica el seguimiento de la ubicación de
cada píxel en la imagen (por ejemplo, Horn-Schunck [24]).
Ambos métodos tienen sus propias ventajas: el disperso
tiende a proporcionar un mayor porcentaje de puntos
coincidentes, con un menor coste de procesamiento, mientras
que el flujo óptico denso proporciona una mayor cobertura de
la imagen y más información estadística para manejar los
valores atípicos. Los métodos de emparejamiento detectan y
describen características (píxeles destacados), que luego se
emparejan con las características detectadas en la imagen
siguiente. Algunos ejemplos de detectores de características
son A-KAZE, SIFT, SURF y ORB. Estos métodos son más
resistentes que el flujo óptico al ruido de la imagen, los
Estimación de la profundidad: La estimación de la en relación con la escena, lo que da lugar a una triangulación
profundidad se refiere al conjunto de algoritmos destinados a deficiente cerca del foco de expansión en la imagen.
obtener una representación de la estructura espacial del
entorno dentro del FOV del sensor. Aunque éste es el objetivo Seguimiento de estado: El seguimiento de estado puede
principal de muchos sistemas de sensores activos, como las emplearse en muchos lugares diferentes a lo largo de la cadena
cámaras TOF, el lidar y el radar, sigue siendo un tema de procesamiento de imágenes para mejorar el rendimiento. El
complejo para los sensores pasivos. Existen dos tipos seguimiento de estado puede utilizarse para proporcionar un
principales de técnicas de percepción de la profundidad para nivel de robustez frente a detecciones fallidas o perdidas y
cámaras: estéreo y monocular [25]. ruido, manejar cálculos erróneos, predecir el estado en el
siguiente intervalo de tiempo y también para suavizar
La principal ventaja de las cámaras estereoscópicas respecto a temporalmente la salida de diferentes partes de la cadena de
los sistemas monoculares es su mayor capacidad para percibir procesamiento. Ejemplos comunes de este tipo de rastreadores
la profundidad. Funciona resolviendo el problema de de estado son el filtro de Kalman [26] y el filtro de partículas
correspondencia para cada píxel, lo que permite mapear las [27].
ubicaciones de los píxeles desde la imagen de la cámara
izquierda a la imagen de la cámara derecha. El mapa que Detección/clasificación de objetos: Existen dos tipos
muestra estas distancias entre píxeles se denomina mapa de principales de clasificación: supervisada y no supervisada. La
disparidad, y estas distancias son proporcionales a la distancia clasificación supervisada se basa en el conocimiento de que un
física del punto del mundo correspondiente desde la cámara. ser humano puede seleccionar miniaturas de muestra en
Utilizando las calibraciones de cámara y la línea de base múltiples imágenes que sean representativas de una clase
conocidas, los rayos que forman los pares de píxeles entre específica de objeto. Con el uso de métodos de extracción de
ambas cámaras pueden proyectarse y triangularse para características como el histograma de gradientes orientados
resolver una posición 3D en el mundo para cada píxel. (HOG), los patrones binarios locales (LBP) y las ondículas
aplicados a las imágenes de muestra clasificadas por humanos,
Los sistemas monoculares también son capaces de detectar la se construye un modelo predictor mediante aprendizaje
profundidad, pero el movimiento de la cámara es necesario automático para clasificar los objetos. Muchas funciones
para crear la línea de base para la triangulación. Este método ADAS basadas en la visión utilizan enfoques de aprendizaje
de reconstrucción de la escena se denomina estructura a partir automático para la clasificación en aplicaciones como la
del movimiento (SFM). Como se ha descrito anteriormente en detección de peatones (PD) [28], la detección de caras, la
la sección de estimación del movimiento, los píxeles de la detección de vehículos y el reconocimiento de señales de
imagen se rastrean o emparejan de un fotograma al siguiente tráfico (TSR). La calidad del algoritmo final depende en gran
utilizando técnicas dispersas o densas. El movimiento medida de la cantidad y calidad de los datos de muestra
conocido de la cámara entre los fotogramas procesados, así utilizados para el aprendizaje de los clasificadores. Los
como la calibración de la cámara, se utilizan para proyectar y clasificadores típicos incluyen SVM, bosques aleatorios y
triangular las posiciones mundiales de las correspondencias de redes neuronales convolucionales.
puntos. El ajuste de paquetes es un enfoque comúnmente
utilizado para refinar simultáneamente las posiciones 3D La clasificación no supervisada es el problema de tratar de
estimadas en la escena y el movimiento relativo de la cámara, encontrar una estructura en los datos sin tener un
de acuerdo con un criterio de optimalidad, que implica las conocimiento previo de los datos que se van a clasificar. Entre
correspondientes proyecciones de imagen de todos los puntos. los enfoques más populares de la clasificación no supervisada
Un ejemplo de ello se muestra en la Fig. 2. en el procesamiento de imágenes se encuentran la agrupación
K-mean y la Técnica Iterativa de Análisis de Datos
Autoorganizados (ISODATA). La clasificación no
supervisada suele utilizarse como parte de otras aplicaciones,
como la agrupación de objetos en movimiento.
base virtual (estereoscópica de movimiento). Sin embargo, esto
se complica para las cámaras frontales debido al movimiento
longitudinal de la cámara
Fig. 2. Estimación de la profundidad a partir de una cámara monocular

Los enfoques estereoscópicos son más precisos, ya que tienen


una línea de base fija conocida y utilizan cámaras de menor
FOV, lo que permite una mejor resolución espacial en la zona
procesada. También requieren un procesamiento menos
intensivo, ya que el problema de correspondencia es más
sencillo de resolver; sin embargo, la reconstrucción 3D se
limita a la zona de solapamiento de las dos cámaras y el coste
del sistema de una cámara estereoscópica es mayor. Las
técnicas SFM suelen emplear un procesamiento disperso para
reducir la complejidad computacional. En el caso de las
cámaras espejo, el problema de SFM es similar al de la
estereoscópica, ya que el movimiento lateral crea una línea de
IV. ESTUDIO DE APLICACIONES

A. Aplicaciones establecidas
Las aplicaciones ADAS basadas en la visión empezaron a
aparecer en la producción en serie a principios de la década de
2000 con el lanzamiento de sistemas como la advertencia de
abandono de carril (LDW) [8]. Desde entonces, se ha
producido un rápido desarrollo en el área de los ADAS
basados en la visión. Esto se debe a las enormes mejoras en el
hardware de procesamiento e imagen, y al impulso de la
industria automovilística por añadir más funciones ADAS con
el fin de aumentar la seguridad y mejorar el conocimiento de
la marca en el mercado. Como las cámaras se están aceptando
rápidamente como equipamiento de serie para mejorar la
visibilidad del conductor (sistemas de visión envolvente), es
lógico que estos sensores se empleen paralelamente para
aplicaciones ADAS.

A continuación se enumeran algunas aplicaciones ADAS


basadas en la visión, junto con su taxonomía y los
componentes típicos de visión necesarios, tal como se detalla
en los dos apartados anteriores.
secciones. No se trata de una lista completa de todas las paralelo y luego pasaron a incluir sistemas de aparcamiento
aplicaciones de visión y la mayoría de las soluciones pueden perpendicular. Los sistemas están evolucionando desde los
desarrollarse de muchas formas distintas. La taxonomía semiautomatizados, en los que sólo se controla la dirección,
detallada en la Tabla 1 presupone que las aplicaciones pueden hasta los totalmente automatizados. Estos sistemas totalmente
utilizar sistemas de cámaras pasivas, monoculares e automatizados, cada vez más disponibles, permiten al
independientes, a menos que se indique lo contrario. Los conductor salir del vehículo e iniciar la maniobra de
fabricantes de vehículos utilizan diferentes nombres para los aparcamiento a distancia mediante un llavero o un teléfono
sistemas ADAS que ofrecen la misma funcionalidad, lo que inteligente. En este
puede causar confusión, ya que muchas funciones tienen
varios nombres. Cuando se incluye la visión envolvente en la
taxonomía, significa que la aplicación podría funcionar con
una sola cámara de visión envolvente o utilizar las cuatro.

TABLA I. TAXONOMÍA DE LAS APLICACIONES ADAS BASADAS EN


LA VISIÓN

Aplicación Elementos típicos de la visión Taxonomía


No requiere un tratamiento significativo de
Sistema de visión A_DI, V_E, SV, C_P, S_L,
la imagen. Puede emplearse para
envolvente (SVS) / FUS
mejorar la imagen
vista 3D
precisión de cosido. Permite superponer
Control de crucero Clasificador supervisado (parte trasera A_SA, V_E, SV, ST, S_H,
adaptativo del vehículo), segmentación, FUS
(ACC) seguimiento del estado
Alerta de cambio
Detección de carriles basada en bordes,
involuntario de carril A_SA, V_E, SV, S_H, FUS
color y curva, Segmentación,
( LDW) / Sistema de
Seguimiento de estados
mantenimiento de carril
(LKS)
Faros adaptativos (AH) Clasificador supervisado (luces traseras y
/ delanteras de vehículos), seguimiento de A_AD, V_E, S_H
Asistencia a la luz de estado, movimiento
carretera (HBA) Estimación
Sistemas de visión
Infrarrojos pasivos o activos, segmentación A_DI, V_E, C_A, S_L
nocturna
(NVS) / Visión nocturna

Estimación del movimiento, A_SA, V_E, SV (requiere


Alerta de tráfico cruzado
segmentación, clasificador no ojo de pez), S_L, FUS
(CTA)
supervisado, seguimiento de estados
Colisión frontal Clasificador supervisado (parte trasera del A_SA, V_E, SV, ST, S_H,
Advertencia (FCW) / vehículo), Estado FUS
Seguimiento
Reconocimiento de Filtrado de colores, clasificador supervisado
A_AL, V_E, SV, S_H
señales de (señales de distintos países)
tráfico ( TSR)
Detección de objetos Estimación del movimiento, SFM,
A_AL, V_E, SV, ST, S_L,
(OD) / Detección de clasificador supervisado (peatones y
FUS
peatones (PD) vehículos),
/ Protección antirretorno Segmentación
Sistema de control del Cámara TOF o pasiva, Fondo
conductor sustracción, clasificador supervisado A_AL, V_I, C_A
(DMS) / Asistencia a la (detección de caras), seguimiento
atención (AA) ocular
Asiento trasero Sustracción de fondo, clasificador
A_AL, V_I,
Vigilancia supervisado (detección de caras)
infantil
Reconocimiento de Filtrado de colores, clasificador supervisado
semáforos A_AL, V_E, SV, S_H
(semáforos de distintos países)
(TLR) / Semáforo

B. Aplicaciones emergentes
Mientras que las aplicaciones establecidas mencionadas
anteriormente siguen desarrollándose para mejorar su
robustez, precisión y disponibilidad, hay una serie de nuevas
aplicaciones ADAS en desarrollo. Estas nuevas ayudas al
conductor suelen requerir una combinación de las aplicaciones
establecidas, además de algunas funciones de visión de nuevo
desarrollo, así como la fusión con otras tecnologías de
sensores. A continuación presentamos algunas de las muchas
aplicaciones ADAS que llegarán al mercado en los próximos
años.

Aparcamiento automatizado (AP): Los sistemas de


aparcamiento automatizado llevan algún tiempo en el mercado
de masas. Empezaron automatizando el aparcamiento en
el conductor sigue siendo responsable de vigilar el entorno constituirán un paso importante para calibrar la percepción
del vehículo (en todo momento), y la maniobra de pública de la conducción automatizada, al tiempo que
aparcamiento se controla mediante un interruptor de hombre proporcionarán valiosas estadísticas de uso.
muerto en el llavero o el teléfono inteligente. Son adecuados
en situaciones en las que la plaza de aparcamiento ya se ha
localizado y medido, o en entornos controlados (como
aparcamientos en garajes), en los que el vehículo puede
explorar con seguridad el entorno con una distancia y un
ángulo de giro limitados.

El siguiente paso de los sistemas de aparcamiento es hacerlos


verdaderamente autónomos, lo que permitirá al conductor
dejar el coche para que lo localice y aparque en un entorno no
cartografiado sin ninguna intervención del conductor.
Además, el vehículo deberá ser capaz de salir del hueco de
aparcamiento y volver con el conductor de forma segura. Las
cámaras pueden desempeñar un papel muy importante en el
futuro de los sistemas de aparcamiento automatizado, ya que
proporcionan información importante sobre el entorno del
vehículo. Esto incluye información como datos sobre objetos
y espacios libres, detección de marcas en las plazas de
aparcamiento y detección de peatones para su fusión con
otras tecnologías de sensores.

Asistencia en atascos (TJA)/Asistencia a la conducción en


autopista (HDA): TJA y HDA son sistemas automatizados
para manejar tanto la dirección (control lateral) como la
aceleración (control longitudinal) en situaciones de
conducción. Ambas funciones también pueden recibir
diferentes nombres, como piloto de atascos y piloto de
autopista, pero la función básica sigue siendo la misma. La
diferencia entre ambas funciones es la velocidad del vehículo
y la situación de conducción a la que están destinadas; el TJA
está pensado para maniobras a baja velocidad en situaciones
de tráfico congestionado, mientras que el HDA se utiliza en
conducción a alta velocidad. Al tratarse de sistemas
automatizados, se espera que el conductor supervise la
situación de conducción y esté preparado para asumir el
control total del vehículo en un breve plazo de tiempo.
Algunos sistemas controlan la atención del conductor como
requisito para el funcionamiento del sistema. Si el sistema
detecta que el conductor no está prestando atención, le avisa
y le devuelve el control total. Un ejemplo de esta supervisión
es asegurarse de que el conductor tiene las manos en el
volante.

El TJA y el HDA combinan la funcionalidad de seguir al


vehículo que circula en cabeza a una distancia de seguridad y
de mantener el carril, todo ello sin sobrepasar el límite de
velocidad. El TJA también se encarga de parar y arrancar el
vehículo. Inicialmente, ambos están pensados para funcionar
en autopistas de acceso limitado. Ambos funcionan de forma
similar, utilizando una combinación de las funciones
mencionadas anteriormente, incluyendo ACC, LK y TSR
para controlar el vehículo. La fusión de sensores se utilizará
para lograr estas funciones con el fin de garantizar la
robustez, la disponibilidad y la redundancia de los sensores.
Pueden aprovechar sistemas de visión monocular o
estereoscópica. Serán los primeros sistemas de este tipo del
mercado en los que el conductor cederá el control al sistema
ADAS para situaciones de conducción, sin dejar de
supervisar su funcionamiento. Como tales, estas funciones
V. HACIA LA CONDUCCIÓN AUTÓNOMA - RETOS Y partir de mapas de calor. El LIDAR y el TOF son sensores de
profundidad que permiten estimar información tridimensional
ORIENTACIONES FUTURAS
útil para detectar obstáculos.
A. Retos y otras pistas
Los algoritmos de detección de objetos en visión por
ordenador son soluciones de problemas inversos, ya que
recuperan la semántica a partir de proyecciones de imágenes
2D. El modelado de objetos es difícil debido a las variaciones
debidas a la iluminación, la pose, el color y la textura. Debido
a estas dificultades, el aprendizaje automático se ha convertido
en dominante. La reciente tendencia del aprendizaje profundo
demuestra cómo los modelos genéricos sin conocimiento
previo del objeto pueden superar a otros, especialmente
cuando el conjunto de datos y el número de objetos son
grandes. En particular, un sistema de visión para automóviles
tiene su propio conjunto de retos únicos. Hay varias cámaras,
normalmente una a cada lado del coche, que trabajan en
colaboración. En los sistemas V2V (vehículo a vehículo), las
cámaras de distintos coches trabajan en colaboración
formando una red multicámara. Las cámaras montadas en el
coche se mueven en un entorno dinámico con el movimiento
de otros objetos con o sin correlación. La infraestructura
circundante no se conoce a priori. Para cubrir un área mayor,
se utilizan lentes gran angular de ojo de pez, lo que provoca
una distorsión de la lente que rompe los modelos geométricos
típicos basados en cámaras con agujeros de alfiler. Por otro
lado, existe una estructura bien definida en la que el centro de
atención es la zona situada delante del coche (denominada
espacio libre) y los objetos que interactúan cerca de las
cámaras (vehículo líder). El movimiento de las cámaras puede
estimarse mediante sensores inerciales del coche (ángulo de
giro y revoluciones del volante).
Localización a priori: el GPS de los coches proporciona su
ubicación exacta. La localización puede utilizarse a priori
proporcionando información sobre la infraestructura estática
de la escena. Street View de Google es uno de esos servicios
que puede proporcionar grabaciones previas de la
infraestructura de la escena. La descarga continua de estos
datos podría aumentar las necesidades de tráfico de datos y
también el consumo de energía. De ahí la tendencia a utilizar
mapas en alta definición que transmiten sólo la información
crítica, como los límites de las carreteras, los carriles, etc., en
lugar de toda la escena. La localización también podría
utilizarse para adaptar los modelos y parámetros en función de
los distintos países o incluso ciudades. Por último, podría
utilizarse para permitir una fusión entre un servicio en la nube
y un sistema seguro en tiempo real. Como el procesamiento de
la visión es costoso, suele descargarse en la nube, sobre todo
en aplicaciones de realidad aumentada como Google Goggles.
La localización podría ayudar a enviar de forma adaptativa
sólo la información importante en función del contexto de
ubicación.
Fusión de sensores: La seguridad funcional es un aspecto
importante de un sistema ADAS que requiere el uso de
sensores adicionales para complementar las cámaras o incluso
añadir redundancia para obtener estimaciones más fiables. Los
sensores más utilizados son los ultrasónicos, los de radar, los
infrarrojos y los LIDAR/TOF. Los sensores ultrasónicos son
baratos y robustos para la detección de campo cercano. Suelen
emplearse en sistemas de aparcamiento automático para evitar
colisiones en campo cercano. El radar es adecuado para la
detección a medio y largo alcance y se ha utilizado
habitualmente en sistemas ACC. Los infrarrojos son útiles en
situaciones de poca luz para detectar objetos en la oscuridad a
B. Hacia un marco genérico de algoritmos escalables fondo combinada con la odometría también podría utilizarse
para segmentar los objetos en movimiento. Por último, el
Motivación: Los sistemas ADAS han crecido desde sistemas conjunto de entradas es una colección de matrices idealmente
simples como LDW/PD a otros más sofisticados como de la misma resolución, pero en la práctica puede ser diferente
TJA/HDA. Esto ha llevado a un desarrollo de algoritmos y puede contener dispersión.
basado en componentes discretos que se unen para formar
sistemas de gama baja, media y alta. Desde una perspectiva
comercial, esto ha llevado a una progresión independiente de
módulos individuales con poca reutilización y escalabilidad.
A medida que avanzamos hacia la conducción autónoma,
resulta beneficioso cambiar la perspectiva hacia un enfoque
de modelado descendente. También es útil tener esta
perspectiva para los sistemas de gama alta de la generación
actual, a fin de permitir el diseño conjunto de algoritmos y su
reutilización. A continuación se exponen algunos ejemplos
concretos en las distintas etapas de la cadena de algoritmos
para motivar este enfoque. El filtro de Kalman se utiliza
habitualmente para suavizar observaciones de objetos como
carriles, peatones, vehículos, etc. Normalmente se diseñan y
ajustan individualmente para cada objeto. El marco propuesto
fomenta la modelización conjunta, que permite captar mejor
la dinámica común y las interacciones. Otro ejemplo es el uso
de características para establecer correspondencias en la
estimación del movimiento. Existen métodos de uso común
como Lucas-Kanade o SIFT. Las CNN (aprendizaje
profundo) han obtenido recientemente buenos resultados para
estos problemas [29]. Son computacionalmente muy caras y
no son las preferidas, pero cuando se ven desde la perspectiva
de un sistema a gran escala en el que las CNN se utilizan para
el reconocimiento de múltiples objetos, se vuelven factibles.
Entradas: Las entradas en nuestro marco corresponden a los
atributos físicos de una escena. Consideramos que puede
tratarse de una medición bruta de un sensor o de una
estimación a partir de otros valores brutos. Nos inspiramos en
la forma en que los seres humanos perciben la semántica
visual. La información sobre el color es una medida bruta del
sensor a través de bastones y conos, mientras que el
movimiento y la profundidad se calculan en el cerebro. Esto
contrasta con la visión clásica, según la cual las imágenes son
los datos de entrada y la estimación de la profundidad y el
movimiento forman parte del algoritmo. El color es la entrada
más básica, ya que se mide con precisión mediante el sensor
de una cámara. Existen varios formatos de color, como RGB,
YUV, Lab y HSV. YUV (luma/croma) es el formato de
salida habitual de las cámaras y, para muchos algoritmos,
sólo se utiliza el componente Y. HSV se utiliza habitualmente
en el análisis de imágenes debido a la naturaleza
descorrelacionada de los componentes. La profundidad es
otra señal natural que mide la distancia desde el plano de la
cámara. Una medición precisa de la profundidad puede
conducir a una buena segmentación del objeto.
Tradicionalmente se utilizaban métodos multivista como
SFM (a partir de una sola cámara) y cámaras estereoscópicas,
pero la tendencia es utilizar sensores 3D más precisos y caros
como Lidar o TOF. Cuando las mediciones de profundidad se
alinean con la red de color, se produce una dispersión tanto
en el caso de SFM (zonas de poca textura) como de LIDAR
(resolución limitada y puntos ciegos). Por eso se suelen
utilizar técnicas de agregación temporal e interpolación. El
movimiento también es un indicio útil para segmentar objetos
en función de su dinámica. En el caso de los objetos estáticos,
el movimiento y la profundidad están directamente
relacionados; SFM utiliza la estimación del movimiento para
calcular la profundidad. El movimiento se estima mediante
métodos como el flujo óptico o la correspondencia de
características mediante SIFT/SURF. La sustracción del
Entradas Marco abstracto Semántica de salida
En bruto o Agrupación no Suelo Crítico/Dinámico Infraestructur
calculado a
Espectral (RGB/YUV/ supervisada Carretera/Conduc Peatón Señales de tráfico/
HSV, IR, Hiperespectral) (superpíxeles, ido Luces
cortes de gráficos ) Modelos gráficos Superficie/Espacio
Modelado libre Ciclista/Moto
espaciotemporales Edificio/Muro
Profundidad Priori
(SLAM/Gráficos
(SFM/Stereo, (geometría, Clasificadores Pistas/Marcas Coche/Camión/Auto
factoriales, redes Postes/Árboles
LIDAR, TOF) imágenes) supervisados
bayesianas) bús
Movimiento (Aprendizaje Defectos viales
(odometría, OF/ SIFT, Puente/Pasarela
profundo, Animales
subfondo) bosques de Senda/ Bordillo/
decisión, Césped
máquinas de
núcleo)
Fig. 3. Modelo escalable genérico para ADAS de visión
Los criterios específicos del contexto, como la geometría de la
carretera, los modelos de imagen, etc., pueden modelarse como
Salidas: La forma más genérica de la semántica de salida es
priores bayesianos [31]. Por ejemplo, las priores de detección
una matriz simple cuyo valor corresponde a una etiqueta de
objeto. A veces es útil disponer de un etiquetado jerárquico en de carriles son su posición en el plano del suelo, la estructura
lineal y el contraste de color en comparación con la carretera.
el que un píxel puede etiquetarse como Objeto estático 🡪
El modelo gráfico espaciotemporal es la parte clave del marco
Suelo 🡪 Carretera 🡪. que modela las relaciones espaciales a través de la carretera.
Defecto vial. Desde la perspectiva de las escenas
automovilísticas
han clasificado los resultados en tres categorías: objetos
planos, infraestructuras y objetos dinámicos. Los objetos
planos tienen un fuerte indicio de profundidad y pueden
detectarse fácilmente mediante mediciones precisas de la
profundidad. Los objetos dinámicos son los más críticos, ya
que son móviles y suponen un mayor riesgo para el sistema de
conducción. Suelen aprenderse mediante métodos de
aprendizaje supervisado. El resto de objetos estáticos se
clasifican en infraestructuras. Algunos de estos objetos deben
clasificarse (como las señales de tráfico), pero la mayoría sólo
deben detectarse y no clasificarse. Las categorías también
guardan relación con la criticidad del riesgo que entrañan, por
lo que en la Fig. 1 están codificadas por colores. Por ejemplo,
los objetos situados en la superficie del suelo son los que
plantean menos riesgo y están codificados en verde.
Marco abstracto escalable: Las partes estándar del marco
propuesto son métodos típicos de clasificación supervisada y
no supervisada. Los clasificadores supervisados se utilizan
habitualmente para detectar objetos como peatones, vehículos,
señales de tráfico, etc. En este algoritmo, se aprende un
modelo de reconocimiento de patrones proporcionando un
conjunto de datos de muestras positivas y negativas. Es
escalable para problemas como el reconocimiento de señales
de tráfico, donde hay miles de objetos y el diseño manual de
características resulta tedioso. Los algoritmos clásicos de
detección de objetos constan de un paso de extracción de
características (HOG/LBP/Wavelets) y una máquina de núcleo
(SVM). La mayor parte de la investigación se ha centrado en
el diseño de nuevas características y en el uso de
clasificadores estándar. Recientemente se ha producido un
cambio en esta tendencia mediante métodos de aprendizaje
profundo en los que las características se aprenden
automáticamente. Random forest es otro clasificador popular
que tuvo éxito en Microsoft Kinect para el reconocimiento de
poses [30]. Los métodos de agrupación no supervisada
agrupan píxeles en función de sus atributos. En el caso de las
escenas de automóviles, hay grandes estructuras similares a
manchas que pueden agruparse. La profundidad simplifica
enormemente los algoritmos de agrupación, por lo que es
importante agrupar conjuntamente los atributos de color y
profundidad. Los métodos de agrupación de imágenes más
conocidos son el corte de grafos y la segmentación de
superpíxeles. Los métodos Greedy 1D traversal y merge son
eficientes desde el punto de vista computacional y eficaces
para las escenas de automoción.
objetos y también maneja asociaciones temporales y
dinámicas como el nacimiento/muerte de segmentos
semánticos [32]. La detección de bordillos es un buen
ejemplo en el que un modelo gráfico espacial desempeña un
papel importante, ya que los bordillos por sí mismos no están
bien definidos sin sus relaciones espaciales con la carretera,
el césped, etc. SLAM es un ejemplo en el que las
estimaciones se refinan espacial y temporalmente en un
marco estadístico. Aunque los bloques del marco se muestran
independientes, podría existir una dependencia cíclica para
reducir la complejidad computacional. El resultado de la
agrupación no supervisada puede utilizarse para reducir el
ROI del clasificador supervisado y la coherencia temporal
podría aprovecharse para utilizar el estado del modelo
espaciotemporal para guiar y refinar los demás modelos.
Optimización directa de la trayectoria: En el campo del
control óptimo, el movimiento robótico se modela
típicamente como un problema de optimización de
trayectoria. La conducción autónoma puede verse puramente
como una optimización de trayectoria a corto plazo basada en
señales observadas localmente [34]. Intuitivamente, el
conductor de un coche no clasifica todos los objetos y
posteriormente toma una decisión sobre cómo maniobrar el
coche, sino que se basa en un razonamiento aproximado del
entorno y otras señales de movimiento, a partir de las cuales
se toma una decisión global. Desde el punto de vista de un
problema de clasificación supervisada, la anotación se
proporciona mediante el registro del control del coche por
parte del conductor. Desde el punto de vista de la anotación,
este método es muy escalable, ya que puede ajustarse a un
conductor concreto y a una ubicación específica. Desde este
punto de vista, se trata de un problema sencillo de
aprendizaje supervisado cuyo resultado es la estimación de la
cantidad necesaria de dirección y frenado. Se han realizado
con éxito algunas demostraciones de este enfoque, como el
Proyecto Dave [33] y Deep driving [35]. El modelo
aprendido con este enfoque es muy abstracto y puede resultar
difícil de interpretar.

VI. CONCLUSIÓN
En este documento hemos descrito para la comunidad ITS
una taxonomía del campo de la visión por ordenador en las
aplicaciones ADAS. Discutimos algunos de los usos actuales
y futuros de la visión por ordenador en el desarrollo
comercial de vehículos autónomos. También se propuso una
arquitectura escalable para el desarrollo de aplicaciones de
visión.
La ADAS basada en la visión es un área amplia y
apasionante con muchos retos. A su vez, esto está impulsando
el desarrollo de la teoría de la visión por ordenador. La visión
por ordenador es un campo de investigación en el que es fácil
hacer funcionar un prototipo, pero sigue siendo difícil
conseguir un sistema preciso que pueda utilizarse en un
vehículo de producción. Hace cinco años la conducción
autónoma parecía imposible, pero después de que Google
demostrara su coche sin conductor, se ha producido un rápido
progreso e interés en el desarrollo de la tecnología. La
mayoría de los grandes
fabricantes de vehículos están promoviendo algún tipo de [10] S. Sivaraman y M. Trivedi, "Looking at Vehicles on the Road: A Survey
autonomía de los vehículos. Los sistemas de visión of Vision-Based Vehicle Detection, Tracking, and Behavior
A n a l y s i s ", Intelligent Transportation Systems, IEEE Transactions
desempeñan un papel importante como sensores de detección on, 14(4):1773-1795, 2013.
y como parte de la HMI de los vehículos autónomos, lo que [11] J. Leea, at al., "Lane-keeping assistance control algorithm using
convierte a las cámaras en una atractiva solución de sensores. differential braking to prevent unintended lane departures", Control
El aumento de la demanda de visión por ordenador en Engineering Practice 23:1-13, 2014.
automoción, unido al incremento de la resolución de imagen [12] A. López, et al., "Nighttime Vehicle Detection for Intelligent Headlight
(1 megapíxel es el estándar actual), ha hecho que la potencia Control", Lecture Notes in Computer Science, 5259:113-124, 2008.
de cálculo de los procesadores aumente también enormemente. [13] Y. Dong, et al., "Driver Inattention Monitoring System for Intelligent
Dispositivos recientes como EyeQ4 y Tegra X1 tienen >10 Vehicles: A Review", Intelligent Transportation Systems, IEEE
Transactions on, 12(2):596-614, 2010.
veces más potencia de procesamiento que los dispositivos
utilizados anteriormente, como los SOC utilizados en el [14] E. Ohn-Bar y M. Trivedi, "Hand Gesture Recognition in Real Time for
Automotive Interfaces: A Multimodal Vision-Based Approach and
proyecto Audi zFAS [36]. Aunque en un futuro inmediato no Evaluations", Intelligent Transportation Systems, IEEE Transactions on
sea posible fabricar en serie un coche totalmente autónomo, el 15(6): 2368-2377, 2014.
impulso hacia ese objetivo está impulsando la robustez, la [15] Y.-C. Liu, et. al, "Bird's-Eye View Vision System for Vehicle
precisión y el rendimiento de las aplicaciones de visión. En Surrounding Monitoring", Lecture Notes in Computer Science
consonancia, organismos reguladores como EuroNCAP y 4931:207-218, 2008.
NHTSA están introduciendo una legislación progresiva para [16] Noche Ver Asistencia Más: el tercer ojo -
imponer sistemas de seguridad obligatorios, a pesar de los http://www.daimler.com/dccom/0-5-1210218-1-1210320-1-0-0- 1210228-
0-0-135-0-0-0-0-0-0-0-0.html
problemas de responsabilidad, y están empezando a legislar
[17] T. Ringbeck y B. Hagebeuker, "A 3D time of flight camera for object
para permitir la circulación de vehículos autónomos en la red detection", Optical 3-D Measurement Techniques, 2007.
de carreteras públicas. [18] Documentación de OpenCV - http://docs.opencv.org/
Debido a la limitación de páginas, el contenido de este [19] R. Szeliski, Computer Vision: Algorithms and Applications, Springer,
estudio es de alto nivel. Los autores están trabajando en un 2010.
estudio más detallado que también incluirá los aspectos de [20] A. B. Hillel, R. Lerner, D. Levi, G. Raz, "Recent progress in road and
lane detection: a survey", Machine Vision and Applications 25(3):727-
hardware y software del desarrollo de ADAS basados en la 745, 2014.
visión. Los algoritmos pueden estar estrechamente
[21] L. Najman y M. Schmitt. "Watershed of a continuous function", Signal
relacionados con el tipo de hardware utilizado, de ahí el Processing 38:99-112, 1994.
campo de la visión integrada. También cubriremos los [22] C. Harris y M. Stephens, "A combined corner and edge detector",
procesos de desarrollo de software para automoción que Proceedings of the 4th Alvey Vision Conference, pp. 147-151, 1988.
abarcan la seguridad funcional, etc. El marco estadístico [23] B. D. Lucas y T. Kanade "An iterative image registration technique with
escalable se tratará con más detalle con un modelado y análisis an application to stereo vision", Proceedings of Imaging Understanding
estadístico más formalizado que abarque ejemplos concretos. Workshop, pp. 121-130, 1981.
[24] B.K.P. Horn y B.G. Schunck, "Determinación del flujo óptico".
Artificial Intelligence 17:185-203, 1981.
REFERENCIAS
[25] R. Hartley y A. Zisserman, Multiple View Geometry in Computer
[1] F. Stein, "El reto de poner algoritmos de visión en un coche". Computer V i s i o n , Cambridge University Press, marzo de 2004.
Vision and Pattern Recognition Workshops (CVPRW), 2012 IEEE [26] R. E. Kalman, "A New Approach to Linear Filtering and Prediction
Computer Society Conference on. IEEE, 2012. Problems". Journal of Basic Engineering 82: 35, 1960.
[2] B. Kisačanin y M. Gelautz. Avances en visión por ordenador embebida. [27] P. Del Moral, "Filtrado no lineal: Interacting Particle Solution". Markov
Cham: Springer International Publishing, 2014. Processes and Related Fields 2 (4):555-580, 1996.
[3] A. Chavan y S. K. Yogamani, "Electr. & Comput. Eng, Texas Tech [28] P. Dollar, et al., "Detección de peatones: An evaluation of the state of
Univ., Lubbock, TX, USA". ITS Telecommunications (ITST), 2012 the art", Pattern Analysis and Machine Intelligence, IEEE Transactions
12th International Conference on. IEEE, 2012. on 34(4): 743-761, 2012.
[4] T. E. Trimble, et al., "Human Factors Evaluation of Level 2 and Level 3 [29] A. Geiger, et. al., "¿Estamos preparados para la conducción autónoma?
Automated Driving Concepts: Past Research, State of Automation The KITTI Vision Benchmark Suite", Conference on Computer Vision
Technology, and Emerging System Concepts", nº DOT HS 812 043. and Pattern Recognition (CVPR), 2012.
2014.
[30] Shotton, Jamie, et al., "Real-time human pose recognition in parts from
[5] A. Mogelmose, M. Trivedi y T. B. Moeslund. "Detección y análisis de single depth images", Communications of the ACM 56(1):116-124,
señales de tráfico basados en la visión para sistemas inteligentes de 2013.
asistencia al conductor: Perspectivas y encuesta". Sistemas de transporte
inteligentes, IEEE Transactions on 13,4 (2012): 1484-1497. [31] R. Mottaghi, et al., "The role of context for object detection and
semantic segmentation in the wild", Computer Vision and Pattern
[6] Conjuntos de datos de Automotive Vision: Recognition (CVPR), 2014 IEEE Conference on. IEEE, 2014.
La referencia alemana de reconocimiento de señales de tráfico - [32] Farabet, Clement, et al. "Learning hierarchical features for scene
http://benchmark.ini.rub.de/?section=gtsrb&subsection=news labeling" Pattern Analysis and Machine Intelligence, IEEE Transactions
Conjunto de datos Caltech Lanes - on 35.8 (2013): 1915-1929.
http://vision.caltech.edu/malaa/datasets/caltech- lanes/ [33] Proyecto Dave - http://www.cs.nyu.edu/~yann/research/dave/
[7] D. Savage, et al., "Crossing traffic alert and obstacle detection with the [34] S. Levine, et al., "End-to-End Training of Deep Visuomotor Policies",
Valeo 360Vue® camera system", ERTICO 9th ITS European Congress, arXiv BVLC Report Series #100, 2015.
junio de 2013.
[35] Conducción profunda - http://deepdriving.cs.princeton.edu/
[8] A. B. Hillel, et al. "Recent progress in road and lane detection: a
survey", Machine Vision and Applications 25(3): 727-745, 2014. [36] zFAS - http://on-demand.gputechconf.com/gtc/2015/video/S5637B.html
[9] L. Xiaoa y F. Gao, "A comprehensive review of the development of
adaptive cruise control systems", Vehicle System Dynamics:
International Journal of Vehicle Mechanics and Mobility, 48(10):1167-
1192, 2010.

También podría gustarte