Estimación de Posición y Orientación Asistida Por Imágenes

VIII Congreso Argentino de Tecnología Espacial. Mayo 6-8, 2015. Buenos Aires, Argentina.
ESTIMACIÓN DE POSICIÓN Y ORIENTACIÓN ASISTIDA POR IMÁGENES
Mendieta, Dario F., Camacho, Marina D.

{dario.mendieta, marina.camacho}@fain.uncoma.edu.ar
Universidad Nacional del Comahue

Facultad de Ingeniería – Dpto. de Electrotecnia
Buenos Aires 1400 (8300)
Neuquén – Argentina
RESUMEN
La navegación exitosa de un vehículo operado remotamente o aéreo no tripulado requiere el conocimiento

preciso de su posición y velocidad. Tradicionalmente se emplean técnicas de fusión de datos IMU/GPS.
Sin embargo, condiciones climáticas adversas pueden evitar el acceso a la señal GPS por un periodo de
tiempo. Casos extremos son los entornos subacuáticos. En este tipo de escenarios es posible combinar la
IMU con la información de un sensor de visión para compensar la ausencia de la señal GPS.
En este trabajo se analiza la estimación de la posición y velocidad de un vehículo a partir de una secuencia
de imágenes provenientes de una cámara de visión.
Se evalúan técnicas para la búsqueda de puntos en imágenes que no cambien su ubicación respecto del
marco de navegación global. Se realiza una selección de puntos característicos y un seguimiento continuo
entre la secuencia de imágenes. El movimiento del vehículo se estima calculando la homografía entre
imágenes. Finalmente, vía simulación Montecarlo, se analiza la validez de los resultados obtenidos.
1.- INTRODUCION proporcionar altas resoluciones y no interfieren

con otros sensores. Prácticamente, el límite de su
La navegación segura de un vehículo utilidad es el procesamiento que pueda realizarse.
operado remotamente (ROV) o aéreo no tripulado Por esta razón, la navegación visual u odometría
(UAV) requiere el conocimiento preciso de su visual (VO) es una alternativa interesante. VO
posición para realizar sus acciones de control. La permite una mayor precisión en la navegación de
navegación de estos vehículos en general suele un vehículo respecto a las técnicas de odometría
emplear sensores activos como radars, lasers de tradicionales, independientemente de su medio de
rango, cámaras 3D. El elevado costo de estos locomoción en cualquier superficie.
sensores difícilmente los vuelve accesibles. Su La idea básica detrás de la navegación
tamaño, peso y consumo tampoco permiten su visual es la estimación de la transformación entre
incorporación en pequeños vehículos. imágenes para extraer la información de
Sensores de medición inercial (IMU) y movimiento del vehículo [1]. El algoritmo básico
GPS también son empleados, permitiendo además tiene 3 etapas: detección y descripción de
emplear técnicas de fusión de datos para mejorar características en imágenes consecutivas;
la estimación. En el caso particular del GPS, la correspondencia entre las características
recepción de su señal está supeditado a la detectadas y búsqueda de la transformación entre
estructura del ambiente, requiriendo prácticamente las imágenes.
una línea de visión hacia el cielo. En la actualidad, las técnicas de VO pueden
En este contexto, los sensores de visión son dividirse según el empleo de cámaras monoculares
una opción a considerar. Son pequeños, pueden o estéreos y seguimiento de características (feature
tracking) o correspondencia de características en una imagen. Su concepto proviene de la

(feature matching) [2]. detección de puntos esquinas o vértices para
La visión estéreo permite un tratamiento representar características fuertes, bien definidas,
distinto de falsos emparejamientos en la etapa de estables y robustas de una imagen. Detector como
correspondencia. Las características detectadas en Harris y SIFT (Scale Invariant Feature Transform)
el mundo tridimensional deben satisfacer una son ampliamente conocidos. La elección
restricción de rigidez lo que permite identificar las dependerá de la estructura del ambiente, costo
falsas correspondencias [3]. El fácil acceso a la computacional y precisión [5].
información de profundidad en la imagen en la
visión estéreo mejora la precisión y confiabilidad 2.1.1- Detector de Harris
de los resultados obtenidos. La visión monocular, Este detector analiza los potenciales puntos
permite procesar cualquier tipo de video y de interés vía la función de autocorrelación [6]
obviamente requieren menos procesamiento [4].
En correspondencia de características, se , ,
(1)
detectan características en una secuencia de ∑ , , , ,
imágenes y se buscan correspondencias entre pares
de imágenes. En lo que respecta a seguimiento de donde
características, en una imagen de referencia se , ,
: autocorrelación en cada punto ,
identifica un conjunto de caracterizas que se para un desplazamiento , .
buscarán en las siguientes imágenes. Esta técnica , : Intensidad en cada pixel , .
es empleada frecuentemente en aplicaciones de
seguimiento en video. La función que define la medida para
Este trabajo se organiza como sigue. Se clasificar a un pixel como punto de interés queda
presentan los conceptos para la detección, definido por
descripción y correspondencia entre dos imágenes
y la forma de estimar el movimiento. Se , | | ∙ (2)
implementa el algoritmo de VO en Matlab y se
realizan simulaciones sobre un dataset. Se donde es el Hessiano de , , .
plantean los pasos futuros en esta línea de trabajo. Este detector encuentra puntos esquinas
.
rápidamente y funciona adecuadamente en
ambientes estructurados o semiestructurados. En
la fig. 1 puede verse la respuesta de , según
2.- EXTRACCIÓN DE CARACTERÍSTICAS
el tipo de punto evaluado.
La estimación del movimiento en un
vehículo a partir de un sensor monocular, requiere
la detección de puntos de interés o característicos
en la imágenes capturadas. Conociendo el
desplazamiento de los puntos correspondientes,
puede estimarse el movimiento de la cámara y de
esta forma el del vehículo. En esta sección se
expondrán las técnicas existentes y empleadas para
la detección y seguimientos de características en
una secuencia de imágenes.
2.1- Detección
En esta primer etapa se realizada la
detección de puntos de interés, claves o
característicos. Estos puntos representan Figura 1: respuesta de , para cada , .
características salientes y fácilmente distinguibles .
Este detector es ampliamente conocido por

ser parcialmente invariante a la intensidad,
invariante a traslación y rotación y estable bajo
pequeñas distorsiones en la imagen [7]. No es
invariante al escalado [6].
2.1.2- Detector SIFT

En este detector los puntos de interés se
obtienen como máximos o mínimos de las
diferencias entre funciones gaussianas aplicadas a
distintas escalas en la imagen suavizada. Los Figura 3: Descriptor de intensidades
puntos candidatos de bajo contraste y los de borde
son descartados [8]. 2.2.1.- Descriptor SIFT
La fig.2 muestra como opera este detector. Para obtener este descriptor se define una ventana
centrada en cada uno de los puntos de interés
detectados. Sobre esta ventana, nuevamente se
definen una sub-ventana en donde se calculan las
orientaciones y se representan mediante
histogramas. Finalmente estos últimos valores se
apilan en un vector que constituye el vector
descriptor. Por lo general el tamaño de la ventana
es de 16x16 puntos y el de la sub-ventana de 4x4.
Los histogramas se arman de 8bins con lo cual el
vector descriptor es de 128 dimensiones. Esto se
muestra en la fig. 4.
Figura 2: Algoritmo SIFT (extraído de [8]).
2.2- Descriptores
Son vectores -dimensionales, con el
propósito de representar los puntos de interés
detectados en función de sus vecinos. Usar la Figura 4: Descriptor SIFT
intensidad de los pixeles vecinos alrededor de un
punto de interés y apilar estos valores en vector
sería una alternativa como se muestra la fig. 3. 2.3- Correspondencia
Sin embargo este sencillo descriptor no es robusto
dado que es muy sensible al desplazamiento y Dado que cada punto de interés se describe
rotaciones y obviamente a las condiciones de por un vector -dimensional, la correspondencia
luminosidad. puede realizarse usando la búsqueda del vecino
Hay una extensa diversidad de descriptores [5]. El más cercano, es decir calculando directamente la
más popular, robusto y preciso es el descriptor distancia euclidiana entre descriptores. Dado el
SIFT. conjunto de puntos de interés y descriptores
, y , en la imagen de referencia y
destino respectivamente, se tiene que y son
correspondientes o ajustados si y solo si
es mínima ∀ , ∈ / 1 y 1 .
4.- SIMULACIONES
Existen algoritmos rápidos para este propósito [9]. La extracción de características y
También suele usarse como medida de estimación de movimiento descriptas en las
correspondencia la diferencia de sumas absolutas secciones anteriores se implementaron
(SAD) por su costo computacional. satisfactoriamente en Matlab R2012b. Las
En esta etapa es inevitable que se simulaciones se realizaron sobre el dataset en [13].
produzcan correspondencias incorrectas. Es Los resultados obtenidos se observan en la fig. 6
importante poder tratarlas dado que de lo contrario
Captura 000021 Captura 000024
perjudicarán el procesamiento en las siguientes 50 50
etapas. Generalmente, el método empleado para 100 100
tratar resultados atípicos es RANSAC (Random 150
200
150
200
sample consensus)[10]. Este método iterativo no 250 250
determinístico ajusta el modelo buscado según una 300
350
300
350
función de costo y nivel de confianza para tratar 200 400 600 800 1000 1200 200 400 600 800 1000 1200
las falsas correspondencias. Captura 000027 Captura 000030
50 50
100 100
150 150
3.- ESTIMACIÓN DEL MOVIMIENTO 200
250
200
250
300 300
En esta etapa se estima el movimiento 350
200 400 600 800 1000 1200

350
200 400 600 800 1000 1200
relativo de la cámara en función de dos imágenes Captura 000033 Captura 000036
consecutivas. La trayectoria completa finalmente 50 50
se obtiene sumando los movimientos parciales

100 100
150 150
calculados. 200 200
250 250
Las relaciones geométricas entre imágenes 300 300
consecutivas quedan descriptas por la matriz 350 350
200 400 600 800 1000 1200 200 400 600 800 1000 1200
esencial[11]. El desplazamiento y rotación que Captura 000039 Captura 000042
experimenta el vehículo pueden obtenerse de la 50 50
matriz esencial. La propiedad fundamental de esta 100
150
100
150
matriz surge de la geometría epipolar. Esta define 200 200
la recta sobre la cual existen los puntos de interés 250
300
250
300
y correspondientes como se observa en la fig. 350 350
200 400 600 800 1000 1200 200 400 600 800 1000 1200
5. Esta propiedad define la estrategia para Captura 000045 Captura 000048
calcularla. En [12] se define una implementación 50 50
eficiente que en la actualidad se ha vuelto un 100 100
150 150
estándar para la estimación de movimiento. 200 200
250 250
300 300
350 350
200 400 600 800 1000 1200 200 400 600 800 1000 1200
Figura 6: Capturas procesadas por el algoritmo

implementado.
5.- CONCLUSIONES
Fue posible integrar correctamente las
etapas de detección, descripción y
correspondencia en las capturas procesadas. La
estimación del movimiento conseguida es
aceptable. No fue posible conseguir un dataset con
Figura 5: Restricción epipolar.
los datos de posición y orientación para poder [9] Muja, M., & Lowe, D. G. (2009). Fast
contratar los resultados obtenidos. Approximate Nearest Neighbors with
Como trabajo a futuro es necesario implementar Automatic Algorithm Configuration. VISAPP
un método que evalué la matriz esencial y de (1), 2.
homografía para decir cuál es más conveniente en
cada iteración. Emplear un filtro de partículas [10] M. A. Fischler and R. C. Bolles, 1981.
asociado a cada uno de los puntos de interés. Random sample consensus: a paradigm for
model fitting with applications to image
REFERENCIAS analysis and automated cartography.
Communications of the ACM, 24(6):381–395,
[1] O. Amidi, T. Kanade and K. Fujita, 1999. A June.
visual odometer for autonomous helicopter
flight, Robotics and Autonomous Systems, vol. [11] R. Hartley and A. Zisserman, 2004, Multiple
28, pp. 185-193. View Geometry in Computer Vision, 2nd ed.
Cambridge U.K.: Cambridge Univ. Press.
[2] Szeliski R. 2010. Computer Vision:
Algorithms and Applications. Springer-Verlag: [12] D. Nister, 2003, “An efficient solution to the
London. five-point relative pose problem,”in Proc.
Computer Vision and Pattern Recognition
[3] H. Hirschmüller, P.R. Innocent, and J.M. (CVPR ’03),pp. II: 195–202.
Garibaldi, 2002, Fast, unconstrained camera
motion estimation from stereo without tracking [13] Geiger, A., Roser, M., & Urtasun, R. (2011).
and robust statistics, In Control, Automation, Efficient large-scale stereo matching. In
Robotics and Vision (ICARCV’02), 1099–1104. Computer Vision–ACCV 2010 (pp. 25-38).
Springer Berlin Heidelberg.
[4] Nistér, David, Oleg Naroditsky, and James
Bergen, 2006. "Visual odometry for ground
vehicle applications." Journal of Field Robotics
23.1, 3-20.
[5] Tuytelaars, T., & Mikolajczyk, K. (2008).

Local invariant feature detectors: a survey.
Foundations and Trends® in Computer Graphics
and Vision, 3(3), 177-280.
[6] C.Harris and M.Stephens. “A Combined

Corner and Edge Detector.” Proceedings of the
4th Alvey Vision Conference: pages 147—151,
1988.
[7] Schmid, C., Mohr, R. and Bauckhage, C.,

2000, Evaluation of Interest Point Detectors,
International Journal of Computer Vision, 37(2),
151-172.
[8] Lowe, D. G. (2004). Distinctive image

features from scale-invariant keypoints.
International journal of computer vision, 60(2),
91-110.

Estimación de Posición y Orientación Asistida Por Imágenes

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Estimación de Posición y Orientación Asistida Por Imágenes

Cargado por

Copyright:

Formatos disponibles

VIII Congreso Argentino de Tecnología Espacial. Mayo 6-8, 2015. Buenos Aires, Argentina.

ESTIMACIÓN DE POSICIÓN Y ORIENTACIÓN ASISTIDA POR IMÁGENES

Mendieta, Dario F., Camacho, Marina D.

Universidad Nacional del Comahue

La navegación exitosa de un vehículo operado remotamente o aéreo no tripulado requiere el conocimiento

1.- INTRODUCION proporcionar altas resoluciones y no interfieren

tracking) o correspondencia de características en una imagen. Su concepto proviene de la

Este detector es ampliamente conocido por

2.1.2- Detector SIFT

Figura 2: Algoritmo SIFT (extraído de [8]).

perjudicarán el procesamiento en las siguientes 50 50

etapas. Generalmente, el método empleado para 100 100

tratar resultados atípicos es RANSAC (Random 150

sample consensus)[10]. Este método iterativo no 250 250

determinístico ajusta el modelo buscado según una 300

las falsas correspondencias. Captura 000027 Captura 000030

3.- ESTIMACIÓN DEL MOVIMIENTO 200

En esta etapa se estima el movimiento 350

200 400 600 800 1000 1200

200 400 600 800 1000 1200

relativo de la cámara en función de dos imágenes Captura 000033 Captura 000036

consecutivas. La trayectoria completa finalmente 50 50

se obtiene sumando los movimientos parciales

calculados. 200 200

Las relaciones geométricas entre imágenes 300 300

consecutivas quedan descriptas por la matriz 350 350

esencial[11]. El desplazamiento y rotación que Captura 000039 Captura 000042

experimenta el vehículo pueden obtenerse de la 50 50

matriz esencial. La propiedad fundamental de esta 100

matriz surge de la geometría epipolar. Esta define 200 200

la recta sobre la cual existen los puntos de interés 250

y correspondientes como se observa en la fig. 350 350

5. Esta propiedad define la estrategia para Captura 000045 Captura 000048

calcularla. En [12] se define una implementación 50 50

eficiente que en la actualidad se ha vuelto un 100 100

estándar para la estimación de movimiento. 200 200

Figura 6: Capturas procesadas por el algoritmo

[5] Tuytelaars, T., & Mikolajczyk, K. (2008).

[6] C.Harris and M.Stephens. “A Combined

[7] Schmid, C., Mohr, R. and Bauckhage, C.,

[8] Lowe, D. G. (2004). Distinctive image

También podría gustarte