Está en la página 1de 14

AO DE lA cOnsOliDAcin DEl mAr GrAu

Universidad NACIONAL AGRARIA DE LA SELVA

Facultad recursos naturales renovables

ESCUELA PROFESIONAL DE Ingeniera EN CONSERVACION DE


SUELOS Y AGUA

INFORME TCNICO

PRCTICA: Examen de visin estereoscpica

DOCENTE: Ing.

INTEGRANTES: Alegra ORTEGA, Giancarlo Jordy

FECHA DE ENTREGA: 13/09/2017

TINGO MARIA Per


SETIEMBRE_2017
I. OBJETIVO.

La visin estereoscpica constituye un procedimiento para la obtencin de


la forma de los objetos en la escena. En este caso la forma se determina a travs de
la distancia de los objetos en relacin con un sistema de referencia por lo que se trata
de un mtodo para la obtencin de la tercera dimensin.

Para la obtencin de la estructura de la escena, existen dos tipos de


mtodos: activos y pasivos. Los mtodos pasivos son aquellos que intervienen
externamente sobre la escena, bien iluminndola o bien enviando un haz energtico,
tales como sensores de ultrasonidos, luz estructurada, triangulacin, telmetro de
tiempo de vuelo, etc. Por el contrario, los pasivos no actan sobre la escena, siendo la
visin estereoscpica, el principal mtodo que constituye el objetivo final de estudio en
este trabajo.

1.1 Objetivo:

II. REVISION DE LITERATURA.


2.1 visin estereoscpica.

La visin estereoscpica toma como referencia el modelo estereoscpico


biolgico donde el desplazamiento relativo de los ojos permite obtener la profundidad
de los objetos o tercera dimensin mediante un simple proceso de triangulacin a partir
de las dos imgenes generadas por el mismo objeto de la escena 3D en cada ojo. Esto
se debe al hecho de que los ojos estn distanciados, esto hace que las imgenes de
los objetos en sendos ojos se muestren desplazadas segn la distancia de los objetos
a los ojos. Si se solapan las imgenes obtenidas en ambos ojos se obtiene la imagen
de la Figura 1.1 (b) en la que se observa que la separacin relativa entre las imgenes
de los dos tringulos es menor que la separacin relativa entre las imgenes de las
estrellas. Este fenmeno se explica por el hecho de que la estrella en la escena 3-D
se encuentra ms prxima a los ojos que el tringulo. Estas separaciones relativas de
los objetos en las imgenes obtenidas en cada ojo, es lo que se denomina disparidad
y que es el centro de estudio de este trabajo.

Figura 1.1 - (a) Sistema de visin estereoscpica biolgico; (b) Superposicin de las imgenes de ambos
ojos, donde se observa la separacin relativa de cada objeto de la escena (a menor distancia, ms lejos
se encuentra el objeto; a menor distancia, ms cerca est).

En visin estereoscpica artificial generalmente se utilizan dos cmaras


separadas entre s una cierta distancia relativa con las que se obtienen las
correspondientes imgenes del par estreo. El procedimiento consiste en captar dos
imgenes de una misma escena, cada imagen es capturada desde una posicin de
las cmaras ligeramente diferente, por lo que las imgenes se presentan tambin
ligeramente desplazadas entre s, siendo ste el fundamento bsico de la visin
estereoscpica, ya que este hecho es el que va a permitir la obtencin de la distancia
a la que se encuentra un determinado objeto.

En la Figura 1.2 (a) y (b) se muestra un par de imgenes estereoscpicas


originales captadas mediante un sistema de visin artificial con dos cmaras alineadas
horizontalmente, de forma que los objetos en las imgenes slo presentan un
desplazamiento horizontal y no vertical.

La captura de las imgenes de la escena se puede obtener por alguno de


los dos procedimientos siguientes:

a) Alineando dos cmaras de forma que se siten ligeramente desplazadas


en el espacio.
b) Desplazando una nica cmara una cierta distancia y captando las
imgenes en las diferentes posiciones de desplazamiento

En ambos casos la geometra del sistema puede disearse de forma que


las cmaras tengan sus ejes pticos paralelos o convergentes. El modelo ms utilizado
en visin artificial es el de ejes pticos paralelos.

(a) (b)

Figura 1.2 - (a) Imagen original estereoscpica izquierda; (b) Imagen original estereoscpica derecha.
Como se puede observar nicamente aparece un ligero desplazamiento horizontal debido a la posicin
de las cmaras.

2.2 Geometra del sistema estereoscpico.

Un sistema convencional est caracterizado por un par de cmaras con


sus ejes pticos (ZI y ZD) mutuamente paralelos y separados por una distancia
horizontal que se denomina lnea base, en la Figura 1.3 se identifica con el parmetro
b. Las cmaras tienen sus ejes pticos perpendiculares a la lnea base y sus lneas de
exploracin o epipolares paralelas a la lnea base. Las lneas epipolares son lneas
que unen un mismo punto en la escena en las imgenes izquierda y derecha.

Como se puede ver en la Figura 1.3 en este sistema de ejes pticos


paralelos el desplazamiento entre los centros pticos de las dos cmaras es horizontal,
esto se traduce en el hecho de que las imgenes de un punto determinado de la
escena captado por ambas cmaras difiere solamente en la componente horizontal.
Las Figura 1.3 muestra la geometra de un par de cmaras en estreo,
representadas por sus modelos puntuales con sus planos imagen, II e ID reflejados
sobre sus centros de proyeccin, OI y OD, respectivamente.

El origen del sistema de coordenadas de referencia o del mundo est en


O, siendo la longitud focal efectiva de cada cmara f, y la lnea base b como ya se ha
definido anteriormente. Los ejes de coordenadas del mundo X, Y, y Z se sitan entre
los ejes de ambas cmaras. Como consecuencia de la geometra de la imagen se
obtiene la denominada restriccin epipolar, que ayuda a limitar el espacio de bsqueda
de correspondencias, de manera que en el sistema de ejes paralelos convencional
todos los planos epipolares originan lneas horizontales al cortarse con los planos de
las imgenes. En un sistema con la geometra anterior se obtiene un valor de
disparidad d, para cada par de puntos emparejados PI (xI , yI) y PD(xD, yD) dado por
d = xI - xD.

Figura 1.3 - Representacin de la proyeccin estreo. Geometra de dos cmaras en estreo con ejes
pticos paralelos desde una perspectiva superior.

2.3 Obtencin de la distancia.

Considerando una relacin geomtrica de semejanza de tringulos, las


coordenadas del punto de la escena P (X,Y,Z) pueden deducirse fcilmente sin ms
que observar la Figura 1.3, obteniendo los resultados dados por la ecuacin (1.1). Se
deduce a partir de la ecuacin (1.1) que cuando se utiliza esta geometra, la
profundidad Z, es inversamente proporcional a la disparidad de la imagen y para una
profundidad dada, a mayor b mayor d.

2.4 Mtodos de correspondencia.

En visin estereoscpica se pueden distinguir dos grupos de tcnicas para


establecer la correspondencia a partir de dos imgenes estereoscpicas: basadas en
el rea (area-based) y basadas en las caractersticas (feature-based).

Los mtodos basados en caractersticas restringen la bsqueda a un


conjunto disperso de caractersticas. Se emplean propiedades simblicas y numricas
de las caractersticas, obtenidas a partir de los llamados descriptores, los cuales se
encargan de procesar y extraer caractersticas de una determinada imagen.

En los mtodos basados en rea, los elementos a comparar son ventanas


de la imagen de dimensin fija, y el criterio de semejanza es una medida de la
correspondencia entre las ventanas de las dos imgenes. El elemento correspondiente
queda determinado por la ventana que maximiza el criterio de semejanza dentro de la
regin de bsqueda. Dentro de este segundo grupo se pueden distinguir mtodos
como: la suma de diferencias absolutas (Sum of Absolute Differences: SAD), la suma
de diferencias al cuadrado (Sum of Squared Differences: SSD), la correlacin cruzada
normalizada (Normalized Cross Correlation: NCC) y el coeficiente de correlacin de
Pearson (Lpez-Valles y col., 2005; Pajares y Cruz, 2007; Kanade y Okutomi, 1994;
Okutomi y Kanade, 1993; Matthies y col., 1988, 1989; Hirschmller y col., 2002).

2.5 Medidas del error.


2.6 Correspondencia estereoscpica basada en la segmentacin.
2.7 Filtrado de imgenes.

Como se quiere un proceso automtico, y asumiendo que los algoritmos


de visin estereoscpica pueden generar errores en el clculo de la disparidad, es
conveniente recurrir a filtrados de los mapas de disparidad. Estos filtrados, pretenden
reconocer qu valores pueden estar mal calculados y les da un valor acorde a su
situacin en el mapa.

2.7.1 Enfriamiento simulado (Simulated Annealing).

Se asume que un valor de disparidad que difiere mucho del resto de


vecinos en una ventana MxN, sigue siendo un valor errneo, por lo que el objetivo
sigue siendo tratar de modificar estos valores. Este proceso utiliza una funcin de
energa para la imagen, ecuacin (7.5), de esta manera se quiere minimizar este valor
en cada paso del algoritmo. Es a esta minimizacin lo que se le llama Enfriamiento
Simulado o Simulated Annealing. Esta tcnica ha sido utilizada por Pajares y Cruz
(2004) para correspondencia en visin estereoscpica, si bien para segmentos de
borde, por lo que de ella se toma simplemente la idea y la propuesta del algoritmo
mostrado en la Figura 7.1, que a su vez se encuentra descrito en Duda y col. (2001).

Figura 7.1 - Esquema del algoritmo de enfriamiento simulado.

Los detalles del algoritmo mostrado en la figura 7.1 son los siguientes:
1) Como entrada recibe el mapa de disparidad previamente calculado.

2) Por cada pxel se genera un nodo, y ese nodo tendr un valor de estado i S
correspondiente al valor de la disparidad en ese momento asociada al pxel que le
corresponde.

3) Los valores i S deben estar acotados en el intervalo 1,1 por lo que antes de
aplicar el algoritmo, es necesario tratar la imagen. Para ello, se transforman los
valores de los nodos mediante la ecuacin 7.1, que proyecta el rango 0,dmax al
rango 1,1. Siendo dmax el valor mximo de disparidad, que se corresponde con
el valor mximo de los estados de los nodos de la imagen.

4) Para la evaluacin de los pesos wij se abre una ventana de vecindad MxN alrededor
del nodo a tratar. Pese a que la imagen se trata como una red neuronal donde
todos los nodos estn interconectados, nicamente influyen los nodos que
pertenecen a la ventana de vecindad m Ni , por lo que para el resto de nodos que
no pertenecen, se anula su peso.

La ecuacin (7.2), tiene en cuenta la diferencia entre los valores de los estados de
dos nodos ( i S y j S ), otorgando un valor mayor cuanto ms similares sean,
asignando 1 en caso de ser exactamente iguales, y -1 en caso contrario, es decir,
cuando uno tome el valor -1 y el otro 1, o viceversa.

5) La funcin de temperatura T debe ser una funcin decreciente (ecuacin 7.3), en


este caso depende del parmetro K que ser una constante y representa la
temperatura inicial. Esta constante puede o no suavizar ms la curvatura, a medida
que se aumenta K, disminuyen los valores y por lo tanto se enfra ms la red.
Adems, la temperatura disminuye con las iteraciones k

6) La funcin f (ecuacin 7.4) es la encargada de modificar el valor obtenido de dividir


el sumatorio de los pesos de sus vecinos entre la temperatura actual de la iteracin.
Esta funcin acota en el intervalo 1.313,1.313 y utiliza como base la tangente
hiperblica (tanh). Este valor viene determinado por la necesidad de que
aumente/disminuya el valor de la operacin de divisin anterior. Tras varias
pruebas y ensayos, la inversa de la tangente hiperblica de 1 es el valor que
mejores resultados ha, haciendo que los valores ms bajos disminuyan su valor
inicial, y que los valores ms altos aumenten, dejando fijos los valores para los
cuales se acot la imagen en el punto 2. De esta forma, los valores de 0, -1 y 1
mantienen su valor, modificndose nicamente los valores comprendidos entre
1,0 y 0,1 .

7) La funcin de energa (ecuacin 7.5) se emplea como criterio de parada del


algoritmo, que bajo el enfoque del enfriamiento simulado debe ser decreciente y
adems mantenerse por debajo de un cierto valor umbral U, que ha sido fijado a 2
en los experimentos. Para todos los nodos i de la red, se calcula la energa de la
ventana de vecindad, la cual se va acumulando para obtener la energa global de
la imagen. Pese a que la funcin deber disminuir, en algn momento puede
aumentar para salir de un mnimo global, pero en caso de que aumente en
sucesivas iteraciones, o que al disminuir lo haga por debajo de un rango , se
detiene el algoritmo. De esta forma se pretende ahorrar tiempo y coste
computacional.

8) La proporcin utilizada entre los vecinos y el propio nodo, indica en qu medida


los vecinos del nodo influyen en la decisin final. Este valor pertenece al intervalo
0,1 , y como lo que se quiere es suavizar, para ello se tiene que asemejar ms a
sus vecinos, por lo que dicho valor debe ser superior a 0.5, valor para el cual los
vecinos y el nodo tienen la misma influencia. El valor que mejores resultados ha
obtenido segn los experimentos, es 0.8, ya que tiene en cuenta en su mayora a
los vecinos, y tambin, aunque en menor medida, el propio valor del nodo.

9) Adems de utilizar la energa como criterio de parada, se utiliza una variable k. Esta
variable se utiliza para realizar un nmero mximo de iteraciones kmax, de esta
forma se controla que la evolucin de la red no sea excesiva.

10) Una vez se ha procesado la imagen, hay que devolver los valores i S pertenecientes
al intervalo 1,1 a su rango original de disparidades. Para ello, se transforman los
valores de los nodos mediante la ecuacin (7.6), que desacota del rango 1,1 al
rango 0,dmax . Siendo dmax el mismo valor mximo de disparidad
correspondiente al valor mximo de los estados de los nodos de la imagen inicial.

2.7.2 Propagacin.

Tras el estudio realizado este filtro se ha creado para ser utilizado junto a
la propuesta estudiada en Klaus y col. (2006) e implementada por Lankton (2010), por
lo que representa realmente un aporte a la investigacin mejorando los resultados
obtenidos con la tcnica de correspondencia basada en la segmentacin. Se ha
utilizado este algoritmo de correspondencia como base, porque obtiene buenos
resultados en un tiempo reducido, ya que lo que se busca es que esta tcnica pueda
ser aplicada en un sistema de tiempo real.

Se trata de un filtro que tiene en cuenta nicamente aquellos pxeles para


los cuales no se ha obtenido una buena disparidad mediante la correspondencia
basada en la segmentacin. A dichos pxeles se les aplica este filtrado, el cual se
encarga de propagar los valores de los vecinos para determinar la disparidad
correspondiente a los pxeles que mediante la correspondencia no se ha podido definir
su valor. Esto hace que el filtrado sea sencillo, rpido y eficiente, adems de poder ser
implementado en sistemas reales mejorando los tiempos de simulacin obtenidos.

Un estudio detallado del algoritmo, muestra que la imagen obtenida tras


aplicar la correspondencia local basada en la ventana de vecindad no difiere en gran
medida de la imagen que se considera que tiene la disparidad real. Se observa que en
promedio, por cada pxel se comete un error de 6.3 por lo que se trata de un error
relativamente reducido. Con el fin de determinar si se puede tratar la imagen para
obtener mejores resultados antes de aplicar los filtrados, se obtiene la mediana de las
variaciones que sufre cada valor de disparidad obtenido con respecto al valor real.
Para ello, debido a que mediante este algoritmo se asigna un valor desconocido NaN
a aquellos pxeles cuya disparidad no se puede hallar mediante esta correspondencia,
nicamente se tienen en cuenta aquellos valores para los cuales se obtiene un valor
de disparidad. De este conjunto de valores se calcula la mediana y se observa que en
las imgenes de prueba, en su mayora los errores cometidos son +1, lo que indica
que para la mayora de los pxeles se est cometiendo un exceso de disparidad.

En vista de los resultados obtenidos, este algoritmo utiliza como base la


imagen obtenida al aplicar la correspondencia local basada en la ventana de vecindad,
donde todava no se ha extrado el conjunto de planos de disparidad (paso 3, Figura
6.1).
Partiendo de dicha imagen, los valores para los cuales no se ha podido
definir un valor de disparidad aparecen con el valor infinito ( ). nicamente se van a
modificar los valores de dichos pxeles, al contrario que en los filtros anteriores donde
todos los son tratados por igual y pueden ver modificado su valor. Para determinar el
valor de disparidad, se abre una ventana de vecindad MxN alrededor del pxel cuyo
valor sea infinito, y para el conjunto de valores de vecindad que s tengan una
disparidad fija, se obtiene la mediana (ecuacin 7.7), la cual ser asignada al pxel de
estudio.

Para realizar el recorrido de la imagen, en un primer momento se realiz


de izquierda a derecha y de arriba hacia abajo (Direccin 1 de la Figura 7.3). El
problema de este recorrido es que la mayora de los valores de infinito vienen
provocados por la oclusin que aparece en las imgenes del par estereoscpico, por
lo que no son tenidas en cuenta. Al tratarse de oclusiones hay que considerar que un
valor errneo puede provocar un fallo irreversible en el sistema (por ejemplo, un robot
autnomo), y por lo tanto, si no se sabe determinar el valor exacto, conviene dar un
valor alto para impedir que dicha zona sea accesible. Por ello, en el algoritmo original
se asigna un valor de infinito, si bien lo que idealmente se desea es poder aproximar
un valor que se asemeje ms a la realidad. Por ello, no se realiza un nico recorrido
de la imagen en la direccin indicada, sino que se realiza un recorrido en 4 direcciones,
partiendo de cada una de las cuatro esquinas de la imagen (Figura 7.3).

Una vez se ha realizado la propagacin de los valores en las cuatro


direcciones se obtienen cuatro mapas de disparidad filtrados, realizando una nueva
pasada sobre la imagen que se ha utilizado como base y asignando el valor mximo
de los cuatro filtrados anteriores (ecuacin 7.8), al cual se le debe restar una unidad
de disparidad a todos los pxeles. Esta disminucin se debe al estudio previo del
algoritmo que revel que los valores que se obtienen mediante esta tcnica de
correlacin, aumentan su disparidad en dicha unidad con respecto a las imgenes de
las cuales se ha considerado que tienen la disparidad real.

Figura 7.3 - Direcciones del filtrado, siguiendo en cada caso la direccin de la flecha mayor hasta el
lmite de la imagen y continuando por la direccin de la flecha menor.

A continuacin se detallan los pasos del algoritmo propuesto:

1. Obtener la imagen generada al aplicar la correspondencia local basada en la


ventana de vecindad, donde todava no se ha extrado el conjunto de planos de
disparidad de la propuesta de Klaus y col. (2006) (paso 3, Figura 6.1).

2. Realizar un recorrido por cada una de las cuatro direcciones de la Figura 7.3
donde para cada valor de disparidad asignado como infinito se abre una ventana
de vecindad alrededor del pxel, y cada valor de la ventana distinto de infinito se
aade a un conjunto del cual se obtiene la mediana (ecuacin 7.7).

3. Una vez obtenidos los filtrados realizados desde las cuatro direcciones, para cada
valor de disparidad no definido en la imagen obtenida en el paso 1, se le asigna el
mximo de los valores obtenidos en el paso 2 al que se le resta 1 unidad de
disparidad (ecuacin 7.8).
Una de las principales ventajas de este filtrado es que puede ser
paralelizado, al tratarse de realizar cuatro filtrados para obtener el resultado final,
todos estos filtrados en las cuatro direcciones pueden realizarse a la vez, de esta
forma se reduce an ms el tiempo de ejecucin del proceso de la obtencin del
mapa de disparidad

También podría gustarte