Está en la página 1de 115

Visin Articial o

Domingo Mery

Departamento de Ingenier Informtica a a Universidad de Santiago de Chile Santiago de Chile 9 de enero de 2002

Departamento de Ingenier Informtica a a Universidad de Santiago de Chile Domingo Mery: Av. Ecuador 3659, Santiago de Chile eMail: dmery@ieee.org http://www.diinf.usach.cl/dmery

Prefacio
En este documento se pretende resumir el curso Visin Articial. Este curo so debe tomarse como una introduccin a la teor desarrollada en las dos o a ultimas dcadas por la comunidad de Computer Vision. Con esta teor es e a posible analizar en detalle la informacin que puede ser obtenida a partir de o un conjunto de vistas de una escena. El curso comienza con una breve introduccin al tema siguiendo con una o descripcin de la la Teor que mejor modela la formacin de las imgenes: o a o a La Geometr Proyectiva. A continuacin se aprendern los distintos modelos a o a existentes para establecer la funcin de transferencia 3D 2D en un Sistema o de Visin Articial y se analizarn los algoritmos ms conocidos para llevar o a a a cabo la calibracin del sistema. En el siguiente cap o tulo del curso se estudiar la Visin Estreo en el que se establecern las relaciones existentes entre a o e a dos, tres y cuatro vistas de una misma escena. Seguidamente, se mostrarn a los principales algoritmos para hacer una reconstruccin 3D de una escena a o partir de sus vistas. En el siguiente cap tulo, Matching y Tracking, se estudiar cmo se puede encontrar la correspondencia entre las distintas imgenes a o a de un objeto. Finalmente, se mostrarn algunas aplicaciones de la Visin a o Articial en distintas reas de Ciencias e Ingenier a a. Un agradecimiento muy sincero a mis alumnos y alumnas del curso de Visin o Articial dictado en el Magister de Ingenier Informtica de la Universidad a a de Santiago de Chile y en la carrera de Ingenier Elctrica de la Pontia e cia Universidad Catlica de Chile. En especial quiero agradecer (en orden o alfabtico) a Daniela Cern, Rolando Dnner, Sebastin Fingerhuth, Roberto e o u a Mir, Egor Montecinos y Felipe Ochoa, quienes me ayudaron much simo a corregir el manuscrito original. Santiago, Navidad 2001

iii

iv

Indice general
Prefacio Indice General 1. Introduccin o 1.1. Qu es la Visin Articial? . . . . . . . . . . . . . . . . . . . e o 1.2. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3. Historia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2. Geometr Proyectiva a
III

VII

1 1 1 5 8 9

2.1. Planos, puntos y l neas rectas . . . . . . . . . . . . . . . . . . 10 2.2. Transformaciones Proyectivas 2D . . . . . . . . . . . . . . . . 12 2.3. Categorizacin de las Transformaciones Proyectivas 2D . . . . 17 o 2.3.1. Transformacin Isomtrica (Eucl o e dea) . . . . . . . . . . 17 2.3.2. Transformacin de Similitud . . . . . . . . . . . . . . . 19 o 2.3.3. Transformacin Af . . . . . . . . . . . . . . . . . . . 19 o n 2.3.4. Transformacin Proyectiva General . . . . . . . . . . . 20 o 2.3.5. Resumen de Transformaciones Proyectivas 2D . . . . . 20 2.4. Transformaciones Proyectivas 3D . . . . . . . . . . . . . . . . 21 2.5. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 v

vi 3. Modelacin Geomtrica de un Sistema de Visin Articial o e o 33

3.1. Descripcin de un Sistema de Visin Articial . . . . . . . . . 34 o o 3.1.1. El Manipulador . . . . . . . . . . . . . . . . . . . . . . 34 3.1.2. Fuente de Energ . . . . . . . . . . . . . . . . . . . . . 34 a 3.1.3. Sensor de Imagen . . . . . . . . . . . . . . . . . . . . . 35 3.1.4. Conversor Anlogo-Digital . . . . . . . . . . . . . . . . 35 a 3.1.5. Computador . . . . . . . . . . . . . . . . . . . . . . . . 35 3.2. La Cmara Pinhole . . . . . . . . . . . . . . . . . . . . . . . . 35 a 3.3. Cmara CCD . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 a 3.4. Distorsin del lente . . . . . . . . . . . . . . . . . . . . . . . . 42 o 3.5. Modelacin de un manipulador . . . . . . . . . . . . . . . . . 44 o 3.6. Calibracin de un sistema de visin articial . . . . . . . . . . 46 o o 3.7. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 4. Visin Estreo o e 53

4.1. Anlisis Bifocal . . . . . . . . . . . . . . . . . . . . . . . . . . 53 a 4.1.1. Anlisis geomtrico de dos vistas . . . . . . . . . . . . 58 a e 4.1.2. Propiedades de la Matriz Fundamental . . . . . . . . . 61 4.1.3. Anlisis algebraico de dos vistas . . . . . . . . . . . . . 62 a 4.1.4. Restriccin bifocal prctica . . . . . . . . . . . . . . . . 65 o a 4.2. Anlisis Trifocal . . . . . . . . . . . . . . . . . . . . . . . . . . 66 a 4.2.1. Anlisis algebraico de la geometr trifocal . . . . . . . 67 a a 4.2.2. Deduccin alternativa de los tensores trifocales . . . . . 71 o 4.2.3. Interpretacin geomtrica de las trilinearidades . . . . 73 o e 4.2.4. Propiedades de las trilinearidades . . . . . . . . . . . . 75 4.2.5. Relacin entre la geometr bifocal y trifocal . . . . . . 76 o a 4.3. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

vii 5. Reconstruccin 3D o 79

5.1. Mtodo de reconstruccin lineal para dos vistas . . . . . . . . 80 e o 5.2. Reconstruccin 3D para dos o ms vistas . . . . . . . . . . . . 83 o a 6. Matching y tracking 85

6.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 o 6.2. Matching . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 6.2.1. Correspondencia entre puntos . . . . . . . . . . . . . . 86 6.2.2. Correspondencia entre l neas . . . . . . . . . . . . . . . 88 6.2.3. Correspondencia entre regiones . . . . . . . . . . . . . 89 6.2.4. Caracter sticas geomtricas . . . . . . . . . . . . . . . . 90 e 6.2.5. Caracter sticas de color . . . . . . . . . . . . . . . . . . 94 6.2.6. Criterios de correspondencia entre regiones . . . . . . . 99 6.3. Tracking . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 Indice de Figuras Bibliograa 104 107

viii

Cap tulo 1 Introduccin o


1.1. Qu es la Visin Articial? e o

La Visin Articial es una gran herramienta para establecer la relacin entre o o el mundo tridimensional y sus vistas bidimensionales tomadas de l. Por e medio de esta teor se puede hacer, por una parte, una reconstruccin del a o espacio tridimensional a partir de sus vistas y, por otra parte, llevar a cabo una simulacin de una proyeccin de una escena tridimensional en la posicin o o o deseada a un plano bidimensional.

1.2.

Ejemplos

En esta seccin se muestran algunos ejemplos en los que se puede apreciar el o campo de aplicaciones de la Visin Articial. o Fotogrametr a En la fotogrametr se persigue realizar mediciones del espacio 3D a a partir de fotograf tomadas de l. De esta manera es posible medir as e supercies, construcciones, objetos, etc. As mismo se puede llevar a cabo una topolog de un terreno. a Recticacin Mtrica o e 1

D.Mery: Visin Articial o

D isto rsi n de pe rspe ctiv a

C orre cci n d e pe rsp ectiva

Figura 1.1: Ejemplo de recticacin de perspectiva. o

D isto rsi n de len te

C orre cci n d e distorsin

Figura 1.2: Ejemplo de recticacin de distorsin de lente. o o

Mediante esta tcnica es posible hacer correcciones de perspectiva (ver e Figuras 1.1 y 2.4) y correcciones de distorsin de lente (ver Figura 1.2). o Reconstruccin 3D o A partir de las vistas, mediante la tcnica de triangulacin, es posible e o obtener un modelo 3D del objeto proyectado en las vistas. El principio de triangulacin es mostrado en la Figura 1.3: sabiendo que los puno tos A y B son proyecciones de un mismo punto tridimensional Q, es decir A y B son correspondientes, y conociendo los centros pticos de o la proyeccin C1 y C2 , se puede encontrar el punto Q a partir de la o interseccin entre las dos rectas C1 , A y C2 , B . o

1. Introduccin o

3
C1

C entro ptico 1

C2

C entro ptico 2

Q
O bjeto 3D

B A

V ista 2 V ista 1

Figura 1.3: Triangulacin: estimacin de Q a partir de A y B. o o

Matching y Tracking Por medio del Matching y Tracking es posible encontrar la correspondencia entre puntos de varias imgenes. Los puntos correspondientes a son aquellos que representan una proyeccin del mismo punto f o sico en el espacio 3D. En la Figura 1.4 se puede apreciar tres vistas de una taza tomadas por una cmara ja mediante la rotacin del eje central de la a o taza. Se puede observar que los puntos m1 , m2 y m3 en las imgenes 1, 2 a y 3 respectivamente, son correspondientes entre s porque son proyec ciones del mismo punto m de la taza. Mediante la teor de Visin a o Articial podemos responder las siguientes preguntas: i) Conociendo el punto m1 en la imagen 1, dnde est su punto correspondiente en las o a imgenes 2 y 3? ii) Conociendo los puntos m1 y m2 y sabiendo que son a correspondientes, dnde se encuentra el punto correspondiente en la o tercera imagen? Estas preguntas sern respondidas a lo largo de este a curso.

D.Mery: Visin Articial o

m1 m2 m3

Im agen 1

Im agen 2

Im agen 3

C m ara

O bjeto 3D

Figura 1.4: Correspondencia en tres puntos.

Computacin Grca o a Si se tiene un modelo de la formacin de la imagen f : 3D 2D, es o posible entonces simular grcamente las vistas bidimensionales que se a obtendr de un objeto tridimensional. Las aplicaciones de realidad an virtual emplean esta teor a. Estimacin de Movimiento o Mediante una cmara que toma imgenes de un objeto en movimiento a a es posible estimar el movimiento del objeto a partir de los puntos de correspondencia en la secuencia de imgenes. a

1. Introduccin o

1.3.

Historia

Una cmara produce imgenes planas de un mundo f a a sico percibido como tridimensional. Antes de la invencin de la fotograf exist un gran inters o a a e en representar este mundo 3D en imgenes planas 2D, como es el caso de la a pintura1 . Los griegos llegaron a conocer muchas de las propiedades geomtricas de la e proyeccin. Como es el caso de Thales de Mileto (640 AC - 548? AC) que con o sus conocimientos de la Geometr pudo predecir un eclipse solar y tambin a e pudo medir la altura de una pirmide a partir de su sombra proyectada. a Sin embargo, los griegos pensaban que la visin era activa, es decir que los o ojos emit part an culas al mundo 3D en vez de considerar a los ojos como dispositivos pasivos receptores de luz. Cabe mencionar dentro de los matemticos griegos a Euclides, quien en el a siglo IV AC ide la geometr plana. Para Euclides la geometr era conceo a a bida como un conjunto de l neas y puntos, independientes de un sistema de coordenadas. Posteriormente, los pintores italianos del Renacimiento fueron los primeros en entender la formacin de las imgenes y fueron los primeros en estudiar o a la Geometr para reproducir correctamente los efectos de la perspectiva en a las imgenes del mundo que observaban. La pintura anterior a esta poca a e era plana, es decir no mostraba la diferencia de profundidad en los objetos representados, como se muestra en la Figura 1.5. La perspectiva fue inventada por Filippo Brunelleschi (1377-1446) alrededor de 1413. Brunelleschi fue un gran arquitecto del Renacimiento Temprano. Fue tambin escultor y pintor. Sus principales obras se encuentran en Florencia, e como por ejemplo la Catedral Santa Mar de Fiore, cuya cpula es la ms a u a grande del mundo con ms de 50m de dimetro. a a Artistas como Piero della Francesca (1415-1492), Leonardo da Vinci (14521519) y Albrecht Drer (1471-1528), los dos primeros italianos y el tercero u alemn que viaja a Italia para llevar el Renacimiento a Alemania, realizan a serios estudios geomtricos que se usan hasta el d de hoy. A partir de esta e a poca se empieza a considerar el punto de fuga, en el que l e neas paralelas que se alejan del observador convergen en un punto. A manera de ejemplo,
1

Gran parte de esta seccin fue obtenida de la seccin 4.1 de [7]. o o

D.Mery: Visin Articial o

Figura 1.5: Pintura pre-renacentista y renacentista. Izquierda: Jess entrando u a Jerusaln. Derecha: Iglesia del Esp e ritu Santo, Bruneleschi.

en la Figura 1.5 se muestran dos pinturas: una pre-renacentista y otra renacentista2 . En la primera se puede observar la polidimensionalidad, en la cual los puntos de vista de los objetos representados no son unicos. Asimismo, el tamao de los objetos est relacionado ms con la importancia dentro de la n a a obra que con la ubicacin espacial. En la segunda pintura se aprecia clarao mente la profundidad producida por las l neas que convergen en un punto de fuga. De esta manera se le hace creer al observador que est frente a una a escena tridimensional. En el siglo XVI se desarrolla la teor de la perspectiva. Se introducen las a Mquinas de Perspectiva para ayudar a los pintores a reproducir exactaa mente la perspectiva sin tener que hacer clculos matemticos. Una de estas a a mquinas es representada en la Figura 1.6 por Albrecht Drer. En esta gua u ra, el ojo del dibujante es mantenido jo y un dispositivo es utilizado para materializar la interseccin de cada rayo visual con el plano de la imagen. o Las mquinas de la perspectiva pueden ser consideradas como el primer ina tento de una cmara. Ellas utilizan un plano R (plano de la imagen, ver rejilla a en Figura 1.6) donde se forma la imagen y un punto C (centro ptico, ver ojo o
La primera pintura fue tomada de Dutch, Steven: Perspective in Art Slides (http://weba.uwgb.edu/dutchs/190outln/perslide.htm). La segunda pintura fue tomada de Dauben, Joseph W.: The Art of Renaissance Science (http://www.crs4.it/Ars/arshtml/arstoc.html).
2

1. Introduccin o

Figura 1.6: Mquina de perspectiva por Albrecht Drer [6, 7]. a u

del dibujante en Figura 1.6) que no pertenece a R en el que se intersectan todos los rayos que forman la imagen. En el ao 1545 el astrnomo Germina Frisius publica un estudio donde pren o senta la cmara oscura. En la Figura 1.7 se representa un esquema de la a cmara oscura. Mediante un oricio muy pequeo C en una pared se deja a n entrar la luz externa que es proyectada en una pared interior de la cmara a oscura. El resultado es una imagen invertida del mundo exterior. La cmara a oscura sirvi a algunos pintores como a Vermeer (1632-1675) para representar o de la manera ms precisa posible la realidad. a A partir de la teor del plano cartesiano introducida por Descartes (1596a 1650) se empieza a concebir la geometr desde un punto de vista algebraico. a As las entidades geomtricas son descritas como coordenadas y entidades , e algebraicas. En el ao 1826 el qu n mico francs Niepce (1765-1833) llev a cabo la primera e o fotograf colocando una supercie fotosensible dentro de una cmara oscua, a ra para jar la imagen. Posteriormente, en 1838 el qu mico francs Daguerre e (1787-1851) hizo el primer proceso fotogrco prctico. Daguerre utiliz una a a o placa fotogrca que era revelada con vapor de mercurio y jada con trisulfaa to de sodio. En la actualidad se utilizan cmaras reex y CCD que emplean lentes para a incrementar la potencia de la luz y mejorar el enfoque de la imagen. Estas cmaras sern estudiadas posteriormente en el curso. a a

8
M

D.Mery: Visin Articial o

R f

Figura 1.7: Cmara oscura. a

1.4.

Ejercicios

Ejercicio 1.1 Simular una mquina de perspectiva utilizando una transa parencia. Colocar una transparencia entre el ojo de el/la observador/a y una escena tridimensional que contenga objetos del mismo tamao dispuestos en n distintas profundidades. Dibujar lo que se ve en la transparencia y observar el punto de fuga as como la reduccin del tamao de los objetos a medida o n que se van alejando de la transparencia.

Cap tulo 2 Geometr Proyectiva a


En este cap tulo se introducen las principales ideas geomtricas y la notacin e o que se utilizar en el resto del curso. Se empezar con la geometr plana a a a de dos dimensiones que es ms facil de visualizar y comprender para luego a pasar a la geometr del espacio tridimensional1 . a Se estudiarn las transformaciones proyectivas de un plano. Mediante estas a transformaciones es posible modelar la distorsin geomtrica que le ocurre o e a un plano que es visto por una cmara perspectiva. Con estas transformaa ciones algunas propiedades se conservan como la colinearidad (l neas rectas son vistas como l neas rectas) mientras que otras propiedades no (las l neas paralelas por lo general no son vistas como l neas paralelas). En un nivel elemental la geometr es el estudio de puntos y l a neas, y sus relaciones. A lo largo de la historia la geometr ha sido concebida inicialmente a como una disciplina netamente geomtrica, en la que las l e neas y puntos se estudian sin considerar un sistema de coordenadas. Posteriormente, mediante la introduccin de un sistema de coordenadas cartesiano se logra algeo braizar a la geometr De esta manera, las entidades geomtricas pueden ser a. e descritas como coordenadas y entidades algebraicas. Por medio de las relaciones algebraicas se obtiene una representacin matemtica apropiada para o a implementar algoritmos y programar mtodos computacionales. A lo largo e del curso se utilizar tanto la concepcin geomtrica como la algebraica. En a o e algunos casos la geometr logra visualizar mejor un problema dado, en otros a
La teor de este cap a tulo puede ser encontrada en los cap tulos 1 y 2 de [16], en el cap tulo 2 de [7] as como en el cap tulo 2 de [6].
1

10 el lgebra puede representarlo y resolverlo ms fcilmente. a a a

D.Mery: Visin Articial o

2.1.

Planos, puntos y l neas rectas

Un punto en un plano se representa como un par de coordenadas (x, y) en R2 . Comnmente, R2 se identica con un plano. Se puede considerar entonces u R2 como un espacio vectorial en el que (x, y) es un vector. Se asocia as un , punto a un vector. En este curso los vectores sern representados en letra a negrita y sus elementos sern dispuestos de manera vertical: m = (x, y)T . a Una l nea recta en el plano (x, y) est representada por la ecuacin: a o ax + by + c = 0. (2.1)

De esta manera, una l nea recta puede ser representada por un vector l = T (a, b, c) . La correspondencia entre l neas rectas y vectores no es uno a uno, ya que (a, b, c)T y (ka, kb, kc)T representan exactamente la misma l nea recta para k = 0, sin embargo son vectores distintos. Estos vectores son considerados como equivalentes y se denen como vectores homogneos. e Un punto (x, y) est en la recta l = (a, b, c)T si y slo si la ecuacin (2.1) es a o o verdadera. Esta ecuacin puede escribirse utilizando el producto punto entre o los vectores l = [a b c]T y m = [x y 1]T como: l m = lT m = [a b c]T [x y 1] = ax + by + c = 0. (2.2)

As el punto (x, y) es representado por un vector (x, y, 1)T . Sin embar, go, los vectores (kx, ky, k), para k = 0, pueden considerarse tambin coe mo representaciones del mismo punto (x, y) ya que satisfacen la ecuacin o T [a b c] [kx ky k] = k(ax + by + c) = 0. Se dice entonces, que los puntos en un plano bidimensional pueden ser representados por vectores homogneos e de tres dimensiones cuyos dos primeros elementos son las coordenadas del punto en el plano y el tercer elemento es 1. En trminos generales, si se tiene un vector homogneo de tres dimensiones e e dado por (x1 , x2 , x3 )T que representa un punto en un plano, las coordenadas de este punto en el plano estn denidas como (x, y) = (x1 /x3 , x2 /x3 ). a Ejemplo 2.1 Interseccin de dos lneas rectas: o

2. Geometr Proyectiva a

11

Dadas dos rectas l = (a, b, c)T y l = (a , b , c )T se desea encontrar el punto de interseccin de ambas rectas. o Del lgebra vectorial se sabe que el producto cruz de dos vectores produce un a vector que es perpendicular a ellos. Tambin se sabe que el producto punto e entre dos vectores perpendiculares es igual a cero. Por lo tanto se puede armar que l (l l ) = l (l l ) = 0. Si se dene el punto m como l l obtenemos la representacin homognea que satisface las ecuaciones lT m = 0 o e T y l m = 0, lo que quiere decir que el punto m es la interseccin de las rectas o ya que pertenece a ellas: m=ll (2.3) Ejemplo 2.2 Lnea recta que pasa por dos puntos: Dados dos puntos m = (x, y, 1)T y m = (x , y , 1)T se desea encontrar la l nea recta que pasa por ambos puntos. Mediante el mismo razonamiento del ejemplo anterior se puede armar que la recta est denida por: a l=mm (2.4) ya que lT m = 0 y lT m = 0, lo cual quiere decir que tanto m como m pertenecen a la misma recta l. Ejemplo 2.3 Interseccin de dos rectas paralelas: o Dadas dos rectas paralelas l = (a, b, c)T y l = (a, b, c )T se desea encontrar el punto de interseccin. o Segn (2.3) la representacin homognea del punto de interseccin est dada u o e o a por m = l l = (c c)[b a 0]T . La representacin inhomognea de o e este punto presenta una singularidad debido a la divisin por cero. El punto o obtenido de la divisin por cero puede ser interpretado como un punto en el o innito. Los puntos que tienen una representacin homognea de este tipo, o e T m = [x1 x2 x3 ] con x3 = 0, son conocidos como puntos ideales. Todos los puntos ideales pertenecen a la l nea en el innito l = [0 0 1]T , ya que [x1 x2 0]T [0 0 1] = 0. De esta manera una recta l = (a, b, c)T intersecta a l en m = l l = [b a 0]T . Una l nea l paralela a l intersecta a l en el mismo punto. Es interesante observar que en la Geometr Proyectiva dos a

12
x3 y (x , y ) x (x 1 , x 2 , x 3 )
lp

D.Mery: Visin Articial o

f= 1

x2
1

x3 x2

x1

Figura 2.1: Proyeccin (x1 , x2 , x3 ) (x, y). o

l neas rectas paralelas se encuentran en un punto (ideal), mientras que en la Geometr Eucl a dea la interseccin de dos rectas paralelas no est denida. o a Como ya se ha visto anteriormente, un punto (x, y) en un plano tiene una representacin homognea en R3 dada por m = [x1 x2 x3 ]T con x = x1 /x3 o e y y = x2 /x3 . El plano proyectivo P 2 en el que estn representados todos a los puntos inhomogneos x = x1 /x3 y y = x2 /x3 puede ser interpretado e utilizando la representacin de la Figura 2.1. En este esquema la proyeccin o o de (x1 , x2 , x3 ) en un plano (x, y) paralelo al plano (x1 , x2 , 0) ubicado en x3 = 1, est dada por el punto (x, y) el cual puede ser calculado aplicando el a Teorema de Thales como x : x1 = y : x2 = 1 : x3 . Se obtiene entonces x = x1 /x3 y y = x2 /x3 . Se puede observar que cualquier punto 3D sobre la l nea de proyeccin (ver lp en Figura 2.1) produce el mismo punto proyectado o en el plano (x, y). Esto es lo mismo que decir que la proyeccin de k(x1 , x2 , x3 ) o es igual a la proyeccin de (x1 , x2 , x3 ), para k = 0, y que esta proyeccin o o est dada por x = x1 /x3 y y = x2 /x3 . En otras palabras, la clase de vectores a homogneos k(x1 , x2 , x3 ) representan el mismo punto en P 2 . e

2.2.

Transformaciones Proyectivas 2D

La geometr proyectiva 2D es el estudio de las propiedades del plano proyeca tivo P 2 que son invariantes bajo un grupo de transformaciones conocidas como proyectividades.

2. Geometr Proyectiva a

13

Una proyectividad es una transformacin invertible dada por h : P 2 P 2 o de manera tal que una l nea recta es transformada como una l nea recta. La proyectividad est denida como: a h(m) = m = Hm, (2.5)

donde H es una matriz 3 3 no singular. Se dice entonces que m es la transformacin lineal H de m. Esta transformacin es biun o o voca entre dos planos 2D, cuyos puntos son representados homogneamente por m y m . e Es decir, un punto en un plano 2D tiene una unica correspondencia en un punto de otro plano 2D, y cada punto en un plano tiene un solo punto correspondiente en el otro plano. La condicin invariante (una recta es transformada en una recta) puede como probarse de la siguiente manera: si m1 , m2 y m3 estn en la misma l a nea recta T l, entonces l mi = 0 para i = 1, 2, 3. Esta ecuacin puede ser escrita como o lT H1 Hmi = 0, ya que H1 H = I. Como los tres puntos transformados por h quedan denidos como mi = Hmi , se puede escribir entonces l T mi = 0 con l T = lT H1 . Esto quiere decir que los puntos mi pertenecen a una recta l. La ecuacin (2.5) puede escribirse de manera expl o cita como

x1 h11 h12 h13 x1 x2 = h21 h22 h23 x2 . x3 h31 h32 h33 x3

(2.6)

Se observa que los resultados en la transformacin de coordenadas no son o afectados si se cambia H por kH, para k = 0, lo cual quiere decir que H es una matriz homognea. e Ejemplo 2.4 Calcular la matriz proyectiva entre los planos paralelos mostrados en la Figura 2.2: Utilizando el Teorema de Thales, se tienen las siguientes relaciones: x x = f2 f1 ; y y = f2 f1

14
X f2

D.Mery: Visin Articial o

f1

x y y'

x'

Figura 2.2: Proyeccin en dos planos paralelos. o

Estas ecuaciones se pueden escribir usando la forma matricial m = Hm, con m = [x y 1]T ,m = [x y 1]T y f2 /f1 0 0 f2 /f1 0 . H= 0 0 0 1 Para el caso de dos planos no paralelos como se muestra en la Figura 2.3 se pueden establecer dos caracter sticas de la transformacin proyectiva: i) o hay una correspondencia biun voca entre los puntos pertenecientes a ambos planos y ii) una l nea recta en un plano corresponde a una l nea recta en el otro plano. De esta manera se puede armar que la relacin proyectiva entre o ambos planos esta dada por la ecuacin general (2.6). El prximo ejemplo o o ilustra una aplicacin de esta transformacin. o o Ejemplo 2.5 Recticacin de distorsin proyectiva: o o En este ejemplo se busca la matriz H que logre transformar una imagen que presente una distorsin proyectiva, en una imagen libre de distorsin. o o La operacin de recticacin de distorsin se muestra en la Figura 2.3. Los o o o datos de entrada en este problema son las coordenadas de n puntos (xi , yi ), i = 1, ...n, en la imagen original y las coordenadas deseadas de estos puntos (xi , yi ) en la imagen recticada. Por lo general se escogen puntos (xi , yi ) que

2. Geometr Proyectiva a

15
y x

y' x'

R2 C R1

R2 R1 C
[v ista sup erio r]

Figura 2.3: Proyeccin en dos planos no paralelos. o

pertenezcan a un rectngulo. A partir de (2.6) se obtiene para cada punto a (x , y ) y su correspndiente (x, y) las ecuaciones: x = x1 h11 x + h12 y + h13 = x3 h31 x + h32 y + h33 x2 h21 x + h22 y + h23 = x3 h31 x + h32 y + h33

y =

En el problema interesa encontrar los 9 elementos de H. Sin embargo, como la matriz H es homognea, kH tambin ser solucin al problema. De esta e e a o manera es posible dividir cada elemento de H por h33 para obtener una matriz H con slo 8 elementos desconocidos, ya que el ultimo elemento ser o a igual a uno. Entonces, con h33 = 1 las dos ultimas ecuaciones pueden ser escritas de manera matricial como:

16

D.Mery: Visin Articial o

Figura 2.4: Recticacin de distorsin proyectiva. o o

x y 1 0 0 0 x x x y 0 0 0 x y 1 y x y y

h11 h12 h13 h21 h22 h23 h31 h32

x y

(2.7)

o bien Ah = b. Se observa que para cada correspondencia de puntos se obtienen dos ecuaciones. Suponiendo n pares de puntos correspondientes se puede establecer el siguiente sistema de 2n ecuaciones y 8 incgnitas. o

A1 A2 : An

h =

b1 b2 : bn

donde Ai y bi son la matriz A y el vector b obtenidas en (2.7) para el punto i. El sistema de ecuaciones anterior puede ser expresado como Ah = b. Para

2. Geometr Proyectiva a

17

n = 4 existe una solucin directa dada por h = A1 b. Si n > 4 sin embargo o el sistema queda sobredeterminado. En este caso se utiliza el mtodo de los e m nimos cuadrados en el que se encuentra un vector h tal que minimice Ah b . La solucin entonces estar dada por h = [AT A]1 AT b. o a Cabe sealar que el mtodo aqu expuesto funciona slo si h33 = 0. Para n e o el caso en que h33 = 0 se recomienda un mtodo alternativo en el que la e = 1 donde h = [h11 ... h33 ]T . Para restriccin para H no es h33 = 1 sino h o mayores detalles ver [16]. En la Figura 2.4 se puede apreciar un ejemplo prctico en el que se rectica a la distorsin proyectiva presente en la fotograf de la fachada de una iglesia. o a

2.3.

Categorizacin de las Transformaciones o Proyectivas 2D

A continuacin se presentan 4 categor existentes en las transformaciones o as 2 2 proyectivas R R .

2.3.1.

Transformacin Isomtrica (Eucl o e dea)

En la transformacin isomtrica se conserva la distancia Eucl o e dea, es decir la distancia entre dos puntos es igual a la distancia entre los puntos transformados. La transformacin proyectiva isomtrica es ilustrada en la Figura o e 2.5 y corresponde a la transformacin de coordenadas (x , y ) (x, y). La o transformacin (x , y ) (x, y) es (ver Ejercicio 2.10): o

x cos() sin() tx x y = sin() cos() ty y 1 0 0 1 1

(2.8)

donde es el ngulo de la rotacin entre los ejes y (tx , ty ) es el desplazamiento a o del origen. Esta ecuacin puede ser escrita como: o x y = cos() sin() sin() cos() x y + tx ty =R x y +t (2.9)

18

D.Mery: Visin Articial o

y y' ty x'

tx x
Figura 2.5: Transformacin 2D isomtrica (Eucl o e dea).

o bien

x y = 1

R t 0T 1

x y 1

(2.10)

con 0T = [0 0]. La transformacin inversa (x, y) (x , y ) se obtiene de (2.9): o x y = [R ]1 x y t . (2.11)

Como la matriz R es ortonormal, es decir que R [R ]T = I22 se sabe entonces que la inversa de R es su transpuesta. Deniendo R = [R ]T = [R ]1 y t = Rt se obtiene

x y = 1

R t 0T 1

x y . 1

(2.12)

Otra propiedad de las matrices R y R se obtiene observando que ambas son funciones del ngulo de rotacin . Si se dene R = R() es fcil comprobar a o a que R = R(). (2.13)

2. Geometr Proyectiva a

19

Se puede observar que la matriz 3 3 de la transformacin isomtrica (2.12) o e tiene la siguiente forma R t HE = . (2.14) 0T 1 Las invariantes de esta transformada, es decir las propiedades que se mantienen despus de aplicar la transformacin isomtrica son: i) longitud entre puntos, e o e ii) ngulo entre dos rectas y iii) rea. a a

2.3.2.

Transformacin de Similitud o

En la transformacin de similitud se conserva la forma de los objetos. Sin emo bargo, en este caso la distancia entre dos puntos ya no es igual a la distancia entre los puntos transformados. La transformacin proyectiva de similitud, o denida por medio de la matriz HS , es:

x y = 1

sR t 0T 1
HS

x y . 1

(2.15)

Las variables t, 0T y R estn denidas en la Seccin 2.3.1. A travs del a o e parmetro s se obtiene la ampliacin (s > 1) o reduccin de los objetos(0 < a o o s < 1). Las invariantes de esta transformada son: i) ngulos entre rectas, ii) l a neas paralelas, iii) razn entre dos distancias y iv) razn entre dos reas. o o a

2.3.3.

Transformacin Af o n

En la transformacin af se distorsiona la forma de los objetos introduciendo o n una matriz 2 2 A no ortonormal en lugar de R. La transformacin af o n, denida por medio de la matriz HA , se expresa como:

x y = 1

A t 0T 1
HA

x y 1

(2.16)

Los vectores t y 0T estn denidos en la Seccin 2.3.1. Las invariantes de a o esta transformada son: i) l neas paralelas y ii) razn entre dos reas. o a

20

D.Mery: Visin Articial o

2.3.4.

Transformacin Proyectiva General o

La transformacin proyectiva es la generalizacin de las transformaciones lino o 2 2 eales R R en la que las l neas paralelas no son transformadas necesariamente como tales. La transformacin proyectiva ya se expres en coordenadas o o homogneas en (2.5). En este caso la matriz 3 3 de la transformacin se e o denota como HP . La invariante de esta transformada es la razn de cruz. o

2.3.5.

Resumen de Transformaciones Proyectivas 2D

Un resumen de las transformaciones proyectivas 2D explicadas en esta seccin se muestra en la Tabla 2.1. Es necesario sealar que las invariantes de o n un grupo inferior son heredadas por su grupo superior mas no en sentido inverso, es decir la conservacin de las l o neas paralelas es invariante de las tres primeras transformaciones, y la longitud entre dos puntos slo es invariante o

Transformacin o Eucl dea

Matriz H R t 0T 1 sR t 0T 1

Invariantes longitud entre puntos.

Similitud

ngulos entre rectas, razn a o entre dos distancias. l neas paralelas, razn entre o dos reas. a

Af n

A t 0T 1

General

h11 h12 h13 o h21 h22 h23 razn de cruz [16]. h31 h32 h33

Tabla 2.1: Resumen de Transformaciones Proyectivas 2D.

2. Geometr Proyectiva a

21

o rigin al

E ucldea

similitud

afn

ge neral

Figura 2.6: Transformaciones proyectivas 2D.

de la transformacin Ecucl o dea. Adicionalmente, en la Figura 2.6 se muestran las distintas transformaciones de un cuadrado que se pueden realizar con las cuatro transformaciones explicadas.

2.4.

Transformaciones Proyectivas 3D

Un punto M que se encuentra en el espacio 3D se representa en coordenadas homogneas como un vector de cuatro elementos. Si el punto 3D e tiene coordenadas (inhomogneas) (X, Y, Z)T se expresar entonces como e a T M = [X1 X2 X3 X4 ] donde X = X1 /X4 , Y = X2 /X4 , y Z = X3 /X4 . Una forma sencilla de pasar de coordenadas inhomogneas a homogneas es e e T agregando un uno al nal del vector, es decir M = [X Y Z 1] . Un plano se dene como: p1 X + p2 Y + p3 Z + p4 = 0. (2.17)

Esta ecuacin tambin puede ser escrita como pT M = 0 con p = [p1 p2 p3 p4 ]T o e y M = [X Y Z 1]T . Se observa entonces que al igual que la recta en R2 un plano tiene una representacin homognea, ya que kp, para k = 0,representa o e el mismo plano denido en (2.17). Una transformacin proyectiva se dene como: o M = HM (2.18)

donde H es una matriz 4 4 invertible. Al igual que en el caso de la transformacin proyectiva bidimensional en la que las rectas son transformadas como o

22

D.Mery: Visin Articial o

Transformacin o Eucl dea

Matriz H R t 0T 1 sR t 0T 1

Invariantes longitud entre puntos, volumen.

Similitud

ngulos entre planos, forma. a

Af n

a11 a12 a13 tx a21 a22 a23 ty a31 a32 a33 tz 0 0 0 1 h11 h21 h31 h41 h12 h22 h32 h42 h13 h23 h33 h43 h14 h24 h34 h44

l neas paralelas.

General

interseccin y tangentes de o supercies en contacto.

Tabla 2.2: Resumen de Transformaciones Proyectivas 3D. rectas, en el caso de la transformacin proyectiva 3D un plano transformado o con (2.18) sigue siendo una plano. La representacin homognea del plano o e T T 1 transformado esta dada por p = p H . En esta seccin las transformaciones proyectivas 3D no sern discutidas tan o a

o rigin al

E ucldea

similitud

afn

ge neral

Figura 2.7: Transformaciones proyectivas 3D.

2. Geometr Proyectiva a

23

en detalle como las transformaciones proyectivas 2D. Un resumen de ellas se puede encontrar en la Tabla 2.2. La Figura 2.7 presenta las distintas transformaciones aplicadas a un cubo. A lo largo de este documento slo se utilizar la transformacin 3D Eucl o a o dea, ya que ella representa los cambios de coordenadas que pueden sufrir los objetos r gidos al pasar de un sistema de coordenadas a otro. Deformaciones de objetos 3D no sern contempladas en este documento. a Dado un sistema de coordenadas 3D (X, Y, Z) que ha sufrido una rotacin o y una traslacin como se aprecia en la Figura 2.8, el espacio 3D en el nuevo o sistema de coordenadas (X , Y , Z ) queda denido por una transformacin o 3D Eucl dea denida por:

X X Y = R Y + t Z Z

(2.19)

Z Z'

Z
Y
t

Y
Y'

X X'

Figura 2.8: Transformacin 3D Eucl o dea.

24

D.Mery: Visin Articial o

Y Y' X' X'

X Z' Z'

Y'

Z'

.
Z

Z
X Y'

.
Y

Y
Z X'

.
X

X
Y

Figura 2.9: Rotacin de los ejes Z, Y , y X. o

o en coordenadas homogneas: e

X Y Z 1

R t 0T 1

X Y Z 1

(2.20)

donde R es una matriz 3 3 ortonormal y t es un vector 3 1 que denen la rotacin y traslacin del sistema de coordenadas respectivamente. o o Al igual que en la transformacin Eucl o dea 2D explicada en la Seccin 2.3.1, o se puede expresar (X, Y, Z) en funcin de (X , Y , Z ) de la siguiente manera: o

X Y Z 1

R t 0T 1

X Y Z 1

(2.21)

donde R = RT y t = R t. A continuacin se denir la matriz ortonormal R presente en la transforo a 3 macin Eucl o dea R R3 . Una rotacin de los ejes de coordenadas puede o ser descompuesto en rotaciones de cada uno de los ejes tal como se muestra en la Figura 2.9. Las transformaciones de cada una de estas rotaciones estn a dadas por RZ , RY y RX en la Tabla 2.3. A manera de ejemplo si el unico movimiento existente es la rotacin del eje X, la ecuacin que transforma las o o coordenadas ser a:

1 0 0 X X cos(X ) sin(X ) Y . Y = 0 Z 0 sin(X ) cos(X ) Z

2. Geometr Proyectiva a

25 Matriz de rotacin o cos(Z ) sin(Z ) 0 RZ = sin(Z ) cos(Z ) 0 0 0 1 cos(Y ) 0 sin(Y ) 0 1 0 RY = sin(Y ) 0 cos(Y ) 1 0 0 RX = 0 cos(X ) sin(X ) 0 sin(X ) cos(X )

Rotacin o Eje Z

Eje Y

Eje X

Tabla 2.3: Matriz de rotacin de los ejes Z, Y y X. o La rotacin total se puede denir entonces como primero una rotacin del eje o o Z, luego del eje Y y luego del eje X, eso se puede expresar matemticamente a como una multiplicacin de las tres matrices de rotacin en el siguiente orden: o o R11 R12 R13 R(X , Y , Z ) = RX (X )RY (Y )RZ (Z ) = R21 R22 R23 , R31 R32 R33 donde los elementos Rij pueden ser expresados como: R11 R12 R13 R21 R22 R23 R31 R32 R33 = = = = = = = = = cos(Y ) cos(Z ) cos(Y ) sin(Z ) sin(Y ) sin(X ) sin(Y ) cos(Z ) cos(X ) sin(Z ) sin(X ) sin(Y ) sin(Z ) + cos(X ) cos(Z ) . sin(X ) cos(Y ) cos(X ) sin(Y ) cos(Z ) + sin(X ) sin(Z ) cos(X ) sin(Y ) sin(Z ) sin(X ) cos(Z ) cos(X ) cos(Y )

(2.22)

Es necesario resaltar que la multiplicacin de matrices no es conmutativa, esto o quiere decir que R = RX (X )RY (Y )RZ (Z ) = RZ (Z )RY (Y )RX (X ), sin embargo es posible obtener el mismo resultado para R cambiando el orden de las matrices siempre y cuando se consideren otros ngulos de rotacin para a o cada eje, es decir: R = RX (X )RY (Y )RZ (Z ) = RZ (Z )RY (Y )RX (X ).

26

D.Mery: Visin Articial o

A manera de ejemplo se puede comprobar que si primero hay una rotacin o 0 0 Z = 90 y luego una rotacin Y = 90 el resultado es el mismo que con o una primera rotacin de X = 900 y luego una de Z = 900 (ver ejercicio o 2.7). La matriz R = RT denida en (2.21) para calcular la transformacin del o sistema de coordenadas (X , Y , Z ) al sistema de coordenadas (X, Y, Z) ser a para R = RX (X )RY (Y )RZ (Z ): R = RT = RT (Z )RT (Y )RT (X ) X Y Z = RZ (Z )RY (Y )RX (X ) (2.23)

En la utlima igualdad se utiliz la propiedad (2.13). o

2.5.

Ejercicios
x + 2y = 8 x 2y = 0

Ejercicio 2.1 Resolver el sistema de ecuaciones

usando (2.3). Solucin: l = (1, 2, 8)T , l = (1, 2, 0)T , m = l l = (16, 8, 4)T . Esto o implica que x = 16/ 4 = 4, y = 8/ 4 = 2. Ejercicio 2.2 En un sistema de coordenadas (x, y) se denen los vrtices de e un cuadrado (1, 1), (1, 1), (1, 1) y (1, 1). Se desea conocer las coordenadas de etos vrtices en un nuevos sistema de coordenadas (x , y ) como el e mostrado en la Figura 2.5 en donde = 300 , tx = 1 y ty = 2 Solucin: Utilizando la transformacin (2.12) se obtiene que los puntos o o en el nuevo sistema de coordenadas son (2,2321; 0,1340), (0,5; 0,8660), (1,5; 2,5981) y (3,2321; 1,5981) respectivamente. Ejercicio 2.3 Transformar las coordenadas de los vrtices de un cuadrado e (1, 1), (1, 1), (1, 1) y (1, 1) a un nuevo sistema de coordenadas en el que ha ocurrido una rotacin de 300 , un desplazamiento en (1, 2) y un cambio de o escala 1 : 2.

2. Geometr Proyectiva a

27

Solucin: Se tiene = 300 , tx = 1, ty = 2 y s = 0,5. Utilizando la transforo macin (2.15) se obtiene que los puntos en el nuevo sistema de coordenadas o estn dados por (2,0490; 0,5490), (1,1830; 1,0490), (1,6830; 1,9151) a y (2,5490; 1,4151) respectivamente. Ejercicio 2.4 Escribir un programa que implemente la transformada proyectiva H entre una imagen original I una y recticada I. Solucin: Los datos de entrada al programa son H y la imagen original I o cuyos elementos I (x , y ) son los valores de gris en los pixeles denotados por (x , y ) para x = 1, ..., N y y = 1, ..., M . Se desea encontrar entonces la imagen recticada I donde I(x, y) son los valores de gris en los pixeles (x, y) para x = 1, ..., N y y = 1, ..., M . La idea de este programa es que para cada pixel (x, y) en la imagen recticada se busque su pixel correspondiente (x , y ) en la imagen original utilizando la transformacin H. Seguramente el valor o de gris en (x , y ) tendr que ser interpolado de sus cuatro vecinos enteros, ya a que al ser I una imagen digitalizda I (x , y ) est denido slo para valores a o enteros de (x , y ). El algoritmo se presenta a continuacin: o Algoritmo: 1. Para x = 1, ..., N y para y = 1, ..., M : 2. Denir m = [x y 1]T . 3. Evaluar m = Hm. 4. Evaluar x = m1 /m3 y y = m2 /m3 . 5. Denir x = x(x ), y = x(y ),x = x x y y = y y . 6. Evaluar I(x, y) = [I ( +1, y )I (, y )]x +[I (, y +1)I (, y )]y + x x x x [I ( + 1, y + 1) + I (, y ) I ( + 1, y ) I (, y + 1)]x y + I (, y ) x x x x x En este algoritmo se ha utilizado la funcin x que extrae la parte entera o de un nmero real. La interpolacin tiene lugar en el punto 6 del algoritmo, u o para mayores detalles de esta interpolacin bilineal consultar [4]. o Ejercicio 2.5 Encontrar la representacin homognea de un plano p que o e contenga los puntos M1 , M2 y M3 .

28

D.Mery: Visin Articial o

Solucin: Utilizando la representacin homognea de los 3 puntos Mi , para o o e i = 1, 2, 3 se puede escribir la ecuacin del plano para cada punto MT p = 0, o i o bien:

MT 1 MT p = 0 2 MT 3 La solucin a este sistema de ecuaciones est dada por o a p = [D234 D134 D124 D123 ]T donde Djkl es el determinante de las las j, k y l de la matriz [M1 M2 M3 ]. Ejercicio 2.6 Encontrar la interseccin de tres planos representados en veco tores homogneos como p1 , p2 y p3 . e Solucin: La interseccin de tres planos es un punto. Utilizando la repreo o sentacin homognea de este punto M, y sabiendo que este punto pertenece o e a los tres planos, se puede escribir entonces MT pi = 0, o bien:

pT 1 T p2 M = 0 pT 3 Al igual que el ejemplo anterior, la solucin a este sistema de ecuaciones o est dada por M = (D234 , D134 , D124 , D123 )T donde Djkl es el determia nante de las las j, k y l de la matriz [p1 p2 p3 ]. Ejercicio 2.7 Encontrar la matriz de rotacin R para las siguientes rotao ciones de ejes i) primero Z = 900 y luego Y = 900 . ii) primero X = 900 y luego Z = 900 . Solucin: Para el caso i) la matriz de rotacin queda R = RX (X = o o 0 0 0 0 )RY (Y = 90 )RZ (Z = 90 ). Para el caso ii) la matriz de rotacin o queda R = RZ (Z = 900 )RY (Y = 00 )RX (X = 900 ). Para ambos casos el resultado es: 0 0 1 0 0 . R = 1 0 1 0

2. Geometr Proyectiva a

29

Ejercicio 2.8 En la Figura 2.10, encontrar la transformacin Eucl o dea del sistema de coordenadas del objeto (X4 , Y4 , Z4 ) al sistema de coordenadas de referencia (X1 , Y1 , Z1 ).

Z1 Y1
Z2


Y2 X2 Z4

X1

Z3

Y3 X4 X3

Y4

Figura 2.10: Figura del Ejercicio 2.8: Transformacin (X4 , Y4 , Z4 ) o (X1 , Y1 , Z1 ).

y'
(x'1 ,y'1 )

y
(x 1 ,y 1 ) (x 4 ,y 4 )

x'

(x'4 ,y'4 )

(x'2 ,y'2 )

(x'3 ,y'3 )

(x 2 ,y 2 )

(x 3 ,y 3 )

Figura 2.11: Distorsin de perspectiva (ver Ejercicio 2.9). o

30

D.Mery: Visin Articial o

Ejercicio 2.9 Encontrar la transformacin proyectiva 2D 2D, denida o por la matriz 3 3 H que realiza la correccin de distorsin de perspectiva o o mostrada en la Figura 3.10 suponiendo que (x1 , y1 ) = (1, 1); (x2 , y2 ) = (4, 1); (x3 , y3 ) = (3, 4); (x4 , y4 ) = (2, 4); (x1 , y1 ) = (1, 1); (x2 , y2 ) = (4, 1); (x3 , y3 ) = (4, 4); (x4 , y4 ) = (1, 4). Para los clculos suponer h33 =1. a Solucin: A partir de (2.7) se obtienen dos ecuaciones por cada par de puntos o correspondientes. Esto quiere decir que para los cuatro puntos correspondientes el sistema de ecuaciones quedar a:

1 0 4 0 4 0 1 0

1 0 1 0 4 0 4 0

1 0 1 0 1 0 1 0

0 1 0 4 0 4 0 1

0 1 0 1 0 4 0 4

0 1 1 h11 1 1 1 h12 0 16 4 h13 1 4 1 h21 0 12 12 h22 1 16 16 h23 0 2 8 h31 1 4 16 h32

1 1 4 1 3 4 2 4

o bien Ah = b. Los elementos h11 , ..., h23 se encuentran entonces a partir de h = [h11 ... h23 ]T = [A]1 b = (3, 5, 5, 0, 11, 8, 0, 2)T . Esto quiere decir que la matriz H quedar a:

3 5 5 H = 0 11 8 . 0 2 1 Ejercicio 2.10 Demostrar que la relacin entre las coordenadas (x , y ) y o (x, y) en la Figura 2.5 est dada por (2.8). a Solucin: Se denen los vectores unitarios de los ejes x y y como ex y ey , y o de los ejes x y y como ex y ey , tal como se aprecia en la Figura 2.12a. Se sabe que la relacin entre ellos es: o cos()ex + sin()ey ex = ey = sin()ex + cos()ey (2.24)

2. Geometr Proyectiva a

31

y y' ty
e' y

m x'
e' x

m y'

m'

x'

ty

m t'

ey ex

tx x
(a )

tx x
(b )

Figura 2.12: Transformacin Eucl o dea 2D (Ejercicio 2.10).

En la Figura 2.12b, el punto m puede ser representado vectorialmente como m o bien como su descomposicin t + m . Igualndolos se obtiene: o a xex + yey = [x ex + ty ey + x ex + y ey .
m t m

Reemplazando (2.24) en esta ultima ecuacin se obtiene una expresin que o o depende de los vectores unitarios ex y ey :

xex + yey = tx ex + ty ey + x cos()ex + x sin()ey y sin()ex + y cos()ey . Igualando las componentes en la direccin x y las componentes en en la o direccin y de manera independiente se obtiene (2.8): o

x = x cos() y sin() +tx . y = x sin() +y cos() +ty

32

D.Mery: Visin Articial o

Cap tulo 3 Modelacin Geomtrica de un o e Sistema de Visin Articial o


En este cap tulo se describe cmo funciona un sistema de visin articial y o o se presenta un modelo geomtrico para poder calcular la funcin de transfee o rencia del espacio 3D y la imagen 2D tomada de l. e

Fu ente de En erg a

O bjeto C ma ra n C ma ra 1 C omp uta dor M anip ula dor

Figura 3.1: Sistema de visin articial. o

33

34

D.Mery: Visin Articial o

3.1.

Descripcin de un Sistema de Visin Aro o ticial

En esta seccin se describir cules son los principales componentes de un o a a sistema de visin articial. Tal como se aprecia en la Figura 3.1 estos como ponentes son: el manipulador, la fuente de energ el sensor, el conversor a, anlogo-digital y el computador. a

3.1.1.

El Manipulador

El manipulador es un aparato que mueve y ubica el objeto de estudio a una posicin deseada sin ser tocado por el ser humano. Un manipulador posee o grados de libertad que indican los posibles movimientos que puede hacer para mover el objeto. Los grados de libertad pueden ser de traslacin y/o rotacin. o o Muchas veces el manipulador se acciona mediante joysticks, otras veces por medio de una interfaz con un PLC o computador. El manipulador consta de elementos deslizantes y de giro con los que se lleva a cabo la traslacin y rotacin del objeto respectivamente. o o Hay conguraciones en los que el manipulador no mueve al objeto sino a la(s) cmara(s), esto es muy ventajoso cuando se trata de analizar objetos muy a pesados, ya que mover la(s) cmara(s) requiere de una mecnica ms sencilla a a a y econmica. o

3.1.2.

Fuente de Energ a

Dependiendo del tipo de anlisis que se desea hacer del objeto de estudio a se debe escoger la energ necesaria para poder tomar una imagen de l. a e Los tipos de energ utilizados son: luz (visible) para la fotograf rayos X a a, y rayos para la radiograf y tambin para tomograf ultrasonido para a e a, la ecograf campos magnticos para la magneto-resonancia, calor para la a, e termograf etc. a, En la gran mayor de casos se utilizan ltros para restringir el espectro de a frecuencias de la energ En el caso de iluminacin es importante analizar si a. o se preere luz difusa o directa y tambin su color (espectro). e

3. Modelacin Geomtrica de Sistema de Visin Articial o e o

35

3.1.3.

Sensor de Imagen

El sensor debe ser sensible a la energ utilizada. Si es luz por ejemplo a ser necesario utilizar algn tipo de elemento fotosensible que transforme a u los fotones reejados por el objeto de estudio a alguna seal elctrica (genn e eralmente voltaje). Para el caso de los rayos X estos elementos son muy poco sensibles a los fotones de este espectro por lo que se utiliza entre el objeto y el sensor fotosensible un amplicador de imagen que transforma los rayos X en luz visible1 El sensor debe ser bidimensional (o unidimensional en movimiento) para poder captar las dos dimensiones de la imagen.

3.1.4.

Conversor Anlogo-Digital a

El conversor A/D convierte la seal elctrica a un cdigo binario que puede n e o ser interpretado por el computador para conformar una imagen digital del objeto de estudio.

3.1.5.

Computador

El computador se encarga de procesar la informacin entregada por el cono versor A/D. Las tareas t picas de un computador utilizado en un sistema de visin articial son: i) mejoramiento de la imagen, ii) segmentacin, iii) o o clasicacin de patrones y iv) anlisis espacial. o a

3.2.

La Cmara Pinhole a

El modelo bsico de la cmara pinhole ya ha sido visto en la Seccin 2. Un a a o esquema de este modelo se presenta en la Figura 3.2. El modelo consiste en un centro ptico C, en donde convergen todos los rayos de la proyeccin, y o o un plano de imagen R en el cual la imagen es proyectada. El plano de imagen est ubicado a una distancia focal f del centro ptico y perpendicular al eje a o ptico Z. o
Existen elementos de estado slido sensibles a los rayos X, sin embargo el uso del o amplicador de imagen resulta tres veces ms econmico. a o
1

36
X f
D ista ncia foc al

D.Mery: Visin Articial o

a Pl

no

de

im

ag

en

R y

Z
E je ptic o

m C
C entro p tico

Y
P roye ccin 2 D

M
P unto 3D

Figura 3.2: Modelo geomtrico de cmara pinhole. e a

Un punto 3D M es proyectado en el plano de imagen como m. El punto 2D m se dene como la interseccin de la recta C, M con el plano R, donde la o notacin A, B denota la l o nea recta que contiene los puntos A y B: m = C, M R (3.1)

Suponiendo que las coordenadas (inhomogneas) de los puntos M y m son e T T (X, Y, Z) y (x, y) respectivamente, se puede encontrar una relacin entre o ellas aplicando el teorema de Thales. Zx = f X Zy = f Y o bien en coordenadas homogneas: e
X x fX f 0 0 0 Y Z y = fY = 0 f 0 0 Z 1 Z 0 0 1 0 1

(3.2)

(3.3)

que puede ser escrita en forma matricial como m = PM (3.4)

3. Modelacin Geomtrica de Sistema de Visin Articial o e o

37
X

X f

R Z x m C Y M y

R Z x m C Y y

rayo s X

cm a ra oscura

Figura 3.3: Modelo geomtrico de proyeccin rayos X y cmara oscura. e o a

siendo M = [X Y Z 1]T y m = [x y 1]T las coordenadas homogneas de M y e m respectivamente, y P la matriz de 3 4 denominada matriz de proyeccin o perspectiva de la cmara. El factor es un factor de escala para mantener la a igualdad y es igual a Z. Se observa que la ecuacin no lineal de la proyeccin o o en coordenadas inhomogneas (3.2) se convierte en una ecuacin lineal en e o coordenadas homogneas, lo cual constituye una de las principales ventajas e del uso de las coordenadas homogneas en la geometr proyectiva. e a Modelos geomtricos similares presentan la proyeccin de rayos X y la cmara e o a oscura (ver Figura 3.3). En los rayos X la fuente de emisin es modelada o como un punto y coincide con el centro ptico C. El objeto es ubicado entre o la fuente de rayos X y la placa fotogrca (plano de imagen R). En este a caso, las ecuaciones que describen la proyeccin coinciden con las expresadas o anteriormente. Para la cmara oscura, descrita en la Seccin 1.3 e ilustrada a o en la Figura 1.7, el oricio de ingreso de luz corresponde al centro ptico o C ya que por l pasan todos los haces de luz que conforman la imagen en e el plano de imagen R. Sin embargo, debido a que el centro ptico se ubica o entre el objeto y el plano de imagen ocurre una inversin de la imagen, es o decir X/Z = x/f y Y /Z = y/f . En la matriz de proyeccin perspectiva o P entonces es necesario cambiar f por f :
X x f 0 0 0 Y y = 0 f 0 0 Z 1 0 0 1 0 1

(3.5)

38 En el modelo de proyeccin m = PM se ha asumido que: o

D.Mery: Visin Articial o

i) el origen del sistema de coordenadas del espacio 3D coincide con el centro ptico C, o ii) el eje ptico coincide con el eje Z de este sistema de coordenadas, y o iii) el origen del sistema de coordenadas del plano de la imagen coincide con la interseccin de Z con R. Esta interseccin es conocida con el o o punto principal c de la imagen. Qu pasa si estos tres supuestos no se cumplen? Se considerar inicialmente e a un nuevo sistema de coordenadas (X , Y , Z ) como se ilustra en la Figura 3.4. Este nuevo sistema de coordenadas no cumple las dos primeras condiciones anteriormente sealadas ya que su origen no coincide con el centro ptico y n o su eje Z no coincide con el eje ptico de la proyeccin. Generalmente, este o o nuevo sistema de coordenadas est referido al objeto de estudio. Este cambio a de coordenadas corresponde a una transformacin 3D Eucl o dea (ver Figura 2.8) ya que slo estn involucradas la rotacin y la traslacin del objeto (y o a o o no la deformacin o cambio de escala), como ya se analiz en la Seccin 2.4. o o o Considerando en este caso que la rotacin de los ejes X , Y y Z respecto o a los ejes X, Y , y Z est denida por la matriz ortonormal 3 3 R y que a
X f

R v Z C Z' Y' Y
R ', t '

M m u y

X'

Figura 3.4: Modelo geomtrico de proyeccin con rotacin de ejes. e o o

3. Modelacin Geomtrica de Sistema de Visin Articial o e o

39

el origen del nuevo sistema de coordenadas (X , Y , Z ) se representa por el vector 3 1 t en el sistema de coordenadas (X, Y, Z) entonces se puede escribir: X X Y R t Y (3.6) = , T Z Z 0 1 1 1 o bien M=SM, (3.7) con M = [X Y Z 1]T , M = [X Y Z 1]T y S la matriz 4 4 que incluye a R y t tal como se muestra en (3.6)2 . Utilizando (3.7) y (3.4) la proyeccin o de un punto M en la imagen queda denida por: m = PS M . (3.8)

En el plano de imagen, se considerar ahora un nuevo sistema de coordenadas a dado por los ejes u, y v, como se ilustra en la Figura 3.4, de tal manera que la condicin que el origen del sistema de coordenadas del plano de imagen o no coincida con el punto principal de la proyeccin. Si entre los ejes x,y y los o ejes u,v slo existe una traslacin y rotacin entonces entre estos dos sistemas o o o de coordenadas se da una transformacin 2D Eucl o dea denida en la Seccin o 2.3.1. Es posible tambin que haya un cambio de escala entre ambos ejes e como ocurre en las cmaras CCD, donde las unidades de los ejes estn dadas a a en p xels y no en mil metros por ejemplo. En trminos generales se puede e decir que entre ambos sistemas de coordenadas existe una transformacin o proyectiva 2D que puede ser expresada como: w = Hm (3.9)

con w = [u v 1]T , m = [x y 1]T y H la matriz 3 3 que dene la transformacin proyectiva 2D 2D tal como se explic en la Seccin 2.2. o o o La proyeccin de un punto 3D (X , Y , Z ) (representado en coordenadas o homogneas por el vector M ) en un punto (u, v) en el plano de imagen e (representado en coordenadas homogneas por el vector w) se puede expresar e usando las ecuaciones (3.9) y (3.8) de la siguiente manera: w = HPS M .
2

(3.10)

Se puede observar que la transformacin inversa est denida en (2.20). o a

40

D.Mery: Visin Articial o

R egistrso s d e tra nsp orte ve rtica l

A rreg lo C CD

S ensores fo tose nsibles P roce sam iento R egistros de lec tura ho rizo nta l S ea l de vdeo

Figura 3.5: Construccin de un arreglo CCD. o

3.3.

Cmara CCD a

La cmara CCD (charge-coupled-device) es un sensor de imagen que utiliza a elementos semiconductores fotosensibles en forma de arreglos matriciales. Los receptores activos de este arreglo son distribuidos en p xels individuales. En un sensor CCD se transforma la energ de la luz incidente en energ elctria a e ca. La carga elctrica almacenada en la celda es posteriormente transportada e utilizando un registro de desplazamiento (shift register) para conformar una seal de v n deo. Cabe sealar que en las cmaras CCD se discretiza la imagen n a en p xels, sin embargo el valor de la carga elctrica almacenado en cada celda e no se digitaliza en el arreglo CCD sino en una conversin posterior realizada o por un conversor anlogodigital. a Las cmaras CCD son consideradas como dispositivos que poseen una muy a baja deformacin geomtrica de la imagen, una muy buena sensibilidad a la o e luz y una muy buena resolucin llegando t o picamente a los 400.000 p xels3 . El tiempo de captura de la imagen est t a picamente en el rango de 1/60s y 1/10000s [4]. La formacin geomtrica de la imagen se considera como una transformacin o e o de las coordenadas x, y en un nuevo sistema de coordenadas u, v tal como
Hoy en d existen cmaras CCD para HDTV(High Denition Television) con alredea a dor de 2.200.000 p xels.
3

3. Modelacin Geomtrica de Sistema de Visin Articial o e o

41

se explic a grandes rasgos en la seccin anterior (ver Figura 3.4). Para esta o o transformacin es necesario considerar los siguientes cuatro aspectos: o Cambio de escala: Las coordenadas de una imagen estn comnmente exa u presadas en otras unidades mtricas que las empleadas para medir el espacio e 3D. Por lo general la imagen se expresa en p xels y el espacio 3D en mil metros. Por esta razn, en la transformacin de coordenadas (x, y) (u, v) que o o se mencion en la Seccin 3.2 es necesario considerar un factor de escala. o o Adicionalmente es necesario tomar en cuenta que debido a que los p xels no son cuadrados, sino rectangulares, el factor de escala es distinto en cada eje de la imagen. Los factores de escala utilizados son x y y expresados en [pixel/mm]. Traslacin del origen: Se introducen las variables (u0 , v0 ) para denotar el o punto principal de la imagen en el nuevo sistema de coordenadas, es decir u = u0 , v = v0 corresponden al punto x = 0, y = 0. Rotacin de los ejes: Los ejes x, y y los ejes u, v no tienen la misma o orientacin. En la modelacin de la cmara existen dos mtodos: uno que o o a e considera un ngulo de rotacin, y otro que asume que este ngulo es cero a o a y que el ajuste debe hacerse en los ejes X, Y, Z del sistema de coordenadas del espacio 3D. En este segundo mtodo el eje Z sigue siendo el eje ptico e o de la proyeccin y los ejes x,y siguen siendo paralelos a los ejes X, Y , sin o embargo se hace coincidir, mediante una rotacin del eje Z, la orientacin de o o los ejes x,y con los ejes u,v. Factor de torcimiento: Muchas veces los ejes u,v no son ortogonales debido a que los p xels en los arreglos CCD no son rectangulares. En este caso es necesario introducirle al modelo de la cmara un factor de torcimiento (skew a factor) s. En la gran mayor de cmaras s es cero. a a Resumiendo los cuatro aspectos y considerando que la orientacin de u, v y o x, y es la misma, la transformacin de coordenadas est denida por: o a

u x s u 0 x v = 0 y v0 y , 0 0 1 1 1 o bien w = Km,
T T

(3.11)

(3.12)

con w = [u v 1] , m = [x y 1] y K la matriz 3 3 escrita en (3.11). La matriz K es conocida como la matriz de calibracin de la cmara. o a

42

D.Mery: Visin Articial o

La proyeccin (X , Y , Z ) (u, v) (3D 2D) puede ser escrito utilizando o (3.10): w = KPS M . (3.13) En esta ecuacin se sabe que la matriz K depende de 5 parmetros: los dos o a factores de escala x y y , las coordenadas del punto principal (u0 , v0 ) y el factor de torcimiento s; la matriz de proyeccin perspectiva P depende de o la distancia focal f ; y la matriz de la transformacin 3D Eucl o dea depende de 6 parmetros: 3 para la traslacin tridimensional (tX , tY , tZ ) y 3 para la a o rotacin de los ejes: (X , Y , Z ). Esto quiere decir que el modelo consta de o 12 parmetros, sin embargo al realizar la multiplicacin KP: a o f 0 0 0 f x f s u 0 0 x s u0 KP = 0 y v0 0 f 0 0 = 0 f y v0 0 0 0 1 0 0 1 0 0 0 1 0

(3.14)

se observa que hay elementos que se resumen en la multiplicacin. A manera o de ejemplo, con este modelo slo es posible conocer el producto f x y no f y o x por separado. Por esta razn muchas veces el producto anterior se expresa o como: x s u0 1 0 0 0 KP = 1 y v0 0 1 0 0 (3.15) 0 0 1 0 0 0 1 con x = f x , y = f y y s = f s. Este nuevo modelo pude ser interpretado como una proyeccin con longitud focal normalizada f = 1 y con factores de o escala y torcimiento referidos a esta normalizacin. De esta manera el modelo o de la cmara queda denido por slo 11 parmetros, los que se descomponen a o a en 5 intr nsecos a la cmara (x , y , u0 , v0 , s ) y 6 extr a nsecos a la cmara a (tX , tY , tZ , X , Y , Z ).

3.4.

Distorsin del lente o

La curvatura del lente utilizado en las cmaras introduce una deformacin a o en la imagen. Debido a esta distorsin las l o neas que en el espacio 3D son rectas ya no son vistas en la proyeccin como l o neas rectas sino como l neas curvas (ver Figura 1.2). Este efecto puede ser despreciable en el centro de la imagen, sin embargo es considerable en los extremos de la imagen, donde la

3. Modelacin Geomtrica de Sistema de Visin Articial o e o

43

(a)

(b)

Figura 3.6: Ejemplo de Distorsin: a) Radiograf de un objeto de calibracin, o a o b) Modelacin de la distorisin o o

normal de la supercie del lente no es paralela al eje ptico de la proyeccin. o o Un ejemplo real es mostrado en la Figura 3.6. En los casos en que la distorsin de la imagen es grande, el modelo lineal de o cmara CCD que se introdujo en la Seccin 3.3 deber ser modicado. En la a o a literatura existe una gran variedad de modelos que incluyen esta distorsin. o La idea general de estos modelos consiste en tener una imagen ideal con coordenadas (x, y) y una real con coordenadas (x , y ). Lgicamente, slo la o o imagen real es vista. De esta manera el modelo de proyeccin total, en el que o un punto M = [X Y Z 1]T es proyectado en la imagen como w = [u v 1]T , consta de cuatro partes: i) Transformacin Eucl o dea 3D: Con esta transformacin las coordeo nadas de un punto M en coordenadas relativas al objeto de estudio son transformadas a las coordenadas del sistema de proyeccin como o un punto M. La transformacin, denida en (3.7), es: M = S M . o ii) Proyeccin en perspectiva: Con esta proyeccin se obtiene a partir o o del punto M un punto (x, y) en el plano de la imagen. Esta proyeccin o T est denida en (3.4): m = PM, con m = [x y 1] . Esta imagen a proyectada es la que se denomina imagen ideal. iii) Modelacin de distorsin: Con una funcin de distorsin se obtiene o o o o la imagen real a partir de la imagen ideal. Es decir a partir de un punto

44

D.Mery: Visin Articial o

(x, y) de la imagen ideal se obtiene un punto (x , y ) de la imagen real. La funcin de distorsin se expresa como: o o x = x + x (x, y) , y = y + y (x, y) (3.16)

iv) Proyeccin en la cmara: La formacin de la imagen en la cmara o a o a CCD se hace mediante la matriz K tal como se explic en la Seccin o o 3.3. Utilizando (3.11) para las nuevas coordenadas se obtiene:

u x s u0 x v = 1 y v0 y , 1 0 0 1 1

(3.17)

A continuacin se explicar brevemente como se puede modelar la funcin o a o de distorsin. Generalmente la distorsin es modelada como una componente o o radial r y otra tangencial [35]. Estas componentes son ilustradas en la Figura 3.7 en la que se observa un punto de distorsin nula (x0 , y0 ), en donde o x = x , y y = y , es decir x (x0 , y0 ) = y (x0 , y0 ) = 0. Comnmente este punto u es el punto principal de la imagen, sin embargo esta condicin no siempre se o cumple porque el lente puede encontrarse un poco desplazado del eje ptico o de la proyeccin. Descomponiendo (x, y) en coordenadas polares (r, ) con o centro en (x0 , y0 ) se puede escribir la distorsin como la suma de ambas o componentes: x (x, y) = r (r) cos() r () sin() y (x, y) = r (r) sin() + r () cos() (3.18)

La componente de distorsin radial asume que un punto ideal (x, y) se proyeco ta en la imagen real sobre la l nea radial que contiene los puntos (x0 , y0 ) y (x, y). Anlogamente, la distorsin tangencial asume que existe un cambio de a o ngulo (y no de radio). El efecto es ilustrado en la Figura 3.7. As como a la distorisn radial depende slo del radio, la distorsin tangencial depende o o o slo del ngulo. Las distorsiones pueden modelarse como polinomios de orden o a mayor que uno.

3.5.

Modelacin de un manipulador o

La modelacin de un manipulador consiste en encontrar las matrices proyeco tivas Eucl deas 3D que hacen la transformacin de coordenadas de un sistema o

3. Modelacin Geomtrica de Sistema de Visin Articial o e o

45

p un to r ea l (x',y') p un to id e a l (x,y)

d istorsin ra d ial

( x 0,y 0)

d istorsin ta n g en c ial

Figura 3.7: Modelacin de distorsin de lente en componente radial y tano o gencial.

de coordenadas relativas al objeto de estudio al sistema de coordenadas del espacio 3D en el que tiene lugar la proyeccin perspectiva. En el modelo deben o incluirse los grados de libertad que posee el manipulador. Comnmente por u cada centro de rotacin se establece un sistema de coordenadas. Un ejemplo o puede encontrase en el Ejercicio 2.8.

En la modelacin debe incluirse factores de cambio de escala, ya que por lo o general las unidades en las que trabaja un manipulador son incrementos y stos deben convertirse a mil e metros o radianes. La conversin de escala o se modela en forma lineal. A manera de ejemplo, si la rotacin de un eje o es proporcionada por una variable de salida del manipulador denominada R, y sta corresponde al ngulo de rotacin X de nuestra transformacin e a o o Eucl dea, deben encontrase los parmetros KR0 y KR1 que establezcan la a relacin X = KR0 + KR1 R, de esta manera KR1 realiza la conversin de o o escala (incrementos mil metros) y KR0 denota el ngulo de rotacin en a o radianes que corresponde a R = 0.

46

D.Mery: Visin Articial o

3.6.

Calibracin de un sistema de visin aro o ticial

La calibracin es el mtodo mediante el cual se estiman los parmetros ino e a tr nsecos y extr nsecos de la cmara, as como los parmetros del manipua a lador. Tambin es posible estimar los parmetros del modelo de distorsin e a o del lente de la cmara. a Existen dos mtodos comnmente usados para la calibracin: auto-calibracin e u o o (self-clibration) y calibracin fotogramtrica. o e En la auto-calibracin se toman varias imgenes de una misma escena y medio a ante la correspondencia entre puntos de distintas imgenes se puede encontrar a los mejores parmetros del modelo que puedan otorgar esta correspondencia. a La reconstruccin 3D realizada con el modelo encontrado est afectada sin o a embargo por un factor de escala ya que en este mtodo no se puede saber e cul es el tamao real de los objetos captados por las cmaras. Un objeto a n a pequeo cerca del centro ptico puede tener la misma imagen que el mismo n o objeto agrandado ms cerca del plano de imagen. a Si lo que se busca es una reconstruccin 3D precisa, como es el caso de muchas o de las aplicaciones de la robtica, es recomendable utilizar la calibracin foo o togramtrica. Esta calibracin utiliza un objeto 3D de referencia cuya gee o ometr es conocida a la perfeccin. N puntos de inters son escogidos del a o e objeto de referencia, obteniendo as las coordenadas Mi = [Xi Yi Zi 1]T , para i =, 1, ...N . El objeto es a continuacin captado por la cmara y sus puntos o a de inters son vistos como puntos 2D con coordenadas wi = [ui vi 1]T . Tee niendo un modelo de la proyeccin es posible obtener una estimacin terica o o o de los puntos 3D. De esta manera se calculan los puntos: wi = f (Mi ) (3.19)

donde f es la funcin de proyeccin que involucra los parmetros de la cmara, o o a a del lente y del manipulador segn sea el caso. Formalmente f es una funcin u o no lineal que depende de un vector de parmetros que agrupa los parmetros a a del modelo. Para el caso de una proyeccin sin distorsin se puede usar (3.13) o o como funcin de proyeccin f , en este caso los once parmetros del modelo o o a se agrupan como = [tX tY tZ X Y Z x y u0 v0 s ]T . El problema de calibracin se transforma en un problema de optimizacin o o mediante el cual una funcin objetivo que mide el error entre la proyeccin o o

3. Modelacin Geomtrica de Sistema de Visin Articial o e o

47

estimada wi y la proyeccin medida wi debe ser minimizada. De esta manera, o se debe encontrar los parmetros de la funcin de proyeccin f de tal manera a o o que se minimice la siguiente funcin objetivo: o J() = 1 N
N

wi wi min
i=1

(3.20)

3.7.

Ejercicios

Ejercicio 3.1 En la Figura 3.8 se presenta el sistema pndulo invertido, el e cual consiste en un carrito que se desplaza en la direccin Z y que sostiene o una barra de longitud b la cual se debe mantener en equilibrio. La barra se encuentra a un ngulo del eje Z . El control del pndulo invertido prea e tende mover el carrito de tal manera que = /2. El eje de rotacin de o la barra se encuentra a una distancia a del origen de un sistema de coordenadas (X , Y , Z ). En este sistema de coordenadas, la barra de longitud b se encuentra en el plano (X , Z ). Para estudiar el ngulo de la barra se a cuenta con una cmara cuyo centro ptico C se encuentra en las coordenadas a o (X = X0 , Y = Y0 , Z = Z0 ). En este centro ptico se dene un nuevo siso tema de coordenadas (X, Y, Z) el cual presenta una rotacin del eje X de o /2 + . En Z = f se encuentra el plano de imagen R de la cmara en el a
M
R

X'

b
Z

x y

m X Y
f

Z'

C
X'0 Z' 0

a
Y' 0 Y'

Figura 3.8: Pndulo invertido (ver Ejercicio 3.1). e

48

D.Mery: Visin Articial o

cual se dene un sistema de coordenadas bidimensional (x, y), donde el eje x y el eje y son paralelos al eje X y al eje Y respectivamente. El origen de este sistema de coordenadas (x = 0, y = 0) es la interseccin del eje Z con o el plano R. Encuentre las coordenadas (x, y) del punto m denido como la imagen del punto M (ubicado al extremo de la barra) en el plano R. Solucin: La solucin a este problema se obtiene en tres etapas: i) clculo o o a de las coordenadas de M en el sistema de coordenadas (X , Y , Z ); ii) transformacin Eucl o dea 3D (X , Y , Z ) (X, Y, Z); y iii) proyeccin del punto o (X, Y, Z) en el plano R. i) Las coordenadas de M en el sistema de coordenadas (X , Y , Z ) son: X = b sin , Y = 0 y Z = a + b cos . ii) El punto M en el sistema de coordenadas (X, Y, Z) se puede calcular utilizando el esquema de la Figura 2.8. En este caso el vector de traslacin o T es t = [X0 Y0 Z0 ] y los ngulos de rotacin son X = /2, Y = 0 y a o

Z Y

X'

.
X

Z'

Y'
Figura 3.9: Rotacin del eje X en el pndulo invertido (ver Ejercicio 3.1). o e

3. Modelacin Geomtrica de Sistema de Visin Articial o e o

49

Z = 0. El signo menos en X se debe a que el ngulo se mide del eje Y al a eje Y como se aprecia en la Figura 2.9 (comparar con Figura 3.9). La matriz de rotacin R corresponde entonces a RX proporcionada por la Tabla 2.3. o Segn (2.20) la transformacin entre (X , Y , Z ) y (X, Y, Z) queda: u o

X Y Z 1

1 0 0 X0 X 0 cos(X ) sin(X ) Y0 Y 0 sin(X ) cos(X ) Z0 Z 0 0 0 1 1 X Y Z 1


=

o bien

RX t 0 1

X Y Z 1

Sin embargo lo que interesa en este ejercicio es la transformacin inversa o (X , Y , Z ) (X, Y, Z), la que se obtiene de (2.21):

X Y Z 1

RT RT t X X 0 1

X Y Z 1

o bien en trminos matriciales M = S M , donde M = [X Y Z 1]T y M = e [X Y Z 1]T y S la matriz 4 4 denida en la ecuacin anterior. o iii) La proyeccin de M en el plano R corresponde a la cmara pinhole o a mostrada en la Figura 3.2. Esta proyeccin se expresa matemticamente en o a T (3.4), es decir, m = PM con m = [x y 1] , y P la matriz de proyeccin o perspectiva de la cmara: a f 0 0 0 P= 0 f 0 0 0 0 1 0 Finalmente se obtiene:

x y = PS 1

b sin 0 a + b cos 1

50

D.Mery: Visin Articial o

Ejercicio 3.2 En un sistema ptico no lineal ocurre una distorsin como la o o que se muestra en la Figura 3.10. La relacin entre puntos ideales (x, y) y o reales (x , y ) se muestra en la Tabla 3.1. a) Existe distorsin tangencial? o Justique su respuesta. b) Proponga las funciones de distorsin x (x, y) y o y (x, y) tal que cumplan: x = x + x (x, y) , y = y + y (x, y)

y
5

x
ideal

8 7

real
9

Figura 3.10: Distorsin no lineal (ver Ejercicio 3.2). o i 1 2 3 4 5 6 7 8 9 x y -1 0 0 0 1 0 -1 1 0 1 1 1 -1 -1 0 -1 1 -1 x y -1 0 0 0 1 0 -1.2 1.2 0 1 1.2 1.2 -1.2 -1.2 0 -1 1.2 -1.2

Tabla 3.1: Distorsin no lineal (ver Figura 3.10). o

3. Modelacin Geomtrica de Sistema de Visin Articial o e o

51

Solucin: En los puntos presentados en la Figura 3.10 se observa que slo o o hay distorsin radial (y no tangencial) ya que los puntos reales se obtienen o desplazando los puntos ideales a lo largo de su radio. La distorsin puede ser modelada de muchas maneras. Una de ellas se preseno ta a continuacin en la que se asume solamente una distorsin radial r (r). o o Utilizando (3.18) con () = 0 se obtiene x (x, y) = r (r) cos() y (x, y) = r (r) sin() (3.21)

donde r, son las coordenadas polares de (x, y), es decir r = x2 + y 2 y =angle(x, y). En la Tabla 3.1 se observa que no hay distorsin (r (r) = 0) o para r = 0 (punto 2) y para r = 1 (puntos 1,3,5 y 8). La distorsin se o presenta en los puntos 4, 6, 7 y 9, donde r = 2, en este caso r (r) debe ser la distancia entre estos puntos ideales y sus respectivos puntos reales, es decir o (1,21) 2 = 0,2 2. La funcin r (r) puede tener la forma r (r) = kr(r 1), as se asegura que r (r) sea cero para r = 0 y para r = El factor k se obtiene 1. evaluando r (r) en r = 2, en este caso queda r ( 2) = k 2( 2 1) = 0,2 2. Despejando k se obtiene k = 0,2/( 2 1) = 0,4828. La distorsin o radial es entonces: r (r) = 0,4828r(r 1) Sustituyendo esta funcin en (3.21) y considerando que cos() = x/r y o sin() = y/r, se obtiene x (x, y) = 0,4828x(x2 + y 2 1) . y (x, y) = 0,4828y( x2 + y 2 1)

52

D.Mery: Visin Articial o

Cap tulo 4 Visin Estreo o e


El trmino estreo en visin se utiliza cuando existe ms de una vista de e e o a una escena. Estreo, del griego o, signica slido, que en este caso se e o relaciona con la idea de tridimensionalidad. A travs de varias imgenes de e a una escena, tomadas desde distintos puntos de vista, se puede tener la idea de las caracter sticas tridimensionales de la escena en estudio. En este cap tulo se estudiarn las relaciones algebraicas y geomtricas que exa e isten cuando se ha tomado ms de una vista de una escena. Se pondr nfasis a ae en el anlisis de dos y tres vistas, geometr bifocal y trifocal respectivamente. a a Sin embargo, al nal del cap tulo se expondr slo a manera de introduccin a o o la geometr quadrifocal y de N vistas. a

4.1.

Anlisis Bifocal a

En el anlisis bifocal se tiene un sistema de visin con dos cmaras, o bien a o a una sola cmara que toma dos imgenes del objeto de estudio en dos tiempos a a distintos, suponiendo que en ese tiempo la cmara o el objeto se han movido. a Para efectos de simplicacin de la exposicin del problema se estudiar la o o a conguracin de dos cmaras que toman al mismo tiempo una imagen del o a objeto de estudio. Sin embargo, con la teor expuesta en este cap a tulo se puede deducir la solucin al problema de dos vistas distintas con una sola o cmara. a 53

54

D.Mery: Visin Articial o

La geometr de dos vistas es conocida como la Geometr Epipolar. El trmia a e no epipolar viene del griego epi (`) que signica sobre, encima, y polos (o) cuyo signicado es punto de atraccin o uno de los dos puntos de o o una esfera que son intersectados por su eje de rotacin. La Geometr Epipoo a lar lleva este nombre porque, como se ver ms adelante, a cada una de las a a dos imgenes se le asocia un epipolo. a La geometr de dos vistas es presentada en la Figura 4.1. Un punto 3D M a es visto en las dos imgenes como m1 y m2 (ver Figura 4.1a). Como se esa tudi en el cap o tulo anterior, la imagen es denida como la proyeccin del o espacio 3D en un plano de imagen 2D por medio de un centro ptico. Los o centros pticos en este caso son C1 y C2 . A partir de m1 solamente no se o puede saber exactamente la ubicacin exacta de M , ya que en el proceso o

g Ima

en 1

Imag en 2

1 gen I ma

(a)

gen Ima

Imag en 2

1 gen I ma

(c)
Figura 4.1: Geometr epipolar. a


Imag en 2

(b)

lnea epipolar

Imag

en 2

(d)

4. Visin Estreo o e

55

de proyeccin se ha perdido la informacin de profundidad. Sin embargo, se o o puede armar que M debe estar en el rayo que nace en el centro ptico C1 o para forma m1 , es decir, M pertenece a la recta m1 , C1 . Esta situacin es o mostrada en la Figura 4.1b, donde varios puntos (M incluido) pertenecientes a la recta m1 , C1 pueden ser los que forman el punto m1 en la primera imagen. Si a partir de m1 se desea conocer la ubicacin de m2 es necesario o entonces proyectar en la imagen 2 los posibles puntos que pueden formar m1 (ver Figura 4.1c). Se observa que m2 es uno de estos puntos proyectados, sin embargo a partir de m1 solamente no se puede saber la ubicacin o exacta de m2 , slo se puede armar que m2 pertenece a la proyeccin de la o o recta m1 , C1 realizada por el segundo centro ptico C2 en la imagen 2. La o proyeccin de esta recta, se denomina l o nea epipolar y se puede apreciar en la Figura 4.1d. La restriccin epipolar seala que para que m1 y m2 sean puntos correspondio n entes, el punto m2 debe estar en la l nea epipolar de m1 . Esto no quiere decir que todos los puntos en la l nea epipolar de m1 son correspondientes a m1 , ya que como bien se puede observar de la Figura 4.1 slo un punto en la imagen o 2 es correspondiente a m1 , y en este caso es la proyeccin de M en la segunda o imagen. La restriccin epipolar es entonces una condicin necesaria, mas no o o suciente. A pesar de que no sea una condicin suciente, es de gran utilidad o saber que el punto correspondiente a m1 en la segunda imagen est sobre a una l nea y no est ubicado en cualquier parte de la imagen. Esto representa a una reduccin considerable en la dimensionalidad del problema de bsqueda o u de puntos correspondientes, ya que en vez de buscar en toda la imagen 2 (de dos dimensiones) se busca slo a lo largo de una l o nea (una dimensin). A o manera de ejemplo, si la segunda imagen tiene N N p xels, la bsqueda de u correspondencia se realiza slo en N p o xels de la imagen y no en N 2 p xels. Una segunda representacin de la Geometr Epipolar se aprecia en la Figuo a ra 4.2, en la que los planos de imagen estn entre los centros pticos y el a o punto 3D M . Al igual que en la representacin anterior, las proyecciones de o M son m1 y m2 en la primera y segunda imagen respectivamente. En esta conguracin se observa tambin el mismo fenmeno: a partir de m1 no o e o se sabe exactamente dnde est ubicado el punto 3D M, slo se sabe que o a o se encuentra en algn punto de la recta que pasa por los puntos m1 y C1 . u Los posibles puntos correspondientes a m2 en la segunda imagen se obtienen entonces mediante la proyeccin de esta recta por el centro ptico C2 en la o o segunda imagen. Esta recta en la imagen 2 es la l nea epipolar l2 .

56

D.Mery: Visin Articial o

M
p lan o e p ip o la r

R1

R2

m1
ln ea e p ipo la r l 1

m2
ln ea e p ipo la r l 2

e1 C1
im agen 1

e2
e p ip o lo s
im agen 2

C2

Figura 4.2: L neas epipolares y epipolos.

De manera anloga, si se desea buscar los posibles puntos correspondientes a a m2 en la primera imagen se obtiene una recta epipolar l1 denida como la proyeccin realizada por C1 de la recta que contiene los puntos C2 y m2 en o el plano de la primera imagen. A continuacin se dene el plano epipolar , como el plano que contiene los o puntos C1 , C2 y M . Se observa que el plano epipolar contiene tambin los e puntos m1 y m2 , y sus l neas epipolares l1 y l2 , las que se pueden denir entonces como las intersecciones del plano epipolar con los planos de imagen, es decir: l1 = R1 (4.1) l2 = R2 Si se desea estudiar la Geometr Epipolar de un nuevo punto 3D M (que a no este en el plano ), se observa que en este sistema bifocal, en el que la ubicacin de los planos de imagen (R1 y R2 ) y los centros pticos (C1 y C2 ) o o no ha cambiado, existe un nuevo plano epipolar , como se muestra en la Figura 4.3. De acuerdo a la denicin dada, contiene los puntos C1 , C2 y o M . Para este nuevo punto M , existen las proyecciones m1 y m2 , denidas como las proyecciones de M en las imgenes 1 y 2 respectivamente, y tambin a e existen sus l neas epipolares l1 y l2 , denidas como las intersecciones del plano

4. Visin Estreo o e

57

M'
'
R1 R2

m'1 m1
l1

l' 1

l 2

m'2 m2
l2

e1

lnea base

e2

C1
imagen 1

e pip o lo s
imagen 2

C2

Figura 4.3: Planos epipolares.

epipolar con los planos de imagen R1 y R2 . Se observa que los planos y contienen no slo los puntos C1 y C2 , sino que todos los puntos que o estn en la recta C1 , C2 , conocida como la lnea base. De esta armacin se a o puede deducir una propiedad muy importante de las l neas epipolares. Como las l neas epipolares se denen como la interseccin de los planos epipolares o con los planos de imagen, se obtiene entonces que todas las l neas epipolares en una imagen poseen un punto en comn, conocido como el epipolo, denido u como la interseccin de la l o nea base con su plano de imagen: e1 = e2 = C 1 , C 2 R1 C 1 , C 2 R2 (4.2)

Ya que los epipolos son comunes a las l neas epipolares se deduce entonces

58 que l1 l1 = e1 l2 l2 = e2

D.Mery: Visin Articial o

4.1.1.

Anlisis geomtrico de dos vistas a e

En el Cap tulo 3 se logr establecer una transformacin proyectiva de un o o punto 3D M a un punto 2D m. Este punto m se deni como la proyeccin o o M en el plano de imagen. Dependiendo del sistema de coordenadas en que estn representados M y m se obtiene una ecuacin como la presentada a o en (3.13). En trminos generales, se puede armar que si la representacin e o homognea de M es M = [X Y Z 1]T y de m es m = [x y 1]T se puede e escribir m = AM (4.3) donde A, denominada la matriz de proyeccin general, es en una matriz de o 3 4 elementos, encargada de convertir el punto 3D M en la proyeccin 2D o 1 m. Para dos vistas se tiene entonces el punto 3D M que es visto como m1 y m2 en la imagen 1 y 2 respectivamente. Como para cada imagen hay una matriz de proyeccin se obtiene el siguiente sistema de ecuaciones o 1 m1 = AM 2 m2 = BM (4.4)

donde A y B son las matrices de proyeccin de las imgenes 1 y 2 respectio a vamente, y m1 y m2 son las representaciones homogneas de m1 y m2 . Las e coordenadas de M en ambas ecuaciones estn refeidas al mismo sistema de a coordenadas. A continuacin se buscar una expresin matemtica para l2 , la l o a o a nea epipolar de m1 en la segunda imagen a partir de m1 , A y B. Como se mencion en la o introduccin anterior, la l o nea epipolar l2 es la proyeccin del rayo C1 , m1 o en la segunda imagen. Este rayo queda denido por dos puntos en el espacio 3D. El primero de ellos es C1 cuyas representacin homognea utilizando las o e coordenadas en el sistema de coordenadas en que esta dado el punto 3D ser a
Es necesario observar que en (3.13) la matriz A equivale a KPS , sin embargo, los puntos 3D y 2D han sido representados como M y w respectivamente.
1

4. Visin Estreo o e

59

C1 . Otro punto que est presente en el rayo C1 , m1 es M sin embargo sus a coordenadas son desconocidas. Las coordenadas de m1 estn dadas en un a plano, no en el espacio 3D, sin embargo se puede calcular a partir de m1 un punto M+ que est en el rayo: a M+ = A+ m1 (4.5)

donde A+ es la pseudo-inversa de A. La pseudo-inversa de A es una matriz que cumple con la siguiente propiedad: AA+ = I (4.6)

donde I es una matriz identidad de 3 3 elementos. Debido a que A es de 3 4 elementos la matriz A+ tiene que ser de 4 3. Una expresin para la o pseudo-inversa de A es: A+ = AT [AT A]1 . (4.7) Es fcil comprobar que se cumple AA+ = I. Para demostrar que el punto a + M denido en (4.5) pertenece al rayo C1 , m1 es necesario vericar si su proyeccin en la imagen 1 coincide con m1 . Utilizando la primera ecuacin o o de (4.4), la proyeccin de este punto ser o a: AM+ = AA+ m1 = Im1 = m1 (4.8)

que como se observa coincide con la representacin homognea de m1 . De esta o e manera se conocen dos puntos que pertenecen al rayo C1 , m1 : C1 y M+ . Por denicin, la proyeccin de C1 en la segunda imagen es e2 , el epipolo o o de la imagen 2. La proyeccin de estos puntos en la segunda imagen ser o an entonces e2 (proyeccin de C1 ) y m+ (proyeccin de M +). Una representacin o o o 2 homognea de estos puntos se obtienen a partir de la segunda ecuacin de e o (4.4): e2 = BC1 . (4.9) m+ = BM+ 2 Si la recta epipolar l2 contiene estos dos puntos, se puede decir entonces que su representacin homognea queda denida como: o e l2 = e2 m+ = BC1 BM+ = BC1 BA+ m1 2 (4.10)

A continuacin se utilizar el concepto de matriz antisimtrica para encono a e trar una expresin ms simple para l2 . Dados dos vectores u y v de tres o a

60

D.Mery: Visin Articial o

elementos cada uno, deniendo el vector w como el producto cruz u v, se puede encontrar una matriz [u] , de 3 3 elementos, denominada la matriz antisimtrica de u tal que: e w = u v = [u] v (4.11)

Es fcil comprobar que si u = [u1 u2 u3 ]T la matriz antisimtrica de u es: a e 0 u3 u2 0 u1 [u] = u3 u2 u1 0


(4.12)

Utilizando la matriz antisimtrica de BC1 se obtiene una nueva expresin e o para l2 : l2 = [BC1 ] BA+ m1 (4.13) Deniendo la matriz F de 3 3 elementos como: F = [BC1 ] BA+ se puede expresar la l nea epipolar como l2 = Fm1 Si m2 pertenece a esta recta entonces mT l2 = 0, o bien 2 mT Fm1 = 0 2 (4.16) (4.15) (4.14)

La matriz F es conocida como la Matriz Fundamental y es de gran importancia para el anlisis de dos vistas, ya que F es constante para una geometr a a bifocal dada, no depende de m1 , m2 ni M . La ecuacin (4.16) es conocida o como la restriccin epipolar y seala que para que dos puntos m1 y m2 sean o n correspondientes, deben satisfacer (4.16). Cabe mencionar que muchas veces las coordenadas de C1 no se conocen, sin embargo a partir de la matriz de proyeccin A es posible encontrar C1 . Se o sabe que la proyeccin de C1 en la imagen 1 no est denida, y que este o a es el unico punto del espacio que no puede ser proyectado en el plano de imagen 1. Por lo tanto se puede sealar que el centro ptico debe satisfacer n o la siguiente ecuacin AC1 = [0 0 0]T , ya que el punto [0 0 0]T al tener su o tercera componente igual a cero no est denido en el plano de imagen. a

4. Visin Estreo o e

61

4.1.2.

Propiedades de la Matriz Fundamental

La Matriz Fundamental F tiene las siguientes propiedades i) Las representaciones homogneas de las l e neas epipolares l1 y l2 se denen como: l2 = Fm1 (4.17) l1 = FT m2 ii) La restriccin epipolar es o mT Fm1 = 0 2 (4.18)

iii) La matriz F es homognea, ya que kF para k = 0 tambin puede ser e e utilizada en los clculos anteriores. a iv) El determinate de F es cero, ya que |F| = |[e2 ] BA+ | = |[e2 ] | |BA+ | = 0 (4.19)

La ultima igualdad se obtiene debido a que el determinante de una matriz antisimtrica es cero, como se puede deducir de (4.12). e v) Como el determinante de F es cero, y F es homognea se dice que F e tiene slo siete grados de libertad, esto quiere decir que slo siete (de o o los nueve) elementos de F son linealmente independientes, los otros dos pueden ser calculados como funcin de los otros siete. o vi) La matriz F es constante para una geometr bifocal dada, no depende a de m1 , m2 ni M , slo depende de sus matrices de proyeccin A y B. o o vii) Los epipolos y la matriz Fundamental estn relaciones de la siguiente a manera: Fe1 = 0 y FT e2 = 0, (4.20) siendo 0 = [0 0 0]T . Estas ecuaciones sirven para calcular los epipolos, ya que se puede asumir que como e1 y e2 son representaciones homogneas, su tercera componente es uno. La relacin anterior se e o puede deducir a partir de la condicin epipolar: si se tiene un puno to m1 cualquiera en la imagen 1, se sabe que su l nea epipolar en la imagen 2 pasa por el epipolo e2 , esto quiere decir que se cumple

62

D.Mery: Visin Articial o

eT Fm1 = 0. Como esta condicin se cumple siempre para cualquier o 2 m1 entonces se puede armar que eT F = [0 0 0], o bien FT e2 = 0. El 2 mismo razonamiento se puede hacer para el epipolo e1 , con lo que se obtiene Fe1 = 0.

4.1.3.

Anlisis algebraico de dos vistas a

El problema de correspondencia en dos vistas se puede resolver algebraicamente utilizando los tensores bifocales [14, 18]. A continuacin se presenta o detalladamente el anlisis algebraico de dos vistas. a Las proyecciones de un punto 3D M en dos planos de imagen, imagen 1 e imagen 2, m1 y m2 respectivamente, tal como se aprecia en la Figura 4.1, se pueden calcular por medio de la ecuacin general de proyeccin (4.3) utio o lizando la matriz de proyeccin A para la imagen 1 y la matriz de proyeccin o o B para la segunda: 1 m1 = AM 2 m2 = BM o bien haciendo una transformacin de coordenadas para M o 1 m1 = [I | 0]M = AM 2 m2 = BM donde M = H1 M A = AH1 = [I | 0] . B = BH1 (4.22) (4.21)

(4.23)

La matriz H, de 4 4 elementos, es una matriz regular cuyas tres primeras las corresponden a la matriz A [13]. Suponiendo que la cuarta la de H es h se obtiene:

HH1 =

A h

H1 =

AH1 hH1

1 0 0 0

0 1 0 0

0 0 1 0

0 0 0 1

La ultima igualdad se obtiene sabiendo que H es regular, entonces HH1 es una matriz identidad de 4 4. Como AH1 corresponde a las primeras

4. Visin Estreo o e

63

tres las de este resultado se dice que AH1 = [I | 0], donde I es una matriz identidad de 3 3 y 0 = [0 0 0]T . Mediante la matriz H se hace una transformacin del sistema de coordenadas o en el cual se hab representado el punto M . Se trata de una transformacin a o proyectiva 3D no Eucl dea. En este nuevo sistema de coordenadas, las coor denadas de M ahora son representadas homogneamente como M. De esta e manera se obtiene una matriz de proyeccin normalizada para la primera o imagen del tipo A = [I | 0]. Reformulando (4.22) se puede escribir el sistema de ecuaciones:

1 x1 0 a 0 2 y1 0 a 0 M 3 1 0 a 0 , 1 = b1 0 x2 0 2 0 b2 0 y 2 v 0 b3 0 1
G

(4.24)

donde i y bi corresponden a la la i de la matriz A y B respectivamente, a para i = 1, 2, 3. Bajo la hiptesis de que m1 y m2 son puntos correspondientes, es decir que o ambos son proyecciones de un mismo punto 3D, existe entonces un punto M unico. En este caso el sistema de ecuaciones (4.24) tiene una solucin o no trivial para v. Por lo tanto se puede armar que bajo esta hiptesis de o correspondencia v = 0. Se observa que la matriz G es de 6 6 elementos, por lo tanto una condicin necesaria y suciente para la existencia de una o solucin no trivial de v es que el rango de G sea 5, o bien, que el determinate o de G sea igual a cero. Es decir |G| = 0. (4.25)

El determinante de G se puede obtener por medio de la frmula de Laplace o [3], en la que |G| se expande como una sumatoria de los elementos de G de una la o columna multiplicados por sus respectivos cofactores, lo cual resulta muy conveniente en matrices que tienen muchos elementos iguales a cero. Expandiendo |G| a travs de la quinta columna en la que estn los e a

64

D.Mery: Visin Articial o

elementos x1 , y1 y 1 (no hay que olvidar que los vectores la i y bi tienen a cuatro elementos) se obtiene: 2 0 a 3 0 a b1 x2 y 1 b2 y 2 b3 1 1 0 a 1 0 a 3 0 a 2 0 a b1 x2 + b1 x2 2 y2 2 y2 b b 3 1 b b3 1

|G| = x1

= 0.

A continuacin se emplea nuevamente la formula de Laplace para expandir o cada uno de los tres determinantes de 55 elementos presentes en la ecuacin o anterior. En este caso se emplea la columna en la que estn x2 , y2 y 1, a obtenindose as e : 2 a 3 a 2 y 1 x2 b b3 1 a 3 a 2 + x2 b b3 1 a 2 a 2 + b b3 1 a 1 a 3 a 2 a 1 + b1 b b2 b2

|G| = x1 x2

x1 y2

2 a 3 a 1 + y1 y2 b b3

1 a 3 a 1 y2 b b3

1 a 2 a 1 + x1 b b3

2 a 3 a 1 y1 b b2

= 0.

Esta ecuacin puede ser escrita de la siguiente manera: o x1 F11 F12 F13 |G| = [x2 y2 1] F21 F22 F23 y1 = mT Fm1 = 0, 2 1 F31 F32 F33
F

(4.26)

donde Fij = (1)i+j

j a bi

para i, j = 1, 2, 3.

(4.27)

Los trminos j y bi signican respectivamente las matrices A sin la e a la j y la matriz B sin la la i. La matriz F, de 3 3 elementos, es la conocida Matriz Fundamental de la Geometr Epipolar. Los elementos Fij se denominan los Tensores Bifocales a [14].

4. Visin Estreo o e

65

La ecuacin (4.26) se puede escribir de manera tensorial utilizando la cono vencin de Einstein para la suma tensorial2 : o |G| = mj mi Fij = 0, 1 2 donde [m1 m2 m3 ] = [x1 y1 1] = mT y [m1 m2 m3 ] = [x2 y2 1] = mT . 1 1 1 1 2 2 2 2 Para la forma cannica de la matriz de proyeccin de la primera imagen, o o = [I | 0], los tensores bifocales calculados a partir de (4.27) son: A Fij = i1,j i2,4 i2,j i1,4 , b b b b donde ik = i+k si i + k 3 . i + k 3 en caso contrario (4.29) (4.28)

La ecuacin (4.26), o bien la ecuacin (4.28), expresan matemticamente la o o a ya mencionada restriccin epipolar: para que m1 y m2 sean correspondientes, o m2 debe estar en la l nea epipolar de m1 en la segunda imagen. Se observa que la l nea epipolar l est dada entonces por: a mT l = l1 x2 + l2 y2 + l3 = 0 2 donde l = [l1 l2 l3 ]T = Fm1 , o bien en la forma tensorial: li = mj Fij . 1 (4.31) (4.30)

Es de suma importancia hacer notar que la Matriz Fundamental F es independiente de las coordenadas de m1 , m2 y M . La Matriz Fundamental es denida como una funcin de las matrices de proyeccin A y B, esto quiere o o decir que F es una funcin de la ubicacin de los planos de proyeccin y de o o o los centros pticos de ambas imgenes. o a

4.1.4.

Restriccin bifocal prctica o a

En la prctica debido a errores en la medicin y calibracin, dos puntos a o o correspondientes m1 y m2 satisfacen la condicin epipolar con una probao bilidad muy baja, ya que m2 no est exactamente sobre la l a nea epipolar l,
La convencin de Einstein para la suma de tensores indica que dos tensores que tienen o el mismo ndice deben desglosarse, multiplicndose y sumndose de la siguiente manera a a i i = 1 1 + ... + n n , siendo n el nmero de elementos de cada tensor. u
2

66

D.Mery: Visin Articial o

sino que est muy cerca. Por esta razn es necesario utilizar otro criterio de a o correspondencia. En la prctica se dice que m1 y m2 pueden ser puntos cora respondientes si la distancia m nima de m2 a l es menor que una distancia d0 . Esta distancia se calcula a partir de una l nea perpendicular a l que pase por m2 (ver Ejercicio 4.2). De esta manera, se obtiene que la restriccin epipolar o prctica se expresa como [24]: a d= |mT Fm1 | 2
2 2 l1 + l2

< d0 .

(4.32)

4.2.

Anlisis Trifocal a

En el caso de tener tres vistas de una misma escena, se estudiar si los puntos a de proyeccin m1 , m2 y m3 en las imgenes 1, 2 y 3 respectivamente, son o a puntos correspondientes, es decir si los tres puntos son proyecciones de un mismo punto 3D M . Basndose en la geometr epipolar, se puede armar a a que si se calcula la l nea epipolar de m1 y la l nea epipolar de m2 en la tercera imagen, m3 debe estar en la interseccin de ambas l o neas, ya que si m1 y m3 son correspondientes m3 debe estar en la l nea epipolar de m1 en la tercera imagen y Como la misma deduccin se puede hacer para m2 , o

m1

m2
Lneas epipolares

m3
o o

Interseccin

M
Im
o

1 g en Im a 2 g en Im a
o

ag

en

C1 C3 C2

Figura 4.4: Geometr Epipolar para tres vistas. a

4. Visin Estreo o e

67

entonces m3 debe pertenecer a ambas l neas epipolares, es decir m3 es el punto de interseccin de las l o neas, tal como se ilustra en la Figura 4.4. La Geometr Epipolar en tres imgenes seala entonces que m1 , m2 y m3 a a n son puntos correspondientes si m3 coincide con el punto de interseccin de las o l neas epipolares de m1 y m2 en la tercera imagen [10]. Esta es una condicin o necesaria y suciente. Sin embargo, el punto de interseccin no est denido si ambas l o a neas epipolares son iguales. Lamentablemente esta situacin no es poco comn. Ambas o u l neas son iguales cuando los planos epipolares 13 y 23 , denidos como los planos que contienen M , C1 y C3 , y M , C2 y C3 respectivamente, son iguales. Esto sucede en dos ocasiones: i) cuando los tres centros pticos C1 , o C2 y C3 son colineares; o bien ii) cuando los tres centros pticos C1 , C2 y C3 o no son colineares y m1 , m2 y m3 se encuentran sobre el plano denido por los tres centros pticos [8, 29]. La primera de ellas ocurre en la prctica muy o a frecuentemente, ya que se obtiene al tomar tres imgenes con una misma a cmara que se mueve en l a nea recta. Adems de las dos desventajas mencionadas para el uso de la Geometr a a Epipolar en tres vistas, hay que sealar que la Geometr Epipolar no pron a porciona un mtodo directo para analizar la correspondencia de tres puntos, e ya que es necesario calcular dos l neas epipolares y luego su interseccin. o

4.2.1.

Anlisis algebraico de la geometr trifocal a a

Una forma de estudiar el problema de la geometr trifocal es por medio a de los tensores trifocales [15, 30], que sern presentados a continuacin. Mea o diante los tensores trifocales se puede por una parte evitar las singularidades indicadas anteriormente y por otra parte obtener una solucin directa para o la correspondencia en tres vistas. Las tres proyecciones de un punto 3D expresarse matemticamente, como se a la ecuacin general de proyeccin (4.3) o o A, B y C. La forma cannica de estas o
1 m1

M en las imgenes 1, 2 y 3, pueden a hizo en la Seccin 4.1.3, a partir de o utilizando las matrices de proyeccin o ecuaciones es: (4.33)

2 m2 3 m3

= [I | 0]M = AM = BM , = CM

68

D.Mery: Visin Articial o

donde C = CH1 . Las entidades A, B, M fueron denidas en (4.23). Se sabe que si m1 , m2 y m3 son puntos correspondientes entonces debe existir una solucin para M . Una solucin conocida al problema de establecer la o o correspondencia se obtiene al reformular el sistema de ecuaciones (4.33) de la siguiente manera:

1 x1 0 0 a 2 y1 0 0 a 3 1 0 0 a b1 0 x2 0 b2 0 y 2 0 b3 0 1 0 1 0 0 x3 c 2 0 0 y3 c 3 0 0 1 c
G

M 1 = 2 3 v

0 0 0 0 0 0 0 0 0

(4.34)

donde i , bi y i son respectivamente la la i de las matrices A, B y C. a c Planteando la hiptesis de correspondencia, se puede armar que si m1 , m2 o y m3 son puntos correspondientes, entonces debe existir una solucin no o trivial para v. Cabe destacar que G es una matriz de 9 7, es decir su determinante no est denido. Sin embargo si se escogen 7 cualesquiera de a las 9 ecuaciones del sistema (4.34) se obtiene un nuevo sistema de ecuaciones cuya representacin matricial es G7 v = 0. Si v = 0 entonces el determinante o de G7 debe ser cero. Esto quiere decir que para que exista una solucin no o trivial para v todas las submatrices de G formadas a partir de 7 de sus las, debe ser cero. El desarrollo de los subdeterminantes de G a partir de la frmula de Laplace, o como se hizo en la Seccin 4.1.3, lleva a expresiones matemticas que depeno a den de las coordenadas de los puntos m1 , m2 y m3 y valores constantes para las tres imgenes que dependen slo de las tres matrices de proyeccin. Estos a o o valores constantes son los denominados tensores trifocales [14, 18, 19]. En este caso existen 36 posibles submatrices de G obtenidas a partir de la eliminacin de dos de sus las. Estas submatrices se pueden dividir en dos o tipos, aquellas que tienen slo una la de una matriz de proyeccin (9 casos) o o y aquellas que tienen las tres las de una matriz de proyeccin (27 casos). o

4. Visin Estreo o e

69

A manera de ejemplo, en el primer tipo de submatrices, se obtiene para el subdeterminante de la matriz G en la que se han eliminado las las 2 y 3: 1 x1 0 0 a 1 0 x2 0 b b2 0 y 2 0 b3 0 1 0 1 0 0 x3 c 2 0 0 y3 c 3 0 0 1 c

= x1

b1 x2 0 b2 y2 0 b3 1 0 1 0 x3 c 2 0 y3 c 3 0 1 c

= 0.

Esto lleva a que el segundo determinante es cero, ya que la solucin x1 = 0 o es trivial. Se observa que este determinante no contiene informacin de la o primera cmara, y corresponde al anlisis bifocal de las imgenes 2 y 3. La a a a expansin de este determinante es mT F23 m2 = 0, donde F23 es la matriz o 3 Fundamental de las imgenes 2 y 3. Como esta expresin no es trifocal, no a o interesa para el anlisis de tres vistas. a El segundo caso de submatrices, en las que estn presentes las tres las de a una matriz de proyeccin resulta ms interesante para el anlisis trifocal. A o a a manera de ejemplo, un subdeterminante en el que estn presentes todas las a las de la primera matriz de proyeccin ser o a: 1 x1 0 0 a 2 y1 0 0 a 3 1 0 0 a 1 0 x2 0 b b3 0 1 0 1 0 0 x3 c 3 0 0 1 c

= 0.

En este ejemplo se han eliminado las las de G en las que estn las segundas a las de B y C. Para el caso de submatrices en los que se mantienen las tres las de una de las matrices de proyeccin se obtienen tres subcasos distintos, uno para o cada matriz de proyeccin seleccionada. Para cada subcaso existen 9 subdeo terminantes posibles de los cuales slo cuatro son linealmente independiente o

70

D.Mery: Visin Articial o

del resto. Esto quiere decir que si estos cuatro subdeterminantes son cero, el resto de subdeterminantes tambin ser cero [16]. Para el caso de escoger la e a primera matriz de proyeccin los cuatro subdeterminantes son: o 1 x1 0 0 a 2 x2 0 0 a 3 1 0 0 a 1 0 x2 0 D1 = b b3 0 1 0 1 0 0 x3 c 3 0 0 1 c 1 x1 0 0 a 2 y1 0 0 a 3 1 0 0 a D3 = b2 0 y2 0 b3 0 1 0 1 0 0 x3 c 3 0 0 1 c 1 x1 0 0 a 2 y1 0 0 a 3 1 0 0 a 1 0 x2 0 = 0 D2 = b b3 0 1 0 2 0 0 y3 c 3 0 0 1 c 1 x1 0 0 a 2 y1 0 0 a 3 1 0 0 a = 0 D4 = b2 0 y2 0 b3 0 1 0 2 0 0 y3 c 3 0 0 1 c

=0

=0

Expandiendo estos determinantes por medio de la frmula de Laplace que o debe ser utilizada tres veces (una vez para la columna de m1 , otra vez para la columna de m2 y otra para la columna de m3 ) se obtiene la expresin: o
T 13 33 31 11 D1 = m1 (x3 T x3 x2 T + x2 T T ) D = mT (y T13 y x T33 + x T32 T12 ) 2 3 3 2 2 1 T 23 33 31 21 D3 = m1 (x3 T x3 y2 T + y2 T T ) T 23 33 32 22 D4 = m1 (y3 T y3 y2 T + y2 T T )

= = = =

0 0 , 0 0

(4.35)

donde
jk jk jk Tjk = [T1 T2 T3 ]T ,

y Tijk = (1)
i+1

i a j b k c

= ji ck4 j4 cki , b b

para i, j, k = 1, 2, 3

(4.36)

4. Visin Estreo o e

71

Los elementos Tijk son los denominados tensores trifocales para las imgenes a 1, 2 y 3. La ecuacin (4.35), conocida como las Trilinearidades de Shashua [31], es o de suma importancia en el anlisis trifocal ya que establece una relacin a o lineal entre las coordenadas de los puntos m1 , m2 y m3 para establecer su correspondencia. Si se cumplen las cuatro trilinearidades se dice entonces que m1 , m2 y m3 son correspondientes (condicin necesaria y suciente). o Como se observa, los tensores trifocales son dependientes exclusivamente de las matrices de proyeccin, no dependenden de los puntos m1 , m2 , m3 y M . o

4.2.2.

Deduccin alternativa de los tensores trifocales o

A continuacin se presentar otra forma de deducir las trilinearidades. Se o a puede obtener directamente del sistema de ecuaciones (4.33) una relacin o trifocal de una manera ms simple [13, 15]: A partir de la primera ecuacin a o 1 m1 = [I | 0]M: x1 1 0 0 0 1 y1 = 0 1 0 0 1 0 0 1 0 se obtiene una expresin para M: o
= M

X Y Z 1

X = Y

(4.37)

X Y Z 1

= 1

x1 y1 1 1/1

(4.38)

El clculo de la proyeccin de este punto en la segunda imagen ser entonces a o a a partir de (4.33) x2 2 y2 = 1 1

11 b 21 b 31 b

12 b 22 b 32 b

13 b 23 b 33 b

x1 14 b y 24 1 b 1 34 b 1/1

(4.39)

72

D.Mery: Visin Articial o

Sustituyendo la tercera ecuacin de (4.39) en las primeras dos quedar o a: x2 (31 x1 + 32 y1 + 33 + 34 /1 ) = (11 x1 + 12 y1 + 13 + 14 /1 ) b b b b b b b b 31 x1 + 32 y1 + 33 + 34 /1 ) = (21 x1 + 22 y1 + 23 + 24 /1 ) . y2 (b b b b b b b b (4.40) Las dos posibles soluciones para 1 son entonces: 1 = (14 34 x2 )/[x2 (31 x1 + 32 y1 + 33 ) (11 x1 + 12 y1 + 13 )] b b b b b b b b 24 34 y2 )/[y2 (31 x1 + 32 y1 + 33 ) (21 x1 + 22 y1 + 23 )] . 1 = (b b b b b b b b (4.41) Otras dos posibles soluciones para 1 pueden ser calculadas de la misma manera a partir de la tercera proyeccin de M en (4.33): o 1 = (14 c34 x3 )/[x3 (31 x1 + c32 y1 + c33 ) (11 x1 + c12 y1 + c13 )] c c c . 1 = (24 c34 y3 )/[y3 (31 x1 + c32 y1 + c33 ) (21 x1 + c22 y1 + c23 )] c c c (4.42) De esta manera se obtienen cuatro relaciones trifocales al igualar una ecuacin o de (4.41) a una ecuacin de (4.42): o

(14 c34 x3 )[x2 (31 x1 + 32 y1 + 33 ) (11 x1 + 12 y1 + 13 )] c b b b b b b 14 34 x2 )[x3 (31 x1 + c32 y1 + c33 ) (11 x1 + c12 y1 + c13 )] (b b c c = 0 (24 c34 y3 )[x2 (31 x1 + 32 y1 + 33 ) (11 x1 + 12 y1 + 13 )] c b b b b b b 14 34 x2 )[y3 (31 x1 + c32 y1 + c33 ) (21 x1 + c22 y1 + c23 )] (b b c c = 0 (14 c34 x3 )[y2 (31 x1 + 32 y1 + 33 ) (21 x1 + 22 y1 + 23 )] c b b b b b b 24 34 y2 )[x3 (31 x1 + c32 y1 + c33 ) (11 x1 + c12 y1 + c13 )] (b b c c = 0 .

(24 c34 y3 )[y2 (31 x1 + 32 y1 + 33 ) (21 x1 + 22 y1 + 23 )] c b b b b b b 24 34 y2 )[y3 (31 x1 + c32 y1 + c33 ) (21 x1 + c22 y1 + c23 )] (b b c c = 0 (4.43)

Estas cuatro ecuaciones corresponden a las Trilinearidades de Shashua [31] expresadas en (4.35), que acontinuacin se repiten: o
13 33 31 11 T m1 (x3 T x3 x2 T + x2 T T ) = 0 mT (y T13 y x T33 + x T32 T12 ) = 0 3 3 2 2 1 , mT (x3 T23 x3 y2 T33 + y2 T31 T21 ) = 0 1 23 33 32 22 T

(4.44)

m1 (y3 T y3 y2 T + y2 T T )

= 0

4. Visin Estreo o e

73

donde
jk jk jk Tjk = [T1 T2 T3 ]T ,

y Tijk = (1)
i+1

i a j b k c

= ji ck4 j4 cki , b b

para i, j, k = 1, 2, 3

Como ya se mencion, los elementos Tijk son los tensores trifocales para las o imgenes 1, 2 y 3. En forma tensorial se pueden escribir las Trilinearidades a de Shahua de la siguiente manera:
mi s rk Tijk = 0 1 j

para , = 1, 2

(4.45)

mit s = j 1 0 x2 0 1 y2
rk =

1 0 x3 0 1 y3

4.2.3.

Interpretacin geomtrica de las trilinearidades o e

A continuacin se le dar una interpretacin geomtrica a las trilinearidades o a o e basndose en la Figura 4.5. La ecuacin (4.38) corresponde al proceso de a o proyeccin de M en m1 , esto quiere decir que esta ecuacin dene la recta o o l1 : C1 , m1 que contiene los puntos C1 , M y m1 . Dnde exactamente esta o M sobre esta l nea recta no se puede determinar a partir de m1 y C1 , slo se o sabe que est en algn punto perteneciente a l1 . El parmetro 1 proporciona a u a la informacin de la ubicacin de M . En (4.39) se proyecta M en la segunda o o imagen. Las coordenadas (x2 , y2 ) de este segundo punto se pueden determinar a partir de (4.40), o bien a partir de (4.41). Estas coordenadas tienen la forma x2 = fx2 (x1 , y1 , 1 ) , y2 = fy2 (x1 , y1 , 1 ) (4.46)

esto quiere decir que los puntos posibles en la segunda imagen que satisfacen (4.46a) se encuentran sobre una l nea vertical en la que est el punto a m2 . Esta recta ha sido denominada como lx2 en la Figura 4.5. Este mismo

74

D.Mery: Visin Articial o

planteamiento es vlido para la recta horizontal ly2 que se puede denir a a partir de (4.46b). Los puntos m1 y m2 son correspondientes si l1 x2 = M y l1 y2 = M, (4.47)

donde x2 y y2 denotan los planos denidos a partir del centro ptico C2 y o la recta lx2 y la recta ly2 respectivamente. De esta manera se obtiene para la tercera proyeccin de M en la imagen 3 o las rectas lx3 y ly3 , las que son denidas a partir de (4.42): x3 = fx3 (x1 , y1 , 1 ) , y3 = fy3 (x1 , y1 , 1 ) (4.48)

Al igual que la condicin que se estableci para la correspondencia de m1 y o o m2 , se puede armar que m1 y m3 son correspondientes si l1 x3 = M y l1 y3 = M, (4.49)

x
m1 m2

x y
2

m3

y
M
P lan o
Im a 2 g en

g Im a

en 1

x3
Lne a

Im

ag

en

1

C3
P lan o

C1

y2
C2

Figura 4.5: Representacin geomtrica de las Trilinearidades (adaptada de o e [1]).

4. Visin Estreo o e

75

donde x3 y y3 son los planos denidos a partir del punto C3 con las rectas lx3 y ly3 respectivamente. Si los puntos de interseccin de (4.47) y los puntos de interseccin de (4.49) o o son iguales, entonces se ha encontrado una correspondnecia entre m1 , m2 y m3 . De esta manera las cuatro trilinearidades en esta interpretacin geo omtrica son: e l1 x2 = l1 x3 l 1 x2 = l1 y3 (4.50) l1 y2 = l1 x3 l1 y2 = l1 y3 Cada trilinearidad representa una correspondencia entre el punto m1 (en la imagen 1), una recta horizontal o vertical (en la imagen 2) que contiene a m2 y una recta horizontal o vertical (en la imagen 3) que contiene a m3 . El punto M es el punto de interseccin de la recta l1 con los planos que se forman a o partir de las rectas mencionadas con sus centros pticos respectivos. Como o ejemplo la Figura 4.5 muestra la tercera trilinearidad.

4.2.4.

Propiedades de las trilinearidades

Las principales propiedades de las cuatro trilinearidades (ver ecuaciones (4.35) y (4.44)) pueden resumirse de la siguiente manera [14, 15, 29, 30]: i) Las trilinearidades representan relaciones lineales y trifocales. Estas relaciones han sido determinadas sin emplear la Geometr Epipolar a (ver Seccin 4.2.1). o ii) Los tensores trifocales son independientes de los puntos proyectados en las tres imgenes m1 , m2 , m3 y tambin del punto 3D M . Los tensores a e trifocales son una fucnin de las matrices de proyeccin A, B y C (ver o o ecuacin (4.36)). o iii) La reproyeccin de m3 , es decir la prediccin de las coordenadas de m3 o o a partir de las coordenadas de m1 y m2 , puede calcularse directamente de las trilinearidades. La reproyeccin no tiene ninguna singularidad. o iv) Las cuatro trilinearidades son linealmente independientes.

76

D.Mery: Visin Articial o

v) Los puntos m1 , m2 y m3 (en tres imgenes distintas) son correspona dientes, si las cuatro trilinearidades son vidas (condicin necesaria y a o suciente) (ver Seccin 4.2.3). o

4.2.5.

Relacin entre la geometr bifocal y trifocal o a

Una relacin entre la geometr epipolar y las trilinearidades se presenta a o a continuacin: o Teorema 4.1 Si m1 , m2 y m3 son tres puntos en tres imgenes distintas, a entonces son correspondientes si: a) m1 y m2 satisfacen la condicin epipolar, y o b) m1 , m2 y m3 satisfacen las dos primeras o las dos ultimas trilineari dades.

Prueba: Las cuatro trilinearidades provienen de las ecuaciones (4.41) y (4.42), en las que una ecuacion de (4.41) se ha igualado a una ecuacin de (4.42). o Si se igualan sin embargo las dos ecuaciones de (4.41) se obtiene entonces la condicin epipolar entre m1 y m2 (comparar con (4.26)). Esto quiere decir o que las trilinearidades (4.44a) y (4.44c) y las trilinearidades (4.44b) y (4.44d) en este caso son iguales. En la prctica, se puede utilizar el Teorema 4.1 como criterio de correspondena cia. Es decir, m1 , m2 y m3 son puntos correspondientes si m1 y m2 satisfacen la condicin epipolar prctica (4.32) y si la distancia Eucl o a dea entre m3 y m3 (la reproyeccin de m3 ) calculado a partir de m1 y m2 es sucientemente o pequea: n d = m3 m3 < d1 , (4.51) donde la reproyeccin m3 se calcula de las dos primeras trilinearidades (4.44a) o y (4.44b): x3 mT (T11 x2 T31 ) 1 1 m3 = y3 = T 13 mT (T12 x2 T32 ) 1 m1 (T x2 T33 ) 1 mT (T13 x2 T33 ) 1

(4.52)

4. Visin Estreo o e

77

M m2 m1

R1

R2

Figura 4.6: Correspondencia en dos vistas que comparten el centro ptico o (ver Ejercicio 4.1).

4.3.

Ejercicios

Ejercicio 4.1 En el esquema de la Figura 4.6 se muestra la formacin de o dos imgenes en los planos R1 y R2 a partir de un centro ptico C. Si se a o conoce la ubicacin de m1 y las matrices 3 4 de proyeccin A y B tal o o que 1 m1 = AM y 2 m2 = BM, pero no se conoce la ubicacin de M , a) o qu restriccin existe para la ubicacin de m2 ? b) Qu relacin existe entre e o o e o A y B?

Ejercicio 4.2 En el plano (x, y) se tiene una recta l y un punto m2 , cuyas representaciones homogneas son m2 = [x2 y2 1]T y l = [l1 l2 l3 ]T . a) Calcule e la distancia mnima d (ver Figura 4.7) que existe entre m2 y l. b) En la prctica, dos puntos correspondientes en dos imgenes distintas no cumplen a a la restriccin epipolar porque la medicin de las coordenadas de los puntos, o o as como el clculo de la Matriz Fundamental F estn sujetos a errores. Por a a lo tanto se usa como restriccin prctica que dos puntos pueden ser correo a spondientes si el segundo punto est a menos de una distancia dmin de la l a nea epipolar del primer punto en la segunda imagen. Utilice el resultado de a) para expresar matemticamente esta restriccin epipolar prctica suponiendo que a o a se conocen las representaciones homogneas de los dos puntos m1 y m2 y se e conoce la Matriz Fundamental F (sugerencia: calcule la l nea epipolar l del

78
y m2 l

D.Mery: Visin Articial o

Figura 4.7: Distancia m nima de un punto m2 a una recta l (ver Problema 4.2).

primer punto en la segunda imagen; calcule la distancia d del segundo punto a la lnea epipolar usando el resultado de a); y compare esta distancia con dmin ). Ejercicio 4.3 Un sistema bifocal tiene la siguiente matriz fundamental entre la imagen 1 y 2: 1 2 2 1 F= 4 3 (4.53) 3 1 1 Encuentre el epipolo en la segunda imagen. Solucin: Se puede asumir e2 = [x2 y2 1]T . Reemplazando este valor en o (4.20b) se obtiene un sistema de tres ecuaciones con dos incgnitas. Como o det(F)=0 basta con considerar slo dos ecuaciones lineal independientes, ya o que la tercera es linealmente dependiente de las otras dos. Tomando las dos primeras ecuaciones de FT [x2 y2 1]T = 0 se obtiene: x2 + 4y2 = 3 2x2 + 3y2 = 1 Las coordenadas de e2 son entonces (x2 = 1; y2 = 1).

Cap tulo 5 Reconstruccin 3D o


En este Cap tulo se estudiarn algunos algoritmos para reconstruir las coora denadas de un punto 3D M a partir de sus vistas. Es necesario aclarar que el trmino reconstruccin empleado en tomograf computarizada es distinto e o a al usado en este Cap tulo, ya que aqu se utilizar reconstruccin en el sen a o tido de localizacin de un punto 3D y no en el sentido reconstruccin de las o o caracter sticas de la materia de este punto, como es el caso de la tomograf a computarizada. El punto 3D M se estimar entonces a partir de sus distintas proyecciones a obtenidas de las imgenes. Para este problema, las coordenadas de estas a proyecciones m1 , ... mn (en n imgenes) son conocidas y se asumir que a a estos puntos son correspondientes, es decir que son proyecciones de un mismo punto 3D. Asimismo, son conocidas las matrices de proyeccin que generaron o estos puntos a partir del punto 3D M . Las matrices de proyeccin se obtienen o a partir de algn proceso de calibracin. u o Debido a que con una sola vista la informacin de profundidad del espacio o 3D se pierde en la proyeccin, para la reconstruccin 3D son necesarias por lo o o menos dos vistas. Detrs de los mtodos de reconstruccin 3D est el concepto a e o a de triangulacin que se usa en la estimacin de un punto 3D a partir de sus o o vistas. La triangulacin consiste en inferir la informacin 3D a partir de los o o rayos que van desde los centros pticos de las imgenes respectivas hasta o a los puntos proyectados. Como es sabido que el punto 3D que produjo estas proyecciones pertenece a estos rayos se busca entonces la interseccin de ellos o en el espacio 3D. Un ejemplo para tres vistas se muestra en la Figura 5.1. En 79

80

D.Mery: Visin Articial o

m1

m2 m3

M
1 g en Im a Im n 2 ag e

Im

ag

en

C1 C3 C2

Figura 5.1: Triangulacin en tres vistas: M es la interseccin de los rayos o o Ci , mi .

este caso el punto M es la interseccin de los tres rayos C1 , m1 , C2 , m2 o y C3 , m3 1 . Como en la gran mayor de casos prcticos estos rayos no se a a intersectan (incluso para el caso de slo dos vistas), es necesario encontrar o entonces el mejor punto 3D que producir las proyecciones dadas. a A continuacin se presentarn dos mtodos de reconstruccin 3D. El primero o a e o de ellos es una reconstruccin 3D directa y lineal a partir de dos vistas. El o segundo mtodo utiliza el criterio de los m e nimos cuadrados para hacer una reconstruccin 3D a partir de dos o ms vistas. o a

5.1.

Mtodo de reconstruccin lineal para dos e o vistas

En esta seccin se realizar una estimacin del punto 3D M a partir de dos o a o puntos correspondientes m1 y m2 ubicados en la imagen 1 y la imagen 2 respectivamente (ver ilustracin en Figura 4.1a). Este mtodo fue desarrollado o e por Hartley en [13].
1

Otro ejemplo se puede apreciar en la Figura 1.3.

5. Reconstruccin 3D o

81

Como ya se vio en la Seccin 4.1.3 las ecuaciones de proyeccin en dos o o imgenes estn dadas por: a a 1 m1 = AM 2 m2 = BM (5.1)

donde M = [X Y Z 1]T y mi = [xi yi 1]T son las representaciones homogneas e de M y mi , i = 1, 2, y A y B las respectivas matrices de proyeccin de las o imgenes 1 y 2. Haciendo una transformacin de coordenadas para M, la a o ecuacin (5.1) se puede escribir como: o 1 m1 = [I | 0]M = AM 2 m2 = BM donde M = H1 M 1 A = AH = [I | 0] . B = BH1 (5.2)

(5.3)

La matriz H, de 4 4 elementos, es una matriz regular cuyas tres primeras las corresponden a la matriz A2 . La primera ecuacin de (5.2) o 1 m1 = [I | 0]M se puede reescribir como x1 1 0 0 0 1 y1 = 0 1 0 0 1 0 0 1 0

(5.4)

X Y Z 1

X = Y .

(5.5)

Con esta ecuacin es fcil obtener una expresin para M, es decir las coordeo a o nadas de M en un sistema de coordenadas transformadas, en el que la matriz de proyeccin tiene una forma cannica del tipo [I | 0]: o o

M=

X Y Z 1

= 1

x1 y1 1 1/1

(5.6)

La demostracin de AH1 = [I | 0] se puede encontrar en la Seccin 4.1.3. o o

82

D.Mery: Visin Articial o

Se observa que 1 establece en qu lugar del rayo que produce m1 se encuentra e M . Utilizando (5.2), la proyeccin de este punto 3D en la segunda imagen o es: x1 11 12 13 14 b b b b x2 22 23 24 y1 . 2 y2 = 1 b21 b (5.7) b b 1 31 32 33 34 1 b b b b 1/
1

Suponiendo que se conocen las coordenadas de m1 y m2 , y tambin se conoce e entonces la ecuacin (5.7) representa un sistema la matriz de proyeccin B, o o de tres ecuaciones con dos incgnitas (1 y 2 ). Si m1 y m2 son puntos o correspondientes se puede establecer una solucin a partir de dos de las tres o ecuaciones. Las primeras dos ecuaciones son: 2 x2 = 111 x1 + 112 y1 + 113 + 14 b b b b . 2 y2 = 121 x1 + 122 y1 + 123 + 34 b b b b (5.8)

Estas ecuaciones se pueden dividir para cancelar 2 . De esta manera se puede obtener la siguiente ecuacin: o x2 (121 x1 + 122 y1 + 123 + 34 ) = b b b b 11 x1 + 112 y1 + 113 + 14 ) y2 (1 b b b b A partir de esta ecuacin se puede despejar 1 : o 1 = y214 x224 b b 21 + y1 x222 + x223 x1 y211 y1 y212 y213 x1 x2 b b b b b b (5.10) (5.9)

que, utilizando m1 = [x1 y1 1]T , puede ser escrito como: 1 = (x2 [21 b (y214 x224 ) b b 22 23 ] y2 [11 12 13 ])m1 b b b b b (5.11)

Substituyendo en (5.6) el valor obtenido para 1 en (5.11), y utilizando la denicin de M a partir de M en (5.3a) se obtiene el punto 3D reconstruido. o

M = H1 M = H1

(x2 [21 b

(y214 x224 )m1 b b 22 23 ]y2 [11 12 13 ])m1 b b b b b

(5.12)

De esta manera se obtiene una estimacin de M a partir de dos puntos m1 o y m2 cuyas coordenadas son (x1 , y1 ) y (x2 , y2 ).

5. Reconstruccin 3D o

83

5.2.

Reconstruccin 3D para dos o ms vistas o a

En n vistas distintas (n 2) se tienen los puntos correspondientes mi , i = 1, ..., n. El punto 3D M que produjo estas proyecciones se puede obtener por medio del mtodo de los m e nimos cuadrados [6]. La representacin homognea de los puntos correspondientes est dada por o e a T T mi = [xi yi 1] , y para M ser M = [X Y Z 1] . Cada proyeccin proa o porciona un sistema de ecuaciones i mi = Pi M, donde Pi es la matriz de proyeccin de la imagen i. Este sistema de ecuaciones es de tres ecuaciones o con cuatro incgnitas X, Y , Z y i . Para i = 1, ..., n se obtiene entonces el o sistema de 3n ecuaciones con 3 + n incgnitas (X, Y , Z, 1 , ..., n ): o

1 x1 1 y1 1 : n xn n yn n

p1 11 p1 21 p1 31 : pn 11 pn 21 pn 31

p1 12 p1 22 p1 32 : pn 12 pn 22 pn 32

p1 13 p1 23 p1 33 : pn 13 pn 23 pn 33

p1 14 p1 24 p1 34 : pn 14 pn 24 pn 34

X Y Z 1

(5.13)

donde pi corresponde al elemento (j, k) de la mtriz Pi . De la tercera a jk ecuacin de cada proyeccin se obtiene: o o i = pi X + pi Y + pi Z + pi 31 32 33 34 Este valor encontrado para i puede reemplazarse en (5.13) dando:

(5.14)

(p1 X + p1 Y + p1 Z + p1 )x1 31 32 33 34 (p1 X + p1 Y + p1 Z + p1 )y1 31 32 33 34 : n n n n (p31 X + p32 Y + p33 Z + p34 )xn n n n (p31 X + p32 Y + p33 Z + pn )yn 34

p1 11 p1 21 : pn 11 pn 21

p1 12 p1 22 : pn 12 pn 22

p1 13 p1 23 : pn 13 pn 23

p1 14 p1 24 : pn 14 pn 24

X Y Z , (5.15)

Se obtiene as un nuevo sistema de ecuaciones con 2n ecuaciones con slo o 3 incgnitas (X, Y y Z), ya que en (5.14) se obtuvo una expresin para i o o en funcin de X, Y y Z. La ecuacin anterior puede ser reformulada de la o o

84 siguiente manera:

D.Mery: Visin Articial o

p1 x1 p1 31 11 p1 y1 p1 31 21 : pn xn pn 31 11 pn yn pn 31 21

p1 x1 p1 32 12 p 1 y1 p 1 32 22 : pn xn pn 32 12 pn yn pn 32 22
Q

p1 x1 p1 33 13 p1 y1 p1 33 23 : pn xn pn 33 13 pn yn pn 33 23

X Y = Z

p1 p1 x1 14 34 p1 p1 y1 24 34 : pn pn xn 14 34 pn pn yn 24 34
r

(5.16) En caso de que el rango de Q sea tres, existe una solucin para M = o Y Z 1]T utilizando el mtodo de los m [X e nimos cuadrados: [X Y Z]T = [QT Q]1 QT r (5.17)

Este mtodo puede usarse tambin para n = 2 proyecciones, sin embargo e e el nmero de operaciones necesrias para obtener la reconstruccin de M es u o mayor que las que se necesitan utilizando el mtodo de la Seccin 5.1 donde e o no hay que calcular las matrices Q y [QT Q]1 . En el mtodo de los m e nimos cuadrados se ha minimizado QM r 2 con respecto a M. Esto tiene la gran ventaja de poder obtener una solucin o sin embargo, la gran desventaja es que la expresin no iterativa para M, o QMr no tiene una buena interpretacion f sica. Una alternativa interesante es presentada en [6], donde se minimiza
n

J(M) =
i=1

(i xi )2 + (i yi )2 x y

(5.18)

donde (xi , yi ) son las coordenadas de mi y (i , yi ) son las estimaciones de x mi obtenidas del modelo de proyeccin a partir de i mi = Pi M. En este o tal que se minimice problema se debe encontrar el mejor M, es decir M, la funcin de costo (5.18). La solucin de este problema de optimizacin se o o o puede obtener mediante mtodos iterativos como los mtodos de gradiente e e [32]. En este caso el valor inicial de la iteracin puede ser el encontrado en o (5.17).

Cap tulo 6 Matching y tracking


6.1. Introduccin o

En este cap tulo se analizarn distintas tcnicas para establecer la correa e spondencia entre elementos que estn presentes en varias imgenes. En la a a Seccin 6.2 se estudiar en detalle el matching en dos vistas. Se presenta la o a correspondencia punto-punto, l nea-l nea y regin-regin. En la Seccin 6.3 o o o se estudia el seguimiento, o tracking, de un objeto a lo largo de una secuencia de imgenes. a

6.2.

Matching

El trmino matching se utiliza en visin articial para establecer la coe o rrespondencia entre imgenes distintas de un mismo objeto. Comnmente, a u se emplea como objeto un punto, una l nea o una regin. Como ya se estuo di con detalle en el Cap o tulo 4, se sabe que una condicin necesaria pero no o suciente para establecer la correspondencia en dos puntos (en dos imgenes a distintas) es la condicin epipolar. Se plantea entonces la pregunta qu otros o e criterios se pueden emplear para realizar el matching de dos puntos? En esta seccin se estudiarn algunas posibilidades. o a 85

86
J

D.Mery: Visin Articial o

Imagen 1

Imagen 2

Figura 6.1: Flujo ptico: en la imagen 2 se busca la ventana roja ms parecida o a a la ventana I = 5, J = 5 de la imagen 1.

6.2.1.

Correspondencia entre puntos

Una posibilidad la da el ujo ptico, que corresponde a un conjunto de veco tores que indica el movimiento de una imagen hacia otra. En el ujo ptico o primero se divide la primera imagen en ventanas pequeas. Luego, para cada n una de estas ventanas se busca en la segunda imagen la ventana (de las mismas dimensiones) que sea lo ms parecida posible a la ventana de la primera a imagen. Finalmente, teniendo la ubicacin de la ventana en la primera y en o la segunda imagen, se obtiene un vector de desplazamiento. Este vector se puede interpretar como el movimiento que sufri la ventana de la primera o imagen para transformarse en la ventana de la segunda imagen. Como se puede apreciar, este mtodo slo se puede usar si la diferencia entre las dos e o imgenes es pequea, ya que para un movimiento mayor, por ejemplo una a n rotacin de 900 , no ser posible encontrar las ventanas similares. o a Matemticamente se puede establecer que si las imgenes son I1 e I2 , cuyos a a tamaos son N M , se puede dividir la imagen en ventanas de nm. Siendo n los ndices I = 1, ..., n y J = 1, ...m los que indican cul de las ventanas de I1 a se va a analizar, se puede encontrar el vector de desplazamiento vIJ = (kI , kJ )

6. Matching y tracking

87

minimizando la funcin objetivo que calcula el valor absoluto de la diferencia o entre la ventana (I, J) de la imagen I1 con una ventana en la imagen I2 desplazada kI p xels y kJ p xels en la direccin i y j respectivamente, es o decir:
n m

kI , kJ = arg m n
i=1 j=1

|I1 (nI + i, mJ + j) I2 (nI + i + kI , mJ + j + kJ )|

(6.1)

En la Figura 6.1 se muestra a manera de ejemplo el vector de desplazamiento v55 . El vector de desplazamiento tambin se puede encontrar maximizando e una funcin objetivo que calcule la correlacin entre las dos ventanas: o o
n m

kI , kJ = arg mx a
i=1 j=1

I1 (nI + i, mJ + j)I2 (nI + i + kI , mJ + j + kJ )

(6.2)

o bien utilizando la correlacin normalizada: o


n i=1 n i=1 m I (nI j=1 1

kI , kJ = arg mx a

+ i, mJ + j)I2 (nI + i + kI , mJ + j + kJ )
n i=1 m I 2 (nI j=1 2

m I 2 (nI j=1 1

(6.3)

+ i, mJ + j)

+ i + kI , mJ + j + kJ )

En la Figura 6.2 se muestran dos imgenes en una esquina en las que se a observa que ha habido un movimiento de los automviles. Al calcular el ujo o ptico, slo en las porciones en que ha ocurrido un cambio se detectar un o o a vector de desplazamiento mayor que cero. Se puede pensar entonces, que esta herramienta puede ser de gran utilidad para encontrar la correspondencia entre dos puntos de dos imgenes distintas, a ya que para un punto en la imagen I1 se puede buscar su correspondiente en la imagen I2 buscando la interseccin del vector de desplazamiento del ujo o ptico con la l o nea epipolar del primer punto en la imagen I2 . Existen tambin e tcnicas ms sosticadas en que la ventana en la imagen I2 no necesariamente e a tiene la misma orientacin y tamao de la ventana de la imagen 1 [27]. o n Es necesario tomar en cuenta que el ujo ptico presenta dos problemas: o oclusin y ambigedad. En el primero no es posible realizar el matching si o u el objeto que aparece en la ventana de bsqueda en I1 ya no aparece en la u imagen I2 . En el problema de ambigedad, el matching puede equivocarse si u a o lo que se desea buscar en la imagen I2 est repetido. Esta situacin se puede

88

D.Mery: Visin Articial o

Imagen 1

Flujo ptico

Imagen 2

Figura 6.2: Ejemplo de ujo ptico [2]. o

producir por ejemplo en la Figura 6.1 si la ventana de la imagen I1 es ms a pequea a la indicada y contiene la ventana izquierda de la torre que aparece n en la parte superior derecha de la imagen. Al buscar el matching en la imagen I2 no se podr diferenciar entre las dos ventanas que tiene la torre, es posible a entonces que el algoritmo asocie la ventana izquierda con la ventana derecha.

6.2.2.

Correspondencia entre l neas

Establecer la correspondencia entre dos l neas (en dos imgenes distintas) a no tiene mucho sentido, ya que en la gran mayor de los casos existe una a l nea 3D que podr haber producido las l a neas en las imgenes. Tal como se a muestra en la Figura 6.3, la interseccin de los planos C1 , l1 y C2 , l2 > o proporciona una l nea en el espacio 3D, que proyectada en ambas imgenes a corresponde con las l neas originales l1 y l2 , sin embargo es posible que l1 haya sido producida por otra l nea 3D que pertenezca al plano < C1 , l1 >, en este caso la interseccin de los planos no proporciona una condicin suciente o o

6. Matching y tracking

89

a1 ne L
Ln ea 2

gen Im a

Ima gen

Figura 6.3: Anlisis de l a neas correspondientes.

para establecer la correspondencia. Un caso particular se produce cuando los planos son paralelos y no tienen una l nea 3D de interseccin, en este caso o se dice que las l neas l1 y l2 no son correspondientes. Otro caso particular es cuando ambos planos son iguales, en este caso existen innitas l neas 3D que podr proyectarse como l1 y l2 , lo que quiere decir que las l an neas podr an ser correspondientes. Para establecer si dos l neas son correspondiente es conveniente introducir criterios adicionales al descrito anteriormente. Estos criterios deben analizar por ejemplo las caracter sticas de color de cada una de las l neas o bien la longitud. En el segundo caso sin embargo, es dif establecer si las l cil neas en las imgenes son proyecciones de la misma porcin de la l a o nea 3D.

6.2.3.

Correspondencia entre regiones

Una tcnica muy utilizada para establecer la correspondencia de objetos coe rrespondientes en dos imgenes es la de bsqueda de regiones similares. En a u esta tcnica se segmentan en cada una de las dos imgenes las regiones que e a sean de inters. Luego, se extraen las caracter e sticas de estas regiones y se comparan las caracter sticas de las regiones de la imagen 1 con las carac-

Lnea 3D

90

D.Mery: Visin Articial o

ter sticas de las regiones de la imagen 2. Aquellas regiones que tengan caracter sticas similares y que estn ubicadas obedeciendo la condicin epipolar e o sern entonces regiones correspondientes. a En esta seccin se describen algunas caracter o sticas que pueden ser empleadas para describir cuantitativamente regiones que hayan sido segmentadas en una imagen. Se entender por regin aquel conjunto de p a o xels que pertenezcan a una misma zona de la imagen y que est limitado por bordes. Se asumir que e a los bordes no pertenecen a la regin. o Para explicar las caracter sticas que se detallarn a continuacin se usar el a o a ejemplo de la Figura 6.4. En este ejemplo se presenta una regin circular o que ha sido segmentada. La regin entonces se conforma por los p o xels que pertenecen al c rculo (pero no a su per metro), es decir los p xels que han sido marcados con color gris en la Figura 6.4b. Los bordes de la regin denen el o l mite de la regin. o Las caracter sticas que se pueden extraer de una regin se dividen en dos o categor caractersticas geomtricas y caracter as: e sticas de color.

6.2.4.

Caracter sticas geomtricas e

A continuacin se enumeran algunas caracter o sticas geomtricas que se usan e comnmente en el reconocimiento de patrones. u
1 2 3 4 1 2 3 4 5 6 7 8 9 10 11 5 6 7 8 9 10 11

j g[i,j] Pixel (4,6)

i (c)

i (a) (b)

Figura 6.4: Ejemplo de una regin: a) Imagen. b) Regin segmentada. c) o o Representacin 3D de los valores de gris de la regin y su entorno. o o

6. Matching y tracking

91

Altura y ancho (h y w): La altura y el ancho de una regin se denen o como: h = imax imin + 1 y w = jmax jmin + 1 (6.4) donde imax e imin representan el valor mximo y m a nimo que toma la coordenada i en la regin (ver Figura 6.4), y lo mismo es vlido para jmax y jmin . o a En el ejemplo mostrado h = w = 7 p xels. Area (A): El rea de una regin se dene como el nmero de los p a o u xels de la regin. En el ejemplo A = 45 p o xels. Per metro (L): El per metro de una regin puede ser denido de varias o maneras. Una denicin prctica, mas no exacta, es tomar el per o a metro como 1 el nmero de p u xels que pertenecen al borde de la regin . En el ejemplo de o la Figura 6.4b, L es el nmero de p u xels marcados en color blanco, es decir L = 24. Redondez (R): Esta caracter stica que indica la calidad de redondo de una regin es una medida de su forma. La redondez se dene como [17]: o R= 4A L2 (6.5)

La redondez R de una regin estar entre los valores 0 y 1. Tericamente o a o R = 1 para un c rculo (perfecto); y R = 0 para una regin que tenga altura o y/o ancho igual a cero. En la prctica sin embargo, debido al muestreo en el a espacio de la regin estos valores presentan desviaciones como se puede ver en o la regin circular de nuestro ejemplo. En este caso R = 4 45 /242 = 0, 98. o Momentos: Los momentos estad sticos se denen como mrs =
i,j

ir j s

para r, s N

(6.6)

donde es el conjunto de p xels de la regin. En el ejemplo de la Figura o 6.4b el pixel cuyas coordenadas son (i = 4, j = 6) pertenece a este conjunto. El parmetro r + s denota el orden del momento. El momento de orden cero a
Otras deniciones ms exactas consideran el factor 2 para p a xels del borde de la regin que estn en diagonal, como por ejemplo en el caso de un borde que contenga los o e p xels (i, j) y (i + 1, j + 1) [4]. En este caso existe un compromiso entre la precisin y el o costo computacional que requiere su clculo. a
1

92

D.Mery: Visin Articial o

m00 corresponde al rea de la regin A. El centro de gravedad de una regin a o o queda denido por: m10 m01 = = (6.7) m00 m00 Con ayuda de las coordenadas del centro de gravedad se denen los momentos centrales que son invariantes al desplazamiento de la regin en la imagen. o rs =
i,j

(i )r (j )s

para r, s N

(6.8)

Muy conocidos en la teor de reconocimiento de patrones son las caraca ter sticas derivadas de los momentos centrales, denominados momentos de Hu [20, 34]: 1 2 3 4 5 6 7 con rs = rs t 00 t= r+s + 1. 2 = = = = = 20 02 2 (20 02 )2 + 411 (30 312 )2 + (321 03 )2 (30 + 12 )2 + (21 + 03 )2 (30 312 )(30 + 12 )[(30 + 12 )2 3(21 + 03 )2 ]+ (321 03 )(21 + 03 )[3(30 + 12 )2 (21 + 03 )2 ] = (20 02 )[(30 + 12 )2 (21 + 03 )2 ]+ 411 (30 + 12 )(21 + 03 ) = (321 03 )(30 + 12 )[(30 + 12 )2 3(21 + 03 )2 ] (30 312 )(21 + 03 )[3(30 + 12 )2 (21 + 03 )2 ]

(6.9)

Los momentos de Hu son invariantes a la traslacin, rotacin y escalamiento. o o Esto quiere decir que dos regiones que tengan la misma forma pero que sean de distinto tamao y que estn ubicados en posiciones y orientaciones n e distintas en la imagen tendrn momentos de Hu iguales. a A veces sin embargo, es necesario contar con caracter sticas que adems sean a inavariantes a las transformadas anes. Un conjunto alternativo de caracter sticas que son invariantes a la traslacin, rotacin, escalamiento y tamo o bin a transformaciones anes se puede derivar de los momentos de segundo e y tercer orden [33]: I1 = 20 02 2 11 4 00

6. Matching y tracking

93

I2 =

2 2 630 21 12 03 + 430 3 + 43 03 32 2 30 03 12 21 21 12 10 00 (6.10)

20 (21 03 2 ) 11 (30 03 21 12 ) + 02 (30 12 2 ) 12 21 I3 = 7 00 I4 = (3 2 62 11 12 03 62 02 21 03 + 92 02 2 20 03 20 20 20 12 1220 2 21 03 + 620 11 02 30 03 1820 11 02 21 12 11 83 30 03 620 2 30 12 + 920 2 21 11 02 02 +122 02 30 12 611 2 30 21 + 3 2 )/11 11 02 02 30 00

Descriptores de Fourier: Una buena caracterizacin de la forma de o una regin se logra utilizando los descriptores de Fourier [5, 28, 36]. Las o coordenadas (ik , jk ) de los p xels del borde, para k = 0, ..., L 1 de una regin se agrupan un sentido de giro conformando un nmero complejo o en u (ik +j jk ) con j = 1, donde L es el per metro de la regin denido como el o nmero de p u xels del borde de la regin. La l o nea continua formada por estas coordenadas corresponden a una seal peridica que puede ser transformada n o al dominio de Fourier por medio de la Transformada Discreta de Fourier (DFT) [4]:
L1

Fn =
k=0

(ik + j jk )ej

2kn L

para n = 0, ..., L 1.

(6.11)

Los descriptores de Fourier corresponden al mdulo de los coecientes como plejos de Fourier. Como se puede apreciar los descriptores de Fourier son invariantes a la rotacin de la regin. El primer descriptor de Fourier |F0 | o o da informacin de la ubicacin de la regin en la imagen. Los descriptores o o o que son invariantes a la posicin de la regin son los siguientes descriptores. o o La fase de los coecientes de Fourier proporciona informacin acerca de la o orientacin y de la simetr de las regiones. o a En la Figura 6.5 se muestran los descriptores de Fourier para el ejemplo de la Figura 6.4. En este ejemplo el pixel de partida es (i0 , j0 ) = (6, 10). En el caso de un c rculo ideal los descriptores ser |Fn | = 0 para 1 < n < L, ya que an la representacin de las coordenadas (ik , jk ) corresponder a una sinusoide o an perfecta.

94
12 200 10 180

D.Mery: Visin Articial o

|F n |

jk
8

160 140 120

ik

100 80

4 60 2 40 20 0 0 5 10 15 20 0 0 5 10 15 20

Figura 6.5: Coordenadas del borde de la regin de la Figura 6.4 y sus deo scriptores de Fourier.

6.2.5.

Caracter sticas de color

Antes de entrar a denir las caracter sticas del color es necesario saber si la imagen que se pretende analizar es a color o en blanco y negro. En el primer caso el color se descompone en tres componentes (rojo, verde y azul) para cada p de la imagen, en el segundo caso se cuenta slo con el tono xel o de gris en cada p xel. Las caracter sticas que se mencionan a continuacin o son para una sola variable de color. Esta variable puede ser cada una de las componentes del color, una combinacin lineal de las tres componentes o bien o simplemente el tono de gris. La informacin entonces necesaria para calcular o estas caracter sticas es el valor de esta variable de color en cada p xel que es representada como x[i, j] para el p (i, j) de la imagen. Es posible que xel en algunas aplicaciones sea necesario analizar de manera independiente dos variables de color, por ejemplo la componente en rojo y la componente en azul. En este tipo de aplicaciones ser necesario extraer las caracter a sticas de color para cada una de las variables de color requeridas. Color promedio (G): Esta caracter stica es el promedio de la variable de color que se dene como: G= 1 x[i, j] A i,j (6.12)

donde denota el conjunto de p xels de la regin y x[i, j] el valor de la o variable de color en el p (i, j). xel

6. Matching y tracking

95

El nmero de p u xels de la regin o es A, el rea de la regin. Una reprea o sentacin 3D de la variable de color de una regin y su entorno se muestra en o o la Figura 6.4c. En este caso se trabaja con el valor de gris, ya que la imagen es blanco y negro. Para este ejemplo el promedio es G = 121, 90 (G=0 signica 100 % negro y G=255 corresponde a 100 % blanco). Gradiente promedio en el borde (C): Esta caracter stica toma el valor promedio del gradiente de la variable de color en el borde de la regin. o Con esta caracter stica se puede medir qu tan abrupto es el cambio en la e coloracin en la regin con respecto a su entorno. El gradiente promedio en o o el borde se calcula como: C= 1 x [i, j] L i,j (6.13)

donde x [i, j] es el mdulo del gradiente de la variable de color del p (i, j). o xel Los p xels a evaluar pertenecen exclusivamente al borde. Estos p xels conforman el conjunto . El nmero de p u xels del conjunto es L, el per metro de la regin. El gradiente puede ser calculado utilizando el operador de gradiente o de Gauss [4], en este caso para el ejemplo de la Figura 6.4 C = 35, 47. Promedio de la segunda derivada (D): Esta caracter stica se calcula como el promedio de la segunda derivada de la variable de color en la regin: o D= 1 x [i, j] A i,j (6.14)

donde x [i, j] denota el mdulo de la segunda derivada de la variable de color o en el p (i, j), y el conjunto de p xel xles que pertenecen a la regin. Para o calcular la segunda derivada se puede utilizar el operado LoG (Laplacian-ofGauss) [25, 4]. Es necesario observar que D < 0 signica que la regin es ms o a clara que su entorno (es decir que su variable de color es mayor en la regin o que fuera de ella). As mismo D > 0 indica una regin ms oscura que su o a entorno. Contraste: El contraste de una regin es concebido como una medida o para la diferencia de color entre la regin y su entorno. Regin y entorno o o no tienen p xels en comn, y conforman una zona, que puede ser denida u como un rectngulo: La zona entonces queda denida como la ventana a g[i, j] = x[i + ir , j + jr ] (6.15)

96

D.Mery: Visin Articial o

para i = 1, ..., 2h+1 y j = 1, ..., 2w +1, donde h y w representan la altura y el ancho de la regin respectivamente (ver ecuacin (6.4)). Los puntos centrales o o de estas zonas se denen como ir = h 1 y jr = b 1, donde (, ) corresponde al centro de gravedad de la regin (ver ecuacin (6.7)). o o Entre ms pequea sea la diferencia de la variable de color en la regin a n o con respecto a su entorno, ms pequeo ser el contraste. Para visualizar el a n a contraste se pueden representar la variable de color de una zona como una funcin 3D, donde el eje x y el eje y representan el eje i y el eje j de la imagen, o y el eje z el valor de la variable de color que toma el pixel correspondiente, es decir g[i, j]. La Figura 6.4c muestra esta representacin para el ejemplo o de la Figura 6.4a. Se reconoce en este ejemplo una regin de alto contraste. o El contraste se dene matemticamente de diversas formas. Una denicin a o comnmente usada es utilizando caracter u sticas de textura [4], que sern a explicadas posteriormente. Otras deniciones de contraste [23, 33] se dan a continuacin: o K1 = G Ge , Ge K2 = G Ge G + Ge y K3 = ln(G/Ge ), (6.16)

donde G y Ge representan el promedio de la variable de color en la regin y o en el entorno respectivamente. Una nueva forma de calcular el contraste se muestra en [26]. El clculo de a esta caracter stica se obtiene en tres pasos: i) Extraccin del color en los ejes principales de la zona: se calculan dos o funciones de color P1 y P2 . La primera funcin P1 toma los valores de la o variable de color en la direccin i y la segunda funcin P2 en la direccin j. o o o Ambas funciones se centran en los centros de gravedad. En el ejemplo de la Figura 6.4b el centro de gravedad est en el p (6,6), esto quiere decir que a xel P1 y P2 son los valores del tono de gris de la zona de la columna 6 y de la la 6 respectivamente, tal como se muestra en la Figura 6.6a-b. ii) Aislamiento de la regin: Para aislar la regin de su entorno se trata o o de eliminar el fondo de la regin, que se modela como una funcin lineal o o de primer orden, es decir una rampa. Se asume entonces que los valores extremos de P1 y P2 pertenecen las rampas R1 y R2 , tal como se ilustra en la Figura 6.6a-b. Las rampas sern substra a das de las funciones originales para conformar Q1 = P1 R1 y Q2 = P2 R2 que se fusionan en la nueva funcin o Q como se muestra en la Figura 6.6c.

6. Matching y tracking
180

97

P1 R1
0 1 2 3 4 5 6 7 8 9 10 11 1 2

P2 R2
3 4 5 6 7 8 9 10 11 1 2

Q =Q1
3 4 5 6 7 8 9 10 1 1

=Q2
12 13 14 15 16 17 18 19 20 21

(a)

(b)

(c)

Figura 6.6: Clculo del contraste para la Figura 6.4: a) valor de gris de la a zona y rampa en direccin i; b) valor de gris de la zona y rampa en direccin o o j; c) fusin de las funciones de a) y b) sin rampas. o

iii) Clculo del contraste: a partir de la nueva funcin Q se denen dos nuevos a o contrastes: K = Q y K = ln(Qmax Qmin ) (6.17) donde Q , Qmax y Qmin representan la desviacin estndar, el mximo y el o a a m nimo de Q respectivamente. Momentos: Los momentos denidos en la Seccin 6.2.4 pueden ser utio lizados en el anlisis de color de la regin si en la ecuacin del clculo de los a o o a momentos (6.6) se incorpora la informacin de la variable de color: o mrs =
i,j

ir j s x[i, j]

para r, s N .

(6.18)

La sumatoria se calcula sobre los pixels (i, j) de la regin. De esta manera o se pueden calcular las caracter sticas indicadas en (6.9) y (6.10) que incorporen la informacin del color segn (6.18), el resultado ser el conjunto de o u a caracter sticas 1 ...7 e I1 ...I4 . Caracter sticas de textura: Las caracter sticas de textura proporcionan informacin sobre la distribucin espacial del color en la imagen. Para el o o anlisis de regiones se pueden aplicar las caracter a sticas de textura no a la imagen entera sino slo a las zonas (regin y entorno) como se deni en o o o (6.15). Una caracter stica simple de textura es la varianza local [21] denida como:
2 g = 2h+1 2b+1 1 .(g[i, j] g )2 4hb + 2h + 2b i=1 j=1

(6.19)

98

D.Mery: Visin Articial o

donde g denota el valor promedio de la variable de color en la zona. Otras caracter sticas de textura se obtienen por medio de la matriz de coocur2 rencia . La matriz de coocurrencia se denotar como Pkl , donde el elemento a Pkl [i, j] otorga el valor de frecuencia (divido por NT ) de ocurrencia de los valores de color i y j en dos p xels ubicados en una posicin relativa dada o por el vector (k, l). La variable NT signica el nmero de p u xels que fueron necesarios para calcular Pkl , con esto se normaliza la matriz de coocurrencia ya que la suma de todos sus elementos es uno. Si la variable de color tiene una resolucin de 256, por ejemplo de 0 a 255, el o tamao de la matriz de coocurrencia Pkl ser 256 256. Ya que esto implica n a un costo computacional muy alto, es comn que se utilicen matrices ms u a pequeas empleando slo los bits ms signicativos de la variable de color n o a [4]. A manera de ejemplo, se puede tener una matriz de coocurrencia de 8 8 agrupando el valor de la variable de color x en [0, ..., 31], [32, ..., 63], ... [224, ..., 255]. Algunas caracter sticas de textura para imgenes (o zonas) cuyas matrices a de coocurrencia sean de Nx Nx elementos se presentan a continuacin [4, o 33, 12, 9]: Entrop a:
Nx Nx

Hkl =
i=1 j=1

Pkl [i, j] log(Pkl [i, j])

(6.20)

Inercia o contraste: Ikl = Homogenidad o energ a:

Nx Nx

(i j)2 Pkl [i, j]

(6.21)

i=1 j=1

Nx Nx

Ekl = Momento de diferencia inverso: Zkl =


2

[Pkl [i, j]]2

(6.22)

i=1 j=1

Pkl [i, j] 2 i=1 j=1 1 + (i j)

Nx Nx

(6.23)

del ingls co-occurence matrix. e

6. Matching y tracking

99

6.2.6.

Criterios de correspondencia entre regiones

Para establecer si dos regiones r1 y r2 , en dos imgenes distintas, son correspona dientes se utilizan los siguientes criterios: Condicin epipolar: o Los centros de gravedad de las regiones deben satisfacer la condicin o epipolar . Como la condicin epipolar se aplica a puntos (y no a regiones) es o necesario simplicar la regin en un punto. Esto se hace tomando el o centro de gravedad de la regin. Esta simplicacin est sujeta a un o o a error, que muchas veces puede ser considerablemente grande, ya que los centros de gravedad no necesariamente corresponden a la proyeccin del o mismo punto 3D en el espacio. A manera de ejemplo esta simplicacin o es cierta si se tratara de regiones esfricas, donde la proyeccin del e o centro de gravedad de la esfera coincide con los centros de gravedad de las regiones en las imgenes. Sin embargo, las regiones reales no a son proyecciones de esferas, por esta razn el uso de este criterio debe o usarse sabiendo que est sujeto a error. Este criterio slo debe usarse a o si se trabaja con regiones circulares o si la rotacin relativa del objeto o (o de las cmaras) en ambas imgenes es pequea. a a n Si m1 y m2 son los centros de gravedad de r1 y r2 respectivamente, es necesario comprobar entonces si satisfacen la condicin epipolar. Para o esto se utiliza comnmente la restriccin epipolar prctica, que seala u o a n que m1 y m2 satisfacen la condicin epipolar si m2 se encuentra a una o distancia Eucl dea de la l nea epipolar de m1 en la segunda imagen a una distancia pequea (ver ecuacin (4.32)). n o d2 (m1 , F, m2 ) = |mT Fm1 | 2
2 2 l1 + l2

< 2

(6.24)

donde F la matriz fundamental existente entre la imagen 1 y 2, y [l1 l2 l3 ]T = Fm1 . Coloracin correcta de las regiones con su entorno: o Ambas regiones deben ser o bien ms claras, o bien ms oscuras que su a a entorno. Si una regin en la imagen 1 es ms clara que su entorno se puede o a

100

D.Mery: Visin Articial o

pensar que en la imagen 2 su regin correspondiente tambin deber o e a ser ms clara que su entorno(suponiendo la misma iluminacin). El a o mismo criterio se puede aplicar para regiones que sean ms oscuras que a su entorno. Por esta razn, para que las regiones sean correspondientes, o la coloracin relativa de las regiones con respecto a su entorno debe ser o la misma. Para expresar matemticamente este criterio se puede decir a que el signo del promedio de la segunda derivada de la variable de color (ver ecuacin (6.14)) de las regiones debe ser igual: o 1 para x > 0 0 para x = 0 . sgn(D1 ) = sgn(D2 ) con sgn(x) 1 para x < 0 (6.25) donde D1 y D2 son los promedios de la segunda derivada de las regiones. Criterio de similitud: Las regiones deben ser similares. Antes de investigar qu tan similares son las regiones, es necesario hacer e un estudio de cuales caracter sticas son las que proporcionan informacin relevante, esto se logra haciendo un anlisis estad o a stico [22, 11]. Suponiendo que se hayan extra n caracter do sticas3 de cada una de las regiones r1 y r2 se tiene entonces los vectores de caracter sticas z1 = [z11 z12 ... z1n ]T y z2 = [z21 z22 ... z2n ]T para r1 y r2 respectivamenteEl criterio de similitud evala la distancia Eucl u dea ente los vectores de caracter sticas z1 y z2 . De esta manera se considera que las regiones son similares si cumplen:
n

Sd (z1 , z2 ) = z1 z2 =
i=1

(z1i z2i )2 < s

(6.26)

donde s es un valor pequeo. n Caracter sticas de fcil computacin y que sirven en muchos casos para a o establecer si dos regiones son similares, son el rea (A), el per a metro (L), el color promedio (G) y el contraste (K) [26].
Por lo general se utilizan caracter sticas normalizadas. Un criterio de normalizacin es o desplazando los valores que toman las caracter sticas a un rango entre 0 y 1. Otro criterio es obtener nuevas caracter sticas que tengan media igual a cero y varianza igual a uno.
3

6. Matching y tracking

101

gen Im a

Figura 6.7: L nea epipolar acotada: la reconstruccin de M a partir de m1 a o m2 debe pertenecer a un subespacio 3D.

Localizacin correcta en el espacio 3D: o El punto 3D reconstruido, obtenido por triangulacin a partir de los o centros de gravedad m1 y m2 de las regiones, debe encontrarse dentro del espacio 3D ocupado por el objeto de anlisis. a Muchas veces se sabe a-priori dnde est ubicado en el espacio el objeto o a de anlisis. Este espacio puede corresponder a un cubo, cilindro o a un a volumen ms complejo almacenado como un modelo CAD. Si se cuenta a con esta informacin, es posible entonces realizar una reconstruccin del o o punto 3D M utilizando el mtodo lineal explicado en la Seccin 5.1 y e o vericar si las coordenadas de este punto pertenecen al volumen que ocupa el objeto de anlisis. a Este criterio corresponde a evaluar la condicin epipolar slo en una o o porcin de la imagen. Esta l o nea epipolar acotada se obtiene a partir de la proyeccin en la segunda imagen del segmento de recta C1 , m1 o que est en el subespacio 3D donde se encuentra el objeto de anlisis a a (ver Figura 6.7). Evaluando estos cuatro criterios se puede establecer con un grado mayor de certeza si las regiones r1 y r2 son correspondientes entre s .

Volumen
C

Lnea Epipolar acotada

I ma gen 2

102

D.Mery: Visin Articial o

6.3.

Tracking

En esta Seccin se estudia el seguimiento, o tracking, de un objeto a lo largo o de una secuencia de imgenes. a

Indice de guras
1.1. Ejemplo de recticacin de perspectiva . . . . . . . . . . . . . o 1.2. Ejemplo de recticacin de distorisin de lente . . . . . . . . . o o 1.3. Triangulacin . . . . . . . . . . . . . . . . . . . . . . . . . . . o 1.4. Correspondencia en tres puntos . . . . . . . . . . . . . . . . . 1.5. Pintura pre-renacentista y renacentista . . . . . . . . . . . . . 1.6. Mquina de perspectiva por Albrecht Drer . . . . . . . . . . a u 1.7. Cmara oscura . . . . . . . . . . . . . . . . . . . . . . . . . . a 2 2 3 4 6 7 8

2.1. Proyeccin (x1 , x2 , x3 ) (x, y) . . . . . . . . . . . . . . . . . . 12 o 2.2. Proyeccin en dos planos paralelos . . . . . . . . . . . . . . . . 14 o 2.3. Proyeccin en dos planos no paralelos . . . . . . . . . . . . . . 15 o 2.4. Recticacin de distorsin proyectiva . . . . . . . . . . . . . . 16 o o 2.5. Transformacin 2D isomtrica (Eucl o e dea) . . . . . . . . . . . . 18 2.6. Transformaciones proyectivas 2D . . . . . . . . . . . . . . . . 21 2.7. Transformaciones proyectivas 3D . . . . . . . . . . . . . . . . 22 2.8. Transformacin 3D Eucl o dea . . . . . . . . . . . . . . . . . . . 23 2.9. Rotacin de los ejes Z, Y , y X o . . . . . . . . . . . . . . . . . 24 2.10. Figura del Ejercicio 2.8: Transformacin (X4 , Y4 , Z4 ) (X1 , Y1 , Z1 ) 29 o 2.11. Distorsin de perspectiva (ver Ejercicio 2.9) . . . . . . . . . . 29 o 2.12. Transformacin Eucl o dea 2D (Ejercicio 2.10) . . . . . . . . . . 31 3.1. Sistema de visin articial . . . . . . . . . . . . . . . . . . . . 33 o 103

104

D.Mery: Visin Articial o

3.2. Modelo geomtrico de cmara pinhole . . . . . . . . . . . . . . 36 e a 3.3. Modelo geomtrico de proyeccin rayos X y cmara oscura . . 37 e o a 3.4. Modelo geomtrico de proyeccin con rotacin de ejes . . . . . 38 e o o 3.5. Construccin de un arreglo CCD . . . . . . . . . . . . . . . . 40 o 3.6. Ejemplo de Distorsin . . . . . . . . . . . . . . . . . . . . . . 43 o 3.7. Modelacin de distorsin de lente . . . . . . . . . . . . . . . . 45 o o 3.8. Pndulo invertido . . . . . . . . . . . . . . . . . . . . . . . . . 47 e 3.9. Rotacin del eje X en el pndulo invertido . . . . . . . . . . . 48 o e 3.10. Distorsin no lineal . . . . . . . . . . . . . . . . . . . . . . . . 50 o 4.1. Geometr epipolar . . . . . . . . . . . . . . . . . . . . . . . . 54 a 4.2. L neas epipolares y epipolos . . . . . . . . . . . . . . . . . . . 56 4.3. Planos epipolares . . . . . . . . . . . . . . . . . . . . . . . . . 57 4.4. Geometr Epipolar para tres vistas . . . . . . . . . . . . . . . 66 a 4.5. Representacin geomtrica de las Trilinearidades . . . . . . . . 74 o e 4.6. Correspondencia en dos vistas que comparten el centro ptico o 77 4.7. Distancia m nima de un punto a una recta . . . . . . . . . . . 78 5.1. Triangulacin . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 o 6.1. Flujo ptico . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86 o 6.2. Ejemplo de ujo ptico . . . . . . . . . . . . . . . . . . . . . . 88 o 6.3. Anlisis de l a neas correspondientes . . . . . . . . . . . . . . . . 89 6.4. Ejemplo de una regin . . . . . . . . . . . . . . . . . . . . . . 90 o 6.5. Descriptores de Fourier . . . . . . . . . . . . . . . . . . . . . . 94 6.6. Clculo del contraste . . . . . . . . . . . . . . . . . . . . . . . 97 a 6.7. L nea epipolar acotada . . . . . . . . . . . . . . . . . . . . . . 101

Bibliograf a
[1] A. Avidan and A. Shashua. Novel view synthesis in tensor space. In Conference on Computer Vision and Pattern Recognition (CVPR-97), pages 10341040, Puerto Rico, 1997. [2] A.G. Bors and I. Pitas. Prediction and tracking of moving objects in image sequences. IEEE Trans. Image Processing, 9(8):14411445, 2000. [3] I.N. Bronstein and K.A. Semendjajew. Taschenbuch der Mathematik. Harri Deutsch, Thun-Frankfurt, Main, 24 edition, 1989. [4] K.R. Castleman. Digital Image Processing. Prentice-Hall, Englewood Clis, New Jersey, 1996. [5] R. Chellappa and R. Bagdazian. Fourier coding of image boundaries. IEEE Trans. Pattern Analysis and Machine Intelligence, PAMI-6(1):102105, 1984. [6] O. Faugeras. Three-Dimensional Computer Vision: A Geometric Viewpoint. The MIT Press, Cambridge MA, London, 1993. [7] O. Faugeras, Q.-T. Luong, and T. Papadopoulo. The Geometry of Multiple Images: The Laws That Govern the Formation of Multiple Images of a Scene and Some of Their Applications. The MIT Press, Cambridge MA, London, 2001. [8] O. Faugeras and T. Papadopulo. A nonlinear method for estimating the projective geometry of 3 views. In 6th International Conference on Computer Vision, pages 477484, Bombay, India, 1998. [9] O. Faugeras and W. Pratt. Decorrelation methods of texture feature extraction. IEEE Trans. Pattern Analysis and Machine Intelligence, PAMI-2(4):323332, 1980. [10] O. Faugeras and L. Robert. What can two images tell us about a third one. International Journal of Computer Vision, 18(1):520, Apr. 1996. [11] K. Fukunaga. Introduction to statistical pattern recognition. Academic Press, Inc., San Diego, 2 edition, 1990. [12] R.M. Haralick. Statistical and structural approaches to texture. 67(5):786804, 1979. Proc. IEEE,

105

106

D.Mery: Visin Articial o

[13] R. Hartley. A linear method for reconstruction from lines and points. In 5th International Conference on Computer Vision (ICCV-95), pages 882887, Cambridge, MA, 1995. [14] R. Hartley. Multilinear relationships between coordinates of corresponding image points and lines. In Proceedings of the International Workshop on Computer Vision and Applied Geometry, International Sophus Lie Center, Nordfjordeid, Norway, Aug. 1995. [15] R. Hartley. Lines and points in three views and the trifocal tensor. International Journal of Computer Vision, 22(2):125150, 1997. [16] R. I. Hartley and A. Zisserman. Multiple View Geometry in Computer Vision. Cambridge University Press, 2000. [17] I. Hartmann. Mustererkennung. Skriptreihe Regelungstechnik und Bildverarbeitung, Technische Universitt Berlin, 1996. a [18] A. Heyden. A common framework for multiple view tensors. In 5th European Conference on Computer Vision (ECCV-98), pages 319, Jun. 1998. [19] A. Heyden. Multiple view geometry using multifocal tensors. In DSAGM, Kpeno hamn, 1999. [20] M.-K. Hu. Visual pattern recognition by moment invariants. IRE Trans. Info. Theory, IT(8):179187, 1962. [21] B. Jhne. Digitale Bildverarbeitung. Springer, Berlin, Heidelberg, 2 edition, 1995. a [22] A.K. Jain, R.P.W. Duin, and J. Mao. Statistical pattern recognition: A review. IEEE Trans. Pattern Analysis and Machine Intelligence, 22(1):437, 2000. [23] K.-F Kamm. Grundlagen der R.ontgenabbildung. In K. Ewen, editor, Moderne Bildgebung: Physik, Gertetechnik, Bildbearbeitung und -kommunikation, Strahlena schutz, Qualittskontrolle, pages 4562, Stuttgart, New York, 1998. Georg Thieme a Verlag. [24] Q.-T. Luong and O. Faugeras. The fundamental matrix: theory, algorithms and stability analysis. International Journal of Computer Vision, 17(1):4376, 1996. [25] D. Marr and E. Hildreth. B(207):187217, 1980. Theory of edge detection. Proc. Roy. Soc. London,

[26] D. Mery. Automated Flaw Detection in Castings from Digital Radioscopic Image Sequences. Verlag Dr. Kster, Berlin, 2001. (Ph.D. Thesis in German). o [27] J.-R. Ohm. Digitale Bildcodierung. Springer, Berlin Heidelberg, 1995. [28] E. Persoon and K.S. Fu. Shape discrimination using fourier descriptors. IEEE Trans. Systems, Man, and Cybernetics, SMC-7(3):170179, 1977. [29] A. Shashua. Algebraic functions for recognition. IEEE Trans. on Pattern Analysis and Machine Intelligence PAMI, 17(8):779789, 1995.

Bibliograa

107

[30] A. Shashua. Trilinear tensor: The fundamental construct of multiple-view geometry and its applications. In International Workshop on Algebraic Frames For The Perception Action Cycle (AFPAC), Kiel, Sep. 8-9 1997. [31] A. Shashua and M. Werman. Trilinearity of three perspective views and its associated tensor. In International Conference on Computer Vision (ICCV), Boston MA, Jun. 1995. [32] T. Sderstrm and P. Stoica. System Identication. Prentice Hall, New York, 1989. o o [33] M. Sonka, V. Hlavac, and R. Boyle. Image Processing, Analysys, and Machine Vision. PWS Publishing, Pacic Grove, CA, 2 edition, 1998. [34] C.H. Teh and R.T. Chin. On digital approximation of moment invariants. Computer Vision, Graphics and Image Processing, 33(3):318326, 1986. [35] J. Weng, P. Cohen, and M. Herniou. Camera calibration with distorsion models and accuracy evaluation. IEEE Trans. Pattern Analysis and Machine Intelligence, 4(10):965980, 1992. [36] C.T. Zahn and R.Z. Roskies. Fourier descriptors for plane closed curves. IEEE Trans. Computers, C-21(3):269281, 1971.

También podría gustarte