0% encontró este documento útil (1 voto)
1K vistas54 páginas

Vision en 3D

El documento trata sobre la visión en 3D. Explica la diferencia entre la visión 2D y 3D, y se enfoca en la visión estereoscópica y la realidad aumentada. También cubre temas como la reconstrucción 3D mediante escáneres y visión estereoscópica, la segmentación, y el modelado de estructuras tridimensionales.

Cargado por

acryo69
Derechos de autor
© Attribution Non-Commercial (BY-NC)
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (1 voto)
1K vistas54 páginas

Vision en 3D

El documento trata sobre la visión en 3D. Explica la diferencia entre la visión 2D y 3D, y se enfoca en la visión estereoscópica y la realidad aumentada. También cubre temas como la reconstrucción 3D mediante escáneres y visión estereoscópica, la segmentación, y el modelado de estructuras tridimensionales.

Cargado por

acryo69
Derechos de autor
© Attribution Non-Commercial (BY-NC)
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Facultad de Informtica de la Universidad de A Corua

VISIN EN 3D

Autores: Adrin Carpente Recouso David Albela Perez Fecha: 18 de mayo de 2012

ndice
1. Introduccin 1.1. Visin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2. Visin 2D . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3. Visin 3D . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2. Visin estereoscpica 2.1. Denicin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 5 5 7 8 8

2.2. Tipos de sistemas estereoscpicos . . . . . . . . . . . . . . . . . . . . . . . 10 2.2.1. Visin estereoscopica con gafas . . . . . . . . . . . . . . . . . . . . 11 a) Anaglifos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 b) Gafas activas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 c) Gafas pasivas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 2.2.2. Visin estereoscopica sin gafas (Autoestereoscopia) . . . . . . . . . 15 a) Barreras de paralaje . . . . . . . . . . . . . . . . . . . . . . . . . 15 b) Hoja lenticular . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 2.3. Casos prcticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 3. Realidad aumentada 21

3.1. Denicin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 3.2. Tipos de Realidad Aumentada . . . . . . . . . . . . . . . . . . . . . . . . . 22 3.2.1. Realidad Aumentada basada en marcadores o imgenes . . . . . . . 22 3.2.2. Realidad Aumentada basada en la posicin . . . . . . . . . . . . . . 23 3.3. Tcnicas de visualizacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 3.3.1. Display en la cabeza . . . . . . . . . . . . . . . . . . . . . . . . . . 24 3.3.2. Display de mano . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 3.3.3. Display espacial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 3.4. Casos prcticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

VISIN EN 3D

3.5. Software Libre para Realidad Aumentada . . . . . . . . . . . . . . . . . . . 28 4. Reconstruccin 28

4.1. Escaners 3D . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 4.1.1. Escaners con Contacto Fsico . . . . . . . . . . . . . . . . . . . . . 29 4.1.2. Escaners sin Contacto Fsico . . . . . . . . . . . . . . . . . . . . . . 30 a) Visin activa: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 b) Visin pasiva: . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 4.2. Reconstruccin espacial del sistema visual humano . . . . . . . . . . . . . . 31 4.3. La Visin Estereoscpica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 4.4. Calibracin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 4.4.1. Segn el mtodo de resolucin . . . . . . . . . . . . . . . . . . . . . 35 4.4.2. Segn los resultados de la calibracin . . . . . . . . . . . . . . . . . 35 4.4.3. Segn las plantillas . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 4.4.4. Metodos de Calibracin . . . . . . . . . . . . . . . . . . . . . . . . 36 4.5. Correspondencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

4.6. Reconstruccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 4.7. Casos prcticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 5. Segmentacin 44

5.1. Segmentacin en Movimiento . . . . . . . . . . . . . . . . . . . . . . . . . 45 6. Modelado de estructuras 46

6.1. Estructuras Predenidas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 6.2. Box Modeling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 6.3. Modelado de NURBS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 6.4. Modelado de Operaciones Booleanas . . . . . . . . . . . . . . . . . . . . . 48 6.5. Extrude y Lathe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

6.6. Loft . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

6.7. Sistema de Partculas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 6.8. Modelado por Texturas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

Bibliografa

50

ndice de Tablas

ndice de Figuras
1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. Ojo humano . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Efecto de la perspectiva en la estimacin de las distancias . . . . . . . . . . Efecto del movimiento de paralelaje . . . . . . . . . . . . . . . . . . . . . . Visin estereoscpica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 6 7 8

Ejemplo detallado de visin estereoscpica . . . . . . . . . . . . . . . . . . 10 Funcionamiento de la visin 3D mediante anaglifos . . . . . . . . . . . . . 11 Anaglifo para ver con gafas de tipo rojo-azul . . . . . . . . . . . . . . . . . 12 Gafas para ver anaglifos de tipo rojo-azul . . . . . . . . . . . . . . . . . . . 12 Funcionamiento de las gafas activas . . . . . . . . . . . . . . . . . . . . . . 13 Gafas 3D activas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 Funcionamiento de las gafas pasivas . . . . . . . . . . . . . . . . . . . . . . 14 Gafas 3D pasivas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 Creacion de la imagen del estereograma de paralaje . . . . . . . . . . . . . 16 Funcionamiento de la barrera de paralelaje . . . . . . . . . . . . . . . . . . 16 Creacion de la imagen del estereograma de paralaje a partir de multiples imgenes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 Funcionamiento de la barrera de paralelaje con un estereograma formado por multiples imgenes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 Funcionamiento de la hoja lenticular . . . . . . . . . . . . . . . . . . . . . 18

16.

17.

VISIN EN 3D

18. 19. 20. 21. 22. 23. 24. 25. 26.

Pantalla automultiescpica . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 Funcionamiento de la hoja lenticular adherida a una pantalla . . . . . . . . 19 Ejemplo de realidad aumentada . . . . . . . . . . . . . . . . . . . . . . . . 21 Ejemplo de un marcador . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 Gafas de realidad aumentada . . . . . . . . . . . . . . . . . . . . . . . . . 24 Lentillas para mostrar realidad aumentada . . . . . . . . . . . . . . . . . . 24 Smartphone con una aplicacin de realidad aumentada . . . . . . . . . . . 25 Escner hecho con robot Lego Midstorms NXT. . . . . . . . . . . . . . . . 29 Escner por telemetra. El rayo lser es usado para medir la distancia al primer objeto que encuentre en su trayectoria. . . . . . . . . . . . . . . . . 31 Principio de un sensor Lser de triangulacin. Se muestra la posicin de dos objetos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 Diplopa siolgica. El sistema visual crea la sensacin de que el objeto A es mayor al B. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 Par de imgenes de una cara humana . . . . . . . . . . . . . . . . . . . . . 33 Resultado de la reconstruccin 3D . . . . . . . . . . . . . . . . . . . . . . . 33 Ejemplo de calibracin mediante plantilla 2D en OpenCV. . . . . . . . . . 36 Modelo de cmara pin-hole. . . . . . . . . . . . . . . . . . . . . . . . . . . 36 Modelo de cmara de Gauss o lente delgada. . . . . . . . . . . . . . . . . . 39 Geometra de una sistema de visin estreo. . . . . . . . . . . . . . . . . . 41 Demostracin de reconstruccin en tiempo real con Kinect. . . . . . . . . . 44 Ejemplo de supercie tridimensional generada mediante NURBS . . . . . . 48 Modelado de guras mediante operaciones booleanas . . . . . . . . . . . . 49 Cuenco creado a partir del giro de un spline. . . . . . . . . . . . . . . . . . 49 Ejemplo de textura sobre una puerta dando aspecto de profundidad. . . . . 50

27.

28.

29. 30. 31. 32. 33. 34. 35. 36. 37. 38. 39.

VISIN EN 3D

1.

Introduccin

Este documento se trataran varios temas sobre la visin 3D. En el se explica que es la visin y en que consiste la visin 3D. Para ello se dedicar un apartado a la explicacin de la visin estereoscpica. A continuacin se hablar sobre la realidad aumentada. Despus se tratar el tema de la reconstruccin profundizando sobre la parte de segmentacin. Por ltimo, el documento naliza con un apartado dedicado al modelado de estructuras.

1.1.

Visin

Con origen en el trmino latino viso, la palabra visin hace referencia al sentido que permite detectar la luz e interpretarla (es decir, ver). La visin, en s misma, es una capacidad propia del hombre y de los animales, ya que cuentan con un sistema visual. En el caso de ciertas mquinas, se habla de visin articial. El sistema visual cumple con distintas funciones para permitir la visin. En principio, se encarga de formar la imagen ptica del estmulo visual en la retina, a travs de la crnea y del cristalino del ojo. Esta parte del proceso visual est a cargo del sistema ptico. Por otra parte, las clulas de la retina forman el sistema sensorial del ojo. Aqu intervienen los fotorreceptores, que capturan la luz que incide sobre ellos. Existen dos tipos de fotorreceptores: los conos y los bastones. En esta parte del proceso participan tambin otras Figura 1: Ojo humano clulas de la retina, encargadas de transformar la luz en impulsos electroqumicos y de transportarlos hasta el nervio ptico. Desde all se proyectan a distintas regiones, como el ncleo geniculado lateral y la corteza visual del cerebro. El proceso de reconstruccin de las distancias, los colores, los movimientos y las formas de los objetos, nalmente, se produce en el cerebro.

1.2.

Visin 2D

Al observar una escena o un objeto empleando para ello un solo ojo, o una sola cmara, se obtiene una imagen plana, es decir, bidimensional. Es lo que se denomina visin monocular. En dicha visin solo se dispone de una fuente de entrada de intensidades de luz lo que da lugar a que no se disponga de informacin sobre la profundidad de la escena observada causando una perdida de la sensacin de relieve. En una imagen 2D, al igual que cuando se observa un cuadro o una fotografa, existen

VISIN EN 3D

una serie de factores que, de una forma intuitiva, aportan informacin sobre aspectos tridimensionales como distancia o profundidad. Pueden diferenciarse tres tipos distintos de mecanismos que actan a nivel de la visin monocular para proporcionar informacin tridimensional, estos son: mecanismos geomtricos, el movimiento de paralaje y mecanismos relacionados con la musculatura ocular. Mecanismos geomtricos: Distribucin de luces y sombras. Se trata de un factor de gran importancia, ya que la luz modela la forma de los objetos aportando claves en cuanto al volumen de los mismos. Es una tcnica muy utilizada en fotografa, pintura y cine. Una iluminacin rasante refuerza las sombras acentuando el relieve y el aspecto tridimensional de los objetos. Es un mecanismo ligado a la visin de los contrastes. Superposicin de imgenes. El hecho de que unos objetos cubran en parte a otros es rpidamente interpretado por el cerebro como que los que son parcialmente cubiertos se encuentran ms alejados que aquellos que los ocultan. Perspectiva. El efecto de perspectiva produce una clara sensacin de profundidad. Las lneas paralelas horizontales parecen converger en el horizonte. As, para dos objetos que se observan con el mismo tamao, y que estn situados en una misma lnea horizontal, parece que est ms cercano aquel que se sita ms alejado del punto de convergencia de las lneas horizontales. En la Figura 2 se muestra un ejemplo de este efecto.

Figura 2:

Efecto de la perspectiva en la estimacin de las distancias. El rbol de la mitad superior se encuentra a menor distancia del punto de convergencia que el de la parte inferior, por lo que se interpreta como ms alejado del observador. Como el tamao en el dibujo es el mismo, da la sensacin de que dicho rbol es mayor.

Tamao aparente de los objetos. Consiste en recurrir a la memoria para comparar el tamao real de los objetos conocidos con el tamao con el que aparecen en la imagen. Cuanto menor sea el tamao con que el aparece un objeto, mayor es la distancia a la que se encuentra.

VISIN EN 3D

Resolucin del objeto. Por efecto de la calima1 y el polvo atmosfrico, cuanto mayor es la distancia a la que se encuentra un objeto, este aparece con menor resolucin y nitidez, a la vez que tiende a homogeneizarse el color. El movimiento de paralaje: Al cambiar de posicin los ojos desplazando la cabeza, la posicin relativa en que se observan los objetos se ve modicada. En una escena en la que hay varios objetos situados a distintas distancias, si se centra la atencin en uno situado a una distancia intermedia entre los objetos ms lejanos y los ms cercanos, los que se sitan a mayor distancia parecen desplazarse en el mismo sentido que el del observador, y cuanto ms alejados estn ms rpido se desplazarn. Por el contrario, los objetos situados a menor distancia del objeto sobre el que se haya jado la vista parecen desplazarse en sentido contrario y a mayor velocidad cuanto ms prximos se encuentren. En la Figura 3 se explica un ejemplo sobre este efecto.

Figura 3:

El desplazamiento del observador produce la impresin de que se mueven los objetos de la escena. La echa hacia la derecha de la parte superior de la imagen representa el movimiento del observador, y las otras dos reejan el desplazamiento aparente de los objetos.

1.3.

Visin 3D

En la base de cualquier tipo de percepcin tridimensional se encuentran una serie de complejos procesos siolgicos y psicolgicos relacionados con la visin. Dichos procesos dan lugar a la creacin de una sensacin de volumen y dotan a los objetos de un aspecto slido y los sita en un punto concreto del espacio. En ltima instancia, la materia prima de estos procesos es la obtencin de dos imgenes distintas de una misma escena por parte de los dos ojos. Estas imgenes son procesadas y comparadas por el cerebro, el cual acaba creando una sensacin espacial. Estos mecanismos se utilizan de forma inconsciente en todo momento, por lo que, en general, no nos damos cuenta de que estamos viendo en tres dimensiones. Sin embargo,
La calima consiste en la suspensin de partculas muy pequeas de polvo, arena o arcilla en la atmsfera, oscurecindola y reduciendo la visibilidad.
1

VISIN EN 3D

cuando se trata de observar representaciones que estamos acostumbrados a ver planas (tales como cuadros, dibujos o fotografas), el efecto es enormemente llamativo. Esta visin en tres dimensiones, tambin llamada visin estereoscpica o visin en relieve, resulta de la capacidad del sistema visual de dar aspecto tridimensional a los objetos a partir de las imgenes en dos dimensiones obtenidas en cada una de las retinas de los ojos. Se trata de un estado de la visin que se produce cuando ambos ojos jan su atencin simultneamente en un mismo objeto. La fusin automtica de ambas imgenes crea una percepcin nica en la que es posible apreciar distancias, espesores, profundidades y dimensiones. En la creacin de estas sensaciones intervienen tanto aspectos de la visin monocular como de la binocular, las cuales se suman y complementan. Los mecanismos que intervienen son muy variados y se explicarn en detalle en la Seccin 2: Visin estereoscpica.

2.
2.1.

Visin estereoscpica
Denicin

La visin esteoroscpica (o visin tridimensional) es cualquier tcnica capaz de recoger informacin visual tridimensional y/o crear la ilusin de profundidad en una imagen. La visin estereocopia se cosigue mediante la participacin de los dos ojos (es decir, se trata de visin binocular2 ) y permite la fusin en una percepcin nica de las imgenes recogidas por ambas retinas. A pesar de que cada ojo tiene su propio punto de vista de cualquier objeto, mediante la fusin binocular se obtiene una sola imagen. En la Figura 4 se muestra un ejemplo sencillo de visin estereoscpica. En ella se pueden ver las imgenes que cada ojo obtiene de la escena observada. A partir de ellas el cerebro genera una nica imagen tridimensional de la escena. De manera natural, el sistema de visin humano es estreo, es decir, tiene la capacidad de apreciar, a travs de la visin binocular, las diferentes distancias y volmenes en el entorno que lo rodea. Los ojos de las personas, debido a su separacin, obtienen dos imgenes con pequeas diferencias entre ellas, a lo que se le denomina disparidad. El cerebro procesa las diferencias entre ambas imgenes y las interpreta de forma que se percibe la sensacin

Figura 4: Visin estereoscpica

2 La palabra binocular proviene de dos races latinas, bini doble, y oculus ojo. En ptica, optometra y oftalmologa, la visin binocular es el tipo de visin en que los dos ojos se utilizan conjuntamente.

VISIN EN 3D

de profundidad, lejana o cercana de los objetos del entorno. Este proceso se denomina estereopsis. En la estereopsis intervienen diversos mecanismos. La agudeza estereoscpica es la capacidad de discernir, mediante la estereopsis, detalles situados en planos diferentes y a una distancia mnima. Hay una distancia lmite a partir de la cual no somos capaces de apreciar la separacin de planos, y que vara de unas persona a otras. Los dos ojos, al estar situados en posiciones diferentes, recogen cada uno en sus retinas una imagen ligeramente distinta de la realidad que tienen delante. Esas pequeas diferencias se procesan en el cerebro para calcular la distancia a la que se encuentran los objetos mediante la tcnica del paralelaje. El clculo de las distancias sita los objetos que estamos viendo en el espacio tridimensional, obteniendo una sensacin de profundidad o volumen. Por lo que si tomamos o creamos dos imgenes con un ngulo ligeramente distinto y se las mostramos a cada ojo por separado, el cerebro podr reconstruir la distancia y por lo tanto la sensacin de tridimensionalidad. Las variaciones verticales son indiferentes en lo que respecta a creacin de sensacin de volumen. Solo las variaciones horizontales, producidas por la diferente ubicacin de los ojos, resultan en sensacin de profundidad. Debe aadirse que, si bien es la esteroscopia la principal fuente de informacin del cerebro para la composicin tridimensional de los objetos que estamos viendo, no es la nica. Existen otras fuentes de informacin como son el enfoque o la interpretacin inteligente de las imgenes, que tambin son utilizadas por el cerebro. En la escena observada en la Figura 5 hay un ciervo, un pjaro y un rbol, siendo el ciervo el ms cercano al observador y el rbol el ms alejado. En la gura se puede ver como la perspectiva ofrecida por cada ojo sobre el ciervo es ligeramente diferente. En cambio, la perspectiva del pjaro y del rbol es casi la misma debido a que los dos se encuentra muy alejados del observador. Cuando se observan objetos muy lejanos, los ejes pticos de los ojos son paralelos. Cuando se observa un objeto cercano, los ojos giran para que los ejes pticos estn alineados sobre l, es decir, convergen. A su vez se produce la acomodacin o enfoque para ver ntidamente el objeto. Este proceso conjunto se llama fusin.

VISIN EN 3D

10

Figura 5: Ejemplo detallado de visin estereoscpica

2.2.

Tipos de sistemas estereoscpicos

En la actualidad existen varios mtodos para lograr la visin estereoscpica: Con gafas Anaglifos Gafas activas Gafas pasivas Sin gafas (Autoestereoscopia) Barreras de paralaje Hoja lenticular Se procede a continuacin a explicar detalladamente cada uno de los mtodos.

VISIN EN 3D

11

2.2.1.

Visin estereoscopica con gafas

a) Anaglifos. Es el primer sistema que fue desarrollado. Consisten en estereofotografas tomadas o tratadas con ltros de distintos colores sobrepuestas en una sola imagen. Se observan por medio de gafas llamada gafas anaglifo y que tiene un ltro de diferente color para cada ojo. La misin de estos ltros es hacer llegar a cada ojo nicamente la imagen que le corresponde. As se consigue ltrar las imgenes y conseguir el efecto deseado y necesario para que el cerebro pueda interpretar tridimensionalidad ya que tendremos una imagen diferente en cada ojo. (Recordemos que el principio fundamental de la estereoscopa es que la sensacin de volumen parte de que cada ojo vea una imagen diferente para as lograr crear dimensionalidad de profundidad). Este sistema, por su bajo costo, se emplea sobre todo en publicaciones, as como tambin en monitores de ordenador y antiguamente en el cine. Presenta el problema de la alteracin de los colores, prdida de luminosidad y cansancio visual despus de un uso prolongado. Normalmente se sita el ltro rojo en el ojo izquierdo, y el azul en el ojo derecho. En la Figura 6 se muestra un esquema del funcionamiento de las visin en 3D mediante anaglifos.

Figura 6: Funcionamiento de la visin 3D mediante anaglifos

VISIN EN 3D

12

En la Figura 7 se muestra una imagen en 3D generada mediante esta tcnica. Dicha imagen ha sido creada con anaglifos de tipo rojo-azul. Para poder visualizar la imagen en 3D es necesario utilizar unas gafas como las que se muestran en la Figura 8.

Figura 7: Anaglifo para ver con gafas de tipo rojo-azul

Figura 8: Gafas para ver anaglifos de tipo rojo-azul

b) Gafas activas. El proyector emite las imgenes sin ningn tipo de ltrado, siendo las gafas a travs del sensor las que se obturan y desobturan a la misma frecuencia que la emisin de fotogramas. Este tipo de gafas requiere un sensor infrarrojo que permita sincronizar las imgenes alternativas de la pantalla con las lentes LCD de las gafas. Las gafas activas llevan una batera, un sensor infrarrojo, cristales LCD y circuitera, por lo que son bastante ms pesadas y ms caras. Las desventajas de este sistema son un mayor peso y coste de las gafas, duracin limitada de la batera y pueden producir mareos.

VISIN EN 3D

13

En la Figura 9 se muestra un esquema del funcionamiento de esta tcnica de visin en 3D. Para poder visualizar imgenes en 3D mediante esta tecnologa es necesario utilizar unas gafas como las que se muestran en la Figura 10.

Figura 9: Funcionamiento de las gafas activas

Figura 10: Gafas 3D activas

c) Gafas pasivas. Las gafas pasivas son una evolucin de las gafas anaglcas. Consisten en gafas polarizadas que usan unas lentes que ltran las ondas de luz, proyectndolas a ciertos ngulos.

VISIN EN 3D

14

Este tipo de gafas permiten ver por cada ojo un determinado nmero de imgenes, consiguiendo una sensacin de profundidad o efecto 3D de mayor calidad y mejor visionado. Las dos imgenes se proyectarn mediante dos dispositivos equipados con ltros polarizados, girados 90o respectivamente. Esta tecnologa presenta las ventajas de necesitar unas gafas con un menor coste, ms ligeras y que no necesitan batera. En la Figura 11 se muestra un esquema del funcionamiento de las visin en 3D mediante gafas polarizadas. Para poder visualizar imagenes en 3D mediante esta tecnologa es necesario utilizar unas gafas como las que se muestran en la Figura 12.

Figura 11: Funcionamiento de las gafas pasivas

VISIN EN 3D

15

Figura 12: Gafas 3D pasivas

2.2.2.

Visin estereoscopica sin gafas (Autoestereoscopia)

La Autoestereoscopia (Autoestereoscopy en ingls) es el mtodo para reproducir imgenes tridimensionales que puedan ser visualizadas sin que el usuario tenga que utilizar ningn dispositivo especial (como gafas o cascos especiales) ni necesite condiciones especiales de luz. Gracias a este mtodo, el observador puede apreciar profundidad aunque la imagen est producida por un dispositivo plano. La visin estereoscpica consiste en la observacin, por parte de ambos ojos de dos imgenes que dieren levemente y que representan una misma realidad. Esa pequea diferencia, similar a la que perciben los ojos humanos cuando miran el mundo que les rodea, es la que permite al cerebro calcular la profundidad. La aplicacin de este principio consiste en poder dotar al soporte que emita las imgenes la capacidad de enviar cada una de estas imgenes a un ojo distinto. De esta manera el cerebro construir la imagen 3D del objeto o de la escena que estamos representando. La tecnologa de la exhibicin autoesteroscpica incluye el papel, la pelcula, el vdeo, y sistemas informticos. Los dispositivos autoesteroscpicos son atractivos porque ofrecen la mayor aproximacin al mundo real que nos rodea, sin necesidad de tener que utilizar aparatos externos. a) Barreras de paralaje. Los mtodos de la barrera de paralaje ya se utilizaban desde principios del Siglo XX. El estereograma de paralaje consiste en una rejilla vertical na puesta delante de una imagen especialmente diseada. La rejilla se hace normalmente de un material opaco con fracturas verticales transparentes y nas con un espaciamiento regular. Cada raja transparente acta como ventana a un trozo vertical de la imagen puesta detrs de ella. El trozo que vemos depende de la posicin del ojo. La imagen del estereograma de paralaje est hecha interpolando las columnas a partir de dos imgenes. En la Figura 13 se muestra un ejemplo de como se crea dicho estereograma de paralelaje. Esta imagen y la rejilla vertical estn alineadas de modo que el ojo izquierdo pueda ver solamente las tiras de la imagen para el ojo izquierdo y el ojo derecho

VISIN EN 3D

16

pueda ver solamente las tiras de la imagen para el ojo derecho.

Figura 13: Creacion de la imagen del estereograma de paralaje

Figura 14: Funcionamiento de la barrera de paralelaje

VISIN EN 3D

17

Pero los estereogramas de paralaje suelen utilizar un nmero ms grande de imgenes, no solo un par. stas pueden ser imgenes arbitrarias o imgenes ordenadas en una secuencia de tiempo (en este caso se inclina el estereograma para que de la impresin del movimiento). La imagen que est detrs de la barrera est formada por tiras de cada subimagen, puestas una al lado de otra. En la Figura 15 se muestra como crear el estereograma de paralelaje a partir de mltiples imagenes.

Figura 15: Creacion de la imagen del estereograma de paralaje a partir de multiples imgenes

Figura 16: Funcionamiento de la barrera de paralelaje con un estereograma formado por multiples imgenes

El espectador puede mover su cabeza de lado a lado y ver diversos aspectos de la escena 3D, excepto en una cierta posicin donde los ojos ven los pares incorrectos. Esto

VISIN EN 3D

18

ocurre en la transicin de una tira de la imagen ms a la izquierda a una tira de la imagen ms a la derecha. Este efecto es reducido al mnimo usando una gran cantidad de subimgenes con un ngulo muy pequeo entre ellas o manteniendo una profundidad pequea de la visin. Desafortunadamente el nmero de imgenes est denido por la resolucin de pantalla y de la barrera. b) Hoja lenticular. En vez de utilizar una barrera, puede utilizarse una hoja lenticular, la cual es una hoja de lentes nas y largas. Esta hoja lenticular contiene una serie de lentes cilndricas moldeadas en un substrato plstico (ver Figura 17). Se disea la imagen trasera para enfocar la lnea de la vista de cada ojo sobre diversas tiras y se forma esencialmente de la misma manera que para un estereograma de paralaje.

Figura 17: Funcionamiento de la hoja lenticular

La clave para la creacin acertada de las imgenes autoestereoscpicas basadas sobre estas lentes es la calidad y la uniformidad de la lente. A diferencia que con el mtodo de barrera, la supercie entera de la lente irradia luz, por lo que no hay zonas opacas. Las hojas lenticulares se utilizan para crear pantallas automultiescpicas las cuales permiten visualizar los objetos desde ngulos distintos dependiendo de la posicin donde se encuentre el espectador. Para ello se adhiere una hoja lenticular en la supercie de la pantalla para dirigir las vistas en direcciones particulares, la pantalla presenta imgenes que el cerebro interpreta como una imagen tridimensional. Por lo tanto a diferencia de las pelculas 3D, los espectadores tienen vistas mltiples de la escena moviendo la cabeza delante del monitor (ver Figura 18). Este efecto se consigue gracias a la multiplexacin espacial que implica un submuestreo

VISIN EN 3D

19

irregular de las vistas originales. Este proceso se utiliza para combinar dos o ms perspectivas en una nica imagen mostrada por el monitor automultiescpico.

Figura 18: Pantalla automultiescpica

La hoja lenticular permite la visualizacin de nueve vistas 3D. Est compuesta por lentes semicilndricas que utilizan la difraccin de la luz para dirigir las vistas en una cierta direccin. La Figura 19 representa una seccin transversal horizontal de la hoja lenticular y de la disposicin de los pxels (RGB) del panel LCD. Cada subpixel del monitor es mapeado para cada vista en particular, entre nueve posibles, dependiendo de su posicin debajo de la lente.

Figura 19: Funcionamiento de la hoja lenticular adherida a una pantalla

Los dos ojos vern intensidades que corresponden a dos vistas diferentes, por esa razn el espectador percibe la escena con profundidad 3D y las vistas van cambiando conforme el usuario traslada su cabeza delante de la pantalla. Puesto que 9 vistas se combinan

VISIN EN 3D

20

para formar una imagen, por trmino medio solamente un subpxel de nueve se mantiene en cada vista original. Esto provoca que el submuestreo que resulta sea muy irregular. Teniendo en cuenta la teora de muestreo multidimensional, el submuestreo irregular puede provocar aliasing. El aliasing produce efectos indeseable en la imagen como puntos aislados, deterioro de texturas y prdidas de detalle en reas de frecuencia alta de la imagen. Estas imperfecciones se pueden solucionar utilizando un ltro anti-aliasing 2D.

2.3.

Casos prcticos

A continuacin se citarn algunas de las aplicaciones prcticas de la visin estereoscpica. Televisin en 3D: Consiste en un televisor que permite visualizar imgenes en tres dimensiones, utilizando diversas tcnicas para lograr la sensacin de profundidad. Aporta un mayor realismo de la escena debido a la percepcin de la profundidad de los objetos observados en la pantalla. Telepresencia: El nmero de aplicaciones orientadas a facilitar el trabajo en entornos hostiles, peligrosos o simplemente difciles se incrementa continuamente. En general se emplean robots teledirigidos, dotados de cmaras estereoscpicas. El operario, mediante gafas obturadoras o cascos de inmersin, recibe la imagen captada por esas cmaras. Las aplicaciones son tan variadas como la desactivacin de explosivos, la exploracin espacial, la exploracin submarina o las intervenciones quirrgicas por medio de instrumental robtico. El Ojo de Halcn [31] (en ingls Hawk-Eye): Es una tecnologa que se lleva usando varios aos (desde Wimbledon 2007) en el las grandes competiciones de tenis. El objetivo de esta tecnologa es calcular la posicin exacta del bote de la pelota evitando as posibles errores de los jueces de lnea y del propio Juez de silla. Su funcionamiento consiste en utilizar varias cmaras situadas alrededor de la pista (normalmente a la altura de la primera la de gradas) con el objetivo de situar espacial y temporalmente la pelota y por tanto poder obtener el recorrido que esta hace. Astronoma: Aprovechando el desplazamiento de la Tierra en su rbita y la del Sol alrededor del centro de la galaxia, se obtienen imgenes estereoscpicas del rmamento, siendo posible la medicin de distancias que nos separan de los astros. La posibilidad de obtener la conguracin tridimensional de la supercie de los planetas y satlites del Sistema Solar por medio de simples fotografas, ha hecho de esta tcnica una herramienta fundamental en la exploracin espacial.

VISIN EN 3D

21

Fsica: La fsica nuclear tambin hace uso de una variante de la tcnica que nos ocupa para el registro de las trayectorias de las partculas subatmicas. Tras las colisiones inducidas en los aceleradores de partculas, complejos dispositivos dotados de varias cmaras registran la trayectoria de los haces de partculas sometidas a fuertes campos magnticos.

3.
3.1.

Realidad aumentada
Denicin

La realidad aumentada (RA) es el trmino que se usa para denir una visin directa o indirecta de un entorno fsico del mundo real, cuyos elementos se combinan con elementos virtuales para la creacin de una realidad mixta en tiempo real. Consiste en un conjunto de dispositivos que aaden informacin virtual a la informacin fsica ya existente, es decir, aadir una parte sinttica virtual a lo real. Esta es la principal diferencia con la realidad virtual, puesto que no sustituye la realidad fsica, sino que sobreimprime los datos informticos al mundo real. Con la ayuda de la tecnologa (por ejemplo, aadiendo la visin por computador y reconocimiento de objetos) la informacin sobre el mundo real alrededor del usuario se convierte en interactiva y digital. La informacin articial sobre el medio ambiente y los objetos pueden ser almacenada y recuperada como una capa de informacin en la parte superior de la visin del mundo real. En la Figura 20 se muestra un ejemplo de realidad aumentada. La visin real de la imagen consiste en un libro de dinosaurios. En la pgina del libro que Figura 20: Ejemplo de realidad aumentada se est mostrando existe un marcador que identica al dinosaurio de esa pgina. La parte virtual de la imagen consiste en el dinosaurio en 3D que se muestra sobre el libro. El sistema de realidad aumentada identica el marcador y aade en esa posicin el dinosaurio 3D creado virtualmente. Para fusionar coherentemente las imgenes del mundo real y las imgenes virtuales en 3D, las imgenes virtuales deben atribuirse a lugares del mundo real. Ese mundo real debe ser situado, a partir de imgenes de la cmara, en un sistema de coordenadas. Dicho proceso se denomina registro de imgenes. Este proceso usa diferentes mtodos de visin por ordenador, en su mayora relacionados con el seguimiento de vdeo. Muchos mtodos de visin por ordenador de realidad aumentada se heredan de forma similar de los mtodos

VISIN EN 3D de odometra3 visual.

22

Por lo general los mtodos constan de dos partes. En la primera etapa se puede utilizar la deteccin de esquinas, la deteccin de Blob, la deteccin de bordes, de umbral y los mtodos de procesado de imgenes. En la segunda etapa el sistema de coordenadas del mundo real es restaurado a partir de los datos obtenidos en la primera etapa. Algunos mtodos asumen los objetos conocidos con la geometra 3D (o marcadores duciarios) presentes en la escena y hacen uso de esos datos. En algunos de esos casos, toda la estructura de la escena 3D debe ser calculada de antemano. Si no hay ningn supuesto acerca de la geometra 3D se estructura a partir de los mtodos de movimiento. Los mtodos utilizados en la segunda etapa incluyen geometra proyectiva (epipolar), paquete de ajuste, la representacin de la rotacin con el mapa exponencial, ltro de Kalman y ltros de partculas.

3.2.

Tipos de Realidad Aumentada

Existen dos tipos de Realidad Aumentada, la Realidad Aumentada que emplea marcadores o imgenes y la Realidad Aumentada basada en la posicin. A continuacin se detallan las caractersticas ms importantes de cada tipo. 3.2.1. Realidad Aumentada basada en marcadores o imgenes

Este tipo de Realidad Aumentada emplea marcadores (smbolos impresos en papel) o imgenes, en los que se superpone algn tipo de informacin (imgenes,objetos 3D, vdeo, ...) cuando son reconocidos por un software de determinado. En la Figura 20 se muestra un ejemplo de marcador. Para experimentar la Realidad Aumentada basada en marcadores el procedimiento general suele ser el siguiente: 1. Imprimir el marcador correspondiente. 2. Conectar la cmara. 3. Ejecutar la aplicacin de realidad aumentada. 4. Situar el marcador delante de la cmara.
Figura 21: Ejemplo de un marcador

5. El software reconoce el marcador y superpone el contenido virtual sobre el mundo real.


La odometra es el estudio de la estimacin de la posicin de vehculos con ruedas durante la navegacin. Para realizar esta estimacin se usa informacin sobre la rotacin de las ruedas para estimar cambios en la posicin a lo largo del tiempo.
3

VISIN EN 3D

23

El software en ejecucin es capaz de realizar un seguimiento del marcador de tal manera que si el usuario lo mueve, el objeto 3D superpuesto tambin sigue ese movimiento, si se gira el marcador se puede observar el objeto 3D desde diferentes ngulos y si se acerca o se aleja, el tamao del objeto aumenta o se reduce respectivamente. El dinosaurio mostrado anteriormente en la Figura 20 se trata de un ejemplo de Realidad Aumentada basada en marcadores. Si se emplea una imagen como marcador, el proceso es muy similar. Hay que ejecutar la aplicacin correspondiente y captar la imagen en cuestin con la cmara. Una vez reconocida la imagen se producir la accin que corresponda. Dentro de este grupo se puede aadir los cdigos QR, cdigos que contienen un mensaje que puede ser ledo por un lector de cdigos QR. Los cdigos QR no son como los marcadores de Realidad Aumentada que nicamente pueden ser identicados por la aplicacin para la que han sido diseados. La informacin que se muestra en un marcador o una imagen, viene determinada por la aplicacin que se ejecuta, sin embargo en un cdigo QR la informacin o accin a realizar est codicada en el propio smbolo, pudiendo ser ledo por cualquier lector de cdigos QR. 3.2.2. Realidad Aumentada basada en la posicin

A este tipo de realidad aumentada tambin se le conoce como Realidad Aumentada sin marcadores (Markerless Augmented Reality). Este sistema permite encontrar y describir recursos que la cmara (normalmente de un telfono mvil o un tablet) capta al enfocar los espacios exteriores o interiores, con el n de facilitar al usuario informacin sobre lugares y eventos de inters. Permite disponer de una gua interactiva y actualizada en todo momento. Las aplicaciones que ofrecen este tipo de realidad aumentada utilizan el hardware de los smartphones o telfonos inteligentes (gps, brjula y acelermetro) para localizar y superponer una capa de informacin sobre puntos de inters (POIs) de nuestro entorno. Esta tecnologa se centra en la capacidad del software de utilizar simultneamente la cmara y los datos del acelermetro para generar una mejor conciencia del espacio. Gracias a que los sensores del telfono se puede registrar la direccin de los giros, el programa puede traducir el movimiento y mantener los objetos 3D en sus posiciones. Cuando el usuario mueve el smartphone captando los elementos de su entorno, el navegador, a partir de un mapa de datos, muestra los POIs cercanos. En la Figura 24 de la Seccin 3.3.2 se muestra un ejemplo de realidad aumentada basada en la posicin.

3.3.

Tcnicas de visualizacin

Existen tres tcnicas principales para mostrar la realidad aumentada:

VISIN EN 3D

24

3.3.1.

Display en la cabeza

Una pantalla instalada en la cabeza (HMD Head-Mounted Display) muestra tanto las imgenes de los lugares del mundo fsico y social donde nos encontremos, como objetos virtuales sobre la vista actual del usuario. Los HMD son dispositivos pticos que permiten al usuario poder ver el mundo fsico a travs de la lente y superponer informacin grca que se reeja en los ojos del usuario. El HMD debe ser rastreado con un sensor. Este seguimiento permite al sistema informtico aadir la informacin virtual al mundo fsico. La principal ventaja de la HMD de Realidad Aumentada es la integracin de la informacin virtual dentro del mundo fsico para el usuario. La informacin grca esta condicionada a la vista del usuario. Los displays de este tipo ms comunes son las gafas de realidad aumentada (ver Figura 22). Tambin existen proyectos en los que se estn intentando crear lentillas de realidad aumentada (ver Figura 23). Consiste en colocar un monitor pegado a la retina que mostrara su imagen en el centro de la pupila mientras dejara pasar la luz por el resto de la misma.

Figura 22: Gafas de realidad aumentada

Figura 23: Lentillas para mostrar realidad aumentada

VISIN EN 3D

25

3.3.2.

Display de mano

Este tipo de displays de realidad aumentada consisten en un dispositivo informtico que incorpora una pantalla pequea que cabe en la mano de un usuario. Todas las soluciones utilizadas hasta la fecha por los diferentes dispositivos de mano han empleado tcnicas de superposicin de informacin grca sobre el vdeo. Inicialmente los dispositivos de mano empleaban sensores de seguimiento tales como brjulas digitales y GPS que aadan marcadores al vdeo. Ms tarde el uso de sistemas, como ARToolKit4 , permitieron aadir informacin digital a las secuencias de vdeo en tiempo real. El display de mano promete ser el primer xito comercial de las tecnologas de Realidad Aumentada. Sus dos principales ventajas son el carcter porttil de los dispositivos de mano y la posibilidad de ser aplicada en los telfonos con cmara (ver Figura 24).

Figura 24: Smartphone con una aplicacin de realidad aumentada

3.3.3.

Display espacial

La Realidad Aumentada espacial (SAR) hace uso de proyectores digitales para mostrar informacin grca sobre los objetos fsicos. La diferencia clave es que la pantalla est separada de los usuarios del sistema. Debido a que el display no est asociado a cada usuario, permite a los grupos de usuarios, utilizarlo a la vez y coordinar el trabajo entre ellos. SAR tiene varias ventajas sobre el tradicional display colocado en la cabeza y sobre dispositivos de mano. El usuario no est obligado a llevar el equipo encima ni a someterse al desgaste de la pantalla sobre los ojos. Esto hace del display espacial un buen candidato
4

Se hablar sobre l en la Seccin 3.5.

VISIN EN 3D

26

para el trabajo colaborativo. El display espacial no est limitado por la resolucin de la pantalla, que s que afecta a los dispositivos anteriores. Un sistema de proyeccin permite incorporar ms proyectores para ampliar el rea de visualizacin. Los dispositivos porttiles tienen una pequea ventana al mundo para representar la informacin virtual, en cambio en un sistema SAR se puede mostrar un mayor nmero de supercies virtuales a la vez en un entorno interior. Es una herramienta til para el diseo, ya que permite visualizar una realidad que es tangible de forma pasiva.

3.4.

Casos prcticos

La realidad aumentada ofrece innidad de nuevas posibilidades de interaccin, que hacen que est presente en muchos y varios mbitos, como son la arquitectura, el entretenimiento, la educacin, el arte, la medicina o las comunidades virtuales. Proyectos educativos: Actualmente la mayora de aplicaciones de realidad aumentada para proyectos educativos se usan en museos, exhibiciones, parques de atracciones temticos... puesto que su coste todava no es sucientemente bajo para que puedan ser empleadas en el mbito domstico. Estos lugares aprovechan las conexiones wireless para mostrar informacin sobre objetos o lugares, as como imgenes virtuales como por ejemplo ruinas reconstruidas o paisajes tal y como eran en el pasado, Adems de escenarios completos en realidad aumentada, donde se pueden apreciar e interactuar con los diferentes elementos en 3D, como partes del cuerpo. Una de las primeras aplicaciones en formacin es un sistema de realidad aumentada para aprender a soldar sin riesgos. Ciruga: La aplicacin de realidad aumentada en operaciones permite al cirujano superponer datos visuales como por ejemplo termografas o la delimitacin de los bordes limpios de un tumor, invisibles a simple vista, minimizando el impacto de la ciruga. Entretenimiento: Teniendo en cuenta que el de los juegos es un mercado que mueve unos 30.000 millones de dlares al ao en los Estados Unidos, es comprensible que se est apostando mucho por la realidad aumentada en este campo puesto que sta puede aportar muchas nuevas posibilidades a la manera de jugar. Simulacin: Se puede aplicar la realidad aumentada para simular vuelos y trayectos terrestres. Servicios de emergencias y militares: En caso de emergencia la realidad aumentada puede servir para mostrar instrucciones de evacuacin de un lugar. En el campo militar, puede mostrar informacin de mapas, localizacin de los enemigos, etc.

VISIN EN 3D

27

Arquitectura: La realidad aumentada es muy til a la hora de resucitar virtualmente edicios histricos destruidos, as como proyectos de construccin que todava estn bajo plano. Apoyo con tareas complejas: Tareas complejas, como el montaje, mantenimiento, y la ciruga pueden simplicarse mediante la insercin de informacin adicional en el campo de visin. Por ejemplo, para un mecnico que est realizando el mantenimiento de un sistema, las etiquetas pueden mostrar las partes del mismo para aclarar su funcionamiento. La realidad aumentada puede incluir imgenes de los objetos ocultos, que pueden ser especialmente ecaces para el diagnstico mdico o la ciruga. Como por ejemplo una radiografa de rayos vista virtualmente basada en la tomografa previa o en las imgenes en tiempo real de los dispositivos de ultrasonido o resonancia magntica nuclear abierta. Dispositivos de navegacin: La RA puede aumentar la ecacia de los dispositivos de navegacin. Por ejemplo, la navegacin dentro de un edicio puede ser mejorada con el n de dar soporte al encargado del mantenimiento de instalaciones industriales. Las lunas delanteras de los automviles pueden ser usadas como pantallas de visualizacin frontal para proporcionar indicaciones de navegacin y informacin de trco. Aplicaciones Industriales: La realidad aumentada puede ser utilizada para comparar los datos digitales de las maquetas fsicas con su referente real para encontrar de manera eciente discrepancias entre las dos fuentes. Adems, se pueden emplear para salvaguardar los datos digitales en combinacin con prototipos reales existentes, y as ahorrar o reducir al mnimo la construccin de prototipos reales y mejorar la calidad del producto nal. Prospeccin: En los campos de la hidrologa, la ecologa y la geologa, la AR puede ser utilizada para mostrar un anlisis interactivo de las caractersticas del terreno. El usuario puede utilizar, modicar y analizar, tres mapas bidimensionales interactivos. Colaboracin: La realidad aumentada puede ayudar a facilitar la colaboracin entre los miembros de un equipo a travs de conferencias con los participantes reales y virtuales. Publicidad: Una de las ltimas aplicaciones de la realidad aumentada es la publicidad. Hay diferentes campaas que utilizan este recurso para llamar la atencin del usuario. Turismo: Plataformas como Junaio o Layar5 permiten el desarrollo de aplicaciones a terceros,
En el siguiente enlace se explica que es y para que sirve Layar: http://onsoftware.softonic.com/ realidad-aumentada-en-10-capas-para-layar
5

VISIN EN 3D

28

prcticamente sin conocimientos tcnicos, a travs de sus servidores. Esto ha fomentado la publicacin de miles de aplicaciones sobre turismo, gincanas, exposiciones virtuales, etc. Project Glass: Proyecto de gafas de realidad aumentada creado por Google que promete cambiar la interaccin de las personas con el entorno [29].

3.5.

Software Libre para Realidad Aumentada

ARToolKit Es una biblioteca GNU GPL que permite la creacin de aplicaciones de realidad aumentada, desarrollado originalmente por Hirokazu Kato en 19991 y fue publicado por el HIT Lab de la Universidad de Washington. Actualmente se mantiene como un proyecto de cdigo abierto alojado en SourceForge con licencias comerciales disponibles en ARToolWorks.. ATOMIC Authoring Tool Es un software Multi-plataforma para la creacin de aplicaciones de realidad aumentada, el cual es un Front end para la biblioteca ARToolKit. Fue Desarrollado para no-programadores, y permite crear rpidamente, pequeas y sencillas aplicaciones de Realidad Aumentada. Est licenciado bajo la Licencia GNU GPL. ATOMIC Web Authoring Tool Es un proyecto hijo de ATOMIC Authoring Tool que permite la creacin de aplicaciones de realidad aumentada para exportarlas a cualquier sitio web. Es un Front end para la biblioteca Flartoolkit. Est licenciado bajo la Licencia GNU GPL.

4.

Reconstruccin

La reconstruccin 3D es un proceso a travs del cual objetos reales son reproducidos en un ordenador manteniendo sus caractersticas fsicas (dimensiones, volumen y forma). Existen diversas tcnicas de reconstruccin y mtodos de modelado tridimensional, cuyo objetivo principal es poder realizar la conexin del conjunto de puntos representativos del objeto en forma de elementos de supercie, ya sean tringulos, cuadrados o cualquier otra forma geomtrica. Para poder realizar la reconstruccin de un objeto antes se deben obtener los diferentes puntos mediante el uso de un escner con o sin contacto fsico. Cuando se utiliza un escner mediante contacto se tiene en cuenta los factores como el tamao y distancia del objeto a medir y la precisin necesaria. No es lo mismo realizar el escner de una montaa que el de un objeto pequeo. Tambin hay que tener en cuenta como de agresivo puede ser el escaneo.

VISIN EN 3D

29

Para realizar una reconstruccin sin contacto se deben seleccionar adecuadamente los factores del objeto a escanear tales como el tamao, la forma, uniformidad de la textura que cubre al objeto entre otros. Las imagenes se pueden obtener bien con dos cmaras dispuestas en paralelo o con una cmara y desplazndola a una nueva distancia.

4.1.

Escaners 3D

Un escner 3D es un dispositivo que analiza un objeto o una escena para reunir datos de su forma. El propsito de un escner 3D es, generalmente, el de crear una nube de puntos a partir de muestras geomtricas en la supercie del objeto. Se pueden clasicar de dos tipos: Con contacto fsico y sin contacto. 4.1.1. Escaners con Contacto Fsico

Las escners se usan en su mayora en control dimensional en procesos de fabricacin y pueden conseguir precisines tpicas de 0,01 mm. Entre los escners que realizan el contacto fsico se utilizan palpadores sobre la supercie. Su mayor desventaja es que requiere el contacto fsico con el objeto para ser escaneado, por lo que el acto de escanear el objeto quizs lo modique o lo dae. Adems que requiere un coste hardware ms costoso. Existen multitud de proyectos de escners que funcionan por contacto fsico utilizando Lego Mindstorms NXT 6 . Constan de una parte para explorar objetos con una especie de sonda que va tanteando lo que hay en una determinada zona. El escaneo de una pieza pequea puede llevar desde varios minutos a unas pocas horas.

Figura 25: Escner hecho con robot Lego Midstorms NXT.

En el siguiente enlace se puede ver un video de ejemplo de un escner 3D con Lego Misdstorms http://www.youtube.com/watch?v=wbxZjDV1VlI.
6

Lego Mindstorms NXT Robots http://mindstorms.lego.com/eng/default.aspx

VISIN EN 3D

30

4.1.2.

Escaners sin Contacto Fsico

Los escneres activos emiten alguna clase de seal y analizan su retorno para capturar la geometra de un objeto o una escena. Segn como se capture la informacn se pueden clasicar en dos categoras: a) Visin activa: Utilizan una fuente de luz especca para determinar las coordenadas tridimensionales de los puntos de medida. Los sistemas pticos se fundamentan en el clculo de la profundidad. Existen tres tipos principales de escners de visin activa: Tiempo de Vuelo: Utilizan un lser para medir los puntos cronometrando el tiempo del viaje de ida y vuelta de un pulso de luz. Un diodo lser emite un pulso de luz y se cronometra el tiempo que pasa hasta que la luz reejada es vista por un detector. Son tiles en el escaneo de objetos a distancia y grandes como edicios o paisajes rocosas. En la gura 26 se muestra un escner por telemetra. Diferencia de fase: Mide la diferencia de fase entre la luz emitida y la recibida, y utiliza dicha medida para estimar la distancia al objeto. El haz lser emitido por este tipo de escner es continuo y de potencia modulada. Es un escrnes de precisin intermedia entre el de tiempo de vuelo y por triangulacin. Tiene un alcanze de hasta 200 metros en condiciones de baja iluminacin. Por triagulacin: Utilizan un lser para medir el entorno y a mayores una cmara para localizar la posicin del punto del lser refeljado. Son escners de alta precin para objetos pequeos. En la gura 27 se ve un ejemplo de este tcnica. El lser incide sobre el objeto y la cmara obtiene la posicin marcada. A travs de la triangulacin se obtiene la posicin marcada. Holografa Conoscpica: Utiliza un haz reejado en una supercie que atraviesa un cristal que posee dos ndices de refraccin, uno ordinario y jo y otro extraordinadio que es funcin del ngulo de incidencia del rayo en la supercie del cristal. Son de alta precisin, alcanzando precisiones mayores a una micra. No requieren luz lser, puede utilizarse cualquier otra con tal de que no sea monocromtica. Luz Estructurada: Proyecta un patrn sobre un objeto y miden la deformacin con una cmara de tcnica similar a la de la triangulacin. El clculo de la profundidad consiste en resolver la interseccin plano recta de la proyeccin. La luz Modulada:Generalmente la fuente de luz simplemente cicla su amplitud en un patrn sinodal. Una cmara detecta la luz reejada y la cantidad que el patrn de luz cambia para determinar la distancia viajada por la luz.

VISIN EN 3D

31

Figura 26: Escner por telemetra. El rayo lser es usado para medir la distancia al primer objeto que encuentre en su trayectoria.

b) Visin pasiva: Son aquellos que no emiten ningn tipo de luz, por el contrario, detectan la radiacin ambiental reejada por el objeto. Estos escneres suelen ser de bajo coste porque en la mayora de los casos no necesitan de un hardware especial. Silueta: Utilizan una sucesin de fotografas alrededor de un objeto tridimensional contra un fondo muy bien contrastado. Estas siluetas se estiran y son cruzadas para formar la aproximacin visual de casco del objeto. Con esta clase de tcnicas alguna clase de concavidades de un objeto (como el interior de un tazn) no son detectadas. Estereoscpicos: Se basan en el sistema visual humano. Utilizando dos cmaras en paralelo a una distancia entre ellas es capaz de obtener el volumenos de los objetos. En este trabajo nos centraremos en los escners esteoscpicos para realizar la reconstruccin tridimensional.

4.2.

Reconstruccin espacial del sistema visual humano

Para que el cerebro pueda interpretar una imagen en tercera dimensin, sta requiere de datos sobre la distancia de los objetos. Dicha informacin se obtiene gracias a la separacin de los ojos de manera que cada uno percibe los elementos desde ngulos distintos. Esto da como resultado una triangulacin de la cual el cerebro obtiene la distancia a los objetos. A este hecho se le denomina como diplopa siolgica. El cerebro interpreta ambas imgenes y es capaz de realizar una reconstruccin espacial de la situacin de los objetos. La reconstruccin espacial se consigue interpretando los

VISIN EN 3D

32

Figura 27: Principio de un sensor Lser de triangulacin. Se muestra la posicin de dos objetos.

Figura 28: Diplopa siolgica. El sistema visual crea la sensacin de que el objeto A es mayor al B.

puntos de los objetos de las dos imgenes adquiridas, interpretando en funcin de stas las distancias a la que se encuentran los objetos. En la gura 28 el cerebro interpreta que el objeto A est ms cercano que el B ya que es percibido con mayor tamao.

4.3.

La Visin Estereoscpica

Es la tcnica pasiva mas importante. Puede utilizar desde dos a ms cmaras para obtener los puntos de relacin tridimendional del mundo conocido respecto a los puntos 2D de cada imagen obtenida. Los fundamentos de la reconstruccin 3D estereoscpica se basan en el sistema visual humano. A partir de dos cmaras dispuestas en parelalo a una distancia determinada se adquieren a un mismo tiempo imgenes de una misma escena. La separacin de las dos imgenes se denomina disparidad. Esta disparidad es calculada por el cerebro y utilizada para obtener la profundidad de los objetos de la escena por medio del mtodo de la

VISIN EN 3D

33

triangulacin. Mediante la triangulacin se obtiene la correspondencia de cada uno de los puntos (x,y,z) del objeto segn el par de imgenes capturadas. En las guras 29 y 30 se muestra un ejemplo de la recontruccin tridimencional de una cara humana a partir de un par de imgenes.

Figura 29: Par de imgenes de una cara humana

Figura 30: Resultado de la reconstruccin 3D

Un sistema convencional est caracterizado por un par de cmaras con sus ejes pticos mutuamente paralelos y separados por una distancia horizontal que se denomina lnea base. Las cmaras tienen sus ejes pticos perpendiculares a la lnea base y sus lneas de exploracin o epipolares paralelas a la lnea base. Las lneas epipolares son lneas uniendo las imgenes izquierda y derecha de un mismo punto en la escena. A partir de la aproximacin de un punto 3D en base a dos imgenes de las cuales conocemos los parmetros intrnsecos y extrnsecos de las cmaras (la calibracin de ambas) podemos describir un punto del espacio de coordenadas homogneas P=(X,Y,Z) tal que en las dos imgenes se identica como P1 = (U1 , V1 ) y P2 = (U2 , V2 ).

VISIN EN 3D

34

Mediante transformacin de la perspectiva inversa, a partir de una proyeccin 2D se puede obenter la relacin de puntos 3D, vase la gura 30. Sin embargo, esto no es suciente ya que solo tenemos 2 ecuaciones para 3 incgnitas. Aadiendo una segunda cmara tambin calibrada desde la que P sea visible, aportamos dos ecuaciones ms para resolver el punto P=(X,Y,Z). Es decir, que obteniendo la correspondencias de los puntos P1 = (U1 , V1 ) y P2 = (U2 , V2 ) de ambas imgenes del par podemos calcular el punto 3D P(X, Y, Z). Para realizar la reconstruccin, el proceso se divide en tres fases principales: Calibracin: Obtencin de los parmetros intrnsecos y de distorsin de cada cmara en particular. Correspondencia: Identicacin de la proyeccin correspondiente en la imagen contraria. Reconstruccin: Clculo de la coordenada espacial a partir de la disparidad en las proyecciones.

4.4.

Calibracin

Se denomina calibracin de la cmara a la determinacin de la correspondencia entre puntos de la imagen y puntos en el mundo real. Consiste en determinar los valores de los parmetros del modelo de cmara empleado para una cmara particular, de manera que pueda modelarse su funcionamiento desde el punto de vista geomtrico. El objetivo de la fase de calibracin de cada una de las cmaras por separado es proporcionar, a partir de un cierto nmero de imgenes de un patrn de calibracin 2D situado a diferentes distancias. Los valores de los parmetros de calibracin obtenidos se agrupan en dos tipos: Calibracin interna de cada una de las cmaras (particularmente los parmetros intrnsecos). Los parmetros intrnsecos caracterizan las propiedades inherentes al sistema ptico de la cmara como pueden ser longitud focal efectiva, el radio de distorsin de las lentes, etc. Por consiguiente, se permite relacionar los puntos de la escena expresados en el sistema de coordenadas tridimensional, relativos a la cmara, con los puntos correspondientes en la imagen expresados en un sistema de coordenadas del plano imagen. Calibracin externa transformacin rgida (rotacin y traslacin) que relaciona la posicin y orientacin entre las dos cmaras. Los parmetros extrnsecos caracterizan la calibracin externa e indican, por tanto, la posicin y orientacin de la cmara con respecto a un sistema de coordenadas global permitiendo relacionar las coordenadas.

VISIN EN 3D

35

Los parmetros instrsecos modelan la geometra interna de la cmara (logitud focal de la cmara, apertura del angular, campo de visin, distorsin de la lente, etc.) y la digitalizacin de la imagen (anchura y altura de los pxeles y punto central de la imagen). Mientra que los parmetros extrnsecos de una cmara modelan su orientacin y posicin en el espacio. En la actualidad existen varios mtodos para la calibracin de una cmara. Estos mtodos pueden clasicarse segn diferentes criterios: 4.4.1. Segn el mtodo de resolucin

Pueden ser mtodos lineales o no lineales. Los mtodos lineales utilizan sistemas de ecuaciones basados en mnimos cuadrados. As se obtiene una matriz de transformacin que relaciona los puntos tridimensionales con sus proyecciones 2D en la imagen. Los mtodos lineales no calculan los parmetros que modelan la distorsin de la cmara por lo que los resultados de los puntos 3D son siempre aproximados. Sin embargo, si se desea aproximar mejor y que se incluyan las distorsiones que produce la cmara se puede recurrir a iteraciones para minimizar ndices no lineales. El ndice a minimizar suele incluir la distancia entre los puntos medidos en la imagen y los puntos proyectados obtenidos con el modelo de la cmara. Con el aumento de estas iteraciones cualquier modelo podra ser calculado. Sin embargo, los clculos se vuelven costosos y es necesario realizar una buena aproximacin de los parmetros de entrada. 4.4.2. Segn los resultados de la calibracin

Calibracin implcita o explcita. Una calibracin implcita obtiene los valores de las matrices de transformacin del conjunto de parmetros, esto es los parmetros. Una calibracin explicita obtiene directamente los parmetros del modelo de la cmara. 4.4.3. Segn las plantillas

Dada una plantilla con numerosos puntos distinguibles de la que se conozcan sus posiciones 2D y 3D, estos se sustituyen en las ecuaciones del modelo, siendo las incgnitas los parmetros de la cmara. Cuantos ms puntos se usen ms precisa ser la calibracin. En el caso de usar plantillas 3D con una sola imagen de la misma es posible realizar la calibracin y adems se evitan errores de medidas de las coordenadas de puntos. Pero requiere de una costosa elaboracin de la plantilla a emplearse. Para utilizar plantillas 2D se requiere tomar varias imgenes de la misma desde varias posiciones y cambiando la orientacin. No es necesario conocer las posiciones desde donde se toman las imgenes. Este mtodo resulta ms verstil ya que la elaboracin de la plantilla se puede realizar fcilmente. En la gura 31 se puede ver un ejemplo de la

VISIN EN 3D

36

realiacin de una calibracin mediante una plantilla 2D utilizando funciones de OpenCV (Open Source Computer Vision Library) [17] como por ejemplo cvCalibrateCamera. En la documentacin de OpenCV [18] se explican el uso del calibrado de cmaras mediante el uso de plantillas 2D.

Figura 31: Ejemplo de calibracin mediante plantilla 2D en OpenCV.

4.4.4.

Metodos de Calibracin

Existen varios mtodos de calibracin y modelos de cmara de calibracin. Los principales modelos de cmara son: Modelo de la cmara Pin-hole: Se trata de un modelo basado en las cmaras estenopeicas 7 de acuerdo al cual todos los rayos de luz que provienen de la escena pasan por un punto comn, el pinhole o centro de proyeccin, antes de incidir en el plano de la imagen. Se tiene un sistema de coordenadas de referencia de la escena y otro de la cmara, cuyo origen es el pin-hole, ver gura 32.

Figura 32: Modelo de cmara pin-hole.

Cmara estenopeica http://es.wikipedia.org/wiki/C%C3%A1mara_estenopeica

VISIN EN 3D

37

La gran mayora de los procedimientos de calibracin se basan en este modelo de cmara. Es el modelo es el ms simple y requiere de pocos de parmetros para poder ser representado. Aplica una matriz de proyeccin para transformar las coordenadas 3D de los puntos del objeto en coordenadas 2D de la imagen tal que: . m = P xM Donde M = [Xw , Yw , Zw , 1]t es el vector de las coordenadas del punto en el sistema de referencia exterior y P es una matriz 4x3 denominada matriz de proyeccin. . m = [u, v, t]t es el vector de las coordenadas del punto en la imagen. El smbolo = indica que los elementos de ambos lados son equivalentes excepto por un factor de proporcionalidad, es decir, m = P xM , siendo el factor de escala. La transformacin de las coordenadas 3D de un punto en el sistema de referencia situada en el mundo situado en la cmara y su proyeccin al plano imagen de sta (coordenadas 2D) se desarrolla en una secuencia de cuatro pasos: 1. Transformacin del punto en coordenadas 3D del mundo a coordenadas 3D de la cmara. Primero se realiza una rotacin alrededor de los tres ejes y luego una traslacin. Expresado en forma matricial: Mc = RxM + T Donde M es el vector que contiene las coordenadas del punto en sistema de coordenadas del mundo, T es el vector de traslacin y R es la matriz de rotacin. En todos los mtodos, la matriz de rotacin es el resultado de aplicar sucesivamente giros alrededor de cada uno de los ejes, por lo que R = Rz Ry Rx . 2. Proyeccin sobre el plano imagen aplicando el modelo pin-hole. up = f (Xc /Zc ); vp = f (Yc /Zc ) Donde f es la distancia al punto focal. 3. Distorsin de la lente. La distorsin vara en funcin de la distancia de cada punto al centro del eje ptico.
2 r = u2 + vp p

Existe la distorsin radial ur , vr y la distorsin tangencial ut , vt . Los resultados de modelar cada tipo de distorsin se suman a las coordenadas sin distorsin, o sea, se obtiene: ud = up + ur + ut vd = vp + vr + vt

VISIN EN 3D

38

4. Conversin de unidades (paso de milmetros a pixels) y desplazamiento del origen al centro del eje ptico. u = dxsxud + u0 v = dyvd + v0 Donde donde dx y dy son los factores de conversin resultado del cociente entre el tamao de la imagen en pixels y del CCD 8 en milmetros. sx es un factor de proporcin del pixel. u0 y v0 son los puntos de coordenadas del centro del eje ptico. En caso de no tener en cuenta la distorsin (cosa que ocurre frecuentemente y en especial en los mtodos de autocalibracin), la matriz de proyeccin se puede descomponer en matrices, una para los parmetros intrnsecos (A) y otra para los extrnsecos (D): P = AD Siendo A una matriz de relacin de los parmetros intrnsecos (centro del eje ptico, distancia focal, factores de escalado de la imagen, conversion milmetros-pixels, y factor de proporcin). La matriz D es la matriz de rotacin y el vector de traslacin. Modelo de cmara Gauss: El modelo de lente delgada o de Gauss intenta resolver aspectos que el modelo pin-hole no puede explicar. Pin-hole se limita a reproducir los efectos del zoom a travs de la variacin de la distancia focal. El modelo de Gauss permite parametrizar el zoom, la distancia de enfoque, la profundidad de campo, y la apertura. La formacin de la imagen en este modelo se basa en el hecho de que todos los rayos de luz paralelos al eje ptico convergen en el foco. La proyeccin de un punto en el plano imagen se obtiene como la interseccin del rayo paralelo al eje ptico que pasa por dicho punto y del rayo que pasa a travs del centro ptico de la lente. En la gura 33 Z es es la distancia del objeto M a la cmara. f es la distancia focal nominal y foc la distancia de enfoque. La suma de ambas es la distancia focal efectiva. Los principales mtodos de calibracin son: Mtodo de Tsai. Representa un proceso clsico de calibracin basado en las medidas de las coordenadas de los puntos de una plantilla 3D respecto a un punto de referencia jo. Se basa en el modelo de cmara pin-hole y para corregir la distorsin usa un nico coeciente que corrige la distorsin radial. El sistema que plantea tiene nueve incg8

Dispositivo de Carga Acoplada (CCD) http://es.wikipedia.org/wiki/Charge-coupled_device

VISIN EN 3D

39

Figura 33: Modelo de cmara de Gauss o lente delgada.

nitas, seis extrnsecas (dadas de la rotacin y traslacin del patrn) y tres intrnsecas (distancia focal, coeciente de distorsin, factor de escala). Requiere de una plantilla bien realizada de un tablero de ajedrez en 3D con al menos 100 puntos. Las coordenadas han de estar referidas a un origen de coordenadas jo, es imprescindible un adecuado diseo de la plantilla de calibracin y establecer una medida exacta de los puntos. Mtodo Lineal: Es un mtodo clsico basado en la computacin lineal. Frecuentemente se usa como aproximacin inicial para obtener la matriz de transformacin (P). Lo que se obtiene es una matriz de proyeccin a partir de la cual se extraen todos los parmetros, tanto los extrnsecos (traslacin y rotacin del patrn respecto a la cmara) como los intrnsecos (centro del eje ptico, factores de conversin y grado de no ortogonalidad del plano imagen o asimetra). Mtodo de Zhang. Utiliza las coordenadas de los puntos situados en una plantilla 2D plana, tipo tablero de ajedrez, desde varias posiciones, tomando diferentes imgenes de la misma desde diferentes posiciones y orientaciones. De esta forma se combinan las ventajas de los mtodos de calibracin basados en las medidas de las coordenadas de la plantilla con las ventajas de la autocalibracin en la cual no es necesario utilizar plantilla. Este modo de calibracin resulta muy exible desde el punto de vista de que tanto la cmara como la plantilla pueden ser movidas libremente y adems se pueden tomar tantas imgenes como se quieran sin tener que volver a realizar medidas en la plantilla. Mientras que en el mtodo de Tsai requiere al menos cien puntos en la plantilla y la posibilidades de cometer errores en las medidas son altas, el mtodo de calibracin de Zhang no requiere tal especial diseo de la plantilla, ni tampoco una medicin tan exacta de los puntos de la misma. Existen muchos ms mtodos de calibracin, todos basados mtodos lineales/No lineales y tipo de uso de plantilla incluso basado en el entrenamiento de redes neuronales como el mtodo de Ahmed.

VISIN EN 3D

40

La biblioteca openSource OpenCV de visin articial desarrollada por Intel ofrece Funciones de calibracin de cmaras. Es utilizada en muchas aplicaciones, desde sistemas de seguridad con deteccin de movimiento, hasta aplicativos de control de procesos donde se requiere reconocimiento de objetos. La funcin cvCalibrateCamera permite calcula los parmetros de la cmara usando la informacin de puntos en el patrn de objetos y en los objetos de las imgenes.

4.5.

Correspondencia

Para identicar el objeto que se quieren reconstruir es necesario establecer una correspondencia de los puntos de ambas imgenes en el punto que corresponde la mundo real (3D). La deteccin, medicin e interpretacin del movimiento son necesarias para analizar la informacin relativa al desplazamiento del objeto. En general, se considera que existe una relacin entre la escena 3D y la secuencia de imgenes 2D asociada, esta relacin se encuentra en el ujo ptico de la imagen. Para poder realizar la correspondencia de imgenes se requiere la identicacin de objetos bien mediante deteccin de bordes, por ejemplo usando los operadores Sobel, LoG o Canny. El operador Canny el ms utilizado en diferentes implementaciones ya que el que ms bordes reales obtiene de los objetos. Tambis es neceario realizar deteccin de esquinas para obtener punto de inters. Mediante anlisis de la curvatura en el espacio de escala CSS se detectan un buen nmero esquinas en un objeto lo que lo hace idneo para realizar la fase de correspondencia ya que para el proceso de reconstruccin se requiere de la deteccin de todas las esquinas posibles para determinar aquellos puntos sobre los que existen cambios de profundidad y contornos. Otro tipo de detectores de contornos utilizados son los que permiten la deteccin de lneas rectas, por ejemplo el basado en transformada de Hough, ecaz en objetos de geometras rectas y tambin en objetos redondeados. Durante la obtencin de puntos de las imgenes, se presenta el problema de la repetitividad: un rasgo de una imagen se compone de varios pxeles, por lo que hay que decidir uno concreto entre ellos a la hora de seleccionarlo. El proceso de segmentacin en imgenes es un paso esencial en todo proceso de reconstruccin. Existen algunas tcnicas para conseguir separar un objeto del fondo de un escenario de manera ptima, como los contornos activos y k-means, se explicar en la seccin de 5. Existen varias tcnicas para facilitar la tarea de obtener correspondencias en los sistemas de visin estereoscpica: Restriccin epipolar de la geometra de los sistemas de visin estreo que nos

VISIN EN 3D

41

ayuda a encontrar las correspondencias de puntos en el par estreo, ver gura 34.

Figura 34: Geometra de una sistema de visin estreo.

Conguracin cannica de un sistema de visin estreo. Es una disposicin binocular en la que La lnea base se alinea al eje de coordenadas horizontal. Los ejes pticos de las dos cmaras son paralelos y perpendiculares a la lnea base. La lnea epipolar (paralela a la lnea base y horizontal) une las dos imgenes del mismo punto de la escena. Las lneas epipolares son paralelas en los planos de las imgenes (es ms fcil buscar una correspondencia en una lnea horizontal, que en una que no lo es, tanto para un observador humano como para un algoritmo. As un punto en una imagen se diere de otro en la componente horizontal. Recticacin de las imgenes de un sistema de visin estreo no cannico para transformarlo en uno cannico. Es posible convertir un sistema estreo general en una disposicin cannica de forma analtica, aunque si se desea alta precisin no conviene pues introduce errores de remuestreo. El clculo de la matriz fundamental para la obtencin de correspondencias. Esta matriz sirve para estimar las correspondencias de puntos de una imagen en la otra. La visin estreo trinocular que utiliza tres imgenes, dado un punto P1 de la primera imagen, se se dibuja su epipolar en las otras imgenes. Si solo obtenemos un candidado de correspondencia en la otra imagen, por ejemplo P2 , entonces el punto P3 ser el cruzo de los dos puntos anteriores. El clculo de P es ms preciso con tres lneas de visin. Para resolver el problema de la correspondencia existem varios algoritmos entre los que podemos destacar: Algoritmo PMF: Modelo desarrollado por Pollard, Mayhew y Frisby en 1985. Es un algoritmo de correspondencia por vecindad cuya caracterstica es la de establecer la relacin de rasgos entre imgenes a partir de anlisis de sus posiciones con respecto a los puntos de los rasgos que los rodean.

VISIN EN 3D

42

Modelo de Kim y Aggarwal: Similar al algoritmo PMF de Kim y Aggarwal en 1987. Es una mejora repecto al PMF. Ambos algoritmos realizan mismo pretatamiento de las imgenes: ltrado usando un ltro gaussiano bidimensional y la extracion de puntos de cambio de luz mediante el operador laplaciano. Utilizan los puntos de cambios de luz como primitivas de las imgenes para estrablecer la correspondencia y realizan un proceso de relajacin iterativo para determinar el objeto homlogo en ambas imgenes. Algoritmo de Lucas-Kanade Piramidal: Calcula el ujo ptico de una secuencia de vdeo, es decir, para realizar seguimiento de objetos. Actualmente est considerada como una de las tcnicas clsicas en el procesamiento de imgenes y ha sido aplicado a muchos problemas. Con l se consiguen tiempos de ejecucin relativamente pequeos. El algoritmo realiza el clculo del ujo ptico 9 (los objetos estticos tienen luminosidad variable segn la zona de captura) sobre una representacin piramidal de la imagen que son una serie de imgenes resultado de su reduccin de en mltiplos de dos. El seguimiento de los puntos se realiza a lo largo de los diferentes niveles de profundidad de las pirmides. Se trata de un algoritmo iterativo de clculo de ujo ptico entre imgenes independientes con alguna regin en comn. Los algorimos de correspondecia son muy costosos computacionalmente y requieren tiempos de respuesta elevados. Esto obviamente es un gran inconveniente ya que muchas veces se requiere el poder realizar las operaciones en tiempo real. Es por ellos que normalmente los algorimos se implementan sobre arquitecturas paralelas usando bibliotecas de programacin en paralelo como PVM o CUDA. Tambin es posible el uso de aparatos como lseres para facilitar el ahorro de clculo computacionalde forma que realicen el clculo de distancias. El problema de la correspondencia Los puntos cuyas coordenadas 3D se desean calcular deben estar visibles en las dos imgenes del par estreo. Los puntos de una imagen pueden no estar visibles lo que diculta el establecimiento de correspondencias bien porque estn ocultos o por estar fuera del campo de visin. Es posible que el sistema encuentre falsas correspondencias, al tener que elegir entre varios candidatos en una imagen a ser correspondencia de un punto en otra imagen. Este inconveniente se reduce mediante el empleo de restricciones (p.e. la restriccin epipolar).
9

Flujo ptico http://es.wikipedia.org/wiki/Flujo_%C3%B3ptico

VISIN EN 3D

43

4.6.

Reconstruccin

La reconstruccin tridimensional es un proceso que consiste en analizar un conjunto de imgenes para encontrar la posicin relativa de los puntos correspondientes y, basndose en un conjunto de parmetros de la conguracin de las cmaras, determinar la posicin del punto en el espacio tridimensional mediante un proceso denominado triangulacin. La distancia entre el centro de las dos lentes se llama lnea base b, el objetivo de este procedimiento es encontrar las coordenadas (X, Y, Z) del punto w sus respectivas proyecciones en las dos imgenes. Se supone que las dos cmaras son idnticas y que los ejes de coordenadas de ambas estn alineados, lo nico que los diferencia es el punto de origen, por lo que la coordenada Z del punto w ser la misma para ambas cmaras. Si tenemos las matrices de proyeccin P1 y P2 de la escena 3D obtenidas a partir del proceso de calibracin y y un conjunto de puntos en correspondencia, entonces es posible obtener los puntos 3D originales. Uno de los problemas con los que nos encontramos es que los rayos que unen las correspondencias con los centros de las cmaras generalmente no intersectan en un punto, sino que determinan rectas convergentes que no se llegan a tocar. Esto es as debido a que la precisin de las imgenes es nita y a que las correspondencias no son exactas. El mtodo de triangulacin consiste en determinar las dos lneas que unen cada correspondencia con el foco de la cmara y despus encontrar el punto cuya distancia a dichas lneas sea la mnima.

4.7.

Casos prcticos

La reconstruccin tridimensional tiene varias aplicaciones, como la navegacin de un robot permitindole conocer en qu parte de la escena se encuentra y poder planicar sus movimientos sin necesidad de ayuda humana. Tambin es til para determinar magnitudes como distancias, supercies o volmenes, lo cual puede ser aplicable para controles de calidad ya que se pueden vericar los procesos y supercies de los objetos que se estn fabricando. Otra aplicacin es la digitalizacin de museos o monumentos histricos. Existen multitud de proyectos relacionadas con la recostruccin 3D, muchos de ellos llevados a cabo en varias universidades. Actualmente se est utilizando sistemas de reconstruccin en vehculos para la deteccin de peatones y otros vehculos desde ngulos de punto muerto. En la universidad de alcal junto con un grupo de investigadores alemanes desarroll recientemnete un sistema de deteccin de peatones 10 . El dispositivo Kinect desarrolado por Microsoft es capaz de realizar una reconstrucUso de sistema estreo denso para detectar peatones: http://www.muyinteresante.com.mx/ tecnologia/399041/detector-auto-peatones/
10

VISIN EN 3D

44

cin en tiempo real tridimensional gracias a los En la conferencia de grcos de ordenador SIGGRAPH 11 de 2011, el grupo KinectFusion de Microsofoft [24] hicieron una demostracin de reconstruccin. Haciendo uso de Kinect realizaron la reconstruccin en movimiento y en tiempo real de una habitacin. En el siguiente enlace se puede ver el video de la demostracin http://www.youtube. com/watch?v=RSh8Voanp3c

Figura 35: Demostracin de reconstruccin en tiempo real con Kinect.

Existen controladores de cdigo abierto desarrollados inicialmente por el estudiante espaol Hctor Martn 12 adems del SDK ocial de Microsoft 13 . En las distribuciones de Ubuntu se pueden instalar desde el repositorio con el paquete freenect.

5.

Segmentacin

La correspondencia de imgnenes habitualmente consiste en segmentar ambas imgenes y buscar pares de regiones correspondientes, pero tiene el problema de que las regiones correspondientes pueden tener formas y tamaos diferentes (debido al ruido, las oclusiones y las limitaciones de los mtodos de segmentacin), lo cual hace que la reconstruccin de la supercie representada por estas regiones sea difcil, o incluso imposible. La segmentacin es un paso esencial en todo proceso de reconstruccin, su nalidad es poder separar los objetos que queremos proyecto del entorno. Todo algoritmo de reconstruccin requiere de un proceso de segmentacin para poder reducir tiempos de anlisis de procesado y poder reducir el nmero de puntos que se quieren corresponder. De esta manera, se reduce la zona de trabajo. El proceso de segmentacin para poder obtener una correspondencia de imgenes estereoscpicas es comenzar por una sola imagen de referencia y se busca la correspondencia de las regiones obtenidas en la otra imagen. Para ello se minimiza el error de correlacin
Enlace a la SIGGRAPH de 2011 http://www.siggraph.org/s2011/ Controlador de cdigo abierto http://git.marcansoft.com/?p=libfreenect.git 13 Enlace al SDK para Kinect de Microsoft http://www.microsoft.com/en-us/kinectforwindows/ develop/overview.aspx
12 11

VISIN EN 3D

45

entre ellas y se aaden ciertas restricciones sobre la variacin de la profundidad a lo largo y ancho de una regin para limitar as el espacio de soluciones. Existen varias tcnicas para poder conseguir separar un objeto de su entorno como son los contornos activos y k-means que se vio en el tema de Segmentacin basada en discontinuidades. Los primeros trabajos en el rea de posicionamiento de objetos mediante marcas naturales requieren el uso de un modelo de los objetos a localizar. Estn basadas en la deteccin de bordes que permiten denir la imagen mediante un conjunto de primitivas geomtricas (normalmente segmentos de rectas) y que posteriormente se ajustan a un objeto o modelo dado para la reconstruccin. Pero en la actualidad este tipo de tcnicas apenas se usan debido a las restricciones geomtricas que imponen al objeto a detectar. Con objeto de reducir estas restricciones aparecen una serie de trabajos basados en el uso de puntos caractersticos sobre el plano imagen, en lugar de rectas o curvas. El uso de puntos presenta diversas ventajas, tales como el incremento de la robustez de los algoritmos frente a cambios de iluminacin u oclusiones. Otras alternativas son las basadas en modelos de movimiento.

5.1.

Segmentacin en Movimiento

Una de las tareas mas bsicas y comunes en la mayora de las aplicaciones de visin articial a la hora de segmentar los objetos de inters es una segmentacin por movimiento. La segmentacin en general tratar de separar las componentes dinmicas de las estticas. Puede ser difcil en casos donde la cmara est en movimiento puesto que extraer componentes estticas depender del conocimiento del movimiento del sistema de referencia. Existen variedad de tcnicas para la segmentacin en movimiento. Los mtodos basados en la substraccin de una imagen del fondo esttico de una escena permiten simplicar el problema de segmentacin. Sin embargo, presentan otras dicultades aadidas, como la necesidad de mantener actualizado el fondo de la escena frente a cambios de las caractersticas del propio fondo, o de las condiciones de iluminacin. Podemos clasicar las tcnicas en: Tcnicas de segmentacin de movimiento basadas en ujo ptico. Donde el ujo ptico se dene como el campo vectorial bidimensional de las velocidades aparentes en una imagen, que se obtiene a partir de una secuencia de imgenes, mediante el anlisis de los cambios que sufre la luminancia en los puntos de las mismas. Hay que tener en cuenta que el ujo ptico no siempre se corresponde con el campo de movimiento en la imagen. Estas tcnicas realizan la divisin de la imagen en diferentes regiones atendiendo a

VISIN EN 3D

46

las discontinuidades en el ujo ptico, que se calcula a partir de la restriccin de brillo. Tcnicas basadas en capas. Se basa en la deteccin de movimiento, donde cada capa representa un modelo de deteccin. A partir de estos modelos de movimiento se actualizan las regiones de apoyo. Los mtodos de deteccin de movimiento utilizan deteccin de bordes de regiones en movimiento. La idea es la de combinar gradientes espaciales y temporales usando un operador lgico AND. Aplicando un umbral al producto en lugar de cada uno de los factores detectaremos bordes en movimiento de manera ms robusta. Responden bien en caso de que los bordes sean de poco contraste pero de movimiento rpido y viceversa. Tcnicas basadas en factorizacin. Proponen una restriccin de rango para estimar el nmero de movimientos independientes. La segmentacin de los puntos de la imagen se obtiene a partir de los vectores singulares principales de la matriz de los puntos caractersticos en mltiples imgenes. Una tcnica similar utiliza un matriz de interaccin Q a partir de un conjunto de puntos. La principal desventaja de esta tcnica es el hecho de que su funcionamiento se degrada rpidamente en presencia de ruido. Esta tcnica no garantiza la obtencin de la segmentacin ptima global.

6.

Modelado de estructuras

El modelado de estructuras 3D es una representacin de coordenadas, que conforman estructuras envueltas por una extura. Se forman con mallas de manera simple para luego aplicar sobre ellas texturas. Por tanto, primero se deben construir un modelo, para ello hay tcnicas de modelo comunes, las cuales denen a continuacin.

6.1.

Estructuras Predenidas

Las estructuras predenidas sirven para modelar objetos ms complejos a partir de ellas. El Box Modeling utiliza estas estructuras para poder crear guras ms complejas. Existen tres tipos fundamentales: Primitivas: Son primitivas las guras de un caja, cono, esfera, geo esfera, cilindro, tubo, anillo, pirmide, tetera y plano. Primitivas Extendidas: hedra, nudo toroide, caja redondeada", cilindro redondeado, tanque de aceite, capsula, sprindle, forma L, gengon, forma c, anillo ondulado, prisma.

VISIN EN 3D

47

Libreras: Suelen ser estructuras predenidas en programas propios de modelado 3D.

6.2.

Box Modeling

El modelado de caja se trata de una tcnica de modelado 3D que crea guras a partir de un conjunto determinado de estructuras predenidas o primitivas que luego son modicadas. Esta tcnica es la contrara a la creacin de guras mediante edge modeling donde un modelo se construye pieza a pieza colocando lazos a lo largo de los contornos prominentes y luego llenando los vacos. La funcin primaria dle modelado de caja consiste en la extrusin y la ampliacin de las supercies planas que forman un modelo, denominado caras, otra de las caractersticas ms prominentes de este estilo de arte que le da un segundo nombre, menos rudimentaria de la subdivisin de modelado.

6.3.

Modelado de NURBS

Es una tcnica para construir mallas de alta complejidad de aspecto orgnico curvado que emplea como punto de partida B-splines. NURBS es el acrnimo ingls de non-uniform rational B-spline y es un modelo matemtico muy utilizado en la computacin grca para generar y representar curvas y supercies. Permite la modelizacin precisa de supercies de forma libre como las usadas en carroceras de automviles, superces de exteriores aeroespaciales y cascos de barcos, que pueden ser reproducidos de forma exacta y tcnicamente en cualquier momento. En la gura 36 se puede ver una imagen generada mediante NURBS. La geometra NURBS tiene cualidades esenciales que la convierten en la opcin ideal para el modelado 3D: Existen varias formas estndar industriales para intercambiar la geometra NURBS. Es decir, que la informacin de una gura realizada mediante NURBS es fcil de exportar a cualquier programa de modelado 3D. Tienen denicin precisa y muy conocida. Pueden representar con precisin objetos geomtricos estndar tales como lneas, crculos, elipses, esferas y toroides. La representacin de una gura geomtrica no requiere de mucha cantidad de informacin. La regla de clculo de las NURBS se puede implementar en un ordenador de manera ecaz y precisa.

VISIN EN 3D

48

Una curva NURBS se dene mediante cuatro elementos: Grados: Este nmero normalmente es 1, 2, 3 o 5, per puede ser cualquier nmero entero positivo. Las lneas y polilneas son grado 1, los crculos de grado 2 y el resto de las formas son grado de entre 3 y 5 grados. Puntos de control: Son una lista de puntos de grado+1 como mnimo. Al mover los puntos de controls se cambian las formas de las curvas Nodos: Son una lista de nmeros de grado + N -1, donde N es el nmero de puntos de control. Una curva B Spline lleva asociado adems de un polgono de control, una serie de nodos, cuya posicin marca la posicin de los vrtices del polgono de control. Un error frecuente se produce cuando cada nodo se empareja con un punto de control, y ocurre slo en las NURBS de grado 1 (polilneas). Para curvas NURBS de grados ms altos, existen grupos de nodos de 2 x grado que corresponden a grupos de puntos de control de grado+1. La regla de clculo de un curva utiliza una frmula matemtica que coge un nmero y asigna un punto. Cada punto de control lleva asociado un valor numrico denominado peso. Por defecto se trabaja con pesos igual a la unidad, pero matemticamente puede cambiarse la forma de una curva variando los pesos de los puntos de control. Non Uniform signica que estos pesos pueden variar de un punto de control a otro.

Figura 36: Ejemplo de supercie tridimensional generada mediante NURBS

6.4.

Modelado de Operaciones Booleanas

Consiste, en tomar dos mallas y aplicarles una de tres operaciones booleanas disponibles: Resta, interseccin y unin.

VISIN EN 3D

49

Figura 37: Modelado de guras mediante operaciones booleanas

6.5.

Extrude y Lathe

La tcnia de extrude se basa en obtener gurar en 3D a partir de un contorno 2D de la misma forma que se crean las formas al pasar por el contorno formando profundidad. A medida que se va extrayendo la gura 3D se puede remodelar el contorno 2D y seguir extrayendo una nueva forma. Vase en siguiente enlace www.youtube.com/watch? v=Uqxo6BqZFow donde se muestra el proceso de creacin de una botella en 3d Max Studio. La tcnica de Lathe utiliza una curva creada mediante spline, que a partir de un eje se reproduce la gura en toda su rotacin. Es muy ltil para generar jarrones, copas, botellas y formas simtricas.

Figura 38: Cuenco creado a partir del giro de un spline.

6.6.

Loft

Se deben emplear 2 ms splines, para crear una malla 3d continua. El primer spline, funciona como path (camino) mientras que los dems, dan forma, extendindose, a traves del path. Ideal para crear cables, botellas, etc.

6.7.

Sistema de Partculas

Como su nombre indica es un sistema de partculas o proyeccin de formas geomtricas mediante parmetros varios tales como choque, friccin y dems. Es combinable con

VISIN EN 3D

50

efectos de dinmica y deformadores. Ideal para crear formas de humo, agua, cualquier cosa que est formado por muchos objetos pequeos y repetitivos.

6.8.

Modelado por Texturas

Las texturas sirven para hacer creer que se trata de un objeto real, engaando a la vista mediante transparencias o relieves simulados. El modelado de texturas se divide 2 partes: Mapeado directo: son texturas con imgenes planas y slo para supercies planas. No funcionan bien en curvas. Incluso en supercies planas es problemtico: las supercies poligonales pueden ser distintas a la textura. Mapeado en dos fases: Utilizada en objetos 3D. En primer lugar mapea la textura en 2D como si fuera un objeto 3D sencillo y se aplica a una gura tridimensional. Mapeado u,v: Se trata de una correspondencia de una imagen 2D sobre coordenadas de una imagen 3D. Este modo de textura se suele utilizar para pintar un rosto o una forma tridimensional compleja. Mip-mapping: Tcnica del esfumado, un efecto vaporoso es un efecto vaporoso que se obtiene por la superposicin de varias capas de pintura extremadamente delicadas, proporcionando a la composicin unos contornos imprecisos, as como un aspecto de vaguedad y lejana.

Figura 39: Ejemplo de textura sobre una puerta dando aspecto de profundidad.

VISIN EN 3D

51

Referencias
[1] Autoestereoscopia. Wikipedia. Enlace del artculo http://es.wikipedia.org/wiki/ Autoestereoscopia. [2] Estereopsis. Wikipedia. Estereopsis. Enlace del artculo http://es.wikipedia.org/wiki/

[3] Estereoscopa. Wikipedia. Enlace del artculo http://es.wikipedia.org/wiki/ Estereoscopia. [4] Pantalla automultiescpica. Wikipedia. Enlace del artculo http://es.wikipedia. org/wiki/Pantalla_automultiescopica. [5] Realidad aumentada. Wikipedia. Enlace del artculo http://es.wikipedia.org/ wiki/Realidad_aumentada. [6] Visin binocular. Wikipedia. Enlace del artculo http://es.wikipedia.org/wiki/ Vision_binocular. [7] Realidad Aumentada sin marcadores. 2010. Enlace del artculo http://wecolab.com/blog/2010/09/20/ realidad-aumentada-sin-marcadores-la-ultima-innovacion-de-layar/. [8] Tipos de Realidad Aumentada. Aumentame, 2011. Enlace del artculo http:// aumenta.me/?q=node/36. [9] Qu es la Realidad Aumentada? Aumentame, 2011. Enlace del artculo http: //www.goarplus.com/que-es-la-realidad-aumentada/. [10] I. Fernndez Pedrs, A. Garca Orozco, A. Gonzlez Prez, E. Sastre Ferrndez, and D. Suso Snchez. Visin Estereoscpica. 2012. Enlace del artculo http://sabia. tic.udc.es/gc/trabajos2011-12/VisionEstereoscopica/principal.html. [11] A. Garca. Realidad Aumentada: mejora de la capacidad espacial. Observatorio Tecnolgico, 2011. Enlace del artculo http://recursostic. educacion.es/observatorio/web/es/cajon-de-sastre/38-cajon-de-sastre/ 1020-realidad-aumentada-mejora-de-la-capacidad-espacial. [12] A. C. N. Gonzlez. Escner 3d de bajo costo empleando webcams. Masters thesis, 2010. http://ccg.ciens.ucv.ve/~esmitt/archives/narvaeza10.pdf. [13] J. I. Gonzlez. Estudio experimental de mtodos de calibracin y autocalibracin de cmaras. PhD thesis, 2003. http://mozart.dis.ulpgc.es/Gias/josep/ TesisJosep.pdf. [14] C. L. Gutirrez. Segmentacin y posicionamientos 3D de robots mviles en espacios inteligentes mediante redes de cmaras jas. PhD thesis, 2010. http: //www.tesisenred.net/handle/10803/39070.

VISIN EN 3D

52

[15] F. B. Gmez. Reconstruccin tridimensional de escenas mediante un par estereoscpico de cmaras. Masters thesis, 2003. http://isa.umh.es/pfc/rmvision/.

[16] A. Hevia. Realidad aumentada para llevar, cuando Internet se fusiona con nuestra indumentaria. Xatakaon, 2012. Enlace del artculo http://www.xatakaon.com/tic/ realidad-aumentada-para-llevar-cuando-internet-se-fusiona-con-nuestra-indumentari

[17] Intel. Biblioteca opencv. Website, 1999. http://sourceforge.net/projects/ opencv/. Ha sido citado en la pgina 36. [18] Intel. Documentacin Calibracin y Reconstruccin en OpenCV 2.1, 2010. http://opencv.willowgarage.com/documentation/cpp/camera_calibration_ and_3d_reconstruction.html. Ha sido citado en la pgina 36. [19] Julian Yanover. Denicin de visin. Enlace del artculo http://definicion.de/ vision/. [20] D. R. C. y. E. F. B. Julin Dorado de la Calle. Grcos de computacin. 2011. http://sabia.tic.udc.es/gc/contenidos.htm. [21] Luis ngel Marqus Calvo. La visin en tres dimensiones. Visin estereoscpica. 2008. Enlace del artculo http://usuarios.arsystel.com/luismarques/ documentacion/txt/00001_contenidos.htm. [22] C. V. Martn-Albo. Realidad Aumentada. Observatorio Tecnolgico, 2010. Enlace del artculo http://recursostic.educacion.es/observatorio/web/ cajon-de-sastre/38-cajon-de-sastre/922-realidad-aumentada. [23] M. M. Martnez. Tcnicas de visin estereoscpica para determinar la estructura tridimensional de la escena. Masters thesis, 2010. http://eprints.ucm.es/11350/. [24] Microsoft. Microsofts kinectfusion. Website, 2011. http://research.microsoft. com/en-us/projects/surfacerecon/. Ha sido citado en la pgina 44. [25] F. Ovalle. Cmo funcionan los distintos tipos de 3D? 2010. Enlace del artculo http://www.ohmygeek.net/2010/06/18/%C2% BFcomo-funciona-los-distintos-tipos-de-3d/. [26] J. Snchez Prez. Reconstruccin de la geometra 3d a partir de una secuencia vdeo de pares estreo. Technical report, 2003-2005. http: //www.ctim.es/site/index.php?option=com_jresearch&view=project&task= show&id=4&Itemid=170&lang=es. [27] J. Snchez Prez. Reconstruccin de la geometra 3d de una cara humana a partir de un sistema de cmaras y aplicaciones. Technical report, 2004-2006. http://www.ctim.es/site/index.php?option=com_jresearch&view= project&task=show&id=5&Itemid=170&lang=es.

VISIN EN 3D

53

[28] T. Valich. Star Trek Comes to Life: Meet Augmented World Contact Lenses. 2012. Enlace del artculo http://vr-zone.com/articles/ star-trek-comes-to-life-meet-augmented-world-contact-lenses/15603. html. [29] J. Velasco. Project Glass, la realidad aumentada vista por Google. Bitelia. Enlace del artculo http://bitelia.com/2012/04/ project-glass-gafas-realidad-aumentada-google. Ha sido citado en la pgina 28. [30] M. Villalba. Lentillas de Realidad Aumentada para una sper visin. Diario Abierto, 2012. Enlace del artculo http://www.diarioabierto.es/75531/ lentillas-de-realidad-aumentada-para-una-super-vision. [31] Wavens. El Ojo de Halcn. El universo de Wavens, 2010. Enlace del artculo http:// eluniversodewavens.blogspot.com.es/2010/12/el-ojo-de-halcon.html. Ha sido citado en la pgina 20.

También podría gustarte