FULLTEXT01 en Es

Traducido del inglés al español - www.onlinedoctranslator.
com
Estudios de Linköping en ciencia y tecnología
Disertaciones, No. 1145
Llevando la realidad aumentada a los dispositivos móviles

Los telefonos
Anders Henrysson
Departamento de ciencia y tecnología

Linköpings universitet
Norrköping 2007
Llevando la realidad aumentada a los teléfonos móviles
Anders Henrysson
Copyright © 2007 Anders Henrysson Impreso

por LiU-Tryck, Linköping 2007 ISBN
978-91-85895-43-4 ISSN 0345-7524
La racionalidad es el reconocimiento del hecho de que nada puede alterar la verdad y
nada puede prevalecer sobre ese acto de percibirlo
Ayn Rand
Cuando haces el hallazgo tú mismo, incluso si eres la última persona en la Tierra en

mira la luz, nunca la olvidarás
Carl Sagan
Abstracto
Con su mezcla de real y virtual, la Realidad Aumentada (AR) es una tecnología que ha atraído mucha atención de
la comunidad científica y es vista como una forma perfecta de visualizar información relacionada con el contexto.
Los gráficos generados por computadora se presentan al usuario superpuestos y registrados con el mundo real
y, por lo tanto, lo aumentan. Con una prometedora amplificación de la inteligencia y una mayor productividad, la
RA se ha investigado intensamente durante varias décadas, pero aún no ha llegado a un público amplio.
Esta tesis presenta los esfuerzos para llevar la realidad aumentada a los teléfonos móviles y, por lo tanto, al
público en general. La implementación de tecnologías en dispositivos limitados, como teléfonos móviles, plantea
una serie de desafíos que difieren de las direcciones de investigación tradicionales. Estos incluyen: recursos
computacionales limitados con poca o ninguna posibilidad de actualizar o agregar hardware, capacidades
limitadas de entrada y salida para gráficos 3D interactivos. La investigación presentada en esta tesis aborda estos
desafíos y realiza aportes en las siguientes áreas:
Seguimiento basado en visión por computadora para teléfonos móviles
La primera contribución de la tesis ha sido migrar algoritmos de visión por computadora para rastrear la cámara del
teléfono móvil en un marco de referencia del mundo real, una tecnología habilitadora clave para AR. Para abordar los
problemas de rendimiento, se ha desarrollado un código optimizado de bajo nivel que utiliza algoritmos de punto fijo.
Técnicas de interacción 3D con teléfonos móviles

Otra aportación de esta tesis ha sido la investigación de técnicas de interacción para la manipulación de contenidos
virtuales. Esto se logra en parte aprovechando el seguimiento de la cámara para una interacción controlada por posición
donde el movimiento del dispositivo se utiliza como entrada. La entrada de gestos, que es posible gracias a una cámara
frontal separada, es otro enfoque que se investiga. Los resultados obtenidos no son exclusivos de AR y también podrían
aplicarse a gráficos 3D móviles en general.
Nuevas aplicaciones de RA para un solo usuario

Con las tecnologías de comunicación de corto alcance, los teléfonos móviles pueden intercambiar datos no solo con otros
teléfonos, sino también con un entorno inteligente. Los datos se pueden obtener para seguimiento o visualización; Las
pantallas se pueden utilizar para representar gráficos con el teléfono móvil rastreado actuando como un dispositivo de
interacción. Se presenta el trabajo donde un teléfono móvil recolecta una red de sensores para usar AR para visualizar
datos en vivo en contexto.
v
Nuevas aplicaciones de RA de colaboración
Una de las áreas más prometedoras para la RA basada en teléfonos móviles es mejorar el trabajo cooperativo cara a cara
apoyado por computadora. Esto se debe a que la pantalla AR permite que las señales no verbales se utilicen en mayor
medida. En esta tesis, se ha investigado la colaboración cara a cara para examinar si la RA aumenta la conciencia de los
socios de colaboración incluso en dispositivos pequeños como teléfonos móviles. Los comentarios de los usuarios indican
que este es el caso, lo que confirma la hipótesis de que los teléfonos móviles son cada vez más capaces de ofrecer una
experiencia de RA a una gran audiencia.
Agradecimientos
Mi primer agradecimiento es para mi amigo y colaborador Mark Billinghurst por sus grandes esfuerzos para
inspirar, enriquecer y promover mi investigación. Muchas gracias también a mis supervisores Anders Ynnerman y
Mark Ollila por su orientación a lo largo de estos años.
Matthew Cooper, Morten Fjeld y Nguyen-Thong Dang por sus muy apreciados
comentarios sobre esta tesis. Karljohan Palmerius por su ayuda en LATEXAS. Amigos y colegas
de NVIS y HITLabNZ.
Mis financistas, Brains & Bricks y CUGS, por apoyar mi investigación y mis viajes.
Este trabajo de investigación fue financiado en parte por CUGS (la Escuela Nacional de Graduados en Ciencias de la
Computación, Suecia).
vii
viii
Contenido
1 Introducción 1
1.1 Computación móvil y ubicua ....................... 2
1.2 Realidad aumentada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2.1 4
Seguimiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2.2 Muestra. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3 Entrada 3D . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.4 Desafíos de la investigación. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1,5 Contribuciones. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2 Hacia la realidad aumentada del teléfono móvil 15

2.1 Aproximaciones a la realidad aumentada. . . . . . . . . . . . . . . . . . . . . . . . 2.1.1 15
RA basada en HMD. . . . . . . . . . . . . . . . . . . . . . . . . . . . . RA al aire dieciséis
libre
2.1.2 ............................... 19
AR portátil
2.1.3 .............................. 20
2.2 Más allá del teclado. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.1 23
Campo de movimiento. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.2.2 Seguimiento de objetos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.2.3 Seguimiento de marcadores. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.3 Dispositivos de entrada 3D y técnicas de interacción. . . . . . . . . . . . . . . . . . 28
3 Descubriendo la realidad aumentada del teléfono móvil 31

3.1 Plataforma de realidad aumentada para teléfonos móviles. . . . . . . . . . . . . . . . . . . 31
3.1.1 Biblioteca de punto fijo ........................... 32
3.1.2 Calibración de la cámara . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.1.3 Mejoras adicionales. . . . . . . . . . . . . . . . . . . . . . . . . . Aplicación de 34
3.1.4 ejemplo: campaña del zoológico de Wellington ........... 35
3.2 Teléfono móvil como dispositivo de interacción 6DOF .................. 36
3.2.1 Navegación. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Selección 37
3.2.2 global. . . . . . . . . . . . . . . . . . . . . . . . . . . . . Transformación de cuerpo 37
3.2.3 rígido. . . . . . . . . . . . . . . . . . . . . . . Selección 38
3.2.4 local. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.2.5 Deformación. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Aspectos de 43
3.2.6 usabilidad. . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
ix
X CONTENIDO
3.2.7 Aplicación de ejemplo: AR LEGO. . . . . . . . . . . . . . . . . . . . RA 46

3.3 colaborativa. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.1 47
AR Tenis. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . CMAR: Realidad 47
3.3.2 Aumentada Móvil Colaborativa. . . . . . . . . . . Aplicación de ejemplo: 50
3.3.3 mobiliario colaborativo. . . . . . . . . . . . . 51
3.4 RA en Computación ubicua .......................... 51
3.4.1 VISIÓN CMAR. . . . . . . . . . . . . . . . . . . . . . . . . . . . . Visualización de 51
3.4.2 datos de sensores. . . . . . . . . . . . . . . . . . . . . . . 52
3.4.3 LUMAR. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Aplicación de 54
3.4.4 ejemplo: Exploración interactiva de apartamentos. . . . . . . 54
4 Conclusiones 57
Bibliografía 61
Capítulo 1
Introducción
La realidad aumentada (AR) es una gran visión donde el dominio digital se fusiona con el mundo físico. La
información no solo sigue a una persona, sino también a su propia mirada: mirar un objeto es suficiente para
recuperar y mostrar información relevante, amplificando su inteligencia. Aunque la investigación sobre AR ha
avanzado en las últimas décadas, la tecnología AR aún no ha llegado al mercado masivo. El requisito mínimo para
la RA es una pantalla, una cámara de seguimiento y una unidad de procesamiento. Estos son también los
componentes de los teléfonos con cámara, que se prevé que representen más del 80% de las ventas totales de
teléfonos móviles en todo el mundo en 2010.1.
Los teléfonos móviles, que no hace mucho tiempo eran dispositivos "parecidos a ladrillos" limitados a llamadas
telefónicas, se han convertido en "navajas del ejército suizo" digitales y alcanzaron ventas de más de mil millones por año.
2. La navegación web, la reproducción multimedia y la fotografía digital son solo algunas de sus capacidades; con el
aumento de los recursos informáticos, de comunicación y de almacenamiento, su versatilidad e importancia seguirán
creciendo. La realización de la RA en teléfonos móviles pondría esta tecnología a disposición de millones de usuarios y,
además, proporcionaría una plataforma de investigación en rápido desarrollo.
Esta tesis estudia la RA en teléfonos móviles, abordando algunos de los obstáculos técnicos que deben
superarse antes de que la RA móvil se convierta en algo común. La investigación surge de la motivación de que
esta gama de dispositivos ahora es cada vez más capaz de AR y es probable que se convierta en la plataforma de
AR dominante en el futuro. La investigación sobre AR se cruza con la Computación ubicua y móvil en general y la
interacción 3D en particular. Las oportunidades en estas áreas se abordaron a medida que avanzaba la
investigación sobre la RA.
El resto de este capítulo presenta tecnologías y conceptos en los que se basa esta tesis. A continuación, se
examina la tecnología móvil actual para ilustrar la versatilidad de los teléfonos móviles modernos y señalar las
tendencias relevantes. Una de esas tendencias es el posicionamiento que, combinado con la detección de
orientación, habilita la RA. Otra tendencia es la comunicación de datos de corto alcance, que permite que las
unidades móviles se conecten sin problemas entre sí y con dispositivos integrados. Esto actualiza el concepto de
Computación ubicua, donde un entorno inteligente proporciona información al sistema. A continuación, se
presentan los fundamentos de RA, seguidos de una breve introducción a la configuración de entrada 3D.
1www.gartner.com/it/page.jsp?identificación = 498310
2www.strategyanalytics.net/default.aspx?modificación = P ressReleaseV isorYa0 = 3260
1
2 CAPÍTULO 1 INTRODUCCIÓN
terminología de control utilizada más tarde. El capítulo finaliza con los retos de investigación y aportes de esta
tesis. El capítulo 2 luego presenta hilos de investigación unidos en el capítulo de contribuciones.
1.1 Computación móvil y ubicua

El aumento de la potencia de la batería combinado con la disminución del consumo de energía y otros avances en el
diseño de la electrónica ha dado como resultado una amplia gama de dispositivos informáticos móviles. Los portátiles se
han complementado con Tablet PC, PDA y Ultra Mobile PC. Paralelamente a esta desvinculación de los recursos
informáticos, los teléfonos móviles se han convertido en herramientas versátiles para la informática y las comunicaciones
móviles, como se ilustra en la Figura 1.1. Ha habido mucho progreso en áreas importantes para realizar AR en teléfonos
móviles:
Procesando
Los teléfonos móviles ahora tienen suficiente potencia de procesamiento para una visión por computadora simple,
decodificación de video y gráficos interactivos en 3D. También presenta pantallas a color3 y acceso ubicuo a la red4, los
teléfonos son cada vez más capaces de transmitir video, navegar por la web, jugar y otras aplicaciones gráficas y de ancho
de banda que hasta hace poco solo se encontraban en computadoras estacionarias con conexiones por cable. Muchos
fabricantes de dispositivos5 también están instalando unidades de procesamiento de gráficos (GPU) en teléfonos móviles,
lo que brinda soporte de punto flotante de hardware y gráficos más rápido.
Imagen
A finales de la década de 1990 se produjo la primera demostración de la cámara de un teléfono móvil. Desde entonces, se
han vendido más de mil millones de teléfonos con cámara y el progreso hacia resoluciones más altas y mejores ópticas ha
sido rápido. Los teléfonos con cámara también pueden6, usando la cámara trasera para grabar o la cámara frontal para
videollamadas. El estrecho acoplamiento de la cámara y la CPU brinda a los teléfonos móviles capacidades de entrada
únicas donde se utiliza la visión por computadora en tiempo real para permitir nuevas metáforas de interacción y vincular
los mundos físicos y virtuales.
Posicionamiento
No son solo los sensores de imagen los que se han abierto camino en los teléfonos móviles. Muchos teléfonos ahora están
equipados con antenas GPS para establecer su ubicación en coordenadas globales, lo que permite servicios basados en la
ubicación que proporcionan información específica basada en la ubicación del usuario. Dichos servicios incluyen encontrar recursos
cercanos en entornos desconocidos y rastrear objetos, por ejemplo, automóviles. El entretenimiento es otra área para los sistemas
que reconocen la ubicación con los juegos ubicuos, también conocidos como juegos basados en la ubicación, que son una nueva
generación de juegos de computadora que utilizan el mundo físico como campo de juego y, por lo tanto, dependen de la tecnología
de posicionamiento. Los escenarios del juego incluyen jugadores móviles en el nivel de la calle, equipados con dispositivos de mano
posicionados con GPS, y jugadores en línea que ven a los jugadores callejeros como avatares en un mundo virtual. Para obtener un
posicionamiento más preciso y
3La profundidad de color de la pantalla suele oscilar entre 16 y 24 bits por píxel en, por ejemplo, QVGA (320×240) resoluciones
4WCDMA a 384 Kbps es común y HSDPA emergente actualmente admite hasta 7.2 Mbps
5Para obtener una lista de dispositivos móviles con aceleración de gráficos, consulte, por ejemplo: mobile.sdsc.edu/devices.html
6Las resoluciones típicas van desde QCIF (176 × 144) a VGA (640 × 480) a velocidades de cuadro de 15 a 30 fps
1.1. COMPUTACIÓN MÓVIL Y UBICUOSA 3
Figura 1.1: Evolución del teléfono. El teléfono de la izquierda es un Nokia 6210 anunciado en 2000. Tiene una
pantalla monocromática que muestra 6 líneas de caracteres. El teléfono correcto es un Nokia N95 8GB anunciado
en 2007. Cuenta con una pantalla TFT de 2.8 "con 16 millones de colores. También tiene aceleración de gráficos
3D por hardware y posicionamiento GPS. En su parte posterior hay una cámara de 5 megapíxeles y una segunda
cámara está ubicada en su frente. (Fotografía cortesía de Nokia)
También en los juegos de interior donde las señales de GPS están bloqueadas, se pueden utilizar balizas de radio como
WLAN. La colocación de un usuario en un sistema de coordenadas permite identificar las inmediaciones y proporcionar
información relacionada en un mapa 2D. Agregar la orientación de la cabeza a la posición hace posible identificar lo que el
usuario está mirando y mostrar información en 3D.
Interfaz
Las interfaces de los teléfonos móviles han evolucionado con sus crecientes funcionalidades. Los primeros teléfonos,
limitados a hacer llamadas telefónicas, presentaban una interfaz de usuario basada en caracteres, que solo requería
teclas numéricas para ingresar. A medida que las interfaces gráficas de usuario (GUI) se convirtieron en la norma debido
al aumento de la velocidad del procesador, la disponibilidad de pantallas ráster en color y el éxito del paradigma de la GUI
en las PC; Se introdujeron joypads de 5 direcciones, joysticks y jogdials junto con botones de menú. Estas adiciones
permitieron la navegación rápida por el menú y la selección de iconos, necesarios para la interacción de la GUI. Los
teléfonos inteligentes de alta gama adoptaron la interacción con el lápiz óptico y los teclados QWERTY en miniatura,
aunque aún admiten la interacción con los dedos con una sola mano, lo que contrasta con el estilo de interacción
inherentemente bimanual de las PDA. Un lápiz tiene la ventaja de ser manejado con gran precisión, debido a su metáfora
de lápiz y papel y pequeña superficie de contacto con la pantalla, pero se limita a un punto de contacto. Por el contrario,
algunos dispositivos de pantalla táctil recientes, por ejemplo el iPhone de Apple, permiten gestos con varios dedos; el
zoom se realiza mediante gestos de pellizco:pellizcar abierto para acercar y pellizcar cerca para alejar. Los teléfonos con
cámara a menudo cuentan con un botón de cámara dedicado para tomar fotografías, y muchos teléfonos multimedia
modernos tienen botones de medios comojugar, siguiente etc. Sin embargo, ha habido poco o ningún desarrollo de la
entrada de teléfonos móviles dedicada a la interacción 3D a pesar del aumento de las capacidades de renderizado 3D en
los teléfonos modernos.
Comunicación de corto alcance

La red inalámbrica no solo está disponible a través de sistemas celulares de área amplia, sino también a través de
estándares de comunicación de corto alcance como Bluetooth y WLAN. Estas tecnologías son interesantes
porque permiten el intercambio de datos con dispositivos para, por ejemplo, seguimiento, información de
contexto, salida de medios o acceso a bases de datos. Las tareas computacionalmente pesadas se pueden
distribuir sin problemas a los recursos informáticos circundantes. Los dispositivos escanean la proximidad en
busca de servicios y establecen un canal de comunicación ad hoc con requisitos mínimos de configuración. Esto
es importante cuando el usuario es móvil y se deben mapear nuevos contextos digitales. Este descubrimiento de
servicios y la comunicación económica de corto alcance también son importantes en Computación ubicua.
Computación ubicua
Computación ubicua es un paradigma en el que la computación está incrustada en nuestro entorno, por lo que
se vuelve invisible [Wei91]. Representa la tercera ola en computación, la primera son los mainframes (una
computadora que atiende a muchas personas) y la segunda computadoras personales (una computadora que
atiende a una persona). Con muchas computadoras pequeñas, algunas móviles, al servicio de una persona, una
visión es incorporar inteligencia a los objetos cotidianos. Una propiedad fundamental de los objetos inteligentes
es que pueden detectar y generar información de estado relevante; por tanto, los sensores y la comunicación
inalámbrica constituyen tecnologías importantes. En un entorno inteligente, un teléfono móvil puede conectarse
sin problemas a dispositivos integrados que brindan servicios. Proyecto Ubicomp de Xerox Parc7
incluyó el desarrollo de pestañas a escala de pulgadas, almohadillas de escala de pie y tablas de escala de patio,
dispositivos que trabajan juntos en una infraestructura que reconoce el nombre, la ubicación, el uso y la propiedad de
cada dispositivo. Es fácil ver los paralelismos con los teléfonos móviles de escala de pulgadas y las pantallas de plasma
interactivas a escala de patio de hoy. Los conceptos de un entorno de detección y de conectar dispositivos de diferentes
escalas vuelven a ser interesantes a medida que los teléfonos móviles obtienen mayores capacidades para comunicar
datos.
1.2 Realidad aumentada

En la informática ubicua, la computadora se volvió "invisible". En AR, la computadora es
transparente y el usuario percibe el mundomediante el ordenador. Esto significa que una
computadora puede mezclar impresiones del mundo real con información generada por
computadora, aumentando así la realidad. El mundo, al ser tridimensional e interactivo, requiere
que un sistema AR tenga las siguientes tres características [Azu97]:
1. Combina lo real y lo virtual
2. Interactivo8 en tiempo real
3. Registrado en 3D
7www.ubiq.com/weiser/testbeddevices.htm
8Una velocidad de fotogramas de 5 fps es mínima para una interactividad tolerable, mientras que 30 es un mínimo para una animación fluida. Ver Tang e
Isaac¿Por qué a los usuarios les gustan los videos?
1.2. AUMENTAR
Figura 1.2: Continuum Realidad-Virtualidad de Milgram y estilos de interacción correspondientes. La parte

superior representa el continuo de Milgram, que va desde el entorno real (es decir, físico) hasta entornos
virtuales inmersivos. Entre estos extremos, existe una mezcla entre lo real y lo virtual, de ahí el término
Realidad Mixta. La parte inferior ilustra los estilos de interacción correspondientes. La interacción en un
entorno real requiere que el usuario cambie el enfoque entre la computadora (cuadro punteado) y el
entorno físico, mientras que la interacción de realidad mixta superpone estos dominios. Un entorno
virtual no permite ninguna interacción con el mundo real. (Adaptado de [MK94] y [RN95])
El concepto de RA se aplica a todos los sentidos, pero esta tesis se centra en las mejoras visuales. Esto significa que
los sistemas AR superponen la vista de los usuarios del mundo real con gráficos 3D en tiempo real. El cambio en la
dirección de la vista se refleja inmediatamente al volver a renderizar la escena virtual para preservar las relaciones
espaciales entre los objetos reales y virtuales. De esta manera, las imágenes virtuales pueden parecer adjuntas a objetos
del mundo real.
Es ilustrativo comparar la RA con la Realidad Virtual (RV), donde solo se presenta información virtual. Si bien
se pretendía que la computación ubicua fuera lo opuesto a la realidad virtual, la realidad aumentada tiene una
relación más estrecha con la realidad virtual, ya que las impresiones sensoriales son parcialmente virtuales. El
continuo de Milgram [MK94] (Figura 1.2) muestra esta relación: cuanto más a la derecha, menos información del
mundo real es perceptible. El término medio entre los entornos reales y virtuales se llama Realidad Mixta, que
también incluye la Virtualidad Aumentada donde la mayor parte de la entrada, a menudo el fondo, es generada
por computadora. El continuo de Milgram destaca otra ventaja de AR: no hay necesidad de hacer una costosa
versión digital de una escena del mundo real al visualizar nuevos objetos en un entorno existente.
En muchas películas, parte del contenido se genera por computadora para producir escenas que no se pueden crear
con accesorios físicos. Es de crucial importancia registrar estos objetos en 3D para preservar la ilusión de los objetos
virtuales que existen en el mundo físico. Sin embargo, en las películas no existe ningún requisito de renderizado
interactivo. Considerar la realidad aumentada como efectos de película en tiempo real da una idea de los problemas de
investigación, pero también de su potencial.
Lo que hace que los investigadores se interesen en la RA es su superposición del mundo real con información
relacionada con el contexto, lo que resulta en una amplificación de la inteligencia [Azu97]. Esto se puede describir además
como proyectar el dominio de visualización en el dominio de la tarea, eliminando así el cambio de dominio donde los
puntos de referencia en el dominio de visualización deben coincidir con los puntos correspondientes en el dominio de la
tarea, una tarea que a veces requiere mucho tiempo. Se cree que tal eliminación de las costuras espaciales produce una
mayor productividad.9. Por ejemplo, un médico podría proyectar una imagen de rayos X (dominio de visualización) en el
paciente (dominio de tareas) para evitar tener que memorizar los rayos X mientras mira al paciente y tener que volver a
los rayos X para refrescar la memoria. o conocer nuevos detalles. Esto se generaliza a la mayoría de situaciones en las que
se utiliza información visual relacionada con el contexto para realizar tareas del mundo real.
De manera análoga a los dominios de tareas y visualización, en el trabajo colaborativo se puede hablar de
espacios de tareas y comunicación. En la colaboración tradicional cara a cara, los participantes rodean una mesa
en la que se coloca el objeto de interés, por ejemplo, un prototipo de producto. Las personas pueden verse y
utilizar señales expresivas de comunicación no verbal: los espacios de tarea y comunicación coinciden. Si el
objeto de interés es, en cambio, un modelo CAD que se muestra en una pantalla vertical, los participantes ya no
pueden percibir señales de comunicación visual como la mirada o los gestos mientras se sientan uno al lado del
otro observando la pantalla; los espacios de tarea y comunicación no coinciden. Con la RA es posible sacar lo
mejor de ambos mundos: espacios de trabajo y comunicación coincidentes y contenido digital. Estas
características hacen que la RA sea interesante para el trabajo cooperativo asistido por computadora (CSCW).
Existe una amplia gama de áreas de aplicación para la RA. Además de la medicina [BFO92], la paleontología
[BGW+02] y mantenimiento [FMS93], juegos de realidad aumentada [TCD+00, CWG+03] es una extensión lógica de
los juegos omnipresentes, pero quizás más similar a los juegos de computadora en primera persona, que ahora
tienen lugar en el mundo real. La RA también puede ampliar los servicios basados en la ubicación al resaltar los
edificios en 3D en lugar de simplemente mostrar una leyenda en un mapa 2D [FMH97]. Esto requiere que la
información específica de la ubicación sea un objeto gráfico con una determinada posición y que el objeto se
aumente para que esté en la línea de visión.
Hay tres tecnologías clave sobre las que se construye un sistema de RA:
1. Seguimiento. El sistema debe conocer el punto de vista del usuario para recuperar y presentar contenido
virtual relacionado. Más precisamente, debe conocer la posición y orientación de la pantalla del sistema
en un sistema de coordenadas físico con mapeo conocido a uno virtual. El establecimiento de parámetros
de posición y orientación se conoce como seguimiento.
2. Registro. El seguimiento es solo un medio para lograr el registro: la alineación final de la

información real y virtual que se presenta al usuario. El registro debe realizarse con precisión de
píxeles a velocidades de cuadro interactivas para preservar la ilusión de coexistencia real y virtual
en el mismo dominio.
3. Monitor. Un sistema AR debe poder generar una combinación de real y virtual. Por lo tanto, la pantalla
debe permitir al usuario ver el mundo real superpuesto con gráficos en 3D. También debería ser
rastreable a velocidades de cuadro interactivas.
9Esta es una de las motivaciones detrás de la Realidad Industrial Aumentada (IAR). Ver por ejemplowww.arvika.de
1.2. REALIDAD AUMENTADA 7
Escribe Tecnología Ejemplo

Mecánico Armadura SensAble Phantom®
Basado en fuente Magnético, ultrasónico Polhemus FASTRAK®
Sin fuente Inercial: giroscopio, acelerómetro InterSense InertiaCube ™
Óptico Marcadores fiduciales, seguimiento de características ART ARTtrack, ARToolKit
naturales
Híbrido p. ej., óptico-inercial InterSense IS-1200 VisTracker ™
Tabla 1.1: Ejemplos de tecnología de seguimiento
1.2.1 Seguimiento
Una pantalla móvil transparente10 debe seguirse con 6 grados de libertad (6DOF) para mostrar la superposición
de imagen correcta. El seguimiento es un problema general con la aplicación no solo en AR sino también en VR y
robótica; por lo tanto, se tratará brevemente aquí, aunque el seguimiento es significativamente más difícil en AR
debido a los requisitos de registro. El registro depende directamente de la precisión del seguimiento, lo que hace
que el seguimiento de RA sea una tarea muy exigente. Idealmente, la resolución tanto del subsistema de
seguimiento como de la pantalla debería ser la de la fóvea del ojo humano.
Hay dos estrategias principales de seguimiento: egocéntrico De adentro hacia afuera y exocéntrico de fuera hacia
dentro. En el seguimiento de adentro hacia afuera, el sistema AR está equipado con suficientes sensores para establecer
los parámetros de posición y orientación. El seguimiento de afuera hacia adentro tiene lugar en un entorno
instrumentado donde los sensores fijos rastrean el sistema AR móvil desde el exterior y le proporcionan datos de
seguimiento para el registro.
En términos generales, la tecnología de rastreo se puede dividir en mecánica, basada en fuente, sin
fuente y óptica (Tabla 1.1). Los sistemas de seguimiento mecánico calculan la orientación y la posición
finales atravesando las ramas de la armadura, acumulando la posición relativa de cada eslabón. Son
precisos pero engorrosos y con un rango de movimiento limitado.
El principio detrás del seguimiento basado en fuentes es medir la distancia entre fuentes y receptores. Para lograr un
seguimiento de 6DOF, se deben utilizar tres fuentes y tres receptores. Los rastreadores electromagnéticos emiten un
campo magnético, mientras que los rastreadores acústicos transmiten señales ultrasónicas captadas por micrófonos.
Ambos rastreadores son discretos y están probados en la industria, pero solo se pueden usar en entornos controlados.
Las fuentes GPS y WLAN solo se pueden utilizar para posicionamiento.
Los rastreadores de inercia son dispositivos sin fuente que miden el cambio en la inercia. Los acelerómetros
miden la aceleración y producen datos de posición cuando su salida se integra dos veces. Los giroscopios miden
el movimiento angular y funcionan detectando el cambio en la dirección de un momento angular. Los
giroscopios requieren calibración, mientras que los acelerómetros utilizan la navegación a estima y, por lo tanto,
son propensos a desviarse con el tiempo. La gran ventaja es que ambas tecnologías pueden miniaturizarse y
también implementarse en entornos no preparados. Las brújulas dan un rumbo absoluto en relación con el
campo magnético de la Tierra; sin embargo, son vulnerables a la distorsión.
El seguimiento óptico se basa en el análisis de la entrada de vídeo y calcula la posición absoluta de la cámara en
relación con las geometrías conocidas o el movimiento de la cámara en relación con el fotograma anterior extraído.
10En las pantallas transparentes de video, a menudo es la cámara la que se rastrea y se supone que está lo suficientemente cerca de la
pantalla para que se ignore el desplazamiento.
características. Estas geometrías pueden ser objetos 3D o marcadores 2D llamados fiduciales. Alternativamente, se puede
hablar de seguimiento sin marcadores y basado en marcadores. El seguimiento óptico requiere una línea de visión clara y
los algoritmos de visión por computadora son computacionalmente pesados. Sin embargo, existen varios puntos fuertes:
es barato, preciso y flexible y un solo sensor proporciona seguimiento 6DOF. Es muy adecuado para pantallas de video
transparentes que se presentan en la siguiente sección. Las cámaras están disponibles en teléfonos móviles cuando se
combinan con una CPU para un posible análisis de imágenes. Cabe señalar que el seguimiento óptico se extiende a
longitudes de onda no visibles, por ejemplo, infrarrojos. También se pueden obtener mediciones de rango muy precisas
mediante otra forma de seguimiento óptico: rayos láser.
La elección del rastreador es una compensación entre movilidad, rango de rastreo, complejidad del sistema, etc. La
mayoría de las configuraciones que requieren rastreo de área amplia utilizan enfoques híbridos, que combinan diferentes
fortalezas respectivas de los rastreadores. Este es el caso de la mayoría de las configuraciones AR para exteriores, que se
describirán en la Sección 2.1.2. Para un tratamiento más profundo de las tecnologías de rastreo, consulte la encuesta de
Rolland et al. [RDB01].
1.2.2 Pantallas
Hay tres categorías de visualización que se utilizan para superponer gráficos de computadora en una
vista del mundo real: óptica transparente, video transparente y basada en proyección.
Pantallas ópticas transparentes son parcialmente transparentes y consisten en un combinador óptico para
mezclar real y virtual. La principal ventaja es que el usuario ve el mundo real directamente; sin embargo, al tener
que reflejar los gráficos proyectados, estas pantallas reducen la cantidad de luz entrante. Otros problemas
surgen de tener diferentes planos focales para real y virtual y el retraso de los gráficos renderizados.
Pantallas transparentes de video Consisten en una pantalla opaca alineada con una cámara de video. Al
mostrar las imágenes de la cámara, la pantalla se vuelve "transparente". Las ventajas son que la computadora
procesa la misma imagen que ve el usuario (también introduce un retraso en el video del mundo real para que
coincida con el retraso del rastreador) y la información tanto real como virtual se muestra sin pérdida de
intensidad de luz. La aplicación del análisis de imágenes a los fotogramas de vídeo capturados permite lograr un
registro correcto incluso si los datos de seguimiento son ruidosos. La desventaja es que los parámetros del ojo y
la cámara de video son diferentes.
Sistemas basados en proyección utilice el mundo real como pantalla proyectando gráficos en él. Esto los
hace buenos para proporcionar un gran campo de visión. Colocan los gráficos a la misma distancia que el objeto
del mundo real, lo que facilita la acomodación de los ojos. El gran inconveniente es que requieren un fondo sobre
el que proyectar los gráficos; por lo tanto, un objeto solo puede aumentarse dentro de sus contornos y puede
requerir condiciones especiales de superficie e iluminación para proporcionar información virtual brillante. Sin
embargo, la mayoría de los proyectores solo pueden enfocar la imagen en un solo plano en el espacio. Esto limita
la gama de objetos que se pueden aumentar.
Hay tres estrategias de configuración principales para las categorías de pantalla anteriores: de
cabeza, de mano y estacionaria (Figura 1.3).
Una pantalla montada en la cabeza (HMD) se usa como un par de "anteojos". Esto permite la interacción
bimanual ya que las manos de ambos usuarios están libres; para muchas aplicaciones industriales y militares,
esta propiedad convierte a los HMD en la única alternativa. En aplicaciones móviles / portátiles, son el tipo de
pantalla dominante. Aunque quedan desafíos técnicos tanto para la óptica transparente
1.2. REALIDAD AUMENTADA 9
Proyector montado en la cabeza Proyector de mano Proyector (es) estacionario

"Linterna de cabeza" "Linterna" "destacar"
Pantalla de retina virtual HMD

"lentes"
Pantalla de mano
"Lente mágica"
Pantalla estacionaria Objeto aumentado
"ventana"
En la cabeza Mano Estacionario
Figura 1.3: Configuraciones de pantalla y metáforas. Se puede generar un plano de imagen con imágenes
virtuales directamente en la retina mediante un rayo láser. En el otro extremo de la escala, el plano de la
imagen coincide con el objeto aumentado. Entre estos extremos, se necesita una pantalla para el plano
de la imagen. Dicha pantalla puede ser óptica o de video transparente y llevarse en la cabeza, de mano o
estacionaria según el área de seguimiento, los requisitos de interacción, etc. (Adaptado de la imagen por
cortesía de Oliver Bimber y Ramesh Raskar)
y video HMD transparentes, sus principales problemas son sociales y comerciales. El uso de un HMD destacado
en público no está aceptado socialmente y la mayoría de los sistemas son engorrosos y costosos. Los HMD de
consumo se han desarrollado principalmente para la realidad virtual y la televisión de pantalla grande personal,
pero no han logrado hacerse populares en el mercado masivo. Queda por ver si el aumento de las capacidades
de reproducción de video y almacenamiento móvil estimulará una nueva ola de HMD asequibles. Incluso si dicha
pantalla estuviera disponible comúnmente, su uso para AR sería limitado ya que no son transparentes y / o
carecen de capacidad de seguimiento. La instalación de un HMD con cámaras calibradas y subsistemas de
seguimiento es una tarea abrumadora. Los proyectores montados en la cabeza todavía se encuentran en un nivel
experimental y queda por ver si se volverán competitivos.
Una pantalla de mano se utiliza como lente mágica [BSP+93] o un "espejo", que amplía el contenido de la
información. Como tal, tienen un campo de visión limitado y actualmente no hay soporte para estéreo, lo que resulta en
señales de menor profundidad. A pesar de estos inconvenientes, las pantallas portátiles han surgido como una alternativa
a las pantallas que se colocan en la cabeza. La razón principal es que los dispositivos de mano ampliamente disponibles se
han vuelto lo suficientemente potentes para la RA. Usar un teléfono móvil para AR portátil es similar a usar
para la fotografía, una actividad socialmente aceptada. Handheld AR es un complemento, en lugar de un

reemplazo, de las configuraciones portátiles con HMD. Es razonable creer que la RA se desarrollará de manera
análoga a la RV, donde las configuraciones inmersivas de HMD y CAVE utilizadas en la industria y el mundo
académico se han complementado con experiencias de RV no inmersivas como los juegos en 3D y Second Life,
que se ejecutan en hardware de consumo. Los sistemas de proyección en miniatura son una tecnología
emergente con un posible impacto en la RA de mano. La idea es integrar un proyector pequeño, pero potente,
dentro de un dispositivo de mano. Si se usa para AR, dicho dispositivo se usaría como una linterna que "ilumina"
el mundo real con información digital.
Pantallas estacionarias actuar como "ventanas" frente al mundo aumentado. Dado que están estacionarios,
no se requiere ningún seguimiento de la pantalla en sí. Las pantallas fijas van desde monitores de PC hasta
pantallas espaciales 3D avanzadas. Un enfoque simple de AR es conectar una cámara web a una PC y aumentar la
transmisión de video. Los proyectores se pueden usar para aumentar un área grande sin requerir que los
usuarios usen ningún equipo. El problema de tener un solo plano focal se puede solucionar con técnicas de
proyectores múltiples [BE06].
1.3 Entrada 3D
Dado que el mundo real es tridimensional, la RA es inherentemente 3D en su combinación de imágenes reales y
virtuales. Esto significa que AR debe admitir técnicas de interacción 3D para que los usuarios puedan interactuar
más allá de simplemente mover la pantalla rastreada. Para habilitar tanto la traslación como la rotación en 3D, un
dispositivo de entrada debe admitir al menos seis grados de libertad (6DOF) de interacción11.
Las capacidades y limitaciones de la interacción humana se han estudiado durante décadas y un vasto cuerpo de
conocimiento se encuentra disperso en dominios como el control motor humano, la psicología experimental y la
interacción humana con la computadora (HCI). Sin embargo, no se comprenden completamente todos los aspectos de la
interacción 6DOF y no existe un dispositivo de entrada que se adapte a todas las aplicaciones 3D. Por lo tanto, se han
propuesto diferentes dispositivos de entrada para diferentes tareas de interacción 3D y entornos de usuario.
Los dispositivos de entrada se pueden clasificar según diferentes criterios. Un criterio importante de este tipo es la
resistencia que ejerce un dispositivo de entrada sobre los movimientos del operador al manipular el dispositivo. La
resistencia varía desde cero o resistencia constanteisotónico12 dispositivos a una resistencia infinita isometrico13
dispositivos. Entre estos extremos existen dispositivos cuya resistencia depende del desplazamiento (dispositivos
elásticos), la velocidad (dispositivos viscosos) y la aceleración (dispositivos inerciales). En realidad, es común considerarlo
como un continuo de elasticidad que va desde mayormente isotónico (por ejemplo, el ratón de la computadora) hasta
mayormente isométrico (por ejemplo, TrackPoint de IBM). En esta tesis, el joystick / joypad de centrado binario de 5 vías
común en los teléfonos móviles se etiquetará como isométrico, a pesar de no ser perfectamente isométrico. Aunque su
masa hace que el teléfono móvil y todos los demás dispositivos de libre movimiento sean inerciales hasta cierto punto, se
considerará isotónico cuando se rastrea en 3D.
Otro criterio es la función de transferencia (TF) que relaciona la fuerza aplicada a un dispositivo de control
con la salida del sistema percibida. Una característica importante de este TF que mapea la entrada humana
11Para un tratamiento más completo de este tema, consulte Zhai [Zha95] y Bowman et al. [BKLP04]
12Del griego isos y tonikos = tensión constante
13Del griego isos y metrón = longitud constante, inmóvil
1.3. ENTRADA 3D 11
Tarea Descripción Contador del mundo real Parámetros

parte
Selección Adquirir o identificar Coger un objeto con la Distancia y dirección al objetivo,
ing un objeto particular de mano tamaño del objetivo, densidad
todo el conjunto de de objetos alrededor del
objetos disponibles objetivo, número de objetivos a
seleccionar, oclusión del
objetivo
Posicionamiento Cambiar la posición 3D Mover un objeto desde una Distancia y dirección a la

de un objeto ubicación inicial a una posición inicial, distancia y
ubicación objetivo dirección a la posición de
destino, distancia de
traslación, precisión de
posicionamiento requerida
Rotación Cambiar la orientación Rotar un objeto desde una Distancia al objetivo,

ción de un objeto orientación inicial a una orientación inicial,
orientación de destino orientación final, cantidad
de rotación, precisión de
rotación requerida
Tabla 1.2: Tareas de manipulación canónica para evaluar técnicas de interacción. De [BKLP04].
a la transformación de objetos es su orden. Un orden cero, es decir, constante, TF asigna el movimiento del dispositivo al
movimiento del objeto y, por lo tanto, el mecanismo de control se denominacontrol de posición. Un TF de primer orden
mapea la entrada humana a la velocidad del movimiento del objeto y el mecanismo de control se llamaControl de
clasificación. Son posibles TF de orden superior, pero se ha encontrado que son inferiores. Por ejemplo, el mouse de la
computadora usa el control de posición, mientras que la mayoría de los joysticks usan el control de velocidad. Si el mapeo
es 1 a 1 entre el movimiento del dispositivo y el movimiento del objeto, se dice que la interacción es isomórfica14. La
interacción isomórfica es una forma directa de manipulación en la que las acciones atómicas, como la traslación y rotación
de objetos, son idénticas al movimiento de las extremidades humanas que controlan el dispositivo de entrada. Esto
significa que los movimientos del dispositivo, tanto voluntarios como involuntarios, se asignan a los movimientos de los
objetos. Un mouse de computadora es a menudo isomorfo y tiene un mapeo de 1 a 1 entre el movimiento de la mano y el
desplazamiento del puntero del mouse. Si bien se considera intuitiva, la interacción isomórfica está limitada por las
limitaciones de las articulaciones humanas.
Aunque es posible cualquier combinación de resistencia (isotónica e isométrica) y función de transferencia (control de
posición y control de frecuencia), dos combinaciones han demostrado ser superiores para la entrada general: control de
posición isotónico y control de frecuencia isométrica. El control de frecuencia y el control de posición son óptimos para
diferentes tareas e, idealmente, un dispositivo de entrada admite ambos. El tamaño del espacio de trabajo es un factor
importante al elegir el tipo de control. Dado que el control de la posición está limitado por las restricciones de las
articulaciones humanas, especialmente en el caso isomórfico, un espacio de trabajo grande podría favorecer la tasa
14Del griego isos y morphe = Misma forma

control.
Un dispositivo de entrada 3D admite un conjunto de técnicas de interacción 3D. La efectividad de estas
técnicas depende de las tareas de manipulación realizadas por el usuario. Dado que no es factible evaluar las
técnicas de interacción para cada tarea concebible, a menudo se elige un subconjunto representativo de posibles
tareas de manipulación. Un subconjunto de tareas puede ser general o específico de la aplicación. En esta tesis,
se utiliza un conjunto canónico de tareas básicas de manipulación para evaluar las técnicas de interacción 3D
desarrolladas para la RA de teléfonos móviles. Estos se resumen en la Tabla 1.2.
Un enfoque interesante para la entrada 3D en AR, Tabletop15, y hasta cierto punto la interacción informática ubicua,
es la interfaz de usuario tangible (TUI). En lugar de depender de un dispositivo de entrada dedicado, una TUI consta de
objetos físicos que actúan como widgets que pueden manipularse, organizarse espacialmente, etc. para proporcionar una
entrada del sistema. Esto proporciona un acoplamiento más estrecho entre el dispositivo y la función y permite el uso del
tamaño, la forma, la posición relativa, etc. para aumentar la funcionalidad. Un usuario de AR ve tanto lo real como lo
virtual y, por lo tanto, puede manipular objetos del mundo real. La disposición de los objetos rastreados en una pantalla
horizontal permite una interacción persistente de múltiples usuarios. Con seguimiento en 3D, los componentes TUI
proporcionan una entrada 6DOF isotónica. Con sensores integrados, capacidades de comunicación y computación, los
componentes de TUI se fusionan con los dispositivos de computación ubicuos y proporcionan una interfaz para la
computadora que desaparece.
1.4 Desafíos de la investigación
El AR Grand Challenge está siguiendo. Sin él, el registro de lo real y lo virtual no es posible. La búsqueda del
seguimiento ha llevado a la construcción de configuraciones de alta complejidad, lo que a su vez dificulta la
introducción de la tecnología AR a una audiencia más amplia. La falta de tecnología AR accesible significa que los
investigadores saben muy poco sobre los problemas sociales y lo que exigen los usuarios reales.
El principal desafío que se aborda en esta tesis es llevar la RA a una de las familias de dispositivos más
extendidas y de rápida evolución: los teléfonos móviles. Esto impone una serie de desafíos:
• Es necesario crear una solución de seguimiento para esta plataforma de hardware considerablemente restringida.
Tal solución debe ser capaz de rastrear el teléfono móvil con 6DOF, a velocidades de cuadro interactivas, con
suficiente estabilidad entre cuadros y con un rango lo suficientemente grande como para permitir que el usuario
mueva el dispositivo para interactuar. El seguimiento a menudo utiliza sensores de alta gama y / o requiere
importantes recursos computacionales. Debido a las limitaciones de los teléfonos móviles actuales, no tendría
sentido desarrollar nuevos algoritmos de seguimiento en esta plataforma. En cambio, los algoritmos existentes
deben ser portados y ser más eficientes. Esta también ha sido la estrategia de OpenGL ES, donde se ha reducido,
adaptado y optimizado una API de escritorio.
• Es necesario abordar la interacción para llevar la realidad aumentada más allá de la simple visualización. El factor
de forma del teléfono y las capacidades de entrada permiten estilos de interacción únicos, diferentes del trabajo
anterior en la interacción de AR; por lo tanto, se deben desarrollar y evaluar nuevas técnicas de interacción de RA
en este contexto. Las capacidades de entrada limitadas que ofrece el teclado del teléfono móvil deben trabajarse o
ampliarse para proporcionar los medios necesarios para la interacción 3D. los
15Se refiere a pantallas horizontales, por ejemplo, MERL DiamondTouch ™ y Microsoft Surface ™.
1.5. CONTRIBUCIONES 13
En particular, se debe explorar la capacidad de utilizar el movimiento del teléfono como entrada. Resolver
estos desafíos también crea nuevas oportunidades en HCI móvil, ya que la tecnología de rastreo 6DOF no
ha estado disponible en teléfonos móviles antes y la interacción 3D en estos dispositivos no se ha
estudiado formalmente.
• La principal ventaja de la RA es la reducción de las costuras cognitivas debido a los dominios de

información superpuestos. Esto da como resultado, por ejemplo, una mayor conciencia en la colaboración
cara a cara. Tales ventajas de AR sobre no AR, probadas para otras plataformas, deben ser confirmadas o
descartadas en el entorno del teléfono móvil para que su uso sea significativo. Se deben diseñar
experimentos para explorar esto. Esto es importante para motivar una mayor investigación sobre la RA de
teléfonos móviles.
• Deben desarrollarse aplicaciones de prueba de concepto para demostrar la viabilidad de la RA de teléfonos

móviles, explorando también nuevas oportunidades que no se pueden perseguir fácilmente con otras
plataformas, pero que esta configuración abre; Entre las características interesantes del teléfono móvil
para esto se encuentran su tangibilidad, visualización multimodal y conectividad de corto alcance. Es de
especial interés explorar cómo interactuar con entornos inteligentes y también cómo remediar las
capacidades de salida limitadas del teléfono. En este sentido, este desafío no tiene un alcance limitado y
más bien servirá para ejemplificar las ventajas.
Un desafío que debe reconocerse tan grande como el del seguimiento es la creación de contenido. Dado que
el contenido virtual de RA depende del contexto, se necesita un conocimiento geoespacial detallado sobre el
entorno físico del usuario para diseñar contenido que se registre en el mundo real. Sin embargo, este desafío no
depende del dispositivo y la investigación al respecto no se incluye en esta tesis.
1.5 Contribuciones
Esta tesis presenta la primera migración de la tecnología AR al teléfono móvil y un cuerpo de
conocimiento extraído de investigaciones posteriores realizadas en esta plataforma. Las contribuciones
individuales se presentan como trabajos adjuntos a la tesis. Las principales aportaciones de cada artículo
son las siguientes:
Papel I presenta la plataforma utilizada en esta tesis junto con la primera aplicación de RA colaborativa
cation desarrollado para teléfonos móviles. Los resultados se obtienen de estudios de usuarios que investigan la
conciencia y la retroalimentación. También se proporcionan pautas de diseño para aplicaciones AR colaborativas.
Documento II presenta la primera evaluación formal de la manipulación de objetos 3D realizada en una mano-
dispositivo retenido. Varias técnicas de interacción atómica se implementan y comparan en estudios de usuarios.
Documento III amplía la investigación de interacción previa al agregar varias tecnologías de interacción basadas en gestos
niques junto con el control de la tasa isotónica. En los estudios de usuarios, se investigó el impacto en el
rendimiento de la dimensionalidad de la tarea.
Documento IV explora aún más la interacción 3D centrándose en el montaje de la escena. Dos estrategias para
Se demuestra la interacción 6DOF
Papel V presenta la primera aplicación de edición de mallas para teléfonos móviles, para la cual la selección local
las técnicas fueron refinadas
Documento VI aplica las lecciones aprendidas en los documentos anteriores sobre interacción a la RA colaborativa. A
Se presenta una plataforma basada en un gráfico de escena compartido, que también demuestra la coexistencia de teléfonos con
pantallas grandes en una configuración colaborativa.
Documento VII explora la realidad de la navegación con un teléfono móvil habilitado para AR como interfaz para el sensor
redes. Se desarrolló y evaluó una herramienta de inspección para datos de humedad.
Documento VIII combina el seguimiento exocéntrico en 2D con el seguimiento egocéntrico en 3D para proporcionar un marco
para combinar tres espacios de información y proporcionar una transición casi perfecta entre ellos mediante la
entrada basada en movimiento
El autor de esta tesis es el primer autor y principal colaborador de los artículos. IV, principal contribuyente de
conceptos a los artículos VI y VII, y colaborador conjunto de papel VIII. El capítulo 3 está escrito para reflejar las
contribuciones del autor.
Capitulo 2
Hacia la realidad aumentada del teléfono

móvil
Este capítulo describe dos caminos de investigación que conducen a la realización de la RA en teléfonos móviles. La
primera sección sigue la RA desde las primeras configuraciones de investigación hasta la RA de mano más reciente en
dispositivos de consumo. La segunda sección sigue el desarrollo de la entrada basada en cámaras en dispositivos
portátiles. Por último, se dará una introducción al diseño de interacción 3D.
2.1 Enfoques de la realidad aumentada

Los primeros pasos hacia la RA se dieron a finales de los 60 cuando Sutherland y sus colegas construyeron el primer HMD
transparente [Sut68] que mezclaba una vista del mundo real con imágenes generadas por computadora. Estas pantallas
se utilizaron durante las décadas siguientes en la investigación de pantallas montadas en cascos en cabinas de aviones,
por ejemplo, en el programa Super Cockpit de la Fuerza Aérea de EE. UU.1 organizado por Furness III, donde se
aumentaron las opiniones de los pilotos de combate.
Cuando las pantallas portátiles estuvieron disponibles comercialmente un par de décadas después de los
experimentos de Sutherland, muchos investigadores comenzaron a estudiar la realidad aumentada e investigaron cómo
podría realizarse. Esta sección hace una odisea a través de la historia de la RA y presenta esfuerzos seleccionados en áreas
fundamentales para la RA y de importancia para las contribuciones de esta tesis. Primero, se presentará la investigación
fundamental sobre técnicas de RA. Estos primeros trabajos se basaron, con pocas excepciones, en HMD y realizaron
contribuciones importantes para resolver desafíos en el seguimiento, registro, interacción y colaboración; al mismo
tiempo, demostrando las ventajas de la RA para una amplia gama de áreas de aplicación. Las instrucciones técnicas
incluyeron la fusión de datos de múltiples rastreadores, es decir, rastreo híbrido, y la adopción y refinamiento de técnicas
de visión por computadora para establecer características relativas de pose de cámara.
Un objetivo siempre ha sido que el usuario se mueva libremente y se beneficie de la RA en cualquier situación imaginable. A continuación,
se verá cómo se conectaron los HMD a las computadoras portátiles para darse cuenta de la realidad aumentada al aire libre.
1www.hitl.washington.edu/people/tfurness/supercockpit.html
15
dieciséis CAPÍTULO 2. HACIA LA REALIDAD AUMENTADA DEL TELÉFONO MÓVIL
presentado. Los desafíos abordados incluyen la informática portátil y el seguimiento de áreas amplias. Dado que los
trabajos anteriores sobre seguimiento óptico son menos aplicables en un entorno desconocido, se ha prestado mucha
atención a las soluciones híbridas, que a menudo incluyen GPS para el posicionamiento. Este trabajo para habilitar y
explorar la RA al aire libre es importante porque la necesidad de información superpuesta es mayor en entornos
dinámicos y desconocidos.
Si la realidad aumentada al aire libre se embarca en una búsqueda de arriba hacia abajo para la configuración de realidad aumentada definitiva, la realidad aumentada de mano
- Para redondear esta sección - se embarcó en una vía ascendente en la que se utilizaron dispositivos listos para
usar para superposiciones visuales. Las secciones anteriores han dado cuenta de la mayoría de los desafíos
técnicos y las motivaciones de este esfuerzo. Las direcciones de la investigación han sido principalmente
proporcionar soluciones de seguimiento óptico a dispositivos de mano comúnmente disponibles, que requieren
poca o ninguna calibración, y con cámaras integradas: es decir, sin necesidad de hardware adicional. Estos
esfuerzos constituyen la base de esta tesis.
2.1.1 RA basada en HMD

Se acuñó el término Realidad Aumentada2 a principios de los 90 por Caudell y Mizell [CM92], dos investigadores
de Boeing. Desarrollaron una configuración con un HMD óptico transparente, rastreado con 6DOF, para ayudar a
los trabajadores en la fabricación de aviones mostrando instrucciones sobre dónde perforar agujeros y tender
cables. Esto era factible porque las superposiciones solo necesitaban gráficos simples como tramas de alambre o
texto. Feiner y sus colegas de KARMA [FMS93] adoptaron un enfoque similar basado en HMD, donde el
mantenimiento de una impresora láser fue asistido por gráficos superpuestos generados por un sistema basado
en reglas.
De estos y otros resultados de la misma época era evidente que el registro era un problema fundamental.
Azuma [AB94] contribuyó a reducir tanto la estática3 y dinámico4 error de registro para HMD AR transparente.
Con un rastreador de cabeza optoelectrónico personalizado, combinado con un proceso de calibración, se
mejoró significativamente el registro estático. La predicción de los movimientos de la cabeza se realizó para
reducir los errores dinámicos que resultan del hecho de que un HMD óptico transparente no puede retrasar la
información del mundo real para compensar el seguimiento y la latencia de renderizado.
Aumentar objetos con instrucciones es solo un área de aplicación para AR. Otra capacidad anunciada de la
RA es su capacidad para dar al usuario "visión de rayos X" visualizando objetos que de otro modo estarían
ocultos. Esto es de gran importancia en la cirugía médica donde la incisión debe mantenerse lo más pequeña
posible. Con AR, un cirujano puede ver directamente dentro del cuerpo. Un ejemplo temprano de esto fue
proporcionado por Bajura et al. [BFO92] que registró datos de imágenes de ultrasonido con un paciente. Las
imágenes se transformaron para que parecieran estacionarias dentro del sujeto y en la ubicación del feto que se
estaba escaneando. No solo el HMD, sino también el escáner de ultrasonido se rastreó en 3D. El HMD en este
trabajo fue transparente en video, pero las imágenes de video no se utilizaron para seguimiento óptico. Bajura y
Neumann [BN95] demostraron más tarde cómo los errores de registro en los HMD transparentes de video
podrían reducirse mediante el seguimiento de características de imagen de LED brillantes con posiciones
conocidas. El seguimiento óptico fue más avanzado por Uenohara y Kanade [UK95], quienes demostraron dos
2Pierre Wellner utilizó el término "entornos aumentados por computadora"

3Las fuentes de errores estáticos son la distorsión en la óptica del HMD, desalineaciones mecánicas, errores en el sistema de seguimiento y
parámetros de visualización incorrectos.
4Los errores dinámicos se deben a la latencia del sistema
2.1. ENFOQUES A LA REALIDAD AUMENTADA 17
Fotograma de video de la cámara arker en Extraer puntos de esquina Mamá

mago y estimar contorno metro
parámetros
Superposición de imágenes virtuales Renderizar gráficos 3D Calcular la pose de la cámara

marcador relativo
Figura 2.1: Descripción general de la canalización de ARToolKit. Se utiliza un valor de umbral para binarizar el
marco de entrada. El marcador extraído se identifica mediante la coincidencia de plantillas y su contorno se
utiliza para calcular la pose de la cámara física en las coordenadas del marcador. Esta pose se copia a la cámara
virtual que renderiza objetos 3D en el mismo sistema de coordenadas.
técnicas basadas en visión artificial para registrar superposiciones de imágenes en tiempo real. Rastrearon una cámara en
relación con una caja de computadora utilizando un enfoque basado en modelos, y también en relación con una pierna
fantasma con marcadores fiduciales adjuntos. State et al. Utilizaron marcadores fiduciales similares. [SHC+96] donde se
combinaron con un rastreador magnético para proporcionar una estabilidad de rastreo mejorada. Los marcadores eran
anillos codificados por colores para facilitar la detección rápida y el cálculo sencillo del centro de masa.
La práctica de utilizar el reconocimiento de patrones para identificar objetos existía desde finales de los años 60,
cuando surgieron los primeros lectores de códigos de barras.5. Matriz de Rekimoto [Rek98] combinó dicha identificación
de objetos con la estimación de la pose de la cámara 3D mediante el uso de un código de barras 2D impreso dentro de un
cuadrado negro. El sistema escaneó una imagen binaria para detectar los cuadrados y extrajo el código que identificaba el
marcador. También calculó la pose de la cámara a partir de las cuatro esquinas del marcador coplanares. Se pueden
imprimir varios marcadores con una impresora en blanco y negro de bajo costo, asociados con objetos 3D en función de
su ID codificado y rastrearlos utilizando solo software. Este enfoque exitoso permitió la creación rápida de prototipos de
aplicaciones AR y una configuración del sistema fácil en comparación con los sistemas anteriores que usaban LED o
seguimiento híbrido.
Varios grupos de investigación desarrollaron conceptos similares combinando identificación y estimación de pose.
5www.nationalbarcode.com/History - of - Barcode - Scanners.htm

18 CAPÍTULO 2. HACIA LA REALIDAD AUMENTADA DEL TELÉFONO MÓVIL
mación basada en marcadores fiduciales de papel de bajo costo. Un trabajo notable fue realizado por Kato y Billinghurst
[KB99] en el que presentaron un sistema de seguimiento de marcadores fiduciales que se convertiría en una de las
plataformas más ampliamente adoptadas para AR: ARToolKit. Demostró no solo cómo se pueden usar múltiples
marcadores para extender el rango de seguimiento, sino también cómo se pueden manipular los marcadores para
proporcionar un método económico para la interacción tangible de 6DOF (más explotado por Woods et al. [WMB03] tanto
para el control de posición isotónico como para la tasa isotónica control).
ARToolKit funciona mediante el umbral del fotograma de vídeo para obtener una imagen binaria en la que se
detectan las regiones conectadas y se comprueba su forma cuadrada. El interior de un cuadrado candidato se
compara con las plantillas para identificarlo y obtener su rotación principal.6. A partir de la rotación principal y las
esquinas y bordes, se calcula la posición de la cámara con respecto al marcador. La figura 2.1 ilustra la tubería. En
una configuración de marcador único, el sistema de coordenadas mundial tiene su origen en el medio del
marcador. Se pueden definir marcadores adicionales en relación con el marcador de origen para ampliar el rango
de seguimiento o pueden representar las coordenadas locales de un subconjunto de la escena o un accesorio de
interacción. Para realizar un seguimiento, un marcador debe ser completamente visible y segmentado del fondo.
Una forma de interactuar con el sistema es detectar si un marcador se ha oscurecido, por ejemplo, con un gesto
con el dedo frente a la cámara [LBK04].
Otra ventaja de los fiduciales 2D es que pueden imprimirse no solo en una hoja de papel en blanco,
sino también en libros y otros medios impresos. Esto permite que los medios impresos 2D se aumenten
con animaciones 3D interactivas relacionadas. MagicBook [BKP01], desarrollado por Billinghurst, Kato y
Poupyrev, es un ejemplo de cómo el contenido impreso se puede mezclar con animación 3D. Esta interfaz
de transición abarca el continuo de Milgram no solo aumentando un libro físico con contenido 3D, sino
también permitiendo al usuario experimentar la escena virtual en modo VR. El contenido digital se ve a
través de lentes transparentes de video portátiles, que se asemejan a los lentes de ópera clásicos.
Al poder hacer AR para un solo usuario, los investigadores comenzaron a explorar la AR colaborativa y su
ventaja hipotética con tareas superpuestas y espacios de comunicación. Las configuraciones multiusuario son un
desafío ya que se debe lograr un registro correcto para todos los participantes. El seguimiento basado en
marcadores resultó ser un medio para establecer un marco de referencia común.
ARToolKit fue desarrollado para el proyecto Shared Space, que investigó la interacción en la RA
colaborativa. En [KBP+00], describieron la interfaz de espacio compartido para la colaboración cara a cara
donde los usuarios podían manipular objetos virtuales directamente manipulando objetos físicos con
marcadores (Figura 2.2, izquierda). Esta interacción tangible podría ser utilizada por principiantes sin
formación. Los usuarios compartieron la misma escena, vista a través de HMD. Schmalstieg et al.,
Quienes desarrollaron Studierstube [SFSG96, SFH+02] para abordar la gestión de la interfaz de usuario 3D
en la RA colaborativa, donde los usuarios llevaban HMD estereoscópicos en la cabeza. Un dispositivo de
interacción desarrollado fue el Panel de Interacción Personal (PIP), un panel generalmente sostenido por
la mano no dominante del usuario, sobre el cual se superpusieron los widgets. Un bolígrafo rastreado
permitía la manipulación detallada de botones y controles deslizantes, proporcionando así una interfaz
no muy diferente a la de un escritorio. Al ser personal, el PIP actuó como una pantalla de vista subjetiva
que garantiza la privacidad de los datos. Más tarde, Reitmayr llevó Studierstube a una plataforma móvil
[RS01] que reúne la RA colaborativa y la RA al aire libre.
6Este enfoque de coincidencia de plantillas para la identificación de marcadores limita un sistema a rastrear solo marcadores conocidos;
pero, por otro lado, facilita que un ser humano produzca e identifique marcadores.
2.1. SE APROXIMA A
Figura 2.2: HMD en AR interior y exterior. La imagen de la izquierda muestra un sistema AR basado en HMD con
seguimiento basado en marcadores e interacción tangible. La imagen de la derecha muestra a Tinmith, una configuración
de RA al aire libre, utilizada para jugar a AR Quake. En ambos casos, un HMD opaco disponible comercialmente se ha
convertido en un video transparente alineándolo con una cámara. (Fotografías cortesía de la Universidad de Washington y
la Universidad de Australia del Sur)
2.1.2 RA al aire libre
La mayoría de los sistemas presentados hasta ahora se han restringido espacialmente a configuraciones de laboratorio o
de espacio de trabajo pequeño. El progreso en la tecnología de la batería y la CPU hizo posible llevar computadoras lo
suficientemente potentes para AR. La investigación y el desarrollo de configuraciones portátiles robustas son importantes
para motivar la adopción de AR en muchos lugares de trabajo donde se deben evitar los cables, y también para devolver
los juegos al mundo físico.
Starner y sus colegas del MIT exploraron la realidad aumentada con computadoras portátiles [SMR+97] y
demostraron aplicaciones que utilizaban técnicas de visión por computadora, como el reconocimiento facial, para
recuperar información sobre un interlocutor. Para evitar el desorden de la escena, se hizo clic en los
hipervínculos, indicados por flechas, para activar la visualización de video y gráficos en 3D. Feiner, MacIntyre,
Höllerer y Webster demostraron la Touring Machine [FMHW97], una configuración portátil para RA al aire libre.
En aplicaciones al aire libre, no es posible confiar en fiduciales ya que el usuario puede deambular libremente y
cubrir un área que no es posible preparar con marcadores. En cambio, se desarrolló una solución de rastreo
híbrida que combinaba GPS diferencial para posicionamiento con un magnetómetro / inclinómetro para
orientación. Usó una pantalla óptica transparente HMD conectada a una computadora de mochila para mostrar
etiquetas en una aplicación de recorrido por el campus y usó una computadora de mano con lápiz óptico para la
interacción. Una versión posterior mostró modelos 3D de edificios que alguna vez ocuparon el campus, además
de admitir la colaboración remota [HFT+99].
Una configuración de mochila similar fue Tinmith, construida por Thomas et al. [TDP+98] para la
investigación de la navegación en la que se presentan puntos de referencia a un usuario. Esta plataforma se
extendió más tarde y se usó para ARQuake [TCD+00]. ARQuake era una versión AR del popular juego de PC
Terremoto7 ahora tiene lugar en el mundo real con monstruos virtuales que salen de edificios reales. Esto se
logró modelando el sitio del juego en 3D y alineándolo con los edificios físicos para la oclusión. El registro
correcto se logró combinando GPS y una brújula magnética con seguimiento óptico proporcionado por
ARToolKit. ARToolKit se usó cerca de edificios y en interiores donde el GPS y la brújula no eran lo suficientemente
precisos o no podían funcionar debido a señales de satélite bloqueadas. Los jugadores apuntaron el arma
usando movimientos de cabeza con un dispositivo de pistola de dos botones que disparaba en la dirección del
centro de la vista actual (Figura 2.2, derecha). Piekarski y Thomas desarrollaron una interacción basada en
guantes [PT02] utilizando sensores de pellizco y fiduciales para el seguimiento. Le permitió al usuario de Tinmith
apuntar y seleccionar usando un rayo láser virtual y también ingresar texto usando gestos.
Otra realización famosa de un juego de PC clásico en el mundo real que usa AR es Human Pacman, desarrollado por
Cheok et al. [CWG+03]. Los jugadores se mueven en una arena al aire libre para recolectar cookies virtuales que se
muestran en sus HMD. También se supone que deben encontrar objetos físicos integrados en Bluetooth para obtener
habilidades especiales en el juego. Los jugadores de Pacman, rastreados por GPS y sensores de inercia, colaboran con
Ayudantes que monitorean el juego desde detrás de una PC y dan consejos, un papel común en los juegos
omnipresentes. Los Pacmen son cazados por jugadores Fantasma que intentan atraparlos tocando sus hombros, que
están equipados con sensores capacitivos para detectar el evento de captura. Los fantasmas también tienen sus propios
Ayudantes que ven el juego en modo VR. Human Pacman demuestra los juegos de realidad aumentada mejorados por la
computación ubicua y las tecnologías de interacción tangible.
Los juegos de computadora son interesantes para los investigadores de AR, no solo por ser aplicaciones atractivas
que hacen que los usuarios estén más dispuestos a explorar metáforas innovadoras, hardware, etc. y también hacen que
los usuarios sean más tolerantes con las limitaciones del sistema [SLSP00]; Como Schmalstieg comenta en [Sch05],
muchos juegos 3D aumentan la vista virtual con información de estado, pantallas de radar, listas de elementos, mapas,
etc. Esto los convierte en una rica fuente de inspiración para futuras interfaces de RA.
2.1.3 AR portátil
Paralelamente al desarrollo de configuraciones para exteriores, los investigadores comenzaron a explorar dispositivos
portátiles para tareas de RA en interiores. La investigación comenzó en configuraciones personalizadas y luego migró a
dispositivos comerciales con detección e informática integradas, bajando el listón para realizar AR.
Entre los primeros en experimentar con pantallas portátiles con conciencia espacial se encontraba
Fitzmaurice, cuyo Chameleon [Fit93] era una pantalla de mano opaca rastreada en 6DOF y, por lo tanto,
consciente de su posición y orientación. Permitió al usuario interactuar con información 3D moviendo la pantalla
sin necesidad de guantes complejos u otros dispositivos de entrada externos. Inspirado por Chameleon,
Rekimoto desarrolló NaviCam [RN95], la primera pantalla portátil transparente. Consistía en un televisor LCD
rastreado por un giróscopo y equipado con una cámara CCD. NaviCam se conectó por cable a una PC para
aumentar en 2D los objetos que se identificaron en la transmisión de video a partir de códigos de barras de
colores detectados. Códigos como estos hicieron posible rastrear objetos móviles como libros en una biblioteca.
En una evaluación [Rek95], La RA portátil demostró ser superior a la RA basada en HMD para encontrar objetivos
en un entorno de oficina. TransVision [Rek96b] amplió NaviCam con dos botones y la conectó a una estación de
trabajo de gráficos para superposiciones 3D. Este sistema permitió que dos usuarios colaboraran compartiendo
la misma escena. La selección se realizó presionando un botón y fue guiada
7www.idsoftware.com
2.1. ENFOQUES PARA AUGMEN 21
Figura 2.3: AR portátil: tren invisible. Esta aplicación demuestra el seguimiento basado en marcadores para AR
transparente de video en una PDA. La interacción se basa en el movimiento del dispositivo para la navegación y
la entrada del lápiz óptico para la selección y manipulación: en este caso, abre y cierra los interruptores de pista.
(Cortesía de la Universidad Tecnológica de Viena).
por un rayo virtual a lo largo del eje de la cámara. Los objetos se manipularon de forma isomórfica bloqueándolos en la
pantalla mientras estaban seleccionados.
Un concepto similar a NaviCam fue el AR Pad de Mogilev [MKBP02]. Consistía en un panel LCD portátil con
una cámara adjunta, ambos conectados a una computadora de escritorio que ejecuta ARToolKit para el
seguimiento y el registro. Además, tenía un dispositivo de entrada Spaceball adjunto, lo que permite no solo la
interacción isomórfica, sino también las interacciones 6DOF compatibles con el control Spaceball. Los usuarios
apreciaron no tener que usar ningún hardware, pero encontraron el dispositivo bastante pesado.
El primer dispositivo AR portátil que no estaba conectado a una PC fue el mPARD de Regenbrecht [RS00], que
consistía en un combo pasivo de TFT y cámara que se comunicaba con una PC mediante comunicación por
radiofrecuencia. A medida que los PDA se volvieron más poderosos, los investigadores comenzaron a explorar
cómo usarlos para AR portátil. Entre los primeros proyectos basados en PDA que utilizaron el seguimiento se
encontraba Batportal [NIH01] por Newman, Ingram y Hopper. Se usó para visualización 2D y 3D y el vector de
vista de la pantalla se calculó a partir de dos posiciones dadas por dispositivos de posicionamiento ultrasónicos,
llamados Bat: una alrededor del cuello del usuario a una distancia fija de sus ojos y otra en el PDA. Aunque no
superpone objetos virtuales en el mundo real, Batportal demostró que se podía rastrear una pantalla de PDA y
mostrar gráficos transmitidos desde una estación de trabajo.
AR-PDA, desarrollado por Geiger et al. [GKRS01], fue la primera demostración de RA en un PDA
estándar. Era un enfoque de cliente ligero en el que una PDA con una cámara incorporada enviaba un
flujo de video a través de WLAN a un servidor AR para aumentar y mostraba el flujo devuelto. Otros
investigadores, como Pasman y Woodward, adoptaron enfoques similares de cliente / servidor [PW03].
Al portar ARToolKit a la plataforma PocketPC, Wagner realizó el primer sistema AR autónomo en una PDA [
WS03], con soporte de servidor opcional para un mayor rendimiento. Para que se ejecute de forma nativa a una
velocidad de fotogramas interactiva, identificaron las funciones computacionalmente más pesadas
y optimizándolos reescribiéndolos con punto fijo8, en sustitución de los flotadores de doble precisión. Esta
operación triplicó el número de estimaciones de pose por unidad de tiempo. La reescritura a puntos fijos era
necesaria ya que las PDA carecían de hardware de punto flotante. Además del seguimiento de adentro hacia
afuera proporcionado por ARToolKit, un enfoque de afuera hacia adentro usando ARTTrack9 Fue implementado.
Se utilizó una aplicación de navegación interior para probar el sistema. Esta plataforma se combinó con una
versión ligera de Studierstube y se utilizó para explorar la RA colaborativa con PDA. Una aplicación fue AR Kanji
[WB03], donde se suponía que los participantes coincidían con los íconos que representaban objetos con las
correspondientes tarjetas kanji que tenían marcadores impresos en el dorso para su identificación y aumento.
Dar la vuelta a una tarjeta permitió al sistema determinar si se eligió la tarjeta correcta. Tren invisible [WPLS05]
era un juego de realidad aumentada colaborativo en el que una vía de ferrocarril de madera se complementaba
con trenes e interruptores (Figura 2.3). Los jugadores tocaron los interruptores con un lápiz de PDA para cambiar
de vía y evitar que los trenes chocaran. Otras aplicaciones incluyeron una aplicación de entretenimiento
educativo colaborativo para aprender historia del arte llamada Virtuoso [WSB06]. El puerto original de ARToolKit
se optimizó y amplió aún más: la nueva versión llamada ARToolKitPlus [WS07]. Posteriormente, esta plataforma
se ha migrado a otros dispositivos portátiles de Windows, como teléfonos móviles con Windows Mobile y
Gizmondo.
Cuando los investigadores recurrieron a los teléfonos móviles, o más precisamente a los teléfonos con
cámara, para la RA de mano, se produjo una evolución similar de las configuraciones cliente / servidor a los
sistemas autónomos. La falta de teléfonos móviles con WLAN dificultó la entrega de AR en tiempo real en
configuraciones cliente / servidor y pocos intentaron hacerlo. El trabajo más notable fue PopRi de NTT10 donde el
video capturado por el teléfono móvil se transmitía a un servidor para la detección y el aumento de marcadores.
Los gráficos se produjeron utilizando renderizado basado en imágenes, lo que resultó en superposiciones muy
realistas con, por ejemplo, juguetes peludos. A pesar de ser utilizado en una red 3G, el sistema sufrió latencia y
bajas velocidades de cuadro. También se intentó enviar imágenes individuales a través de Bluetooth [ACCH03],
pero no pudo proporcionar interacción en tiempo real.
Paralelamente a las primeras contribuciones de esta tesis, Möhring, Lessig y Bimber experimentaron con un
prototipo de solución de seguimiento de marcadores en teléfonos con cámara [MLB04]. Diseñaron un formato de
marcador de papel 3D en el que se imprimieron ejes de coordenadas codificados por colores. Usando visión por
computadora, pudieron identificar los cuatro puntos finales de los ejes no coplanares y reconstruir el sistema de
coordenadas para el punto de vista actual y usarlo para renderizar gráficos 3D con la perspectiva correcta y con
velocidades de cuadro interactivas.
Debido a la falta de otras tecnologías de sensores incorporadas, la mayoría de las configuraciones de AR de mano se
han basado en el seguimiento óptico, utilizando una cámara incorporada o enchufada. Kähäri y Murphy, investigadores
de Nokia, han comenzado recientemente a explorar la realidad aumentada al aire libre en teléfonos móviles con
seguimiento sin fuente. Su MARA11 El prototipo utiliza acelerómetros en los tres ejes para determinar la orientación, una
brújula con compensación de inclinación para el rumbo y una antena GPS para el posicionamiento; todos los sensores se
colocan en una caja complementaria y se comunican a través de Bluetooth. Se puede utilizar, por ejemplo, para destacar a
un amigo en una multitud en función de su posición GPS, o para superponer edificios con etiquetas y proporcionar
hipervínculos del mundo real a páginas web relacionadas. Cuando se inclina a una posición horizontal, el teléfono
8Los puntos fijos usan parte del tipo de datos enteros para almacenar decimales.
9www.ar - tracking.de
10labolib3.aecl.ntt.co.jp / miembro_servlet_inicio / contenidos / U015.html Demostrado en ART03 Tokio, Japón
11research.nokia.com/research/projects/mara/ Demostrado en ISMAR06 Santa Bárbara, EE. UU.
2.2. MÁS ALLÁ DEL TECLADO 23
muestra automáticamente un mapa 2D con la posición del usuario indicada. Las versiones futuras de MARA y
otros teléfonos móviles con conciencia espacial podrían ser una plataforma perfecta para navegar por espacios
de información geoespacial similares a la Real World Wide Web [KM03], imaginada por Kooper y MacIntyre.
Discusión
En investigaciones anteriores sobre AR portátil, hay varias lagunas que se abordan en esta tesis. En
primer lugar, existe una falta de seguimiento en tiempo real en los teléfonos móviles y los enfoques
cliente / servidor propuestos son costosos si se factura a un usuario por KB. En segundo lugar, no se han
desarrollado técnicas de interacción más allá de la navegación y la simple pulsación de la pantalla para la
RA de mano en dispositivos disponibles comercialmente. Se han desarrollado técnicas de interacción para
configuraciones personalizadas como NaviCam y AR PAD, pero no se han evaluado formalmente. Ningún
trabajo ha mostrado las ventajas de la RA en los teléfonos móviles. Un teléfono móvil tiene una ventaja
sobre un HMD al ser multimodal. Se puede utilizar tanto para RA transparente como para navegación
web sin comprometer la seguridad de un usuario móvil. También tiene menos implicaciones sociales y
requisitos de configuración que los sistemas basados en HMD,
2.2 Más allá del teclado

Pocos dispositivos portátiles tienen componentes de interfaz dedicados a la interacción gráfica. Incluso las consolas de
juegos portátiles admiten solo un subconjunto de las acciones atómicas necesarias para realizar las tareas canónicas en
3D presentadas en la Sección 1.3. Los investigadores han explotado la tangibilidad de los dispositivos portátiles para
ampliar sus capacidades de interacción para aplicaciones gráficas y también para navegar por un espacio de interacción
que se extiende más allá de la pantalla física. En esta sección se analizan estos esfuerzos para ampliar las interfaces
telefónicas y los espacios de trabajo. Es de especial interés el uso de cámaras integradas para el establecimiento continuo
de la posición del dispositivo o el movimiento relativo. Esta investigación es importante para utilizar plenamente las
crecientes capacidades de renderizado 3D de los teléfonos y la consiguiente capacidad de utilizar la tercera dimensión
para compensar el área limitada de la pantalla 2D. Las pistas principales son la estimación del campo de movimiento para
la interacción 2D y el seguimiento de marcadores de código para la identificación de objetos y el seguimiento de
dispositivos hasta 6DOF. Estos últimos esfuerzos convergen con los presentados en el apartado anterior sobre RA y la
dirección de investigación resultante es la que se avanza en esta tesis.
Chameleon de Fitzmaurice inspiró no solo la investigación sobre AR portátil, sino también nuevas técnicas de entrada
para dispositivos de pantalla pequeña. Rekimoto exploró la interacción basada en inclinación [Rek96a] utilizando una
configuración similar a NaviCam. Al inclinar el dispositivo en sí, los usuarios pueden explorar varios menús y navegar por
mapas. Small e Ishii diseñaron pantallas con conciencia espacial [SI97] que usaban metáforas de gravedad y fricción para
desplazarse por pinturas digitales y periódicos. El usuario puso el dispositivo en el suelo y lo hizo rodar hacia adelante y
hacia atrás mientras la pintura parecía fija en relación con el suelo. Al igual que Rekimoto, exploraron operaciones de
inclinación para desplazar un espacio de información que se extiende más allá del área de visualización.
Ishii introdujo el concepto de interfaces de usuario tangibles con bits tangibles [IU97]. La visión
era proporcionar una interfaz perfecta entre personas, bits y átomos haciendo que los bits se
accesible a través de objetos que se pueden agarrar y, por lo tanto, perceptible para otros sentidos además de la vista,
restringido a "bits pintados", es decir, píxeles. Su aplicación Tangible Geospace demostró iconos físicos ("phicons")
proyectando sombras digitales en la forma de un mapa del campus en una pantalla de sobremesa; una lente pasiva que
rastreaba la pantalla proporcionaba una mirilla hacia un segundo espacio de información; y una lente activa, que consiste
en una pantalla de panel plano con seguimiento mecánico, montada en el brazo, proporciona una ventana tangible en un
espacio de información 3D registrado con un phicon.
Influenciado por los trabajos anteriores, Harrison, Fishkin et al. [HFG+98] construyó prototipos de dispositivos con
interfaces manipulativas. Colocaron sensores combinados de ubicación y presión en las esquinas superiores de un PDA
para permitir al usuario pasar las páginas de un libro digital con un movimiento del pulgar similar al de las páginas de un
libro físico. Otros sensores detectaron cuando el dispositivo se apretó o inclinó y asignaron estas entradas a los controles
de la aplicación. Llamaron a su enfoque Interfaces de usuario incorporadas y también desarrollaron un prototipo de
computadora de mano con acelerómetros integrados [FGH+00]. Los investigadores de Microsoft [HPSH00] también
demostraron el desplazamiento de la base inclinable.
Las pantallas de mirilla [Yee03] fue otro concepto basado en la detección del movimiento del dispositivo en
relación con un espacio de información basado en el mundo físico. Inspirado en Toolglass de Bier [BSP+93], Yee
rastreó un PDA en 2D, lo que le permitió al usuario moverlo para desplazarse por el espacio digital mientras
dibujaba texto e imágenes que cubrían un área más grande que la pantalla. Esta técnica de panorámica
isomórfica se aplicó a tareas de selección y visualización de mapas. Con LightSense [Olw06], Olwal amplió la
pantalla de mirilla al rastrear un teléfono móvil en una superficie semitransparente con medios impresos. Detrás
de la superficie hay una cámara que detecta la luz LED del teléfono y la asigna a las coordenadas en un espacio
de información 3D. Con el sistema LightSense es posible aumentar un mapa del metro con varios niveles de
mapas de calles digitales, navegando moviendo el teléfono en la superficie y levantándolo para alejar. Debido a la
incertidumbre en los valores z, derivados del tamaño de la fuente de luz filtrada, los niveles de altura son
discretos mientras que el plano xy es continuo.
No mucho después de que los teléfonos con cámara se volvieran omnipresentes, los investigadores comenzaron a usarlos
para la entrada basada en la visión por computadora. Ha habido tres enfoques principales que se pueden caracterizar por
la cantidad de conocimiento que hay sobre lo que se está rastreando. Sin saber nada sobre el fondo, todavía es posible
rastrear el campo de movimiento de la cámara fotograma a fotograma; los algoritmos que alguna vez se desarrollaron
para rastrear objetos en un flujo de video desde una cámara estacionaria se utilizan aquí para el problema inverso:
rastrear el movimiento de la cámara en relación con características fijas. El seguimiento de la cámara se puede hacer más
robusto buscando objetos con propiedades conocidas como el color o la forma general, por ejemplo, una extremidad
humana. Con el seguimiento de marcadores, uno sabe la geometría exacta que se busca y no solo es posible el
seguimiento 3D completo, pero también identificación de objetos usando códigos matriciales o plantillas como se
menciona en la sección anterior. A continuación sigue una presentación de trabajos importantes en cada categoría.
2.2.1 Campo de movimiento
Entre las primeras aplicaciones que utilizaron la entrada basada en visión se encontraba Siemens Mozzies,
desarrollado para su teléfono con cámara SX1 en 2003. Este juego aumenta el visor de la cámara con sprites de
mosquitos que aparecen registrados en el fondo al compensar los movimientos del teléfono estimados mediante
un análisis de flujo óptico ligero. Se supone que el jugador debe aplastar a los mosquitos, apuntándolos
con una cruz en el centro de la pantalla.

Varios trabajos han utilizado técnicas similares para transformar un teléfono móvil en un dispositivo
isotónico 2D, permitiendo así que el movimiento del propio dispositivo se utilice como entrada.
Hannuksela y col. [HSH05] implementó una coincidencia de bloques12 algoritmo para la estimación del
movimiento 2D global. Utilizaron un filtro Kalman para suavizar los parámetros y utilizaron puntos fijos
para alcanzar velocidades de cuadro interactivas en un teléfono con cámara con CPU de 104 MHz. Este
algoritmo pudo detectar la traslación a lo largo de los tres ejes principales y la rotación alrededor del eje
z, es decir, la rotación alrededor del vector de vista de la cámara. Haro et al. [HMSC05]. En este trabajo,
utilizan el movimiento del teléfono para buscar miniaturas de fotos y, según la magnitud del movimiento,
la interfaz amplía las imágenes. En lugar de aumentar la velocidad de desplazamiento en respuesta a
movimientos físicos más grandes, la velocidad de desplazamiento se mantiene constante mientras se
aumenta el nivel de zoom. Para acercar una imagen, el movimiento del teléfono se ralentiza. Este
concepto de panorámica y zoom basados en la cámara también se aplicó a la exploración de mapas.
TinyMotion [WZC06] es otro ejemplo de un algoritmo de coincidencia de bloques para la estimación de

movimiento implementado en un dispositivo móvil. Con él, Wang, Zhai y Canny confirmaron que un teléfono
móvil rastreado seguía la ley de Fitt. Una contribución clave de su artículo fue la validación experimental de su
enfoque de la entrada basada en movimiento contra una amplia variedad de escenas de fondo, mostrando que
un puntero controlado por TinyMotion se podía utilizar en casi todas las condiciones. Evaluaron formalmente el
algoritmo comparando la tasa de detección de los movimientos de la cámara en condiciones típicas. Se llevó a
cabo una prueba de usabilidad informal mediante la distribución de teléfonos con cámara instalados con
aplicaciones habilitadas para TinyMotion y pidiendo a los usuarios que probaran el sistema contra cualquier
fondo y condiciones de iluminación disponibles.
2.2.2 Seguimiento de objetos
Paelke desarrolló los menús Kick-Up [PRS04] que demuestran cómo se puede utilizar el seguimiento del pie como
entrada. En este concepto, se detectó un objeto con forma de pie y se extrajo su contorno mediante la detección de
bordes. El contorno vectorizado se rastrea entre los fotogramas dentro de una región de interés para comprobar si hay
colisión con las etiquetas del menú superpuestas en el fondo del vídeo. Esto permite al usuario "patear" un menú para
seleccionar elementos. Este trabajo es más conocido por el juego AR-Soccer, luego llamado Kickreal. En este juego, los
vectores del borde del pie se utilizan para simular patear una pelota virtual para intentar marcar un gol en una tanda de
penaltis de fútbol.
SymBall [HW05], un juego de tenis de mesa para dos jugadores de Hakkarainen y Woodward, utilizó el movimiento
del teléfono para controlar raquetas virtuales. Un jugador ve que la pelota se acerca y, para golpearla, intenta colocar la
raqueta en el espacio de la pantalla moviendo el teléfono en el espacio físico. En lugar de detectar y rastrear
características desconocidas, los usuarios seleccionaron un color y dirigieron la cámara hacia un objeto con ese color.
Luego, el algoritmo detectó y rastreó el objeto más grande con el color elegido.
La detección de un círculo impreso o dibujado a mano en la transmisión de video entrante permitió a
Hansen, Eriksson y Lykke-Olesen definir un espacio de interacción mixto [HELO05] abarcado por el espacio en el
que la cámara podría detectar el círculo: una pirámide invertida si el el teléfono está retenido
12Algoritmos que rastrean una característica entre cuadros comparando vecindarios de píxeles
26 CAPÍTULO 2. HACIA ENT
Figura 2.4: Formatos de matriz de datos. El código de la izquierda es un SemaCode, mientras que el del medio es
un código QR. Ambos códigos codifican el título de esta tesis. El código correcto es un código visual que codifica
el número de disertación de esta tesis. Los tres códigos tienen barras de guía y / o cuadrados para identificar las
esquinas y facilitar tanto la corrección de la distorsión como el escaneo del código.
paralelo al plano del círculo. El movimiento del teléfono dentro del espacio de interacción
mixta proporcionó una panorámica y zoom simultáneos de mapas e imágenes; La
exploración de menús circulares en capas funciona según el mismo principio. La técnica de
espacio de interacción mixta, también llamada MIXIS, se ha implementado en aplicaciones
multiusuario para la interacción con grandes pantallas públicas. En [EHLO07] demuestran
cómo se puede utilizar para organizar y compartir fotos que se muestran en una superficie
pública. Se realiza un seguimiento de varios cursores asignando un color a cada usuario. El
intercambio de seguimiento de círculos con seguimiento de elipse hizo posible rastrear
rostros [HELO06] con la cámara frontal y crear un espacio de interacción frente al rostro del
usuario. Al igual que con los menús Kick-Up, la ventaja es que no es necesario colocar un
objeto en el entorno.
2.2.3 Seguimiento de marcadores
Se han desarrollado muchos formatos de código matricial para vincular dominios físicos y virtuales. La colocación de un
código reconocible en un objeto permite obtener más información y funcionalidad capturando una imagen del código y
extrayendo una identificación. A través de un servicio de búsqueda central, la identificación se utiliza para recuperar
información de una base de datos. Si el objeto es estático, se puede utilizar un código para posicionar al usuario y
proporcionar servicios relacionados con el contexto. Se puede utilizar un patrón de alta densidad para almacenar datos
directamente, no solo una identificación. Sistemas comerciales de reconocimiento de matrices como QR Code13,
Semacode14, Data Matrix y Up-code15 se han utilizado durante más de una década (Figura 2.4). Las áreas de aplicación
incluyen etiquetado de componentes electrónicos, tarjetas de visita, revistas, publicidad.
13www.denso - wave.com/qrcode/
14Semacode (semacode.org)
15www.upc.fi/en/upcode
folletos, etc. Recientemente, los investigadores han comenzado a utilizar códigos animados en pantallas de computadora [LDL06,
LB07] para proporcionar un canal de datos visuales que, a diferencia de Bluetooth, no requiere emparejamiento.
Para extraer datos en primer lugar, el código debe detectarse en la imagen. Si se realiza a velocidades de cuadro
interactivas, la detección de código se puede aprovechar para la interacción basada en el movimiento. Los códigos se
imprimen en relación con una geometría conocida, por ejemplo, un cuadrado o un conjunto de barras y, después de
detectar la geometría, es sencillo extraer el código. Como ya se ha demostrado con ARToolKit y Matrix de Rekimoto, la
geometría conocida se puede utilizar para calcular la posición de la cámara en relación con el marcador.
Rohs desarrolló códigos visuales [RG04] con capacidad de datos de 83 bits y dos barras guía que permiten el cálculo
de los parámetros de la cámara (Figura 2.4 derecha). Usando la corrección para la distorsión del barril, el umbral
adaptativo y la detección de errores, su primera implementación necesitó más de un segundo para leer los códigos y
calcular el mapeo entre el plano del código y el plano de la imagen de la cámara. Este mapeo también podría invertirse
para determinar qué coordenadas en el plano de código corresponden, por ejemplo, al píxel central en la mira virtual. El
algoritmo de reconocimiento de código se amplió con la coincidencia de bloques para rastrear el movimiento del teléfono
en tiempo real. Se podrían calcular cinco triples de los desplazamientos xey y la rotación del eje de la cámara por
segundo, lo que lo hace útil para la interacción continua [Roh04]. El usuario puede colocar un punto de mira virtual sobre
una entrada de tabla impresa, con desplazamiento conocido de un código, para recuperar información de entrada; El
plano de código relativo de rotación e inclinación se utilizaron como parámetros de entrada adicionales. Los códigos
visuales también se pueden mostrar en una pantalla digital, lo que permite utilizar el movimiento del teléfono como
entrada a través de una conexión Bluetooth (Madhavapeddy et al. [MSSU04] desarrollaron un concepto similar basado en
códigos para la interacción con pantallas grandes mediante teléfonos móviles).
Dado que el algoritmo de reconocimiento de código visual no se ejecutó a velocidades de cuadro interactivas, la
interacción 3D continua no fue posible. En cambio, las primitivas de interacción se dividieron en dos modos: estático, que
requiere que la cámara permanezca fija por un momento; y dinámico, es decir, continuo [RZ05]. Estos modos se utilizan
para dos técnicas de interacción para pantallas grandes: discretasapuntar y disparar, donde el enfoque del usuario está
en la cruz del dispositivo, y de forma continua barrer, donde el foco está en el cursor de la pantalla [BRS05]. En una
prueba de roscado multidireccional basada en ISO 9241-9, apuntar y disparar fue significativamente más rápido que el
barrido, que a su vez tuvo una tasa de error significativamente menor. Sin embargo, ninguna técnica resultó mejor que el
joystick del teléfono. Una encuesta [BBRS06] que incluyó estas y otras técnicas en las que se utilizó el teléfono móvil como
dispositivo de entrada concluyó que no había trabajos sobre interacción 3D con teléfonos móviles. También se
compararon técnicas similares con una combinación de acelerómetros y magnetómetros para el rendimiento en la
navegación de información basada en el movimiento en un dispositivo de mano [RE07], con un seguimiento relativo a una
cuadrícula de marcadores que arroja mejores resultados.
Hachet y col. [HPG05] desarrolló otro enfoque de seguimiento de cuadrícula para proporcionar interacción basada en
movimiento 3DOF para una PDA equipada con cámara. Su objetivo de seguimiento se divide en 64 celdas, cada una con
un patrón único de dos líneas; la línea superior es un código binario azul-verde de 3 bits para la coordenada x en el
espacio del marcador y la línea inferior es el mismo para el valor y. Comenzando desde el píxel de la pantalla central, se
identifican los bordes de la celda más cercana y se hacen 6 muestras de color para extraer los valores xey. La coordenada
z se calcula a partir del tamaño de la celda. Este enfoque basado en colores es rápido y permite que el objetivo se
mantenga cerca de la cámara para una interacción bimanual.
En un proyecto reciente de Winkler et al. [WRZ07], un teléfono con cámara que ejecuta ARToolKitPlus se sostiene
frente a un marcador fijo que permite usar el movimiento del teléfono para controlar un automóvil en una carrera
juego. Esta técnica de interacción fue preferida por los usuarios del juego al control de
botones tradicional. Otro estudio muy interesante fue realizado por Hwang et al. [HJK06]
y comparó pantallas portátiles con entrada basada en movimiento y basada en botones
con pantallas fijas de tamaño variable y con entrada de ratón / teclado. En una prueba
que mide el campo de visión percibido (FOV) en relación con el FOV real, el FOV
percibido se amplió en un 50% en el caso de una pantalla portátil con entrada basada en
movimiento, un efecto que no aparece en otras configuraciones. Además, factores
como la presencia y la inmersión mejoraron significativamente con la interacción
basada en el movimiento en comparación con la basada en botones y alcanzaron un
nivel comparable al de las plataformas de realidad virtual de escritorio con un campo de
visión real de entre 30 y 60 grados (las pantallas portátiles tenían un campo de visión
real de 15 grados).
Discusión
Las brechas abordadas en trabajos anteriores sobre entrada basada en movimiento incluyen la falta de técnicas de
interacción 3D, que antes no era posible debido a la falta de soluciones de seguimiento 3D en tiempo real para teléfonos
móviles. Estos deben desarrollarse y estudiarse formalmente. El seguimiento de un teléfono con 6DOF permite que se
use, no solo para AR móvil, sino también para VR móvil y, cuando se conecta a una PC a través de Bluetooth, como un
dispositivo de entrada 3D de pantalla grande.
2.3 Dispositivos de entrada 3D y técnicas de interacción

Aunque muchos de los trabajos presentados hasta ahora demuestran procedimientos para evaluar técnicas de
interacción novedosas tanto en la AR como en la interacción basada en el movimiento, hay mucho que aprender de la
investigación en la realidad virtual y la interacción 3D de escritorio. Es relevante ya que esta tesis es la primera en explorar
la interacción basada en movimiento 6DOF para teléfonos móviles, por lo que es diferente tanto de la RA basada en PDA
como de las técnicas anteriores de interacción basadas en cámara 3DOF y 4DOF.
Gran parte de la investigación sobre el control multidimensional se ha centrado en el diseño de nuevos dispositivos de entrada,
con el objetivo de desarrollar formas más naturales, más rápidas y fáciles de aprender para asignar las intenciones humanas a las
aplicaciones informáticas. Las articulaciones de la mano humana por encima de la muñeca involucran 23 DOF [Stu92] e, idealmente,
un dispositivo de entrada de una sola mano debería poder detectar cada DOF posible, un problema técnico muy desafiante. Sin
embargo, dado que la mayoría de las tareas se refieren a objetos rígidos, que solo involucran 6 DOF, la mayoría de los dispositivos
de entrada multidimensionales apuntan a admitir la interacción 6DOF.
Ware diseñó el Bat [War90], un dispositivo isotónico para la interacción 6DOF que permite a los usuarios usar
el movimiento de la mano para colocar objetos virtuales. Fröhlich diseñó dos dispositivos 6DOF: GlobeFish y
GlobeMouse [FHSH06]. Ambos dispositivos utilizaron un trackball 3DOFdieciséis; combinado con un SpaceMouse17
en el estuche de GlobeMouse y montado en un marco con orugas mecánicas para realizar el GlobeFish. Ambos
dispositivos funcionaron mejor que un SpaceMouse 6DOF estándar en tareas de acoplamiento 3D.
Sundin [Sun01] diseñó desde cero un dispositivo de entrada 6DOF elástico controlado por posición, llamado
SpaceCat, para aplicaciones 3D de escritorio. Esto incluía especificar parámetros como espaciales
dieciséisBola alojada en un casquillo que contiene sensores para detectar la rotación de la bola
17Dispositivo de entrada elástico 3D
2.3. DISPOSITIVOS DE ENTRADA 3D Y TÉCNICAS DE INTERACCIÓN 29
y resolución temporal, estabilidad a corto y largo plazo; propiedades físicas como masa, tamaño, fuerzas elásticas
y pares, fricción de adherencia, viscosidad, etc. El producto realizado se comparó con Spaceball18 en pruebas de
usabilidad cualitativas y cuantitativas donde ambos dispositivos se utilizaron para las mismas tareas. A partir de
los datos recopilados, se descubrió que SpaceCat funciona mejor en términos de tiempos de finalización y
facilidad de aprendizaje.
Hay varios artículos que brindan una descripción general de los dispositivos de entrada multi-DOF y los problemas de
diseño. Zhai habló sobre el rendimiento del usuario en relación con el diseño del dispositivo 6DOF [Zha98]. Según Zhai, los
dispositivos isotónicos tienen la ventaja de ser fáciles de aprender y rápidos, superando a otros dispositivos. Las
desventajas incluyen un rango de movimiento limitado y una baja coordinación si se necesita agarrar, debido a las
limitaciones de las articulaciones humanas. La fatiga es otro problema junto con la falta de persistencia en la posición
cuando se libera. Se puede esperar que estas características se apliquen a los teléfonos móviles rastreados con 6DOF.
Zhai también concluye que la participación de los dedos puede mejorar significativamente el rendimiento en comparación
con los dispositivos operados solo con muñecas y brazos.
Subramanian e IJsselsteijn [SI00] examinaron los dispositivos de entrada espacial y proporcionaron
una clasificación basada en la naturalidad, el rango del espacio de interacción, los grados de libertad y las
acciones atómicas. Fröhlich [Frö05] utilizó una taxonomía de Jacob et al. [JSMJ94] para clasificar nuevos
dispositivos de entrada multi-DOF de acuerdo con sus DOF integrales y separables. Los estudios citados
habían demostrado que para las tareas de acoplamiento, los DOF integrales se desempeñaron mejor en
la primera fase, llamada fase balística, donde los usuarios alteran varios DOF al mismo tiempo para
acercarse rápidamente al objetivo. En la última fase, denominada fase de circuito cerrado, los DOF
separables funcionaron mejor y permitieron a los usuarios ajustar un DOF a la vez para completar la tarea
de acoplamiento. Esto sugiere que un dispositivo de entrada debe admitir 12DOF, donde los 6 DOF de
objeto se pueden modificar todos a la vez o uno a la vez.3 × 2Diseño DOF. Consiste en una pequeña caja
con tres varillas ortogonales que la atraviesan. La caja se rastrea con 6DOF usando un rastreador
magnético, y cada varilla controla dos DOF. Para la fase balística, un usuario altera 6DOF de forma
integral moviendo el cubo. En la fase de circuito cerrado, cada DOF se puede alterar por separado girando
las varillas o empujándolas y tirando de ellas para su traducción. Cada barra corresponde así a un eje de
coordenadas local o global. La investigación sobre la entrada multi-DOF separable e integral es
interesante con respecto a este trabajo, ya que un teléfono móvil puede proporcionar una entrada 6DOF
tanto de manera integral cuando se rastrea en 3D como de manera separable usando el teclado, como se
mostrará más adelante.
En muchos trabajos se han realizado evaluaciones para aplicaciones y plataformas específicas tan diferentes
a los teléfonos móviles y la RA que sus resultados empíricos no son aplicables. Sin embargo, también se han
realizado esfuerzos para comprender los problemas de interacción genéricos de 6DOF. Dichos artículos son útiles
porque proporcionan ejemplos de estudios de usabilidad bien diseñados para la manipulación de objetos,
particularmente tareas de traducción y rotación.
Mine [Min95] describió varias técnicas de interacción y resultados de estudios de usabilidad para entornos de
realidad virtual inmersiva. Hand ha elaborado un extenso resumen de la literatura sobre la interacción 3D en
aplicaciones de escritorio y de realidad virtual y los resultados del estudio de usabilidad [Han97]. Hinckley y col.
[HTP+97] analizó la usabilidad de cuatro técnicas de rotación 3D. Virtual Sphere y ArcBall [Sho94], dos técnicas de
interacción 2D impulsadas por el ratón, se compararon con dispositivos de entrada isotónicos
18Dispositivo de entrada isométrico 6DOF

basado en seguidores magnéticos, uno con alojamiento de bola y otro sin alojamiento. En un experimento con insubjetos
con 12 participantes masculinos y 12 femeninos, la tarea consistía en rotar un modelo de casa para que coincidiera con
uno rotado aleatoriamente que se muestra en la otra mitad de la pantalla. Cuando se terminó cada una de las 15 tareas,
los usuarios presionaron un pedal para obtener comentarios. El análisis estadístico de los datos de las 10 últimas tareas
para cada técnica de entrada mostró que las técnicas isotónicas eran más rápidas que las basadas en el ratón, pero no
indicaron diferencias en la precisión. Una prueba entre sujetos reflejó estos resultados. Los comentarios adicionales en
forma de clasificación de usuarios de las técnicas de entrada mostraron que el dispositivo isotónico en forma de bola era
la forma más popular de rotar objetos 3D. Se obtuvieron más conocimientos al observar a los usuarios y entrevistarlos.
Bowman, Gabbard y Hix [BGH02] examinaron los métodos de evaluación de la usabilidad para entornos de
realidad virtual y analizaron qué hacía que estos entornos fueran difíciles de evaluar. Los dos enfoques
principales presentados son la evaluación del banco de pruebas y la evaluación secuencial, siendo el enfoque del
banco de pruebas más genérico y más adecuado para evaluar tareas básicas como la selección y la manipulación,
pero también costoso de realizar.
También se han realizado estudios de interacción 3D con interfaces AR, aunque no son muchos los
que exploran la manipulación general de objetos, que es de especial interés en esta tesis. Un ejemplo es
Ellis [EBM+97] que realizó un experimento para explorar la capacidad del usuario para mover un anillo
virtual sobre un cable virtual en una pantalla AR con diferentes latencias de renderizado.
Discusión
Una encuesta de experimentación basada en usuarios en AR realizada por Swan y Gabbard [IG05] encontró que solo el 8%
de las publicaciones de AR tenían un estudio de evaluación y solo una parte de las tesis involucraba la manipulación de
objetos virtuales. Ninguno de los trabajos citados estaba en AR portátil. Esta tesis aborda esta brecha proporcionando
estudios formales de usuarios y datos empíricos.
La metodología utilizada para evaluar la interacción 3D en esta tesis emplea una combinación de mediciones
cuantitativas y retroalimentación cualitativa en forma de entrevistas y clasificaciones, similar a Hinckley. Para
obtener datos suficientes de un grupo limitado de sujetos, se utiliza un enfoque intra-sujetos. Esto significa que
todos los participantes realizan todas las tareas con todas las técnicas estudiadas. Las observaciones se realizan
manualmente y no se graba ningún video.
Existen dos diferencias fundamentales entre trabajos sobre input 3D, como el de Sundin, y el
presentado en esta tesis:
1. Trabajar con teléfonos móviles disponibles comercialmente implica que los parámetros del dispositivo de entrada,
es decir, propiedades físicas como masa, ergonomía, viscosidad, etc., son constantes. En cambio, se deben
desarrollar técnicas de interacción para aprovechar las capacidades de diseño de hardware existentes. Esto
plantea un conjunto diferente de desafíos en comparación con el codiseño de software y hardware.
2. No se ha encontrado ningún trabajo anterior en el que se manipulen objetos 3D con 6DOF en un teléfono
móvil; por lo tanto, no existe una práctica mejor conocida contra la cual se pueda comparar un nuevo
enfoque y probar hipótesis. En su lugar, se desarrollará y comparará un lote de técnicas de interacción
viables utilizando metodologías de evaluación estándar para descubrir qué técnicas son las más
adecuadas para la interacción 6DOF en contextos de RA.
Capítulo 3
Descubriendo la realidad aumentada del

teléfono móvil
Este capítulo presenta contribuciones de los artículos incluidos. Está dividido en cuatro secciones que
representan las áreas de enfoque de esta tesis. La primera sección presenta el desarrollo de una solución
de seguimiento basada en marcadores donde el sistema de coordenadas global está definido por
marcadores fiduciales. Dichos marcadores se pueden imprimir en papel, por ejemplo en periódicos, para
proporcionar un espacio de información dinámico adicional. El seguimiento del teléfono en relación con
un marcador permite utilizar el movimiento del teléfono para la interacción 3D, como se describe en la
segunda sección. El seguimiento de varios teléfonos conectados en el mismo sistema de coordenadas
permite la AR colaborativa, sobre la que se desarrolla la tercera sección. En la cuarta sección, los teléfonos
no solo están conectados entre sí, sino también a otros dispositivos que proporcionan entrada y salida.
3.1 Plataforma de realidad aumentada para teléfonos móviles
Con una cámara alineada con una pantalla y acoplada con una CPU, los teléfonos móviles son capaces de ver a través de
AR de video como se indica en los trabajos sobre la interacción basada en la cámara presentados en el capítulo anterior.
La secuencia de video capturada por la cámara se analiza en busca de características que se utilizan para calcular la pose
de la cámara. Si bien una variedad de características físicas permiten el seguimiento con 6DOF, una solución de
seguimiento general se beneficia de características estandarizadas que son fáciles de reproducir. Los marcadores
fiduciales cumplen con este requisito y el desarrollo del seguimiento óptico basado en marcadores se describe en el
artículo.I. Para ello, la biblioteca de seguimiento de ARToolKit se transfirió a Symbian1 plataforma por primera vez.
ARToolKit fue el candidato obvio por ser de código abierto, fácil de usar y utilizado por muchos grupos de investigación,
incluso para la RA basada en PDA. También permite la creación rápida de prototipos de aplicaciones.
El primer desafío fue adaptarlo al entorno computacional bastante restringido proporcionado por los
teléfonos móviles. El puerto inicial se realizó agregando una clase contenedora de C ++ al código abierto
1www.symbian.com
31
32 CAPÍTULO 3. REALIZACIÓN DE LA REALIDAD AUMENTADA DEL TELÉFONO MÓVIL
Código ARToolKit C desarrollado para PC. Esto era necesario para evitar datos inicializados prohibidos por
Symbian. A partir de las imágenes capturadas por la cámara, se crean dos nuevas imágenes enmascarando los
valores RGB: una imagen que se usa como textura de fondo para hacer que la pantalla sea transparente y una
imagen analizada para los marcadores por ARToolKit. Si se encuentran marcadores, los datos de esquina y borde
correspondientes se utilizarán para calcular la pose de la cámara en las coordenadas del marcador. El primer
puerto [HO04] funcionó a 1 fps en un Nokia 6600 con una CPU de 104 MHz, no suficiente para una interacción
continua. Para mejorar el rendimiento era necesario observar la aritmética de punto fijo.
Para renderizado de gráficos 3D, OpenGL ES2 se utiliza, y el extrínseco3 Los parámetros, calculados por
ARToolKit, se convierten y se utilizan para la MODELVIEW transformación en la canalización de renderizado para
alinear las cámaras físicas y virtuales. OpenGL ES es un subconjunto de OpenGL de escritorio y proporciona
funcionalidades de bajo nivel para renderizar gráficos 3D interactivos en dispositivos limitados. Si bien OpenGL
ES admite el punto flotante, se puede lograr un mejor rendimiento con el punto fijo.
3.1.1 Biblioteca de punto fijo

Al carecer de unidades de punto flotante (FPU), los teléfonos móviles deben emular la aritmética de punto flotante en el
software, lo que hace que estas operaciones sean hasta dos órdenes de magnitud más lentas que los equivalentes
enteros. Para aumentar la velocidad del algoritmo de pose de cámara ARToolKit, se desarrolló una biblioteca de punto fijo
basada en rutinas de ensamblador ARM. Para minimizar la pérdida de información debido a la conversión entre
representaciones de coma flotante y de coma fija, es necesaria una precisión variable. Los valores trigonométricos, que
van de -1 a 1, usan 28 bits para decimales mientras que los números grandes usan solo 8. Esta variación necesaria de
precisión hace que el desarrollo de software sea mucho más difícil en comparación con el uso de precisión de 16 bits
solamente, como con OpenGL ES, y se debe tener mucho cuidado tomado para evitar un desbordamiento que cause la
pérdida de los bits más significativos. Esto es un desafío porque se utilizan la mayoría de los bits (ya que tanto las partes
enteras como las de precisión de un número de punto flotante convertido se almacenan en la misma representación
entera) y, por lo tanto, es probable que se produzca un desbordamiento si no se tiene cuidado. Hay algunos criterios
adicionales para una operación de punto fijo:
• Debe tener costos computacionales similares para todos los insumos posibles. Esto es esencial para
predecir la velocidad de un algoritmo reescrito con puntos fijos.
• Todos los resultados deben tener un error bajo. Por ejemplo, una expansión de Taylor de una función puede
devolver un resultado correcto para alguna entrada, pero ser inexacto para otras. Una función tabulada, por otro
lado, a menudo tendrá un error máximo cuando se utilicen como entrada valores a medio camino entre los
puntos muestrales tabulados.
El punto fijo se basa en el tipo de datos entero y se puede sumar y restar como números enteros. Es necesario
implementar otras operaciones aritméticas y trigonométricas especialmente para puntos fijos. La función más importante
es la multiplicación. Esta es también la rutina con más probabilidades de desbordarse si se adopta un enfoque ingenuo de
multiplicación de enteros. Para evitar el desbordamiento y maximizar la velocidad, se utilizó una rutina de ensamblador
ARM que almacenaba el resultado en dos registros. Esto significaba
2www.khronos.org/opengles
3posición y orientación de la cámara con respecto al sistema de coordenadas mundial aquí definido por marcadores
3.1. PLATAFORMA DE REALIDAD AUMENTADA PARA TELÉFONO MÓVIL 33
que no se perdieron datos y garantizó que solo los bits menos significativos se desecharan cuando se
fusionaban los valores de registro. Esta operación fue 27 veces más rápida que el equivalente en coma
flotante y solo 1,6 veces más lenta que la multiplicación pura de enteros. La división se implementó como
una multiplicación del dividendo y el divisor invertido. La inversión se implementó usando un algoritmo
de aproximación de Newton-Raphson donde la conjetura inicial se hizo usando una tabla recíproca. Se
implementó un algoritmo similar para el cálculo de raíces cuadradas.
Rotadores CORDIC4 y las expansiones de Taylor se implementaron para funciones trigonométricas, pero
fueron rechazadas a favor de la trigonometría tabulada. Por ejemplo, usar rotadores CORDIC para calcular sen y
cos simultáneamente fue 6 veces más rápido que usar punto flotante, pero 3 veces más lento que usar valores
tabulados e interpolación lineal. Además, el error aumentó para valores de entrada cercanos a 1. Expansión de
Taylor de sin5 era 3.6 veces más rápido que el equivalente de CORDIC, pero se descartó ya que el uso de términos
de alto orden necesarios provocó el desbordamiento de algunas entradas a menos que se sacrificara la precisión
de todas las entradas. En cambio, 1024 valores de arccos, que van de 0 a 1, y 1024 valores de sen, que van de 0 aπ
, fueron tabulados. Para recuperar un valor,2 el índice de la matriz se calculó a partir del valor de entrada.
Se probaron y compararon varios algoritmos para obtener el mejor rendimiento y conformidad con los criterios
establecidos, y las operaciones de punto fijo más rápidas se ejecutaron en promedio veinte veces más rápido que los
equivalentes de punto flotante. No solo se implementaron funciones aritméticas y trigonométricas básicas, sino también
operaciones vectoriales y matriciales, como inversión matricial, producto cruzado y producto escalar, optimizadas en
ensamblador.
Basado en [WS03], las funciones computacionalmente más pesadas se reescribieron para usar punto fijo en lugar de
punto flotante de doble precisión. La mayoría de las otras funciones de pose de cámara también fueron reescritas. Para
estimar la precisión necesaria, una cámara web conectada a una PC que ejecuta ARToolKit se movió libremente alrededor
de un marcador, entrando y saliendo del rango de seguimiento. Se almacenaron los valores más grandes y más pequeños
y se eligió la precisión para adaptarse a ellos.
Esta reescritura hizo que la estimación de pose se ejecutara a 4-5 fps en el 6600 y luego a 8-10 fps en el Nokia
6630 con una CPU de 220 MHz. El intercambio de rutinas de coma flotante de doble precisión por equivalentes de
coma fija introdujo un pequeño aumento en la inestabilidad de seguimiento, pero no más de lo que se
consideraba aceptable. Aunque algunos teléfonos móviles ahora tienen GPU que admiten cálculos de punto
flotante para gráficos, es probable que las representaciones de punto fijo sigan siendo importantes para admitir
teléfonos de gama baja.
3.1.2 Calibración de la cámara
El intrínseco6 Los parámetros de la cámara se obtienen en un proceso de calibración y se utilizan para establecer
las entradas para el PROYECCIÓN transformación en la canalización de renderizado de OpenGL ES. Para calibrar
la cámara, se modificó la aplicación de calibración ARToolKit para tomar imágenes fijas en lugar de una
4Estas funciones eficientes de hardware utilizan una tabla arctan, operaciones de cambio, suma y resta para emular una amplia gama de
funciones trigonométricas, hiperbólicas, lineales y logarítmicas. Para obtener más información, consulte Ray Andraka'sUna encuesta de
algoritmos CORDIC para computadoras basadas en FPGA
5pecado(X) = x - X33! + X5 5! - X7 7! + ...
6Parámetros internos de la cámara como distancia focal, sesgo y distorsiones
alimentación de video. Se utilizaron cinco imágenes que contenían 81 puntos cada una para calcular los parámetros intrínsecos. El
uso de más datos produce una mejor calibración, pero el proceso manual de identificación de puntos en las imágenes del objetivo
de calibración requiere mucho tiempo. La calibración es importante para reducir los errores de registro estático y una buena
calibración puede aumentar el rendimiento de seguimiento, ya que el algoritmo converge más rápido si se proporciona con los
parámetros de cámara correctos.
No se utiliza el zoom, ni en el proceso de calibración ni durante el seguimiento. Dado que el teléfono
móvil es un dispositivo tangible, se supone que el usuario se acerca a los detalles moviendo el teléfono
más cerca del objetivo. Sin embargo, sería posible utilizar el zoom digital, ya que el factor de zoom actual
está disponible a través de la API. Para que esto funcione, la cámara debe calibrarse en varios niveles de
zoom; mediante el ajuste de polinomios, se puede derivar una expresión para cada parámetro intrínseco.
3.1.3 Mejoras adicionales

Para aumentar el rendimiento, se implementó el umbral de coherencia fotograma a fotograma. Funciona calculando la
longitud acumulada de los vectores de diferencia de las esquinas del marcador entre dos fotogramas consecutivos. Si la
longitud está por debajo del umbral definido, se utiliza la pose de cámara anterior. Esto reduce el tiempo de cálculo, ya
que el costo de la detección de marcadores es redundante en comparación con la estimación de la pose de la cámara.
El seguimiento de ARToolKit es inherentemente inestable y, para solucionarlo, se implementó la predicción basada en

suavizado exponencial doble (DESP), una alternativa económica al filtrado de Kalman [Jr.03], para facilitar el seguimiento de
los datos. La penalización es una pequeña latencia al mover el teléfono, ya que los parámetros de pose de la cámara
antigua influyen en los actuales. A pesar de esta fluctuación reducida, el algoritmo de seguimiento es notablemente
inestable si el marcador se sigue mirando hacia abajo del eje z, es decir, con un ángulo de inclinación cercano a 0 grados
[ABD04]. Esto es un problema si los marcadores se colocan en una pared vertical.
Dado que las condiciones de iluminación pueden variar durante el uso, es importante poder adaptar el umbral
utilizado para segmentar el cuadrado del marcador negro del fondo blanco. Un valor de umbral demasiado alto
etiquetaría algunas áreas blancas como negras, lo que provocaría un error en la detección del marcador. Del mismo
modo, un umbral demasiado bajo haría que las áreas del marcador negro fueran blancas en la imagen binaria. Para el
umbral dinámico, se desarrolló un enfoque de fuerza bruta simple en el que se incrementa el valor del umbral (un paso
típico es 20 niveles de gris) hasta que se alcanza el máximo o se detecta un marcador. El umbral dinámico es
especialmente importante cuando se utiliza la cámara frontal para el seguimiento (como se describe en la Sección 3.2.3).
Para que ARToolKit detecte un marcador, los cuatro bordes deben estar completamente visibles en el cuadro de
video. Si el marcador está parcialmente oscurecido (por ejemplo, con un dedo), el seguimiento falla y no se procesa nada.
Para ver cómo se podía solucionar esta limitación, se llevó a cabo un experimento con el flujo de movimiento. Se
implementó un algoritmo de seguimiento de características piramidal basado en diferencias de parches, similar a los
trabajos presentados en la Sección 2.2.1, y la detección de características de Harris y se utilizó para rastrear esquinas de
marcadores (también se implementó un rastreador de características piramidal Lucas-Kanade, pero se encontró inferior a
la diferencia de parche uno con el propósito de rastrear las esquinas del marcador). Esto permitió oscurecer todo menos
tres esquinas. A partir de las tres esquinas, rastreadas entre fotogramas por el rastreador de características, se estimó la
posición de la cuarta esquina utilizando heurísticas simples. A partir de estas cuatro esquinas, ARToolKit calculó la
información de los bordes como de costumbre. A pesar de que
3.1. PLATAFORMA DE REALIDAD AUMENTADA PARA TELÉFONO MÓVIL 35
Aplicación [C ++]
COLLADA ARToolKit S60

Importar Seguimiento Plataforma
XML OpenGL ES API de cámara
Sistema operativo Symbian
Hardware
Figura 3.1: Componentes de software. Los componentes principales son la biblioteca de seguimiento ARToolKit,
el renderizado OpenGL ES y la API de la cámara. Estas son las partes necesarias de cualquier aplicación de RA
para teléfonos móviles. Se desarrolló un importador de escenas COLLADA, basado en funciones XML de Symbian,
mientras que se utilizaron otras API para la retroalimentación multisensorial en forma de audio y vibración.
el experimento fue exitoso, esta mejora no se consideró lo suficientemente esencial como para ser incluida en la
plataforma. También existía un pequeño riesgo de confundir una esquina de marcador y una característica de patrón de
marcador interior, lo que resultaba en graves errores de registro.
Posteriormente, una solución para importar COLLADA7 Se desarrolló archivos, lo que permite la importación de escenas
básicas desde SketchUp, Google Earth o 3D Warehouse.8. La terminación del archivo se asoció con la aplicación AR, que facilitó la
transferencia y la apertura de escenas 3D a través de Bluetooth o como archivos adjuntos de correo electrónico. Figura3.1 ofrece
una descripción general de los componentes de la plataforma.
3.1.4 Aplicación de ejemplo: campaña del zoológico de Wellington
Un área de aplicación de la RA es fusionar medios impresos con gráficos 3D interactivos. Como ejemplo de esto,
una campaña publicitaria de Saatchi & Saatchi para Wellington Zoo se basó en la plataforma presentada en esta
sección. Se imprimió un anuncio con un marcador en un periódico local de Nueva Zelanda y los lectores podían
enviar un código por SMS a un número de teléfono proporcionado. En el SMS devuelto, se proporcionó una URL
que dirigía a los usuarios a un sitio WAP. Al ingresar al sitio, se identificó el modelo de teléfono y, si se encontraba
compatible, se le indicó al usuario que descargara e instalara una aplicación AR. Después de iniciar la aplicación,
el usuario solo necesitaba apuntar la cámara al marcador impreso para que apareciera un animal en 3D. El
usuario podía ver al animal desde un punto de vista arbitrario siempre que el marcador estuviera enmarcado
(Figura3.2).
Los modelos se crearon en un paquete de animación 3D y se exportaron desde un navegador 3D como listas de
vértices OpenGL. A partir de esta representación de punto flotante, vértices de punto fijo listas compatibles
7Un formato de archivo de intercambio basado en XML para activos 3D. Ver:www.khronos.org/collada/
8sketchup.google.com/3dwarehouse
Figura 3.2: Tres aplicaciones para animales utilizadas en lo que se cree que es la primera campaña publicitaria de
RA. Los lectores enviaron un SMS para obtener la aplicación y, después de instalarla, simplemente iniciaron la
aplicación y señalaron el teléfono para experimentar un animal virtual que aparecía en el anuncio impreso.
con OpenGL ES, aunque no fue posible un mapeo 1 a 1. Los tamaños de los archivos de instalación oscilaron entre 163 KB
y 214 KB, suponiendo que el teléfono tuviera compatibilidad nativa con OpenGL ES. Mantener los tamaños de archivo
pequeños es esencial para este tipo de entrega OTA y para minimizar los costos de los usuarios finales si se factura por
KB.
Este ejemplo muestra las fortalezas de la plataforma presentada con respecto a la facilidad de uso y la compatibilidad
con los mecanismos de entrega existentes. Se cree que esta es la primera campaña publicitaria de realidad aumentada
del mundo real y compitió en tres categorías en Cannes Lions 2007.9, aunque no ganó ningún premio. Sin embargo,
mostró que la realidad aumentada de teléfonos móviles ahora es lo suficientemente madura para la industria publicitaria
altamente competitiva.
3.2 El teléfono móvil como dispositivo de interacción 6DOF
La realidad aumentada requiere que el dispositivo sea rastreado con 6DOF para registrar correctamente la
información real y virtual. La interacción 3D requiere que el dispositivo de entrada detecte la rotación y la
traslación en 3D, cada una con 3 DOF. De estas observaciones se deduce que un teléfono móvil habilitado para
AR podría usarse como un dispositivo de interacción 3D isotónico donde el movimiento del propio teléfono se
usa como entrada. El desafío consiste en desarrollar técnicas de interacción 3D viables y diseñar experimentos
para evaluarlas. DocumentosII, III, IV y V Presentar contribuciones a la interacción 3D continua en contextos de
RA.
La interacción 3D con dispositivos de entrada multidimensionales implica una combinación de los siguientes
requisitos10 [SD91]:
1. Navegación: El usuario debería poder navegar por la escena controlando la cámara virtual.
9www.canneslions.com
10Existen otras listas similares, pero a efectos de estructurar los aportes, se ha elegido esta
3.2. EL TELÉFONO MÓVIL COMO DISPOSITIVO DE INTERACCIÓN 6DOF 37
2. Selección global: El usuario debería poder seleccionar cualquier objeto en la escena.
3. Transformación de cuerpo rígido: Esto incluye los requisitos habituales de traslación y rotación:
cualquier transformación que cambie la orientación y la posición del objeto en el espacio pero que
deje sin cambios su geometría local.
4. Selección local: El usuario debe poder seleccionar parte de un objeto que se puede utilizar para deformar el
objeto, pero no su posición general en el espacio.
5. Deformación: Esto incluye operaciones para manipular la geometría del objeto.
A continuación, se presentarán descripciones y evaluaciones de cómo se cumplen estos requisitos en teléfonos

móviles habilitados para AR. El alcance se limita a explorar la interacción 3D general en un espacio de trabajo pequeño y,
contrariamente a la práctica en aplicaciones de entorno de realidad virtual y CAD de escritorio, no se representan gráficos
adicionales para guiar al usuario durante la interacción. El escenario de aplicación más probable son los juegos,
preferiblemente se evita la dependencia de la visualización del eje de coordenadas.
3.2.1 Navegación
En AR, los objetos virtuales se registran en el mundo real. Por lo tanto, la navegación de la escena virtual se
reduce a navegar por el mundo físico. El control de la cámara virtual es indirecto y lo maneja el sistema de
seguimiento que establece la posición y orientación de la cámara. Por lo tanto, la cámara virtual se controla
mediante el movimiento directo del dispositivo. En el escenario general de telefonía móvil, esto produce una
globo ocular en mano metáfora del control del punto de vista: para acercar, el teléfono se acerca al objeto. Los
desafíos para proporcionar navegación son, por lo tanto, idénticos a los de habilitar el seguimiento.
Si la escena virtual se basa en un solo marcador de papel, la navegación se puede facilitar

manipulando el marcador con la mano que no sostiene el teléfono. Tal interacción en la que se hace que
la escena se mueva en correspondencia con el marcador emplea unaescena en mano metáfora. Estas dos
metáforas se fusionan cuando se utiliza la interacción bimanual asimétrica para la manipulación del
marcador combinada con el movimiento del teléfono. Normalmente, la mano no dominante manipula el
marcador de papel, mientras que la mano dominante con su resolución temporal más fina mueve el
teléfono. Esta división en funciones macrométricas y micrométricas se discutirá más a fondo en los casos
de manipulación de objetos isomorfos.
3.2.2 Selección global

Para discriminar entre diferentes objetos, cada objeto debe tener una propiedad única que se pueda
obtener a través de la interfaz de selección. Un enfoque simple es utilizar el canal alfa para codificar una
ID de 8 bits. Muestrear el vector de color del píxel central, indicado con una cruz virtual, y extraer el valor
alfa devuelve el ID de los objetos de destino a la aplicación. Este enfoque es suficiente para seleccionar
objetos parcialmente ocluidos, dado que se cumplen los siguientes supuestos:
1. No es necesario discriminar más de 255 objetos.

2. El canal alfa se usa solo para selección, no para transparencia.
Cuando este no es el caso, se pueden usar el vector a todo color y dos pases de renderizado como se
describe en la Sección 3.2.4. La selección se realiza moviendo el propio teléfono y colocando la mira sobre el
objeto que se va a seleccionar. Por lo tanto, la selección y la navegación están estrechamente vinculadas, al igual
que los desafíos para realizarlas.
3.2.3 Transformación de cuerpo rígido

Para las aplicaciones de RA interactivas, es fundamental ir más allá de la metáfora del espejo y permitir
que el usuario manipule el contenido virtual. En esta tesis se consideran dos tareas básicas de
manipulación 3D: posicionamiento y rotación. Estas tareas se han estudiado previamente en otras
plataformas, pero las diferencias en el factor de forma y la interfaz motivan la investigación en el teléfono
móvil. Para tales interacciones 3D, el desafío es proporcionar al usuario un control rápido y preciso sobre
cada DOF. Se han implementado y estudiado varias técnicas de manipulación con el fin de identificar las
más aplicables para esta plataforma.
Se han implementado las siguientes técnicas de traducción:
• Control de frecuencia isométrica mediante la interfaz de joypad / botón. Cada DOF es controlado por un
par de botones, incrementando y decrementando la traslación a lo largo del eje. La traslación del objeto
resultante es continua a una tasa constante. Suponiendo un espacio de trabajo pequeño, no se consideró
necesaria ninguna aceleración.
• Control de posición isomorfo donde el objeto seleccionado se fija en relación con el teléfono.En este caso, hay un
mapeo uno a uno entre el movimiento de la mano y el objeto solo limitado por el rango de seguimiento y las
restricciones de las articulaciones. El teléfono se utiliza como un dispositivo de entrada isotónico de vuelo libre
que proporciona una manipulación directa, lo que puede provocar fatiga.
• Control de posición isomórfica bimanual. Aquí el usuario mueve tanto el teléfono como el marcador. La
mano dominante del usuario, con su resolución temporal más fina, aplica el control micrométrico del
teléfono, mientras que la mano no dominante aplica el control macrométrico del marcador de papel. Esto
es similar al uso de lápiz y papel, donde el posicionamiento aproximado (control macrométrico) del papel
se combina con un control más fino (control micrométrico) del lápiz.
• Entrada de gestos usando la cámara frontal. Esta técnica de interacción requiere una operación bimanual
con el teléfono sostenido en la mano no dominante del usuario. La cámara frontal rastrea el movimiento
de un dedo y se asigna a la traducción del objeto. El seguimiento de los dedos en 3D se realiza colocando
un pequeño marcador en el dedo índice del usuario. Ejecutar ambas cámaras al mismo tiempo sigue
siendo demasiado lento y, por lo tanto, hay dos modos: modo de visualización con un fondo en vivo y
modo de interacción con un fondo congelado. Un usuario debe activar el modo de interacción
presionando un botón.
• Control de tasa isotónica. Esta técnica asigna la rotación del teléfono a la traslación de objetos.
Inclinar el teléfono hacia adelante o hacia los lados traslada el objeto al plano xy. Traducir
a lo largo del eje z, el teléfono se gira como un destornillador. La velocidad a la que el objeto se traslada se escala
con el ángulo de rotación. Al igual que en el caso de los gestos, se utilizan dos modos. La rotación es relativa a la
orientación actual al cambiar al modo de interacción. El umbral de los movimientos proporciona una zona estable
en la que no se realiza ninguna traslación. Esto evita la entrada involuntaria causada por la inestabilidad del
seguimiento y / o movimientos involuntarios de la mano.
• Apoyo físico. La transformación de un objeto físico se asigna a uno virtual. Por ejemplo, un cubo
con marcadores se puede manipular frente a la cámara. El inconveniente es que al menos un
marcador de cubo y un marcador de escena global deben estar visibles al mismo tiempo. Otro
inconveniente es que debe estar presente un segundo objeto, comprometiendo así la ambición de
no depender de dispositivos de entrada externos. Sin embargo, el bajo costo y la complejidad de
un cubo de papel motivaron una excepción.
Se han implementado las siguientes técnicas de rotación:
• Control de frecuencia isométrica mediante la interfaz de joypad / botón. Cada DOF es controlado por un
par de botones, aumentando y disminuyendo la rotación alrededor del eje correspondiente (ejes de
coordenadas locales del objeto) en cada actualización de cuadro. La rotación es continua a una tasa
constante. Al igual que con la traducción, no se implementó ninguna aceleración. En su lugar, se eligió el
tamaño del paso de incremento para proporcionar un equilibrio razonable entre velocidad y precisión.
• ArcBall. Esta conocida técnica de rotación basada en cuaterniones encapsula un objeto con una
esfera que se puede arrastrar con el mouse. Se ha adaptado al teléfono móvil, donde el píxel
central, indicado por una cruz, se utiliza como puntero del ratón y el movimiento 2D del propio
teléfono se asigna a ángulos de rotación 3D dependiendo de en qué parte de la esfera virtual hizo
clic el usuario y el siguiente. trayectoria del dispositivo.
• Control de posición isomorfo donde el objeto seleccionado se fija en relación con el teléfono.Esto es lo mismo que
en el caso de la traducción. El rango de seguimiento limitado y las restricciones de las articulaciones humanas
hacen que el agarre sea necesario para ángulos de rotación más grandes, lo que resulta en una baja coordinación.
• Control de posición isomórfica bimanual. Similar al caso de traducción, excepto que la mano no
dominante gira el papel de marcador alrededor del eje z. Para la rotación alrededor del eje del
zapato, la interacción bimanual duplica efectivamente el ángulo de rotación máximo posible sin
embrague.
• Control de tasa isotónica. Similar al caso de traducción con la rotación del teléfono asignada a la rotación
del objeto en cada actualización. Por tanto, la velocidad está moderada por la magnitud de la rotación.
Esta técnica permite la rotación alrededor de los tres ejes al mismo tiempo, aunque se utiliza un umbral
para evitar la rotación involuntaria.
• Entrada de gestos usando la cámara frontal. Aquí, el movimiento de los dedos se asigna a los ángulos de
rotación utilizando la técnica ArcBall o la rotación 2D a lo largo del vector del campo de movimiento. La
desventaja es la cantidad de modos necesarios en ambos casos, con el modo de interacción dividido en
dos submodos.
40 REALIDAD ED
Figura 3.3: Configuración y tareas experimentales. Los participantes se sentaron en una mesa con un marcador de papel tangible.
En las tareas de posicionamiento y rotación, se suponía que debían alinear un bloque sólido con uno de estructura alámbrica lo más
rápido posible.
• Apoyo físico. La transformación de un objeto físico se traslada al virtual como ocurre con la traducción.
Aquí los usos deben rotar el cubo con una sola mano. Esto puede ser complicado, pero al mismo tiempo
explota la interacción de los dedos que, en el caso general, se considera que proporciona un control
superior en comparación con los movimientos de la muñeca [Zha95].
Todas las técnicas anteriores se probaron primero de manera informal y algunas se consideraron no aptas para la
interacción AR en teléfonos móviles. La interacción con un accesorio físico oscureció demasiado el campo de visión de la
cámara. ArcBall basado en gestos resultó ser demasiado complejo para ser útil con al menos tres modos de visualización,
posicionamiento del dedo e interacción real. También la traducción basada en inclinación (control de velocidad isotónica)
resultó no ser competitiva.
Papel II presenta el primer estudio de usuario sobre la interacción AR 3D en teléfonos móviles. Este estudio
piloto de usuarios comparó las técnicas de traducción y las técnicas de rotación por separado. Primero, se
compararon tres condiciones de traslación: control de posición isomórfica, control de velocidad isométrica y
control de posición isomórfica bimanual. Se obtuvo retroalimentación cualitativa y cuantitativa además de los
comentarios y observaciones de los usuarios. Los participantes se sentaron en una mesa con un marcador de
papel (Figura3.3izquierda). En los casos bimanuales, se les permitió manipular el marcador. Completaron cinco
tareas en las que un objeto sólido debía alinearse con uno de estructura alámbrica (Figura3.3 medio). En cada
tarea, el objetivo era llegar por debajo de un margen de error lo más rápido posible.
Los tiempos mostraron que el control de la posición isomórfica donde el objeto estaba fijo al teléfono era
significativamente más rápido que la entrada isométrica usando el teclado. Las respuestas al cuestionario
mostraron que los usuarios sentían que podían colocar el objeto más fácilmente en la condición isomórfica,
mientras que la condición isométrica se percibía como más precisa. Tener el objeto fijo en el sistema de
coordenadas del teléfono también se percibió como más rápido y agradable. Los sujetos clasificaron la
interacción isomórfica más alta con respecto a la facilidad de uso. No hubo diferencias significativas entre la
interacción isomórfica con una mano y la bimanual.
Los mismos sujetos también participaron en una comparación entre cuatro condiciones de rotación:
isomorfa (con una mano y bimanual), ArcBall y entrada de teclado isométrica. Aquí la tarea fue
3.2. MÓVIL P T
Figura 3.4: La imagen de la izquierda muestra la interacción de los dedos en 2D basada en la estimación del campo de movimiento.
Los dos restantes muestran el seguimiento de los dedos en 3D realizado al poner un marcador en un dedo. En ambos casos, la
cámara frontal se utiliza para registrar la entrada.
para alinear un objeto sólido con uno de estructura alámbrica, ambos tienen el mismo centro (Figura 3.3 Derecha). Los tiempos
indicaron que la entrada de ArcBall y el teclado son en promedio dos veces más rápidas que la entrada isomorfa. No se encontraron
diferencias significativas entre las respuestas de la encuesta y la clasificación a pesar de las diferencias significativas en los tiempos
de finalización.
Las conclusiones de este estudio son que la interacción isomórfica es la mejor para la traducción, mientras
que la entrada isométrica es la más adecuada para la rotación, solo rivalizada por ArcBall. La interacción
bimanual no parece ser importante y se observó que la mitad de los participantes no utilizaban esta opción
cuando estaba disponible. También hubo una tendencia a que los usuarios usaran su mano no dominante para
estabilizar el teléfono en las condiciones de entrada del teclado. Esto resalta problemas con la navegación e
interacción no separadas. Las entrevistas a los usuarios indicaron que, en los casos bimanuales, los usuarios
realizaban movimientos bruscos con el teléfono y, en cambio, movimientos más finos con el papel.
En papel III, se realizó un segundo par de estudios de usuarios para investigar el potencial de la cámara
frontal para permitir la interacción 3D. Figura3.4 muestra el seguimiento de los dedos en 2D y 3D. El primer
estudio comparó tres técnicas de traducción diferentes: control de posición isomórfica, control de frecuencia
isométrica y entrada de gestos con un marcador de dedo. Las tareas fueron las mismas que en el primer estudio
de usuarios presentado anteriormente y en papel.II. Esto permitió una comparación directa con los resultados
anteriores, dando una pista si había fallas en la metodología de evaluación.
Este estudio también compara el efecto que tiene sobre los resultados el aumento de la
dimensionalidad de la tarea. Había dos tareas que podían lograrse moviendo el bloque en una sola
dirección. Una tarea podía completarse moviendo el bloque virtual en dos direcciones y las dos tareas
restantes requerían que el usuario moviera el objeto en las tres direcciones. Sin embargo, no hubo
comparaciones entre los grados de libertad individuales.
Los tiempos mostraron diferencias significativas entre el tiempo de ejecución de la tarea, tanto en las tres
técnicas de interacción como en la condición del teclado, en todas las tareas. En la condición de entrada del
teclado, el usuario tardó más en completar las tareas cuando requerían movimiento en más direcciones. Tanto
en la entrada de gestos como en el caso de control de posición isomórfica, hubo poca diferencia en el tiempo de
la tarea, ya que las tareas requerían manipulación en más dimensiones. El caso de control de posición isomórfica
funcionó mejor que las otras condiciones excepto por la condición de entrada del teclado en el caso simple de un
grado de libertad. Para la traducción 3DOF, mover el teléfono en sí es significativamente más rápido
que las alternativas.

El análisis de la retroalimentación cualitativa de los cuestionarios y las clasificaciones no encontró diferencias
estadísticamente significativas entre las condiciones. Sin embargo, los resultados de las pruebas subjetivas fueron
interesantes, ya que demostraron que, a pesar de que dos de los métodos de interfaz, la interacción tangible y con los
dedos, eran novedosos para los usuarios, eran "lo suficientemente buenos" para que los usaran dada la similitud en las
clasificaciones. Sin embargo, se les instruyó sobre cómo funcionaba la técnica de interacción y también se les permitió
practicar antes de intentar las tareas.
Se realizó un estudio de rotación comparando tres técnicas de rotación: control de frecuencia isotónica (inclinación),
interacción de gestos basada en el seguimiento de los dedos y control de frecuencia isométrica (teclado). Al igual que en el estudio
de la traducción, la dimensionalidad varió entre las tareas. La inclinación del teléfono y el seguimiento de los dedos utilizaron
algoritmos de flujo de movimiento en lugar de marcadores para la interacción. El flujo de movimiento se rastrea solo con 2DOF y,
por lo tanto, requiere un modo adicional para admitir la rotación 3DOF completa. A pesar de esta limitación, el flujo de movimiento
es interesante porque lo más probable es que lo utilicen aplicaciones comerciales con entrada basada en dedos.
El análisis de los datos de tiempo mostró que la entrada del teclado es la más rápida, seguida de la entrada de inclinación y la
entrada de los dedos es la más lenta. Hubo una diferencia significativa en los resultados entre el tipo de interfaz y también entre la
complejidad de la tarea, lo que significa que el aumento del número de DOF resultó en tiempos de finalización de la tarea más
largos.
Los cuestionarios mostraron un resultado significativo: la entrada del teclado se percibió como más precisa que la
entrada con los dedos. La entrada del teclado también se clasificó mejor seguida por la inclinación y la entrada del último
dedo con respecto a la facilidad, la precisión y la rapidez con la que se percibía la técnica de interacción. En las entrevistas,
los participantes pensaron que el campo de visión de la cámara frontal (FOV) era demasiado pequeño y que la
coordinación de las manos era difícil. Si bien sería posible experimentar con ópticas modificadas para un campo de visión
más grande, los resultados no serían aplicables a los modelos disponibles comercialmente.
Estos estudios confirman los hallazgos de los estudios anteriores, presentados anteriormente y en papel.
II, que el control de posición isomórfica puede ser más eficaz que el control de velocidad isométrica para la traslación de
objetos, mientras que el control de velocidad isométrica debe elegirse para la rotación de objetos. Cabe señalar que el
propósito de los estudios realizados ha sido obtener una comprensión de alto nivel, obteniendo qué categorías generales
funcionan mejor para la interacción 3D AR. Se necesita más investigación para optimizar cada técnica de interacción.
Especialmente las asignaciones de control de velocidad podrían beneficiarse de una mayor investigación.
En los estudios de usuarios anteriores, la traducción y la rotación se han estudiado por separado. En una
aplicación 3D general, sería necesario combinar ambos modos de transformación para proporcionar una
interacción 6DOF completa. Para el control de posición isomórfica, 6DOF es el predeterminado, pero otras
combinaciones requieren que el usuario cambie entre modos. PapelIV muestra cómo la rotación y la traducción
basadas en el teclado se pueden combinar usando un enfoque simple basado en menús. El rico conjunto de
botones permite realizar la mayoría de combinaciones. Por ejemplo, la técnica de rotación ArcBall se puede
combinar con cualquier técnica de traducción con un botón asignado para cambiar de modo. Aún no se ha
investigado la mejor combinación para el seguimiento de la ruta 6DOF, pero ambos estudios indican que una
combinación de control de posición isomórfica para traslación y control de velocidad de teclado isométrico para
rotación es la mejor opción. Esta es la combinación de elección para CMAR, presentada en la Sección 3.3.2.
Dado que un teléfono móvil admite la interacción 6DOF en ambos integrales (control de posición isotónico
3.2. TELÉFONO MÓVIL A
Figura 3.5: Seleccionar y manipular varios vértices para deformar una malla poligonal. Los vértices seleccionados
se bloquean en el teléfono y se manipulan mediante los movimientos del teléfono. Se selecciona un grupo de
vértices "pintándolos" y luego enmarcando uno de ellos con el cuadrado ubicado en el centro de la pantalla.
usando el movimiento del teléfono) y separable (control de velocidad isométrica usando el joypad /
teclado), sería posible explorar la interacción 12DOF donde se usa la manipulación integral en la fase
balística de una tarea de acoplamiento y se usa un ajuste fino separable en el cierre. fase en bucle [Frö05].
3.2.4 Selección local

La selección de vértices individuales es esencial para editar una malla donde se cambia la geometría, pero la
posición general en el espacio sigue siendo la misma. El desafío es discriminar entre una gran cantidad de
vértices, que también se proyectan densamente en el espacio de la pantalla. Esto se logra asignando un vector de
color para cada vértice en función de su ID. El uso de un vector de color RGBA de 32 bits permite la
discriminación entre232 - 1 vértices. A partir de una muestra de píxeles, se puede recuperar el ID y seleccionar el
vértice correspondiente. Los vértices de colores individuales solo se renderizan cuando se presiona el botón de
selección y se superponen con vértices uniformes en la imagen final.
Para vértices distantes, es difícil utilizar una muestra de un solo píxel para la selección. El jitter de
seguimiento combinado con pequeños movimientos involuntarios dificulta la colocación de la cruz filar sobre un
vértice en particular. Para superar esto, la retícula se reemplazó por un cuadrado dentro del cual se hicieron
cinco muestras de píxeles. El punto de muestreo central se clasifica más alto y, por lo tanto, se puede evitar la
selección involuntaria de dos vértices. Selección de múltiples vértices como se muestra en la Figura3,5 Se realiza
entrando en un modo de selección múltiple y luego "pintando" los vértices a seleccionar usando el teléfono a
modo de pincel. Para obtener más detalles, consulte el documento.V.
3.2.5 Deformación
Para deformar una malla, los vértices seleccionados se pueden manipular como objetos, utilizando las técnicas de
manipulación de objetos descritas anteriormente. PapelV describe la primera aplicación de teléfono móvil que permite a
un usuario manipular vértices individuales en una malla poligonal. Aquí se genera una cuadrícula de tamaño arbitrario
procedimentalmente, teniendo cada vértice un ID único mapeado a un vector de color RGBA para la seleccionabilidad
local como se describió anteriormente.
Cuando se selecciona, un vértice se fija en el espacio de la cámara del teléfono, listo para su
manipulación utilizando la técnica de control de posición isomórfica (Figura 3.5). En cada actualización de
la trama, las posiciones de los vértices se utilizan para sintetizar la malla triangular y calcular sus vectores
normales. Para evitar esquinas afiladas, la malla se suaviza distribuyendo las traslaciones a los vértices
vecinos. Un grupo de vértices seleccionados se puede manipular con 6DOF sin alterar su relación espacial.
Esto es útil cuando se deben desplazar varios vértices en la misma cantidad. La selección de varios
vértices se realiza como se describe en la subsección anterior, es decir, "pintándolos".
Si bien tiene poco sentido realizar la edición de malla 3D en un teléfono, tal tarea plantea desafíos interesantes y
podría constituir un futuro banco de pruebas para las técnicas de interacción 3D. A partir de las pruebas, quedó claro que
la edición de mallas es una tarea más compleja que el montaje de escenas y es probable que la investigación sobre la
edición de mallas de teléfonos móviles utilizando AR beneficie las acciones atómicas generales, como la selección local.
3.2.6 Aspectos de usabilidad
Hay aspectos fundamentales de usabilidad que son de interés para todos los dispositivos de interacción 6DOF.
Aquí se discutirá cómo algunos de ellos resultan en un contexto de AR de teléfono móvil basado en experiencias
de la investigación sobre la interacción.
Zhai [Zha98] enumera seis aspectos de la usabilidad de un dispositivo de entrada 6DOF:
• Velocidad
• Fatiga
• Precisión
• Coordinación
• Facilidad de aprendizaje
• Persistencia y adquisición de dispositivos
Un teléfono móvil rastreado con entrada basada en movimiento puede funcionar tan rápido como el usuario puede
mover el dispositivo. Si se requiere una mayor velocidad, por ejemplo, para un espacio de trabajo más grande, se pueden
implementar y adaptar técnicas de interacción de control de velocidad para producir transformaciones de alta velocidad.
Esto se puede lograr aumentando cada incremento y / o usando aceleración.
La fatiga es un problema para la mayoría de los dispositivos isotónicos, incluido el teléfono móvil. Con
modelos más pequeños y ligeros, la fatiga se reduce pero no se elimina. Se pueden adoptar estrategias como
congelar el fondo y, por lo tanto, desacoplar la manipulación y la navegación, como se discutió en la Sección
3.4.2. Esto hace posible usar la entrada isotónica para navegar y congelar una escena, luego asumir una posición
de baja fatiga para la manipulación usando, por ejemplo, la entrada de un botón. La sección 3.4.3 describe otra
estrategia adecuada cuando los datos son solo 2D: aquí el dispositivo se coloca en una superficie horizontal y se
opera como un mouse 2D.
Al igual que con la velocidad, la precisión está limitada por las habilidades motoras humanas en una configuración isomórfica.
Además, el seguimiento de la inestabilidad afecta la precisión cuando el objeto que se va a manipular se bloquea en el teléfono y
luego se suelta, por lo que se proyecta desde el espacio de la cámara al espacio del marcador. Si se requiere una mayor precisión, la
entrada del teclado, por ejemplo, se puede escalar para producir incrementos suficientemente pequeños.
La coordinación se puede medir por la relación entre la trayectoria real y la más eficiente. Para maximizar la
coordinación, un dispositivo debe poder alterar todos los grados de libertad al mismo tiempo y al mismo ritmo. El
control de posición isotónico tiene una puntuación alta en la coordinación, mientras que otras técnicas de
entrada no son óptimas, ya que deben cambiar entre el modo de traducción y rotación o combinarse con otras
técnicas para ofrecer una interacción 6DOF completa. Sin embargo, esto se ve comprometido si el embrague es
necesario, lo que requiere que el dispositivo se mueva en una dirección opuesta a la trayectoria óptima. En tales
casos, la interacción isométrica podría proporcionar una mejor coordinación.
La persistencia del dispositivo es la medida en que el dispositivo permanece en posición cuando se suelta. Los
dispositivos de entrada 3D isotónicos tradicionales obtienen una puntuación baja en esto a menos que estén conectados
a tierra, tal vez con una armadura o suspendidos con cables. En el caso de un teléfono móvil rastreado, la pantalla es
parte del dispositivo de interacción y al congelar la escena, se puede obtener cierta persistencia temporal ya que la escena
permanece fija en relación con el teléfono hasta que se descongela.
No se ha estudiado explícitamente la facilidad de aprendizaje de las diferentes técnicas de interacción. En los
estudios de usuarios, se permitió a los sujetos practicar hasta que se familiarizaran con la técnica. Para ello había una
tarea práctica dedicada que los usuarios podían repetir. El tiempo dedicado a la práctica podría dar una pista sobre la
facilidad de aprendizaje. Este aspecto también está relacionado con la naturalidad del dispositivo.
De Aliakseyeu et al. [ASMR02], tenemos que la naturalidad de un dispositivo de interacción se puede estimar
comparándolo con cómo interactuamos con el mundo real. En general, un dispositivo cumple con el requisito de
naturalidad si las acciones atómicas proporcionadas por el dispositivo coinciden con las acciones atómicas
requeridas para realizar una tarea. Si el dispositivo no proporciona las acciones atómicas, por ejemplo, el
dispositivo requiere que el usuario cambie entre pares de DOF, se considera antinatural. Ellos [ASMR02] adoptan
cinco pautas de diseño para dispositivos de interacción natural:
• Se prefiere la interacción con dos manos a la interacción con una sola mano.
• La retroalimentación visual es importante para crear una sensación de conciencia espacial.
• El espacio de acción y percepción debe coincidir.
• Se debe preferir el uso mínimo de dispositivos intrusivos, como pantallas montadas en la cabeza.
• Se prefieren los accesorios inalámbricos a los cableados.
A partir de esto, se puede ver que un teléfono móvil con seguimiento de cámara que usa AR debería lograr
un alto nivel de naturalidad. Dado que solo se necesita una mano para operar el dispositivo, la otra mano se
puede usar para la interacción como se describe en las condiciones de interacción bimanual; por lo tanto, admite
la interacción a dos manos. Da retroalimentación visual y en un escenario AR, los espacios de acción y percepción
coinciden11. No se requieren otros dispositivos para la visualización o la interacción. Además, no requiere
cableado.
11Esto no es del todo cierto cuando el teclado se utiliza para la entrada, aunque el teclado y la pantalla están estrechamente acoplados.
46 CAPÍTULO 3. RE ALIDAD
Figura 3.6: Montaje de escena virtual usando movimiento de teléfono. Colocar una cruz y hacer clic en un botón
permitió a los usuarios seleccionar piezas y manipularlas en 3D mediante el movimiento del teléfono. Si las piezas
se colocaban lo suficientemente cerca, se alineaban y se unían entre sí.
3.2.7 Aplicación de ejemplo: AR LEGO

Para demostrar la interacción 6DOF, se implementó una aplicación virtual LEGO © simple (Figura
3.6). En esta aplicación, el usuario puede construir estructuras uniendo ladrillos LEGO © virtuales entre sí
en cualquier configuración que sea posible con la contraparte física. Los ladrillos virtuales forman
subestructuras cuando se unen entre sí. Estas subestructuras se pueden tratar como un grupo
seleccionando el ladrillo inferior.
Cuando se selecciona un ladrillo utilizando la mira, se separa del ladrillo de abajo y se puede mover
libremente (control de posición isomórfica). Si se adjuntan otros ladrillos directa o indirectamente al
ladrillo seleccionado, permanecerán fijos en el sistema de coordenadas local del ladrillo seleccionado.
Una vez que se libera el ladrillo, la aplicación verifica si la pieza liberada está posicionada dentro del
margen de error para ser adjuntada a otra pieza. Si es así, el ladrillo liberado y las piezas para las que es
una base se alinearán con el nuevo ladrillo base. Una cuadrícula restringe las transformaciones, lo que
facilita la colocación de una pieza sobre otra como se espera de la contraparte física.
La interfaz del teclado se utiliza en paralelo con la entrada basada en movimiento, con incrementos y decrementos de
transformación adaptados al tamaño del paso de la cuadrícula. El ladrillo seleccionado se gira 90 grados para cada actualización y la
traducción se realiza un paso de cuadrícula por actualización de cuadro. Después de cada actualización, se comprueba si hay
archivos adjuntos.
El teléfono proporciona retroalimentación háptica sobre eventos de desapego y apego al vibrar cuando los ladrillos
se unen o separan. No se ha implementado una detección continua de colisiones; de lo contrario, la vibración podría
usarse para indicar una colisión entre los ladrillos seleccionados y el resto de la escena. La retroalimentación de audio
también sería útil. La investigación sobre dicha retroalimentación multisensorial se presentará en la Sección3.3.1. Los
usuarios encontraron que la aplicación virtual LEGO © era fácil de usar una vez que se les informó sobre el punto de mira
y qué botón presionar para que una pieza seleccionada permaneciera fija en relación con el teléfono.
3.3. AR COLABORATIVO 47
Figura 3.7: Jugar al tenis AR. Los jugadores se sientan uno frente al otro con un juego de marcadores entre ellos. Estos
marcadores definen un espacio común en el que se simula la pelota y se ve a través de los teléfonos. Una raqueta virtual
se define para que coincida con el teléfono y, para golpear la pelota, un usuario coloca el teléfono de modo que la raqueta
virtual se cruce con la trayectoria de la pelota. Se proporciona retroalimentación multisensorial para indicar un golpe y los
datos de la pelota se envían a través de Bluetooth
3.3 RA colaborativo
El seguimiento de más de un dispositivo en el mismo marco de coordenadas permite la RA colaborativa en la que la
misma escena se ve desde diferentes ángulos y las actualizaciones del contenido virtual se transmiten a todos los
dispositivos participantes. Los desafíos de la investigación incluyen compartir datos de la escena e investigar los
beneficios potenciales del uso de AR.
3.3.1 AR Tenis
Papel I describe la primera aplicación de RA colaborativa en un teléfono móvil. Aquí se desarrolló un juego de
tenis para investigar la conciencia y la retroalimentación multisensorial. Se eligió el tenis porque se puede jugar
de manera competitiva o cooperativa, el conocimiento del otro jugador es útil, solo requiere gráficos simples y es
un juego con el que la mayoría de la gente está familiarizada. Cuando se juega al tenis, golpear la pelota es un
evento esencial que debe ser percibido por el jugador; por lo tanto, también es adecuado para estudiar
diferentes modalidades de retroalimentación.
La aplicación se basa en la plataforma presentada anteriormente. Además del seguimiento y los gráficos, se
desarrolló una capa peer-to-peer de Bluetooth para transferir datos del juego entre dos dispositivos. Las llamadas de la
API de Symbian para la retroalimentación de vibración se utilizaron junto con las capacidades de reproducción de sonido
para proporcionar diferentes configuraciones de retroalimentación para eventos como golpear la pelota o la pelota
rebotando en el suelo o golpeando la red.
Se simula una pelota de tenis virtual en el espacio del marcador donde una cancha de tenis con una red constituye la escena
compartida como se puede ver en la Figura 3,7. La interacción es 6DOF y se basa en una metáfora de la raqueta.
48 OBI GM
Figura 3.8: Configuración experimental. De izquierda a derecha: condición cara a cara; la imagen superior muestra
comentarios de video mientras que en la imagen inferior, el video está apagado; Condición no cara a cara donde los
jugadores están separados por un paño negro.
donde el propio teléfono se utiliza para golpear la pelota. Una raqueta virtual se define en el plano x, y del
sistema de coordenadas de la cámara, coincidiendo así con el propio teléfono. Si hay una colisión entre la pelota
y una raqueta, la dirección de la pelota se invierte y se envía al otro jugador junto con su posición, y se
proporciona retroalimentación multisensorial simultáneamente. El juego se sincroniza de esta manera cada vez
que se golpea o saca la pelota. El juego se ejecutó a aproximadamente 8 cuadros por segundo con seguimiento,
física, gráficos, audio, vibración y Bluetooth habilitados. Debido a este rendimiento de seguimiento bastante bajo,
la velocidad de la pelota no se ve afectada y, por lo tanto, solo se usa como entrada la posición y no la velocidad
del teléfono. Con un seguimiento considerablemente más rápido o el uso de acelerómetros, sería posible una
metáfora de la raqueta más precisa.
La RA es interesante para el trabajo colaborativo presencial porque permite que los colaboradores se
conozcan entre sí mientras interactúan con información generada por computadora. Se llevó a cabo un
experimento para ver si este también era el caso de la RA de teléfonos móviles. El estudio comparó tres
configuraciones diferentes (Figura3.8):
1. RA cara a cara
2. Cara a cara sin RA
3. Juegos no presenciales
En la primera configuración, los usuarios podían verse entre sí además de tener dispositivos de video
transparente, mientras que en la segunda configuración, solo se mostraban gráficos. La tercera configuración no
proporcionó información sobre las acciones del otro jugador además del estado del juego.
La tarea consistía en que un par de sujetos trabajaran juntos para lograr el mayor número de rebotes consecutivos
de pelota sobre la red durante tres minutos. Los resultados no mostraron diferencias estadísticamente significativas entre
las condiciones; sin embargo, los resultados de la encuesta por cuestionario mostraron diferencias significativas. Si bien
las configuraciones se percibieron como igualmente agradables, los usuarios sintieron que era mucho más fácil darse
cuenta de lo que estaba haciendo su compañero en la condición de AR cara a cara con el fondo de video en vivo que en las
otras dos condiciones que no tenían fondo de video . Un ranking
3.3. AR COLABORATIVO 49
de las tres condiciones en orden de lo fácil que era trabajar juntas mostró que casi todos los usuarios
preferían la condición AR. Estos resultados muestran que una interfaz AR realmente mejora la experiencia
de juego cara a cara en teléfonos móviles y confirman que AR aumenta la percepción de conciencia en
comparación con los no AR, aunque no parece aumentar el rendimiento real.
Con su pequeño campo de visión, un teléfono móvil solo puede proporcionar una respuesta visual limitada. Esto hace que sea
interesante investigar la retroalimentación complementaria, principalmente de audio y háptica. La retroalimentación de audio
consiste en un sonido de raqueta que se reproduce cuando se golpea o se sirve la pelota. El incorporado
La utilidad de vibración facilita la retroalimentación vibro-táctil para el mismo evento.
Se realizó un segundo estudio de usuarios para comparar las cuatro configuraciones multisensoriales
resultantes de habilitar y deshabilitar el audio y la háptica. La tarea fue como antes la de maximizar los rebotes
de la pelota durante un minuto. Una vez más, no se pudieron encontrar diferencias estadísticamente
significativas entre las condiciones para este enfoque cuantitativo. La retroalimentación cualitativa, por otro lado,
mostró que los usuarios sentían que eran más conscientes de cuándo ellos o su pareja habían golpeado la pelota
cuando se proporcionaba retroalimentación de audio y háptica. Se percibió que solo el audio era más importante
que solo el háptico. Esto se puede atribuir a que es una señal compartida, en lugar de hápticos, que solo puede
experimentar una persona. La retroalimentación multisensorial también hizo que el juego fuera mucho más
divertido. Una clasificación de las cuatro condiciones en orden de lo fácil que era trabajar en conjunto mostró que
casi todos los usuarios preferían la condición en la que se proporcionaba retroalimentación de audio y háptica.
Estos resultados muestran que los usuarios sienten que la salida multisensorial es importante en los juegos AR
cara a cara.
A partir de las observaciones, quedó claro que el seguimiento distaba mucho de ser perfecto; sin embargo, los usuarios
adaptaron su comportamiento para reducir los problemas de seguimiento, por ejemplo, limitando la rotación o moviendo el
teléfono muy rápido y luego manteniéndolo quieto durante algunos fotogramas. Este último comportamiento es adecuado para el
seguimiento basado en marcadores, que calcula la posición absoluta en contraste con los algoritmos de flujo de movimiento más
simples.
En los premios internacionales de juegos móviles 200512, AR Tennis ganó el Gran Premio y el premio al Mejor
Logro Técnico. También se ha mostrado en varias exposiciones de conferencias y museos de todo el mundo y ha
sido utilizado por miles de personas. Este éxito muestra que un juego de teléfono móvil que consta de solo unos
pocos polígonos puede ser muy divertido si se usa la entrada basada en movimiento en combinación con AR y
retroalimentación multisensorial. La entrada basada en movimiento permite utilizar metáforas familiares, en este
caso la metáfora de la raqueta, que puede resultar en un aprendizaje más rápido.
Una experiencia importante de exhibir AR Tennis es la fácil configuración de un espacio compartido, utilizando el
enfoque basado en marcadores adoptado en esta tesis. Basta con colocar un marcador de papel en una mesa bien
iluminada para establecer un sistema de coordenadas común. La realización de un juego similar con seguimiento basado
en características naturales requeriría que ambos dispositivos estuvieran de acuerdo al inicio sobre cómo se define el
espacio de la escena. Un entorno instrumentado sería mucho más caro y más lento de configurar.
12www.imgawards.com
50
Figura 3.9: Cuatro dispositivos visualizando y manipulando la misma escena. CMAR ViSION, un cliente de PC para
resultados de alta calidad en pantallas grandes. Un grupo colaborando en el amueblamiento de un apartamento.
3.3.2 CMAR: realidad aumentada móvil colaborativa
Si bien AR Tennis mostró la viabilidad de la AR colaborativa en teléfonos móviles, se restringió a dos

usuarios y la interacción se limitó a la entrada momentánea. CMAR, por otro lado, se desarrolló para
respaldar la colaboración entre hasta ocho participantes y con una interacción continua de 6DOF. El
propósito era demostrar y estudiar la colaboración entre varios dispositivos y con capacidades de
interacción 3D completas. El principal desafío de la investigación fue cómo compartir de manera eficiente
la representación de la escena entre dispositivos conectados a través de Bluetooth y propagar las
entradas del usuario 6DOF en tiempo real y sin pérdida de datos. Otro desafío fue indicar y administrar la
propiedad del objeto para evitar que dos participantes manipulen el mismo objeto.
CMAR se basa en un gráfico de escena compartido, lo que facilita la sincronización de datos de escena entre
dispositivos mediante el envío de actualizaciones a los nodos del gráfico de escena. Hay varios gráficos de escena
existentes para PC, pero estos se consideraron demasiado complejos para portarlos a teléfonos móviles. En su lugar, se
implementó un gráfico de escena ligero que utiliza funcionalidades de OpenGL ES. En una red CMAR, hasta ocho
participantes están conectados a través de Bluetooth, con un dispositivo que actúa como servidor, transmitiendo las
actualizaciones realizadas en el gráfico de escena. Cada nodo tiene una copia local del escenario gráfico y se compromete
con todas las actualizaciones recibidas. Las actualizaciones incluyeron eventos de rotación, traducción y selección y deben
estar visibles en todos los dispositivos conectados en tiempo real. Como solución para habilitar esto, se diseñó un
protocolo que contiene varios paquetes de actualización. Para indicar la propiedad de los objetos, a cada usuario se le
asignó un color y un objeto seleccionado por un usuario fue resaltado por un cuadro delimitador semitransparente de
este color. La selección se basó en el muestreo del valor alfa del píxel central, indicado por una cruz. Una vez
seleccionado, un objeto podría trasladarse usando el control de posición isotónico mientras que la entrada del teclado se
usaba para la rotación. La entrada realizada por un dispositivo se transmitió y se percibió en tiempo real en todos los
nodos. Para obtener más detalles, consulte el documento.VI.
La versión actual se basa en BoomslangBT13, una biblioteca de C ++ Bluetooth para dispositivos móviles.
Requiere que todos los dispositivos estén presentes en el inicio. Para futuras versiones de CMAR, sería
interesante agregar soporte para la unión tardía de dispositivos a una red establecida.
13boomslangstudios.com/NewSite/boomslangbt.htm
3.4. AR EN COMPUTACIÓN UBIQUITOSA 51
3.3.3 Aplicación de ejemplo: mobiliario colaborativo

Como ejemplo de la plataforma CMAR, se implementó una aplicación de mobiliario donde los usuarios pueden
colaborar para amueblar un apartamento (ver Figura 3.9). Se colocó una hoja de papel con el plano del
apartamento y un marcador sobre una mesa alrededor de la cual se sentaron los participantes. Se les
proporcionó un conjunto de muebles en 3D que se podían seleccionar, trasladar a lo largo del plano del suelo y
rotar alrededor del eje vertical.
Un cliente CMAR se ejecutó en una computadora portátil con un proyector DLP conectado. Este cliente de PC ejecutó
un gráfico de escena implementado en OpenGL y presentó objetos más detallados que los teléfonos. La ejecución de un
cliente en una PC restringió la cantidad de teléfonos participantes a siete. En la Sección 3.4.1 se proporcionan más detalles
sobre el uso de una PC como pantalla de grupo. Esta aplicación de ejemplo también sirvió como un caso de prueba para la
plataforma CMAR para obtener comentarios de los usuarios sobre sus estilos y funcionalidades de interacción. Una
evaluación cualitativa informal mostró que los usuarios pensaban que era fácil manipular objetos y colaborar con otros.
3.4 AR en Computación ubicua

No son solo los teléfonos móviles los que se han beneficiado de los avances en el diseño y la producción de productos
electrónicos. Los dispositivos conectados, como sensores y pantallas, se han vuelto cada vez más asequibles y están
integrados en nuestro entorno. Esta sección presenta una investigación en la que un teléfono móvil con capacidad AR
interactúa con un entorno instrumentado para la entrada y salida. Los principales desafíos incluyen la transferencia de
datos y la integración de dispositivos.
3.4.1 VISIÓN CMAR

La pantalla de un teléfono móvil suele tener solo un par de pulgadas de diámetro y el rendimiento de renderizado 3D está
lejos de lo que se puede lograr en una PC, a pesar de la introducción de las GPU. Por lo tanto, conectar un teléfono móvil a
una pantalla grande, como un televisor de plasma HD o un proyector, es una solución atractiva para proporcionar a varias
personas una vista de la escena 3D sin necesidad de que se acerquen mucho entre sí. Las capacidades de renderización
relativamente limitadas de los teléfonos también hacen que sea interesante explorar cómo los teléfonos pueden
aprovechar la salida visual superior de una PC.
Como se describió anteriormente, CMAR permite que un cliente se ejecute en una PC para su salida en una pantalla
grande. Una red con una PC, varios teléfonos móviles y una pantalla grande permite que los teléfonos móviles y las PC
desempeñen diferentes roles en una configuración colaborativa. Esto permite la realización de una configuración en la
que los teléfonos móviles actúan como pantallas personales para datos privados y como dispositivos de interacción,
mientras que una pantalla conectada a un cliente CMAR de PC, llamada CMAR ViSION, actúa como pantalla grupal que
visualiza la escena utilizando una representación de alta calidad pero sin AR. Los parámetros de la cámara virtual de CMAR
ViSION se pueden configurar de forma interactiva para especificar la vista de la escena. Aunque CMAR ViSION solo
permite que una persona interactúe con la vista de la cámara, todos los participantes pueden manipular y visualizar la
escena a través de sus teléfonos.
La salida en pantallas grandes conectadas a computadoras requiere que los datos se compartan entre nodos como
antes, y también requiere diferentes representaciones de objetos para administrar el gran rendimiento.
52 CHAPTE
Figura 3.10: Se realizó un concepto en el que se utiliza un teléfono móvil para visualizar datos de humedad
derivados de una red de sensores integrados colocando sensores en un marco de coordenadas de marcador.
Esto permitió registrar una imagen en vivo resultante con el elemento de interés.
diferencia entre un teléfono y una PC con GPU. La solución propuesta es que el cliente de PC comparte el mismo
escenario gráfico que los teléfonos móviles, pero actúa solo como receptor de datos. Los objetos 3D en la PC
tienen un mayor nivel de detalle para aprovechar las ventajas en el rendimiento de renderizado que ofrecen las
computadoras.
El propósito de esta investigación no fue considerar el teléfono móvil principalmente como un dispositivo de
interacción para pantallas grandes, como ya lo han hecho muchos otros, sino más bien ver si tal pantalla grupal era una
ventaja en una configuración de AR colaborativa. En la evaluación informal, con un proyector DLP, los usuarios se
mostraron positivos sobre la pantalla del grupo.
3.4.2 Visualización de datos del sensor

Al colocar sensores en el entorno, es posible obtener datos para sintetizar gráficos "en vivo". Si se utiliza AR, los gráficos
se pueden registrar con los elementos dentro de los cuales están incrustados los sensores. La disposición de los sensores
en una cuadrícula 2D admite un enfoque en el que los datos de los sensores individuales emergen como píxeles en una
imagen cuando se traducen en valores de color.
Papel VII presenta un sistema que fusiona AR portátil, redes de sensores y visualización científica,
proporcionando un nuevo enfoque para la inspección de los estados interiores dentro de los elementos (Figura
3.10). Los datos recopilados de una matriz de sensores inalámbricos integrados se utilizan para sintetizar
gráficos en tiempo real y la RA permite verlos en su contexto a través del teléfono. El desafío técnico es
obtener los datos y producir una representación gráfica para proporcionar una idea del estado interior
del elemento. El objetivo principal era evaluar este novedoso concepto e investigar qué técnicas de
visualización preferían los usuarios.
Los componentes principales de la configuración son una red de sensores de humedad habilitados para
ZigBee y un teléfono con cámara con capacidad de renderizado 3D. Estos teléfonos aún no están equipados con
tecnología ZigBee, por lo que se ha diseñado una solución de comunicación temporal, consistente en
3.4. AR EN UBI
Figura 3.11: Experimento de prueba de concepto usando una tetera humeante y un secador de pelo para afectar los sensores. De
izquierda a derecha: sensores, controlador y teléfono móvil; configuración experimental con pared de prueba, marcador y
computadora portátil; sensores afectados por un secador de pelo; visualización en tiempo real.
tanto ZigBee como Bluetooth combinados usando una computadora portátil como enrutador. Se eligió la humedad como propiedad
detectada porque es un problema importante para la industria de la construcción. El mantenimiento de edificios podría beneficiarse
potencialmente de las nuevas herramientas de inspección in situ, como el sistema propuesto.
Los sensores miden la humedad relativa en la ubicación del sensor, proporcionando datos escalares
de un conjunto discreto de puntos de medición coplanares en 3D. Se obtiene una representación
continua interpolando los valores de los puntos de medición. A continuación, los valores interpolados se
asignan a los valores de color RGBA correspondientes utilizando una función de transferencia para cada
canal. La textura codificada por colores resultante proporciona al usuario una visión general de la
humedad y su distribución. El canal alfa es necesario para hacer transparentes los píxeles redundantes y
permitir así al usuario ver el fondo.
Se llevó a cabo un experimento utilizando un Nokia 6680, una red de cuatro sensores de humedad habilitados para
ZigBee y una computadora portátil a la que se conectó una unidad coordinadora ZigBee a través de una interfaz USB. Los
sensores se colocaron en la parte posterior de una pared de prueba, formando una cuadrícula de dos por dos colocada en
el centro de la pared y ubicada en un sistema de coordenadas de marcador. Cuando se influyó en los sensores utilizando
una tetera humeante y un secador de pelo, la respuesta fue instantánea y el observador recibió una retroalimentación
visual inmediata en la visualización. Figura3.11 muestra los componentes y la configuración experimental.
El experimento demostró la posibilidad de sintetizar una imagen a partir de datos de sensores en vivo
y registrarla con el elemento en el que están incrustados los sensores. Además, muestra que los cambios
de estado del sensor pueden ser percibidos casi de inmediato por el usuario del sistema, tanto en
amplitud como en ubicación. El objetivo del experimento era explorar el concepto en lugar de realizar una
evaluación formal del sistema.
Se implementaron y evaluaron varias técnicas de visualización y funciones de interfaz en un estudio

de usuario. Una de estas funciones permitió al usuario congelar la vista actual. Esta metáfora de la
instantánea permitió al usuario asumir una pose más natural al analizar los datos y a todos los
participantes les resultó más fácil interactuar con la visualización cuando estaban congelados. Este
resultado indica que congelar la vista es una función importante para reducir la fatiga en aplicaciones
donde el análisis de una escena es importante.
3.4.3 LUMAR
LightSense [Olw06] es una plataforma para el seguimiento de dispositivos de afuera hacia adentro en una superficie
semitransparente. Con una cámara montada en la parte posterior de la superficie, es posible ubicar la luz LED de un
teléfono móvil y rastrear los movimientos del teléfono en la superficie. En papelVIII, LightSense se ha combinado con la
plataforma AR presentada en esta tesis para formar una solución de seguimiento híbrida llamada LUMAR, donde la
cámara del teléfono móvil se utiliza para el seguimiento 3D egocéntrico sobre la superficie. Cuando el dispositivo se
coloca en la superficie y la capacidad de usar la cámara está desactivada, el sistema exocéntrico rastrea el dispositivo en
2D.
LUMAR permite al usuario navegar por un espacio de información de tres capas que consta de medios
impresos, multimedia 2D y gráficos interactivos 3D. Esta combinación es importante ya que los tres tipos de
medios tienen sus fortalezas individuales y juntos contribuyen a potenciar nuestra percepción humana. Este
beneficio de la fusión de espacios de información se ha demostrado previamente en proyectos como MagicBook
[BKP01] y Tangible Bits [IU97]. Los principales desafíos son fusionar las dos soluciones de seguimiento de la
manera más transparente posible y facilitar la transición entre los espacios de información. También debe haber
una metáfora de interacción consistente.
El sistema de seguimiento híbrido se realiza colocando marcadores en la superficie LightSense y cada vez
que se detecta un marcador, la aplicación cambia al modo 3D y se navega por el espacio de información 3D. Esto
funciona porque los marcadores no son detectables cuando el teléfono se coloca en la superficie y, por lo tanto,
no es posible una transición accidental al modo 3D. Sin embargo, el LED se puede detectar cuando se levanta el
teléfono, aunque no se pueden estimar las rotaciones. Habrá así
ser una costura entre los modos a menos que el teléfono se levante sin girar. Toda interacción es
basado en el movimiento del teléfono: en el modo 2D, el teléfono se utiliza como un cursor tangible en el espacio de
información físico que representa la impresión (de esta manera, se puede navegar por los archivos multimedia 2D
registrados con la impresión); levantando el dispositivo, el usuario pasa al modo 3D donde el seguimiento pasa a una
interacción 6DOF isomórfica completa.
El escenario general de la aplicación LUMAR consiste en una impresión de alta resolución que brinda una
descripción general de fácil navegación y garantiza que se conserve la tangibilidad de los medios y su posible uso
como una pantalla tradicional. Las capas de información 2D subsiguientes son digitales y se visualizan colocando
el teléfono en la superficie de la impresión. Pueden ser continuos, proporcionando una mayor densidad de
información que la impresión para la misma región de interés, o pueden segmentarse en áreas, cada una
asociada con varios tipos de multimedia 2D, como videos o páginas web. La capa de información 3D sirve como
un aumento de la impresión o una capa 2D continua. Por tanto, existe una estrecha relación espacial entre la
información 2D y 3D. El teléfono actúa como un espejo que magnifica el contenido de la información.
3.4.4 Aplicación de ejemplo: exploración interactiva de apartamentos
Como aplicación de ejemplo para el sistema LUMAR, se implementó un escenario de anuncio de apartamento
(Figura 3.12). Este caso de prueba utilizó un plano de apartamento e imágenes del interior obtenidas de un sitio
inmobiliario de Internet. Demuestra cómo se pueden combinar tres espacios de información, cada uno de los
espacios que contiene información valiosa, fusionando diferentes medios en una representación coherente.
3.4. AR EN UBI
Figura 3.12: LUMAR: Fusionando tres espacios de información. El material impreso (izquierda) se ve aumentado
por medios 2D (centro) y gráficos 3D (derecha). Mover el teléfono por la superficie carga imágenes relevantes y
levantarlo hace una transición al espacio 3D. Este ejemplo demuestra cómo tres medios diferentes, pero muy
relevantes, se pueden fusionar en un solo modelo de un apartamento, explorado usando solo el movimiento del
dispositivo.
Se colocó una impresión ampliada de un plano de apartamento en la mesa LightSense y se colocaron

cuatro marcadores de referencia en los espacios vacíos de la impresión, asegurándose de que no
ocultaran ningún detalle. Se asoció una fotografía con cada habitación y se construyó un modelo 3D del
apartamento basado en el plano y las imágenes. En este caso, no fue necesario ningún mapeo entre las
coordenadas LightSense y ARToolKit; las fotos se asociaron con áreas en coordenadas LightSense,
mientras que el modelo 3D se registró con la impresión 2D.
Dado que la API de la cámara no proporcionó suficiente control del flash incorporado, se adjuntó un LED
externo para el seguimiento 2D. Si coloca el teléfono sobre una habitación en la superficie, se cargará y mostrará
una imagen de la habitación. Cuando el teléfono se mueve por la superficie, las imágenes correspondientes se
cargan automáticamente. Cuando se levanta el teléfono y se enmarca un marcador, se superpone un modelo 3D
del apartamento en el plano impreso y se registra con él en 3D. El usuario ahora puede mover el teléfono
libremente para ver el modelo 3D desde una dirección arbitraria siempre que al menos un marcador sea
completamente visible. El registro facilita la identificación de qué objeto en el modelo 3D corresponde a una
cierta leyenda en el plano. Al volver a colocar el teléfono en la superficie, la aplicación cambia al modo 2D, tan
pronto como no se ve ningún marcador.
Capítulo 4
Conclusiones
Durante las últimas dos décadas, se han realizado importantes investigaciones sobre la realidad aumentada. La
rápida evolución de los teléfonos móviles con cámaras y capacidades de renderizado 3D ha hecho posible migrar
la tecnología AR a esta plataforma y realizar investigaciones sobre cómo aprovechar mejor sus capacidades. Esta
tesis ha contribuido significativamente a avanzar en el área de AR de teléfonos móviles al presentar
investigaciones en las siguientes áreas clave: seguimiento, interacción, aplicaciones colaborativas y aplicaciones
de Computación Ubicua. Esta investigación es un paso importante para hacer de los teléfonos móviles una
plataforma de RA disponible de forma generalizada en el futuro.
Resumen de contribuciones
Se realizaron las siguientes contribuciones clave a la investigación:
Seguimiento
Esta tesis describe cómo se llevó la tecnología de seguimiento 6DOF a los teléfonos móviles estándar. La plataforma
resultante presentada en la Sección 3.1 permitió el desarrollo de aplicaciones en las que se utilizan marcadores de papel
para registrar información real y virtual en tiempo real y en tres dimensiones, aplicaciones que pueden ejecutarse en
dispositivos comerciales estándar. Cabe señalar que el seguimiento de los marcadores fiduciales es solo una forma de
establecer la cámara y, por lo tanto, los parámetros de visualización y los conceptos presentados no se limitan a este
enfoque de seguimiento.
Interacción
Los teléfonos móviles tienen un factor de forma diferente al de los dispositivos tradicionales que se utilizan para la RA. Por
esta razón, es posible que las investigaciones anteriores sobre la interacción AR realizadas en configuraciones de mochila
o en PDA no se apliquen a la plataforma de teléfonos móviles. La sección 3.2 presentó una investigación sobre la
interacción 3D en la que el movimiento del dispositivo en sí era de particular interés debido a la tangibilidad de los
teléfonos móviles. Se implementó una amplia gama de técnicas que explotan el movimiento, el dedo y la entrada del
teclado. A partir de los estudios de usuarios, se puede concluir que el control de posición isomorfo, donde un objeto
manipulado sufre la misma transformación que la mano del usuario, era preferido cuando la tarea era
57
58 CAPÍTULO 4. CONCLUSIONES
traducir objetos. En el caso de la rotación, ambos estudios de usuarios demostraron que el control de frecuencia
isométrica, es decir, el mapeo de la entrada del joystick y el botón a las rotaciones, era la técnica de interacción preferida.
La interacción de gestos con la cámara frontal resultó ser compleja y limitada por el rango de seguimiento y el
rendimiento. Aunque estos estudios se centran en la RA, sus contribuciones no se limitan a esta interfaz. Los
desarrolladores también pueden utilizar estos resultados para aplicaciones 3D de teléfonos móviles generales que
requieren interacción 3D, aunque debe tenerse en cuenta que siempre existe un compromiso entre la aplicabilidad
general de los resultados y el realismo de la prueba.
Aplicaciones colaborativas
La investigación sobre la RA colaborativa cara a cara se presentó en la Sección 3.3. Se desarrolló un juego
de tenis para estudiar la conciencia de los usuarios en un entorno colaborativo. Los resultados de un
estudio de usuarios mostraron que la interfaz AR aumentó la conciencia de los socios en comparación con
una interfaz que no es AR. Otros resultados mostraron que la retroalimentación multisensorial también
aumentó la conciencia, siendo las señales de audio las más importantes. Este juego destaca aún más las
fortalezas del seguimiento basado en marcadores debido a los requisitos de configuración simples para
configurar un espacio compartido. El juego utilizó una metáfora de interacción única basada en objetos
en la que el teléfono se usaba como raqueta. Para la interacción continua entre hasta ocho participantes,
CMAR se desarrolló sobre la base de un gráfico de escena compartido y un protocolo personalizado.
Aplicaciones informáticas ubicuas

Otra área de investigación identificada como importante fue estudiar la RA de teléfonos móviles en un entorno instrumentado como
se describe en la Sección 3.4. Los sensores proporcionaron datos en tiempo real a partir de los cuales se sintetizaron y registraron
imágenes en vivo con un elemento físico. Un experimento mostró que el cambio en la salida del sensor se podía percibir
directamente en el dispositivo. Los resultados del estudio de los usuarios y los comentarios indicaron que se trataba de una
herramienta conceptual viable para la inspección in situ. La extensión de LightSense con seguimiento de marcadores dio como
resultado un espacio de información de tres capas donde se usaba un teléfono móvil para navegar por multimedia 2D y navegar por
escenas 3D. El movimiento solo se utiliza para la entrada.
Investigación futura
Si bien la plataforma presentada en esta tesis se ha utilizado con éxito para varios experimentos y aplicaciones, aún se
necesita más investigación sobre la tecnología central. El seguimiento es la tecnología habilitadora clave para AR y, en
consecuencia, uno de los temas de investigación más candentes. Muchas estrategias han mostrado resultados
prometedores, pero ningún enfoque único se adapta a todas las situaciones. El enfoque basado en marcadores adoptado
en esta tesis tiene sus limitaciones: los marcadores deben colocarse en el entorno y deben ser visibles en todo momento.
Por otro lado, es muy fácil imprimir un marcador y usarlo como un marco de referencia común, como se demuestra en la
Sección 3.3. El seguimiento de marcadores deberá contar con la ayuda de otras tecnologías para ampliar el alcance y el
rendimiento. SLAM de cámara única1 utiliza características detectadas para rastrear la cámara a través del espacio
mientras crea simultáneamente un mapa 3D del entorno.
1 Localización y mapeo simultáneos

59
Iniciado por el seguimiento de marcadores, SLAM podría usarse para ampliar el rango de seguimiento y también resolver un
problema importante: la oclusión de imágenes virtuales por objetos reales. Los sensores como los acelerómetros y los giroscopios
se están abriendo camino constantemente en los teléfonos móviles. Dichos sensores podrían usarse para estabilizar el seguimiento
de marcadores y reducir las demandas computacionales planteadas por los algoritmos de visión por computadora.
Para la RA de teléfonos móviles al aire libre, el seguimiento de marcadores no es una opción debido a entornos no preparados
y al uso de áreas amplias. Los instrumentos como GPS y giroscopios son necesarios pero aún no suficientes. Si bien muchos
teléfonos móviles tienen antenas GPS, muchos menos tienen giroscopios. El seguimiento óptico basado en modelos podría
proporcionar una herramienta útil para el seguimiento de RA de teléfonos móviles al aire libre. Este enfoque hace coincidir las
características de video con los modelos CAD para calcular la pose de la cámara. Con la aparición de navegadores terrestres como
Google Earth, cada vez más nuestro paisaje urbano tiene equivalentes digitales en 3D. Estos pueden usarse para el seguimiento
basado en modelos a gran escala.
La recuperación de información es otro gran desafío. El contenido de RA a menudo se hace a medida para una
aplicación específica. Sin embargo, para que la RA sea una herramienta útil, la información debe obtenerse de colecciones
significativamente más grandes; en última instancia, toda Internet. La información debe obtenerse en función de la vista
del usuario y convertirse en representaciones gráficas con una ubicación específica en coordenadas geoespaciales. Hasta
ahora, se ha dedicado poca investigación a esto, ya que las aplicaciones de recuperación de información conscientes del
contexto rara vez usan interfaces AR.
La creación de contenido en AR es un desafío porque para registrar contenido virtual en el mundo físico, el
creador de contenido debe tener un conocimiento detallado sobre el entorno físico del consumidor. Es necesario
realizar investigaciones para resolver este problema fundamental. Un enfoque consistirá en utilizar navegadores
terrestres para obtener los conocimientos necesarios. A continuación, se puede utilizar un equivalente digital del
mundo real para el registro, eliminando la necesidad de un desarrollo in situ. El trabajo sobre esto ha comenzado
[HA07], pero no se consideró lo suficientemente maduro para incluirlo en esta tesis.
Todos los desafíos de investigación anteriores se aplican a la RA en general, lo que indica que esta área de
investigación todavía está luchando con tecnologías habilitadoras clave. Mirando específicamente a los teléfonos
móviles, hay varias áreas que deben abordarse, entre ellas: el espacio limitado de la pantalla, la necesidad de
más estudios de evaluación, metáforas de interacción, interacción en espacios de trabajo grandes, etc. Con el
zoom ajustable sería interesante estudiar la relación entre software campo de visión (FOV) y FOV físico. La cámara
frontal permite rastrear la cabeza en relación con el dispositivo. Esto podría aprovecharse para optimizar la
experiencia de RA. Se ha realizado un trabajo importante sobre la percepción humana y la cognición en AR en
configuraciones HMD, pero también debe realizarse para plataformas AR portátiles para obtener más
información sobre los factores humanos en esta plataforma.
Es necesario realizar más investigaciones sobre la interacción, optimizando las técnicas de interacción existentes e
inventando otras nuevas. Se deben probar las posibles combinaciones de técnicas de posicionamiento y rotación para
identificar la mejor técnica de interacción para las tareas de 6DOF. También se debe estudiar la interacción 12DOF, donde
dos conjuntos de técnicas de interacción 6DOF admiten entradas integrales y separables respectivamente, para explorar
más a fondo el potencial del teléfono móvil como dispositivo de entrada 3D.
Es difícil hacer predicciones, especialmente sobre el futuro. Pero probablemente solo hemos visto el
comienzo de la revolución de la telefonía móvil. Los teléfonos móviles de vanguardia se están expandiendo a
territorios informáticos tradicionales y también a nuevas áreas donde la movilidad y la tangibilidad son
esenciales. Con su gran potencial, la RA puede muy bien ser una de estas áreas y, con el mayor respaldo de la
industria, surgirán nuevas tecnologías y servicios que deberán explorarse.
60 CAPÍTULO 4. CONCLUSIONES
Bibliografía
[AB94] Ronald Azuma y Gary Bishop. Mejora del registro estático y dinámico en un hmd
óptico transparente. EnActas de la 21a conferencia anual sobre gráficos por
computadora y técnicas interactivas (SIGGRAPH'94), páginas 197–204, 1994.
[ABD04] Daniel F. Abawi, Joachim Bienwald y Ralf Dorner. Precisión en el seguimiento óptico
con marcadores fiduciales: una función de precisión para artoolkit. EnActas del Tercer
Simposio Internacional IEEE y ACM sobre Realidad Mixta y Aumentada (ISMAR'04),
páginas 260–261, 2004.
[ACCH03] Mark Assad, David J. Carmichael, Daniel Cutting y Adam Hudson. Ar phone:
Realidad aumentada accesible en el entorno inteligente. EnActas de la
Conferencia de Interacción Humana Computadora de Australia 2003 (OZCHI'03),
páginas 232–235, 2003.
[ASMR02] Dzmitry Aliakseyeu, Sriram Subramanian, Jean-Bernard Martens y Matthias

Rauterberg. Técnicas de interacción para la navegación y manipulación de
datos 2d y 3d. EnActas del taller sobre entornos virtuales 2002 (EGVE'02),
páginas 179–188, 2002.
[Azu97] Ronald T. Azuma. Una encuesta de realidad aumentada.Presencia: Teleoperadores y

entornos virtuales, 6 (4): 355–385, 1997.
[BBRS06] Rafael Ballagas, Jan Borchers, Michael Rohs y Jennifer G. Sheridan. El teléfono inteligente: un
dispositivo de entrada omnipresente.Computación generalizada IEEE, 5 (1): 70–77, 2006.
[BE06] Oliver Bimber y Andreas Emmerling. Proyección multifocal: una técnica de multiproyector
para aumentar la profundidad focal.Transacciones IEEE sobre visualización y gráficos por
computadora, 12 (4): 658–667, 2006.
[BFO92] Michael Bajura, Henry Fuchs y Ryutarou Ohbuchi. Fusionar objetos virtuales con el
mundo real: ver imágenes de ultrasonido dentro del paciente.Gráficos por
computadora ACM SIGGRAPH, 26 (2): 203–210, 1992.
[BGH02] Doug A. Bowman, Joseph L. Gabbard y Deborah Hix. Una encuesta de evaluación de
la usabilidad en entornos virtuales: clasificación y comparación de métodos.
Presencia: Teleoperadores y entornos virtuales, 11 (4): 404–424, 2002.
61
62 BIBLIOGRAFÍA
[BGW+02] Oliver Bimber, Stephen M. Gatesy, Lawrence M. Witmer, Ramesh Raskar y L. Miguel
Encarnação. Fusionando especímenes fósiles con información generada por
computadora.Computadora IEEE, 35 (9): 25-30, 2002.
[BKLP04] Doug Bowman, Ernst Kruijff, Jr. Joseph J. LaViola e Ivan Poupyrev. Interfaces de
usuario 3D: teoría y práctica. Addison-Wesley, 2004.
[BKP01] Mark Billinghurst, Hirkazu Kato e Ivan Poupyrev. El libro mágico: se mueve sin
problemas entre la realidad y la virtualidad.Aplicaciones y gráficos informáticos IEEE,
21 (3): 6–8, 2001.
[BN95] Michael Bajura y Ulrich Neumann. Corrección de registro dinámico en

sistemas de realidad aumentada. EnActas del Simposio Internacional Anual de
Realidad Virtual (VRAIS'95), páginas 189–196, 1995.
[BRS05] Rafael Ballagas, Michael Rohs y Jennifer G. Sheridan. Barrer, apuntar y disparar:
interacciones basadas en phonecam para grandes pantallas públicas. EnCHI '05 resúmenes
ampliados sobre factores humanos en sistemas informáticos, páginas 1200–1203, 2005.
[BSP+93] Eric A. Bier, Maureen C. Stone, Ken Pier, William Buxton y Tony D. DeRose. Cristales de
herramientas y lentes mágicos: la interfaz transparente. EnActas de la 20a
conferencia anual sobre gráficos por computadora y técnicas interactivas (SIGGRAPH
'93), páginas 73–80, 1993.
[CM92] TP Caudell y DW Mizell. Realidad aumentada: una aplicación de la tecnología de

visualización frontal a los procesos de fabricación manual. EnActas de la XXV
Conferencia Internacional de Ciencias de Sistemas de Hawái, páginas 659–669, 1992.
[CWG+03] Adrian David Cheok, Fong Siew Wan, Kok Hwee Goh, Xubo Yang, Wei Liu y Farzam
Farbiz. Human pacman: un sistema de entretenimiento móvil basado en sensores con
computación ubicua e interacción tangible. EnActas del segundo taller sobre soporte
de redes y sistemas para juegos (NETGAMES'03), páginas 106-117, 2003.
[DA05] Stephan Drab y Nicole M. Artner. Detección de movimiento como técnica de

interacción para juegos y aplicaciones en dispositivos móviles. EnTaller de Actas de
Pervasive Mobile Interaction Devices (PERMID 2005) en el Pervasive 2005, páginas 52–
55, 2005.
[EBM+97] SR Ellis, F. Breant, B. Manges, R. Jacoby y BD Adelstein. Factores que influyen en la interacción del
operador con los objetos virtuales vistos a través de pantallas transparentes montadas en la
cabeza: condiciones de visualización y latencia de renderizado. EnActas del Simposio Internacional
Anual de Realidad Virtual de 1997 (VRAIS'97), páginas 138-145, 1997.
[EHLO07] Eva Eriksson, Thomas Riisgaard Hansen y Andreas Lykke-Olesen. Recuperar el espacio
público: diseñar para la interacción pública con dispositivos privados. EnActas de la 1a
conferencia internacional sobre interacción tangible e integrada (TEI'07), páginas 31–
38, 2007.
BIBLIOGRAFÍA 63
[FGH+00] Kenneth P. Fishkin, Anuj Gujar, Beverly L. Harrison, Thomas P. Moran y Roy Want.
Interfaces de usuario incorporadas para una manipulación realmente directa.
Comunicaciones de la ACM, 43 (9): 74–80, 2000.
[FHSH06] Bernd Fröhlich, Jan Hochstrate, Verena Skuk y Anke Huckauf. El pez globo y el ratón
globo: dos nuevos dispositivos de entrada de seis grados de libertad para
aplicaciones gráficas. EnActas de la conferencia SIGCHI sobre factores humanos en
sistemas informáticos (CHI'06), páginas 191–199, 2006.
[Fit93] George W. Fitzmaurice. Espacios de información situados y ordenadores de bolsillo con

conciencia espacial.Comunicaciones de la ACM, 36 (7): 39–49, 1993.
[FMHW97] Steven Feiner, Blair MacIntyre, Tobias Höllerer y Anthony Webster. Una gira
machine: Prototipado de sistemas de realidad aumentada móviles 3D para explorar el
entorno urbano. EnActas del 1er Simposio Internacional IEEE sobre Computadoras
Portátiles (ISWC'97), páginas 74–81, 1997.
[FMS93] Steven Feiner, Blair Macintyre y Dorée Seligmann. Realidad aumentada basada en el
conocimiento.Comunicaciones de la ACM, 36 (7): 53–62, 1993.
[FP00] Bernd Fröhlich y John Plate. El ratón cúbico: un nuevo dispositivo para la entrada
tridimensional. EnActas de la conferencia SIGCHI sobre factores humanos en
sistemas informáticos (CHI'00), páginas 526–531, 2000.
[Frö05] Bernd Fröhlich. La búsqueda de dispositivos de entrada 3D intuitivos. EnHCI Internacional

2005.
[GKRS01] Christian Geiger, Bernd Kleinnjohann, Christian Reimann y Dirk Stichling. Ar4all
móvil. EnActas del Simposio Internacional IEEE y ACM sobre Realidad
Aumentada (ISAR'01), páginas 181–182, 2001.
[HA07] Anders Henrysson y Miroslav Andel. Tierra aumentada: hacia la mensajería ar

ubicua. EnICAT'07 (Para aparecer)2007.
[Han97] Chris Hand. Un estudio de las técnicas de interacción 3D.Foro de gráficos por computadora, 16
(5): 269-281, 1997.
[HELO05] Thomas Riisgaard Hansen, Eva Eriksson y Andreas Lykke-Olesen. Espacio de interacción mixta:
diseño para la interacción basada en cámaras con dispositivos móviles. EnCHI '05 resúmenes
ampliados sobre factores humanos en sistemas informáticos, páginas 1933–1936, 2005.
[HELO06] Thomas Riisgaard Hansen, Eva Eriksson y Andreas Lykke-Olesen. Usa tu cabeza: explora el
seguimiento facial para la interacción móvil. EnCHI '06 resúmenes ampliados sobre
factores humanos en los sistemas informáticos, páginas 845–850, 2006.
64 BIBLIOGRAFÍA
[HFG+98] Beverly L. Harrison, Kenneth P. Fishkin, Anuj Gujar, Carlos Mochon y Roy Want. ¡Aprietame,
abrázame, incliname! una exploración de las interfaces de usuario manipuladoras. EnActas
de la conferencia SIGCHI sobre factores humanos en sistemas informáticos (CHI '98),
páginas 17-24, 1998.
[HFT+99] Tobias Höllerer, Steven Feiner, Tachio Terauchi, Gus Rashid y Drexel Hallaway. Explorando
marte: desarrollo de interfaces de usuario interiores y exteriores para un sistema de
realidad aumentada móvil.Computadoras y Gráficos, 23 (6): 779–785, 1999.
[HJK06] Jane Hwang, Jaehoon Jung y Gerard Jounghyun Kim. Realidad virtual portátil: un
estudio de viabilidad. EnActas del simposio ACM sobre software y tecnología de
realidad virtual (VRST'06), páginas 356–363, 2006.
[HMSC05] Antonio Haro, Koichi Mori, Vidya Setlur y Tolga Capin. Visualización adaptativa basada
en cámara móvil. EnActas de la 4a conferencia internacional sobre multimedia móvil y
ubicua (MUM'05), páginas 78–83, 2005.
[HO04] Anders Henrysson y Mark Ollila. Umar: realidad aumentada móvil ubicua. En
Actas de la 3a conferencia internacional sobre multimedia móvil y ubicua
(MUM'04), páginas 41–45, 2004.
[HPG05] Martin Hachet, Joachim Pouderoux y Pascal Guitton. Una interfaz basada en cámara
para la interacción con computadoras portátiles. EnActas del simposio de 2005 sobre
gráficos y juegos interactivos en 3D (I3D'05), páginas 65–72, 2005.
[HPSH00] Ken Hinckley, Jeff Pierce, Mike Sinclair y Eric Horvitz. Técnicas de detección para la
interacción móvil. EnActas del 13 ° simposio anual de ACM sobre software y
tecnología de interfaz de usuario (UIST'00), páginas 91–100, 2000.
[HSH05] Jari Hannuksela, Pekka Sangi y Janne Heikkila. Un enfoque basado en la visión para controlar las
interfaces de usuario de los dispositivos móviles. EnActas de la Conferencia de la Sociedad de
Computación IEEE 2005 sobre Visión por Computadora y Reconocimiento de Patrones (CVPR'05) -
Talleres, página 71, 2005.
[HTP+97] Ken Hinckley, Joe Tullio, Randy F. Pausch, Dennis Proffitt y Neal F. Kassell. Análisis de
usabilidad de técnicas de rotación 3D. EnSimposio ACM sobre software y tecnología
de interfaz de usuario (UIST'97), páginas 1 a 10, 1997.
[HW05] Mika Hakkarainen y Charles Woodward. Symball: tenis de mesa con cámara para teléfonos
móviles. EnActas de la Conferencia Internacional ACM SIGCHI de 2005 sobre los avances en
la tecnología del entretenimiento informático (ACE '05), páginas 391– 392, 2005.
[IG05] J. Edward Swan II y Joseph L. Gabbard. Encuesta de experimentación basada en usuarios en

realidad aumentada. EnActas de la Primera Conferencia Internacional sobre Realidad
Virtual, HCI International 20052005.
BIBLIOGRAFÍA sesenta y cinco
[IU97] Hiroshi Ishii y Brygg Ullmer. Bits tangibles: hacia interfaces perfectas entre personas,
bits y átomos. EnActas de la conferencia SIGCHI sobre factores humanos en sistemas
informáticos (CHI '97), páginas 234–241, 1997.
[Jr.03] Joseph J. LaViola Jr. Un experimento que compara el suavizado exponencial doble y los algoritmos
de seguimiento predictivo basados en filtros de kalman. En Actas del IEEE
Realidad virtual 2003 (VR'03), páginas 283–284, 2003.
[JSMJ94] Robert JK Jacob, Linda E. Sibert, Daniel C. McFarlane y M. Preston Mullen Jr. Integralidad y
separabilidad de los dispositivos de entrada. Transacciones ACM sobre la interacción
computadora-humano, 1 (1): 3-26, 1994.
[KB99] Hirokazu Kato y Mark Billinghurst. Seguimiento de marcadores y calibración de hmd para
un sistema de conferencias de realidad aumentada basado en video. EnActas del segundo
taller internacional de IEEE y ACM sobre realidad aumentada (IWAR'99), páginas 85–94,
1999.
[KBP+00] Hirkazu Kato, Mark Billinghurst, Ivan Poupyrev, K. Imamoto y K. Tachibana.

Manipulación de objetos virtuales en un entorno ar de mesa. EnActas del Simposio
Internacional sobre Realidad Aumentada (ISAR'00), páginas 111-119, 2000.
[KM03] Rob Kooper y Blair MacIntyre. Navegar por la red del mundo real: mantener el
conocimiento de la información virtual en un espacio de información de AR.Revista
internacional de interacción humano-computadora, 16 (3): 425–446, 2003.
[LB07] T. Langlotz y Oliver Bimber. Códigos de barras 4d no sincronizados. EnSimposio

Internacional de Computación Visual, 2007 (Para aparecer)2007.
[LBK04] Gun A. Lee, Mark Billinghurst y Gerard Jounghyun Kim. Métodos de interacción
basados en oclusión para entornos de realidad aumentada tangible. EnActas de la
conferencia internacional 2004 ACM SIGGRAPH sobre el continuo de la realidad
virtual y sus aplicaciones en la industria (VRCAI'04), páginas 419–426, 2004.
[LDL06] Xu Liu, David Doermann y Huiping Li. Imágenes como canal de datos alternativo para
teléfonos con cámara. EnActas de la 5a conferencia internacional sobre multimedia
móvil y ubicua (MUM'06), página 5, 2006.
[Min95] Mark R. Mine. Técnicas de interacción del entorno virtual. Informe técnico,
Universidad de Carolina del Norte en Chapel Hill, Chapel Hill, NC, EE. UU., 1995.
[MK94] Paul Milgram y Fumio Kishino. Una taxonomía de presentaciones visuales de realidad
mixta.Transacciones IEICE en sistemas de información, E77-D (12): 1321-1329, 1994.
[MKBP02] D. Mogilev, K. Kiyokawa, M. Billinghurst y J. Pair. Ar pad: una interfaz para la colaboración ar
cara a cara. EnResúmenes ampliados de CHI '02 sobre factores humanos en los sistemas
informáticos, páginas 654–655, 2002.
66 BIBLIOGRAFÍA
[MLB04] Mathias Möhring, Christian Lessig y Oliver Bimber. Video ar transparente en teléfonos
móviles de consumidores. EnActas del Tercer Simposio Internacional IEEE y ACM
sobre Realidad Mixta y Aumentada (ISMAR'04), páginas 252–253, 2004.
[MSSU04] Anil Madhavapeddy, David Scott, Richard Sharp y Eben Upton. Uso de teléfonos con cámara
para mejorar la interacción persona-computadora. EnSexta Conferencia Internacional
sobre Computación Ubicua (Actas adjuntas: Demos)2004.
[NIH01] Joseph Newman, David Ingram y Andy Hopper. Realidad aumentada en un

entorno sensible de área amplia. EnActas del Simposio Internacional IEEE y ACM
sobre Realidad Aumentada (ISAR'01), páginas 77–86, 2001.
[Olw06] Alex Olwal. Lightsense: habilitación de dispositivos de interacción portátiles con

reconocimiento espacial. EnActas del Quinto Simposio Internacional IEEE / ACM sobre
Realidad Mixta y Aumentada (ISMAR'06), páginas 119–122, 2006.
[PRS04] Volker Paelke, Christian Reimann y Dirk Stichling. Menús Kick-up. EnCHI '04 resúmenes
ampliados sobre factores humanos en los sistemas informáticos, páginas 1552-1552, 2004.
[PT02] Wayne Piekarski y Bruce H. Thomas. Tinmith-hand: tecnología de interfaz de usuario

unificada para realidad aumentada móvil exterior y realidad virtual interior. EnActas
de la realidad virtual IEEE 2002 (VR'02), páginas 287–288, 2002.
[PW03] Wouter Pasman y Charles Woodward. Implementación de un sistema de

realidad aumentada en una pda. EnActas del 2do Simposio Internacional IEEE y
ACM sobre Realidad Mixta y Aumentada (ISMAR'03), páginas 276–277, 2003.
[RDB01] JP Rolland, L. Davis e Y. Baillot. Una encuesta sobre tecnología de seguimiento para
entornos virtuales, capítulo 3, páginas 67–112. Lawrence Erlbaum Associates, Inc., 2001.
[RE07] Michael Rohs y Georg Essl. Interacción basada en sensores para la navegación de
información en pantallas portátiles. EnActas de la Novena Conferencia Internacional sobre
Interacción Hombre Computadora con Dispositivos y Servicios Móviles (MobileHCI)2007.
[Rek95] Jun Rekimoto. El enfoque de la lupa para los sistemas de realidad aumentada. En
Actas de la Conferencia Internacional sobre Realidad Artificial y Teleexistencia '95 /
Conferencia sobre Software y Tecnología de Realidad Virtual '95 (ICAT / VRST'95),
páginas 123-132, 1995.
[Rek96a] Jun Rekimoto. Operaciones de inclinación para interfaces de pantalla pequeña. EnActas del
noveno simposio anual de ACM sobre software y tecnología de interfaz de usuario (UIST'96),
páginas 167–168, 1996.
BIBLIOGRAFÍA 67
[Rek96b] Jun Rekimoto. Transvision: un sistema de realidad aumentada portátil para colaborar
diseño orativo. Congreso Internacional de Sistemas Virtuales y Multimedia
(VSMM'96), páginas 85–90, 1996.
[Rek98] J. Rekimoto. Matriz: un método de identificación y registro de objetos en tiempo real para la
realidad aumentada. EnActas de la Tercera Interacción Humana y Computadora de Asia
Pacífico (APCHI '98), páginas 63–69, 1998.
[RG04] Michael Rohs y Beat Gfeller. Uso de teléfonos móviles equipados con cámara para
interactuar con objetos del mundo real, 2004.
[RN95] Jun Rekimoto y Katashi Nagao. El mundo a través de la computadora: interacción

aumentada por computadora con entornos del mundo real. EnActas del octavo
simposio anual de ACM sobre interfaz de usuario y tecnología de software (UIST '95),
páginas 29–36, 1995.
[Roh04] Michael Rohs. Interacción del mundo real con teléfonos con cámara. EnActas del segundo
simposio internacional sobre sistemas informáticos ubicuos (UCS 2004), número 3598 en
Lecture Notes in Computer Science (LNCS), páginas 74–89, 2004.
[RS00] Holger T. Regenbrecht y R. Specht. Un dispositivo móvil pasivo de realidad aumentada

- mpard. EnActas del Simposio Internacional IEEE y ACM sobre Realidad
Aumentada (ISAR'00), páginas 81–84, 2000.
[RS01] Gerhard Reitmayr y Dieter Schmalstieg. Realidad aumentada colaborativa móvil.

EnActas del Simposio Internacional IEEE y ACM sobre Realidad Aumentada
(ISAR'01), páginas 114-123, 2001.
[RZ05] Michael Rohs y Philipp Zweifel. Un marco conceptual para las técnicas de interacción
basadas en teléfonos con cámara. EnActas de la Tercera Conferencia Internacional sobre
Computación Pervasive (PERVASIVE 2005, número 3468 en Lecture Notes in Computer
Science (LNCS), páginas 171–189, 2005.
[Sch05] Dieter Schmalstieg. Técnicas de realidad aumentada en juegos. EnActas del

Cuarto Simposio Internacional IEEE y ACM sobre Realidad Mixta y Aumentada
(ISMAR '05), páginas 176–177, 2005.
[SD91] M. Slater y A. Davidson. Liberación de flatland: interacción 3D basada en el murciélago de

escritorio. EnEurographics '91, páginas 209–221, 1991.
[SFH+02] Dieter Schmalstieg, Anton Fuhrmann, Gerd Hesina, Zsolt Szalavári, L. Miguel
Encarnação, Michael Gervautz y Werner Purgathofer. El proyecto de realidad
aumentada studierstube.Presencia: Teleoperadores y entornos virtuales, 11 (1): 33–
54, 2002.
68 BIBLIOGRAFÍA
[SFSG96] Dieter Schmalstieg, Anton Fuhrmann, Zsolt Szalavári y Michael Gervautz.

Studierstube - realidad aumentada colaborativa. EnActas de entornos
virtuales colaborativos '96, 1996.
[SHC+96] Andrei State, Gentaro Hirota, David T. Chen, William F. Garrett y Mark A. Livingston.
Registro superior de realidad aumentada mediante la integración de seguimiento de
puntos de referencia y seguimiento magnético. EnActas de la 23a conferencia anual sobre
gráficos por computadora y técnicas interactivas (SIGGRAPH '96), páginas 429–438, 1996.
[Sho94] Ken Shoemake. Control de rotación de Arcball.Gemas gráficas IV, páginas 175–192, 1994.
[SI97] David Small e Hiroshi Ishii. Diseño de pantallas comprensibles con conciencia espacial. EnCHI '97
resúmenes extendidos sobre factores humanos en sistemas informáticos, páginas 367– 368,
1997.
[SI00] Sriram Subramanian y Wijnand IJsselsteijn. Relevamiento y clasificación de técnicas de

manipulación de objetos espaciales. EnActas de OZCHI 2000, Interfaz de la realidad en el
nuevo milenio, páginas 330–337, 2000.
[SLSP00] Thad Starner, Bastian Leibe, Brad Singletary y Jarrell Pair. Mind-warping: hacia la
creación de un juego de realidad aumentada colaborativo convincente. EnActas de la
5a conferencia internacional sobre interfaces de usuario inteligentes (IUI'00), páginas
256–259, 2000.
[SMR+97] Thad Starner, Steve Mann, Bradley J. Rhodes, Jeffrey Levine, Jennifer Healey, Dana
Kirsch, Rosalind W. Picard y Alex Pentland. Realidad aumentada a través de la
informática portátil.Presencia, 6 (4): 386–398, 1997.
[Stu92] David Joel Sturman. Entrada de toda la mano. Tesis de doctorado, Instituto Tecnológico de
Massachusetts, 1992.
[Sun01] Martin Sundin. Control de entrada de computadora elástica en seis grados de libertad.
Tesis doctoral, ETH Zürich, 2001. Diss. Nr. 14134.
[Sut68] Ivan E. Sutherland. Una pantalla tridimensional montada en la cabeza. EnActas de la Conferencia
Conjunta de Computación de Otoño de la AFIPS, páginas 757–764, 1968.
[TCD+00] Bruce H. Thomas, Benjamin Close, John Donoghue, John Squires, Phillip De Bondi,
Michael Morris y Wayne Piekarski. Arquake: una aplicación en primera persona de
realidad aumentada para exteriores / interiores. EnActas del Cuarto Simposio
Internacional sobre Computadoras Portátiles (ISWC'00), páginas 139-146, 2000.
[TDP+98] Bruce H. Thomas, Victor Demczuk, Wayne Piekarski, David Hepworth y Bernard K.
Gunther. Un sistema informático portátil con realidad aumentada para admitir la
navegación terrestre. EnActas del 2do Simposio Internacional de IEEE sobre
Computadoras Portátiles (ISWC'98), páginas 168–171, 1998.
BIBLIOGRAFÍA 69
[UK95] Michihiro Uenohara y Takeo Kanade. Registro de objetos basado en visión para superposición de
imágenes en tiempo real. EnActas de la Primera Conferencia Internacional sobre Visión por
Computador, Realidad Virtual y Robótica en Medicina (CVRMed '95), páginas 13–22, 1995.
[War90] Colin Ware. Uso de la posición de la mano para la colocación de objetos virtuales.La computadora
visual: Revista internacional de gráficos por computadora, 6 (5): 245-253, 1990.
[WB03] Daniel Wagner e Istvan Barakonyi. Aprendizaje de kanji de realidad aumentada.

EnActas del 2do Simposio Internacional IEEE y ACM sobre Realidad Mixta y
Aumentada (ISMAR'03), páginas 335–336, 2003.
[Wei91] Mark Weiser. La computadora del siglo XXI.Científico americano, 265 (3):
94-104, 1991.
[WMB03] Eric Woods, Paul Mason y Mark Billinghurst. Magicmouse: un ratón económico de 6
grados de libertad. EnActas de la 1a conferencia internacional sobre gráficos por
computadora y técnicas interactivas en Australasia y el sudeste asiático
(GRAPHITE'03), páginas 285–286, 2003.
[WPLS05] Daniel Wagner, Thomas Pintaric, Florian Ledermann y Dieter Schmalstieg. Hacia una
realidad aumentada masivamente multiusuario en dispositivos portátiles. EnActas de la
Tercera Conferencia Internacional sobre Computación Pervasive (Pervasive 2005), volumen
3468 de Notas de la clase en Ciencias de la Computación, páginas 208–219, 2005.
[WRZ07] Stefan Winkler, Karthik Rangaswamy y ZhiYing Zhou. Interfaz de usuario intuitiva para
dispositivos móviles basada en detección de movimiento visual. En Reiner Creutzburg,
Jarmo Takala y Jianfei Cai, editores,Actas de SPIE Multimedia sobre dispositivos móviles
2007, volumen 6507, 2007.
[WS03] Daniel Wagner y Dieter Schmalstieg. Primeros pasos hacia la realidad aumentada
portátil. EnActas del 7mo Simposio Internacional de IEEE sobre Computadoras
Portátiles (ISWC'03), páginas 127-135, 2003.
[WS07] Daniel Wagner y Dieter Schmalstieg. Artoolkitplus para el seguimiento de poses en

dispositivos móviles. EnActas del 12o Taller de Invierno de Visión por Computadora
(CVWW'07)2007.
[WSB06] Daniel Wagner, Dieter Schmalstieg y Mark Billinghurst. Ar de mano para entretenimiento
educativo colaborativo. EnActas de la 16a Conferencia Internacional sobre Realidad
Artificial y Telexistencia (ICAT'06), volumen 4282 de Notas de la clase en Ciencias de la
Computación, páginas 85–96, 2006.
[WZC06] Jingtao Wang, Shumin Zhai y John Canny. Detección de movimiento basada en teléfonos
con cámara: técnicas de interacción, aplicaciones y estudio del rendimiento. EnActas del XIX
simposio anual de ACM sobre software y tecnología de interfaz de usuario (UIST'06),
páginas 101–110, 2006.
[Yee03] Ka-Ping Yee. Pantallas de mirilla: interacción con lápiz en computadoras de mano con
reconocimiento espacial. EnActas de la conferencia SIGCHI sobre factores humanos en sistemas
informáticos (CHI'03), páginas 1–8, 2003.
[Zha95] Shumin Zhai. Rendimiento humano en control de entrada de seis grados de libertad. Tesis de
doctorado, Universidad de Toronto, 1995.
[Zha98] Shumin Zhai. Rendimiento del usuario en relación con el diseño de dispositivos de entrada 3D.Gráficos
por computadora SIGGRAPH, 32 (4): 50–54, 1998.

FULLTEXT01 en Es

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

FULLTEXT01 en Es

Cargado por

Copyright:

Formatos disponibles

Traducido del inglés al español - www.onlinedoctranslator.

Estudios de Linköping en ciencia y tecnología

Disertaciones, No. 1145

Llevando la realidad aumentada a los dispositivos móviles

Departamento de ciencia y tecnología

Copyright © 2007 Anders Henrysson Impreso

Cuando haces el hallazgo tú mismo, incluso si eres la última persona en la Tierra en

Seguimiento basado en visión por computadora para teléfonos móviles

Técnicas de interacción 3D con teléfonos móviles

Nuevas aplicaciones de RA para un solo usuario

2 Hacia la realidad aumentada del teléfono móvil 15

3 Descubriendo la realidad aumentada del teléfono móvil 31

3.2.7 Aplicación de ejemplo: AR LEGO. . . . . . . . . . . . . . . . . . . . RA 46

1.1 Computación móvil y ubicua

Comunicación de corto alcance

1.2 Realidad aumentada

1. Combina lo real y lo virtual

2. Interactivo8 en tiempo real

Figura 1.2: Continuum Realidad-Virtualidad de Milgram y estilos de interacción correspondientes. La parte

2. Registro. El seguimiento es solo un medio para lograr el registro: la alineación final de la

Escribe Tecnología Ejemplo

Híbrido p. ej., óptico-inercial InterSense IS-1200 VisTracker ™

Tabla 1.1: Ejemplos de tecnología de seguimiento

Proyector montado en la cabeza Proyector de mano Proyector (es) estacionario

Pantalla de retina virtual HMD

En la cabeza Mano Estacionario

para la fotografía, una actividad socialmente aceptada. Handheld AR es un complemento, en lugar de un

Tarea Descripción Contador del mundo real Parámetros

Posicionamiento Cambiar la posición 3D Mover un objeto desde una Distancia y dirección a la

Rotación Cambiar la orientación Rotar un objeto desde una Distancia al objetivo,

14Del griego isos y morphe = Misma forma

1.4 Desafíos de la investigación

• La principal ventaja de la RA es la reducción de las costuras cognitivas debido a los dominios de

• Deben desarrollarse aplicaciones de prueba de concepto para demostrar la viabilidad de la RA de teléfonos

pantallas grandes en una configuración colaborativa.

Hacia la realidad aumentada del teléfono

2.1 Enfoques de la realidad aumentada

2.1.1 RA basada en HMD

2Pierre Wellner utilizó el término "entornos aumentados por computadora"

Fotograma de video de la cámara arker en Extraer puntos de esquina Mamá

Superposición de imágenes virtuales Renderizar gráficos 3D Calcular la pose de la cámara

5www.nationalbarcode.com/History - of - Barcode - Scanners.htm

2.1.2 RA al aire libre

2.2 Más allá del teclado

2.2.1 Campo de movimiento

con una cruz en el centro de la pantalla.

TinyMotion [WZC06] es otro ejemplo de un algoritmo de coincidencia de bloques para la estimación de

2.2.2 Seguimiento de objetos

2.2.3 Seguimiento de marcadores

2.3 Dispositivos de entrada 3D y técnicas de interacción

18Dispositivo de entrada isométrico 6DOF

Descubriendo la realidad aumentada del

3.1 Plataforma de realidad aumentada para teléfonos móviles

3.1.1 Biblioteca de punto fijo

3.1.2 Calibración de la cámara

3.1.3 Mejoras adicionales

El seguimiento de ARToolKit es inherentemente inestable y, para solucionarlo, se implementó la predicción basada en

COLLADA ARToolKit S60

XML OpenGL ES API de cámara

Sistema operativo Symbian

3.1.4 Aplicación de ejemplo: campaña del zoológico de Wellington

3.2 El teléfono móvil como dispositivo de interacción 6DOF

2. Selección global: El usuario debería poder seleccionar cualquier objeto en la escena.