Documentos de Académico
Documentos de Profesional
Documentos de Cultura
IA - Vision Estereo ZEDi2 - 05-10-20 - v3
IA - Vision Estereo ZEDi2 - 05-10-20 - v3
estéreo y la cámara
ZED 2i
UNLI
(Unidad Nacional de Laboratorio de Industria 4.0)
Universidad San Sebastián
Chile, 2023
ÍNDICE
Contenido
ÍNDICE ................................................................................................................................................. 2
ÍNDICE DE FIGURAS............................................................................................................................. 3
ÍNDICE DE TABLAS ............................................................................................................................... 4
1 Introducción a la visión estéreo .................................................................................................. 5
2 Cámaras ZED................................................................................................................................ 7
2.1 Depth Sensing...................................................................................................................... 8
2.1.1 Modo Standard............................................................................................................ 9
2.1.2 Modo Fill...................................................................................................................... 9
2.2 Object Detection ............................................................................................................... 10
2.3 Body Tracking .................................................................................................................... 10
2.4 Spatial Mapping................................................................................................................. 11
2.5 Positional Tracking ............................................................................................................. 12
3 ZED SDK ..................................................................................................................................... 12
3.1 ZED Diagnostic ................................................................................................................... 13
3.2 ZED Explorer ...................................................................................................................... 14
3.3 ZED Depth Viewer ............................................................................................................. 15
3.4 ZED360 .............................................................................................................................. 17
3.5 ZED Sensor Viewer ............................................................................................................ 18
3.6 ZEDfu ................................................................................................................................. 20
4 Referencias ................................................................................................................................ 22
2
ÍNDICE DE FIGURAS
3
ÍNDICE DE TABLAS
4
1 Introducción a la visión estéreo
La visión estéreo es una técnica clave en la visión por computadora, ya que emula cómo los humanos
percibimos el mundo en tres dimensiones, pero utilizando dos cámaras. Esta técnica nos permite
obtener información valiosa sobre la profundidad y estructura de lo que las cámaras capturan.
Gracias a la visión estéreo, se han creado sistemas de cámaras avanzados que son útiles en diversas
áreas como: la robótica, la conducción autónoma, la inspección industrial y la realidad virtual. Con
ella, podemos explorar e interactuar con el entorno de manera más precisa y efectiva.
El principio de la visión estéreo se basa en la triangulación, utilizando dos cámaras posicionadas una
al lado de la otra. Se capturan imágenes desde dos ángulos visuales distintos para calcular la posición
de los objetos presentes en la escena (Figura 1).
Una vez capturadas las imágenes se realizan los siguientes pasos de procesamiento para calcular la
ubicación de los objetos en escena: Los pasos de procesamiento para calcular la profundidad
incluyen:
I. Rectificación: Se trazan las líneas epipolares las cuales corresponden a la línea que se forma
de la interacción del plano de la imagen con el plano que contiene los centros de proyección
de ambas cámaras y un punto 3D en la escena, es decir, esta línea conecta un punto de la
imagen de la izquierda con su posible correspondencia en la imagen derecha. Luego en la
rectificación se ajustan las imágenes para que las líneas epipolares estén alineadas,
facilitando la búsqueda de correspondencias (Figura 2).
5
Figura 2: Esquema líneas epipolares.
6
Figura 4: Nube de puntos 3D de la escena.
2 Cámaras ZED
Entre las cámaras que utilizan la técnica de visión estéreo se encuentra la línea de cámaras ZED, las
cuales son fabricadas por la empresa Stereolabs. Las cámaras ZED están diseñadas para ser
compactas, livianas y asequibles, sin comprometer la calidad de imagen. Sus áreas de aplicación
abarcan desde la robótica, transporte, logística, deportes, agricultura y la fabricación. Destacan
frente a otras cámaras estéreo porque utilizan inteligencia artificial en la etapa de procesamiento de
correspondencia (feature matching).
Dentro las cámaras ZED sobresale la cámara ZED 2i (Figura 5), la cual está desarrollada para trabajar
en ambientes exigentes, como ambientes agrícolas, exteriores, médicos e industriales. Dentro de
sus características destaca su visión de 120°, lo que la hace superior a otras versiones de cámaras
ZED en su campo de visión.
7
Las cámaras ZED permiten realizar las mismas acciones que otras cámaras de percepción 3D
convencionales, como por ejemplo estimar profundidad, capturar imágenes RGB entre otros. Pero
tienen ventajas técnicas que las destacan, como la presencia de sensores, los cuales varían según el
modelo de la cámara, a continuación, se presentan los sensores que posee la cámara ZED 2i presente
en nuestros laboratorios:
Además, las cámaras ZED destacan por ser capaces de realizar las siguientes funciones:
8
sobre la distancia se expresa típicamente en forma de un mapa de profundidad o imagen de
profundidad, donde cada píxel o punto en la imagen representa la distancia desde el sensor a un
objeto en el mundo real.
En el caso de las cámaras ZED presentan dos modos de adquisición y procesamiento de datos para
Depth Sensing:
El modo Fill llena los agujeros y oclusiones en el mapa de profundidad y agrega una etapa de filtrado
que mejora los bordes y la estabilidad, pero puede alterar la distancia real de los objetos en escena.
Se recomienda para aplicaciones como efectos visuales. El modo Fill requiere más recursos y se
ejecuta a una velocidad más baja que el modo Standard (Figura 7).
9
Figura 7: Visualización del entorno utilizando modo Fill.
Gracias al SDK (Software Development Kit) de ZED o un modelo de red convolucional podemos
realizar tareas de Object Detection o Detección de Objetos que es la capacidad de identificar objetos
presentes en una imagen. Gracias a la detección de profundidad y la información en 3D, la cámara
ZED puede proporcionar las posiciones en 2D y 3D de los objetos en la escena (Figura 8).
Gracias al SDK (Software Development Kit) de ZED o un modelo de red convolucional podemos
realizar Body Tracking o Seguimiento del Cuerpo, que consiste en la detección y seguimientos de
puntos clave del cuerpo de una persona para formar un esqueleto virtual. Las cámaras ZED pueden
proporcionar información 2D y 3D sobre cada punto clave detectado, como distancia entre la cámara
y el cuerpo observado (Figura 9).
10
Figura 9: Visualización de Body Tracking.
Spatial Mapping o Mapeo Espacial es la capacidad de crear un mapa tridimensional del entorno.
Esto permite que un dispositivo comprenda e interactúe con el mundo real. Spatial Mapping es útil
para digitalizar entornos reales en virtuales, evitar colisiones de robots y planificar movimientos en
robótica.
Spatial Mapping puede ser de tipo Malla (Mesh) o Nube de Puntos Fusionados (Fused Point Cloud).
Una malla representa la geometría de la escena por superficie. Es un conjunto de triángulos estancos
definidos por vértices y caras. Esta superficie se puede filtrar y texturizar después del escaneo. En
cambio, una nube de puntos representa la geometría de la escena mediante un conjunto de puntos
3D coloreados (Figura 10).
Figura 10: Spatial Mapping de tipo malla vs Spatial Mapping de tipo Nube de Puntos Fusionados.
La resolución y el alcance del Spatial Mapping se pueden ajustar durante la inicialización para ambos
tipos. Si se está escaneando una malla, también puedes especificar si deseas que esté texturizada,
esta opción se encuentra desactivada de forma predeterminada, porque implica un mayor tiempo y
capacidad de procesamiento.
11
También se puede ajustar el nivel de detalle o resolución del Spatial Mapping. Una resolución más
alta proporcionará un mapa espacial más detallado. La resolución se puede establecer entre 1 cm y
12 cm. Capturar mapas con alta densidad requiere más memoria y recursos. Por lo tanto, debes usar
la densidad más baja posible para tu aplicación.
3 ZED SDK
ZED SDK es un paquete de aplicaciones para las cámaras ZED. Se debe descargar en el siguiente link:
https://www.stereolabs.com/developers/release/, cuando la descarga finalice se debe ejecutar el
programa y seguir los pasos de instalación. Si no se tiene CUDA instalado en el computador el
instalador de ZED SDK solicitará su instalación dirigiendo automáticamente a la página de descarga
(https://developer.nvidia.com/cuda-12-1-0-download-archive). Se debe instalar una versión de
CUDA compatible con el computador para utilizar algunas aplicaciones como ZEDfu o ZED Sensor
Viewer.
12
Figura 12: Aplicaciones de ZED SDK.
ZED Diagnostic tiene la función de corroborar que el computador tenga los elementos necesarios
para poder utilizar las funciones de las cámaras ZED. Además, contiene la función de testear el
estado de la cámara, lo que resulta útil para encontrar soluciones a errores de funcionamiento. En
ZED Diagnostic también se puede actualizar los modelos de IA al finalizar el diagnostico presionando
el botón central inferior “IA Model” (Figura 13), es de vital importancia realizar el proceso de
actualizar los modelos de IA, ya que estos aseguran el correcto funcionamiento de las diversas
aplicaciones de ZED SDK. Se recomienda realizar la actualización un día antes de utilizar cualquier
aplicación de ZED SDK.
13
3.2 ZED Explorer
ZED Explorer es una aplicación centrada en realizar las funciones típicas de una cámara común, como
lo son tomar fotografías y grabar videos. Siempre que se conecte una cámara ZED se recomienda
utilizar esta aplicación para comprobar que el computador reconozca la cámara (Figura 14).
En la parte superior izquierda se encuentra el estado de la cámara, cuando la cámara sea reconocida
se presentan opciones desplegables que permiten modificar la resolución de captura de imagen. En
la parte inferior izquierda se encuentra el panel de herramientas (Figura 15), el cual permite utilizar
una cámara ZED de forma remota, tomar fotografías y grabar video.
14
3.3 ZED Depth Viewer
ZED Depth Viewer tiene la función de crear un mapa de puntos según la configuración de
profundidad (Figura 17), el cual se puede exportar en distintos formatos para ser trabajado como
malla. La profundidad se configura en el menú de configuraciones que se despliega presionando el
icono ubicado en la esquina superior derecha.
15
Figura 19: Configuración de profundidad y visualización Profundidad máxima 5.5 metros.
16
Figura 21: Calidad mínima, ZED Depth Viewer.
3.4 ZED360
ZED 360 permite realizar Body Tracking y reconocimiento de espacio. Para utilizar esta aplicación es
necesario mínimo dos personas, una debe operar el computador y la otra debe caminar lentamente
por el entorno para que el computador procese los puntos captados por la cámara. Esta tarea
17
requiere una gran capacidad y tiempo de procesamiento, es necesario tenerlo en cuenta si se planea
utilizar esta aplicación para un proyecto (Figura 23).
ZED Sensor Viewer permite utilizar los sensores presentes en las cámaras. En el menú de
configuraciones se seleccionan los sensores que se utilizaran de forma simultánea y la frecuencia de
toma de datos (Figura 24).
18
Figura 24: Menú de configuraciones.
19
Figura 26: ZED Sensor Viewer, Recopilación de datos con giroscopio.
3.6 ZEDfu
ZEDfu permite realizar Spatial Mapping, requiere una gran cantidad de capacidad y tiempo de
procesamiento. Se debe configurar las características del escaneo en el menú de opciones y luego
presionar en iniciar. El usuario que porte la cámara debe moverse lentamente por el entorno
preocupando enfocar la mayor cantidad de detalles.
20
Figura 28: Menú de opciones, ZEDfu.
21
4 Referencias
iDS. (21 de Septiembre de 2023). Datos 3D mediante visión estéreo. Obtenido de https://es.ids-
imaging.com/technical-articles-details/whitepaper-depth-information-3d-images.html
Stereolabs. (20 de Septiembre de 2023). API Reference, Tutorials, and Integration. Obtenido de
https://www.stereolabs.com/docs/
22