Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Resumen— Este informe presenta el desarrollo de una articulaciones, lo que es fundamental para comprender y
aplicación que utiliza la estimación de postura, basada en la replicar el movimiento humano.
arquitectura de MediaPipe, para detectar y clasificar al menos
cinco posturas humanas. La aplicación permite la interacción en 2. Técnicas de Estimación de Postura
tiempo real con un enfoque en el control de hardware mediante
Arduino. Se aborda la necesidad de detectar posturas para Existen varias técnicas para la estimación de postura, que
mejorar la interacción en juegos y aplicaciones de control de incluyen:
hardware. A través del uso de técnicas de estimación de postura,
• Métodos Basados en Marcadores: Estos métodos
se logra un sistema versátil y preciso que promete diversas
requieren que los sujetos utilicen marcadores en el
aplicaciones.
cuerpo para ayudar al sistema a rastrear la postura.
Palabras clave— Estimación de postura, MediaPipe, Aunque precisos, estos métodos pueden resultar
Detección de posturas, Interacción en tiempo real, Control de incómodos y limitar la libertad de movimiento.
hardware, Aplicación. • Métodos Basados en Modelos 3D: Utilizan modelos
tridimensionales del cuerpo humano y buscan ajustar
I. INTRODUCCIÓN estos modelos a las imágenes para determinar la
postura. Son precisos, pero requieren un modelado
En la era de la inteligencia artificial y el aprendizaje detallado y son computacionalmente intensivos.
profundo, la estimación de postura se ha convertido en una
aplicación de vanguardia con una amplia variedad de • Métodos Basados en Visión por Computadora: Estos
aplicaciones en áreas que van desde la atención médica y la métodos, como MediaPipe, utilizan redes neuronales
seguridad hasta la interacción humano-computadora. Este convolucionales para detectar puntos clave en el
proyecto se enfoca en el desarrollo de una aplicación que cuerpo y estimar la postura. Son ampliamente
aprovecha el poder de la estimación de postura a través de una utilizados debido a su capacidad para trabajar en
arquitectura tipo MediaPipe, o sistemas similares, para detectar tiempo real y su capacidad de adaptación.
y clasificar posturas específicas.
El informe que sigue a continuación abordará en detalle los 3. MediaPipe y Arquitecturas Similares
pasos clave para desarrollar esta aplicación, incluyendo la MediaPipe es una arquitectura de red neuronal
selección de la arquitectura, la creación del conjunto de datos convolucional desarrollada para estimar la postura en tiempo
personalizado, el entrenamiento de la red neuronal, y la real a partir de imágenes o secuencias de video. Utiliza una red
implementación de la aplicación final. A través de este neuronal profunda para predecir la posición de las
proyecto, se busca explorar el potencial y la aplicabilidad de la articulaciones clave en el cuerpo. MediaPipe se ha convertido
estimación de postura en situaciones del mundo real y en una tecnología fundamental en aplicaciones interactivas y
demostrar cómo esta tecnología puede habilitar nuevas de visión por computadora debido a su velocidad y precisión
oportunidades en la interacción humano-máquina. en la estimación de postura [Revisar sección III. MediaPipe y
su arquitectura].
II. MARCO TEORICO
4. Aprendizaje Profundo en Estimación de Postura
1. Estimación de Postura: Definición y Significado El aprendizaje profundo, en particular las redes neuronales
La estimación de postura se refiere a la capacidad de un convolucionales (CNN), ha revolucionado la estimación de
sistema de visión por computadora para identificar y seguir la postura. Estas redes son capaces de aprender características
posición y orientación de las articulaciones y extremidades del complejas y representaciones de imágenes, lo que es esencial
cuerpo humano en imágenes o videos. Esto implica la para identificar y rastrear las articulaciones del cuerpo humano
determinación de la posición tridimensional de estas en diferentes posturas. Las bibliotecas de aprendizaje profundo,
como TensorFlow y PyTorch, ofrecen herramientas y marcos 5. API de Alto Nivel:
para entrenar y desplegar modelos de estimación de postura.
MediaPipe proporciona una API de alto nivel que facilita a
los desarrolladores la creación de aplicaciones que aprovechan
5. Creación de Conjuntos de Datos Personalizados sus capacidades de procesamiento de medios.
Para entrenar modelos de estimación de postura, es
fundamental contar con conjuntos de datos personalizados que
contengan imágenes de ejemplo de las posturas de interés. La 6. Compatibilidad Multiplataforma:
creación y etiquetado de estos conjuntos de datos son procesos
cruciales que requieren una atención meticulosa para garantizar MediaPipe es compatible con múltiples plataformas,
que el modelo sea preciso y generalizable. incluyendo Android, iOS, Linux y Windows, lo que permite la
implementación de aplicaciones en una variedad de
6. Interacción con Hardware y Software dispositivos.
La estimación de postura se puede aplicar para interactuar
con hardware y software. Por ejemplo, es posible manipular 7. Módulos Personalizables:
juegos, activar dispositivos como Arduino o crear interfaces de
usuario intuitivas basadas en gestos. Esto abre un amplio Los desarrolladores pueden personalizar y ampliar
espectro de aplicaciones en áreas como el entretenimiento, la MediaPipe utilizando módulos de procesamiento
atención médica y la robótica. personalizados para satisfacer las necesidades específicas de su
aplicación.
III. MEDIAPIPE Y SU ARQUITECTURA
8. Pipeline de Datos Complejo:
MediaPipe es una plataforma de procesamiento de medios
en tiempo real desarrollada por Google. Su arquitectura se MediaPipe admite pipelines de procesamiento complejos
centra en el procesamiento eficiente de flujos de datos que pueden involucrar múltiples módulos de procesamiento
multimedia en tiempo real. A continuación, se detallan los interconectados para tareas avanzadas de visión por
componentes clave de su arquitectura: computadora y procesamiento de medios.
V. PLANTEAMIENTO DE LA SOLUCIÓN
Fig. 2. Puntos de referencia de las manos y sus índices. [2] La solución implementada se basa en la combinación de la
biblioteca MediaPipe para la estimación de la postura de la
mano y la biblioteca Pygame para crear un juego de
IV. DESCRIPCION DEL PROBLEMA plataformas 2D. A continuación, se detalla cómo funciona esta
solución:
El problema central de esta actividad radica en la
implementación de un sistema que aproveche la estimación de
postura utilizando arquitecturas tipo MediaPipe o tecnologías 1. Estimación de Postura con MediaPipe:
similares. Se plantea el desafío de crear una aplicación capaz
La solución utiliza la biblioteca MediaPipe para realizar
de detectar, clasificar y actuar en función de al menos cinco la estimación de la postura de la mano en tiempo real a través
posturas corporales distintas. La aplicación puede ser ejecutada de una cámara. Esto se logra mediante el uso de la función
en diversas plataformas, ya sea en un entorno colaborativo en `mp.solutions.hands` de MediaPipe, que detecta las
línea como Google Colab, en una configuración local articulaciones de la mano y los dedos.
utilizando una distribución de Python como Anaconda, o a
través de una página web accesible al público. El proceso
implica la captura de imágenes en tiempo real a través de una
cámara y la realización de acciones específicas con cada 2. Captura de Imágenes y Procesamiento:
postura estimada, como la manipulación de un juego o el La cámara captura imágenes en tiempo real, que se
control de hardware, como dispositivos Arduino. procesan para identificar las coordenadas de las articulaciones
y dedos de la mano. Se definen varios puntos clave de interés
en la mano, incluyendo los dedos pulgar, índice, medio, anular
Para abordar este problema, se deben considerar varios y meñique.
aspectos críticos:
6. Visualización y Retroalimentación:
La solución proporciona una visualización en tiempo real
de la mano, resaltando las posiciones de las articulaciones y
dedos. Además, muestra información en pantalla sobre el
estado de los dedos y su efecto en el juego, como el número de
dedos levantados y el cambio de colores.
VI. RESULTADOS
(b)
Fig. 7. (a)(b) Índice y medio levantado, comando “SPACE”: acción de
cambiar de color al personaje.
CONCLUSIONES
(a) La realización exitosa de este proyecto, que se centra en el
uso de la estimación de postura con una arquitectura tipo
MediaPipe y su aplicación en un juego de plataformas 2D,
resalta el poder transformador de la tecnología de visión por
computadora en el ámbito del entretenimiento interactivo y
más allá. Durante el desarrollo de este proyecto, se ha logrado
una interacción efectiva y dinámica entre los gestos de la mano
del usuario y las acciones dentro del juego, demostrando la
eficacia de la arquitectura MediaPipe en la detección y
clasificación de posturas.
La capacidad de controlar el movimiento del personaje,
saltar y cambiar colores mediante gestos de la mano, como la
(b)
mano abierta o el pulgar solo, ofrece una experiencia de juego
Fig. 6. (a)(b) Índice levantado, comando “S”: acción de desplazarse a la única y cautivadora. Además, la detección y clasificación de al
izquierda.
menos cinco posturas distintas demuestra la versatilidad de la
tecnología de estimación de postura en la creación de
aplicaciones interactivas.
Este proyecto no solo tiene aplicaciones en el ámbito del
entretenimiento, sino que también sugiere un amplio abanico
de posibilidades en el contexto de la accesibilidad y la
interacción humano-máquina. La tecnología de estimación de
postura, respaldada por arquitecturas como MediaPipe, se
presenta como un recurso valioso que promete innovaciones
futuras en la interacción basada en gestos.
REFERENCES