Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Resumen:
el reconocimiento del gesto de lenguaje de señas mediante el procesamiento de
imágenes y el aprendizaje automático ha sido ampliamente estudiado en los últimos
años. Este artículo presenta un conjunto de datos que consta de 2400 imágenes de los
gestos estáticos del alfabeto del lenguaje de señas peruano, además de su aplicación a
un sistema de reconocimiento de gestos manuales con cámaras de baja resolución. Para
el reconocimiento de gestos, se utilizó el descriptor de características de gradiente
orientado de histograma, junto con 4 algoritmos de clasificación. Los resultados
mostraron que el gradiente orientado de histograma, junto con la máquina de vectores
de soporte, obtuvo el mejor resultado con un 89.46% de precisión y el sistema pudo
reconocer los gestos con variaciones de traslación, rotación y escala.
Términos de índice: procesamiento de imágenes, aprendizaje automático, gradiente
orientado a histogramas, reconocimiento de lenguaje de señas
I. INTRODUCCIÓN
El lenguaje de señas es usado por personas que tienen alguna dificultad para hablar o
escuchar y les permite comunicarse con otras personas que pueden o no presentar las
mismas dificultades. Sin embargo, este idioma no es universal, por lo que cada país
tiene su propio lenguaje de señas. Este tipo de lenguaje puede ser difícil de aprender
para una persona oyente, sin embargo, gracias a los estudios avanzados en
procesamiento digital de imágenes, es posible crear programas que faciliten este tipo de
aprendizaje [1]. Varios estudios dentro de esta área han generado sus propios conjuntos
de datos que incluyen los lenguajes de señas de varios países. Estos conjuntos de datos
se aplicaron en proyectos relacionados con: interacción hombre-computadora para
facilitar la comunicación de personas sordas, la manipulación de robots con este tipo de
lenguaje o el desarrollo de programas educativos que permitan mejorar la enseñanza de
este tipo de idiomas en sus respectivos países [ 2]. En Perú, las personas sordas usan el
alfabeto de lenguaje de señas para aprender el idioma español mediante el proceso de
deletrear las palabras. Sin embargo, esto requiere repetir este proceso para cada palabra
que aprenden, lo cual no es intuitivo. Hasta la fecha, no se ha encontrado un estudio que
haya utilizado el lenguaje de signos peruano, por eso este artículo presenta un conjunto
de datos compuesto por los 24 gestos estáticos del alfabeto del lenguaje de signos
peruano. También aplicamos este conjunto de datos en un sistema de reconocimiento de
gestos manuales utilizando Histogram of Graded Gradients (HOG) y evaluamos su
eficiencia utilizando 4 algoritmos de clasi fi cación. Figura 1. representa este alfabeto
que se basa en el lenguaje de señas americano, pero tiene 4 gestos estáticos únicos (g, p, t,
u).
Fig. 3. Metodología para crear el conjunto de datos. Primero, se aplicó el algoritmo de resta de
fondo, explicado anteriormente. Una vez extraído el fondo, se realizó la grabación de los 24
gestos estáticos. En esta grabación, se pidió a los participantes que hicieran movimientos de
las manos dentro de la caja, además de pequeñas rotaciones. Una vez que se realizaron las
grabaciones, el video se dividió en imágenes y se seleccionó manualmente para cada gesto.
Dentro de esta selección manual, se consideraron los fotogramas en los que se observaron
variaciones de rotación en los ejes de las manos "X" e "Y", de modo que se puede generar un
conjunto de datos sólido para este tipo de cambios. Para la generación de conjuntos de datos
característicos, cada una de las imágenes en el conjunto de datos pasa por un proceso de
reconocimiento de mano. Una vez que se detectó esta región, procedimos a recortar y cambiar
el tamaño de las imágenes a un tamaño de 200 x 200 píxeles, para mantener un formato
uniforme dentro del conjunto de datos. Finalmente, se aplicó un filtro a las imágenes y se
generaron vectores de características utilizando HOG.
IV. EXPERIMENTOS
A. Hadware y software En nuestros experimentos utilizamos una cámara con resolución de
720p y una relación de 4: 3 para generar el conjunto de datos y para probar el entorno del
sistema propuesto. Este sistema se probó en una CPU Intel Core i7-7770HQ con 2.80GHz y
16GB de RAM. El sistema operativo era Windows 10 de 64 bits. El sistema de reconocimiento
se desarrolló en Python 3.5 dentro del código IDE Visual Studio. Para el procesamiento previo
de imágenes, la sustracción de fondo y los algoritmos HOG, se utilizó la biblioteca OpenCV.
Además, para facilitar el proceso de análisis de datos y la generación de modelos utilizando
algoritmos de clasificación de Aprendizaje automático, se utilizó la biblioteca scikit-learn [12]. B.
Conjunto de datos de imagen El conjunto de datos se generó con el apoyo de 10 personas
sordas, que se grabaron haciendo cada uno de los 24 gestos estáticos del alfabeto de la
lengua de signos peruana. Las grabaciones se realizaron en un entorno iluminado con un fondo
estático. Las imágenes extraídas de estas grabaciones tienen pequeñas variaciones o
rotaciones en los ejes "X" e "Y" para obtener un conjunto de datos sólido para estos cambios.
Una vez realizada la grabación, se extrajeron todos los cuadros del video y se seleccionaron un
total de 2400 imágenes. Cada uno de los 24 gestos contiene 100 imágenes (10 por persona).
C. Conjunto de datos de características Para la generación del conjunto de datos de
características, las imágenes se redimensionaron a un tamaño de 64x48 y se aplicó un
descriptor de HOG. Este algoritmo se aplicó por primera vez para la detección humana [11],
pero en los últimos años se ha utilizado en el reconocimiento de gestos con las manos [7] [8]
[9].
V. RESULTADOS
Los resultados mostraron que los 4 modelos de clasificación obtuvieron una precisión
superior al 85%. De todos los modelos, el que mejor se desempeñó fue SVM con un
89.46% de precisión, utilizando un kernel rbf y un valor de C de 1000 como vemos en
la Tabla II.