Está en la página 1de 14

Desarrollo de un Sistema de Traducción

de Lenguaje de Señas a Texto Utilizando


Redes Neuronales Convolucionales y
Procesamiento de Imágenes

Polo Añorga Renato


Sanchez Rodriguez Oskar
Ulloa Reyes Jaime
Contenido

01 02 03 04 04
Trabajos Metodología Resultados
Introducción Conclusiones
Relacionados Propuesta Experimentales
Introducción
Realidad Problemática

Según el Instituto Nacional de


La discapacidad se presenta de La lengua de señas es un sistema
Estadística e Informática (INEI),
diversas formas y genera de comunicación basado en gestos
gracias a un censo realizado en
barreras sociales y económicas visuales, incluyendo movimientos
2017 en el Perú se conoce que hay
para la inclusión en la sociedad. de manos, dedos y expresiones 243.486 personas con dificultades
faciales con significados
Esto es especialmente auditivas, cifra que representa al
específicos. Cada lengua de señas 7,6 % de las personas con
preocupante en casos de
tiene una variedad de signos, que discapacidad, además según este,
discapacidad auditiva, que
pueden variar en número y se 8790 personas con dificultades
afecta al 5% de la población
diferencian a veces por pequeños auditivas registraron como lengua
mundial. cambios en la posición de la mano. materna a la Lengua de Señas
Peruana (LSP).
Realidad Problemática

Figura 1: Censos nacionales 2017. Fuente: INEI


Problema Justificación

Este proyecto se respalda


Según diversos estudios e
debido a la urgencia de
investigaciones, se ha
mejorar la comunicación y
observado que las personas
promover la inclusión de
con discapacidad auditiva
personas con discapacidad
tienen un 57% más de
auditiva. Se aprovechan los
posibilidades de desarrollar
avances en inteligencia
estrés, depresión o mal humor
artificial, que tienen el
debido al déficit de
potencial de generar un efecto
comunicación con otras
beneficioso tanto en la
personas
sociedad como en la
comunidad científica.
Trabajos Relacionados
Sabeenian et al. [14] propuso Tripathi et al. [16] propuso un
Halder et al. [12] logró alcanzar utilizar una CNN personalizada modelo de bolsa de palabras visuales
una precisión del 99% usando (Red Neuronal Convolucional) (BoVW) para la conversión de gestos
el algoritmo de Máquinas de para reconocer el signo a partir de a texto, con una precisión del sistema
Soporte Vectorial (SVM) un fotograma de video, utilizando variando del 79% al 92%.
el conjunto de datos MNIST.
Park et al. [13] propuso un Bantupalli et al. [17] propuso el uso
Sabeenian et al. [14] propuso
sistema basado en videos en de Inception, una CNN (Red
utilizar una CNN personalizada Neuronal Convolucional), para
profundidad para traducir el
(Red Neuronal Convolucional) reconocer las características
lenguaje de señas a texto
para reconocer el signo a partir de espaciales, además del uso de una
utilizando la cámara frontal de
un fotograma de video, utilizando RNN (Red Neuronal Recurrente)
un smartphone.
el conjunto de datos MNIST. para entrenar en las características
temporales.
Herbaz et al. [18] propuso un Kan et al. [19] propuso una nueva [21] propuso la utilización de Redes
arquitectura de aprendizaje profundo, Neuronales Convolucionales (CNN),
sistema de reconocimiento del
llamada red neuronal de gráficos Clasificación Temporal Connectionista
lenguaje de señas marroquí
espacio-temporales jerárquicos (HST- (CTC) y Red de Creencias Profundas
utilizando una Red Neuronal
GNN, por sus siglas en inglés). (DBN) para recopilar y reunir los
Convolucional (CNN). Dicho
resultados de su sistema a través de
sistema incluye un conjunto de Agrawal et al. [20] propuso un traductor
diferentes métodos de traducción del
datos importante de más de 20 bidireccional de lenguaje de señas para
lenguaje de señas a texto.
archivos. Cada archivo contiene el idioma árabe, que traduce texto a
1,000 imágenes estáticas de lenguaje de señas y viceversa. Para ello Guerrero et al. [22] desarrolló un
se desarrollaron técnicas de NLP como sistema empleando las técnicas de
cada señal desde varios
análisis sintáctico, etiquetado de partes visión artificial para reconocimiento de
ángulos diferentes que se
del discurso, tokenización y traducción Lenguaje de Señas, consistió en cuatro
recopiló con la cámara.
para lograr la traducción de texto a etapas: captura de imágenes,
lenguaje de señas. preprocesamiento, extracción de
características y reconocimiento.
Halvardsson et al. [23] Implementaron
un modelo utilizando una red
InceptionV3 previamente entrenada,
este modelo logró una precisión del
85% al ser evaluado con un conjunto
de datos que constaba de 8 sujetos y
9400 imágenes.
Morales et al. [24] manejó un total de 23
señales, realizando un
preprocesamiento de las imágenes
antes de obtener el conjunto de
características. Las técnicas utilizadas
incluyeron la reducción de ruido, la
escala de las imágenes y la eliminación
del fondo de las mismas.
Castillo et al. [25] Crearon un aplicativo
móvil el cual procesa la señas de la
persona con discapacidad, el cual
redirige a una base de datos en la nube
y posteriormente es procesado Escobedo et al [27] mostró
mediante texto. un método que utiliza
mapas de textura para
Mannan et al. [26] propuso un método representar información
de reconocimiento de ASL usando una multimodal (RGB-D) y así
red neuronal convolucional profunda. describir la posición y el
El rendimiento del modelo DeepCNN movimiento de la mano.
mejora a medida que se aumenta la
cantidad de datos, gracias a la técnica
de aumento de datos que expande el
conjunto de entrenamiento de manera
artificial.
[8] B. Villa, V. Valencia, y J. Berrio, “Digital image processing applied
on static sign language recognition system/Diseño de un Sistema de

Bibliografía Reconocimiento de Gestos No Móviles mediante el Procesamiento Digital


de Imágenes”, Prospectiva, vol. 16, núm. 2, pp. 41–48, jul. 2018, doi:
10.15665/rp.v16i2.1488.
[9] S. Fredy, F. R. Betancourt, y M. Arbulú, “A gesture recognition
[1] E. Martinez-Martin y F. Morillas-Espejo, “Deep Learning system for the colombian sign language based on convolutional neural
Techniques for Spanish Sign Language Interpretation”, Comput Intell networks”, Bulletin of Electrical Engineering and Informatics, vol. 9,
Neurosci, vol. 2021, 2021, doi: 10.1155/2021/5532580. núm. 5, pp. 2082–2089, oct. 2020, doi: 10.11591/eei.v9i5.2440.
[2] S. Goldin-Meadow y D. Brentari, “Gesture, sign, and language: The [10] F. H. Martínez, C. Penagos, y L. Pacheco, “Deep Regression Models
coming of age of sign language and gesture studies”, Behavioral and for Local Interaction in Multi-agent Robot Tasks”, en International
Brain Sciences, vol. 40, pp. 1–17, 2017, doi: 10.1017/S0140525X15001247. Conference on Swarm Intelligence, 2018. [En línea]. Disponible en:
[3] Y. Motamedi et al., “The cultural evolution of complex linguistic https://api.semanticscholar.org/CorpusID:49303487
constructions in artificial sign languages”. [11] K. Li, Z. Zhou, y C. H. Lee, “Sign transition modeling and a scalable
[4] Instituto Nacional de Estadística e Informática, “Censo de solution to continuous sign language recognition for real-world
personas discapacitadas 2017”, applications”, ACM Trans Access Comput, vol. 8, núm. 2, ene. 2016, doi:
https://m.inei.gob.pe/prensa/noticias/en-el-peru-1-millon-575-mil- 10.1145/2850421.
personas-presentan-alg/, 2017. [12] A. Halder y A. Tayade, “Sign Language to Text and Speech
[5] R. Saha, A. Sharma, y M. K. Srivastava, “‘Psychiatric assessment Translation in Real Time Using Convolutional Neural Network,””,
of deaf and mute patients – A case series’”, Asian J Psychiatr, vol. 25, pp. International Journal of Research Publication and Reviews, vol. 8, núm.
31–35, 2017, doi: https://doi.org/10.1016/j.ajp.2016.10.007. 2, 2021.
[6] J. Saavedra Chanduví et al., “Lengua de Señas Peruana”, 2014. [En [13] H. J. Park, Y. Lee, y J. G. Ko, “Enabling Real-time Sign Language
línea]. Disponible en: www.minedu.gob.pe Translation on Mobile Platforms with On-board Depth Cameras”, Proc
[7] R. Bodmer, L. Liu, W. Liu, y J. C. Rangel, “Reconocimiento del ACM Interact Mob Wearable Ubiquitous Technol, vol. 5, núm. 2, 2021,
lenguaje de señas mediante aprendizaje automático para niños de doi: 10.1145/3463498.
primaria”, Revista de Iniciación Científica, vol. 6, jul. 2021, doi:
10.33412/rev-ric.v6.0.3161.
[19] J. Kan, K. Hu, M. Hagenbuchner, A. C. Tsoi, M. Bennamoun, y Z.
Wang, “Sign Language Translation with Hierarchical Spatio-Temporal

Bibliografía Graph Neural Network”, en Proceedings - 2022 IEEE/CVF Winter


Conference on Applications of Computer Vision, WACV 2022, 2022. doi:
10.1109/WACV51458.2022.00219.
[20] T. Agrawal y S. Urolagin, “2-way Arabic Sign Language
[14] R. S. Sabeenian, S. Sai Bharathwaj, y M. Mohamed Aadhil, “Sign Translator using CNNLSTM Architecture and NLP”, en ACM
language recognition using deep learning and computer vision”, Journal International Conference Proceeding Series, 2020. doi:
of Advanced Research in Dynamical and Control Systems, vol. 12, núm. 5 10.1145/3378904.3378915.
Special Issue, 2020, doi: 10.5373/JARDCS/V12SP5/20201842. [21] “Using Deep Learning in Sign Language Translation to Text”,
[15] B. Natarajan et al., “Development of an End-to-End Deep Learning 2023. doi: 10.46254/an12.20220758.
Framework for Sign Language Recognition, Translation, and Video [22] J. D. Guerrero-Balaguera y W. J. Pérez-Holguín, “Sistema
Generation”, IEEE Access, vol. 10, 2022, doi: traductor de la lengua de señas Colombiana a texto basado en FPGA”,
10.1109/ACCESS.2022.3210543. DYNA (Colombia), vol. 82, núm. 189, pp. 172–181, 2015, doi:
[16] K. M. Tripathi, P. Kamat, S. Patil, R. Jayaswal, S. Ahirrao, y K. 10.15446/dyna.v82n189.43075.
Kotecha, “Gesture-to-Text Translation Using SURF for Indian Sign [23] G. Halvardsson, J. Peterson, C. Soto-Valero, y B. Baudry,
Language”, Applied System Innovation, vol. 6, núm. 2, 2023, doi: “Interpretation of Swedish Sign Language Using Convolutional Neural
10.3390/asi6020035. Networks and Transfer Learning”, SN Comput Sci, vol. 2, núm. 3, may
[17] K. Bantupalli y Y. Xie, “American Sign Language Recognition 2021, doi: 10.1007/s42979-021-00612-w.
using Deep Learning and Computer Vision”, en Proceedings - 2018 IEEE [24] E. M. Morales, O. V. Aparicio, P. Arguijo, R. Angel, M. Armenta, y
International Conference on Big Data, Big Data 2018, 2019. doi: A. Hiram Vázquez López, “Traducción del lenguaje de señas usando
10.1109/BigData.2018.8622141. visión por computadora Sign Language Translation Using Computer
[18] N. Herbaz, H. El Idrissi, y A. Badri, “Sign Language Recognition for Vision”. [En línea]. Disponible en: https://1drv.ms/f/s!Ag_D60aA-
Deaf and Dumb People Using Convolution Neural Network”, Journal of 1xrggXOp-G9eJrs-u3l
ICT Standardization, vol. 10, núm. 3, 2022, doi: 10.13052/jicts2245-
800X.1033.
Bibliografía
[25] R. A. Castillo-Portales, R. J. Díaz-Nureña, S. E. Cieza-Mostacero, y
J. F. Pacheco-Torres, “Aplicación Móvil Multiplataforma Basado en Redes
Neuronales para Mejorar el Aprendizaje del Lenguaje de Señas en una
Oficina Municipal de Atención a las Personas con Discapacidad”, en
CICIC 2022 - Decima Segunda Conferencia Iberoamericana de
Complejidad, Informatica y Cibernetica en el contexto de the 13th
International Multi-Conference on Complexity, Informatics, and
Cybernetics, IMCIC 2022 - Memorias, International Institute of
Informatics and Cybernetics, IIIC, 2021, pp. 124–129. doi:
10.54808/CICIC2022.01.124.
[26] A. Mannan, A. Abbasi, A. R. Javed, A. Ahsan, T. R. Gadekallu, y Q.
Xin, “Hypertuned Deep Convolutional Neural Network for Sign Language
Recognition”, Comput Intell Neurosci, vol. 2022, 2022, doi:
10.1155/2022/1450822.
[27] E. Escobedo, L. Ramirez, y G. Camara, “Dynamic sign language
recognition based on convolutional neural networks and texture maps”,
en Proceedings - 32nd Conference on Graphics, Patterns and Images,
SIBGRAPI 2019, en Proceedings - 32nd Conference on Graphics, Patterns
and Images, SIBGRAPI 2019. Institute of Electrical and Electronics
Engineers Inc., oct. 2019, pp. 265–272. doi:
10.1109/SIBGRAPI.2019.00043.

También podría gustarte