Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Articulo LSBv2-1
Articulo LSBv2-1
This paper shows the development of a prototype for a sign language recognition system based on computer vision.The main
goal is to build a bridge for deaf people to be able to fully integrate on a daily basis into bolivian society. The project sought the
interpretation of Bolivian Sign Language dynamic gestures in contrast to past projects. The work is essentially divided in two parts:
first the creation of a database for 12 gestures and the use of pose estimation models based on Convolutional Neural Networks for
feature extraction for RNN training. Finally, the analysis of the result of these models.
III. S OLUCI ÓN P ROPUESTA Realizando las comparaciones con el lenguaje de señas de
paises como Chile, Argentina y Peru tomando en cuenta estas
Existen lineamientos que debe cumplir un sistema de visión
caracterı́sticas en distintos gestos y el alfabeto se pudo mostrar
artificial, teniendo en cuenta que existen otras aproximaciones
que no es posible replicar en su totalidad trabajos. Dado que
por parte de sistemas de reconocimiento por guantes. Por tanto
las condiciones culturales de cada paı́s tienen una influencia
el prototipo debe cumplir los siguientes puntos:
directa en su LS.
• Accesible: para conseguir los sensores para un guante es
necesario importarlos frente a la opción de una cámara
que se puede conseguir en el mercado interno. B. Creación dataset LSB
• Mantenimiento: el mantenimiento de software en com- La carencia de un dataset de gestos dinámicos del LSB
paración al hardware es más sencillo de realizar. impone la necesidad de recopilar vı́deos cortos de una lista de
• Costos: dejando de lado el desarrollo, los guantes tienen palabras que contengan una relevancia en la vida cotidiana,
sensores que incurren en un costo superior a la cámara para esto es imprescindible llegar a un consenso con un
• Flexible: el hecho de que solo se necesite una cámara intérprete calificado con lo cual se llegó a la selección de las
permite utilizarlo en distintas situaciones solo con un siguientes palabras: Ayuda ,Bolivia ,Como ,Dinero ,Doctor
medio de procesamiento de las imágenes adquiridas ,Donde ,Explicación ,Guardar ,Necesito ,Quien v1(Occidente)
• Cómodo: no se genera un malestar en el uso de cámara, ,Quien v2(Oriente) ,Saludos.
sobre todo en requerimientos de servicio.
Se optó por mantener la esencia del flujo de trabajo pre- Se utilizó como referencia el trabajo presentado por [2], esto
sentado en [9], pero se ajustaron o agregaron algunos pasos pensando que a pesar de la robustez que ofrece Mediapipe
JUNE 2021 3
el dataset pueda servir para futuros trabajos con distintas Algorithm 1 Procedimiento obtención POI
aproximaciones.Por tal motivo se tomaron en consideración, // Mediapipe trabaja con RGB
los siguientes datos para tener una referencia de la iluminación Data: frame,height,lmList,results
de los ambientes. Un promedio de 140 Lux, en un rango de Result: Obtener todos los POI absolutos
entre 70 Lux como mı́nimo y 290 Lux máximo. imgRGB = cv2.cvtColor(frame, cv2.COLOR BGR2RGB)
El resultado final consiste de una recopilación de 548 vı́deos height, width, = frame.shape
profesionales para 12 gestos, cada categorı́a con un promedio results = holistic.process(imgRGB)
de 48 repeticiones y tres segundos de duración. Se realizó lmListBody = [] lmListLeft = [] lmListRight = []
utilizando la cámara Xiaomi CMSXJ22A con resolución de if results then
for number,lm in enumerate(results.body)
1920x1080 a 30 FPS.
do
cx, cy = int(lm.x * width), int(lm.y * height)
lmListBody.append([number, cx, cy])
end
Fig. 3. Numeración POI del cuerpo y la mano La segunda ecuación es el ángulo que se formara entre
el punto de interés y el eje horizontal teniendo al punto de
referencia como vértice.
1 PCK: Percentage of Detected Key-points (yi − y0 ) 180
2 Distance between predicted and true joint < 0.2 * torso diameter θi = arctan · (2)
(xi − x0 ) π
JUNE 2021 4
p
DistanciaM áxima = (1920)2 + (1080)2 = 2202.91 (4)
R EFERENCES
[1] “Organization de naciones unidas. objetivos de desarrollo sostenible
agenda 2030.”
[2] F. Ronchetti, F. Quiroga, C. Estrebou, L. Lanzarini, and A. Rosete,
“Lsa64: A dataset of argentinian sign language,” XX II Congreso
Argentino de Ciencias de la Computación (CACIC), 2016.
[3] A. C. Duarte, “Cross-modal neural sign language translation,” in Pro-
ceedings of the 27th ACM International Conference on Multimedia,
pp. 1650–1654, 2019.
[4] N. C. Camgoz, S. Hadfield, O. Koller, and R. Bowden, “Subunets: End-
to-end hand shape and continuous sign language recognition,” in 2017
IEEE International Conference on Computer Vision (ICCV), pp. 3075–
3084, IEEE, 2017.
[5] E. I. Pocoma Copa and J. A. Nava Amador, “Reconocimiento del
Alfabeto Dactilológico Boliviano Bajo Tecnologı́a de Visión por Com-
putador,” pp. 65–73, 2014.
[6] R. Troche and G. Sahonero Alvarez, “Sistema de visión artificial para
el reconocimiento del alfabeto dactilológico boliviano,” 2017.
[7] E. Tsironi, P. Barros, C. Weber, and S. Wermter, “An analysis of
Fig. 7. Curvas de Aprendizaje Bidireccionales Convolutional Long Short-Term Memory Recurrent Neural Networks
for gesture recognition,” Neurocomputing, vol. 268, no. 2017, pp. 76–
86, 2017.
Se puede considerar que se puede estar en niveles seme- [8] M. J. Cheok, Z. Omar, and M. H. Jaward, “A review of hand gesture and
jantes a los modelos propuestos en los trabajos del exterior sign language recognition techniques,” International Journal of Machine
que oscilan entre 80% y 92% de precision. Además que se Learning and Cybernetics, vol. 10, no. 1, pp. 131–153, 2019.
[9] Z. Xia, Q. Lei, Y. Yang, H. Zhang, Y. He, W. Wang, and M. Huang,
hizo pruebas con vı́deos de personas no acreditadas como “Vision-Based Hand Gesture Recognition for Human-Robot Collab-
interpretes de manera satisfactoria. oration: A Survey,” 2019 5th International Conference on Control,
Automation and Robotics, ICCAR 2019, pp. 198–205, 2019.
[10] C. Lugaresi, J. Tang, H. Nash, C. McClanahan, E. Uboweja, M. Hays,
F. Zhang, C.-L. Chang, M. G. Yong, J. Lee, et al., “Medi-
V. C ONCLUSIONES Y T RABAJO F UTURO apipe: A framework for building perception pipelines,” arXiv preprint
arXiv:1906.08172, 2019.
[11] D. Kragic Jensfelt, “Tracking of Humans in Video Stream Using LSTM
Se escogieron los modelos LSTMCuDNN y LSTM Bidi- Recurrent Neural Network,” Master Thesis, 2017.
rectional por su rendimiento en las matrices de confusión y [12] N. Granger and M. A. el Yacoubi, “Comparing hybrid nn-hmm and
su capacidad de inferencia en vı́deos fuera del dataset. De rnn for temporal modeling in gesture recognition,” in International
Conference on Neural Information Processing, pp. 147–156, Springer,
igual manera se desarrolló una interfaz para la visualización 2017.
y reproducción de audio de manera satisfactoria. [13] R. Pascanu, T. Mikolov, and Y. Bengio, “On the difficulty of training
recurrent neural networks,” in International conference on machine
learning, pp. 1310–1318, PMLR, 2013.