Documentos de Académico
Documentos de Profesional
Documentos de Cultura
TF1 Entregable 7 Lazarte Moyano
TF1 Entregable 7 Lazarte Moyano
Presentado por
Luis Armando Lazarte Pante
Mariana Danitza Moyano Mendoza
Capítulo 1
Introducción
No obstante, a nivel mundial, la discapacidad auditiva (DA) es de las que afecta a un mayor
número de personas. En efecto, se estima que alrededor de 466 millones de personas (5 %
de la población mundial) sufren de hipoacusia1 discapacitante, y se prevé que esta cifra
aumente a 900 millones para el 2050 (Organización Mundial de la Salud, 2023). Además,
existen aproximadamente 70 millones de personas sordas2 en todo el mundo, de las cuales
más del 80 % vive en países en desarrollo (Federación Mundial de Sordos, 2023).
En el Perú, se estima que la DA afecta a más de 560 mil 730 personas, de las cuales el
43 % son mujeres y 57 % hombres, y el mayor porcentaje se encuentra entre los 18 y 29
años (22.3 %), seguidos por los niños, niñas y adolescentes (20.9 %) y adultos entre 30 y
44 años (19.3 %) (Consejo Nacional para la Integración de la Persona con Discapacidad,
2016). Además, las personas con limitación permanente para oír, aun usando audífonos
para sordera, representan el 33.8 % de personas con discapacidad (Instituto Nacional de
Estadística e Informática, 2012).
1
El término hipoacusia hace referencia a una disminución de la capacidad auditiva, pero no necesaria-
mente implica la pérdida total de la audición (Díaz, Goycoolea y Cardemil, 2016).
2
El término sordera se utiliza para describir una pérdida auditiva más grave o incluso completa, en el
que incluso con el uso de dispositivos de asistencia, las dificultades para la comunicación siguen siendo
significativas.
Capítulo 1. Introducción 2
Así, han surgido diversos mecanismos y tecnologías de apoyo que buscan facilitar la comuni-
cación entre personas con DA y oyentes, como audífonos, implantes cocleares 3 , subtítulos4 ,
transcripciones, dispositivos de transmisión de sonido a través de vibraciones, sistemas de
alerta visual y lengua de señas (LS).
La LS es un sistema de reglas que usan las personas con DA o sordera con el fin de comuni-
car sus pensamientos, convicciones, aspiraciones y propósitos (García, 2002). No obstante,
la LS y el lenguaje oral tienen ciertas similitudes y diferencias. Por un lado, se asemejan
en que pueden dividirse en partes más pequeñas para formar nuevas palabras, es posible
hacer referencia al pasado, presente y futuro, y se organizan de un modo sistémico; esto
es, las señas hechas con ambas manos realizando el mismo movimiento tiene un significado
diferente al de la seña hecha con solo una de las manos (García, 2002). Por otro lado,
difieren en que en la LS la configuración o movimiento de las manos es vital para emitir
un mensaje dado que hay letras espacialmente parecidas5 , pero diferentes temporalmente6 ;
y que el orden de las señas es variable permitiendo aceptar hasta tres formas diferentes,
siendo la más compleja cuando el ordenamiento se produce de seña más concreta a más
abstracta (García, 2002).
Sin embargo, el proceso de glosado, además de ser complejo, implica un alto costo eco-
nómico. De acuerdo a una consulta particular a un intérprete de LSP8 en Lima, hemos
identificado que el precio promedio por una hora de sus servicios es de 100 soles y que el
3
El implante coclear es un transductor que transforma las señales acústicas en señales eléctricas que
estimulan el nervio auditivo (Manrique et al., 2019).
4
Además de especificar de manera sincronizada el parlamento oral y la imagen, también se debe indicar
quién habla cuando el origen del sonido no es evidente (Díaz Cintas, 2010).
5
El espacio es una dimensión en la LS que permite la transmisión de señales visuales usando elementos
manuales (forma de la mano, orientación de la palma y contacto o toque) o no manuales (expresiones
faciales; y movimiento del cuerpo, cabeza, boca, ojos y cejas) permitiendo ser percibidos visualmente por
los sordos e hipoacúsicos (Sánchez, 2014; Pfau, Steinbach y Woll, 2012).
6
El tiempo es una dimensión en la LS, permitiendo diferenciar señas que son espacialmente similares
(Sánchez, 2014).
7
“Es un sistema de transcripción convencional que permite describir la estructura sintáctica de la lengua
de señas, dar cuenta de las flexiones morfológicas y lograr una aproximación al contenido semántico de los
ítems léxicos sin alterar ni violentar el sistema lingüístico propio de la lengua en cuestión"(Fojo y Massone,
2012, p. 29).
8
El intérprete es una persona capacitada académica, profesional e intelectualmente para ejercer la
labor de convertir las expresiones de una lengua de señas en expresiones equivalentes de una lengua oral
y viceversa (Ministerio de Educación, 2014).
Capítulo 1. Introducción 3
tiempo necesario para que una persona aprenda LSP varía según su edad. Por lo general,
los jóvenes y adultos tienden a requerir más horas de aprendizaje. Esta situación dio lugar a
la necesidad de explorar nuevas alternativas para generar la glosa de manera automatizada,
y la inteligencia artificial se presenta como la única técnica capaz de lograrlo. Utilizando
videos, la inteligencia artificial es capaz de preservar tanto la dimensión temporal como la
espacial de las acciones humanas (Hernández García et al., 2014).
Según el Censo Nacional de Población y Vivienda del 2017, más del 80 % de personas sordas
no habían completado la educación básica (Instituto Nacional de Estadística e Informáti-
ca, 2017) y, para el 2018, solo el 20 % habían conseguido un puesto de trabajo (Quintana
y Aguilar, 2020). Además, si bien, en la actualidad, se encuentran disponibles 24 modelos
lingüísticos15 y 57 intérpretes de LSP (Ministerio de Educación, 2021), estos no se dan
abasto para las necesidades de esta comunidad, especialmente en el ámbito educativo (De-
fensoría del Pueblo, 2020). En ese sentido, dado que no se tienen los suficientes docentes
capacitados en LSP y, hasta el momento, no existe una herramienta que de un acompa-
ñamiento a las personas que desean aprender LSP de manera autodidacta, la situación
problemática identificada es la dificultad para el aprendizaje de este sistema lingüístico.
1.3. Objetivos
1.3.1. Objetivo general
El objetivo general del presente trabajo es desarrollar un sistema de reconocimiento del
alfabeto completo de lengua de señas peruana a partir de videos y técnicas de machine
learning.
1.4. Justificación
A nivel mundial existen más de 300 LS diferentes (Organización de las Naciones Unidas,
2023); no obstante, en cada país, se estructura un código propio el cual permite codificar su
deletreo en señas (García, 2002). Este contexto implica que cada LS posee características
particulares que requieren un estudio indepentiende. En el contexto peruano, son pocas
las investigaciones dedicadas al estudio de reconocimiento de LSP a través de técnicas de
machine learning que consideren las letras del alfabeto con movimiento.
Asimismo, las personas con DA no son una etnia aparte de los oyentes, sino son miembros
de una sociedad (Tovar, 2000); sin embargo, a pesar de que en el 2010 se promulgó la ley Nº
15
El modelo lingüístico es una persona sorda usuaria de la LSP que se vincula con la comunidad educativa
para facilitar el aprendizaje de LSP a estudiantes sordos (Ministerio de Educación, 2019).
Capítulo 1. Introducción 5
29935 que otorga el reconocimiento oficial a la LSP como lengua de las personas con DA en
todo el territorio nacional (Ley No. 29535 2010), la comunidad sorda continúa en estado
de vulnerabilidad y ha sido desplazada a un segundo plano por falta de reconocimiento y
difusión de la LSP (Ríos, 2021). Por lo tanto, parte de la inclusión comienza por generar
espacios en los que se pueda facilitar la comunicación entre los miembros de una sociedad.
En efecto, es necesario comprometer a toda la comunidad educativa para que docentes,
familias y estudiantes aprendan la LSP y sobre la cultura sorda (Ministerio de Educación,
2021).
Así, frente a la complejidad que implica aprender LSP y el déficit de modelos lingüísticos,
docentes e intérpretes de LS, existe una oportunidad para desarrollar un prototipo que
acompañe el proceso de aprendizaje de los estudiantes y les indique qué tan acertados son
sus movimientos al momento de desplegar una seña en específico. Tal como en el aprendiza-
je de cualquier otra lengua, las estrategias de enseñanza requieren de un acompañamiento
que nos guíe y corrija en el proceso (Muñoz Vilugrón et al., 2020). Por lo que esta herra-
mienta serviría como ayuda para una educación autodidacta o como complemento a las
sesiones educativas de LSP.
6
Capítulo 2
Marco teórico
En este capítulo, se desarrollarán las bases teóricas y el estado del arte referente a las
aplicaciones de machine learning para el reconocimiento del alfabeto de lengua de señas.
Las técnicas empleadas fueron Histogram Oriented Gradient (HOG) para la extracción de
características y; posteriormente, una comparación de desempeño entre modelos de clasi-
ficación como Support Vector Machine (SVM), K-Nearest Neighbors (KNN), Multi-Layer
Perceptron (MLP) y Random Forest (RF). Su mejor exactitud fue de 89.46 % y fue alcan-
zada con el modelo de SVM. Si bien su principal limitación fue que únicamente trabajaron
con letras del alfabeto estáticas y el reconocimiento quedó pendiente para aquellas letras
que incluyen movimiento como la J, Ñ y Z, se reconoce los niveles razonables de exactitud
que alcanzaron sus modelos con técnicas sencillas de machine learning.
de activación RELU, max pooling, flattening, dropout, capas densas en una Red Neuronal
Artificial (ANN) y una capa de salida con función de activación Softmax de 25 neuronas
con el fin de predecir la clase. Para medir la calidad del modelo y guiar el proceso de
entrenamiento, se utilizó la función de pérdida de Cross-Entropy Loss, junto con el opti-
mizador Adam, que ayudó a minimizar el mínimo global en la función de costo. Después
de 20 épocas, se obtuvo una exactitud de 99.6 %. Sin embargo, a pesar de alcanzar una
alta exactitud no se abordó aspectos relacionados con el ruido de fondo ni la dimensión
temporal de la LS.
Por otro lado, Chen et al. (2022) propusieron una solución para abordar la redundancia vi-
sual en imágenes con el objetivo de mejorar la interpretación del lenguaje de señas alemana
y china. Su enfoque se centra en transformar estas imágenes en glosas y posteriormente
estructurarlas en oraciones. Utilizan bases de libre acceso como Phoenix-2014(1), Phoenix-
2014T(2) y CSL-Daily(3). En su metodología, emplean un codificador visual dual con dos
flujos independientes. Cada uno de estos flujos utiliza una arquitectura S3D, previamen-
te entrenada para extraer representaciones densas de videos sin procesar y secuencias de
puntos clave de la cara, las manos y la parte superior del cuerpo. Para complementar esta
tarea, utilizan una arquitectura de HRNET previamente entrenada. Posteriormente, inte-
gran ambos flujos para el intercambio de información y aplican una técnica de ensemble
junto con la concatenación de resultados para mejorar la precisión en la predicción de las
glosas. Para reorganizar estas glosas en oraciones coherentes, utilizan una red de traducción
mBART también preentrenada. Además de su arquitectura, incorporan técnicas de super-
visión, como CTC Loss para secuencias de frames y Distillation Loss para una supervisión
adicional a nivel de fotogramas. Los resultados finales reflejan su eficacia, con un Word
Error Rate de 18.8 %(1), 19.3 %(2) y 25.3 %(3), un ROUGE-L de 51.6 %(2) y 54.9 %(3),
así como un BLEU-1 de 52.1 %(2) y 54.1 %(3). Sin embargo, a pesar de haber logrado
métricas superiores en comparación con modelos previos, este enfoque todavía depende
de una base de datos que contenga anotaciones de glosa precisas para cada segmento de
video con el fin de entrenarlo. Sin embargo, obtener esta información puede ser un desafío
considerable.
En esa misma línea, Li et al. (2020) introdujeron un enfoque para mejorar la traducción del
lenguaje de señas alemán mediante el aprendizaje de características de segmentos de vídeo
en diferentes escalas temporales. Utilizaron el conjunto de datos de libre acceso Phoenix-
2014T para este propósito. Su metodología implica la generación de segmentos de vídeo en
múltiples escalas, su extracción de características mediante una red convolucional 3D I3D
previamente entrenada y ajustada con conjuntos de datos de gestos de señas, la adición de
una capa de embedding posicional para enriquecer las características de los segmentos con
información sobre su posición en la secuencia, y la formación de vecindades circundantes
extendidas formadas por todos los segmentos pivote y de segmentos vecinos y no vecinos.
Capítulo 2. Marco teórico 9
Referencias Bibliográficas
Agaronnik, Nicole et al. (2019). «Communicating with patients with disability: Perspecti-
ves of practicing physicians». En: Journal of general internal medicine 34, págs. 1139-1145.
Artime, Miguel (2010). La primera imagen digital de la historia (1957). url: https :
//naukas.com/2010/11/10/la-primera-imagen-digital-de-la-historia-1957/.
Barrientos-Villalta, Geraldine Fiorella, Piero Quiroz y Willy Ugarte (2022). «Peruvian Sign
Language Recognition Using Recurrent Neural Networks». En: International Conferen-
ce on Advanced Research in Technologies, Information, Innovation and Sustainability.
Springer, págs. 459-473.
Berrú-Novoa, Bryan, Ricardo Gonzalez-Valenzuela y Pedro Shiguihara-Juarez (2018). «Pe-
ruvian sign language recognition using low resolution cameras». En: 2018 IEEE XXV
International Conference on Electronics, Electrical Engineering and Computing (IN-
TERCON). IEEE, págs. 1-4.
Carrasco, Pablo Javier Castro (2002). «Aprendizaje del lenguaje en niños sordos: funda-
mentos para la adquisición temprana de lenguaje de señas». En: Temas de Educación
19, págs. 14-27.
Chen, Yutong et al. (2022). «Two-stream network for sign language recognition and trans-
lation». En: Advances in Neural Information Processing Systems 35, págs. 17043-17056.
Consejo Nacional para la Integración de la Persona con Discapacidad (2016). Situación de
las Personas con Discapacidad Auditiva en el Perú. Lima, Perú.
Defensoría del Pueblo (2020). Defensoría del Pueblo: debe facilitarse el aprendizaje de la
lengua de señas peruana y promover la identidad lingüística y cultural de las personas
sordas. url: https : / / www .defensoria .gob .pe / defensoria -del -pueblo -debe
-facilitarse -el -aprendizaje -de -la -lengua -de -senas -peruana -y -promover -la
-identidad-linguistica-y-cultural-de-las-personas-sordas/.
Díaz, Constanza, Marcos Goycoolea y Felipe Cardemil (2016). «Hipoacusia: Trascendencia,
incidencia y prevalencia». En: Revista Médica Clínica Las Condes 27.6, págs. 731-739.
Díaz Cintas, Jorge (2010). «La accesibilidad a los medios de comunicación audiovisual a
través del subtitulado y de la audiodescripción». En: ESLEtRA.
Federación Mundial de Sordos (2023). Cifras mundiales. url: https://cas.org.ar/fms
-federacion-mundial-de-sordos/.
Referencias Bibliográficas 13
Organización de las Naciones Unidas (2023). Día Internacional de las Lenguas de Señas |
Naciones Unidas. url: https://www.un.org/es/observances/sign-languages-day.
Organización Mundial de la Salud (2023). Sordera y pérdida de la audición. url: https:
//www.who.int/es/health-topics/hearing-loss.
Pfau, Roland, Markus Steinbach y Bencie Woll (2012). Sign language: An international
handbook. Vol. 37. Walter de Gruyter.
Quintana, A y E Aguilar (2020). Resumen y recomendaciones para generar condiciones
favorables para la inclusión laboral de personas con discapacidad con énfasis en las mu-
jeres.
Ríos, Maricielo (2021). ¿Cuánto más se debe esperar?: Ausencia de interpretación de la len-
gua de señas en espacios primarios de nuestro país. url: https://www.enfoquederecho
.com/2021/04/18/cuanto-mas-se-debe-esperar-ausencia-de-interpretacion-de
-la-lengua-de-senas-en-espacios-primarios-de-nuestro-pais/.
Rodríguez, Rafael Fernández et al. (s.f.). «Reconocimiento de las señas estáticas del LSM
con características basadas en aprendizaje profundo». En: ().
Sánchez, Santiago Val (2014). «Lenguas de Se˜as: Dimensiones e Iconicidad. Esbozo para
una investigación basada en la teoría cinematrográfica». En: Publicación anual de la
Tecnicatura Universitaria en Interpretación LSU-Español-LSU (TUILSU), Facultad de
Humanidades y Ciencias de la Educación, Universidad de la República. Montevideo-
Uruguay Apareción diciembre 2014, pág. 129.
Sarma, Nihashree, Anjan Kumar Talukdar y Kandarpa Kumar Sarma (2021). «Real-
Time Indian Sign Language Recognition System using YOLOv3 Model». En: 2021
Sixth International Conference on Image Information Processing (ICIIP). Vol. 6. IEEE,
págs. 445-449.
Tovar, Lionel (2000). «La lengua escrita como segunda lengua para el niño sordo». En: El
bilingüismo de los sordos 1.4, págs. 74-88.
Valdés, Iris, Sonia Guerra y Magalis Camargo (2020). «Las habilidades de interacción so-
cial: un puente hacia la inclusión». En: Mendive. Revista de Educación 18.1, págs. 76-91.
Varela, Julio, CI Huerta-Solano y Oscar Tello (2017). «Apuntes para una Teoría de la
Lengua de Señas». En: Conductual, Revista Internacional de Interconductismo y Análisis
de Conducta 5.2, págs. 75-98.