Está en la página 1de 15

Reconocimiento del alfabeto de Lengua de

Señas Peruana (LSP) mediante técnicas de


machine learning considerando la
información temporal

Trabajo Final de Ingeniería de la Información I

Presentado por
Luis Armando Lazarte Pante
Mariana Danitza Moyano Mendoza

Profesor: Walter Aliaga Aliaga

Lima, 3 de octubre de 2023


1

Capítulo 1

Introducción

1.1. Contexto General


El lenguaje juega un papel fundamental como puente en todas las interacciones humanas
facilitando la expresión de pensamientos, emociones, conocimientos y la construcción de
relaciones significativas (Valdés, Guerra y Camargo, 2020). Sin embargo, cuando hay una
discapacidad de por medio, las barreras para una comunicación efectiva aumentan, espe-
cialmente para las personas sordas o con problemas de audición, ciegas o con baja visión
o si presentan alguna discapacidad intelectual (Agaronnik et al., 2019).

No obstante, a nivel mundial, la discapacidad auditiva (DA) es de las que afecta a un mayor
número de personas. En efecto, se estima que alrededor de 466 millones de personas (5 %
de la población mundial) sufren de hipoacusia1 discapacitante, y se prevé que esta cifra
aumente a 900 millones para el 2050 (Organización Mundial de la Salud, 2023). Además,
existen aproximadamente 70 millones de personas sordas2 en todo el mundo, de las cuales
más del 80 % vive en países en desarrollo (Federación Mundial de Sordos, 2023).

En el Perú, se estima que la DA afecta a más de 560 mil 730 personas, de las cuales el
43 % son mujeres y 57 % hombres, y el mayor porcentaje se encuentra entre los 18 y 29
años (22.3 %), seguidos por los niños, niñas y adolescentes (20.9 %) y adultos entre 30 y
44 años (19.3 %) (Consejo Nacional para la Integración de la Persona con Discapacidad,
2016). Además, las personas con limitación permanente para oír, aun usando audífonos
para sordera, representan el 33.8 % de personas con discapacidad (Instituto Nacional de
Estadística e Informática, 2012).
1
El término hipoacusia hace referencia a una disminución de la capacidad auditiva, pero no necesaria-
mente implica la pérdida total de la audición (Díaz, Goycoolea y Cardemil, 2016).
2
El término sordera se utiliza para describir una pérdida auditiva más grave o incluso completa, en el
que incluso con el uso de dispositivos de asistencia, las dificultades para la comunicación siguen siendo
significativas.
Capítulo 1. Introducción 2

Así, han surgido diversos mecanismos y tecnologías de apoyo que buscan facilitar la comuni-
cación entre personas con DA y oyentes, como audífonos, implantes cocleares 3 , subtítulos4 ,
transcripciones, dispositivos de transmisión de sonido a través de vibraciones, sistemas de
alerta visual y lengua de señas (LS).

La LS es un sistema de reglas que usan las personas con DA o sordera con el fin de comuni-
car sus pensamientos, convicciones, aspiraciones y propósitos (García, 2002). No obstante,
la LS y el lenguaje oral tienen ciertas similitudes y diferencias. Por un lado, se asemejan
en que pueden dividirse en partes más pequeñas para formar nuevas palabras, es posible
hacer referencia al pasado, presente y futuro, y se organizan de un modo sistémico; esto
es, las señas hechas con ambas manos realizando el mismo movimiento tiene un significado
diferente al de la seña hecha con solo una de las manos (García, 2002). Por otro lado,
difieren en que en la LS la configuración o movimiento de las manos es vital para emitir
un mensaje dado que hay letras espacialmente parecidas5 , pero diferentes temporalmente6 ;
y que el orden de las señas es variable permitiendo aceptar hasta tres formas diferentes,
siendo la más compleja cuando el ordenamiento se produce de seña más concreta a más
abstracta (García, 2002).

Así, la LS se caracteriza por su notable dinamismo y flexibilidad, lo que la convierte en


un sistema lingüístico de mayor complejidad, especialmente al tratar de representarla en
un formato de glosa7 . Esta complejidad surge de la necesidad de abordar simultáneamente
las dimensiones temporal y espacial, lo que dificulta la obtención de una glosa precisa
(Sánchez, 2014). En este contexto, es importante representar de manera secuencial lo que
en la lengua de señas se percibe de manera simultánea.

Sin embargo, el proceso de glosado, además de ser complejo, implica un alto costo eco-
nómico. De acuerdo a una consulta particular a un intérprete de LSP8 en Lima, hemos
identificado que el precio promedio por una hora de sus servicios es de 100 soles y que el
3
El implante coclear es un transductor que transforma las señales acústicas en señales eléctricas que
estimulan el nervio auditivo (Manrique et al., 2019).
4
Además de especificar de manera sincronizada el parlamento oral y la imagen, también se debe indicar
quién habla cuando el origen del sonido no es evidente (Díaz Cintas, 2010).
5
El espacio es una dimensión en la LS que permite la transmisión de señales visuales usando elementos
manuales (forma de la mano, orientación de la palma y contacto o toque) o no manuales (expresiones
faciales; y movimiento del cuerpo, cabeza, boca, ojos y cejas) permitiendo ser percibidos visualmente por
los sordos e hipoacúsicos (Sánchez, 2014; Pfau, Steinbach y Woll, 2012).
6
El tiempo es una dimensión en la LS, permitiendo diferenciar señas que son espacialmente similares
(Sánchez, 2014).
7
“Es un sistema de transcripción convencional que permite describir la estructura sintáctica de la lengua
de señas, dar cuenta de las flexiones morfológicas y lograr una aproximación al contenido semántico de los
ítems léxicos sin alterar ni violentar el sistema lingüístico propio de la lengua en cuestión"(Fojo y Massone,
2012, p. 29).
8
El intérprete es una persona capacitada académica, profesional e intelectualmente para ejercer la
labor de convertir las expresiones de una lengua de señas en expresiones equivalentes de una lengua oral
y viceversa (Ministerio de Educación, 2014).
Capítulo 1. Introducción 3

tiempo necesario para que una persona aprenda LSP varía según su edad. Por lo general,
los jóvenes y adultos tienden a requerir más horas de aprendizaje. Esta situación dio lugar a
la necesidad de explorar nuevas alternativas para generar la glosa de manera automatizada,
y la inteligencia artificial se presenta como la única técnica capaz de lograrlo. Utilizando
videos, la inteligencia artificial es capaz de preservar tanto la dimensión temporal como la
espacial de las acciones humanas (Hernández García et al., 2014).

En este contexto, se han desarrollado modelos de machine learning y deep learning, ya


sea de forma conjunta o por separado, con el objetivo de abordar simultáneamente las
dimensiones de la LS. Por un lado, machine learning se encarga de la clasificación de las
señas. Sin embargo, dependiendo de cómo se aborde el procesamiento de videos, puede
ser necesario recurrir a deep learning para reducir el tamaño actual de los fotogramas de
video9 . Esto ayuda a evitar un mayor costo computacional, overfitting y la dificultad para
identificar patrones (Hernández García et al., 2014).

En ese sentido, los modelos desarrollados presentan cuatro enfoques de interpretación:


señas estáticas10 , señas dinámicas11 , palabras12 y oraciones13 ; los cuales tienen la finalidad
de facilitar la comunicación entre personas sordas y oyentes.

1.2. Situación Problemática


Cada persona utiliza su primera lengua aprendida como herramienta vital para lograr la
comunicación con sus pares (Carrasco, 2002). A pesar de que las personas con discapacidad
auditiva pueden llegar a expresar la lengua de señas antes que las personas oyentes se
expresan usando el lenguaje oral14 , los datos revelan que la comunidad sorda enfrenta
grandes barreras de comunicación hacia el acceso a la información, educación, contratación
y desarrollo profesional(Instituto Nacional de Estadística e Informática, 2017; Quintana
y Aguilar, 2020).
9
La primera fotografía digital tenía una resolución de 176x176 píxeles(1957); no obstante, en la actua-
lidad, existen fotografías que superan los 100 millones de píxeles (Artime, 2010).
10
El enfoque en las señas estáticas se define como el glosado de señas que no requieren movimiento,
considerando únicamente la dimensión espacial (Lazo, Sanchez y Carpio, 2018; Rodríguez et al., s.f.).
11
El enfoque en las señas dinámicas se define el glosado de señas que requieren movimiento, considerando
tanto la dimensión temporal como la espacial.
12
El enfoque en la palabra se define como el reconocimiento de palabras a partir de un video de señas,
teniendo en cuenta tanto la dimensión temporal como la espacial (Chen et al., 2022).
13
El enfoque en las oraciones se define como la traducción de señas a oraciones a partir de un video,
teniendo en cuenta tanto la dependencia temporal como la apariencia espacial (Chen et al., 2022; Li et al.,
2020).
14
Debido a que en el primer grupo su motricidad viso-manual madura antes que la motricidad oro-
fonatoria (Juncos et al., 1997).
Capítulo 1. Introducción 4

Según el Censo Nacional de Población y Vivienda del 2017, más del 80 % de personas sordas
no habían completado la educación básica (Instituto Nacional de Estadística e Informáti-
ca, 2017) y, para el 2018, solo el 20 % habían conseguido un puesto de trabajo (Quintana
y Aguilar, 2020). Además, si bien, en la actualidad, se encuentran disponibles 24 modelos
lingüísticos15 y 57 intérpretes de LSP (Ministerio de Educación, 2021), estos no se dan
abasto para las necesidades de esta comunidad, especialmente en el ámbito educativo (De-
fensoría del Pueblo, 2020). En ese sentido, dado que no se tienen los suficientes docentes
capacitados en LSP y, hasta el momento, no existe una herramienta que de un acompa-
ñamiento a las personas que desean aprender LSP de manera autodidacta, la situación
problemática identificada es la dificultad para el aprendizaje de este sistema lingüístico.

1.3. Objetivos
1.3.1. Objetivo general
El objetivo general del presente trabajo es desarrollar un sistema de reconocimiento del
alfabeto completo de lengua de señas peruana a partir de videos y técnicas de machine
learning.

1.3.2. Objetivos específicos


1. Construir una base de datos de videos sobre la representación de las letras del alfabeto
de la LSP.

2. Diseñar un modelo de machine learning para la base de datos planteada.

3. Establecer la mejor configuración del modelo propuesto en base a métricas de de-


sempeño.

1.4. Justificación
A nivel mundial existen más de 300 LS diferentes (Organización de las Naciones Unidas,
2023); no obstante, en cada país, se estructura un código propio el cual permite codificar su
deletreo en señas (García, 2002). Este contexto implica que cada LS posee características
particulares que requieren un estudio indepentiende. En el contexto peruano, son pocas
las investigaciones dedicadas al estudio de reconocimiento de LSP a través de técnicas de
machine learning que consideren las letras del alfabeto con movimiento.

Asimismo, las personas con DA no son una etnia aparte de los oyentes, sino son miembros
de una sociedad (Tovar, 2000); sin embargo, a pesar de que en el 2010 se promulgó la ley Nº
15
El modelo lingüístico es una persona sorda usuaria de la LSP que se vincula con la comunidad educativa
para facilitar el aprendizaje de LSP a estudiantes sordos (Ministerio de Educación, 2019).
Capítulo 1. Introducción 5

29935 que otorga el reconocimiento oficial a la LSP como lengua de las personas con DA en
todo el territorio nacional (Ley No. 29535 2010), la comunidad sorda continúa en estado
de vulnerabilidad y ha sido desplazada a un segundo plano por falta de reconocimiento y
difusión de la LSP (Ríos, 2021). Por lo tanto, parte de la inclusión comienza por generar
espacios en los que se pueda facilitar la comunicación entre los miembros de una sociedad.
En efecto, es necesario comprometer a toda la comunidad educativa para que docentes,
familias y estudiantes aprendan la LSP y sobre la cultura sorda (Ministerio de Educación,
2021).

Así, frente a la complejidad que implica aprender LSP y el déficit de modelos lingüísticos,
docentes e intérpretes de LS, existe una oportunidad para desarrollar un prototipo que
acompañe el proceso de aprendizaje de los estudiantes y les indique qué tan acertados son
sus movimientos al momento de desplegar una seña en específico. Tal como en el aprendiza-
je de cualquier otra lengua, las estrategias de enseñanza requieren de un acompañamiento
que nos guíe y corrija en el proceso (Muñoz Vilugrón et al., 2020). Por lo que esta herra-
mienta serviría como ayuda para una educación autodidacta o como complemento a las
sesiones educativas de LSP.
6

Capítulo 2

Marco teórico

En este capítulo, se desarrollarán las bases teóricas y el estado del arte referente a las
aplicaciones de machine learning para el reconocimiento del alfabeto de lengua de señas.

2.1. Estado del arte


Dentro de la literatura referente a reconocimiento del alfabeto lengua de señas, existen
diferentes técnicas tanto de captura de datos como de procesamiento de los mismos. Así,
esta sección se ha dividido principalmente entre los aportes locales e internacionales, debido
a que la lengua de señas es propia de cada región y cada comunidad ha desarrollado sus
propios signos visuales (Varela, Huerta-Solano y Tello, 2017), lo cual implica que cada uno
de estos sistemas lingüísticos sea estudiado con detenimiento.

2.1.1. Contexto nacional


A nivel local, la mayoría de antecedentes se han enfocado únicamente en el reconocimiento
de las letras estáticas, aquellas que no implican ningún movimiento para su representación,
del alfabeto de LSP a partir de imágenes o señales provenientes de sensores. No obstante,
a partir del 2020, nuevos estudios comienzan a emplear videos tanto para el desarrollo de
estándares de anotación de videos de LS o de traducción, pero aplicados a palabras de un
contexto determinado. Si bien existe un avance respecto al empleo de videos en lugar de
imágenes, aún hay un vacío respecto a lo realizado respecto al alfabeto de LSP, ya que no
existe nigún estudio que haya tomado en cuenta el alfabeto completo, incluyendo las letras
que requieren de movimientos para su representación.

Por un lado, Berrú-Novoa, Gonzalez-Valenzuela y Shiguihara-Juarez (2018) plantearon un


modelo de reconocimiento estático para 24 letras del alfabeto de LSP. Así, construyeron
una base de datos propia con apoyo de diez personas sordas de la organización Enseñas
Perú, quienes representaron diez veces cada una de las letras seleccionadas en un ambien-
te controlado tanto en fondo como en iluminación, obteniendo en total 2400 imágenes.
Capítulo 2. Marco teórico 7

Las técnicas empleadas fueron Histogram Oriented Gradient (HOG) para la extracción de
características y; posteriormente, una comparación de desempeño entre modelos de clasi-
ficación como Support Vector Machine (SVM), K-Nearest Neighbors (KNN), Multi-Layer
Perceptron (MLP) y Random Forest (RF). Su mejor exactitud fue de 89.46 % y fue alcan-
zada con el modelo de SVM. Si bien su principal limitación fue que únicamente trabajaron
con letras del alfabeto estáticas y el reconocimiento quedó pendiente para aquellas letras
que incluyen movimiento como la J, Ñ y Z, se reconoce los niveles razonables de exactitud
que alcanzaron sus modelos con técnicas sencillas de machine learning.

Por otro lado, Barrientos-Villalta, Quiroz y Ugarte (2022) desarrollaron un prototipo de


aplicación móvil para la traducción de palabras de LSP a texto a partir de videos. Así,
construyeron una base de datos de 17 palabras de contexto médico representadas en 439
videos con 8 personas diferentes. Para el procesamiento, consideraron 4 escenarios, uno sin
aplicación de filtros, otro con filtro Wiener, otro con filtro de mediana y; por último, uno
con filtro Wiener y mediana1 . Posteriormente, dividieron los videos en 30 fotogramas, de
los cuales se extrajeron puntos claves de la postura, manos y esqueleto de la persona con la
librería MediaPipe. Para el modelo de reconocimiento usaron una red de Long Short Tem
Memory (LSTM), que recibió como input matrices con las coordenadas y la secuencia del
video. Adicionalmente, realizaron experimentos considerando grupos de palabras de 3, 5 y
7. Finalmente, el modelo que alcanzó la mejor exactitud de 61.67 % fue con la combinación
de filtro Wiener y mediana con grupos de 3 palabras. Si bien los valores de exactitud
obtenidos por su modelo no fueron los mejores, lo resaltante de este estudio es el uso de
videos y consideración de la información temporal; hasta entonces muy poco aplicado en
el contexto peruano, así como también el contexto médico al que delimitaron el problema
identificado.

2.1.2. Contexto internacional


A nivel internacional, la mayoría de las investigaciones se han centrado en el reconocimiento
y la traducción de LS de palabras y oraciones. Estas investigaciones hacen un amplio uso
de la transferencia de aprendizaje y consideran la dimensión temporal y espacial de la LS.

Por un lado, Kumar et al. (2021) propusieron un sistema de reconocimiento de 24 letras


del alfabeto del American Sign Language, excluyendo letras en movimiento como la ‘J’ y
‘Z’. Utilizaron una base de datos de 34,627 imágenes previamente recortadas. Su metodo-
logía inicia con una normalización para contrarrestar el efecto de la iluminación y para
aumentar la cantidad de imágenes aplicaron data augmentation. Asimismo, la arquitectura
del modelo de CNN se configura con una combinación de capas convoluciones 2D, función
1
Señalaron que el filtro Wiener fue utilizado para reducir el ruido de fondo y la borrosidad y; el filtro
de mediana, para suavizar los cambios realizados. (Barrientos-Villalta, Quiroz y Ugarte, 2022).
Capítulo 2. Marco teórico 8

de activación RELU, max pooling, flattening, dropout, capas densas en una Red Neuronal
Artificial (ANN) y una capa de salida con función de activación Softmax de 25 neuronas
con el fin de predecir la clase. Para medir la calidad del modelo y guiar el proceso de
entrenamiento, se utilizó la función de pérdida de Cross-Entropy Loss, junto con el opti-
mizador Adam, que ayudó a minimizar el mínimo global en la función de costo. Después
de 20 épocas, se obtuvo una exactitud de 99.6 %. Sin embargo, a pesar de alcanzar una
alta exactitud no se abordó aspectos relacionados con el ruido de fondo ni la dimensión
temporal de la LS.

Por otro lado, Chen et al. (2022) propusieron una solución para abordar la redundancia vi-
sual en imágenes con el objetivo de mejorar la interpretación del lenguaje de señas alemana
y china. Su enfoque se centra en transformar estas imágenes en glosas y posteriormente
estructurarlas en oraciones. Utilizan bases de libre acceso como Phoenix-2014(1), Phoenix-
2014T(2) y CSL-Daily(3). En su metodología, emplean un codificador visual dual con dos
flujos independientes. Cada uno de estos flujos utiliza una arquitectura S3D, previamen-
te entrenada para extraer representaciones densas de videos sin procesar y secuencias de
puntos clave de la cara, las manos y la parte superior del cuerpo. Para complementar esta
tarea, utilizan una arquitectura de HRNET previamente entrenada. Posteriormente, inte-
gran ambos flujos para el intercambio de información y aplican una técnica de ensemble
junto con la concatenación de resultados para mejorar la precisión en la predicción de las
glosas. Para reorganizar estas glosas en oraciones coherentes, utilizan una red de traducción
mBART también preentrenada. Además de su arquitectura, incorporan técnicas de super-
visión, como CTC Loss para secuencias de frames y Distillation Loss para una supervisión
adicional a nivel de fotogramas. Los resultados finales reflejan su eficacia, con un Word
Error Rate de 18.8 %(1), 19.3 %(2) y 25.3 %(3), un ROUGE-L de 51.6 %(2) y 54.9 %(3),
así como un BLEU-1 de 52.1 %(2) y 54.1 %(3). Sin embargo, a pesar de haber logrado
métricas superiores en comparación con modelos previos, este enfoque todavía depende
de una base de datos que contenga anotaciones de glosa precisas para cada segmento de
video con el fin de entrenarlo. Sin embargo, obtener esta información puede ser un desafío
considerable.

En esa misma línea, Li et al. (2020) introdujeron un enfoque para mejorar la traducción del
lenguaje de señas alemán mediante el aprendizaje de características de segmentos de vídeo
en diferentes escalas temporales. Utilizaron el conjunto de datos de libre acceso Phoenix-
2014T para este propósito. Su metodología implica la generación de segmentos de vídeo en
múltiples escalas, su extracción de características mediante una red convolucional 3D I3D
previamente entrenada y ajustada con conjuntos de datos de gestos de señas, la adición de
una capa de embedding posicional para enriquecer las características de los segmentos con
información sobre su posición en la secuencia, y la formación de vecindades circundantes
extendidas formadas por todos los segmentos pivote y de segmentos vecinos y no vecinos.
Capítulo 2. Marco teórico 9

Además, aplicaron scaled dot-product attention para agregar características de segmentos


vecinos y no vecinos al segmento pivote, seguido de dos capas fully connected antes de
entrar en el decodificador Transformer para la traducción. El entrenamiento se realizó con
Cross-Entropy Loss y el optimizador Adam, lo que resultó en un ROUGE-L de 34.9 % y un
BLEU-1 de 36.1 % como resultados finales. Aunque esta metodología ha logrado resultados
superiores en comparación con otros enfoques de bootstrapping, podría mejorarse aún más
si se prestará atención a aspectos como la estimación de puntos clave.

Finalmente, Sarma, Talukdar y Sarma (2021) desarrollaron un sistema de reconocimiento


en tiempo real de Lengua de Señas de la India. Su base de datos estuvo compuesta por
imágenes y videos. En la primera fase, se emplearon 780 imágenes para el reconocimiento
de 16 señas estáticas. Cada clase contaba con 48 imágenes en promedio y fueron redi-
mensionadas a un tamaño de 428x721 píxeles. Para la segunda fase, se usaron 35 videos
en total para 7 clases, los cuales fueron convertidos en fotogramas a 26 fps. Cada uno
de estos datos fueron etiquetados de manera manual en formato texto para que puedan
ser compatibles con YOLO. Así, aplicaron la estructura YOLOv3, también conocida co-
mo DarkNet, modelo que fue entrenado con 32,000 iteraciones para los datos estáticos y
14,000 iteraciones para los dinámicos. Finalmente, para medir el desempeño del modelo
utilizaron las métricas de precisión, sensibilidad, F1 y exactitud. El modelo con gestos
estáticos alcanzó 93.68 %, 96.06 %, 94.85 % y 95.7 %, respectivamente; mientras que, para
gestos dinámicos alcanzó 92.34 %, 93.40 %, 92.87 % y 93.1 %, respectivamente. Además,
resaltaron que una gran ventaja de este modelo es la gran velocidad de reconocimiento así
como también en desempeño. El aporte de este estudio es la inclusión del reconocimiento
en tiempo real; además, los altos valores de exactitud alcanzados con este modelo invitan
a probar la efectividad de esta técnica con otras bases de datos.

A continuación, en el Cuadro 2.1, se presenta un resumen de las referencias bibliográ-


ficas mencionadas. No obstante, en el Apéndice A, se pueden encontrar las referencias
adicionales que fueron revisadas para este trabajo de investigación.
Capítulo 2. Marco teórico 10

Cuadro 2.1: Resumen de referencias bibliográficas.

Autor(es) Base de datos Técnica(s) Métricas


Berrú 24 letras estáticas del alfabeto HOG + Exactitud -
Novoa et LSP (excluyendo la J, Ñ y Z). SVM, KNN, SVM: 89.46 %,
al. (2018) 2,400 imágenes (100 por cada le- MLP, RF KNN: 89.17 %,
tra) capturadas en un ambiente MLP: 86.93 %,
controlado y con 10 personas di- RF: 86.03 %
ferentes.
Barrientos 17 palabras de contexto médico MediaPipe + Exactitud:
et al. representadas en un total de 439 LSTM 61.67 %
(2022) videos con 8 personas diferentes.
Kumar et 24 letras estáticas del alfabeto de CNN + Exactitud:
al. (2021) Lengua de Señas Americana (ex- ANN 99.63 %
cluyendo la J y Z). 34,627 imáge-
nes en total, capturadas en am-
bientes con diferentes fondos.
Chen et Lengua de Señas Alemana y Redes S3D, Tasa de Error de
al., 2022 la Lengua de Señas China. HRNET + Palabra 18.8 %
(1) Phoenix-2014 (3,000 palabras mBART (1), 19.3 %
en alemán). (2) Phoenix-2014T (2) y 25.3 %
(1,066 para glosas y 2,887 para (3), Rouge-L
texto en alemán). (3) CSL-Daily 51.59 % (2) y
(2,000 para glosas y 2,343 para 54.92 % (3),
texto chino). Bleu-1 52.11 %
(2) y 54.08 %
(3)
Li et al. Lengua de Señas Alemana. Red con- Rouge-L:
(2020) Phoenix-2014T (1,066 para volucional 34.96 %, Bleu-1:
glosas y 2,887 para texto en 3D I3D, 36.10 %
alemán) atención de
producto es-
calado + red
Transformer
Sarma et 780 imágenes para 16 palabras YOLOv3 Exactitud -
al. (2021) estáticas y 35 videos para 7 pa- Datos estáticos:
labras dinámicas 95.7 %, Da-
tos dinámicos:
93.1 %
Fuente: Elaboración propia.
Capítulo 2. Marco teórico 11

2.2. Contraste con estudios previos


A partir de la revisión de la literatura, se pudo identificar la evolución tanto en las técnicas
empleadas como en las características de las bases de datos. Se pasó del uso de imágenes
para la clasificación de señas estáticas, al empleo de videos para una clasificación que tome
en cuenta los movimientos presentes en toda LS. Así, la tendencia actual está enfocada
en el uso de videos para reconocimiento de palabras y oraciones. No obstante, si bien a
nivel nacional también se ha dado el salto de imágenes a videos, estos han sido utilizados
directamente para el recocimiento de palabras. Sin embargo, ningún trabajo previo ha
completado el estudio de las letras del alfabeto de LSP que implican movimiento. Por
ello, con el fin de cerrar esta brecha, el presente trabajo se enfoca precisamente en el
reconocimiento del alfabeto completo de LSP, incluyendo las letras estáticas y dinámicas.
12

Referencias Bibliográficas

Agaronnik, Nicole et al. (2019). «Communicating with patients with disability: Perspecti-
ves of practicing physicians». En: Journal of general internal medicine 34, págs. 1139-1145.
Artime, Miguel (2010). La primera imagen digital de la historia (1957). url: https :
//naukas.com/2010/11/10/la-primera-imagen-digital-de-la-historia-1957/.
Barrientos-Villalta, Geraldine Fiorella, Piero Quiroz y Willy Ugarte (2022). «Peruvian Sign
Language Recognition Using Recurrent Neural Networks». En: International Conferen-
ce on Advanced Research in Technologies, Information, Innovation and Sustainability.
Springer, págs. 459-473.
Berrú-Novoa, Bryan, Ricardo Gonzalez-Valenzuela y Pedro Shiguihara-Juarez (2018). «Pe-
ruvian sign language recognition using low resolution cameras». En: 2018 IEEE XXV
International Conference on Electronics, Electrical Engineering and Computing (IN-
TERCON). IEEE, págs. 1-4.
Carrasco, Pablo Javier Castro (2002). «Aprendizaje del lenguaje en niños sordos: funda-
mentos para la adquisición temprana de lenguaje de señas». En: Temas de Educación
19, págs. 14-27.
Chen, Yutong et al. (2022). «Two-stream network for sign language recognition and trans-
lation». En: Advances in Neural Information Processing Systems 35, págs. 17043-17056.
Consejo Nacional para la Integración de la Persona con Discapacidad (2016). Situación de
las Personas con Discapacidad Auditiva en el Perú. Lima, Perú.
Defensoría del Pueblo (2020). Defensoría del Pueblo: debe facilitarse el aprendizaje de la
lengua de señas peruana y promover la identidad lingüística y cultural de las personas
sordas. url: https : / / www .defensoria .gob .pe / defensoria -del -pueblo -debe
-facilitarse -el -aprendizaje -de -la -lengua -de -senas -peruana -y -promover -la
-identidad-linguistica-y-cultural-de-las-personas-sordas/.
Díaz, Constanza, Marcos Goycoolea y Felipe Cardemil (2016). «Hipoacusia: Trascendencia,
incidencia y prevalencia». En: Revista Médica Clínica Las Condes 27.6, págs. 731-739.
Díaz Cintas, Jorge (2010). «La accesibilidad a los medios de comunicación audiovisual a
través del subtitulado y de la audiodescripción». En: ESLEtRA.
Federación Mundial de Sordos (2023). Cifras mundiales. url: https://cas.org.ar/fms
-federacion-mundial-de-sordos/.
Referencias Bibliográficas 13

Fojo, Alejandro y María Ignacia Massone (2012). «Estructuras lingüísticas de la Lengua


de Señas Uruguaya». En: Montevideo: TUILSU/UDELAR.
García, Irene Sofía (2002). «Lenguaje de señas entre niños sordos de padres sordos y
oyentes». En.
Hernández García, Ruber et al. (2014). «Modelos de representación de características para
la clasificación de acciones humanas en video: estado del arte». En: Revista Cubana de
Ciencias Informáticas 8.4, págs. 21-51.
Instituto Nacional de Estadística e Informática (2012). Primera Encuesta Nacional Espe-
cializada sobre Discapacidad 2012. Lima, Perú.
– (2017). Censo Nacional de Población y Vivienda 2017.
Juncos, Onésimo et al. (1997). «Primeras palabras en la lengua de signos española (LSE).
Estructura formal, semántica y contextual». En: Revista de Logopedia, Foniatría y Au-
diología 17.3, págs. 170-180.
Kumar, Mayand et al. (2021). «Sign Language Alphabet Recognition Using Convolution
Neural Network». En: 2021 5th International Conference on Intelligent Computing and
Control Systems (ICICCS). IEEE, págs. 1859-1865.
Lazo, Cristian, Zaid Sanchez y Christian del Carpio (2018). «A static hand gesture recog-
nition for peruvian sign language using digital image processing and deep learning». En:
Brazilian Technology Symposium. Springer, págs. 281-290.
Ley No. 29535 (2010). Ley que Otorga Reconocimiento Oficial a la Lengua de Señas
Peruana, Diario Oficial El Peruano, No. 29535, pp. 419231–419232.
Li, Dongxu et al. (2020). «Tspnet: Hierarchical feature learning via temporal semantic
pyramid for sign language translation». En: Advances in Neural Information Processing
Systems 33, págs. 12034-12045.
Manrique, Manuel et al. (2019). «Guía clínica sobre implantes cocleares». En: Acta Oto-
rrinolaringológica Española 70.1, págs. 47-54.
Ministerio de Educación (2014). Requisitos y perfil profesional del intérprete de Lengua de
Señas Peruana.
– (2019). Perfil profesional del modelo lingüístico de Lengua de Señas Peruana.
– (2021). Modelos lingüísticos de Lima y Provincias conversaron sobre la inclusión de
la lengua de señas educativas durante la pandemia. Accessed on September 6, 2023.
url: https : / / www .gob .pe / institucion / minedu / noticias / 512678 -modelos
-linguisticos -de -lima -y -provincias -conversaron -sobre -la -inclusion -de
-la-lengua-de-senas-educativas-durante-la-pandemia.
Muñoz Vilugrón, Karina Andrea et al. (2020). «Coeducador y Modelo lingüístico: Presencia
de la comunidad sorda en el contexto educativo chileno y colombiano». En: Perspectiva
Educacional 59.2, págs. 136-162.
Referencias Bibliográficas 14

Organización de las Naciones Unidas (2023). Día Internacional de las Lenguas de Señas |
Naciones Unidas. url: https://www.un.org/es/observances/sign-languages-day.
Organización Mundial de la Salud (2023). Sordera y pérdida de la audición. url: https:
//www.who.int/es/health-topics/hearing-loss.
Pfau, Roland, Markus Steinbach y Bencie Woll (2012). Sign language: An international
handbook. Vol. 37. Walter de Gruyter.
Quintana, A y E Aguilar (2020). Resumen y recomendaciones para generar condiciones
favorables para la inclusión laboral de personas con discapacidad con énfasis en las mu-
jeres.
Ríos, Maricielo (2021). ¿Cuánto más se debe esperar?: Ausencia de interpretación de la len-
gua de señas en espacios primarios de nuestro país. url: https://www.enfoquederecho
.com/2021/04/18/cuanto-mas-se-debe-esperar-ausencia-de-interpretacion-de
-la-lengua-de-senas-en-espacios-primarios-de-nuestro-pais/.
Rodríguez, Rafael Fernández et al. (s.f.). «Reconocimiento de las señas estáticas del LSM
con características basadas en aprendizaje profundo». En: ().
Sánchez, Santiago Val (2014). «Lenguas de Se˜as: Dimensiones e Iconicidad. Esbozo para
una investigación basada en la teoría cinematrográfica». En: Publicación anual de la
Tecnicatura Universitaria en Interpretación LSU-Español-LSU (TUILSU), Facultad de
Humanidades y Ciencias de la Educación, Universidad de la República. Montevideo-
Uruguay Apareción diciembre 2014, pág. 129.
Sarma, Nihashree, Anjan Kumar Talukdar y Kandarpa Kumar Sarma (2021). «Real-
Time Indian Sign Language Recognition System using YOLOv3 Model». En: 2021
Sixth International Conference on Image Information Processing (ICIIP). Vol. 6. IEEE,
págs. 445-449.
Tovar, Lionel (2000). «La lengua escrita como segunda lengua para el niño sordo». En: El
bilingüismo de los sordos 1.4, págs. 74-88.
Valdés, Iris, Sonia Guerra y Magalis Camargo (2020). «Las habilidades de interacción so-
cial: un puente hacia la inclusión». En: Mendive. Revista de Educación 18.1, págs. 76-91.
Varela, Julio, CI Huerta-Solano y Oscar Tello (2017). «Apuntes para una Teoría de la
Lengua de Señas». En: Conductual, Revista Internacional de Interconductismo y Análisis
de Conducta 5.2, págs. 75-98.

También podría gustarte