Está en la página 1de 4

XXIII CONGRESO ARGENTINO DE BIOINGENIERÍA Y XII JORNADAS DE INGENIERÍA CLÍNICA – SABI 2022 1

Assistive prototype using speech recognition and


eye tracking
Luciano Recalde1, Carolina Villegas1,
José Núñez1 and César Yegros1

1
Grupo de Investigación en Ingeniería Biomédica (GIIB), Facultad Politécnica, Universidad Nacional de Asunción,
San Lorenzo, Paraguay.

Abstract— According to the PAHO, it is estimated that 15% of the population, around 1 billion people worldwide, live with a
disability. In the Americas region alone, around 140 million people live with some type of disability. One of the biggest barriers
encountered by people with disabilities is the fact that such a condition limits their ability to fully interact with their environment.
Therefore, it is necessary to offer tools that can help to solve this problem. The project seeks to provide help to people who, due to
their condition, find it difficult to use information and communication access technologies, such as computers, mobile devices, etc.
A prototype that uses Voice command and eye tracking was developed to be used as an interface between the person and his
computer, laboratory tests were carried out to verify its operation. As a result, a tool was obtained that allows achieving higher
levels of independence through the use of speech recognition and eye tracking techniques.

Keywords— Voice command, eye tracking, disability, interface.

Resumen— Según la Organización Panamericana de la Salud se estima que el 15% de la población, alrededor de 1000 millones
de personas en todo el mundo, vive con una discapacidad. Solamente en la región de las Américas alrededor de 140 millones de
personas viven con algún tipo de discapacidad. Uno de los mayores obstáculos que encuentran las personas con discapacidades es
el hecho de que tal condición limita su capacidad de interactuar plenamente con su entorno. Por lo tanto, se hace necesario ofrecer
herramientas que puedan dar solución a dicho problema. Se busca brindar ayuda a personas que por su condición encuentren
dificultad en el uso de tecnologías de acceso a la información y comunicación, tales como computadoras, dispositivos móviles, etc.
Se desarrolló un prototipo de control por comando de voz y rastreo ocular para ser utilizado como interfaz entre la persona y su
ordenador, se realizaron pruebas de laboratorio para verificar el funcionamiento correcto del mismo. Como resultado se obtuvo
una herramienta que permite lograr mayores niveles de independencia a través del uso de técnicas de reconocimiento del habla y
rastreo ocular.

Palabras clave—Comando de voz, rastreo ocular, discapacidad, interfaz.

I. INTRODUCCIÓN enfermedades degenerativas, accidentes cerebrovasculares,


o traumatismos que afecten al sistema nervioso. Esta
S egún la OMS la prevalencia de personas con
discapacidades está aumentando, esto se debe en gran
medida a que la población está envejeciendo, además existe
condición supone una imposibilidad para realizar tareas
básicas sin una persona que lo asista, ocasionando así un alto
un aumento mundial de enfermedades crónicas, nivel de dependencia. En el caso de funciones más complejas
enfermedades cardiovasculares, cáncer y trastornos de la como lo son todas aquellas de desarrollo intelectual, existe
salud mental.[1] Sumando también los casos en los que la tal limitación que ralentiza el desarrollo del sujeto.
condición es congénita o debido a accidentes en donde la Existen herramientas tecnológicas que permiten obtener
persona que los sufre queda con alguna limitación, ya sea información en formato digital al instante, estas ofrecen un
motriz, cognitiva, sensitiva, etc.[2] aumento de capacidades a sus usuarios, generalmente están
La comunicación y el acceso a la información son diseñadas para ser controladas con las extremidades, por lo
fundamentales para garantizar un nivel de vida adecuado tanto, a personas con discapacidades tales que limiten o
para el individuo, las posibilidades del mismo están imposibiliten el control de sus miembros superiores les
dependen en gran medida por; la disponibilidad, el fácil resulta imposible el acceso a dicho tipo de herramientas. De
acceso y la administración adecuada de dicha información. ahí nace la necesidad de reducir al máximo la brecha de
El correcto relacionamiento del individuo en la sociedad es oportunidades existente debida a esa vulnerabilidad.
imposible si existe una comunicación deficiente o limitada. Con el apoyo de la tecnología se desarrolló un prototipo
Existen casos en donde la persona padece de déficit motor capaz de optimizar la capacidad comunicativa y de acceso a
severo en las extremidades superiores, los cuales pueden la información de personas con limitaciones motoras que
tener un origen congénito o adquirido, ya sea por impidan su correcto desarrollo. Se hace uso de accesorios

Contacto: Luciano Recalde, GIIB, Facultad de Politécnica, Campus


Universitario, Universidad Nacional de Asunción, San Lorenzo, Paraguay,
Phone +595 972122204, lrecalde@pol.una.py.
XXIII CONGRESO ARGENTINO DE BIOINGENIERÍA Y XII JORNADAS DE INGENIERÍA CLÍNICA – SABI 2022 2

electrónicos y algoritmos que permiten potenciar al máximo E. Interconexión


sus posibilidades. Todos los elementos mencionados conforman el módulo
Todos los componentes del prototipo fueron seleccionados de comando de voz, estos se conectan entre sí como se puede
teniendo como prioridad el fácil acceso para el usuario final observar a continuación en la Fig. 1. Y al mismo tiempo la
a adquirir uno de estos. Se trabajó con elementos con salida del sistema desarrollado se conecta al ordenador por
relación precio – calidad óptima, de manera a que esto se el puerto USB para así poder controlar el ordenador a partir
traduzca en un producto final de bajo costo. El prototipo del habla del usuario.
utiliza elementos convencionales como micrófonos de Jack
de 3.5 mm o USB para evitar depender de micrófonos
especializados, buscando siempre la universalidad del
desarrollo.

II. MATERIALES Y MÉTODOS


A. Señal acústica.
El sistema desarrollado permite controlar un ordenador
convencional utilizando comando de voz y rastreo ocular.
Para captar la señal de audio fue necesario adquirir un
micrófono convencional de conector de Jack de 3,5 mm o Fig. 1. Diagrama de bloques de conexiones los módulos. Se puede
USB para transducir la señal acústica a señal eléctrica. observer al Raspberry Pi y la conexión necesaria para enviar las señales de
control a la tarjeta de acoplamiento.
B. Microcomputador.
A fin de procesar los comandos de voz y ejecutar el En la fig. 2. se detalla el esquema de la tarjeta de
programa se hizo necesario montar el sistema en un acondicionamiento, la cual permite trabajar con distintos
microcomputador, se optó por utilizar un dispositivo externo, niveles de tensión.
a fin de evitar consumir gran cantidad de recursos del
ordenador que sería controlado por el usuario, ya que el
procesamiento necesario para el reconocimiento del habla
afectaría el rendimiento del computador principal y la
experiencia del usuario se vería afectada.
Se utilizó un Raspberry pi 3, el cual se trata de un
microcomputador de precio bastante accesible. Este cuenta
con un procesador de 1.2 GHz 64-bit quad-core ARMv8
CPU, conexión inalámbrica integrada 802.11n Wireless
LAN, Bluetooth, 1GB de memoria RAM, 40 pines GPIO
(pines de propósito generales, capaces de ser programados
de acuerdo al uso que se le dará), 4 puertos USB, puerto
Ethernet, puerto HDMI, salida de audio, slot para tarjeta de
memoria e interfaces para cámara y display. El
microcomputador ejecuta un programa desarrollado que se
encarga de reconocer los datos que llegan del micrófono.
Cuando el programa detecta una coincidencia entre datos Fig. 2. Esquema de conexión entre los diferentes elementos del módulo
de commando de voz. Las tensiones de salida de los pines de propósito
ingresados y comandos preestablecidos este envía una señal general del raspberry activan o desactivan optoacopladores que permiten
que activa la función deseada (clicks de ratón, activar sistema trabajar con tensiones de diferentes niveles y así controlar diferentes
de ventilación de la habitación, etc.). dispositivos

C. Funciones del mouse.


Para ejecutar las diferentes funciones de control del mouse F. Software de comando de voz.
se utilizó una tarjeta genérica de control de ratón A2633. El software de comandos de voz posee comandos
Dicha tarjeta electrónica puede ser encontrada en tiendas preestablecidos en su modelo de lenguaje y diccionario
informáticas o electrónicas y permite enviar las señales gramatical, los comandos pueden ser añadidos, modificados
adecuadas al ordenador de manera a que este reconozca o eliminados de acuerdo a la conveniencia del usuario. Para
dichas señales como funciones del ratón. el desarrollo del software se utilizó el motor de
reconocimiento del habla Pocketsphinx.[3] Para optimizar el
D. Tarjeta de condicionamiento rendimiento del microcomputador se optó por utilizar la
También se diseñó un circuito de acoplamiento entre el versión compilada en C++ para el procesamiento y
Raspberry Pi y los elementos a controlar debido a que estos reconocimiento de voz, para las señales de control e
trabajan a diferentes tensiones (3.3v, 5v, etc.). Para separar interacción entre los diferentes módulos del programa se
las etapas y las tensiones, la tarjeta de acoplamiento cuenta desarrolló un programa en Python, el cuál compara los
con optoacopladores que son activados con las señales comandos reconocidos con los comandos existentes.
digitales provenientes del raspberry (3.3v) y envían la señal Los comandos básicos preestablecidos son comandos
de activación a la placa A2633 (5v) simples que se encargar de realizar las funciones de los
pulsadores del mouse. [5] En la Fig. 3. puede observarse la
estructura de los comandos.
XXIII CONGRESO ARGENTINO DE BIOINGENIERÍA Y XII JORNADAS DE INGENIERÍA CLÍNICA – SABI 2022 3

G. Rastreador ocular sujetos. Estos debían repetir los diversos comandos ‘n’
Para captar datos a partir de la ubicación y movimientos veces, un comando a la vez.
de la mirada se utilizó un dispositivo de rastreo ocular The En la Tabla 1 podemos observar las diferentes tasas de
Eye Tribe, éste utiliza un haz infrarrojo dirigido a la mirada éxito y fallos para los comandos por defecto de las funciones
del usuario y una cámara que detecta el haz reflejado por la del mouse.
retina para obtener información de la posición de los ojos y TABLA I
transformarla en posición del cursor. RESULTADOS EN PRUEBAS DE COMANDO DE VOZ PARA LOS
DISTINTOS COMANDOS PREESTABLECIDOS

H. Pruebas realizadas Función Tasa de éxito Talla de fallo


Finalmente teniendo todo el sistema en funcionamiento, Click Izqierdo 0.7 0.3
Click Derecho 0.775 0.225
se realizaron pruebas de laboratorio sobre el prototipo. Scroll 0.7 0.3
Dichas pruebas fueron realizadas en el laboratorio del Grupo Doble Click 0.725 0.275
de Investigación en Ingeniería Biomédica y en los
laboratorios de electrónica y electricidad de la Facultad
Politécnica, Universidad Nacional de Asunción como se
Las pruebas fueron realizadas por un sujeto con
observa en la Fig. 4.
entrenamiento previo y otro que no había utilizado el
En base a investigaciones complementarias, el grupo
dispositivo anteriormente. En la Tabla 2 se puede observar
obtuvo resultados en pruebas de funcionamiento para el una diferencia notable entre la probabilidad de éxito entre
rastreador ocular y para el software de comando de voz
ambos. Por lo tanto, vale agregar que para mejores resultados
respectivamente funcionando de manera independiente. Los
es necesario que el usuario utilice el prototipo durante un
valores obtenidos en dichas pruebas reflejan la respuesta
tiempo de prueba para acostumbrarse y familiarizarse a la
final del prototipo funcionando como un todo. A
vocalización adecuada de las palabras al utilizar el
continuación, se citan algunos de los resultados obtenidos en
dispositivo con los comandos por defecto.
dichas pruebas aisladas.
TABLA II
RESULTADOS EN PRUEBAS DE COMANDO DE VOZ TENIENDO
EN CUENTA LA RESPUESTA A DIFERENTES SUJETOS

Modalidad Tasa de éxito Tasa de fallo


Sujeto 1 0.85 0.15
Sujeto 2 0.6 0.4
General 0.725 0.275

Se verificó que el prototipo desarrollado posee una exactitud


del 72,5% para detectar un comando correcto. Esto puede
Fig. 3. Diagrama de bloques de los comandos por defecto. Estos son mejorarse entrenando el reconocedor del habla y utilizando
comandos compuestos por 2 o más palabras, para mejorar la respuesta del
paquete de reconocimiento del habla (Pocketsphinx). Los comandos pueden un modelo acústico para respaldar al sistema.
pueden ser agregados o modificados, editando el diccionario del sistema. También se obtuvo información importante acerca de la
precisión del dispositivo de rastreo ocular, se encontró que la
precisión del rastreador ocular era de ±14.23 pixeles y la
exactitud de ±12.83 pixeles. [4]

IV. DISCUSIÓN
El presente trabajo ofrece una herramienta a usuarios con
capacidades disminuidas en los miembros superiores. Dicha
herramienta permite que éste interactúe con un ordenador y
desde ahí sea capaz de acceder a la gran cantidad de
información disponible. También en casos más extremos
permite que éste utilice dicho sistema como principal vía de
comunicación con las personas que lo rodean.
Aunque existen muchas herramientas de comando de voz
en el mercado, estos por lo general tienen altos costos y están
orientadas a ser usadas cómo herramientas de apoyo a
personas sin discapacidades. También está el hecho de que
las herramientas de reconocimiento del habla con mejores
Fig. 4. Pruebas realizadas en laboratorio. respuestas están diseñadas para el idioma inglés, lo cual
termina siendo una limitación más para el usuario final.
III. RESULTADOS Por lo tanto el presente trabajo busca ser la base que pueda
traer investigaciones futuras, a partir de las experiencias en
Estudiando la respuesta de los diversos comandos, y la usuarios que posean las condiciones para las cuales fue
tasa de éxito en la detección de cada uno de estos. Se observó diseñada.
la respuesta del reconocedor del habla al registro vocal de 2
XXIII CONGRESO ARGENTINO DE BIOINGENIERÍA Y XII JORNADAS DE INGENIERÍA CLÍNICA – SABI 2022 4

V. CONCLUSIONES Luciano Recalde es Ingeniero en Electrónica con


Énfasis en Electrónica Médica, egresado de la
Se desarrolló un prototipo capaz de integrar un rastreador Facultad Politécnica - Universidad Nacional de
ocular y un sistema de comando de voz, de manera que Asunción (2017). Actualmente se encuentra
permita controlar un computador o dispositivo móvil. Este cursando la Maestría en Ingeniería Biomédica de la
Universidad de País Vasco, es Miembro del Grupo
puede ser personalizado por el usuario para reconocer de Investigación en Ingeniería Biomédica de la
comandos propios y también entrenado, para mejorar la Facultad Politécnica. Sus áreas interés incluyen
respuesta al registro de voz del usuario. temas de tecnologías asistivas, instrumentación
Se recomienda utilizar micrófonos unidireccionales para nuclear y biomecánica.
evitar que señales provenientes de otras fuentes sonoras Carolina Villegas es Ingeniera en Electrónica con
interfieran con la información útil del comando. Énfasis en Electrónica Médica, egresada de la
Facultad Politécnica - Universidad Nacional de
Este tipo de productos ayudan enormemente a personas Asunción (2017). Estudiante de la Maestría en
que debido a su condición han perdido la capacidad de Ciencias de la Computación en la Facultad
utilizar un computador. El prototipo presentado permitirá Politécnica. Actualmente, es docente en la carrera
reducir la vulnerabilidad que sufren las personas de Radiología en la Facultad de Ciencias Exactas y
Naturales.
discapacitadas y dará lugar a un desarrollo dentro de la
sociedad. José Núñez es Magister en Ingeniería Biomédica
egresado de la Universidad de País Vasco, sus áreas
de interés son la de tecnologías asistivas,
VI. AGRADECIMIENTOS rehabilitación neurocognitiva, e instrumentación
Se agradece enormemente el apoyo de la Facultad nuclear. Es docente de la carrera Ciencias de los
Materiales y miembro del Grupo de Investigación
Politécnica, a los colaboradores y a los usuarios con quienes en Ingeniería Biomédica en la Facultad Politécnica
se realizaron las primeras pruebas. – Universidad nacional de Asunción.
César Yegros es Magister en Ingeniería
VII. REFERENCIAS Biomédica, Actualmente se encuentra cursando el
[1] Organización Mundial de la salud. Informe mundial sobre la Doct orado en Ciencias Biomédicas en la
discapacidad. Informe de un grupo científico de la OMS. Ginebra: Universidad de País Vasco. Es coordinador del
OMS; 2011. Serie de Informes Técnicos Grupo de Investigación en Ingeniería Biomédica y
[2] González Sofía, Tello Javiera, Silva Paula, Lüders Claudia, su área de interés abarca tecnología asistiva,
Butelmann Sandy, Fristch Rosemary et al. Calidad de vida en ingeniería clínica, instrumentación radiológica y
pacientes con discapacidad motora según factores sociodemográfi cos nuclear y biomecánica.
y salud mental. Rev Chil Neuro-Psiquiat. 2012; 50(1); 23-34
[3] Maldonado Diego Manuel, Villalba Barrientos Rodrigo, Pinto-Roa,
Diego P. (septiembre 2016). Sistema de reconocimiento automático
del habla en Guaraní. 17º Simposio Argentino de Inteligencia
Artificial (ASAI 2016) - JAIIO 45. Sociedad Argentina de
Informática e Investigación Operativa (SADIO). Buenos Aires,
Argentina.
[4] Recalde, L., Núñez, J., Yegros, C., & Villegas, C. (2017). VP203
Performance Evaluation Of Eye-Tracking Devices. International
Journal of Technology Assessment in Health Care, 33(S1), 245-245.
doi:10.1017/S0266462317004299
[5] Recalde, L; Villegas, Carolina; DESARROLLO DE INTERFAZ
POR COMANDO DE VOZ PARA PACIENTES CON DÉFICIT
MOTOR SEVERO, 2017.

También podría gustarte