Está en la página 1de 10

A Low-Cost Platform for

Voice Monitoring
(Una plataforma de bajo costo para monitoreo de voz)

Resumen:
En este documento se propone una plataforma de bajo costo que se concibió para
monitorear la actividad vocal de las personas que usan la voz como una herramienta
profesional. Dicha plataforma incluye un registrador de datos portá til y un programa
de procesamiento que permite extraer los pará metros vocales de la señ al grabada. El
registrador de datos está equipado con un micró fono de contacto que está conectado a
la muesca yugular de la persona bajo supervisió n, detectando así el nivel de
aceleració n de la piel debido a la vibració n de las cuerdas vocales. La salida del
micró fono está condicionada a través de un circuito personalizado y luego se envía a
una placa barata basada en un microcontrolador, que almacena las muestras en bruto
en una tarjeta micro SD. El procesamiento fuera de línea proporciona una estimació n
del nivel de presió n sonora (SPL), la frecuencia fundamental (F0) y la dosis de tiempo
(Dt), que son los pará metros que parecen má s adecuados para la identificació n de
trastornos vocales y la prevenció n de un uso inadecuado de la voz. Para los
pará metros estimados, se implementan procedimientos de calibració n adecuados y su
efectividad se muestra a través de pruebas experimentales específicamente
concebidas. Se muestran resultados experimentales que se refieren a la calibració n del
dispositivo y su uso normal durante el intervalo de monitoreo de varias horas.
También se informa una comparació n con un dispositivo comercial.

I. INTRODUCCIÓ N

Es probable que los trastornos de voz cró nicos o recurrentes, desde los nó dulos de las
cuerdas vocales hasta la disfonía funcional, resulten del abuso de la voz, conductas
vocales erró neas [1] - [2] y acú stica deficiente en los entornos donde se usa la voz [3] .
Estas enfermedades son subestimadas o incluso ignoradas por la mayoría de las
personas, muchas de las cuales generalmente desconocen los riesgos o posibles
enfermedades. Los maestros de diferentes tipos y niveles, incluidos los maestros de
educació n física y mú sica, son algunas de las figuras má s afectadas [4], pero otros
profesionales de la voz involucrados son cantantes, operadores de centros de
llamadas, vendedores, abogados, etc. Para correlacionan la carga vocal [5] con los
hallazgos objetivos de la laringe, se han propuesto dosis vocales como indicadores de
la exposició n prolongada del tejido de las cuerdas vocales a las vibraciones. La
intensidad del habla, medida como Nivel de presió n sonora (SPL) frente a la boca del
hablante, la frecuencia fundamental del habla (F0) y el tiempo de fonació n (Dt) se
utilizan para evaluar algunas medidas de dosis vocal, como se propone en [6]. La
escasez de informació n objetiva sobre el papel del uso diario de la voz en la etiología
de los trastornos de la voz [7] ha despertado un interés creciente en el desarrollo de
dispositivos médicos para el monitoreo de la voz [8]. Investigaciones recientes han
utilizado un aceleró metro en miniatura pegado en la base del cuello como sensor de
fonació n durante mucho tiempo.

monitoreo de término de la funció n vocal. El Centro Nacional de Voz y Habla [9] - [11]
y el Hospital General de Massachusetts [12] - [14], han producido el dosímetro NCVS y
APM, respectivamente, mientras que otro dispositivo llamado VoxLog, se ha
desarrollado recientemente en Linko ̈Pings Universidad de Suecia [15] - [16]. El APM y
Voxlog son dispositivos comerciales, mientras que el dosímetro NCVS solo se usa para
investigació n. Los tres dispositivos son analizadores portá tiles que se basan en la
medició n del nivel de aceleració n de la piel (SAL) debido a la vibració n de las cuerdas
vocales. Estiman la frecuencia fundamental, la dosis de tiempo y el SP L a cierta
distancia de la boca del hablante como resultado de una calibració n. Ninguno de estos
dispositivos define un procedimiento de calibració n para los pará metros F0 y Dt, las
especificaciones de incertidumbre no está n disponibles y el costo de los comerciales
es actualmente prohibitivo para una gran campañ a de monitoreo.
La identificació n y la prevenció n de trastornos vocales a partir de los pará metros
estimados SP L, F0 y Dt aú n se encuentran en un nivel de investigació n, y se requiere
una gran actividad experimental para validar cualquier protocolo propuesto. Dicha
actividad, que debe realizarse en colaboració n con los médicos, debe involucrar a un
gran nú mero de pacientes, por lo que es aconsejable la disponibilidad de dispositivos
de bajo costo para el monitoreo de la voz. El dispositivo descrito en este documento
está concebido para responder a dicha demanda: se basa en componentes baratos, es
ponible, por lo que no afecta la actividad de la persona bajo supervisió n, los datos sin
procesar que almacena se procesan fuera de línea de acuerdo con algoritmos
personalizados en para extraer los pará metros de interés, siempre que se realice un
procedimiento de calibració n adecuado antes de su uso.
En la secció n II, la plataforma propuesta se describe proporcionando detalles de
hardware y firmware del registrador de datos, luego se describe el procedimiento
operativo y el programa de procesamiento. La secció n III muestra resultados
preliminares que se refieren al procedimiento de calibració n del pará metro SPL y al
monitoreo a largo plazo de la actividad vocal. Los valores SPL y F0 obtenidos con el
dispositivo propuesto también se comparan con los resultados proporcionados por el
dispositivo comercial APM.

II LA ATENCIÓ N DE VOZ DE LA PLATAFORMA

La plataforma propuesta por los autores para el monitoreo de la actividad vocal, en


adelante denominada Voice-Care, incluye un
Registrador de datos portá til y un programa de procesamiento que permite extraer
los pará metros vocales de la señ al grabada.
La plataforma Voice-Care se ha desarrollado de acuerdo con los resultados de un
trabajo reciente de autores [17], que ha demostrado que un Micró fono de
condensador Electret (ECM) es una opció n barata y efectiva como micró fono de
contacto y ha permitido procedimientos de calibració n adecuados para ser evaluado
por los pará metros SPL y F0. En particular, el ECM exhibe un ancho de banda que
coincide bien con el contenido espectral de la señ al a analizar. También se obtuvo una
estimació n de la incertidumbre esperada. Sin embargo, esos resultados se obtuvieron
a través de un sistema de adquisició n de datos basado en PC, que no es ni ponible ni
barato. En este artículo, los autores proponen un dispositivo liviano que funciona con
baterías, que se basa en una placa de microcontrolador de bajo costo.

A. Arquitectura del registrador de datos

El registrador de datos desarrollado es similar a los grabadores de audio disponibles


comercialmente, pero ha sido concebido específicamente para una aplicació n que no
requiere comprensió n del habla. Ademá s, los requisitos de diseñ o, como el ancho de
banda, la frecuencia de muestreo y la resolució n, se pueden relajar, ya que las
principales contribuciones de incertidumbre en la medició n de los pará metros vocales
no está n relacionadas con el hardware [17].
La arquitectura del registrador de datos se muestra en la Figura 1. El ECM está unido a
la muesca yugular de la persona bajo monitoreo por medio de una banda quirú rgica,
detectando así el Nivel de Aceleració n de la Piel (SAL) debido a la vibració n de las
cuerdas vocales durante la normalidad habla. Un circuito de acondicionamiento
personalizado proporciona el voltaje de polarizació n (potencia fantasma) del ECM y
amplifica (ganancia nominal G = 100) y filtra (−3dB de ancho de banda = 10 kHz) su
señ al de salida. Los circuitos de acondicionamiento también cambian el nivel de
voltaje de la señ al ECM, para que coincida con el rango de entrada unipolar (0 ÷ 5) V
del convertidor analó gico a digital (ADC) interno al microcontrolador (ATMEL
ATmega328). Dicho microcontrolador se instala en una placa ArduinoTM de muy bajo
costo, que está equipada con una ranura para tarjeta micro SD y con un bus serie
universal (USB) que permite la comunicació n con una PC con fines de programació n y
depuració n.
Hay un segundo canal disponible en el dispositivo desarrollado que es el mismo que el
primero con la excepció n del sensor, ECM Una imagen del dispositivo desarrollado.
que es un micró fono de referencia de aire (Behringer ECM 8000) que puede detectar
el nivel de presió n sonora (SPL). Cabe señ alar que el segundo canal solo se usa
durante la calibració n preliminar del dispositivo, para identificar la relació n entre SAL
y SPL. Una batería recargable de 15 V (Li-ion MGL2809 de Enix Energy) suministra la
placa de alimentació n, donde dos convertidores de CC-CC (MEA1D1512DC de Murata
y TSR 1-2465 de Traco Power) proporcionan los ± 12 V requeridos por el
acondicionamiento analó gico circuitos y los 6.5 V que alimentan la placa Arduino. La
corriente adsorbida total es de aproximadamente 190 mA (160 mA para la placa
Arduino y 30 mA para el circuito de acondicionamiento analó gico), lo que permite
monitorear intervalos de aproximadamente 11 horas gracias a la capacidad de la
batería de 2.2 Ah. No son necesarios intervalos de autonomía má s largos, ya que el
monitoreo vocal generalmente se realiza durante una actividad diaria típica. El
dispositivo también incluye un interruptor deslizante que actú a en la entrada digital
D2 del microcontrolador y dos LED (rojo y verde) que son controlados por dos salidas
digitales del microcontrolador, como se muestra en la imagen de la Figura 2.
El dispositivo desarrollado se concibe como un registrador de datos que almacena las
muestras en bruto en una tarjeta micro SD, por lo tanto, el firmware del
microcontrolador debe gestionar los procesos de adquisició n y almacenamiento
durante uno de los dos modos posibles que el dispositivo puede operar, que son la
calibració n modo y modo de monitoreo. El diagrama de flujo que resume las
operaciones de firmware se muestra en la Figura 3. Después de encender el
dispositivo, el microcontrolador intenta inicializar la tarjeta SD y si esta operació n
falla, los LED rojo y verde se encienden como un error mensaje. Si, en cambio, la
tarjeta SD se inicializa con éxito, se verifica la entrada digital D2 para iniciar el
procedimiento de calibració n SPL o una sesió n de monitoreo de voz. Si se selecciona el
modo de calibració n, el LED rojo se enciende, la frecuencia de muestreo del ADC
interno del microcontrolador se establece en 38460 Sa / sy dos entradas analó gicas
son multiplexado para adquirir las señ ales en la salida del micró fono de referencia y
ECM. La sesió n de adquisició n dura unos 60 s, luego el firmware apaga el LED y
detiene su funcionamiento, dando al usuario la posibilidad de procesar los datos
obtenidos de acuerdo con el procedimiento descrito en la secció n II-B. En el modo de
monitoreo, el LED verde se enciende, la frecuencia de muestreo ADC se establece en
19230 Sa / sy solo se adquiere el canal basado en ECM. En este caso, el firmware se
ejecuta continuamente y el LED permanece encendido hasta que se apaga el
dispositivo o se retira la tarjeta SD. Los datos adquiridos se agrupan en archivos
separados, cada uno de los cuales cubre un intervalo de tres minutos, lo que facilita la
gestió n de archivos y evita que se pierdan largos intervalos de monitoreo en caso de
un bloqueo del sistema. En ambos modos, se utiliza una técnica de doble bú fer para
adquirir la señ al vocal sin interrupciones durante el almacenamiento de datos.
La capacidad de la tarjeta SD y el tamañ o de las muestras adquiridas afectan la
duració n del intervalo de monitoreo. Las muestras en la salida del ADC interno del
microcontrolador se codifican con 8 bits, por lo que se requiere 1 byte para almacenar
cada muestra. Como ejemplo, si se usa una tarjeta SD de 1 GByte, muestreando la señ al
en la salida de la cadena basada en ECM a 19230 Sa / s, la actividad vocal se puede
monitorear durante intervalos de hasta 14 horas, que es má s largo que el dispositivo
autonomía energética Cabe señ alar que la resolució n ADC no excelente no afecta
significativamente la incertidumbre general, ya que la contribució n relacionada con la
cuantificació n es insignificante con respecto a otras contribuciones [17].

B. Procedimiento operativo

Una estimació n confiable de la intensidad de fonació n requiere un procedimiento


específico a seguir, que se basa en una calibració n ad-personam de sesió n ú nica. El
método propuesto se basa en la medició n indirecta del SPL a través de la medició n
directa de la SAL inducida por la vibració n de las cuerdas vocales. Dado que la SAL se
detecta mediante un dispositivo conectado a la muesca yugular de la persona bajo
supervisió n, la cadena de medició n también incluye el canal físico entre las cuerdas
vocales y la piel. Tal canal es difícil de modelar teó ricamente y tiene una gran
variabilidad entre personas, lo que sugiere que se realice su caracterizació n
preliminar. Como consecuencia, se realiza un procedimiento de calibració n antes de
que se inicie cada sesió n de monitoreo y el dispositivo de detecció n no se debe quitar
hasta el final de dicha sesió n.
El procedimiento operativo para el uso del registrador de datos de voz se puede
subdividir en los siguientes pasos:
• la persona bajo monitoreo usa el ECM fijá ndolo en la muesca yugular a través de una
banda quirú rgica;
• el modo de calibració n se selecciona en el dispositivo desarrollado, que requiere que
se conecte un micró fono está ndar de referencia al segundo canal;
• la persona que usa el ECM mantiene una posició n fija con respecto al micró fono
mientras mantiene la vocal / a / a diferentes niveles de presió n;
una vez que la calibració n ha finalizado, los datos almacenados en la tarjeta SD se
procesan para estimar la relació n SPL vs SAL;
• el modo de monitoreo se selecciona en el registrador de datos y la persona bajo
monitoreo realiza sus actividades diarias normales sin quitar el ECM hasta el final de
la sesió n de monitoreo;
• el procedimiento de calibració n SPL se repite antes de quitar el ECM para resaltar
posibles eventos que podrían haber comprometido la conexió n correcta del sensor
durante la sesió n de monitoreo;
• los datos almacenados se procesan fuera de línea estimando los pará metros S P L y
F0 para cada cuadro en el que se subdivide la señ al adquirida, proporcionando
también una estimació n de la dosis de tiempo Dt en el período de monitoreo.
Otra consideració n sobre el método utilizado para estimar el SPL se relaciona con una
contribució n de incertidumbre que se debe a la definició n de la cantidad medida, es
decir, el nivel de aceleració n de la piel inducido por la vibració n de las cuerdas
vocales. Desafortunadamente, cualquier idioma incluye un cierto nú mero de
consonantes sin voz [18], es decir, consonantes que se pronuncian sin requerir el uso
de las cuerdas vocales (por ejemplo, / s /, / sh / y / th / en idioma inglés). Esto
significa que si un sistema de medició n ideal estuviera disponible, no sería capaz de
detectar consonantes a pesar de que se produce una presió n de aire. Este fenó meno,
que afecta principalmente a las mediciones de SPL y Dt, debe tenerse en cuenta como
una contribució n a la incertidumbre.

C. Programa de procesamiento

Se ha desarrollado un script MatLabTM para procesar las muestras almacenadas en la


tarjeta micro SD. Tal secuencia de comandos agrupa los datos adquiridos en bloques
de 577 muestras, lo que corresponde a una longitud de trama de aproximadamente 30
ms. Tal valor, que ha sido utilizado por otros autores [9] - [11], ha sido elegido ya que
corresponde a pausas entre sílabas. Cada grupo de datos se pondera a través de una
ventana de Hamming, minimizando así los efectos del muestreo no coherente. Luego,
el valor medio cuadrá tico de la raíz (rms) Vrms, i y la frecuencia fundamental F0, i se
estiman para cada i-ésimo cuadro. El valor eficaz se obtiene a través de un algoritmo
de Transformació n rá pida de Fourier (FFT) que utiliza el mismo ancho de banda (8
kHz) para las salidas de micró fono (modo de calibració n) y ECM. Para las tramas
sonoras, la frecuencia fundamental F0 se estima mediante un algoritmo de
autocorrelació n, mientras que para las tramas sonoras se asigna un valor cero a este
pará metro.
En el modo de calibració n, se debe obtener la relació n que relaciona SPL con SAL. Para
este propó sito, la presió n de sonido de referencia PMIC, i para cada cuadro se estima a
partir del valor rms VMICrms, i como:

PMIC, i = KMIC · VMICrms, i (1)

donde KMIC (Pa / V) es la constante de calibració n del micró fono de referencia, que se
conoce con una incertidumbre está ndar relativa del 3%. El nivel de presió n acú stica
de referencia se obtiene como:
SPLMIC,i =20·log10 (P MIC,i/Po ) (2)

where P0 = 2 · 10−5 Pa.

Con el tiempo, se implementa una técnica de estimació n de mínimos cuadrados para


obtener la funció n de calibració n del ECM. Entre las funciones probadas, un modelo de
segundo orden fue el má s adecuado para ajustarse a los datos experimentales:

SPL = K0 + K1 · VECMrms + K2 · VE2CMrms (3)

En el modo de monitorizació n, el nivel de presió n acú stica se obtiene mediante la


ecuació n (3) y estimando los valores rms VECMrms a partir de la salida de la cadena
basada en ECM.

La dosis de tiempo Dt se obtiene comparando el SP L estimado con un umbral,


distinguiendo así los cuadros sonoros y no sonoros. Tal umbral corresponde al ruido
de fondo estimado durante el intervalo de monitoreo.

III. RESULTADOS PRELIMINARES

Los resultados preliminares está n disponibles para el dispositivo Voice-Care que se


refieren a la calibració n de la cadena de medició n SPL y al monitoreo de la actividad
vocal de una profesora durante una clase universitaria de aproximadamente una hora
y cuarenta minutos. Los valores de S P L y F0 proporcionados por Voice-Care se
comparan con

Fig. 4. Ejemplo de resultados de calibració n de la cadena basada en ECM contra el micró fono de
referencia
Fig. 5. Estimació n de la contribució n de incertidumbre relacionada con la repetibilidad de calibració n.

Los resultados obtenidos mediante el dispositivo comercial APM durante una lecció n
de la misma profesora.
La Figura 4 muestra los resultados de una sesió n de calibració n del ECM contra el
micró fono de referencia. La calibració n se realizó de acuerdo con el procedimiento
descrito en la secció n II-B, mientras que la persona bajo supervisió n se encuentra a
una distancia de aproximadamente 16 cm del micró fono. En la traza superior, los
círculos representan los valores experimentales, mientras que la línea continua es la
funció n de calibració n de segundo orden ajustada en el rango SPL de 55 dB a 95 dB a
16 cm, que corresponde al rango (39 ÷ 79) dB a 1 m. El residual entre los valores
experimentales y la curva ajustada, que se muestra en la traza inferior de la misma
figura, se caracteriza por una desviació n está ndar de 1 dB. Tal error de ajuste es una
de las contribuciones que se tiene en cuenta en la estimació n de la incertidumbre
esperada del pará metro SP L.
Otra contribució n que podría afectar la incertidumbre general
de manera significativa es la repetibilidad de calibració n. Para estimar tal
contribució n, se han repetido mú ltiples procedimientos de calibració n en un corto
intervalo de tiempo (aproximadamente diez minutos) sin quitar el ECM de la muesca
yugular de la persona bajo monitoreo. Un ejemplo de los resultados obtenidos durante
una sesió n de calibració n mú ltiple se muestra en la traza superior de la Figura 5,
donde se representan cinco curvas de calibració n diferentes. La forma de las curvas es
casi la misma, pero se han obtenido diferencias má ximas en el rango de 1.5 dB a 2.8
dB, como se muestra en la traza inferior de la figura 5. Una posible razó n de estos
grandes errores podría ser el ruido acú stico detectado por el micró fono de referencia,
ya que la calibració n se realizó en un laboratorio que no está aislado desde un punto
de vista acú stico. Se esperan mejoras al realizar el procedimiento de calibració n en
una cá mara anecoica.
También se han realizado varias sesiones de monitoreo a largo plazo con el
dispositivo propuesto para verificar su efectividad. Un ejemplo de los resultados
obtenidos se resume en las Figuras 6 y 7, que se refieren a la actividad vocal de una
profesora que fue monitoreada durante una lecció n que duró aproximadamente 100
minutos. En particular, la Figura 6 muestra el histograma de las ocurrencias SPL @ 1
m (barras rojas), que comienza con un valor que corresponde al nivel de ruido
eléctrico, es decir, aproximadamente 43 dB. El histograma se centra alrededor de 70
dB a 1 m, que es un valor razonable durante una lecció n en un gran aula universitaria
sin usar equipo de refuerzo. Se realizará n pruebas específicas para validar dichos
resultados mediante el monitoreo de la actividad corporal de la persona que usa el
ECM y su exposició n a ambientes ruidosos mientras no se realiza actividad vocal.
Las apariciones de la frecuencia fundamental F0 en el intervalo de monitoreo se
muestran en la Figura 7 (barras rojas). Se debe tener en cuenta que este histograma
solo se refiere a cuadros sonoros, ya que de acuerdo con el algoritmo descrito (ver
secció n II-C), un cero

El valor se asigna al pará metro F0 durante las tramas sordas. Los valores obtenidos
está n en el rango de 60 Hz a aproximadamente 480 Hz, como se esperaba para una
persona que habla.
En las figuras 6 y 7, las barras verdes representan las ocurrencias SPL y F0 obtenidas
monitoreando a la misma profesora a través del dispositivo comercial APM durante
otra lecció n similar. Estos resultados coinciden con los proporcionados por Voice-
Care: el nivel de ruido es de aproximadamente 40 dB y el valor SPL má s frecuente es
de 68 dB; los valores estimados para el pará metro F0 está n en el rango (70 ÷ 450) Hz.
Las diferentes formas de los histogramas se deben a la forma diferente en que se han
llevado a cabo las dos lecciones. Por la misma razó n, los valores del tiempo de
fonació n del pará metro Dt obtenido durante las dos lecciones (31.8% por Voice-Care y
33.3% por APM) pueden considerarse aceptables.

IV. CONCLUSIÓ N

En este documento se ha propuesto una plataforma de bajo costo que se basa en un


dispositivo portá til que funciona con baterías y un programa de procesamiento. El
dispositivo portá til es capaz de controlar la actividad vocal de los profesionales de la
voz durante las actividades diarias normales y graba las muestras sin procesar de la
señ al vocal en una tarjeta micro SD. El programa de procesamiento estima los
pará metros SPL, F0 y Dt que pueden usarse para identificar trastornos vocales y
evitar un uso inadecuado de la voz. Una de las peculiaridades má s interesantes del
dispositivo desarrollado es su bajo costo (casi 400 euros), que permite que muchos
dispositivos estén disponibles para llevar a cabo una amplia campañ a de monitoreo
que involucra muchos temas. Un resultado importante de esta campañ a podría ser
una correlació n entre los pará metros estimados y el estado vocal de los sujetos
monitoreados, que es uno de los problemas abiertos en la literatura científica. Los
autores administrará n una amplia campañ a que involucra a 90 maestros de escuela
durante los pró ximos meses.
Ocurrencias (%)
Ocurrencias (%)
Otras ventajas del dispositivo desarrollado con respecto a los comerciales son la
garantía de trazabilidad de los pará metros estimados, gracias a la definició n de
procedimientos de calibració n adecuados, y la calificació n de estos pará metros en
términos de incertidumbre de medició n. En este trabajo, se ha llevado a cabo el
procedimiento de calibració n para el pará metro SPL y la estimació n de sus principales
contribuciones de incertidumbre. Los resultados relacionados con la calibració n de los
pará metros F0 y Dt y una estimació n de la incertidumbre esperada para todos los
pará metros se presentará n en la conferencia.

También podría gustarte