Está en la página 1de 6

1

Síntesis de la voz para mejoramiento de sistemas domóticos

Gabriel Fernando Calle Giraldo

Resumen—El objetivo de este artículo es hacer una síntesis de la voz humana para extraer parámetros que conlleven a identifi- cación de personas, estados de ánimo, palabras, entre otros, que

serán utilizados en un sistema domótico. Se logra demostrar como

a través de la voz se puede determinar emociones del ser humano

analizando parámetros como el pitch, esto permitirá brindar mucha más seguridad, y ejecución de instrucciones mas precisas. El análisis de la voz se efectúa por medio de un software llamado Matlab, dando resultados precisos que permiten entender y

utilizar los parámetros de la voz, clasificándola en niños, hombres

o mujeres, para brindar permisos en el sistema domótico. Basado

en los análisis de los parámetros se logra obtener un sistema domótico más configurable brindando permisos especiales a las personas del hogar automatizado según su edad, para tener un mejor control sobre los contenidos de programas televisivos, Internet, música, entre otros. A nivel de seguridad de vivienda se hará un énfasis en la emociones para activar sistemas como:

cámaras, envío de mensajes de texto, envío de mensajes de alerta

a una empresa de seguridad privada o a la policía.

Index TermsSíntesis, Reconocimiento de voz, Domótica, Pro- cesamiento Digital de Señales, Pitch, Formantes.

I.

INTRODUCCIÓN

Con la gran evolución de nuevas tecnologías y el ingreso agresivo de sistemas interactivos se ha incrementado la deman- da de sistemas capaces de automatizar una vivienda, aportando servicios de gestión energética, seguridad, bienestar y comu- nicación que pueden estar integrados por redes interiores y exteriores, cableadas o inalámbricas y cuyo control goza de

cierta ubicuidad; éstos son los llamados sistemas domóticos. El término domótica proviene de la unión de dos palabras domus

y robótica: domus significa casa en latín y robótica significa

esclavo o sirviente en checo. El gran crecimiento de los sistemas domóticos conlleva a nuevas aplicaciones en donde se requiere cada vez automatizar mas procesos, como apertura de puertas por medio sensores faciales, huellas dactilares o

reconocimiento de voz, etc, exigiendo a los sistemas domóticos

a brindar un alto grado de seguridad y flexibilidad. Una de

las limitaciones de estos sistemas es la flexibilidad, ya que la mayoría de sistemas instalados en la actualidad tienen interfaces que requieren una manipulación directa del usuario como son: las pantallas táctiles, controles genéricos, comandos básicos de voz, entre otros, lo cual hace que para su interacción se requiera varios movimientos, por lo tanto si se conduce un automóvil y se requiere dar algún tipo de instrucción al sistema

domótico es casi imposible o se corre demasiado riesgo. En este artículo se pretende plantear una idea enfocada en

la posible solución a este problema sintetizando la voz para

la extracción de parámetros prosódicos se puede implementar

una interfaz que sea sólo sonora pero que permita tener un control total del sistema, el sistema al ser sonoro permite

una naturalidad en la comunicación hombre-máquina dando así la flexibilidad necesaria y por medio de los parámetros prosódicos se logra un alto grado de seguridad. Como la solución se centra en la síntesis de la voz se parte de la idea que la voz ha llegado por medio de algún protocolo de comunicación hasta la unidad central de procesamiento donde será sintetizada como lo muestra la Fig. 1. En la primera sección de este artículo se examina las

dificultades de los sistemas domóticos actuales, en la segunda sección se estudia la voz para lograr plantear una solución

a los problemas encontrados en la sección anterior,la tercera

sección muestra unas posibles aplicaciones que se puede llevar

a cabo con la implementación de esta solución, la ultima

sección se estudia las técnicas utilizadas en la actualidad de reconocimiento de voz en los sistemas domóticos [2,5]

de reconocimiento de voz en los sistemas domóticos [2,5] Fig. 1: Convergencia de la señal de

Fig. 1: Convergencia de la señal de voz

II. SITUACIÓN PROBLEMÁTICA

Al analizar los sistemas domóticos actuales se logran ob- servar deficiencias en cuanto a seguridad y flexibilidad en casos donde se requiere dar instrucciones al sistema domótico de manera remota y sin hacer demasiados movimientos por ejemplo: en entornos laborales, conduciendo un automóvil. Esto con relación a la flexibilidad, en relación a la seguridad en los sistemas analizados se debe activar el sistema de seguridad haciendo alguna actividad física, lo cual hace que el victimario pueda percatarse de este evento, en los sistemas domóticos actuales no se ofrece seguridad de contenidos e información para los miembros del hogar automatizado. La idea para solu- cionar estos problemas de flexibilidad y seguridad es utilizar la voz humana para desarrollar una interfaz que permita una naturalidad en la comunicación hombre-máquina, logrando así

2

la flexibilidad necesaria ya que al hablar se pueden seguir haciendo las actividades normalmente. Dar una instrucción al sistema domótico desde un entorno complicado, como un automóvil, será tan fácil como hablar por un manos libres. El tema de seguridad se divide en dos objetivos: la clasificación para los filtros de contenidos de información tanto televisivos como web y la detección del estado de ánimo que se aprovecha el hecho del ser humano a expresar sus emociones en la voz [como lo muestra la tabla 1], detectando el nerviosismo de la persona se puede activar el sistema de seguridad siendo éste hecho totalmente transparente para el victimario.

Tabla I:

Características de la voz según su emoción [3].

 

Ira

Felicidad

Tristeza

Miedo

Disgusto

Vel. Ha-

Ligera-

Acelerada

Pausada

Muy ace-

Mucho

bla

mente

o

lerada

más

acelerada

retardada

acelerada

Calidad

Proce-

Estridente

Reso-

Irregular

Retum-

voz

dente

del

nante

bante

pecho

Inten-

Alta

Alta

Baja

Normal

Baja

sidad

Pulso

Pendiente

Pendiente

pendiente

Pendiente

Pendiente

glotal

fuerte

y

fuerte

suave

y

muy

fuerte

alto ancho

ancho

fuerte

de banda

de

banda

y

gran

 

estrecho

ancho

de

 

banda

Para lograr estos dos objetivos de clasificación de edad y estimación del estado de ánimo se utilizará la extracción del

pitch de la voz humana. El diagrama de bloques de la solución

a implementar se muestra en la figura 2

de la solución a implementar se muestra en la figura 2 Fig. 2: Diagrama de bloques

Fig. 2: Diagrama de bloques para ejecución de instrucciones

II-A.

Para lograr los objetivos planteados de clasificación de edad

y estimación del estado de ánimo es necesario estudiar la voz humana para poder entender y extraer los parámetros que se utilizarán para la solución del problema.

Estudio de la voz

Características prosódicas: la prosodia es una fuente de información muy rica en el procesamiento del habla y que complementa el mensaje lingüístico con una interacción de- terminada la cual refleja una actitud o estado emocional del hablante. También aporta información sobre las características del locutor como su edad, sexo, estatus socioeconómico, entre otros. [6] Es por esto que en una conversación entre dos personas se puede saber su estado de ánimo. La voz es un sonido emitido por un ser humano que es producido en el aparato fonador, específicamente en la laringe, cuando el aire procedente de los pulmones que funcionan como una fuente de poder del discurso es forzado a través de la glotis que proporciona la entrada con la frecuencia del tono determinado (F 0 ), y que hace vibrar las cuerdas vocales, las cuales son más largas y gruesas en el hombre que en la mujer y los niños [2,4]. Con el pitch se puede caracterizar las personas, ya que la frecuencia F 0 varía en cada individuo. Un hombre adulto posee un pitch por debajo de 100 Hz, una mujer adulta está entre 200 Hz y 300 Hz, y el pitch de los niños pude estar por encima de 400Hz [4]. En el proceso de generación de la voz, la glotis comienza

a cerrarse, el aire que viene de los pulmones experimenta una

turbulencia, emitiéndose un ruido de origen aerodinámico. Al cerrarsen más las cuerdas vocales estas comienzan a vibrar produciendo un sonido tonal, es decir, periódico; y cuya frecuencia varía en forma inversa al tamaño de las cuerdas vocales, este sonido es propio del hablante. Luego de pasar la glotis el sonido atraviesa la cavidad supraglótica, que es la la parte del aparato fonador que permite modificar el sonido, que se conforma principalmente por tres cavidades: la oral, labial

y nasal. Estas cavidades constituyen resonadores acústicos los cuales pueden modificar el sonido dependiendo de la forma que adopten. El tracto vocal funciona como un instrumento musical, es por esto que se puede modelar como un instrumento musical simple como se muestra en la figura 3

instrumento musical simple como se muestra en la figura 3 Fig. 3: Modelado del tracto vocal

Fig. 3: Modelado del tracto vocal

Pitch: el pitch, o frecuencia fundamental, es la frecuencia

a la que vibran las cuerdas vocales y también es conocida

como frecuencia fundamental o F 0 . Se considera que las características del pitch son unas de las principales portadoras de la información emocional [3,9].

Detector de actividad vocal: para hacer un análisis de una comunicación o trama de voz es necesario conocer los tramos que se deben analizar, ya que en una conversación hay mas

3

3 Fig. 4: Detector de actividad vocal Fig. 5: Señal sonora y sorda [4]. Como se

Fig. 4: Detector de actividad vocal

3 Fig. 4: Detector de actividad vocal Fig. 5: Señal sonora y sorda [4]. Como se

Fig. 5: Señal sonora y sorda [4].

Como se muestra en la Fig. 6 la señal de voz completa no es una señal periódica, por lo tanto no existe un T 0 . Por este motivo se define un nuevo concepto que recibe el nombre de enventanado [7], el cual consiste en tomar muestras mas pequeñas de la señal completa de forma que en la muestra (ventana) la señal sea cuasi-periódica como se observa en la Fig. 7.

la señal sea cuasi-periódica como se observa en la Fig. 7. momentos de silencio que de

momentos de silencio que de actividad vocal, por este motivo es necesario utilizar un VAD (Voice Activity Detector) [1]. En este estudio se implementó un VAD, en Matlab. El código utilizado se presenta a continuación:

clear

close

all;

all;

nbits]=wavread(’Sonido_espaciado.wav’);

Signal=abs(y);

Signal=Signal’;

longS=length(Signal);

t=1/fs:1/fs:longS/fs;

%detectar

NivelRuido=max(Signal(1:floor(0.002 * longS))); Numbral=1.5 * NivelRuido; maxi=max(Signal);

w1=floor(0.00006 * longS); w2=floor(w1 * 0.2); bandera=1.5 * maxi;

for

if

[y

fs

el

nivel

de

ruido

j=1:w1:longS-w1

(

Signal(j)

>

Numbral)

Voz(j:j+w1)

=

bandera;

else

if

(Signal(j+w2)

<

Numbral)

Voz(j:j+w1)

=

0;

else

Voz(j:j+w1)

=

bandera;

end end end Voz2=-1 * Voz; ymax=ceil(2 * maxi);

t2=1/fs:1/fs:length(Voz)/fs;

plot(t2,Voz,’k’);

hold

legend(’Actividad

plot(t,y,’b’);

xlabel(’Tiempo’);

title(’Reconocimiento

Se logra detectar los instantes de tiempo donde hay activi- dad vocal como se muestra en la Fig. 4. Actividad vocal: existen dos posibles tipos de excitación cuando hay actividad vocal: sonora o sorda. En ambas hay actividad vocal, es decir, se produce un sonido. Se habla de actividad sonora cuando se produce una vibración en las cuerdas vocales, y sorda cuando las cuerdas vocales no vibran; por ejemplo, las letras sordas como p, t, k, entre otras [4,7]. Este comportamiento se presenta en la Fig. 5. Se puede observar que en señales de características sólo sordas no existe pitch, por eso es necesario examinar palabras compuestas. El pitch se calcula con la siguiente expresión:

plot(t2,Voz2,’k’);

hold

on;

on;

vocal’);

ylabel(’Amplitud’);

de

actividad

vocal’);

1

T 0

F 0 =

(1)

Donde T 0 el periodo de la señal de voz.

Fig. 6: Señal de voz muestreada

4

4 Fig. 7: Porción de la señal cuasi-periódica De esta manera se tiene un T 0

Fig. 7: Porción de la señal cuasi-periódica

De esta manera se tiene un T 0 por cada ventana, se promedian los T 0 para luego obtener un pitch promedio. Éste pitch promedio también se puede obtener por medio de una herramienta llamada Praat, como se observa en la Fig. 8, en donde el ptich promedio es de 75 Hz, lo cual corresponde a una voz de un hombre adulto.

de 75 Hz, lo cual corresponde a una voz de un hombre adulto. Fig. 8: Estimación

Fig. 8: Estimación del pitch con Praat

Para la estimación del textitpitch se estudiaron tres técni- cas que fueron: autocorrelacción, función de diferencias de magnitudes promedio (AMDF) y cepstrum. En este artículo se estima el pitch por medio de la técnica cepstrum [11]. Los coeficientes de Cepstrum se calculan con la siguiente expresión:

Cepstrum(d) = IF F T (log 10 |F F T (s(n))|)

c x =

1 2π

π π log|X(e (jw) )|e (jwn) dw

Donde s(n) es la porción de la señal. F F T es la transformada rápida de fourier IF F T es la transformada inversa rápida de fourier

El nuevo índice de tiempo se conoce como quefrency. El código utilizado en Matlab se presenta a continuación.

function

pitch=CalPitch(s,fs)

cep=fft(log(abs(fft(s,2048))));

ms1=fs/1000;

%

1ms.

maximum

%speech

Fx

at

1000Hz

ms20=fs/50;

 

%

20ms.

minimum

%speech

Fx

at

50Hz

q=(ms1:ms20)/fs;

%Detection

pitch

%

search

for

maximum

between

2ms

%(=50Hz)

and

%20ms

(=500Hz)

ms2=floor(fs * 0.007);

%

2ms

ms20=floor(fs * 0.02);

%

20ms

[maxi,idx]=max(abs(cep(ms2:ms20)));

pos=(ms2+idx-1);

pitch

=

fs/pos;

end

Caracterización de las emociones: las emociones se definen como un mecanismo flexible de adaptación a un ambiente cambiante, en la mayoría de los casos las emociones no son genuinas sino que se dan como una mezcla de varias. Pueden distinguirse los siguientes tipos fundamentales de emociones:

Emoción extrema: es una emoción totalmente desarrolla- da, típicamente es intensa.

Emociones subyacentes: denotan el tipo de colorante emocional que es parte de la mayoría o de todos los estado mentales [8,3]. Otro tipo de clasificación son emociones primarias y emocio- nes secundarias:

Emociones primarias

- Enfado: se define como la impresión desagradable y molesta que se produce en el ánimo, posee un tono medio alto (229 Hz), un amplio rango de tono y una velocidad de locución rápida (190 palabras / min), un 32 % de pausas.

- Alegría: se manifiesta en un incremento en el tono medio, rango, velocidad de locución e intensidad.

- Miedo: tono medio mas elevado (254 Hz), rango mayor, un número alto de cambios en el tono, mayor velocidad de locución (202 pal/min)

- Disgusto / odio: tono medio bajo, rango amplio, velocidad de locución baja, grandes pausas

Emociones secundarias

- Pena: forma extrema de tristeza, bajo tono medio, rango más estrecho, pendiente de la curva de tono más baja, velocidad de locución baja, gran porcen- taje de pausas

- Ternura: alto nivel de tono, no fluctúa excesivamente

- Ironía: velocidad de locución baja, acentuación muy marcada

- Sorpresa: tono medio mayor que la voz normal, velocidad igual a la normal, rango amplio Entendiendo la manera en que se produce la voz y notando la relación que tiene el pitch con los estados de ánimo

5

presentados en la tabla 2, se pueden aplicar técnicas de reconocimiento de voz como GMM ( Gaussian Mixture Models ), SVM ( Support Vector Machines ), SVMs basadas en supervectores GMMs, Anchor Models, LDA (Linear Discriminant Analysis), HMM (Hidden Markov Models), logrando clasificar las personas según su edad para aplicar filtros de contenidos y estimar su estado anímico activando sistemas de seguridad en casos donde se detecte miedo [8,3]. Implementando esta idea a los sistemas domóticos se espera una buena aceptación entre los usuarios.

Tabla II:

Comportamiento de la voz emocionada [8].

 

Volumen

Velocidad

Pitch

Rango Pitch

 

(Pal/min)

Neutral

0.9

120

100

11

Enfado

1.0

145

100

30

Sorpresa

1.0

120

125

20

Alegría

1.0

155

135

14

Tristeza

0.8

110

90

7

Miedo

1.0

135

175

24

II-B. Aplicaciones principales

Como se ha tratado en apartados anteriores, se quiere brindar mayor flexibilidad y seguridad a los sistemas domó- ticos actuales, logrando ejecutar instrucciones precisas desde cualquier parte dentro y fuera del hogar automatizado haciendo al sistema mucho mas flexible. Con la aparición de nuevas tecnologías como RFID ( Radio Frequency IDentification ), existen aplicaciones donde el concepto de apertura de puertas cambia por completo ya que no se efectúa a través de llaves convencionales sino que se hace a partir de una tarjeta de radio frecuencia que contiene la identificación de la persona y al ser leída permite la apertura de dicha puerta, es necesario brindar un sistema de seguridad en caso de que dicha tarjeta sea extraviada o sea forzado por un victimario la persona para abrir las puertas, esto se puede efectuar detectando el miedo de la persona que está siendo forzada o simplemente detectando que la voz no pertenece a la identificación en el caso de pérdida. Otro tipo de seguridad que me permite la síntesis de la voz es controlar el tipo de contenidos de información a los que están expuestos los integrantes del hogar, como por ejemplo canales para adultos. Si es un niño el sistema logra identificarlo por medio de su pitch y así logra aplicar unos filtros para las frecuencias de canales no permitidos en la señal de televisión. Si está en un computador, el sistema también logra detectar su edad y aplicar cortafuegos para denegar páginas web que tengan contenidos inapropiados para su edad.

III.

DISCUSIÓN

Lograr implementar la solución sintetizando la voz para clasificar y estimar el estado anímico de las personas trae beneficios muy grandes ya que todo se puede administrar

por medio de la voz logrando más flexibilidad y seguridad, pero esto lleva consigo requerimientos mayores en cuanto

a procesamiento. Por tal motivo se requieren equipos de

procesamiento potentes y veloces ya que el tiempo desde que

se da la orden hasta lograr ejecutarla no debe ser muy alto. Esta implementación debe ser paralela a los sistemas actua- les, y los sistemas mecánicos, como cerraduras de puertas, no se deben eliminar por completo ya que estos sistemas electrónicos traen consigo una vida útil, a demás son sistemas que deben estar alimentados eléctricamente, por tanto debe haber un sistema de redundancia en caso de una falla eléctrica por parte de la empresa que presta dicho servicio público. La redundancia permite acceder a la vivienda así el sistema eléctrico falle. Se puede implementar entonces sistemas redun- dantes mecánicos o eléctricos; en el caso mecánico, sistemas de cerraduras convenciones (llaves), para el caso eléctrico se puede generar por medio de baterías. Con el fin de implementar la síntesis de la voz en los sistemas domóticos se mencionan a continuación algunas técnicas de reconocimiento de voz utilizadas en domótica.

III-A.

Muchas de estas técnicas surgen por su buen comportamien-

to en el reconocimiento del locutor y de idiomas por medio

de la voz.

Técnicas de reconocimiento de emociones actuales

GMM: el modelo de mezcla de gaussianas fueron apli- cados al reconocimiento de idioma y locutor gracias a la similitud entre el reconocimiento de emociones e idioma, y a su gran desempeño en el reconocimiento del locutor; se logra extender en el reconocimiento de emociones, se basa en que las emociones tienen diferentes sonidos y la frecuencia de aparición de los sonidos es diferente de una emoción a otra, modelan la distribución de probabilidad de los parámetros, los parámetros más usados son los MFCC ( Mel Frequency Cepstral Coefficients ) o SDC ( Shifted Delta Cepstral )

SVM: máquinas de Vectores Soporte; es un tipo de cla- sificador, su objetivo es modelar un plano de separación entre una clase y las clases impostoras, se soluciona mediante técnicas de optimización, pero este método se hace para datos linealmente separables. Si los datos no son linealmente separables se introduce la función kernel. Las SVM son muy populares por su capacidad de solventar muchos errores de los ANNs ( Artificial Neural Networks ) y de los HMMs. Gracias a su gran capacidad de discriminación su restricción es que están limitados a trabajar con vectores de entrada de longitud fija, a demás solo clasifican pero no dan medidas fiables en cuanto a probabilidades. Tienen un buen desempeño en el reconocimiento del locutor e idioma.[3]

Modelos Ocultos de Markov (HMM): un HMM es un modelo estadístico en el que se asume que el sistema a modelar es un proceso de Markov de parámetros des- conocidos. El objetivo es determinar estos parámetros a partir de los parámetros observables. Por el buen desem- peño de esta técnica, se ha aplicado al reconocimiento de emociones combinado con otras técnicas de clasificación como los GMM o SVM [3].

6

La síntesis de la voz humana es un tema de estudio de muchas persona ya que puede ser la solución no solo en domótica sino a tecnologías muy flexibles que necesitan alta seguridad como RFID y NFC.

IV.

CONCLUSIONES

Se observa como se le puede dar una potente aplicación a actividades tan naturales como el habla, para proteger en ciertas circunstancias la integridad física de las personas

Se observa como las emociones se transmiten o se dan a conocer por medio de la voz, aunque no es la única forma de expresarlas

Utilizar la voz para activar sistemas permite una mayor fle- xibilidad, ya que cuando se habla se pueden seguir realizando actividades normalmente, por que no se emplean extremidades en ese proceso Se observa el comportamiento cuasi-periódico de la voz, cuando se hace el proceso de enventanado con la ayuda de Matlab

Con la idea propuesta se logra proteger de forma automática los contenidos a los que están expuestas las personas menores de edad de un hogar

Con la elaboración de este artículo se logra tener una idea de la cantidad de procesamiento que se le debe hacer a la señal de voz con el fin de tener en cuenta esto a la hora de elaboración física de la solución, comprando el hardware necesario para este tipo de procesamiento.

Aunque sistemas de reconocimiento de voz comerciales han estado dispuestos desde 1990 en aplicaciones de computadores para evitar el teclado, estas técnicas no han sido explotadas lo suficiente pudiendo lograr aplicaciones como se plantea en este artículo.

REFERENCIAS

[1] Iker Luengo, Eva Navas, Inmaculada Hernáez, Jon Sánchez, (2005). Reconocimiento automático de emociones utilizando parámetros prosó- dicos. Articulo. Sociedad Española para el Procesamiento del Lenguaje Natural [2] Francisco Mejía. Reconocimiento de voz aplicado a la domótica. Escuela Politécnica Nacional (EPN), Quito-Ecuador [3] Carlos Ortego Resa, (2009). Detección de emociones en voz espontá- nea. Trabajo de grado. Universidad Autónoma de Madrid [4] Dr. Sung-won Park. Chapter 7 Linear Predictive Speech Processing. University Kingsville [5] Falconi Cepeda Luis Felipe, (2009). Estudio e implementación de domótica activado por comandos de voz y comunicaciones en zigbee. Tesis de grado. Escuela superior politecnica de chimborazo facultad de informatica y electronica. [6] Humberto Pérez Espinosa, Carlos Alberto Reyes García, (2010). Re- conocimiento de Emociones a Partir de Voz Basado en un Mode- lo Emocional Continuo. Reporte técnico. Coordinación de Ciencias Computacionales INAOE [7] Ibon Saratxaga, Iker Luengo, Eva Navas, Inmaculada Hernáez, Jon Sánchez, Iñaki Sainz, (2006). Detección de pitch en condiciones adversas. Escuela Técnica Superior de Ingeniería, Universidad del País Vasco

[8] Virginia Francisco, Pablo Gervás, Raquel Hervás, (2005). Análisis

y síntesis de expresión emocional en cuentos leídos en voz alta. Universidad Complutense de Madrid

[9] C. García, D. Tapias. La frecuencia fundamental de la voz y sus efectos

en reconocimiento de habla continua.

[10] Santiago Planet Garcia, Jose Antonio Morán Moreno, Lluís Formiga

Fanals. Reconocimiento de emociones basado en el análisis de la señal

de voz parametrizada. Enginyeria i Arquitectura La Salle

[11] Goldberg, R. G. “Frontmatter”, (2000). A Practical Handbook of

Speech Coders