Está en la página 1de 4

Tesis Doctoral

1.Tema: Modelo de producción de voz

Las señales de voz son producidas cuando una columna de


aire desde los pulmones excita el conducto vocal, que se
comporta como una cavidad resonante. El conducto vocal es
usualmente modelado como la concatenación de tubos acústicos
sin pérdidas, con distintas secciones transversales, que
comienza en las cuerdas vocales y termina en los labios. La
apertura de las cuerdas vocales se denomina glotis. Los
diferentes sonidos pueden genéricamente ser clasificados en:
sonidos tonales (en inglés voiced, como el de las vocales) y
sonidos no tonales (en inglés unvoiced, como por ejemplo el de
una 's' final de palabra). Los sonidos tonales son producidos
al forzar aire a través de la glotis con las cuerdas vocales
tensadas de manera que se produce la oscilación relajada de
las mismas, excitando de esa forma el conducto vocal con
pulsos de aire cuasi-periódicos. Cuanto más grande es la
tensión de las cuerdas, más alta es la frecuencia fundamental
de la voz producida. Los sonidos no tonales, en tanto, son
generados manteniendo las cuerdas abiertas, formando una
constricción del conducto vocal, y forzando aire a través de
la constricción a una velocidad lo suficientemente alta como
para producir turbulencia. En este caso, puede pensarse que el
conducto vocal es excitado por una fuente de ruido aleatorio
(Juan Carlos Gómez, 2011).

El mecanismo de producción de la voz se inicia en los


pulmones; el aire sale expulsado de ellos hacia la laringe
(atravesando la tráquea y la glotis) a diferente presión en
función del sonido que se desea generar. La glotis separa las
cuerdas vocales y se mantiene abierta mientras se respira,
pero en el momento de producir sonidos se va estrechando de
manera intermitente. La velocidad con la que las cuerdas
vocales se abren y se cierran está ligada con lo que se conoce
como frecuencia fundamental. Tras superar la glotis, el aire
se acerca al tracto vocal, el cual varía su forma dependiendo
de los sonidos a generar. El tracto vocal es una caja de
resonancias, cuya forma, y por lo tanto su respuesta, varían
de acuerdo a la posición de los órganos articuladores (lengua,
labios, mandíbula, velo del paladar). Las resonancias
producidas tienen su energía concentrada alrededor de

1
determinadas frecuencias del espectro, a las que se conoce
como formantes (Cristian Duque, 2007).

En la figura 1 se muestra una representación simplificada


del mecanismo fisiológico completo de producción de voz. La
función primaria es la inhalación, posible gracias a la
expansión de la cavidad torácica, mediante la cual desciende
la presión en los pulmones y entra el aire a través de las
fosas nasales o bien por vía bucal. La energía necesaria para
expulsar el aire reside en los músculos torácicos y
abdominales (representados en la figura por un pistón). Cuando
la cavidad torácica se contrae aumentando la presión en los
pulmones, el aire sale expelido, pasa a través de los
bronquios y de la tráquea, y actúa como excitación del tracto
vocal. En función de lo que ocurra después hay dos tipos
elementales de sonido; sonoros y sordos. Para la voz sonora,
las cuerdas vocales son tensadas y forzadas a vibrar por el
paso de un flujo de aire. Dicho flujo es troceado en pulsos
cuasi periódicos que son, entonces, modulados en frecuencia al
pasar por la faringe, la cavidad bucal, y, en ocasiones, la
cavidad nasal, generando voz sonora. En la voz sorda, los
fonemas se producen por una excitación debida a un flujo de
aire que, en algún punto del tracto vocal (normalmente cerca
de la abertura bucal), por la acción de una obstrucción
parcial o total se convierte en turbulento.
El modelo general de producción de voz se basa en la idea
de modelar el tracto vocal como una concatenación de tubos
(modelo de tubos) de sección variable para obtener una función
de transferencia del mismo (Cristian Duque, 2007).

Figura 1. Esquema del mecanismo de producción de voz.

2
1.1. Modelo de producción de voz (sintetizador
digital de voz)

La Figura 2 representa un modelo (en tiempo discreto) del


sistema de producción de voz. El conducto vocal se representa
por un sistema lineal (en general inestacionario) que es
excitado a través de una llave que selecciona entre una fuente
de impulsos cuasi periódicos para el caso de sonidos tonales,
o una fuente de ruido aleatorio para el caso de sonidos no
tonales. La ganancia apropiada de la fuente, G, es estimada a
partir de la señal de voz, y la señal escalada es usada como
entrada del modelo del conducto vocal (Juan Carlos Gómez,
2011).

Figura 2 Modelo de Producción de voz (Diagrama de bloques).

1.2. Modelo de Glotis (Modelo de Pulso glotal)

Existen diferentes modelos de la glotis, que han sido


propuestos en la literatura, para el caso en que es excitada
por pulsos. Un modelo simple es el denominado modelo
exponencial representado por una función transferencia Z de la
forma.

(1)

Donde “e” es la base de los logaritmos neperianos. El


numerador en (1) se selecciona de manera que G ( n )=Z−1 { G ( z ) } tenga
un valor máximo aproximadamente igual a 1. El modelo está

3
inspirado en mediciones de la respuesta de la glotis a
impulsos, que se asemejan a la respuesta de un sistema de
segundo orden. Una respuesta típica se representa en la figura
3.

Figura 3 Respuesta típica de la glotis a una excitación con tren de impulsos.

También podría gustarte