Está en la página 1de 36

Introduccin al procesamiento de voz

Sonia H. Contreras Ortiz, PhD

Sistema fonador humano


La seal de voz es una onda de presin acstica que se genera a partir de movimientos de la estructura anatmica del sistema fonador humano. El tracto vocal comienza a la salida de la laringe y termina en los labios.

Sistema fonador humano


Parmetros del sistema articulatorio
Las cuerdas vocales El paladar La lengua Los dientes Los labios La mandbula

Etapas del proceso de produccin de la voz


Generacin Articulacin Radiacin

Clasificacin de los fonemas


Vocales
Localizacin Anterior Abertura Mnima Media Mxima i e a o Medio Posterior u

Clasificacin de los fonemas


Consonantes
Bilabial Labiodental Interdental Dental Alveolar Palatal Velar

Sonoro Sordo Sonoro Sordo Sonoro Sordo Sonoro Sordo Sonoro Sordo Sonoro Sordo Sonoro Sordo

Oclusivos Africados Fricativos Laterales Vibrantes Nasales

t ch

z l r, rr

y ll

Clasificacin de los fonemas


Sonoros: Las cuerdas vocales vibran y el aire pasa a travs del tracto vocal sin impedimentos importantes: vocales, b, d, m... Sordos: Las cuerdas vocales no vibran y existen restricciones importantes al paso del aire que proviene de los pulmones: s, t, k, f...
VO Z SO RDA Y SO NO RA /se/
0.4 0.3 0.2

0.1

Am plitud

0 -0.1

-0.2 -0.3

-0.4

0.05

0.1

0.15

Tiem po (s )

Segmento sonoro
Es de naturaleza cuasiperidica. Posee una frecuencia fundamental (pitch) que corresponde con la frecuencia de vibracin de las cuerdas vocales. Toma valores entre 50Hz y 500Hz.
SEGMENTO SONORO 0.6 0.4

0.2 Amplitud

-0.2

-0.4 1.45 1.455 1.46 1.465 1.47 1.475 1.48 Tiempo (seg) 1.485 1.49 1.495 1.5

Segmento sordo
Puede modelarse por medio de una fuente de ruido aleatorio. No presenta naturaleza peridica. Presenta menor amplitud debido a las restricciones que se imponen a la salida del aire.
SEGMENTO SORDO 0.2 0.15 0.1 0.05 Amplitud 0 -0.05 -0.1 -0.15 -0.2 -0.25 1.56

1.565

1.57

1.575

1.58 1.585 1.59 Tiempo (seg)

1.595

1.6

1.605

1.61

Pitch
Est relacionado con el tono de la voz. Toma diferentes rangos de valores para nios, mujeres y hombres. Puede calcularse como el inverso del perodo de la seal de voz. Ejemplo: Esta seal tiene N = 47 El pitch se calcula as:
0.2 0.15 0.1

fs f = N

0.05

-0.05

-0.1

3500

3550

3600

3650

3700

3750

3800

Modelo de produccin de la voz


Generacin Radiacin

Generador de pulsos peridicos

Articulacin Modelo del Tracto vocal Filtro equivalente

Seal de voz

Generador de ruido aleatorio

Parmetros de la envolvente del espectro Sonoro/ sordo Amplitud Perodo de vibracin

Modelo de produccin de la voz


El tracto vocal cambia su forma lentamente durante la pronunciacin de los fonemas. Por tanto la voz se puede modelar como un filtro lentamente variante en el tiempo (no estacionario). Puede suponerse que las caractersticas de la seal permanecen constantes en intervalos de 10 a 50 ms.

Procesamiento de seales de voz


Adquisicin y acondicionamiento Preprocesamiento Normalizacin de niveles Segmentacin Prenfasis Ventaneo Representacin y caracterizacin de la voz

Adquisicin y acondicionamiento
La adquisicin de la seal se realiza por medio de un transductor: micrfono.
Clase Impedancia Direccionalidad
90 120 1 0.8 0.6 0.4 0.2 180 0 180 90 60 120 25 20 15 10 5 0 180 90 60 150 120 20 15 30 10 5 0 30 60 150 30 150

210

330

210

330

210

330

240 270

300

240 270

300

240 270

300

Filtrado pasa bajo y conversin A/D.


La frecuencia de muestreo debe satisfacer el criterio de Nyquist (8kHz ... 44kHz) El rango dinmico de la voz est entre los 50 y 60dB. Pueden emplearse 8 bits para la codificacin.

Segmentacin
Permite separar los eventos de inters (la voz) de otras partes de la seal. Establece los puntos de inicio y fin de palabra y en algunas aplicaciones identifica sonoridad.
SEAL DE VOZ 0.5

Silencio
0

Sonoro

-0.5 0.5

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

0.45

Sonoro

Sordo

-0.5 0.5

0.5

0.55

0.6

0.65

0.7

0.75

0.8

0.85

0.9

Sordo
0

Silencio

-0.5

0.95

1.05

1.1

1.15 t (s)

1.2

1.25

1.3

1.35

Segmentacin
CRUCES POR CERO 200 150 100 50 0 1 3 MAGNITUD PROMEDIO 2

2000

4000

6000

8000

10000 12000 14000 16000 18000

2000

4000

6000

8000

10000 12000 14000 16000 18000

10 5 0 -5 -10

10 5 0 -5 -10

2000

4000

6000

8000

10000 12000 14000 16000 18000

2000

4000

6000

8000

10000 12000 14000 16000 18000

do

un o

do

un o

Segmentacin
MAGNITUD PROMEDIO 4 3 2 1 0 1.2 1 0.8 0.6 0.4 0 0.5 1 1.5 2 2.5 x 10 10 5 0 -5 -10
4

SEAL BINARIZADA

0.2 0 -0.2 -0.4 -0.6

0.5

1.5

2.5 x 10
4

-0.8

0.5

1.5

2.5 x 10
4

Prenfasis
Consiste en pasar la seal por un filtro pasa alto de primer orden con el fin de enfatizar las altas frecuencias y hacer la seal menos susceptible a los efectos de la precisin finita en el procesamiento digital.

H (z ) = 1 z
0.9<<1

Ventaneo
La voz se analiza en marcos de datos de 10 a 50ms. En intervalos cortos el sistema puede considerarse lineal e invariante en el tiempo (estacionario). El marco de datos se multiplica por una ventana (Hamming o Hanning) para reducir la distorsin espectral ocasionada por el hecho de segmentar la seal.

Ventaneo
1 0.5 0 -0.5 0 200 a 400 600 0.8 0.6 0.4 0.2 0 0 200 b a) Corresponde a un marco de la seal original b) Forma de la ventana de Hamming 0 c) Seal enventanada -0.5 0 200 c 400 600 400 600

0.5

Representacin de la voz
Busca reducir el volumen de informacin necesario para analizar, almacenar o transmitir la seal de voz. Con las caractersticas que se extraen de la voz, puede obtenerse informacin sobre la persona que habla, contenido de lo que se dice y cmo lo dice.

Representacin de la voz
El objetivo es separar la informacin que corresponde a la fuente de sonido y la que corresponde al filtro. Las tcnicas ms utilizadas son:
Anlisis de Fourier en intervalos cortos de tiempo Codificacin Predictiva Lineal (LPC) Cepstrum
Fuente de sonido Modelo del Tracto vocal Filtro equivalente Seal de voz

Parmetros de la envolvente del espectro

Anlisis de Fourier en intervalos cortos de tiempo


Se considera que en intervalos cortos de tiempo, la seal de voz es estacionaria; es decir que su comportamiento (periodicidad o aleatoriedad) se mantiene aproximadamente constante. La seal se descompone en segmentos cortos llamados marcos (de 5 a 100ms) y se analiza cada uno independientemente. Se calcula el espectro de la seal en cada marco.

Anlisis de Fourier en intervalos cortos de tiempo


El marco puede definirse como el producto de la seal de voz por una funcin ventana que es diferente de cero slo en una pequea regin. Se calcula la DFT en cada marco (los marcos pueden traslaparse).
Ilustracin del enventanado 1 Seal 0 -1 0 1 Ventana 0 -1 0 1 Producto 0 -1 0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000

Espectrograma
Es una herramienta que permite visualizar el contenido de frecuencias de una seal con respecto al tiempo. Muestra grficamente la intensidad de la transformada de Fourier evaluada en cada marco. Permite observar los formantes, el pitch e identificar segmentos sonoros y sordos.

Espectrograma
Seal de voz y su Espectrograma 1 0.5 0 -0.5 -1 0 1 2 3 4 5 6 7 8 x 10
4

Frequency (Hz)

4000

2000

Formantes
1 2 3 4 Time 5 6 7

Espectrograma
Hay dos clases de espectrogramas:
De banda ancha: emplean ventanas pequeas (< 10ms) y tienen buena resolucin en el tiempo, con lo cual pueden observarse mejor los cambios en la seal. De banda angosta: emplean ventanas grandes (> 20ms) y tienen buena resolucin en frecuencia. Permiten observar los armnicos ms claramente.

Espectrograma
Frequency 4000 2000 0

0.2

0.4

0.6

0.8

1 Time

1.2

1.4

1.6

1.8

Frequency

4000 2000 0 0.5

Cul es el de banda ancha y cul el de banda angosta?

0.2

0.4

0.6

0.8

1 Time

1.2

1.4

1.6

1.8

-0.5

0.2

0.4

0.6

0.8

1.2

1.4

1.6

1.8

Anlisis de Fourier en intervalos cortos de tiempo


Segmento sonoro
Transformada de Fourier en una ventana de 27.2 ms (600 muestras) 30 20 10 -10 0 dB dB -10 -20 -30 -35 -40 -50 -40 0 50 100 150 k 200 250 300 -45 0 50 100 150 k 200 250 300 -15 -20 -25 -30 5 0 -5

Segmento sordo
Transformada de Fourier

Anlisis de Fourier en intervalos cortos de tiempo


El espectro de una seal de voz est dado por:
Una envolvente: en donde se observan las resonancias y antiresonancias del tracto vocal. Una estructura fina: refleja la periodicidad de la fuente sonora.
80 60 40 20 0 dB -20 -40 -60 -80 -100 0

1000

2000 3000 Frecuencia (Hz)

4000

5000

LPC
Una seal puede modelarse expresando el valor de la seal x[n] en el instante n como una combinacin lineal de muestras en instantes anteriores:

~ x [n] = ak x[n k ]
k =1

De esta forma, el proceso de produccin de la voz se modela como un filtro IIR.

LPC
Los parmetros ak pueden calcularse a partir de la minimizacin del error de la seal original y la aproximacin dada por la ecuacin anterior. Hay dos mtodos principales para estimar los coeficientes de prediccin lineal:
El mtodo de autocorrelacin. El mtodo de covarianza.

LPC
Los coeficientes de prediccin permiten modelar el tracto vocal como un filtro de solo polos, con lo cual se puede estimar la envolvente del espectro.

X (z ) H (z ) = = E (z )

1 1 ak z
k =1 p k

La seal error puede emplearse para aproximar la fuente de sonido.

e[n] = x[n] ~ x [n] = x[n] ak x[n k ]


k =1

LPC
Espectro de Fourier 40 20 0 dB -20 -40 -60 0 1000 2000 3000 4000 5000 6000

Envolvente del espectro obtenida con LPC 40 20 0 dB -20 -40 -60 0 1000 2000 3000 f (Hz) 4000 5000 6000

Cepstrum
Una transformacin homomrfica convierte una convolucin en una suma:

x[n] = e[n]* h[n]

[n] [n] = e [n] + h x

El cepstrum es una transformacin homomrfica que permite separar la informacin sobre la fuente de sonido de la del filtro del tracto vocal.

Cepstrum
El cepstrum real se define:

1 c[n] = 2

j j ln X e e d

( )

El trmino cepstrum resulta de invertir la primera slaba de la palabra spectrum. Se defini as porque se obtiene al calcular la transformada inversa del logaritmo del espectro de la seal. La informacin del tracto vocal aparece en los primeros coeficientes cepstrales y la informacin de la fuente en los coeficientes ms altos.

Cepstrum
Segmento sonoro 1 0.5
dB Espectro de Fourier 40 20 0

0 -0.5 -1 0 100 200 300 400 500

-20 -40 -60 0 50 100 150 200 250 300

Cepstrum real 1 0.5 0 -0.5 -1 0 100 200 300 Muestra 400 500
dB

Envolvente del espectro por el mtodo de Cepstrum 40 20 0 -20 -40 -60 0 50 100 150 k 200 250 300

También podría gustarte