Introducción Al Procesamiento de Voz

Introduccin al procesamiento de voz
Sonia H. Contreras Ortiz, PhD
Sistema fonador humano

La seal de voz es una onda de presin acstica que se genera a partir de movimientos de la estructura anatmica del sistema fonador humano. El tracto vocal comienza a la salida de la laringe y termina en los labios.
Sistema fonador humano

Parmetros del sistema articulatorio
Las cuerdas vocales El paladar La lengua Los dientes Los labios La mandbula
Etapas del proceso de produccin de la voz

Generacin Articulacin Radiacin
Clasificacin de los fonemas

Vocales
Localizacin Anterior Abertura Mnima Media Mxima i e a o Medio Posterior u

Consonantes
Bilabial Labiodental Interdental Dental Alveolar Palatal Velar
Sonoro Sordo Sonoro Sordo Sonoro Sordo Sonoro Sordo Sonoro Sordo Sonoro Sordo Sonoro Sordo
Oclusivos Africados Fricativos Laterales Vibrantes Nasales
t ch
z l r, rr
y ll

Sonoros: Las cuerdas vocales vibran y el aire pasa a travs del tracto vocal sin impedimentos importantes: vocales, b, d, m... Sordos: Las cuerdas vocales no vibran y existen restricciones importantes al paso del aire que proviene de los pulmones: s, t, k, f...
VO Z SO RDA Y SO NO RA /se/
0.4 0.3 0.2
0.1
Am plitud
0 -0.1
-0.2 -0.3
-0.4
0.05
0.1
0.15
Tiem po (s )
Segmento sonoro
Es de naturaleza cuasiperidica. Posee una frecuencia fundamental (pitch) que corresponde con la frecuencia de vibracin de las cuerdas vocales. Toma valores entre 50Hz y 500Hz.
SEGMENTO SONORO 0.6 0.4
0.2 Amplitud
-0.2
-0.4 1.45 1.455 1.46 1.465 1.47 1.475 1.48 Tiempo (seg) 1.485 1.49 1.495 1.5
Segmento sordo
Puede modelarse por medio de una fuente de ruido aleatorio. No presenta naturaleza peridica. Presenta menor amplitud debido a las restricciones que se imponen a la salida del aire.
SEGMENTO SORDO 0.2 0.15 0.1 0.05 Amplitud 0 -0.05 -0.1 -0.15 -0.2 -0.25 1.56
1.565
1.57
1.575
1.58 1.585 1.59 Tiempo (seg)
1.595
1.6
1.605
1.61
Pitch
Est relacionado con el tono de la voz. Toma diferentes rangos de valores para nios, mujeres y hombres. Puede calcularse como el inverso del perodo de la seal de voz. Ejemplo: Esta seal tiene N = 47 El pitch se calcula as:
0.2 0.15 0.1
fs f = N
0.05
-0.05
-0.1
3500
3550
3600
3650
3700
3750
3800
Modelo de produccin de la voz

Generacin Radiacin
Generador de pulsos peridicos
Articulacin Modelo del Tracto vocal Filtro equivalente
Seal de voz
Generador de ruido aleatorio
Parmetros de la envolvente del espectro Sonoro/ sordo Amplitud Perodo de vibracin
Modelo de produccin de la voz

El tracto vocal cambia su forma lentamente durante la pronunciacin de los fonemas. Por tanto la voz se puede modelar como un filtro lentamente variante en el tiempo (no estacionario). Puede suponerse que las caractersticas de la seal permanecen constantes en intervalos de 10 a 50 ms.
Procesamiento de seales de voz

Adquisicin y acondicionamiento Preprocesamiento Normalizacin de niveles Segmentacin Prenfasis Ventaneo Representacin y caracterizacin de la voz
Adquisicin y acondicionamiento
La adquisicin de la seal se realiza por medio de un transductor: micrfono.
Clase Impedancia Direccionalidad
90 120 1 0.8 0.6 0.4 0.2 180 0 180 90 60 120 25 20 15 10 5 0 180 90 60 150 120 20 15 30 10 5 0 30 60 150 30 150
210
330
210
330
210
330
240 270
300
240 270
300
240 270
300
Filtrado pasa bajo y conversin A/D.

La frecuencia de muestreo debe satisfacer el criterio de Nyquist (8kHz ... 44kHz) El rango dinmico de la voz est entre los 50 y 60dB. Pueden emplearse 8 bits para la codificacin.
Segmentacin
Permite separar los eventos de inters (la voz) de otras partes de la seal. Establece los puntos de inicio y fin de palabra y en algunas aplicaciones identifica sonoridad.
SEAL DE VOZ 0.5
Silencio
0
Sonoro
-0.5 0.5
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
Sonoro
Sordo
-0.5 0.5
0.5
0.55
0.6
0.65
0.7
0.75
0.8
0.85
0.9
Sordo
0
Silencio
-0.5
0.95
1.05
1.1
1.15 t (s)
1.2
1.25
1.3
1.35
Segmentacin
CRUCES POR CERO 200 150 100 50 0 1 3 MAGNITUD PROMEDIO 2
2000
4000
6000
8000
10000 12000 14000 16000 18000
2000
4000
6000
8000
10000 12000 14000 16000 18000
10 5 0 -5 -10
10 5 0 -5 -10
2000
4000
6000
8000
10000 12000 14000 16000 18000
2000
4000
6000
8000
10000 12000 14000 16000 18000
do
un o
do
un o
Segmentacin
MAGNITUD PROMEDIO 4 3 2 1 0 1.2 1 0.8 0.6 0.4 0 0.5 1 1.5 2 2.5 x 10 10 5 0 -5 -10
4
SEAL BINARIZADA
0.2 0 -0.2 -0.4 -0.6
0.5
1.5
2.5 x 10
4
-0.8
0.5
1.5
2.5 x 10
4
Prenfasis
Consiste en pasar la seal por un filtro pasa alto de primer orden con el fin de enfatizar las altas frecuencias y hacer la seal menos susceptible a los efectos de la precisin finita en el procesamiento digital.
H (z ) = 1 z
0.9<<1
Ventaneo
La voz se analiza en marcos de datos de 10 a 50ms. En intervalos cortos el sistema puede considerarse lineal e invariante en el tiempo (estacionario). El marco de datos se multiplica por una ventana (Hamming o Hanning) para reducir la distorsin espectral ocasionada por el hecho de segmentar la seal.
Ventaneo
1 0.5 0 -0.5 0 200 a 400 600 0.8 0.6 0.4 0.2 0 0 200 b a) Corresponde a un marco de la seal original b) Forma de la ventana de Hamming 0 c) Seal enventanada -0.5 0 200 c 400 600 400 600
0.5
Representacin de la voz
Busca reducir el volumen de informacin necesario para analizar, almacenar o transmitir la seal de voz. Con las caractersticas que se extraen de la voz, puede obtenerse informacin sobre la persona que habla, contenido de lo que se dice y cmo lo dice.
Representacin de la voz
El objetivo es separar la informacin que corresponde a la fuente de sonido y la que corresponde al filtro. Las tcnicas ms utilizadas son:
Anlisis de Fourier en intervalos cortos de tiempo Codificacin Predictiva Lineal (LPC) Cepstrum
Fuente de sonido Modelo del Tracto vocal Filtro equivalente Seal de voz
Parmetros de la envolvente del espectro
Anlisis de Fourier en intervalos cortos de tiempo

Se considera que en intervalos cortos de tiempo, la seal de voz es estacionaria; es decir que su comportamiento (periodicidad o aleatoriedad) se mantiene aproximadamente constante. La seal se descompone en segmentos cortos llamados marcos (de 5 a 100ms) y se analiza cada uno independientemente. Se calcula el espectro de la seal en cada marco.

El marco puede definirse como el producto de la seal de voz por una funcin ventana que es diferente de cero slo en una pequea regin. Se calcula la DFT en cada marco (los marcos pueden traslaparse).
Ilustracin del enventanado 1 Seal 0 -1 0 1 Ventana 0 -1 0 1 Producto 0 -1 0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000
Espectrograma
Es una herramienta que permite visualizar el contenido de frecuencias de una seal con respecto al tiempo. Muestra grficamente la intensidad de la transformada de Fourier evaluada en cada marco. Permite observar los formantes, el pitch e identificar segmentos sonoros y sordos.
Espectrograma
Seal de voz y su Espectrograma 1 0.5 0 -0.5 -1 0 1 2 3 4 5 6 7 8 x 10
4
Frequency (Hz)
4000
2000
Formantes
1 2 3 4 Time 5 6 7
Espectrograma
Hay dos clases de espectrogramas:
De banda ancha: emplean ventanas pequeas (< 10ms) y tienen buena resolucin en el tiempo, con lo cual pueden observarse mejor los cambios en la seal. De banda angosta: emplean ventanas grandes (> 20ms) y tienen buena resolucin en frecuencia. Permiten observar los armnicos ms claramente.
Espectrograma
Frequency 4000 2000 0
0.2
0.4
0.6
0.8
1 Time
1.2
1.4
1.6
1.8
Frequency
4000 2000 0 0.5
Cul es el de banda ancha y cul el de banda angosta?
0.2
0.4
0.6
0.8
1 Time
1.2
1.4
1.6
1.8
-0.5
0.2
0.4
0.6
0.8
1.2
1.4
1.6
1.8

Segmento sonoro
Transformada de Fourier en una ventana de 27.2 ms (600 muestras) 30 20 10 -10 0 dB dB -10 -20 -30 -35 -40 -50 -40 0 50 100 150 k 200 250 300 -45 0 50 100 150 k 200 250 300 -15 -20 -25 -30 5 0 -5
Segmento sordo
Transformada de Fourier

El espectro de una seal de voz est dado por:
Una envolvente: en donde se observan las resonancias y antiresonancias del tracto vocal. Una estructura fina: refleja la periodicidad de la fuente sonora.
80 60 40 20 0 dB -20 -40 -60 -80 -100 0
1000
2000 3000 Frecuencia (Hz)
4000
5000
LPC
Una seal puede modelarse expresando el valor de la seal x[n] en el instante n como una combinacin lineal de muestras en instantes anteriores:
~ x [n] = ak x[n k ]
k =1
De esta forma, el proceso de produccin de la voz se modela como un filtro IIR.
LPC
Los parmetros ak pueden calcularse a partir de la minimizacin del error de la seal original y la aproximacin dada por la ecuacin anterior. Hay dos mtodos principales para estimar los coeficientes de prediccin lineal:
El mtodo de autocorrelacin. El mtodo de covarianza.
LPC
Los coeficientes de prediccin permiten modelar el tracto vocal como un filtro de solo polos, con lo cual se puede estimar la envolvente del espectro.
X (z ) H (z ) = = E (z )
1 1 ak z
k =1 p k
La seal error puede emplearse para aproximar la fuente de sonido.
e[n] = x[n] ~ x [n] = x[n] ak x[n k ]

k =1
LPC
Espectro de Fourier 40 20 0 dB -20 -40 -60 0 1000 2000 3000 4000 5000 6000
Envolvente del espectro obtenida con LPC 40 20 0 dB -20 -40 -60 0 1000 2000 3000 f (Hz) 4000 5000 6000
Cepstrum
Una transformacin homomrfica convierte una convolucin en una suma:
x[n] = e[n]* h[n]
[n] [n] = e [n] + h x
El cepstrum es una transformacin homomrfica que permite separar la informacin sobre la fuente de sonido de la del filtro del tracto vocal.
Cepstrum
El cepstrum real se define:
1 c[n] = 2
j j ln X e e d
( )
El trmino cepstrum resulta de invertir la primera slaba de la palabra spectrum. Se defini as porque se obtiene al calcular la transformada inversa del logaritmo del espectro de la seal. La informacin del tracto vocal aparece en los primeros coeficientes cepstrales y la informacin de la fuente en los coeficientes ms altos.
Cepstrum
Segmento sonoro 1 0.5
dB Espectro de Fourier 40 20 0
0 -0.5 -1 0 100 200 300 400 500
-20 -40 -60 0 50 100 150 200 250 300
Cepstrum real 1 0.5 0 -0.5 -1 0 100 200 300 Muestra 400 500
dB
Envolvente del espectro por el mtodo de Cepstrum 40 20 0 -20 -40 -60 0 50 100 150 k 200 250 300

Introducción Al Procesamiento de Voz

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Introducción Al Procesamiento de Voz

Cargado por

Copyright:

Formatos disponibles

Introduccin al procesamiento de voz

Sonia H. Contreras Ortiz, PhD

Sistema fonador humano

Sistema fonador humano

Etapas del proceso de produccin de la voz

Clasificacin de los fonemas

Clasificacin de los fonemas

Oclusivos Africados Fricativos Laterales Vibrantes Nasales

Clasificacin de los fonemas

1.58 1.585 1.59 Tiempo (seg)

Modelo de produccin de la voz

Generador de pulsos peridicos

Articulacin Modelo del Tracto vocal Filtro equivalente

Generador de ruido aleatorio

Parmetros de la envolvente del espectro Sonoro/ sordo Amplitud Perodo de vibracin

Modelo de produccin de la voz

Procesamiento de seales de voz

Filtrado pasa bajo y conversin A/D.

10000 12000 14000 16000 18000

10000 12000 14000 16000 18000

10000 12000 14000 16000 18000

10000 12000 14000 16000 18000

0.2 0 -0.2 -0.4 -0.6

Parmetros de la envolvente del espectro

Anlisis de Fourier en intervalos cortos de tiempo

Anlisis de Fourier en intervalos cortos de tiempo

4000 2000 0 0.5

Cul es el de banda ancha y cul el de banda angosta?

Anlisis de Fourier en intervalos cortos de tiempo

Anlisis de Fourier en intervalos cortos de tiempo

2000 3000 Frecuencia (Hz)

De esta forma, el proceso de produccin de la voz se modela como un filtro IIR.

La seal error puede emplearse para aproximar la fuente de sonido.

e[n] = x[n] ~ x [n] = x[n] ak x[n k ]

x[n] = e[n]* h[n]

[n] [n] = e [n] + h x

0 -0.5 -1 0 100 200 300 400 500

-20 -40 -60 0 50 100 150 200 250 300

También podría gustarte