Está en la página 1de 67

Procesamiento de seales de voz

La comunicacin oral

ATV 2002 Dpto. Electrnica y Tecn. Computadores - UGR

Qu es la voz?
Onda de sonido (onda de presin) Producida por el aparato fonador Utilizada para comunicacin (para transmisin de mensajes)

Cuestiones varias:
Qu relacin hay entre los fonemas y la seal de voz? Y entre otras caractersticas y la seal de voz? Cmo podemos analizar las caractersticas de la voz? Cmo se manifiesta una patologa de la voz en la seal? Cmo podemos ajustar un sistema de ayuda a la audicin para optimizar la comprensin de la voz? Cmo podemos interpretar un error en la produccin de un fonema? Cmo podemos interpretar un error en deteccin o identificacin de fonemas?

Procesamiento de voz
Anlisis de voz Codificacin y comprensin de voz Sntesis de voz Reconocimiento automtico de voz Reconocimiento y verificacin de locutores Deteccin de patologas Diseo de ayudas para la audicin
5

Qu es la voz?
Produccin de la voz Percepcin de la voz Procesamiento de seales Dificultades al intentar relacionar la seal con las caractersticas

Problemas del procesamiento de voz


Variabilidad
Intra-locutor (estado salud / nimo, velocidad) Inter-locutor Adquisicin

Continuidad: concatenacin y coarticulacin Informacin contenida en la seal de voz muy redundante Multi-interactividad entre niveles:
Nivel fontico Caractersticas suprasegmentales Nivel semntico: contexto suplencia mental

Ruido: perturbacin + efecto Lombard


7

Variabilidad de las seales de voz 40 ms correspondientes al fonema /a/

Modelos de produccin de voz


rganos de produccin de voz
Cavidades infraglticas Cavidad larngea (cuerdas vocales) Cavidades supraglticas Provisin de aire Generacin de la onda glotal Filtrado de la onda glotal (diversificacin fontica)
9

Modelo acstico de produccin de voz


Onda acstica: onda de presin en el aire con c = 350 m/s Longitud de onda l = c / f
Para 100 Hz, l = 3.5 m Para 4 kHz, l = 8.75 cm

Produccin de sonido:
Fonemas sonoros: vibracin cuerdas vocales Fonemas sordos: flujo turbulento Fonemas oclusivos: obstruccin + apertura

10

Modelo acstico de produccin de voz (II)


Paredes no rgidas:
Prdidas onda acstica

Forma y seccin del tracto vocal vara en el tiempo:


Se producen entre 5 y 20 fonemas por segundo

Acoplamiento de la cavidad nasal mediante desplazamiento del velo del paladar

11

Simplificaciones
Tracto vocal tubo rgido descrito por la funcin de rea A(x,t) Como l > radio del tubo, aproximacin de onda plana
(El problema de contorno tridimensional se puede reducir a un problema unidimensional)

Se desprecian prdidas por viscosidad, conduccin trmica en aire y paredes del tubo

12

Funcin de rea

13

Ecuaciones de onda

14

Condiciones de contorno
Glotis: vibracin cuerdas vocales Labios: p(L)=0 Onda proporcional a u(L)

Solucin de las ecuaciones de onda


A se puede suponer constante en el tiempo (condicin de quasi-estacionariedad) Para A(x) sencilla, soluciones analticas Para A(x) compleja, mtodos numricos Medidas de A(x): Rx, TAC, RMN, articulgraf.
15

Prdidas por elasticidad

mw masa/unid.long; bw cte. amortiguacin kw cte. recuperacin elstica

Solucin para: L = 17.5 cm A = cte = 5.0 cm2


16

u(L,f) / uG(f)

17

Formantes
Formantes: resonancias del tracto vocal Por las dimensiones y la velocidad de propagacin del sonido, aparece en promedio 1 formante por cada kHz El tracto vocal filtra la onda glotal: amplifica cada componente de frecuencia con una determinada ganancia
18

Prdidas por radiacin de onda


p(L) = 0 no es cierto Impedancia acstica Z Impedancia para abertura circular de radio a en plano infinito

El filtrado del tracto vocal considerando las perdidas por radiacin es distinto: Cada para altas frecuencias 6 dB / dcada

19

u(L,f) / uG(f)

20

Solucin numrica para funcin de rea correspondiente a fonema /a/

21

Acoplamiento del tracto nasal

22

Modelo acstico de produccin de voz


Excitacin
Fonemas sonoros Fonemas sordos Fonemas oclusivos

Filtrado por tracto vocal / nasal


Formantes (1 por kHz) Cada 6 dB/dcada

23

Modelo digital de produccin de voz

24

Caractersticas de la voz
Excitacin:
Sonoro (freq. fundamental o pitch) Sordo Oclusivo Combinacin

Formantes:
Cavidad buco-nasal Envolvente espectral

Energa: presin de aire Evolucin en el tiempo de los parmetros


25

Caractersticas de la voz
Excitacin:
Sonoro (freq. fundamental o pitch) Sordo Oclusivo Combinacin

Formantes:
Cavidad buco-nasal Envolvente espectral

Energa: presin de aire Evolucin en el tiempo de los parmetros


26

Clasificacin de los fonemas


(desde el punto de vista de la produccin)

Actividad de cuerdas vocales


Vocales Consonantes sonoras Consonantes sordas

Modo de articulacin
Vocales Consonantes

Lugar de articulacin
Vocales Consonantes
27

Clasificacin de vocales
Modo de articulacin (formante 1)
Cerradas (i,u) Medias (e,o) Abiertas (a)

Lugar de articulacin (formante 2)


Anteriores (i,e) Centrales (a) Posteriores (o,u)
28

Formantes 1 y 2 en vocales
3000 2500

freq. 2o formante (Hz)

2000

/i/

/e/ /a/ /o/


400 500 600 700 800 900 1000

1500

1000

/u/
300

500 200

freq. 1er formante (Hz)


29

Modo de articulacin (cons.)


Oclusivas (b,d,g,p,t,k) Fricativas (s,f,z,x,y) Africadas (ch) Nasales (m,n,) Lquidas:
Laterales (l, ll) Vibrantes (r, R)

30

Lugar de articulacin (cons.)


Bilabiales (b,p,m) Labiodentales (f) Linguodentales (t,d) Linguointerdentales (z) Linguoalveolares (s,n,l,r,R) Linguopalatales (y,ch,,ll) Linguovelares (k,g,x)
31

Fonemas del espaol

32

Anlisis de seales de voz


Conceptos de procesado de seales
Transformada de Fourier Componentes de frecuencia Espectro de potencia Filtrado Ventanas Muestreo Espectrogramas
33

Transformada de Fourier
Transformada (FT):
Cambio de representacin Misma informacin (otra representacin) Existe transformada inversa (FT-1) Transforma seal compleja en seal compleja:
Im(z)

r f x y
Re(z)
34

Espectro de potencia (1)

35

Espectro de potencia (2)

36

Descomposicin en componentes freq.

37

Linealidad de la Transformada de Fourier

38

Linealidad de la Transformada de Fourier

39

Filtrado
excitacin seal filtrada

filtro

Caracterizacin del filtro:


Tiempo: respuesta impulsiva Frecuencia: funcin de transferencia (o respuesta en frecuencia)
40

Filtrado en el tiempo: convolucin

41

Filtrado en frecuencia: multiplicacin

42

Ventanas (multiplicacin en tiempo)

43

Ventanas (multiplicacin en tiempo)

44

Transformada de un tren de pulsos

45

Transformada de seal peridica

46

Muestreo de seales: T. de muestreo

47

Transformada Fourier: Resumen

48

DFT y FFT
Transformada discreta de Fourier (DFT) Transformada rpida de Fourier (FFT)

Seales discretas (muestreadas) Ventana (resolucin espectral) N muestras en t => N muestras en f FFT: Muy utilizada en procesamiento digital de seales
49

La seal de voz
/sal/

50

La seal de voz
/s/ /a/ /l/

51

Estacionariedad de la voz
La seal de voz es estacionaria a trozos
Durante la pronunciacin de un fonema es quasiestacionaria Velocidad cambios tracto vocal Velocidad cambios cuerdas vocales Estacionaria durante 20 40 ms Velocidad de pronunciacin: 5-20 fonemas / seg Anlisis de trozos de voz estacionarios: ventanas
52

Anlisis con ventanas

53

Anlisis con ventanas

54

Espectro de las vocales


/i/ /a/ /o/ /a/ cerrada

/u/
/e/
55

Espectro de las vocales


/i/ /a/ /o/ /a/ cerrada

/u/
/e/
56

Formantes 1 y 2 en vocales
3000 2500

freq. 2o formante (Hz)

2000

/i/

/e/ /a/ /o/


400 500 600 700 800 900 1000

1500

1000

/u/
300

500 200

freq. 1er formante (Hz)


57

Espectro de consonantes sonoras


/m/ /l/ /n/ /y/

//
/R/
58

Espectro de consonantes fricativas

/s/

/z/

/sh/

/f/

/ss/

/j/
59

Fonemas no estacionarios
Fonemas estacionarios:
vocales: /a/ /e/ /i/ /o/ /u/ consonantes sonoras: /l/ /y/ /R/ /m/ /n/ // consonantes fricativas: /s/ /sh/ /ss/ /z/ /f/ /j/

Fonemas no estacionarios:
Plosivas sordas: /p/ /t/ /k/ Plosivas sonoras: /b/ /d/ /g/ Otras consonantes: /ch/ /r/
60

Espectrograma
(representacin tiempo - frecuencia)

61

Espectrograma
(representacin tiempo - frecuencia)

m b o i a kom p r a R

pa n

62

Ventana en el espectrograma: 64ms / 8 ms

63

Informacin relevante de la seal de voz:


Para reconocimiento de voz:
Envolvente espectral (formantes) Evolucin temporal de los formantes Informacin espectral de tiempo corto

Informacin complementaria:
Tono fundamental Estructura fina del espectro

64

Cmo funciona el odo


Extrae informacin de la seal de audio. Enva la informacin al cerebro en forma de estmulos nerviosos. El implante coclear trata de imitar el mecanismo de conversin del sonido en potenciales de accin.
65

Caractersticas del odo humano


Configuracin de la cclea:
6.000 clulas ciliadas internas 40.000 terminaciones nerviosas Repolarizacin: 2 ms (400 - 500 disparos/seg) Conexin sinptica: sin interaccin entre canales

Capacidad de un odo entrenado:


Resolucin espectral: 1/9 tono Resolucin temporal: 400 - 500 Hz Resolucin de intensidad: 1 dB
66

Capacidad del odo humano


Resolucin en frecuencia: 1/9 tono:
fo - 1.013*fo 450 Hz - 456 Hz rango de frecuencia: 20 Hz - 20.000 Hz

Resolucin en el tiempo:
limitado por tiempo relajacin de clulas ciliadas y terminaciones nerviosas (~400 disparos por seg.)

Resolucin en intensidad:
Mejor de 1 dB

Mecanismos de adaptacin.

67

También podría gustarte