Documentos de Académico
Documentos de Profesional
Documentos de Cultura
La comunicacin oral
Qu es la voz?
Onda de sonido (onda de presin) Producida por el aparato fonador Utilizada para comunicacin (para transmisin de mensajes)
Cuestiones varias:
Qu relacin hay entre los fonemas y la seal de voz? Y entre otras caractersticas y la seal de voz? Cmo podemos analizar las caractersticas de la voz? Cmo se manifiesta una patologa de la voz en la seal? Cmo podemos ajustar un sistema de ayuda a la audicin para optimizar la comprensin de la voz? Cmo podemos interpretar un error en la produccin de un fonema? Cmo podemos interpretar un error en deteccin o identificacin de fonemas?
Procesamiento de voz
Anlisis de voz Codificacin y comprensin de voz Sntesis de voz Reconocimiento automtico de voz Reconocimiento y verificacin de locutores Deteccin de patologas Diseo de ayudas para la audicin
5
Qu es la voz?
Produccin de la voz Percepcin de la voz Procesamiento de seales Dificultades al intentar relacionar la seal con las caractersticas
Continuidad: concatenacin y coarticulacin Informacin contenida en la seal de voz muy redundante Multi-interactividad entre niveles:
Nivel fontico Caractersticas suprasegmentales Nivel semntico: contexto suplencia mental
Produccin de sonido:
Fonemas sonoros: vibracin cuerdas vocales Fonemas sordos: flujo turbulento Fonemas oclusivos: obstruccin + apertura
10
11
Simplificaciones
Tracto vocal tubo rgido descrito por la funcin de rea A(x,t) Como l > radio del tubo, aproximacin de onda plana
(El problema de contorno tridimensional se puede reducir a un problema unidimensional)
Se desprecian prdidas por viscosidad, conduccin trmica en aire y paredes del tubo
12
Funcin de rea
13
Ecuaciones de onda
14
Condiciones de contorno
Glotis: vibracin cuerdas vocales Labios: p(L)=0 Onda proporcional a u(L)
u(L,f) / uG(f)
17
Formantes
Formantes: resonancias del tracto vocal Por las dimensiones y la velocidad de propagacin del sonido, aparece en promedio 1 formante por cada kHz El tracto vocal filtra la onda glotal: amplifica cada componente de frecuencia con una determinada ganancia
18
El filtrado del tracto vocal considerando las perdidas por radiacin es distinto: Cada para altas frecuencias 6 dB / dcada
19
u(L,f) / uG(f)
20
21
22
23
24
Caractersticas de la voz
Excitacin:
Sonoro (freq. fundamental o pitch) Sordo Oclusivo Combinacin
Formantes:
Cavidad buco-nasal Envolvente espectral
Caractersticas de la voz
Excitacin:
Sonoro (freq. fundamental o pitch) Sordo Oclusivo Combinacin
Formantes:
Cavidad buco-nasal Envolvente espectral
Modo de articulacin
Vocales Consonantes
Lugar de articulacin
Vocales Consonantes
27
Clasificacin de vocales
Modo de articulacin (formante 1)
Cerradas (i,u) Medias (e,o) Abiertas (a)
Formantes 1 y 2 en vocales
3000 2500
2000
/i/
1500
1000
/u/
300
500 200
30
32
Transformada de Fourier
Transformada (FT):
Cambio de representacin Misma informacin (otra representacin) Existe transformada inversa (FT-1) Transforma seal compleja en seal compleja:
Im(z)
r f x y
Re(z)
34
35
36
37
38
39
Filtrado
excitacin seal filtrada
filtro
41
42
43
44
45
46
47
48
DFT y FFT
Transformada discreta de Fourier (DFT) Transformada rpida de Fourier (FFT)
Seales discretas (muestreadas) Ventana (resolucin espectral) N muestras en t => N muestras en f FFT: Muy utilizada en procesamiento digital de seales
49
La seal de voz
/sal/
50
La seal de voz
/s/ /a/ /l/
51
Estacionariedad de la voz
La seal de voz es estacionaria a trozos
Durante la pronunciacin de un fonema es quasiestacionaria Velocidad cambios tracto vocal Velocidad cambios cuerdas vocales Estacionaria durante 20 40 ms Velocidad de pronunciacin: 5-20 fonemas / seg Anlisis de trozos de voz estacionarios: ventanas
52
53
54
/u/
/e/
55
/u/
/e/
56
Formantes 1 y 2 en vocales
3000 2500
2000
/i/
1500
1000
/u/
300
500 200
//
/R/
58
/s/
/z/
/sh/
/f/
/ss/
/j/
59
Fonemas no estacionarios
Fonemas estacionarios:
vocales: /a/ /e/ /i/ /o/ /u/ consonantes sonoras: /l/ /y/ /R/ /m/ /n/ // consonantes fricativas: /s/ /sh/ /ss/ /z/ /f/ /j/
Fonemas no estacionarios:
Plosivas sordas: /p/ /t/ /k/ Plosivas sonoras: /b/ /d/ /g/ Otras consonantes: /ch/ /r/
60
Espectrograma
(representacin tiempo - frecuencia)
61
Espectrograma
(representacin tiempo - frecuencia)
m b o i a kom p r a R
pa n
62
63
Informacin complementaria:
Tono fundamental Estructura fina del espectro
64
Resolucin en el tiempo:
limitado por tiempo relajacin de clulas ciliadas y terminaciones nerviosas (~400 disparos por seg.)
Resolucin en intensidad:
Mejor de 1 dB
Mecanismos de adaptacin.
67