Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Sonoro Sordo Sonoro Sordo Sonoro Sordo Sonoro Sordo Sonoro Sordo Sonoro Sordo Sonoro Sordo
t ch
z l r, rr
y ll
0.1
Am plitud
0 -0.1
-0.2 -0.3
-0.4
0.05
0.1
0.15
Tiem po (s )
Segmento sonoro
Es de naturaleza cuasiperidica. Posee una frecuencia fundamental (pitch) que corresponde con la frecuencia de vibracin de las cuerdas vocales. Toma valores entre 50Hz y 500Hz.
SEGMENTO SONORO 0.6 0.4
0.2 Amplitud
-0.2
-0.4 1.45 1.455 1.46 1.465 1.47 1.475 1.48 Tiempo (seg) 1.485 1.49 1.495 1.5
Segmento sordo
Puede modelarse por medio de una fuente de ruido aleatorio. No presenta naturaleza peridica. Presenta menor amplitud debido a las restricciones que se imponen a la salida del aire.
SEGMENTO SORDO 0.2 0.15 0.1 0.05 Amplitud 0 -0.05 -0.1 -0.15 -0.2 -0.25 1.56
1.565
1.57
1.575
1.595
1.6
1.605
1.61
Pitch
Est relacionado con el tono de la voz. Toma diferentes rangos de valores para nios, mujeres y hombres. Puede calcularse como el inverso del perodo de la seal de voz. Ejemplo: Esta seal tiene N = 47 El pitch se calcula as:
0.2 0.15 0.1
fs f = N
0.05
-0.05
-0.1
3500
3550
3600
3650
3700
3750
3800
Seal de voz
Adquisicin y acondicionamiento
La adquisicin de la seal se realiza por medio de un transductor: micrfono.
Clase Impedancia Direccionalidad
90 120 1 0.8 0.6 0.4 0.2 180 0 180 90 60 120 25 20 15 10 5 0 180 90 60 150 120 20 15 30 10 5 0 30 60 150 30 150
210
330
210
330
210
330
240 270
300
240 270
300
240 270
300
Segmentacin
Permite separar los eventos de inters (la voz) de otras partes de la seal. Establece los puntos de inicio y fin de palabra y en algunas aplicaciones identifica sonoridad.
SEAL DE VOZ 0.5
Silencio
0
Sonoro
-0.5 0.5
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
Sonoro
Sordo
-0.5 0.5
0.5
0.55
0.6
0.65
0.7
0.75
0.8
0.85
0.9
Sordo
0
Silencio
-0.5
0.95
1.05
1.1
1.15 t (s)
1.2
1.25
1.3
1.35
Segmentacin
CRUCES POR CERO 200 150 100 50 0 1 3 MAGNITUD PROMEDIO 2
2000
4000
6000
8000
2000
4000
6000
8000
10 5 0 -5 -10
10 5 0 -5 -10
2000
4000
6000
8000
2000
4000
6000
8000
do
un o
do
un o
Segmentacin
MAGNITUD PROMEDIO 4 3 2 1 0 1.2 1 0.8 0.6 0.4 0 0.5 1 1.5 2 2.5 x 10 10 5 0 -5 -10
4
SEAL BINARIZADA
0.5
1.5
2.5 x 10
4
-0.8
0.5
1.5
2.5 x 10
4
Prenfasis
Consiste en pasar la seal por un filtro pasa alto de primer orden con el fin de enfatizar las altas frecuencias y hacer la seal menos susceptible a los efectos de la precisin finita en el procesamiento digital.
H (z ) = 1 z
0.9<<1
Ventaneo
La voz se analiza en marcos de datos de 10 a 50ms. En intervalos cortos el sistema puede considerarse lineal e invariante en el tiempo (estacionario). El marco de datos se multiplica por una ventana (Hamming o Hanning) para reducir la distorsin espectral ocasionada por el hecho de segmentar la seal.
Ventaneo
1 0.5 0 -0.5 0 200 a 400 600 0.8 0.6 0.4 0.2 0 0 200 b a) Corresponde a un marco de la seal original b) Forma de la ventana de Hamming 0 c) Seal enventanada -0.5 0 200 c 400 600 400 600
0.5
Representacin de la voz
Busca reducir el volumen de informacin necesario para analizar, almacenar o transmitir la seal de voz. Con las caractersticas que se extraen de la voz, puede obtenerse informacin sobre la persona que habla, contenido de lo que se dice y cmo lo dice.
Representacin de la voz
El objetivo es separar la informacin que corresponde a la fuente de sonido y la que corresponde al filtro. Las tcnicas ms utilizadas son:
Anlisis de Fourier en intervalos cortos de tiempo Codificacin Predictiva Lineal (LPC) Cepstrum
Fuente de sonido Modelo del Tracto vocal Filtro equivalente Seal de voz
Espectrograma
Es una herramienta que permite visualizar el contenido de frecuencias de una seal con respecto al tiempo. Muestra grficamente la intensidad de la transformada de Fourier evaluada en cada marco. Permite observar los formantes, el pitch e identificar segmentos sonoros y sordos.
Espectrograma
Seal de voz y su Espectrograma 1 0.5 0 -0.5 -1 0 1 2 3 4 5 6 7 8 x 10
4
Frequency (Hz)
4000
2000
Formantes
1 2 3 4 Time 5 6 7
Espectrograma
Hay dos clases de espectrogramas:
De banda ancha: emplean ventanas pequeas (< 10ms) y tienen buena resolucin en el tiempo, con lo cual pueden observarse mejor los cambios en la seal. De banda angosta: emplean ventanas grandes (> 20ms) y tienen buena resolucin en frecuencia. Permiten observar los armnicos ms claramente.
Espectrograma
Frequency 4000 2000 0
0.2
0.4
0.6
0.8
1 Time
1.2
1.4
1.6
1.8
Frequency
0.2
0.4
0.6
0.8
1 Time
1.2
1.4
1.6
1.8
-0.5
0.2
0.4
0.6
0.8
1.2
1.4
1.6
1.8
Segmento sordo
Transformada de Fourier
1000
4000
5000
LPC
Una seal puede modelarse expresando el valor de la seal x[n] en el instante n como una combinacin lineal de muestras en instantes anteriores:
~ x [n] = ak x[n k ]
k =1
LPC
Los parmetros ak pueden calcularse a partir de la minimizacin del error de la seal original y la aproximacin dada por la ecuacin anterior. Hay dos mtodos principales para estimar los coeficientes de prediccin lineal:
El mtodo de autocorrelacin. El mtodo de covarianza.
LPC
Los coeficientes de prediccin permiten modelar el tracto vocal como un filtro de solo polos, con lo cual se puede estimar la envolvente del espectro.
X (z ) H (z ) = = E (z )
1 1 ak z
k =1 p k
LPC
Espectro de Fourier 40 20 0 dB -20 -40 -60 0 1000 2000 3000 4000 5000 6000
Envolvente del espectro obtenida con LPC 40 20 0 dB -20 -40 -60 0 1000 2000 3000 f (Hz) 4000 5000 6000
Cepstrum
Una transformacin homomrfica convierte una convolucin en una suma:
El cepstrum es una transformacin homomrfica que permite separar la informacin sobre la fuente de sonido de la del filtro del tracto vocal.
Cepstrum
El cepstrum real se define:
1 c[n] = 2
j j ln X e e d
( )
El trmino cepstrum resulta de invertir la primera slaba de la palabra spectrum. Se defini as porque se obtiene al calcular la transformada inversa del logaritmo del espectro de la seal. La informacin del tracto vocal aparece en los primeros coeficientes cepstrales y la informacin de la fuente en los coeficientes ms altos.
Cepstrum
Segmento sonoro 1 0.5
dB Espectro de Fourier 40 20 0
Cepstrum real 1 0.5 0 -0.5 -1 0 100 200 300 Muestra 400 500
dB
Envolvente del espectro por el mtodo de Cepstrum 40 20 0 -20 -40 -60 0 50 100 150 k 200 250 300