Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Universidad
de Chile
Contenidos
Universidad
2 de Chile
Modelo de producción y de percepción
de la señal de voz
Filtro del tracto vocal
La frecuencia fundamental y las cuerdas vocales
Formantes
Universidad
3 de Chile
Modelo de producción y de percepción
de la señal de voz
Filtro del tracto vocal
Universidad
4 de Chile
Modelo de producción y de percepción
de la señal de voz
Filtro del tracto vocal
Modelo del filtro del tracto vocal
4
x 10
1.5
0.5
-0.5
-1
-1.5
0 0.5 1 1.5 2 2.5 3 3.5 4
4
x 10
Universidad
5 de Chile
Modelo de producción y de percepción
de la señal de voz
La frecuencia fundamental y las cuerdas vocales
Vibración de las cuerdas vocales
La frecuencia fundamental (FO) corresponde al tono
La percepción del tono se conoce como Pitch
Universidad
6 de Chile
Modelo de producción y de percepción
de la señal de voz
La frecuencia fundamental y las cuerdas vocales
0,3
0,2
0,1
Amplitud
0,0
-0,1
-0,2
-0,3
0,00 0,01 0,02 0,03
tiempo (s)
Universidad
7 de Chile
Modelo de producción y de percepción
de la señal de voz
Formantes
Los formantes (de forma) son zonas en el espectro de
frecuencias en las que todo harmónico que cae en esas
zonas es amplificado y potenciado.
Polos del LPC
Concentraciones de energía
Universidad
8 de Chile
Modelo de producción y de percepción
de la señal de voz
Formantes
Universidad
9 de Chile
Codificación
¿Qué es codificación?
Tipos de codificadores de voz
Forma de onda
Vocoders
Universidad
10 de Chile
Codificación
¿Qué es codificación?
Comprimir información para transmitir o almacenar
Codificadores.
Para enviar.
Decodificadores.
Para Recibir.
Sistema de codificación y decodificación se conoce como
“CODEC”.
Universidad
11 de Chile
Codificación
¿Qué es codificación?
Esquema Básico de codificación:
Voz de
S(t) S(n) Sq(n) Señal Codificada
entrada
Filtro pasa bajo
Muestreo Cuantizador Codificador 00100001..
Anti-alias
Universidad
12 de Chile
Codificación
Universidad
13 de Chile
Codificación
Universidad
14 de Chile
Codificación
Universidad
15 de Chile
Codificación
Universidad
16 de Chile
Codificación
Universidad
17 de Chile
Codificación
Universidad
18 de Chile
LPC (Linear Predictive Coding)
s[ n] = ∑ ak s[n − k ] + e[n]
k =1
Universidad
19 de Chile
LPC (Linear Predictive Coding)
1.8
1.6
1.4
1.2
0.8
0.6
0.4
0.2
0 4
0 500 1000 1500 2000 2500 3000 3500 x 10
1.5
0.5
-0.5
-1
-1.5
0 0.5 1 1.5 2 2.5 3 3.5 4
4
x 10
100
80
60
40
20
-20
-40
-60
-80
-100
3.44 3. 45 3. 46 3.47 3.48 3.49 3.5 3.51 3.52 3.53
4
x 10
Universidad
20 de Chile
LPC (Linear Predictive Coding)
n = −∞ n = −∞ k =1
∂E
=0 k = 1,2,3,......., p
∂α k
Universidad
21 de Chile
LPC (Linear Predictive Coding)
R (i ) = ∑ s( n )s( n − i )
n=i
i = 1,2,3,......, p
Reemplazando:
p
Universidad
23 de Chile
LPC (Linear Predictive Coding)
Resumiendo:
R * A = r
define las ecuaciones de Yule-Walker y donde R es una
matriz de p x p. Invirtiendo la matriz R se puede obtener el
vector A de coeficientes del LPC.
Método de Levinson-Durbin
Consiste en aprovechar las simetrías de la matriz.
Universidad
24 de Chile
LPC (Linear Predictive Coding)
Método de Levinson-Durbin
m −1
R( m ) − ∑ α im −1 R( m − i )
km = i =1
Em −1
α m
m = km
α im = α im −1 − kmα mm−−i1 1 ≤ i ≤ m −1
Universidad
25 de Chile
LPC (Linear Predictive Coding)
Método de Levinson-Durbin
( )
E m = 1 − k m2 ⋅ E m − 1
Donde inicialmente:
E 0 = R (0)
α0 = 0
Universidad
26 de Chile
Cuantización vectorial (VQ)
Motivación:
LPC ~ 10 coeficientes (10 float 4 bytes)
Pitch (float 4 bytes)
V/U (1 bits)
Ganancia (float 4 bytes)
bits bits bits
4 bytes × 8 × 10 + 1 bytes × 8 + 1 bytes × 8 + 1 bits = 337 bits
bytes bytes bytes
frames
337 bits × 80 ⇒ 26.96 kbps
s
Usando cuantización vectorial ~ 10 coeficientes (Codebook 5 bits – 32 celdas)
Pitch y ganancia (4 bits); V/U (1 bits)
frames
14 bits × 80 ⇒ 1.12 kbps
s
Universidad
27 de Chile
Cuantización vectorial (VQ)
Universidad
28 de Chile
Cuantización vectorial (VQ)
Objetivo:
Obtener un pequeño conjunto de vectores (codebook)
que representen al espacio de muestras de forma que cada
bloque se pueda representar por el índice de su vector
asociado (codeword). Cada bloque puede ser representado
por su codeword (centroide) o puede ser calculado como
una densidad de función de probabilidad.
Universidad
29 de Chile
Cuantización vectorial (VQ)
L
D = ∑D
i =1
i
Universidad
30 de Chile
Vocoder LPC
Encoder
4
x 10
1.5
20
Magnitude (dB)
0
1
ENCODER
-20
0.5
-40
0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Normalized Frequency (×π rad/sample)
-0.5
150
Phase (degrees)
100
-1
50
-1.5 0
3 000 4 000 50 00 600 0 700 0 8000 9000 10000 11000 12000 13000
-50
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Normalized Frequency (×π rad/sample)
Universidad
31 de Chile
Análisis por Síntesis
Motivación
A pesar de que la voz sintetizada por el Vocoder LPC-
10 es inteligible, es posible observar los siguientes
problemas:
Universidad
32 de Chile
Análisis por Síntesis
Universidad
33 de Chile
Análisis por Síntesis
Universidad
34 de Chile
Análisis por Síntesis
Universidad
35 de Chile
Análisis por Síntesis
Universidad
36 de Chile
Análisis por Síntesis
Universidad
37 de Chile
Análisis por Síntesis
RELP
RPE-LPT (GSM)
CELP
MELP
Universidad
38 de Chile
RELP
Universidad
39 de Chile
RELP
Universidad
40 de Chile
RELP
Universidad
41 de Chile
RPE-LPT (GSM)
Universidad
42 de Chile
RPE-LPT (GSM)
Universidad
43 de Chile
RPE-LPT (GSM)
Universidad
44 de Chile
RPE-LPT (GSM)
Universidad
45 de Chile
CELP
Universidad
46 de Chile
CELP
Universidad
47 de Chile
CELP
Universidad
48 de Chile
Análisis por Síntesis
Tabla comparativa
Técnica Tasa de transmisión MOS
Universidad
49 de Chile
MELP
Universidad
50 de Chile
MELP
Universidad
51 de Chile
MELP
Mixed excitation
Un gran problema vocoder LPC convencional es el cambio
abrupto entre excitación y ruido blanco
MELP propone una mezcla entre excitación periódica y
ruido
La cantidad de excitación periódica y ruido en la señal
sintetizada en la mezcla depende de dos shaping filters
Universidad
52 de Chile
MELP
Mixed excitation
Los shaping filters se construyen a partir de combinaciones
lineales de filtros FIR pasabanda fijos llamados “Filtros de
síntesis”
h1 h2 h3 h4 h5
Universidad
53 de Chile
MELP
Mixed excitation
Si hi (n) es la respuesta al impulso del filtro de síntesis i, El
shaping filter para excitación está definido como:
5
h pulso (n) = ∑ vsi hi (n) vsi ∈ [0,1]
i =1
Filtro 1 x +
VS1
Filtro 2 x
VS2
....
Filtro 5 x
VS5
Universidad
54 de Chile
MELP
Mixed excitation
Análogamente, el shaping filter de ruido blanco está dado
por: 5
hnoise (n) = ∑ (1 − vsi )hi (n)
i =1
Universidad
55 de Chile
MELP
Pulsos aperiódicos
Modela las transiciones de pitch y los fenómenos como el
vocal fry (o creaky voice)
La idea es generar pulsos periódicos con jitter cuando sea
necesario
Un frame es detectado como jittery voiced si vs1<0.5
De esta forma, la decisión V/UV es menos exigente y se
transforma en V/JV/UV
Se necesita sólo un bit para saber si un frame posee jitter o
no
Universidad
56 de Chile
MELP
Universidad
57 de Chile
MELP
Universidad
58 de Chile
MELP
Universidad
59 de Chile
Codificador MELP
Universidad
60 de Chile
Codificador MELP
Universidad
61 de Chile
Contenidos
4
x 10
20
1.5
Magnitude (dB)
0
1
-20
0.5
-40
0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Normalized Frequency (×π rad/sample)
-0.5
150
Phase (degrees)
100
-1
50
-1.5 0
3000 4000 5000 6000 7000 8000 9000 10000 11000 12000 13000
-50
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Normalized Frequency (×π rad/sample)
3000
2000
1000
-1000
-2000
-3000
-4000
0 50 100 150 200 250 300 350
Universidad
62 de Chile
Codificador MELP
Universidad
63 de Chile
Codificador MELP
∑ s ( n) s ( n + t )
r (t ) = n =0
N −1 N −1
∑s
n =0
2
( n) ∑ s 2 ( n + t )
n =0
Universidad
64 de Chile
Codificador MELP
Universidad
65 de Chile
Codificador MELP
Voicing strengths
VS1 se calcula de acuerdo a:
Universidad
66 de Chile
MELP
Voicing strengths
Los restantes voicing strengths, VS(2,3,4,5), se estiman según:
Universidad
67 de Chile
Codificador MELP
Universidad
68 de Chile
Codificador MELP
Fourier magnitudes
Es la magnitud de la transformada de Fourier del error de
predicción.
Se captura la forma del pulso de excitación
El objetivo es agregar en la excitación de la señal
sintetizada información del residuo del error de predicción
Análisis por síntesis
Universidad
69 de Chile
Codificador MELP
Universidad
70 de Chile
Codificador MELP
Universidad
71 de Chile
Codificador MELP
10 i
Universidad
72 de Chile
Codificador MELP
117 i = 1...10
wi =
2 0.69 Fmag [i ] = Fourier Magnitude i
F [i ]
23 + 75 1 + 1.4 mag
1000
Universidad
73 de Chile
Codificador MELP
Universidad
74 de Chile
Codificador MELP
Ganancia
Se calculan dos ganancias por frame (G1 y G2)
Se utilizan ventanas variables para la señal de entrada que
dependen del pitch
Estimación de las ganancias:
1 L 2
Gi = 10log10 0.01 + ∑ sn L = Tamaño de la ventana
L n =1
Universidad
75 de Chile
Codificador MELP
Ganancia
Cuantización de la Ganancia
Cuantización lineal para G1 y G2
G1 se cuantiza con 3 bits
G2 se cuantiza con 5 bits
Universidad
76 de Chile
Decodificador MELP
Universidad
77 de Chile
Decodificador MELP
Universidad
78 de Chile
Decodificador MELP
Interpolación
Se interpolan todos los parámetros de síntesis
Pitch, LSF, jitter, Fourier magnitudes y voicing strengths son
interpolado de la siguiente manera:
T = (1 − α ) Tpast + α Tpresent
Universidad
79 de Chile
Decodificador MELP
Universidad
80 de Chile
Decodificador MELP
Generación de pulsos
La señal sintetizada se genera a partir de pulsos
Su forma depende de los Fourier Magnitudes
Universidad
81 de Chile
Decodificador MELP
Universidad
82 de Chile
Decodificador MELP
Universidad
83 de Chile
Decodificador MELP
Universidad
84 de Chile
MELP
Bit allocation
Parámetro Voiced Unvoiced
LSF 25 25
Pitch y VS1 7 7
VS(2,3,4,5) 4 -
Primera ganancia 3 3
Segunda ganancia 5 5
Aperiodic flag 1 -
Fourier magnitudes 8 8
Sincronización 1 1
Protección de errores - 13
TOTAL 54 54
Universidad
85 de Chile
MELP
Tabla comparativa
Técnica Tasa de transmisión MOS
Universidad
86 de Chile