Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Voz y Video
Digitalizacin y
Codificacin de Voz
Codificacin de
Voz y Video
Dr. Ing. Jos Joskowicz, 2013
Introduccin
Codificacin por
Sntesis de voz
Sobre la dcada de
1980, se introduce la
idea de generar voz
sinttica, simulando
la manera en que se
produce la voz
humana en el
conducto vocal.
CAVIDAD
FARINGEA
CAVIDAD
NASAL
CAVIDAD
ORAL
BOCA
LARINGE
CUERDAS
VOCALES
TRAQUEA
PULMONES
FUERZA MUSCULAR
u(n)
s(n)
Filtro lineal
variable con el
tiempo
H ( z) =
1
p
1 + a k z k
k =1
Proceso de digitalizacin
Frecuencia de
muestreo
Flujo
de
audio
Reloj
Pasabanda
Conversor
A/D
Buffer &
Procesamiento
Serializacin
Hbrida
Flujo
de
audio
Buffer &
Procesamiento
Conversor
D/A
Ley A
Serie /
Paralelo
Reloj
Dr. Ing. Jos Joskowicz, 2013
CODEC Comercial
10
CODEC Comercial
11
12
CODECs de Audio
Codificacin de
Voz y Video
Dr. Ing. Jos Joskowicz, 2013
CODECs
300 a 3400 Hz
50 a 7000 Hz
50 a 14000 Hz
50 a 20000 Hz
Dr. Ing. Jos Joskowicz, 2013
14
Nombre
PCM: Pulse Code
Modulation
Bit rate
(kb/s)
64, 56
Retardo
(ms)
0.125
Comentarios
Codec base, utiliza dos posibles
leyes de compresin: -law y A-law
G.723.1
6.3, 5.3
G.728
LD-CELP: Low-Delay
code excited linear
prediction
40, 16,
12.8,
9.6
1.25
G.729
CS-ACELP:
Conjugate Structure
Algebraic Codebook
Excited Linear
Prediction
11.8, 8,
6.4
15
AMR
12..2 a
4.75
Ampliamente utilizado en
aplicaciones de VoIP, a 8 kb/s
15
Nombre
Bit rate
(kb/s)
G.722
Sub-band ADPCM
48,56,64
G.722.1
Transform Coder
24,32
G.722.2
AMR-WB
6.6 a
23.85
G.711.1
Wideband G.711
64, 80,
96
G.729.1
RtAudio
Wideband G.729
8 a 32
kb/s
8.8, 18
Retardo
(ms)
Comentarios
16
Nombre
SILK
Bit rate
(kb/s)
8 a 24
Retardo
(ms)
Comentarios
17
Nombre
Bit rate
(kb/s)
Retardo
(ms)
Low-complexity,
full-band
32 a 128
40
Comentarios
Es el primer codec fullband
estandarizado por ITU
18
19
Digitalizacin de la voz
Proceso de digitalizacin
1. Muestreo
Amplitud
Tiempo
Dr. Ing. Jos Joskowicz, 2013
20
Digitalizacin de la voz
Proceso de digitalizacin
2. Cuantificacin
Amplitud
Tiempo
Dr. Ing. Jos Joskowicz, 2013
21
Digitalizacin de la voz
Proceso de digitalizacin
3. Codificacin
Amplitud
1100110
1100101
Tiempo
Dr. Ing. Jos Joskowicz, 2013
22
Digitalizacin de la voz
G.711
1. Muestreo
23
Digitalizacin de la voz
G.711
2. Cuantificacin (1/3)
24
Digitalizacin de la voz
G.711
2. Cuantificacin (2/3)
Amplitud
Tiempo
Dr. Ing. Jos Joskowicz, 2013
25
Digitalizacin de la voz
G.711
2. Cuantificacin (3/3): Leyes de Cuantificacin
26
Digitalizacin de la voz
G.711 - Ley A
16
subnivele
s
Nivel 2
Nivel 1
1/32
1/16
1/8
1/4
1/64
1/128
27
Digitalizacin de la voz
G.711 - Ley A
Cuantificacin no lineal (ley A)
Nivel
1
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
0
10
20
30
40
50
60
70
80
90
100
Amplitud
28
Digitalizacin de la voz
G.711 - Ley A
3. Codificacin: Ley A o ley de los 13 segmentos
Bit
7
Signo
6
5
4
Segmento (0 - 7)
2
1
Intervalo (0 - 15)
29
30
Discontinuos
Transmission
Voice Activity
Detection
Dr. Ing. Jos Joskowicz, 2013
31
32
Codificador G.711.1
Wideband
Narrowband
input signal
input signal
sWB (n)
s NB ( n)
( n = 0,..., 79)
( n = 0,...,39)
Pre-processing
filter
s%WB (n)
( n = 0,..., 79)
Pre-processing
filter
s%NB ( n)
( n = 0,...,39)
Lower-band signal
sLB (n)
(n = 0,...,39)
Analysis
QMF
Lower-band
embedded
PCM encoders
Core bitstream
I L0
Lower-band
enhancement
bitstream I L1
Multiplexed
bitstream
MUX
Higher-band
signal
MDCT
sHB (n)
( n = 0,...,39)
Higher-band
MDCT
coefficients
S HBm (k ), HB
( k = 0,...,39)
Higher-band
MDCT
encoder
Higher-band
bitstream
I L2
33
Decodificador G.711.1
Multiplexed
bitstream
Lower-band signal
Core bitstream
I L0
DeMUX
Lower-band
enhancement
bitstream I L1
sLB ( n)
(n = 0,...,39)
sLB ( n)
(n = 0,..., 39)
Lower-band
embedded
PCM decoders
Higher-band
bitstream
Higher-band
MDCT
IL 2
decoder
Lower-band
FERC
Lower-band T
LB
pitch lag
Higher-band
MDCT
coefficients
SHBm (k ),HB
(k = 0,...,39)
Synthesis
QMF
Higher-band
FERC
iMDCT
Noise
gate
sQMF (n)
(n = 0,...,79)
Higher-band
signal
sHB ( n)
(n = 0,...,39)
Synthesized
output signal
s%NB ( n) or s%WB (n)
34
35
Tramas G.711.1
36
37
G.729
38
Codificador G.729
39
Decodificador G.729
40
G.729
G.729 A
Variante
G.729 B
Deteccin
41
G.729 B VAD
(Voice Activity Detection)
42
43
Trama G.729.1
44
G.723.1
6.4 kb/s
Utiliza
5.3 kb/s
Utiliza
45
46
SILK
47
48
49
AMR-WB (G.722.2)
50
AMR-WB (G.722.2)
51
Digitalizacin y
Codificacin de Video
Codificacin de
Voz y Video
Dr. Ing. Jos Joskowicz, 2013
Prediccin
Predecir
Transformacin
Los
53
Cuantizacin
Se
54
Estandarizaciones
Fuente
(Seal original)
Pre-procesamiento
Codificacin
Transmisin
Destino
(Seal recibida)
Post-procesamiento
y recuperacin de
errores
Decodificacin
55
Codificacin de Imgenes
56
Codificacin de Video
MPEG-1
Originalmente
MPEG-2
Pensado
57
Codificacin en MPEG
58
Codificacin en MPEG
59
MPEG-4 y H.264/AVC
MPEG-4
Es la evolucin de MPEG-1 y 2, y provee la tecnologa base
para la codificacin en base a contenidos, y su almacenamiento,
transmisin y manipulacin
Puede codificar mltiples Objetos de video (MVO Multiple
Video Objects)
H.264/MPEG-4 Part 10
JVT/H.26L/AVC (Advanced Video Coding) o H.264/AVC
Con AVC, para una misma calidad de video, se logran mejoras
en el ancho de banda requerido de aproximadamente un 50%
respecto estndares anteriores
60
H.264/SVC y MVC
61
Perfiles y niveles
Profile (BP)
Main Profile (MP)
High Profile (HiP)
Otros (en total hay 17 perfiles!)
62
Codificador H.264
63
MPEG-1
MPEG-2
MPEG-4
H.264/MPEG-4
Part 10/AVC
16x16
16x16, 16x8
16x16
16x16
8x8
8x 8
16x16
8x8, 16x8
Transformada
DCT
DCT
DCT/DWT
8x8
8x8
8x8
4x4
Codificacin
VLC
VLC
VLC
VLC, CAVLC,
CABAC
Estimacin y
compensacin de
movimiento
Si
Si
Si
Perfiles
No
Tipo de cuadros
I,P,B,D
I,P,B
I,P,B
I,P,B,SI,SP
Ancho de banda
2 a 15 Mbps
64 kbps a 2 Mbps
Baja
Media
Media
Alta
Si
Si
Si
No
64
Muchas Gracias!
Codificacin de
Voz y Video
Dr. Ing. Jos Joskowicz
josej@fing.edu.uy
Dr. Ing. Jos Joskowicz, 2013