Está en la página 1de 36

Codificacin digital de formas de onda de voz: PCM, DPCM,

Y Cuantizadores de DM

Resumen: Se presenta un estudio cuantificacin como una regla. Por


sobre la codificacin digital del lo tanto, son inestimables las
habla por medio de una pruebas de preferencia explcitas
aproximacin directa de la forma de para las comparaciones directas de
onda del tiempo. En particular, se los codificadores desde un punto de
discuten las representaciones de vista perceptual, y nociones como la
seales de discreta amplitud de isopreferencia y el escalamiento
tiempo discreto estrechamente multidimensional son naturalmente
relacionadas que son bastante apropiadas para interpretar los
conocidas como modulacin por resultados de tales pruebas.
impulsos codificados (PCM),
modulacin diferencial de cdigos Los puntos finales de preocupacin
de impulsos (DPCM) y modulacin son las preguntas de comunicacin
delta (DM). tales como mltiples codificaciones
de voz por pares de codificador-
El habla se reconoce como una decodificador en tndem;
seal no estacionaria, por lo que se Conversiones entre diferentes
hace hincapi en las estrategias de formatos de cdigos digitales; Y los
"compresin" y "adaptativas" para efectos del ruido aditivo y
la cuantizacin y prediccin de la multiplicativo en el canal de
forma de onda. Con la relacin de comunicacin, como se manifiesta
error de seal a cuantificacin SNR en la recepcin errnea de los bits
como una medida de rendimiento, portadores del habla. La informacin
se sugieren tcnicas que son ms sobre estos temas tiende a ser
propensas a ser apropiadas para la heterognea y no terica, y la
especificacin especificada de la digresin actual en el subjetivo
tasa de informacin. superficial por la intencin.

Se seala que las formas de onda El registro de gramfono que


de error en la cuantificacin del acompaa este artculo demuestra
habla no pueden considerarse como algunas de las manipulaciones del
ruido blanco aditivo, en general. habla que se discuten.
Esto significa que para sus
I. INTRODUCTION
evaluaciones de los codificadores de
voz, ya sean relativos o absolutos, LAS VENTAJAS de codificar una seal
es necesario complementar las digitalmente son bien conocidas y son
observaciones basadas en SNR con ampliamente discutidas en la literatura. En pocas
correcciones para factores palabras, la representacin digital ofrece robustez,
subjetivos y perceptuales. Estos regeneracin de seal eficiente, cifrado fcil, la
ltimos parecen desafiar la posibilidad de combinar funciones de transmisin
y conmutacin, y la ventaja de un formato
uniforme para diferentes tipos de seales. El la forma de onda de intensidad en una imagen , La
precio pagado por estos beneficios es la necesidad forma de onda de canal correspondiente a una
de mayor ancho de banda. Los portadores secuencia de bits de datos, o incluso la variacin
futuristas, as como algunos canales recientemente con tiempo de resonancia especfica en la forma
utilizados, se caracterizan por una disponibilidad de onda acstica.
de ancho de banda rpidamente creciente. Esto,
junto con la aparicin de la tecnologa de En el tratamiento de la codificacin de forma de
dispositivos necesarios, es la razn por la cual las onda, mantendremos los detalles de
tcnicas digitales de hoy son tan prometedoras. implementacin as como las digresiones
Los trabajos de Flanagan [1] y Schindler [2] matemticas al mnimo. El propsito ser explicar
incluyen secciones ilustrativas sobre la las tcnicas bsicas de cuantificacin, describir las
codificacin digital aplicada a la transmisin, versiones adaptativas relativamente recientes de
sntesis y almacenamiento del habla. las mismas (APCM, ADPCM y ADM) e incluir
datos de desempeo y demostraciones que
El tratamiento en el presente trabajo se limitar a permitan una evaluacin comparativa de
la codificacin del habla mediante una estrategias alternativas de codificacin.
reconstruccin sencilla de la forma de onda del
tiempo acstico: especficamente, mediante las Hablando de los datos de rendimiento, la relacin
representaciones de amplitud discreta de tiempo seal-a-razn de cuantificacin SNR se emplear
discreto estrechamente relacionadas, conocidas omnipresente como un criterio de desempeo en
como modulacin de cdigo de impulsos (PCM ), este trabajo, y aunque al final del artculo
Modulacin por impulsos diferenciales (DPCM) y discutimos efectos subjetivos y perceptuales en la
modulacin delta (DM). Nos interesan las evaluacin de codificadores, los trminos "mejor"
aproximaciones directas de la forma de onda del ptimo "se utilizar en referencia a tcnicas o
tiempo en el sentido de que no consideraremos diseos que maximicen la SNR. Siempre que sea
cuestiones sobre la reproduccin del habla en posible, la SNR ser una medida en una seal de
trminos de descripciones de excitacin, voz real. A veces, sin embargo, tambin estaremos
resonancias del tracto vocal o parmetros invocando resultados derivados de seales
articulatorios. Muchos resultados dramticos en la gaussianas y sinusoidales. Estas referencias deben
compresin del habla, de hecho, depende de la maximizar nuestro uso de literatura de
utilizacin de estas caractersticas fundamentales cuantificador disponible y, al mismo tiempo, no
[11. Sin embargo, la simple forma de onda de minimizar nuestro rendimiento con seales de voz
codificacin sigue siendo un tema importante en reales!
dos aspectos. En primer lugar, desde el punto de
Las secciones II, III y IV se dedicarn a
vista de la complejidad del codificador, las
discusiones individuales de PCM, DPCM y DM,
tcnicas de aproximacin de forma de onda son
respectivamente. Los resultados de estas secciones
las candidatas ms probables para aplicaciones a
se utilizarn para evaluaciones comparativas en la
gran escala de codificacin de voz digital; Esto ha
Seccin V. Esta seccin tambin discutir factores
sido especialmente cierto en los sistemas que se
perceptuales y subjetivos en la evaluacin de
requieren para reproducir el habla con una calidad
codificadores e incluir breves comentarios sobre
suficiente para la telefona comercial. En segundo
problemas de transmisin tales como
lugar, la cuantificacin de la forma de onda es,
codificaciones mltiples, conversiones de cdigo
despus de todo, la aproximacin ms aplicable a
y los efectos de errores de canal en Rendimiento
la codificacin de seales. Por lo tanto, con la
del codificador.
excepcin de algunos codificadores especialmente
diseados para la forma de onda de voz, los En la Seccin II, se recapitula una frmula SNR
codificadores PCM, DPCM y DM que se discuten bsica para la codificacin PCM. La frmula dice
son apropiados para la comunicacin de cualquier que la SNR mxima alcanzable aumenta
funcin de tiempo de banda limitada: por ejemplo, exponencialmente con la tasa de informacin (bit).
Se discute cmo la realizacin de la SNR mxima cubo de la frecuencia de muestreo. Las tcnicas de
requiere la adecuacin del tamao del paso del cuantificacin adaptativa para la DM
cuantificador al rango dinmico de la seal. Para generalmente se dividen en dos clases: las basadas
una seal no estacionaria tal como el habla, dicha en cambios rpidos e instantneos de tamao de
correspondencia se logra ya sea por cuantificacin paso y aquellas que emplean compresin
no uniforme o -como en algunas propuestas "silbica" ms lenta. Esta ltima clase es
recientes- por el uso de cuantificadores especialmente adecuada para velocidades de
adaptativos que varan en el tiempo. Un tpico muestreo relativamente ms bajas y / o tasas de
adicional incluido en la Seccin II es el uso del error relativamente ms altas en la transmisin de
dithering (un proceso digital para pasar los bits.
archivos de audio de 24 bits a 16 bits ) en La Seccin V compara versiones adaptables
la cuantificacin del habla. tpicas de PCM, DPCM y DM desde un punto de
vista SNR. Por ejemplo, se observa que ADPCM
La seccin III discute cmo la codificacin
exhibe una ganancia de SNR constante respecto a
diferencial es naturalmente apropiada en la
PCM comprimido. En la comparacin ADM-
cuantificacin del habla. El codificador PCM
PCM, por otro lado, hay un punto de cruce en la
diferencial ms simple (DPCM) codifica
velocidad de bits por debajo de la cual ADM (que
esencialmente la voz en trminos de las primeras
originalmente fue concebida por su simplicidad)
diferencias en la forma de onda muestreada,
puede de hecho superar a PCM. Por ltimo,
mientras que versiones ms sofisticadas de DPCM
ADPCM parece ser superior, SNR-sabio, a ADM,
representan una muestra de voz en trminos del
excepto, posiblemente, a velocidades de bits que
error en una prediccin adecuada de la misma.
son demasiado pequeas para ser de ms de lo
Frecuencia de muestreo fija (tpicamente la
acadmico.
frecuencia de Nyquist (una seal analgica puede
ser reconstruida, sin error, de muestras tomadas en La insuficiencia de SNR como una medida
iguales intervalos de tiempo. La razn de adecuada de rendimiento se discute a
muestreo debe ser igual, o mayor, al doble de su continuacin. Esta insuficiencia est relacionada
ancho de banda de la seal analgica) para el con la observacin de que las formas de onda de
discurso limitado por banda), PCM diferencial error en la cuantificacin del habla no pueden ser
proporciona una ganancia SNR directa sobre modeladas por ruido blanco aditivo en general.
PCM. La ganancia es una funcin de las Por lo tanto, para las evaluaciones ms finas de
correlaciones presentes en las muestras de la los codificadores de voz, ya sean relativos o
forma de onda del habla, y de qu tan bien se absolutos, es necesario complementar las
explotan en las estrategias diferenciales, pero es observaciones basadas en SNR con correcciones
independiente, en gran medida, del nmero de bits para los llamados factores subjetivos y
utilizados para codificar una muestra de entrada. perceptuales. Estos ltimos parecen, por regla
Finalmente, las versiones prcticas de la general, determinar la cuantificacin.
codificacin diferencial incluyen tcnicas Inestimables, por lo tanto, son las pruebas de
adaptativas, y nuestra discusin incluir preferencia explcita para las comparaciones
predictores adaptativos adems de cuantificadores directas de los codificadores desde un punto de
variables en el tiempo. vista perceptual, y discutimos brevemente las
nociones de isopreferencia y escalamiento
El tema de la Seccin IV es la modulacin delta
multidimensional en este contexto. Estas nociones
(DM), un procedimiento de codificacin
son naturalmente apropiadas para interpretar los
diferencial basado en el uso de un cuantificador de
resultados de las pruebas de preferencia.
1 bit (2 niveles). La tcnica generalmente depende
del muestreo de seal para la reproduccin del Finalmente, nos interesa brevemente lo que se
habla satisfactoria. De hecho, la SNR en DM se puede denominar preguntas de comunicacin:
considera que aumenta aproximadamente como el mltiples codificaciones de voz por pares de
codificador-decodificador en tndem (trabajo H Una cantidad adimensional, proporcional
a Y, en un cuantificador uniforme
conjunto de dos componentes que resultan
complementarios. Las unidades que componen un N th muestra de ruido aleatorio aditivo.

tndem, de este modo, colaboran entre s con un


fin.): conversiones entre diferentes formatos de b Elemento de cdigo binario en el instante
de muestreo en DM.
cdigos digitales; Y los efectos del ruido aditivo y
B Nmero de bits utilizados para codificar
multiplicativo en el canal de comunicacin, como una muestra en PCM, DPCM (B = 1 para
se manifiesta en la recepcin errnea de los bits DM).
W Frecuencia ms alta en la seal de entrada
portadores del habla.
= ancho de banda de una seal filtrada
con paso bajo.
Mientras que la SNR sigue siendo la medida ms f0 Frecuencia de muestreo
informativa del rendimiento del cuantificador, la
eleccin de un cuantificador de voz especfico F f 0 /2W Factor de sobremuestreo en DM (F = 1 en
PCM, DPCM).
para una aplicacin dada debe, cuando sea
posible, seguir la consideracin de lo bien que un f Frecuencia de una seal de entrada
sinusoidal.
codificador puede reproducir el habla
perceptualmente y una evaluacin de lo bien que S(f) Espectro de densidad de potencia

el codificador puede Resistir las imperfecciones Cantidad sin dimensiones en la expresin


para un espectro de potencia integrado.
de un canal de comunicacin real.
T 0 =1/f 0 Duracin del muestreo.

El Apndice describe el contenido de un registro


de gramfono acompaante. Las grabaciones T AD Tiempo de adaptacin.

estn destinadas a proporcionar al lector un sabor


de los diferentes tipos de degradacin del habla Variable ficticia.

que los codificadores de forma de onda y los


Funcin de densidad de probabilidad de
canales reales causan. p( ) .

Valor medio de .
Sera apropiado, en este punto, resumir la notacin
empleada en este artculo.
Variacin de un .

Lista de smbolos Explicacin


[ ] 2

X th Muestra de entrada de cuantificador.


X , Y , E Se supone que es cero.

Y th Muestra de salida del cuantificador 1/ 2 Valor cuadrtico medio (raz cuadrada de


X rms X 2 la varianza) de X.

E Y X th Muestra de error de cuantificacin.

SNR X 2 / E 2
Relacin seal-ruido (error de
cuantificacin).
L X Y 1 th muestra de retardo de cuantificacin.
10 log10 SNR.
SNR( dB)
m Y Y 1 th paso en la salida del cuantificador.
G Ganancia SNR en DPCM (sobre PCM).

Z th Muestra de la salida del cuantificador~


, Q Smbolos alternativos para el valor
filtrado. cuantificado de .

Tamao del paso del cuantificador en el ^ Valor predicho de .


instante de muestreo .

Tamao de paso constante e ^


en
Muestra de error de prediccin.
cuantificacin no adaptativa.

min , max Valores mnimo y mximo del tamao del n Orden del predictor
coeficientes predictores).
(nmero de
paso.

M, P, Q Multiplicadores paso a paso. ai Coeficiente predictor


ai Perturbacin de
ai mnima puede ser inferior a 2W si la frecuencia de
en la prediccin
seal ms baja es distinta de cero.
adaptativa
i
B) La amplitud de cada muestra de seal se
D (a1 , a2 , , ai ) X a X cuantifica en uno de los niveles 2B. Esto implica
=1
una informacin de B bits por muestra, y una tasa
A Vector de coeficiente predictor de informacin global de 2WB bits por segundo
Correlacin entre muestras de (bits
X / s) para una seal filtrada de paso bajo.
Ci X X i / X 2 separadas por una duracin iTo (i
muestras).
C) Los niveles discretos de amplitud estn
, Matrices de correlacin.
representados por palabras binarias distintas de
longitud B. Por ejemplo, con B = 2, se pueden
,t Coeficientes de un predictor adaptativo.
representar 4 niveles distintos utilizando las
V Nivel de sobrecarga del compresor palabras
de de cdigo 00, 01, 10 y 11.
voz en cuantificacin no uniforme.
v Salida del compresor de voz.
D) Para la decodificacin, las palabras binarias se
asignan nuevamente en los niveles de amplitud y
Expresin de cantidad sin dimensiones
para la funcin de compresin la secuencia de impulsos de amplitud-tiempo es
logartmica.
filtrada en paso bajo con un filtro cuya frecuencia
Constante adimensional en expresin
SRN para DM de corte es W.
K Constante adimensional en la frmula
para el tamao de paso de Supongamos
un ahora que las etapas a), c) y d) se
cuantificador uniforme pueden llevar a cabo perfectamente en
1, 2 Constante adimensional en frmulas
implementaciones representativas, y se concentran
para la adaptacin de coeficientes
predictores en el rendimiento del codificador determinado por
los errores de cuantificacin introducidos en la
etapa b). Fig. 1 ilustra el caso simple de un
Acrnimos
cuantificador uniforme y muestra formas de onda
PCM Modulacin por impulsos. de error de seal y de cuantificacin.
DPCM Diferencial PCM.
Deje que el tamao del paso del cuantificador sea
APCM Adaptive PCM.
ADPCM Adaptable DPCM. denotado por . Si el nmero de niveles de
DM modulacin Delta.
cuantificador es grande, se supone que el error de
LDM Lineal (no adaptativo) DM.
cuantificacin tiene la siguiente distribucin
ADM Adaptive DM.
uniforme:
CDM DM continua.
DCDM DM controlado digitalmente.
1
p ( E )= , E< (1)
II. MODULACIN DE CDIGO DE PULSO 2 2

La codificacin de la forma de onda por PCM [3]


- [6] implica los pasos siguientes.

A) La forma de onda (banda limitada) se muestrea


a una velocidad de al menos 2W Hz (la frecuencia
de Nyquist), donde W es la frecuencia ms alta
contenida en la forma de onda. Este muestreo
asegura una reconstruccin perfecta de la seal
analgica mediante un desamplificador posterior
apropiado. Adems, la frecuencia de muestreo
[ ]
2

SRN =X rsm 2 / (3)
12

Por ejemplo, deje que el cuantificador incluya el


rango de amplitud -4Xrms a + 4Xrms. (Aunque
convencional en el trabajo terico, la anchura del
cuantificador de 8Xrms, no tiene ninguna santidad,
excepto que para la mayora de las
especificaciones de la densidad de la seal de
entrada, la anchura de 8Xrms, es ms que suficiente
para abarcar un rango significativo de la entrada
Por ejemplo, Si la seal PDF p (x) es modelada
por una funcin gaussiana de media cero, las
muestras de seal caern fuera del cuantificador
de 8Xrms con una probabilidad (de sobrecarga)
menor que 1 en 10 000.) El tamao de paso del
uniforme El cuantificador puede ahora expresarse
como la relacin entre el rango de amplitud y el
nmero de pasos (niveles de salida):

8 X rms
= (4)
2B

De (3) y (4)

SNR ( dB ) =10 log 10 SNR=6 B7.2 ( 5 )

La frmula proporciona una buena descripcin del


Fig. 1 El principio de cuantificacin. (Despus de negro rendimiento del PCM bajo las siguientes
[5.] (A) Caracterstica de cuantificacin. B) condiciones.
Caracterstica de los errores de cuantificacin. (C) Una
onda de seal cuantificada y la onda de error 1) El sistema funciona con un canal limpio (o
correspondiente. medio de almacenamiento de bit), de modo que el
rendimiento est limitado por el error de
Volveremos a este problema muy pronto. Por el cuantificacin (y no por la corrupcin de letras de
momento, supongamos que los cuantizadores no cdigo-palabra (bits) por el ruido del canal).
estn sobrecargados. Entonces, en virtud de (1), el
valor medio cuadrado del error de cuantificacin 2) La seal de entrada es suficientemente
es compleja para evitar la estructura temporal obvia
en la forma de onda de error, de modo que la
/2 descripcin estadstica del error en (1) sea
2
E2 p ( E ) dE=
12
(2) significativa.
/ 2
3) La cuantificacin es suficientemente fina (por
ejemplo, B> 6) para evitar patrones
Si el valor rms de la entrada X es X rsm la relacin
correlacionados con la seal en la forma de onda
seal -error es
de error, de manera que el efecto de los errores
puede medirse en trminos de potencia de ruido o seal implican deterioros obvios del rendimiento
varianza de error (2). del cuantificador, reflejados por valores de SNR
que por definicin son inferiores a los previstos
4) El cuantificador est de hecho alineado con el por (5). Consideremos ahora dos soluciones (no
rango de amplitud -4Xrms, + 4Xrms). mutuamente excluyentes) para el problema de
desajuste.
A. Uso del tramado en la cuantificacin del
habla B. Cuantificacin no uniforme

Las condiciones 1) -3) son generalmente Considere un cuantificador no uniforme con la


verdaderas de enlaces de habla de calidad de caracterstica de que el tamao del paso aumenta a
peaje. Cuando las demandas sobre la calidad del medida que nos alejamos del centro del
habla no son severas, los cuantificadores crudos cuantificador (media cero). La ventaja de tal
(B <6) son de inters. La degradacin del habla en cuantificador es que, sin incrementar el nmero
tales casos se refleja no slo por una SNR ms total de niveles de cuantificacin (y por lo tanto la
baja, sino tambin por una presencia indeseable de tasa de bits necesaria), se pueden permitir pasos
patrones dependientes de la seal en la forma de grandes en el cuantificador para cuidar las
onda del error de cuantificacin. La situacin posibles excursiones de la seal de voz en la
puede ser aliviada por el dithering [7], [8], de la (relativamente poco frecuente) Rangos de
siguiente manera: se aade una secuencia de ruido amplitud amplios.
pseudoaleatorio al habla que se va a cuantificar;
La substraccin subsiguiente de la secuencia
pseudoaleatoria de la salida del cuantificador
proporciona una secuencia de error similar al
ruido blanco (que se encuentra que es menos
objetable, perceptualmente que una forma de onda
de error dependiente de la seal) y tambin
conserva el valor original de SNR. La tcnica es
ms til en el estrecho pero prcticamente
significativa gama 4 B 6 [9].

El uso de un generador pseudoaleatorio se Fig. 2 Esquema del uso del dither en la cuantificacin.
demuestra en la Fig. 2. En la Fig. 3 se muestran
formas de onda de error de voz y de cuantificacin
con y sin tramado. Est claro que el dithering es
injustificado cuando B es grande (digamos, B28).
Esto se debe a que no hay patrones (evidentes)
dependientes de la seal en la forma de onda de
error, incluso sin tramado, cuando la
cuantificacin es suficientemente fina.

Ahora nos concentraremos en el hecho de que la


condicin 4) es muy rara vez encontrada en la
prctica. Esto se debe a la no estaciona- lidad de la
seal de voz, que conduce a desajustes de entrada
de cuantificador, especialmente cuando varios
altavoces o circuitos deben ser manejados por un
nico sistema codificador-decodificador. A menos
que se corrija de alguna manera, los desajustes
entre el rango del cuantificador y la potencia de la
expansin posterior de la salida. La ley de
compresin utilizada en el cuantificador de Smith
est dada por

| X|
|v|=Vlog 1+ ( V )
/log ( 1+ ) , > 0. ( 6 )

Fig. 4 (a) ilustra esta caracterstica de compresin,


y muestra que la cuantificacin lineal (uniforme)
corresponde a = 0. Smith tambin calcula la
ganancia de SNR sobre la cuantificacin uniforme
en funcin de la relacin entre el nivel de
sobrecarga del compresor

Fig. 3. Formas de onda de error de cuantizacin con y


sin dither. (Despus de Jayant y Rabiner [8]).

De manera equivalente, para una calidad dada de


codificacin, sobre un intervalo dinmico
especificado de la seal, un cuantificador no lineal
permite una reduccin de la velocidad de bits. Por
ejemplo, el cuantificador logartmico de Smith
[10] puede ser diseado tpicamente para
proporcionar una cuantificacin del habla de
calidad de peaje con 128 niveles o 7 bits por
muestra, mientras que un cuantificador uniforme
(Figura 1) necesita alrededor de 11 bits para un
rendimiento similar. [Obsrvese que, segn (5), si
se trata siempre de una seal estacionaria de
varianza conocida. Un cuantificador de 11 bits se
puede disear para proporcionar una mejora de 24
dB en SNR sobre un cuantificador de 7 bits.]

El uso de un cuantificador no uniforme es


equivalente a la presentacin de una seal
comprimida a un cuantificador uniforme, y una
abscisas. Estas reas son medidas de cun bien se
mantiene el rendimiento del cuantificador cuando
Xrms, cambia. El valor especfico de = 255 se
utiliza frecuentemente en las implementaciones
actuales.

Finalmente, es til en las implementaciones


compander aproximar la curva logartmica (6)
para seales pequeas por un segmento lineal.
Este procedimiento se denomina companding de
la ley A (es un sistema de cuantificacin
logartmica de seales de audio). El recproco de
A se define como el valor de la abscisa, en la Fig.
4 (a), despus de lo cual la curva transita
suavemente a una forma logartmica verdadera.

Panter y Dite [6] muestran cmo la ventaja de la


cuantificacin no uniforme aumenta con el factor
de cresta (relacin de pico a valor rms) de la seal
e indican que la eleccin de p tambin debe ser
gobernada por el valor de B. Valores ms grandes
de B requieren valores mayores de p, o mayor no
uniformidad del cuantificador. Ms recientemente,
Paez y Glisson [11] utilizan la distribucin gamma
como un buen modelo de amplitudes de habla y
derivan un correspondiente cuantificador no
uniforme ptimo. El trmino "cuantificador
ptimo" (uniforme o no uniforme) se refiere a un
cuantificador que maximiza la SNR. Se supone

Fig. 4.

V y Xrms, la raz cuadrada de la varianza del habla


y utiliza los resultados SNR junto con
observaciones estadsticas sobre el rango
dinmico de la seal de voz a Concluyen que los Fig. 5. Cuantificadores ptimos para seales con
valores deseables de p son del orden de 100. El densidad gamma; Media = 0, varianza 2 = 1.
punto se ilustra en la Fig. 4 (b) donde la curva = (Despus de Paez y Glisson [l1]).
100 incluye la mayor de las tres reas sobre
que el clculo de SNR incluye el efecto de errores Un medio ms recientemente estudiado, y
de sobrecarga, que fueron descuidados en la presumiblemente ms flexible, de adaptar el
simple exposicin precedente (5). El cuasificador tamao del paso de cuantificador a la varianza de
Paez-Glisson se resume en la Fig. 5. Los valores x seal es el uso de la adaptacin de tamao de paso
definen los extremos de los rangos de entrada del basada en la memoria del cuantificador. La idea es
cuantificador, y los valores y son salidas trabajar con un cuantificador bsico que sea muy
correspondientes. Por ejemplo, en el cuantificador simple (uniforme, si es necesario), pero modificar
de 3 bits, las entradas entre 0,504 y 1,401 se su tamao de paso (para cada nueva muestra de
cuantifican como 0,859 y todas las entradas que entrada, en general) por un factor dependiendo del
exceden 2,872 se cuantifican en 3,799. La conocimiento de cules ranuras cuantificadoras
derivacin del cuantificador se basa en una fueron ocupadas por Las muestras anteriores. En
determinacin iterativa de los rangos de entrada y su forma ms simple, el esquema funciona con
los niveles de salida, como sugiere una teora una memoria de una sola palabra -una sugerencia
general debido a Max [12]. Los resultados de [11] debida a Flanagan, desarrollada extensamente por
y [12] tambin especifican los mejores Cummiskey y Jayant [13]. Deje que la salida de
cuantificadores uniformes para las seales con un cuantificador B-bit (uniforme) sea
gamma, Laplaciano y funciones de densidad
gaussiana. Por ejemplo, Max deriva los siguientes
Y =H H =1, 3,5, ,2 B1 ( , >0, B 2 ) .(8)
escalones de maximizacin SNR para 2
cuantificadores uniformes de 1, 2, 3 y 4 bits con
entradas gaussianas:
El tamao de paso r+1 se elige ahora para ser el
opt =K ( B ) X rms tamao del paso anterior

K(1) = 1.596

K(2) = 0.996

K(3) =0.586

K(4) =0.335

C. Cuantizacin adaptativa
y fig. 7

Fig. 7

multiplicado por una funcin invariante en el Fig. 8. Caractersticas de compresin del cuantificador
tiempo de la magnitud de la palabra de cdigo | H r adaptativo; B = 4, C1 = 0.5, mid = [ mid max]1/2, R =
|: mid/max

r+1=r M (| H r|) .( 9)

Cuando la funcin multiplicadora est


debidamente diseada, la lgica de adaptacin (9)
sirve para que coincida con el tamao del paso, en
cada muestra, con una estimacin actualizada de
la varianza de la seal. Higo. 6 explica un
cuantificador adaptativo de 3 bits. En la figura se
muestran los ocho valores posibles de la ltima
salida del codificador (000 a 111) y los
multiplicadores de escalones correspondientes M.
Sepa que el valor de M depende de la magnitud de
(la ltima) salida del codificador-
equivalentemente, Sobre la magnitud | H, | En (9)
-y no en el signo de la salida. (Esta estrategia es
una simple consecuencia de la observacin de que
se espera que la funcin de densidad de Fig. 9. Multiplicadores de tamao de paso para B = 2, 3
probabilidad de entrada p (X) sea simtrica con y 4. (Despus de Jayant .)
respecto a un valor medio de cero).
muestra cmo estos multiplicadores de hecho
Fig. La figura 7 muestra histogramas de los mantienen la variable , en una regin c
tamaos de paso encontrados en la simulacin de introducida en opt, el tamao de paso ptimo
un cuantificador adaptativo de 4 bits con una seal (constante) para un cuantificador no adaptable
gaussiana en la entrada. Los multiplicadores de (incluso cuando el tamao del paso inicial es muy
tamao de paso fueron seleccionados para inferior al ptimo). Fig. 8 describe las
maximizar un SNR adecuadamente definido [13], caractersticas de compresin de un cuantificador
adaptativo para el ejemplo de B = 4. Las
magnitudes max y min representan restricciones
prcticas en la lgica de adaptacin (9), y estas
restricciones determinan, a travs de la relacin R,
el rango dinmico del cuantificador adaptativo. La
dinmica incluye el rango de variacin de entrada
que el cuantificador puede manejar de manera
equivalente, el rango de una seal de entrada dada
puede tolerar un rendimiento mnimo especificado
(SNR). Obsrvese que para el ejemplo de la Fig.
8, la ventaja de la adaptacin consiste en aumentar
el rango dinmico en lugar de aumentar el valor
mximo de la SNR. Esta observacin es bastante
general y se transfiere a la cuantizacin del habla.
Las adaptaciones de tamao de paso proporcionan
ganancias considerables en el SNR de pico cuando
la correlacin C1 entre muestras adyacentes se
aproxima a la unidad o cuando el diseo no
adaptativo se basa -como suele ser- en las
estadsticas a largo plazo de una seal no
estacionaria.

Fig. 9 lista multiplicadores de tamao de paso que


resultan ptimos para la codificacin adaptable de
PCM (APCM) de una muestra de habla filtrada de
paso bajo. Los multiplicadores de paso
recomendados no constituyen en general valores Fig. 10. Forma general de la funcin multiplicadora
objetivo demasiado crticos. ptima en la cuantificacin del habla; B> 2. (Despus
de Jayant [13]).

Es posible alejarse, por ejemplo, de valores


triviales de unidad para algunos de los
multiplicadores centrales. Por ejemplo,

M 1<1, M 2=M 3=1, M 4 >1 ; B=3.(10)

Lo que es crtico, sin embargo, es la observacin


de que los aumentos de tamao de paso deberan,
en general, ser ms rpidos que los decrementos
de tamao de paso. Esto tiene que ver con la
siguiente comparacin de dos tipos bsicos de
error de cuantificacin: errores de "sobrecarga"
que ocurren cuando A es demasiado pequeo y
una muestra de seal cae fuera del rango del
cuantificador; Y errores "granulares" que son
inherentes a la cuantificacin incluso cuando la
entrada cae dentro de una ranura o paso
cuantificador. Los errores de sobrecarga tienen
una funcin de densidad que tiene un soporte
tericamente infinito, mientras que los errores
granulares pueden modelarse mediante una comparacin con las tcnicas de adaptacin
distribucin uniforme (1) con un soporte finito instantnea discutidas en las subsecciones II-B y
igual al propio tamao del paso. Como resultado, C. En estos esquemas el tamao del paso A se
los errores granulares tienden a ser menos dainos adapta con una constante de tiempo De
para la SNR que los errores de sobrecarga. Para aproximadamente 5-10 ms, en lugar de para cada
mitigar la contribucin de esta ltima a la potencia muestra. Wilkinson ha descrito un PCM silbico-
total del ruido, se busca corregir con mayor companded que proporciona la reproduccin del
rapidez la ocurrencia de errores de sobrecarga. El habla muy til a bajas tasas de bits [17]. Las
resultado final es una funcin multiplicadora aplicaciones ms extensas de adaptacin silbica,
ptima que tiene la forma geeral representada en sin embargo, han estado en el campo de la
la Fig. 10. La figura muestra cmo la funcin -11 modulacin delta (Seccin IV). Aqu, como en
de (9) aumenta constantemente con I H, I durante PCM, una ventaja principal de la compresin
los aumentos de tamao de paso (M> 1, para silbica es que tal estrategia hace que un sistema
corregir la sobrecarga). Por otro lado, durante las adaptativo sea ms tolerante a los errores de canal.
disminuciones de tamao de paso (M <1), la Por otro lado, la adaptacin instantnea puede ser
funcin M ptima es notablemente cercana a la ms sencilla de implementar cuando se trata de
unidad. La regin sombreada en la Fig. 10 expresa multiplexacin por divisin de tiempo de varios
variaciones en la funcin multiplicadora cuando canales de voz.
hay cambios en B y las estadsticas de seal de
entrada [13]. La exclusin de B = 2 de la regla de III. MODULACIN DE CDIGO DE PULSO
adaptacin en la figura tiene que ver con el hecho DIFERENCIAL
de que cuando la cuantificacin llega a ser lo
El habla que se muestra a la tasa de Nyquist
suficientemente cruda, la distincin entre
exhibe una correlacin muy significativa C1 entre
magnitudes esperadas de errores granulares y de
muestras sucesivas. Una consecuencia de esta
sobrecarga disminuye -y tambin lo hace la
correlacin es que la varianza de la primera
disparidad entre las tasas deseadas de
diferencia
Disminucin del tamao del paso y aumento.

Schlink describe un enfoque ligeramente diferente


a la cuantificacin adaptativa [14]. Aqu las es menor que la varianza de la propia seal de
adaptaciones consisten en conmutadores entre dos voz. Con la notacin estadstica bsica,
cuantificadores invariantes. Los interruptores se
hacen, una vez ms, mediante el uso de la
memoria del cuantificador. La idea de utilizar
dicha memoria para la codificacin de la APCM
de habla ha sido bastante reciente [13], [14], y
hasta ahora el compander ms utilizado para la
codificacin de voz usando PCM ha sido el
donde C1 es la correlacin entre muestras
compander logartmico (sin memoria) debido a
adyacentes. Obviamente, si C1 es mayor que 0,5,
Smith [10 ]. La cuantificacin adaptativa con
D (1) tiene una varianza menor que X. Como
memoria tambin se ha aplicado, sin embargo, a la
resultado, es ventajoso cuantificar D (1) en lugar
codificacin diferencial, o ADPCM [15], [16].
de X, y usar un integrador para reconstruir X a
Aqu la combinacin de estrategias diferenciales y
partir de los valores cuantificados de D (1). Esto
adaptativas ha demostrado ser extremadamente
se debe a que, para una finura dada de
fructfera desde el punto de vista de la aplicacin.
cuantificacin B, la potencia de error de
Antes de entrar en el PCM diferencial, tambin cuantificacin es proporcional a la varianza de la
deberamos referirnos a las denominadas tcnicas seal presente en la entrada del cuantificador
silbicas para la compresin o adaptacin, en [como en (2) y (4)]. El uso de D (1) como entrada
de cuantificacin permite, por tanto, una menor
varianza de error y una mejor SNR. De forma
equivalente, para un valor dado de SNR, el uso de
la tcnica diferencial permite el empleo de un
valor menor de B y, por tanto, conduce a una ^
Donde X r denota una prediccin (lineal) de
reduccin directa del ancho de banda. Es
importante, por supuesto, que al integrar los Xr. Esta forma de codificacin diferencial [18],
valores cuantificadores de D (1), no se acumule [I91 se formaliza en la parte (codificador del)
error de cuantificacin. Esto se asegura mediante circuito de modulacin por impulsos diferenciales
un simple procedimiento de realimentacin que (DPCM) [20], [21] de la Fig. 11.
introduce al cuantificador la cantidad D r (1) + Er-1,
en lugar de D (1), donde E r-1 es el error de Obsrvese que la realimentacin alrededor del
cuantificacin para la muestra anterior. cuantificador asegura que el error en la seal

reconstruida (cuantificada) X r es precisamente

Se muestra que la variante de la varianza tiene un el error de cuantificacin para la muestra e r y no


valor mnimo cuando a1 = C1: una acumulacin de errores de cuantificacin
anteriores:

La relacin seal / ruido

Muestra una ganancia de SNR G sobre PCM, dada


por la relacin de la varianza de X1 a la de e1:

^
X r , es la prediccin de Xr basada en n
Fig. 11. Diferencial PCM. QZ: cuantificar; PR: Donde
n valores cuantificados pasados:
predictor: X r = a j X r j
^
Si el canal es sin
j

X r = X r = seal
'
errores, reconstruida.
Para maximizar Gr se eligen los coeficientes
(Antes McDonald [20].) predictores para minimizar el denominador de
(18):
Tenga en cuenta que la varianza de reduccin en
(14) es positiva para todos C1, mientras que en
(12) es positiva slo si C1> 0.5.

Una generalizacin adicional es posible si


utilizamos como entrada del cuantificador una
diferencia de la forma
Se supone que los trminos de correlacin de Obsrvese que en la entrada diagonal C 0 = 1.
seal de error de la forma (EX) son despreciables Observe tambin que la ganancia SNR es
al llegar a (20). Si tambin podemos suponer que independiente del nmero de bits B.
el codificador es lo suficientemente bueno como
para asegurar que Para el caso especial de n = 1, el predictor (22) es
simplemente un integrador que gotea con a 1 = C1,
Se supone que los trminos de correlacin de mientras que si a1 = 1, la red de realimentacin
seal de error de la forma (EX) son despreciables proporciona una integracin perfecta. Ahora
al llegar a (20). Si tambin podemos suponer que reproducir los resultados ilustrativos de DPCM de
el codificador es lo suficientemente bueno como un reciente artculo de Noll [22]. Los resultados se
para asegurar que basan en mediciones en una muestra de 55-s de
voz que es filtrada por paso bajo (LPF: 0 a 3400
Hz) o filtrada por paso de banda (BPF: 300 a 3400
el predictor que minimiza (20) es dado por Hz). La frecuencia de muestreo en ambos casos es
de 8 kHz. La figura 12 muestra grficas de C i
frente a i. El conjunto superior de curvas se refiere
al habla LPF, y el conjunto inferior al discurso
BPF. En cada conjunto, los lmites superior e
inferior representan mximos y mnimos,
respectivamente, sobre cuatro altavoces (dos
machos y dos hembras), y la curva media da
valores medios (promedios sobre cuatro
altavoces). Tenga en cuenta que en ningn caso es
C1 <0,5. Esto significa que el uso de la lgica
DPCM ms simple [como en (11) y (12)] debera
proporcionar una ganancia SNR sobre PCM. Las
ganancias en una lgica DPCM ptima (22) son,
Fig. 12. Funciones de autocorrelacin de las seales de
por supuesto, an mayores; Estos valores de G se
voz. Curvas superiores: discurso de paso bajo; Curvas representan en la Fig. 13 (a) (discurso LPF) y la
inferiores: discurso de paso de banda. (Despus de Noll Fig. 13 (b) (habla de BPF) como una funcin de n,
[22]). el nmero de coeficientes predictores. Como
antes, cada conjunto de curvas incluye un
Donde mximo, un mnimo y un promedio, sobre la
poblacin de cuatro hablantes. Es interesante que
la funcin G suele saturar para todos los
propsitos prcticos en n = 2. Observe tambin
que el valor asinttico G es mayor para el discurso
LPF que para el habla BPF. Esto se espera porque
el habla LPF tiene mayor energa de baja
frecuencia, y por lo tanto mayores correlaciones
de muestras adyacentes. Esto, a su vez, refleja la
posibilidad de una mayor eliminacin de
redundancia por

La ganancia resultante sobre el PCM es


la probabilidad de ocurrencia, adems, las
fricativas son ms tolerantes a la adicin de ruido
de cuantificacin granular, desde un punto de vista
perceptivo).

El lector debe esperar que las versiones prcticas


de la PCM diferencial puedan emplear
cuantificadores adaptativos y / o predictores
adaptativos -la primera para seguir los cambios en
la potencia de la seal y la segunda para responder
a los cambios en el espectro de corto plazo del
habla . Los codificadores con estas caractersticas
adaptativas se han referido en la bibliografa como
codificadores DPCM (ADPCM) adaptativos.

A. Cuantizadores Adaptativos

El uso de la cuantificacin adaptativa en ADCPM


[15], [16] tiene la misma motivacin que el uso de
un cuantificador adaptativo en APCM. La
varianza del error de prediccin, que es la entrada
Fig. 13. Ganancia SNR ptima G versus nmero de
del cuantificador en DPCM (figura 1), es
coeficientes predictores. (A) Discurso del LPF. (B)
Discurso del BPF. (Despus de Noll [22]). proporcional a la varianza de la seal de entrada X
y la varianza de la seal de entrada es desconocida
codificacin diferencial; De forma equivalente, un o muy variable en una seal cuasi estacionaria tal
mayor valor asinttico para G. Es significativo, como habla. Sin embargo, la varianza puede
sin embargo, que incluso para el habla LPF, G estimarse tilmente mediante el uso de memoria
nunca alcanza un valor de 12 dB [que significara cuantificadora cuando la entrada es localmente
una ventaja de 2 bits sobre PCM en virtud de (5)]. estacionaria. Stroh describe un sencillo
procedimiento de estimacin de las seales
Por ltimo, tenga en cuenta la dependencia gaussianas [16]. La tcnica de Cummiskey, Jayant
indeseablemente fuerte del altavoz de G en la Fig. y Flanagan [15] hace un uso ms explcito de las
13. Una propiedad an ms indeseable, no seales de "sobrecarga" y "subcarga" para
demostrada en las figuras, es que G es muy proporcionar lo que se cree es una lgica de
sensible a la coincidencia del vector predictor A adaptacin muy eficiente. La tcnica utiliza una
con las matrices de correlacin y . En otras memoria mnima de una palabra, y se ha estudiado
palabras, el cambio del material de voz de entrada tanto para entradas de habla gaussiana como
se degrada, en general, El funcionamiento de un reales. El lector se remite a la Fig. 6 para una
sistema DPCM que funciona con un predictor recapitulacin de la tcnica, y la Fig. 9 para datos
diseado sobre la base de estadsticas de voz numricos sobre la adaptacin de tamao de paso.
promedio. De la misma manera, es subptimo
utilizar un nico predictor para codificar Los resultados en DPCM en la Fig. 9 se refieren al
segmentos sonoros y sin voz en la forma de onda caso de un predictor simple de primer orden (11).
del habla. Los segmentos de voz, por ejemplo, se Observe que los multiplicadores de tamao de
caracterizan generalmente por C1> 0,5, mientras paso ptimos (maximizando la SNR) para
que se puede esperar que las fricativas ruidosas ADPCM son ligeramente diferentes de los de
muestren una correlacin casi cero, C10. (Sin APCM. Esto tiene que ver con el hecho de que la
embargo, la calidad global del habla se controla correlacin entre las muestras de seales
principalmente por el grado en que las secciones adyacentes X es bastante alta en la entrada de un
sonoras estn codificadas, porque predominan en cuantificador DPCM [que es igual a la correlacin
entre las muestras de habla de muestras Nyquist transmisin de coeficientes predictores, con un
adyacentes [20]; Las muestras de entrada de un pequeo sacrificio de la ganancia SNR,
cuantificador DPCM son tpicamente mucho determinando los coeficientes automticamente
menos correlacionadas debido al proceso (tanto en el transmisor como en el receptor).
diferenciador (o paso alto) implicado (ll)]. De
hecho, los multiplicadores de tamao de paso
recomendados para la cuantificacin adaptativa de
la voz en DPCM son extremadamente inferiores a
los tericamente derivados para ser ptimos para
una seal gaussiana blanca (C1 = 0) [13]:

Fig. 14. Comparacin de predictores no adaptativos y


adaptativos. (Despus de Noll [22]).

Esto se ha hecho por medio de una pendiente


Donde K (B) es la relacin de tamao de paso a
pendiente ms empinada bsqueda [23].
Xrms cuyos valores para B = 1 a 4 se dan en (1).
Revisaremos este mtodo muy brevemente.
Recuerde que Hr-1 define la salida de cuantificador
ms reciente (8), y observe que P es una Despreciando el efecto de los errores de
correccin positiva no especificada, significativa cuantificacin, considere una funcin definida
slo para la ltima ranura del cuantificador de bits positiva del error predictor tal como
B.

B. Predictores Adaptativos

Se ha mencionado anteriormente la conveniencia


de adaptar los coeficientes predictores a las
El gradiente de esto se toma ahora con respecto al
propiedades espectrales cambiantes de las seales
vector predictor, y los coeficientes se adaptan en
de habla. Una forma sencilla de hacerlo es
una direccin opuesta al gradiente. El resultado es
almacenar secciones finitas de habla, calcular la
una perturbacin predictora del tipo
funcin de autocorrelacin para esta seccin, y
luego determinar un vector predictor ptimo
utilizando (22). El predictor se actualiza
peridicamente a intervalos de tiempo dados por
la longitud TAD de la seccin almacenada y los Donde 1 es una velocidad de adaptacin que se
coeficientes predictores transmitidos al receptor. puede optimizar adecuadamente (a un valor no
(Esta transmisin no consume una capacidad de crtico). El empleo de la funcin cuadrada
canal excesiva debido a que los coeficientes
toleran la cuantizacin gruesa y la actualizacin
lenta). La prediccin adaptativa de este tipo hace
que la funcin G se satura en un valor mayor y en lugar de (26) da como resultado un algoritmo
para un n mayor, en comparacin con un predictor de adaptacin del predictor
no adaptativo. Una ilustracin tomada de Noll
[22] se proporciona en la Fig. 14. Obsrvese que
con un tiempo de prediccin-actualizacin de
TAD = 4 ms (32 muestras de Nyquist), la ganancia
sobre PCM es 13 dB. Esto representa una ventaja ^
El uso de valores cuantificados X en lugar de
de ms de 2 bits. Si el cuantificador DPCM no es
demasiado grosero (B> 2). Se puede evitar la X en (28) y (30) puede proporcionar algoritmos de
prediccin convergentes si B 2 [16], [23]. Esto Uno de los predictores adaptativos ms
significa que los coeficientes de prediccin no sofisticados diseados
necesitan ser transmitidos a un receptor DPCM.
Adems, tenga en cuenta que las adaptaciones
dadas se encuentran en cada muestra de Nyquist.
Los valores de n = 8, 1 = 0,09 y G = 9 dB son
tpicos para el habla BPF [23]. [Este valor, aunque
menor que algunas cifras citadas anteriormente
para DPCM no adaptativo, se considera
significativo. Esto se debe a que los desajustes del
discurso pre-predictor pueden conducir a valores
asintticos de G que son significativamente ms
bajos que 9 dB-curva ms baja de la Fig. 13 (b) -si
el predictor no es adaptativo.] Esta cifra de 9 dB
es de una simulacin que incluy un cuantificador
adaptativo. La informacin del tamao del paso se
codific por separado y se transmiti al receptor
DPCM. Un sistema ADPCM en el que la
informacin de tamao de paso y los coeficientes
de prediccin se generan automticamente por el
flujo de bits se describe en [16] por Stroh. Se
muestra aqu que los beneficios de la Fig. 15. Predictor en dos etapas para la codificacin
cuantificacin adaptativa y prediccin adaptativa predictiva adaptativa. (Despus de Atal y Schroeder
en ADPCM son casi complementarios, y que slo [24].)
existen interacciones de segundo orden entre el
para el habla es el debido a Atal y Schroeder [24].
cuantificador y el predictor.
Su esquema explota la naturaleza cuasi peridica
Por ltimo, puede ser relevante mencionar que a de la seal de voz para obtener una prediccin de
medida que aumenta el orden predictor n, la seal ms completa que la proporcionada por los
entrada del cuantificador tiende a tener una predictores a corto plazo (n 10, por ejemplo)
funcin de densidad gaussiana y que las pequeas lineales discutidos hasta ahora. En otras palabras,
perturbaciones de los coeficientes predictores a la redundancia de la seal se elimina ahora en dos
partir de sus valores ptimos no alteran la etapas: primero, por un predictor que elimina la
naturaleza gaussiana del error PDF. naturaleza cuasiperidica de la seal y, segundo,
por un predictor que elimina la informacin
formante de la envolvente espectral. El primer
predictor es simplemente un ajuste de ganancia y
retardo, y el segundo es una combinacin lineal de
valores pasados de la primera salida del predictor.
Las operaciones equivalentes se muestran en la
Fig. 15 que, en la notacin de transformacin z,
puede resumirse como sigue:
Los coeficientes para el predictor PR2 (z) se cuasiperiodicidad del habla (tales como tcnicas
calculan como se describe anteriormente en esta basadas en una o ms repeticiones de un segmento
seccin. Aquellos para PR1 (z), es decir, y tr se entero de la forma de onda del habla de un
obtienen como sigue. En primer lugar, t se perodo de tono largo [25], [26]) resultan ser
selecciona para maximizar la correlacin demasiado crudos, y No es particularmente
normalizada simple, para permitir cualquier tipo de aplicacin
general, aunque pueden proporcionar una
reproduccin de voz considerable para
aplicaciones especiales de baja velocidad de bits
[26]. Los factores limitantes en el sujeto son
claramente la existencia, y la significacin
perceptual, de variaciones muy pequeas del
perodo de tono en el discurso sonoro. Debido a
El valor ptimo topt se encuentra mediante una
estas variaciones, la periodicidad de explotacin
bsqueda de valores calculados y tabulados de C 1.
en el habla se hace extremadamente no trivial. Los
Despus de haber determinado fopt y se ajusta en la
investigadores del habla en este contexto no
forma de (14) al valor
pueden dejar de envidiar a sus homlogos en la
codificacin de imgenes, donde el tiempo obvio
invariable en el perodo de marco ha permitido
avances mucho ms notables en la codificacin
diferencial, como la tcnica de reposicin de
marco condicional [27].

Tpicamente, con n = 75, t = 150, y una Ahora nos centraremos en el otro extremo (menos
cuantificacin razonable (y transmisin) de complejo) del espectro DPCM y examinaremos
coeficientes predictores actualizados, el esquema qu se puede lograr con un predictor
puede lograr ganancias de SNR sobre PCM que extremadamente simple de primer orden y un
son del orden de G = 20 dB. Sin embargo, debido cuantificador de 2 niveles (B = 1); Compensamos
a la gran cantidad de computacin necesaria para estas demandas, sin embargo, aceptando
determinar el perodo de tono, sobremuestreo (f0> 2W) de la forma de onda
acstica limitada.

IV. MODULACIN DELTA (DM)

La explotacin de correlaciones de seal en


DPCM sugiere la posibilidad adicional de
sobremuestreo de una seal para aumentar la
correlacin de muestras adyacentes C1, y permitir
as el uso de una estrategia de cuantificacin
simple. Delta modulation (DM), la versin de 1
bit de DPCM, es precisamente un esquema de este
tipo. En su forma original, el codificador DM [28]
Fig. 16. Modulacin delta lineal (LDM); Yr-Yr-1 = br, opera sobre la base de aproximar una funcin de
sgn(Xr-Yr-1)=br, y br= Transmitido "smbolo de canal". tiempo de entrada mediante una serie de
segmentos lineales de pendiente constante. Por lo
los predictores adaptativos de este tipo son tanto, un codificador de este tipo se denomina
actualmente demasiado complejos para su modulador delta lineal [29], [30]. Utilizaremos el
aplicacin a la mayora de los sistemas de trmino "no adaptativo" como sinnimo de
comunicacin en tiempo real. Por otro lado, los "lineal", en previsin de los moduladores delta,
enfoques sencillos para explotar la
donde la pendiente de la funcin de aproximacin refiere a una situacin en la que la funcin
es variable o "adaptativa". escalera Yr caza alrededor de un segmento
relativamente plano de la funcin de entrada, con
A. Lineal (no adaptativo) Delta Modulalion un tamao de paso que es demasiado grande con
(LDM) relacin a las caractersticas de pendiente local de
la entrada. Para las estadsticas dadas de la
El principio de LDM se ilustra en la Fig. 16. La
pendiente de la seal de entrada, es por lo tanto
seal de entrada limitada a bandas (ancho de
claro que los valores relativamente pequeos de
banda W) se muestrea a una velocidad f0 que es
acentan la sobrecarga de la pendiente, mientras
mucho mayor que la frecuencia de Nyquist, y una
que los valores relativamente grandes de
aproximacin de escalera a la entrada se construye
aumentan la granularidad. Por lo tanto, debera ser
como sigue. Se observa en cada muestra el signo
posible adaptar el paso (invariable en el tiempo)
br de la diferencia entre la muestra de entrada X r y
tamao para proporcionar una potencia de error
la ltima aproximacin de escalera, Yr-1, e
total mnimo. Este ptimo (SNR maximizando)
incrementa Y por un paso en la direccin
tamao de paso opt puede estar relacionado con el
valor rms de las primeras diferencias en la seal
de entrada a travs de una regla de la frmula del
pulgar debido a Abate [29]:

El ndice de sobremuestreo F es generalmente


mucho mayor que 1 para DM til. Higo. 17
muestra la SNR en LDM como una funcin del
tamao de paso, con F como parmetro. Los
resultados son de una simulacin con seales
gaussianas con un espectro de potencia uniforme.
Fig. 17Curvas de rendimiento para LDM. (Despus de
Obsrvese que para cada frecuencia de muestreo,
Abate (291)
la curva SNR alcanza un mximo (en un opt
de br. Por ltimo, la forma de onda de alta correspondiente). A la izquierda de este mximo,
frecuencia Y se pasa a travs del ancho de banda la SNR se controla principalmente por distorsin
de la seal original. de pendiente-sobrecarga, mientras que a la
derecha del mximo, la contribucin del ruido
granular predomina en la Varianza total del error
de cuantificacin. Finalmente, se puede ver en la
Fig. 17 que la SNR mxima aumenta
Para cada muestra de seal, el smbolo "canal" aproximadamente como el cubo de la frecuencia
transmitido es el nico bit br, y la velocidad de de muestreo (lo que resulta en una ganancia SNR
informacin es simplemente la velocidad de de aproximadamente 9 dB por octava de aumento
muestreo f0. de frecuencia). Este resultado tambin se ha
observado para las entradas sinusoidales [28].
Finalmente, la Fig. 16 ilustra dos tipos de error de
cuantificacin en la distorsin de la sobrecarga de Como se mencion anteriormente, los resultados
la pendiente del DM y el ruido granular. Se dice de la Fig. 17 son para una entrada de ruido
que la sobrecarga de pendiente ocurre cuando el
tamao del paso es demasiado pequeo para
seguir un segmento empinado de la forma de onda
de entrada. La granularidad, por otra parte, se
gaussiana blanca de banda espectro de poder racional (no limitado a banda).
Finalmente, se observa que algunos de los
resultados ms tempranos (y ms bien elegantes)
en el sujeto son las frmulas SNR tal como las
dan DeJager [28], y Schouten, DeJager y Greefkes
[30] para entradas sinusoidales. Est claro que las
seales gaussianas (con un espectro de ondas
integrado), como ondas senoidales de 800 Hz, son
modelos tentadores para el habla en algunos
casos, y estos modelos han sido ampliamente
invocados por investigadores del DM. Sin
embargo, la experiencia ha demostrado que las
evaluaciones completas de los codificadores de la
DM para el habla deben provenir necesariamente
de simulaciones y experimentacin con insumos
de habla reales, y creemos que esto no ha sido
Fig. 18 diagrama de bloque de LDM suficientemente enfatizado en la literatura.

limitada. Se obtienen valores de SNR ligeramente Un diagrama de bloques de LDM aparece en la


mayores (debido a una mayor correlacin de Fig. 18. Tenga en cuenta su similitud bsica con la
muestra adyacente para un F dado) cuando un red DPCM en la Fig. 11. Las diferencias
delta modula una seal con un espectro de importantes son el uso de un bquantizador de 2
potencia integrado: niveles (1-bit) en DM y la sustitucin de una red
predictora general por un simple integrador [que,
por supuesto, puede considerarse como un
predictor lineal de primer orden: ai = 1 en (19)
corresponde a la integracin perfecta,

El espectro (38), obtenido mediante el paso del


ruido blanco a travs de una red de integracin
RC, es un modelo til para el espectro de potencia
a largo plazo del habla, si = 4 [29].

Para el trabajo orientado matemticamente en el


ruido de cuantificacin LDM, el lector se remite a
los artculos en [31 - 36]. Los enfoques anteriores
se basaron en tratamientos separados del ruido
granular (vase Van De Weg [31] y Goodman
[33]) y la distorsin de la carga de la pendiente
(vase Protanotarios [32] y Greenstein [34]). Las Fig. 19. Modulacin delta adaptativa (ADM); Yr-Yr-1 =
estimaciones simples de la potencia de ruido total br, sgn(Xr-Yr-1)=br, y br= Transmitido "smbolo de
resultan cuando uno simplemente aade las canal".
variaciones de errores granulares y de sobrecarga,
como explic O'Neal [35]. Pero el enfoque es y a1 <1 a la integracin desordenada (fugas).
conocido por dar resultados inexactos y es Finalmente, mientras que los filtros de
matemticamente no riguroso. Un artculo desampleado se emplean tambin en DPCM, el
reciente de Slepian [36] evita la distincin de filtro de paso bajo en el circuito DM de la Fig. 18
sobrecarga-granularidad y da curvas exactas de hace el trabajo crtico de rechazar el ruido de
SNR y BPt para una seal gaussiana con un cuantificacin fuera de banda en la funcin de
escalera de alta frecuencia Y, y esto no tiene es importante para una clase ms amplia de
paralelo en DPCM o PCM con muestreo de seales de entrada. Sin embargo, el valor de Popt
Nyquist. no es demasiado crtico y la lgica de adaptacin
que obedece (40) proporciona, en general, un
B. Modulacin adaptativa del delta (ADM) rango dinmico mucho mayor que el obtenido con
LDM. (Recurdese los mximos acentuadamente
Al igual que en PCM y DPCM, es posible mejorar
ajustados en la Fig. 17. Para ADM, los rangos
el rango dinmico del codificador DM mediante el
dinmicos de 30-40 dB son tpicos en la
uso de tcnicas adaptativas (step-size variables)
codificacin de voz [23], [29].) En una simulacin
[29, 37, 38]. La idea se ilustra en la Fig. 19. Aqu
de computadora ilustrativa con habla real, con W
el tamao de paso variable A, aumenta durante un
= 3,3 kHz y
segmento empinado de la entrada y disminuye
cuando el modulador delta est cuantificando un
segmento de variacin lenta de la forma de onda
X (compare esto con la Fig. 16). El problema en
ADM, por supuesto, es especificar reglas
adecuadas para la variacin del tamao del paso.
Sote que la regla de adaptacin PCM-DPCM [(8)
y (9)] no aplica para B = 1. Esto se debe a que con
un cuantificador de 2 niveles, la observacin de
una muestra nica de salida del cuantificador no
proporciona ninguna indicacin de Sobrecarga o
subcarga (granularidad). Por otra parte, se necesita
inspeccionar las secuencias (de longitud 2) de
las salidas del cuantificador para las adaptaciones
significativas del tamao de paso en DM.
Fig. 20. Diagrama de bloque de ADM.
En una realizacin tpica y conceptualmente
menos compleja, descrita por Jayant [38], los bits
sucesivos br y br -l se comparan para detectar una
probable sobrecarga de pendiente (b, = L1) o
granularidad probable (br br -l). Higo. La figura
19 ilustra cmo la sobrecarga de pendiente y la
granularidad tienden a corresponder,
respectivamente, a ocurrencias de bits similares y
no similares (sucesivos), La regla de adaptacin
especfica en [38] es la siguiente:

La tasa de incremento del tamao de paso (o


disminucin) viene dada por un solo factor P.
Obsrvese que P = 1 representa LDM no
adaptativo. Tpicamente, un valor de Popt = 1.5
Fig. 21. Realizacin de ADM con hardware de
minimiza la potencia del error de cuantificacin
circuito integrado (despus de Cummiskey [23]).
para la codificacin del habla y puede demostrarse
a partir de consideraciones estadsticas que la f0 = 60 kHz, ADM (P = 1,5) mostr una ventaja
restriccin [38] SNR de ms de 10 dB sobre LDM [38].
La Fig. 20 es un diagrama de bloques del DM reconstruccin se determina de forma crtica
exponencialmente adaptable con una memoria de
un bit (39), y la Fig. 21 representa una realizacin
de circuito integrado del codificador. (El NOR
EXCLUSIVO compara br y br + 1 y un estado
resultante del contador UP-DOWS conduce a la
seleccin de uno de los ocho valores de Ar, segn
lo determinado por el diccionario R, 2R, 4R, ...,
128R La polaridad De la r-sima etapa es, por
supuesto, br, como se determina por la salida
digital (DIGO).)

Fig. 22 ilustra la reconstruccin de la forma de


onda con ADM, y la Fig. 23 compara las formas
de onda ADM y LDM no filtradas. La frecuencia
de muestreo en cada caso es tres veces la
velocidad de Nyquist, y las seales son formas de
onda de tiempo de formantes (frecuencias de
resonancia variable en el tiempo en voz
expresada). Los resultados son de una aplicacin
de DM a la sntesis de formantes de habla con voz
a velocidades de bits tan bajas como 500 bits / s
[39]. El tema de la sntesis del habla de baja
velocidad de bits, como tal, est fuera del alcance Fig. 22. Forma de onda con ADM; F = 3. (Despus de
de este documento. Sin embargo, las formas de Jayant [38]).
onda en las Figs. 22 y 23 se incluyeron porque son
muy representativos de la construccin de la
forma de onda utilizando LDM y ADPM.
Obsrvese de nuevo que la calidad de la

Fig. 23. Comparacin de waveform sin filtrar en LDM y


ADM; F = 3. (Despus de Jayant [38]).

por el ndice de sobre-muestreo F. De hecho, el


valor de F = 3 utilizado en estas figuras es a
menudo inadecuado para DMs satisfactorios de la Obsrvese que, dado que la velocidad de bits en
forma de onda acstica (Seccin V). DM es numricamente igual a F, (42) implica que
la SNR en DM aumenta como cubeo f la tasa de
C. Una frmula SNR bits. Esto debe contrastarse con una mejora
exponencial del rendimiento (5) en PCM y
El siguiente lmite superior se ha propuesto [40]
DPCM, donde el efecto de la tasa de bits
para la SNR de los moduladores delta que
aumentada se refleja en un mayor nmero de
incluyen un nico integrador en el bucle de
niveles de cuantificador, en lugar de. Una mayor
realimentacin (Figuras 18 y 20):
frecuencia de muestreo de seal.

La ganancia de 9 dB por octava pronosticada por


(42) se ha observado constantemente en la
literatura de DM existente. Es una caracterstica
donde es del orden de la unidad. de los moduladores delta con un predictor de
primer orden (integrador nico) en el bucle de
El enlace est heursticamente derivado con la realimentacin. Por ejemplo, se recapitula por
idea de que la seal que se cuantifica es debajo de una frmula SNR de pico bien conocida
bsicamente la primera diferencia Xr - Xr - 1 cuya [28] para la DM de una onda senoidal cuya
varianza est relacionada con la de la entrada de frecuencia es f0 Hz:
voz Xr [ver (12)] a travs del denominador en
(41). La correlacin de muestras adyacente C1 se
expresa como una funcin explcita de la
frecuencia de muestreo para enfatizar el
sobremuestreo de la seal en DM. Adems, se Donde SI significa "integracin nica", y W es la
supone que el espectro de ruido de cuantificacin frecuencia de corte superior del filtro de paso bajo
es plano desde cero a la mitad de la velocidad de en la salida del codificador.
Nyquist. El ruido intrabanda accionado por un
filtro de paso bajo tiene, por lo tanto, una varianza D. Integracin doble (DI)
que es menor que la potencia de ruido total por un
factor igual al ndice de sobremuestreo. De ah el Cuando la red de retroalimentacin incorpora
trmino F en el numerador de (41). doble integracin, el SNR de pico para un idput de
onda senoidal se deriva de [28]
Para varias caracterizaciones importantes del
espectro de potencia de entrada, incluyendo el
espectro de potencia integrado en (38), el
denominador en (41) est inversamente
relacionado con F2 (si F es mucho mayor que Donde DI significa 'doble integracin', y f m es la
uno). Esto implica la ley cbica para la SNR frecuencia por encima de la cual tiene lugar DI
vinculada (prediccin de segundo orden) en el bucle de
realimentacin. Otros smbolos tienen la misma
connotacin que en (43). La idea de DI es
simplemente proporcionar mejor prediccin de
seal. Las redes de doble integracin hacen esto
facilitando, de hecho, ms almacenamiento (o
memoria de seal de entrada) para la prediccin
de los componentes de mayor frecuencia en la
seal que se codifica.

No se afirma que las mejoras de SNR con DM son


proporcionales a fob cuando la seal de entrada es
de habla. Sin embargo, el uso de DI en la DM del E. Adaptacin silbica
habla puede proporcionar una probabilidad de
sobrecarga casi constante para todos los Como se mencion en el contexto de APCM,
componentes del espectro de voz promedio. Para compresin silbica [45], [46] proporciona una
esto, la frecuencia por encima de la cual se estrategia de adaptacin muy til desde el punto
permite DI es tpicamente de aproximadamente 2 de vista de la resistencia a errores de bits. La
kHz, y el diseo de la red de realimentacin modulacin delta continua (CDM) fue una de las
apropiada se describe en [41]. La prediccin de primeras tcnicas de DM que incorpor
orden superior involucrada en DI plantea compresin silbica para adaptaciones de tamao
cuestiones de estabilidad [23], [42]. Por tanto, si de paso [47]. A diferencia del caso de un
bien DI puede incorporarse directamente en compresor instantneo (Figuras 20 y 21), el
moduladores delta lineales y silbicamente tamao del paso se adapta ahora, ms suavemente
compac- tados, puede provocar inestabilidad en el tiempo, con una constante de tiempo que es
cuando se usa con una lgica de adaptacin del orden de 5-10 ms. Un diagrama de bloques del
instantnea codificador aparece en la Fig. 24. El control de
tamao de paso se obtiene (tanto el transmisor
como el receptor) del nmero medio de unos en el
flujo de bits. Este nmero, a su vez, refleja el nivel
de la seal de entrada a travs del control de
avance anticipado proporcionado por la seal de
envolvente de baja frecuencia Sen. La compresin
es silbica debido al filtro de paso bajo LPF1
(tpicamente un filtro de 100 Hz). La lenta
adaptacin que caracteriza la compresin silbica
(en contraposicin a la compresin instantnea)
tiene el efecto de disminuir el ruido granular en el
discurso de salida, a costa de un aumento
significativo de la distorsin de pendiente-
sobrecarga. Esto conduce a una cierta prdida de
"crispiness" en el discurso silbicamente
compacta. La estrategia de sobrecarga de
pendiente asegura, por otra parte, una seal de
"sonido limpio" a velocidades de bits
relativamente bajas (digamos, por debajo de 25
kbits / s). A tales velocidades, el rendimiento de la
Fig. 24. Modulacin delta continua (CDM). mayora de los compresores instantneos se ve
(Despus de Greefkes y DeJager [46]. seriamente afectado por el ruido granular
excesivo. La adaptacin silbica tambin ofrece,
muy fuerte, tal como el esquema de memoria de
como se mencion anteriormente, la ventaja
un bit en (39). En tales casos, el uso de DI
adicional de una mayor resistencia a errores de
necesita la atenuacin de las adaptaciones rpidas,
bits.
ya sea mediante el uso de la lgica de adaptacin
en conjuncin con la codificacin retardada, en la La modulacin delta controlada digitalmente
que se permite que el codificador se aproxime "a (DCDM), como propuso ms recientemente
la seal de entrada [MI, o aumentando La longitud Greefkes y Riemens [48], [41], tambin incorpora
de la memoria de cuantificacin utilizada para las la compresin silbica. Sin embargo, evita la
adaptaciones de tamao de paso. Esta ltima necesidad de deteccin de envolvente de voz en el
tcnica ha sido ampliamente utilizada en el ADM codificador delta y obtiene informacin de tamao
del habla [41], [44]. de paso directamente de la secuencia de bits. En
una de las ltimas versiones de DCDM, por torno es una herramienta grande". Se consideraron
ejemplo, los incrementos de tamao de paso dos anchos de banda: 200-3200 Hz y 200 -2400
siguen la deteccin de cuatro bits consecutivos de Hz. Para PCM y ADPCM, las respectivas
la misma polaridad. A velocidades de muestreo frecuencias de muestreo f0 eran 8 kHz y 6,6 kHz.
inferiores a aproximadamente 16 kHz, la El nmero de bits por muestra B fue una variable,
correlacin entre muestras de seales adyacentes y el producto B f0 determin la velocidad binaria.
disminuye hasta un punto en el que las Para ADM, f0 era una variable y numricamente
observaciones en el tren de bits parecen ser menos igual a la tasa de bits. Los resultados se muestran
tiles, para el control del tamao de paso, que la en la Fig. 25 (a) -20 & 3200 Hz y en la Fig. 25 (b)
supervisin directa de la envolvente del habla. Por - 200 - 2400 Hz. Las conclusiones siguientes
esta razn, se ha informado que el MDL surgen de las parcelas SNR.
proporciona una mejor codificacin del habla que
el DCDM a velocidades de bits inferiores a 16 A) Observe en ambas grficas que ADPCili tiene
kbits / s. una ganancia SNR constante sobre PCM [12 dB
en la Fig. 25 (a) y 8 dB en la Fig. 25 b)]. La
Al concluir nuestra discusin de DM, debemos ganancia se debe, esencialmente, a la ventaja de
sealar que la extrema simplicidad de la tcnica codificacin diferencial en (18) y, como tal, no es
de codificacin ha inspirado una extensin del una funcin de B.
trabajo terico y orientado a la aplicacin que es
demasiado amplio para ser exhaustivamente B) La comparacin SNR entre ADM y PCM, por
mencionado en este artculo. Las aportaciones que otro lado, depende de la velocidad de bits. Esto se
nos llegan a la mente son: un estudio del tipo debe a que SNR aumenta como el cubo de la
funcional de la funcin escalera (Y) que ofrece las velocidad de bits para ADM (42), mientras que el
mejores coincidencias con la forma de onda incremento es exponencial (5) para PCM. La
acstica [49]; Un refinamiento de DM que consecuencia interesante es un punto de cruce en
incorpora la prediccin de pendiente [50] que la tasa de bits [50 kbits / s en la Fig. 25 (a) y 30
renuncia a la ecuacin bsica de DM (34); Un kbits en la Fig. 25 (b)] por debajo de la cual ADM,
enfoque terico muy general de la codificacin de que originalmente fue concebida por su
un bit en [51]; Una tcnica para la deteccin del simplicidad, puede de hecho superar al PCM
periodo de tono utilizando secuencias de bits de logartmico, que es la tcnica de codificacin
deltamodulador [26]; Y, por ltimo, documentos digital mejor establecida en este momento.
de revisin til sobre el tema [52], [2].
C) Finalmente, siempre se ve que ADPCM supera
V. COMPARACIN DE LOS TCNICAS a ADM en base a SSR; Sin embargo, la ventaja
SNR es bastante pequea a bajas velocidades de
A. Datos SNR bits, y debe ser pesada frente a la complejidad
aadida de un cuantificador multibit.
Hasta ahora, en este trabajo, la relacin seal-a-
cuantificacin-error SNR ha sido ubicuosamente La razn de usar un PCM compacta logartmica
empleada como una medida del rendimiento del (en lugar de APCM cuantificada de forma
cuantificador. Ahora vamos a trazar SSR en
funcin de la velocidad binaria para tres
codificadores ilustrativos: PCM logartmico, (6);
ADPCM [con cuantificador adaptativo y un
simple predictor de primer orden, (8) y Figs. 5-91;
Y ADM [con una memoria de un bit, (39)]. Los
resultados se obtuvieron a partir de simulaciones
por ordenador [23], [38], [53] que utilizaron,
como entrada de codificador, las expresiones
masculinas filtradas por paso de banda de "Un
adaptativa) en nuestras comparaciones SNR que APCM tena una ventaja SNR muy clara
sobre log-PCM, al menos para valores de B de
hasta 5. (Las simulaciones de APCM no
incluyeron valores de B> 5.) Por ejemplo, La
ventaja fue de 6 dB para B = 3.

Las grficas de la Fig. 25 sugieren, desde el punto


de vista de la tasa de informacin, las clases de
codificador que son las mejores para una
especificacin dada de SNR. El ancho de banda de
habla en la Fig. 25 (a) es representativa del habla
de calidad telefnica, mientras que el ancho de
banda inferior de la Fig. 25 (b) tipifica el tipo de
lenguaje que puede usarse en una aplicacin de
radio mvil o militar.

Debemos enfatizar que los resultados de la Fig.


25, si bien son representativos, deben utilizarse
slo como directrices de desempeo por las
siguientes razones.

1) Los resultados se basan en el uso de una


muestra de habla muy corta y especfica.
2) Los codificadores empleados en nuestras
simulaciones son realmente miembros de
clases bastante amplias de codificadores
diferenciales y no diferenciales; Nuestros
codificadores pueden proporcionar
solamente estimaciones del
funcionamiento medio.
3) Las evaluaciones de los codificadores en
aplicaciones especficas dependern no
slo de la SNR, sino de factores
subjetivos y perceptuales, de la tolerancia
del codificador a los errores de canal, etc.
Sin embargo, puede mencionarse en este
punto que las consideraciones de
percepcin parecen indicar que la ventaja
de la codificacin diferencial (sobre
PCM no diferencial) es an ms de lo
que se sugiere por las comparaciones
SNR de la Fig. 25. Por lo tanto, existe
una fuerte sugerencia de que para las
aplicaciones de calidad de peaje (SNR>
30 dB, por ejemplo), as como para la
es el hecho de que log-PCM est muy bien
codificacin de calidad de sub-calidad,
establecido y entendido, y por lo tanto sirve como
tanto ADCPM como ADM plantean
referencia estndar en las comparaciones de
serios retos al PCM logartmico. El
calidad del habla. Sin embargo, se puede
mrito de ADPCM es su mayor eficiencia
mencionar que nuestras simulaciones mostraron
(ganancia SNR consistente sobre PCM),
mientras que la caracterstica fuerte de insuficiencia de la medida SNR tiene que ver
ADM es su implementacin muy con el hecho de que la secuencia de error de
sencilla. cuantificacin tiene componentes
dependientes de seal (o correlacionados con
Una palabra acerca de las tcnicas no seales) y ruido (o distorsin) dependiente de
adaptativas. A efectos de la ilustracin, en f0
= 56 kHz, el ADM en nuestra simulacin seal, con una varianza de E2 , No tiene
tena una ventaja de 10 dB sobre LDhI, y con
el mismo valor de molestia que el ruido
B = 3, ADPCM tena una ventaja de 3 dB
aditivo independiente de igual varianza. En
sobre DPCM no adaptativo; Y se acepta
consecuencia, la calidad perceptual
generalmente que, en PCM,
proporcionada por un cuantificador con
logarithmicompanding proporciona una
errores correlacionados de seal no puede ser
ventaja de 4 -t o5-bit sobre PCM no compacta
descrita de manera precisa o completa por la
(a largo plazo), cuando se codifica el discurso
con calidad de peaje. No hemos incluido relacin de potencia de seal X2 a
ninguna tcnica no adaptativa en la Fig. 25
porque las prestaciones de estas tcnicas, es E2 .
comprensible, son funciones fuertes del
material de voz especfico utilizado como
entrada de codificador y la nica manera justa 1) PCM: Al analizar el uso de dither en PCM,
de evaluar los tres codificadores bsicos observamos que, si B 6, la forma de onda de
pareca compararse con versiones adaptativas error de cuantificacin tiene perceptibles
ilustrativas. Sin embargo, se recomienda componentes dependientes de seal que son
encarecidamente al lector interesado que perceptivamente molesto, y describimos las
estudie las comparaciones de los ventajas de redistribuir una varianza de error
codificadores no adaptativos en Zetterberg dada en seal - patrones independientes por
[54] y O'Neal [5, 5]. Los resultados de O'Seal dithering. Est implcito, en este caso, que la
son para una seal gaussiana; Como tales, SNR exagera el desempeo del habla PCM en
estn a menudo en desacuerdo con los algn sentido, a bajas velocidades de bits (B
resultados que hemos notado para el discurso. <6).
Por ejemplo, el LDM de O'Neal supera a
DPCM cuando la tasa de bits se reduce Los errores dependientes de la seal se
suficientemente. Esto no se indica en la Fig. vuelven significativos a altas velocidades de
25. Una vez ms, Una vez ms, el DPCM de bits tambin, si se emplea una cuantificacin
O'Neal es inferior a un codificador ptimo no uniforme. Aqu el tamao del paso es
derivado tericamente de la informacin por proporcional a la amplitud de entrada
slo 4 dB [55]. Para la codificacin del habla, instantnea y, dado que el error de
la suboptimalidad del DPCM simple sera cuantificacin E, tiene una distribucin
mucho mayor; Esto se debe a que la uniforme con un soporte igual al tamao del
naturaleza cuasi-peridica de la seal de voz paso (1), la magnitud y la varianza de E r estn
no se explota en DPCM simple con correlacionadas obviamente con la amplitud
predicciones a corto plazo (n 10, digamos). de entrada.

B. Efectos Perceptivos y Subjetivos Richards [56] ha realizado estudios de


percepcin de los valores de molestia relativa
Las insuficiencias de SNR como una medida de ruido correlacionado no correlacionado
de rendimiento han sido continuamente (aditivo) y amplitud, e informa la siguiente
reconocidos en la literatura de codificacin de equivalencia entre SNRA, la relacin de ruido
voz. Ilustramos el punto con ejemplos de de habla a aditivo y SNR c, la relacin de voz
PCM, ADPM y ADM. En cada caso, la a amplitud- Relacin de ruido correlacionada:
2) DPCM: Se ha observado [15] que la
calidad de la salida de voz en un codificador
ADPCM, en relacin con la calidad log-PCM,
Padula [57], en un reciente trabajo indito, es mejor que lo que se predice por las curvas
propone una curva de equivalencia similar: SKR en la Fig. 25. Esto se demuestra en la
Fig. 26 que compara los resultados de un
experimento perceptivo preliminar con las
conclusiones

Obsrvese las siguientes equivalencias


especficas, determinadas de (46):

El primero de estos resultados dice que a


valores bajos de SNR (a valores bajos de B),
el ruido correlacionado con la amplitud es
ms objetable que el ruido aditivo de la
Fig. 26. Comparacin del rendimiento objetivo y
misma varianza. Esto tiende a sostener los
subjetivo de ADPCM y log-PCM. (Despus de
efectos perceptivos mencionados en el
Cummiskey 1231.)
problema de oscilacin. Obsrvese, sin
embargo, que el ruido de cuantificacin no
expresado, aunque dependiente de la seal, no
es estrictamente correlacionado con la
amplitud en el sentido de que el ruido en la
cuantificacin no uniforme es. Adems,
nuestro argumento desafortunadamente se
desmorona si uno prefiere seguir (45) en lugar
de (46)!

A valores ms altos de SNR (a valores ms


altos de B), el ruido correlacionado con la
amplitud es menos molesto que el ruido
aditivo de igual varianza, segn (48), as
como segn (45). Esto implica la observacin
de que el ruido correlacionado con la
amplitud es menos fcil de percibir que el
ruido aditivo cuando los niveles de ruido
considerados estn por debajo de un umbral
determinado al establecer SNRA = SNRC en
una ecuacin como 46 o 45.

Fig. 27. Espectro de error a largo plazo en ADPCM


y log-PCM. (Despus de Cummiskey [23]).

extradas de los datos SNR. Se ve, por


ejemplo, que el ADPCM de 4 bits se evala
subjetivamente como mejor que el log-PCM
de 6 bits, aunque el SKR para este ltimo es estriaciones verticales en el espectrograma
en realidad aproximadamente 1,5 dB mayor,
segn la Fig. 25 (a). Del mismo modo, los
factores de percepcin parecen promover 3-
bit ADPCM a un rango superior a la de 5-bit
PCM.

La diferencia entre las evaluaciones objetivas


(basadas en SNR) y subjetivas se atribuye a
los siguientes efectos perceptuales.

1) El espectro de error de cuantificacin


(potencia) en ADPCM se corresponde con el
espectro a largo plazo de la propia voz, ya
que cae en el extremo de alta frecuencia. El
espectro de error en log-PCM, por otra parte,
es relativamente blanco. Esta comparacin se
demuestra en la Fig. 27. El efecto perceptual
involucrado es que los errores de ADPCM
tienen una mayor proporcin de distorsin de
baja frecuencia (sobrecarga de pendiente) y,
por lo tanto, estn ms correlacionados con el
habla que con el ruido de PCM.

2) Hay un cierto grado de tono relacionado


con el ruido ADPCM. Observe las

Fig. 28. Espectrogramas de discurso y error de


cuantificacin en PCM y log-PCM. (Despus de
Cummiskey 1231.)

de error ADPCM en la Fig. 28. Las estras de


tono en el espectrograma de error de PCM no
estn bien marcadas.

3) La supresin del ruido de cuantificacin


durante los intervalos silenciosos de habla es
mejor en ADPCM que en log-PCM. Esto
tambin se demuestra en los espectrogramas
de la Fig. 28.

No est claro cunto de los efectos 1) y 2) son


peculiares al codificador ADPCM especfico
utilizado, pero es evidente que la mejor
supresin de ruido en el canal inactivo en
ADPCM [efecto 3]] es directamente
atribuible al uso de un adaptador adaptativo varianza. Es tentador contrastar esta tendencia
Cuantificador diferencial. (Aunque la con una observacin anterior (48) con
proporcin de tamao de paso mximo a respecto a la menor objecin al ruido
mnimo de 100 en el ADPCM coincida con correlacionado. Tenga en cuenta, sin
el valor = 100 del PCM logartmico, el embargo, que esta ltima observacin se ha
hecho de que el cuantificador en ADPCM hecho sobre la base de estudios con amplitud
tiene que manejar las primeras diferencias en de correlacin, en lugar de pendiente de
el habla, en lugar de las amplitudes del habla, correlacin, el ruido.
ADPCM puede cuantificar las amplitudes
cero en intervalos silenciosos con amplitudes En cualquier caso, el punto de esta seccin es
no nulas mucho menores que el cuantificador que, al menos a velocidades de bits por
PCM. encima de 20 kbits / s, se cree que los
resultados de SNR proporcionan una
El punto de estas observaciones es que estimacin conservadora del rendimiento de
incluso si un cuantificador ADPCM tena la DM. La aceptabilidad relativa de la distorsin
misma SNR que un cuantificador log-PCM, de la pendiente-sobrecarga se ha explotado en
los errores en los primeros tienen una mejor el diseo del delta-modulador de muchas
correlacin de seales, distribucin en el maneras. Uno de ellos es la recomendacin de
tiempo; Esto hace que la misma varianza de estrategias de adaptacin "lentas" (por
error sea menos objetable en ADPCM. ejemplo P = 1,2 en lugar de 1,5 en discusin
reciente). Otra es la recomendacin de los
4) DM: En la modulacin delta, los errores espectros de potencia de error que ruedan a
correlacionados con la seal toman la forma frecuencias ms altas (lo que significa una
especfica de rfagas temporales de distorsin mayor aceptacin de la distorsin de baja
de pendiente-sobrecarga. En los estudios de frecuencia). Por ltimo, la perceptibilidad de
ADM a 20 y 40 kHz, se ha observado que la distorsin de la sobrecarga de la pendiente,
aunque la distorsin de sobrecarga de como tal, ha sido objeto de una investigacin
pendiente constituye el componente principal formal muy interesante [59].
de la potencia de error total, la calidad
perceptiva de ADM est controlada en gran Habiendo discutido la insuficiencia de SNR
parte por errores granulares. Por ejemplo, como medida de rendimiento para los
considere el uso de P = 1,2 en lugar de la cuantificadores de PCM, DPCM y DM, se
SNR maximizando P = 1,5 en la adaptacin enfrenta al problema de desarrollar un nico
de tamao de paso para el ADM con una criterio de rendimiento uniforme que medira
memoria de un bit a 20 kHz (39). El resultado todos los cuantificadores en estas tres clases.
es un aumento del 40 por ciento en la No estamos sugiriendo en absoluto que el
potencia de ruido de sobrecarga y una problema tiene una solucin simple. Despus
disminucin de 1 dB en la SNR. Sin embargo, de todo, los errores de cuantificacin toman
el ruido granular, que constituye menos del 2 formas especiales en cada caso, y tal vez lo
por ciento de la potencia total del ruido, mejor que se pueda hacer para unificar
disminuye en un 30 por ciento cuando P = resultados de rendimiento sera la
1,2, y esto hace que el discurso especificacin de tantas ecuaciones SNR
perceptiblemente ms agradable! En otras equivalentes (distintas), como (45) y (46) Ya
palabras, la distorsin de la sobrecarga de que existen tipos (distintos) de errores
pendiente es mucho menos molesta en la correlacionados con la seal: errores
velocidad de bits en cuestin que el ruido correlacionados con la amplitud, errores
granular de seal correlacionado; Por la correlacionados con la pendiente y errores
misma razn, la distorsin de sobrecarga es correlacionados con la envolvente (en algunos
menos molesta que el ruido aditivo de igual sistemas con compresin silbica), por
mencionar algunos relevantes. Tal enfoque
sera evidentemente extremadamente poco
prctico cuando uno est involucrado con
grandes poblaciones de diferentes tipos de
codificadores.

Adems, es dudoso que tales enfoques


puedan proporcionar indicaciones fiables
sobre diferentes niveles de distorsin
perceptiva: por ejemplo, distorsin que es
simplemente perceptible, distorsin que es
molesta y distorsin que reduce la
inteligibilidad. El segundo de estos niveles
est sujeto a diferencias individuales
sustanciales [vase la Seccin V-D] que
evidentemente no estn reflejadas en una
curva de equivalencia SNR. En definitiva, no
parece haber una alternativa real en este punto
a la fuerza bruta, la tcnica de probar
realmente un determinado conjunto de
codificadores en elaborados experimentos
perceptuales (que implican la comparacin
directa de todos los posibles pares de
codificadores). Uno de estos experimentos
perceptuales se est llevando a cabo, con los
codificadores de la Fig. 25 (a diferentes
velocidades de bits) como estmulos [53].

Por lo menos dos tcnicas formales han sido Fig. 29. DPCM Contornos de isopreferencia.
discutidas en la literatura para interpretar los (Despus de Chan y Donaldson [60].
resultados de las pruebas perceptivas que
implican resultados de pares (A-B) a 4 kHz, el cuantificador utilizado fue
comparaciones. Ahora hablaremos de estos logartmico y los resultados fueron de juicios
procedimientos muy brevemente. de preferencia hechos por un grupo de 17
oyentes. Los parmetros variables del
C) Curvas de isopreferencia codificador fueron la frecuencia de muestreo
fo y el nmero de bits B utilizados para
Fig. 29 ilustra los resultados de una prueba de codificar cada muestra. Higo. 29 ilustra los
percepcin que implican estmulos DPCM efectos de f0 y B sobre la calidad subjetiva
[6O]. El discurso de entrada fue filtrada en del habla DPCM por medio de contornos de
paso bajo isopreferencia que conectan puntos de igual
calidad subjetiva. Dos codificadores son
isopreferentes si en una poblacin de
escuchas (estadsticamente representativa), la
mitad de los oyentes prefieren un cdigo a
otro. Por lo tanto, la construccin de las
curvas de isopreferencia involucra
comparaciones A-B de eleccin forzada de
estmulos de prueba y de referencia, seguida
de la determinacin de puntos de probabilidad Vamos a ilustrar ahora un procedimiento que
de preferencia de 50 por ciento en las
funciones psicomtricas apropiadas [60-61].
Las curvas de isopreferencia en la Fig. 29
tambin se han calibrado (en trminos de la
SNR de una seal de voz degradada por ruido
blanco, juzgada igual en calidad a la seal de
referencia asociada con una curva de
isopreferencia dada). Finalmente, la lnea de
puntos en la Fig. 29 es un locus de puntos de
capacidad de canal mnimo (velocidad de
bits). Se ve que el muestreo de Nyquist no es
eficiente para los cdigos DPCM de alta
calidad si uno opera en un punto (en un plano
[jo, B]) que no est muy lejos del locus de
capacidad de canal mnimo.

Una debilidad del mtodo isopreference es


que las diferencias individuales en el juicio no
se muestran en el resultado final. Hay
situaciones en las que uno desea preservar
tales diferencias y distinguir entre factores
Fig. 30. Juicios subjetivos de preferencia de varias
"perceptivos" y "subjetivos", por as decirlo. codificaciones ADPCM y log-PCM. Las dimensiones 1 y
(De hecho, el mismo individuo puede cambiar 2 representan la mayor parte de la varianza entre
su criterio de preferencia al evaluar un intersubjetivos. La preferencia creciente est en la
codificador para diferentes aplicaciones: por direccin -x. Se trazan los vectores de sujetos
individuales y la proyeccin de las condiciones de
ejemplo, una llamada personal transatlntica codificacin sobre el vector de un sujeto indica que ese
versus un servicio local de informacin de orden individual orden el sistema de codificacin.
tiempo). Otra sutileza que se excluye (Despus de Curnmiskey, Jayant y Flanagan 1151.)
inherentemente en la presentacin de la
isopreferencia es la posibilidad de " No evita el supuesto de transitividad y, adems,
preferente ": (estmulo) A se prefiere a B, se conserva las diferencias individuales en la
prefiere B a C; Pero d no se prefiere a C. visualizacin de preferencia final.

D. Escalamiento multidimensional

Vamos a demostrar la tcnica con el ejemplo


de una prueba de percepcin mencionada
anteriormente. El experimento involucr 3- y
4-bit ADPCM estmulos y 4, 5, 6, y 7 bits
log-PCM estmulos [13]. El nmero total de
comparaciones cruzadas posibles fue de 16 (2
estmulos X4 estmulos X2 rdenes de
presentacin). Veintids oyentes participaron
en las pruebas y hicieron juicios de
preferencia de la calidad de la seal para cada
una de las 16 comparaciones A-B. Los juicios
se sometieron a un programa de escala
multidimensional [62], y los resultados se
trazaron en trminos de dos dimensiones
subjetivas que representaron la mayora de las tndem, se observaron las siguientes
diferencias percibidas. Una dimensin, en relaciones para la degradacin de SNR con el
particular, represent el 75 por ciento de la nmero I de pares codificador-decodificador
varianza en los datos de preferencia. [66]:

Los resultados finales se muestran en la Fig.


30. Se muestran los vectores de sujetos
individuales (lneas continuas) y la
proyeccin de las condiciones de codificacin
sobre el vector de un sujeto revela cmo ese
rango individual orden las cualidades de la
seal. (Un sujeto, el vector en el cuadrante IV,
aparentemente no entendi las instrucciones Las modificaciones delta se realizaron a 60
de prueba y dio juicios de preferencia kbits / s.
esencialmente complementarios.) Una
Debe mencionarse en este punto que aunque
resultante de los vectores sujetos tambin se
las tcnicas de adaptacin han sido
muestra (discontinua), y las proyecciones
enfatizadas a lo largo de este documento para
sobre esta resultante indican consenso sujeto
una codificacin de voz eficiente, los
al clasificar las calidades. Esta clasificacin
cuantificadores no adaptativos estn lejos de
subjetiva subjetiva corresponde, de hecho, a
ser slo de importancia acadmica. Un buen
la clasificacin subjetiva enumerada
ejemplo es LDM. En situaciones donde la
anteriormente en la Fig. 26.
necesidad es de extrema sencillez, la
E. Preguntas de comunicacin frecuencia de muestreo no est seriamente
limitada (por ejemplo, en los terminales de
Hasta ahora hemos hablado de comunicacin, en lugar de en los canales de
cuantificadores principalmente como transmisin), LDM proporciona un medio
encoders fuente. Si bien las cuestiones de muy atractivo de conversin analgico a
transmisin no son el tema principal de este digital.
documento, nos gustara mencionar algunas
consideraciones bsicas. Algunos de estos Conversin directa entre los formatos LDM y
pueden ser muy relevantes para el problema ADM se ha considerado en al menos una
de seleccionar un codificador de origen simulacin [64]. Aqu el discurso fue
(PCM, DPCM o DM). codificado dos veces por un codificador de
LDM de alta velocidad de bits con una etapa
De hecho, es probable que los sistemas intermedia de codificacin de AD. Las
integrados de comunicacin del habla del conversiones LDM a ADM y ADM a LDM se
futuro utilicen todos los tres cuantificadores realizaron en las respectivas funciones de
bsicos discutidos en este documento, tanto escalera de alta frecuencia, y el habla no fue
en formatos no adaptativos como adaptativos. detectada (filtro de paso bajo) hasta despus
Por lo tanto, ha habido un inters del segundo LDM. Se encontr que con una
considerable en cuestiones tales como las velocidad de bits de ADM de
conversiones digitales directas entre dichos aproximadamente 40 kbits / s, la frecuencia
formatos [63] - [65], y la codificacin de muestreo de LDM tena que ser del orden
repetida de una seal de voz por de 1 MHz para no degradar el habla ms all
cuantificadores idnticos [66] o no idnticos de una calidad que la ADM de 40 kHz
[64] en tndem. pudiera proporcionar.

Por ejemplo, en una simulacin de pares F. Eyectores de errores de canal aleatorio


codificador-decodificador idnticos en
Muchos enlaces de habla de calidad de peaje ventaja perceptiva
mantienen velocidades de errores de bits que
son demasiado pequeas (por ejemplo, menos
de 1 de cada 105) para afectar el rendimiento
del cuantificador. Si la probabilidad de error
debe ser mucho mayor, las degradaciones de
SNR estn implcitas, y el contenido de estas
degradaciones es claramente cuantificador-
dependiente.

Los cuantificadores DPCM, por ejemplo, se


ven afectados de forma diferente por errores
de bits que un cuantificador PCM. Esto se
debe a que la accin de realimentacin en
DPCM conduce a una cierta propagacin de
errores en la salida del codificador [68]. A
pesar de tal propagacin de errores, se ha
informado que DPCM es ms tolerante a los
errores de bits (que ocurren al azar) que el
PCM, desde un punto de vista perceptivo Fig. 31.
[69], [70]. Esto se debe a que los picos de
error causados en la reconstruccin de una ( al comparar DM y PCM de velocidad
forma de onda PCM (debido a un bit recibido binaria igual con un porcentaje dado de
errneamente) pueden tener amplitudes errores digitales), y el problema de
mximas que son del orden de | Xr |max, el valor propagacin de errores en DM tambin se
de pico de la seal de entrada, mientras que alivia en gran medida por la Uso de un
las magnitudes de pico correspondientes En la integrador imperfecto [38]. Finalmente,
decodificacin DPCM estn realmente dentro de la clase de los codificadores de DM,
relacionados con | XrXr-1 |max, el valor pico los moduladores delta de adaptacin
de las primeras diferencias en la entrada. La instantnea son ms vulnerables al ruido de
mayor magnitud consecuente de un pico de canal que los codificadores de compactacin
error PCM tpico hace que sea ms molesto, a lenta (o lineales). Por lo tanto, aunque los
pesar de que lo hace No se propagan en el moduladores delta de adaptacin instantnea
tiempo. son muy sencillos y eficientes (SNR) en
entornos relativamente protegidos contra
Por la misma razn, los moduladores delta ruido (por ejemplo, probabilidad de error de
pueden disearse para obtener una mayor bit <10), se han diseado varios moduladores
delta con compresin silbica para su uso en
canales ruidosos, Y estos codificadores son
particularmente atractivos para aplicaciones
de baja tasa de bits (<20 kbits / s). Esperamos
resumir el rendimiento de tales moduladores
delta mediante la reproduccin, en la Fig. 31,
las curvas de inteligibilidad recientemente
publicadas debido a Melnick [71]. Las
puntuaciones de inteligibilidad se refieren a la
inteligibilidad de las palabras, tal como se
mide en las pruebas de rima modificada
(MRT) [72]. El MRT es una prueba de opcin
mltiple en la que el oyente selecciona la G. Errores de bits agrupados
palabra que se siente ms cercana a la que ha
escuchado de un conjunto cerrado de seis Nuestras observaciones anteriores,
opciones posibles (que difieren en el sonido especialmente las cuantitativas, se refieren a
consonante inicial o final). Al interpretar los errores de bits independientes (al azar). Tales
puntajes de inteligibilidad de las palabras, errores son caractersticos de los canales de
debe recordarse que, en muchas situaciones, seal corrompidos por el ruido aditivo
la inteligibilidad de la frase perfecta no independiente de la seal. Muchos canales se
requiere 100% de inteligibilidad de palabras. ajustan a esta descripcin y la suposicin de
Por ejemplo, las puntuaciones aceptables de error independiente se ha hecho en
MRT para propsitos de control de trfico consecuencia en la mayor parte de la
areo pueden ser tan bajas como 75 por ciento literatura cuantificadora. Una excepcin
[71]. Observe, en la Fig. 31, que tal requisito notable es el tratamiento analtico de Wolf
es satisfecho por un codificador de 7,2 kbits / [74]. Esto incluye un estudio de errores que
s (silbico) incluso cuando la tasa de errores ocurren en rfagas, como generado por un
de bits es tan alta como 10 por ciento. Las proceso de Markov de primer orden. Un canal
cifras de rendimiento comparables se real tpico con errores agrupados es un enlace
reivindican por la recientemente descrita de radio mvil. El desvanecimiento lento de
"modulacin delta de dos canales" debido a la seal (ruido multiplicativo de color) sobre
Greefkes [73]. El sistema tiene un modulador un canal de este tipo provoca patrones de
delta auxiliar para transmitir una seal de error de bits en los que las correlaciones
envolvente de pendiente que proporciona una temporales son usualmente muy obvias.
base til para el control de paso. (Como se
El efecto de los errores correlacionados en los
mencion en el contexto de MDL y DCDM,
cdigos de voz digitales est siendo
no se espera que las propiedades a corto plazo
investigado actualmente. Una de las primeras
de la secuencia de bits DM sean una base
indicaciones de estos estudios ha sido que, en
muy til para la variacin del tamao de paso
el caso de los errores, los cdigos
a frecuencias de muestreo tan bajas como 7,2
diferenciales como ADM pueden disearse
kHz. Entre muestras de voz adyacentes es
para proporcionar una sorprendente cantidad
demasiado pequea para considerar
de supresin de ruido de impulso.
instantneas de secuencias de bits cortas
Desafortunadamente, sin embargo, tales
como indicadores de patrones de pendiente
diseos invariablemente parecen requerir el
inmediatamente siguientes.)
funcionamiento del modulador delta en un
modo de sobrecarga de pendiente [75].

También podría gustarte