El campo de la digitalización de la voz ha sido, y es todavía, un área de permanente desarrollo. Este desarrollo ha producido muchos tipos diferentes de algoritmos para digitalización de la voz. La escogencia de un tipo particular depende del costo de implementación y los requerimientos de desempeño necesarios en la aplicación. El algoritmo usados para sistemas T1 es el de PCM companded, el cual proporciona excelente calidad a una tasa moderada (64 Kbps) y con un costo moderado.

Las aplicaciones de transmisión con anchos de banda limitados, como los sistemas celulares digitales, requieren algoritmos de digitalización de la voz más sofisticados para lograr tasas del orden de 8 16 Kbps. Otras aplicaciones para la voz digitalizada son los sistemas de almacenamiento de la voz. El almacenamiento digital es particularmente apropiado para grabar anuncios, ya que el sonido pregrabado no se deteriora con el tiempo y además, los anuncios individuales, que son guardados en memorias o en CDs pueden ser accesados en forma aleatoria.

La grabación de conversaciones en memorias con capacidad limitada son ejemplo de una aplicación que puede usar algoritmos con tasas de digitalización muy bajas y con reducciones importantes de calidad La razón principal para que los sistemas de mensajes de voz usen almacenamiento digital es la de tener acceso aleatorio a los mensajes individualmente. Para minimizar el espacio de almacenamiento estos sistemas usan típicamente tasas de datos de 8 32 Kbps.

Las técnicas de digitalización de la voz pueden ser categorizadas en dos clases: las que codifican formas de onda análogas tan fielmente como sea posible y las que procesan formas de onda para codificar solamente los aspectos que son realmente importantes en los procesos de conversación y audición La primera categoría es representativa de los problemas generales de las conversiones A/D ó D/A y no esta restringida a la digitalización de las conversaciones.

Modulación por Código de Pulsos (PCM). La segunda categoría de digitalización de la conversación esta relacionada con producir codificadores y decodificadores de tasas de datos muy bajas para sistemas de transmisión de banda estrecha ó dispositivos de almacenamiento digital con capacidad limitada. PCM Diferencial (DPCM) y Modulación Delta (DM).La tres técnicas más comunes usadas para codificar la voz son. . Excepto en casos especiales los equipos telefónicos son diseñados para reproducir una forma de onda análoga usando una de estas técnicas.

codificador de voz). La mayor parte de los esfuerzos en este campo se han dedicado a desarrollar vocoders con tasas medias (ej. Estas técnica representan una tercera clase de algoritmos de digitalización de la voz. .Un dispositivo con esta clase de técnica especial es llamado un vocoder (voice coder. Estos codificadores se implementan como una combinación de las técnicas de bajas tasas de bits y los codificadores de formas de onda. 8 Kbps) con calidades naturales de la conversación. principalmente para aplicaciones de celulares digitales.

. Las técnicas de digitalización predominantes están basadas en el uso de muestras espaciadas en forma regular y periódica.MODULACION DE AMPLITUD DE PULSO El primer paso en la digitalización de una forma de onda análoga es establecer un conjunto de tiempos discretos en los cuales se va a muestrear la señal de entrada.

Si tenemos un número suficiente de muestras la forma de onda original podrá ser recuperada completamente usando un filtro pasa-bajas para interpolar los valores intermedios de las muestras. . La figura inferior muestra una forma de onda análoga muestreada a una frecuencia constante f s ! 1 / T y que luego es reconstruida mediante un filtro pasa bajas.

se definió por la relación: f s " (2)( BW ) Donde f s = frecuencia de muestreo BW = ancho de banda de la señal de entrada . Este resultado. llamado criterio de Nyquist.TASA DE MUESTREO DE NYQUIST Harry Nyquist logró establecer en 1933 la frecuencia de muestreo mínima requerida para extraer toda la información de una forma de onda continua variante en el tiempo.

La representación espectral del muestreo se puede apreciar en la figura inferior. donde el muestreo se asemeja a la multiplicación de la señal por un tren de pulsos y la recuperación de la señal se logra mediante un filtro pasa bajas. .

la forma de onda original no podrá ser recuperada sin distorsión.DISTORSION POR SUPERPOSICION Si la forma de onda de entrada de un sistema PAM esta submuestreada ( f s 2 BW ) . Esta distorsión se presenta porque las componentes de frecuencia generadas por el muestreo se superponen unas con otras haciendo imposible recuperar la forma original del espectro .

en la banda de frecuencias de interés. las cuales no existen en la forma de onda original. Otro término empleado para esto es aliasing . la distorsión por superposición produce componentes de frecuencia.En esencia. El aliasing no es un fenómeno exclusivo de la digitalización de la voz. .

en donde cada valor de la muestra análoga es cuantizada a un valor discreto para su representación en una palabra codificada digitalmente. Todos los valores de muestras que estén en un intervalo de cuantización particular serán representados por un valor discreto localizado en el centro del intervalo de cuantización. .MODULACION POR CODIGO DE PULSOS La Modulación por Código de Pulsos (PCM) es una extensión de PAM. De esta manera el proceso de cuantización introduce cierta cantidad de error de distorsión en las muestras de la señal.

Este error conocido como error de cuantización es minimizado estableciendo un gran número de intervalos de cuantización. .

RUIDO DE CUANTIZACIÓN Generalmente se asume que los errores de cuantización sucesivos de un codificador PCM están distribuidos en forma aleatoria y que no están correlacionados unos con otros Si la señal tiene tiempo suficiente para cambiar en amplitud por varios intervalos de cuantización. los errores de cuantización serán independientes. .

creado por la digitalización de la señal análoga. . las muestras sucesivas probablemente caerán en el mismo intervalo. relacionada con la potencia promedio de la señal. o distorsión. El error de cuantización. se expresa generalmente como una potencia promedio de ruido. causando perdida de independencia en los errores de cuantización.Si una señal es sobremuestrada (frecuencia mayor que la tasa de Nyquist).

se puede determinar como: E{x 2 (t )} E{[ y (t )  x(t )]2 } SQR Donde E{y} x(t ) y (t ) esperanza ó promedio señal de entrada análoga señal de salida decodificada .De esta forma la relación señal a ruido de cuantización (SQR).

2. El valor de una muestra tiene igual probabilidad de caer dentro de cualquier intervalo de cuantización. .Hay tres observaciones respecto a la determinación del valor esperado del ruido de cuantización: 1. El error y (t )  x(t ) está limitado en amplitud a q / 2 . empleando una densidad de probabilidad uniforme de amplitud 1 / q . donde q es el peso del intervalo de cuantización.

la potencia promedio del ruido de cuantización será: Potencia de ruido de cuatización ! 1 q 2 12 .3. Si asumimos por conveniencia una resistencia de 1. también llamada limitación de pico ó saturación. . Si el valor de una muestra excede el rango del intervalo de cuantización mas alto. se presentará una distorsión de sobrepeso. Se asume que las amplitudes de la señal están limitadas al rango máximo del codificador.

el ruido de cuantización es independiente de los valores de las muestras y el SQR se determina como: ¨v¸ ¨ v2 ¸ SQR (db) ! 10 log10 © 2 © ¹ © q / 12 ¹ ! 10. .8  20 log10 © q ¹ ¹ ª º º ª Donde v es la amplitud rms de la entrada.Si todos los intervalos de cuantización tienen igual longitud (cuantización uniforme).

. para una señal de entrada senoidal la SQR producida por cuantización uniforme es: ¨ A2 / 12 ¸ (db) ! 10 log10 © 2 © q / 12 ¹ ¹ º ª ¨ A¸ ! 7.78  20 log10 © ¹ ©q¹ ª º S Donde A es la amplitud pico de la onda senoidal.En particular.

La figura superior muestra que el ruido puede ser mayor que la señal cuando los valores de las muestras están en el primer intervalo de cuantización.RUIDO DE CANAL INACTIVO Las ecuaciones para determinar los valores de SQR muestran que este valor es pequeño para valores de muestra pequeños. .

Este efecto es particularmente molesto durante las pausas de las conversaciones y se conoce como ruido de canal inactivo. Un método para minimizar el ruido de canal inactivo en sistemas PCM consiste en establecer niveles de cuantización que estén montados sobre el origen. .

Los sistemas PCM de este tipo usan un número impar de intervalos de cuantización. . ya que los rangos de codificación de señales positivas y negativas es igual.En este caso todos los valores de las muestras que esten localizados en el intervalo central de cuantización son decodificados como una salida constante cero.

Esto quiere decir que el equivalente numérico de cada palabra codificada es proporcional al valor de la muestra cuantizada que este representa. genera palabras codificadas que guardan una relación lineal con los valores de las muestras análogas. . El número de bits requerido para cada muestra se determina mediante la máxima potencia de ruido aceptable.CODIFICACION PCM UNIFORME Un codificador que utiliza intervalos de cuantización de igual longitud para todas las muestras. De esta manera un sistema PCM uniforme usa un conversor análogo-digital convencional para generar los códigos de la muestra.

un sistema telefónico debe ser capaz de transmitir un rango grande de amplitudes de señal. . o cuatro bits por muestra. Además de proporcionar una calidad adecuada para las pequeñas señales. Para que un sistema PCM uniforme logre esta SQR se necesita que ! 0.La calidad mínima de voz digitalizada requiere una SQR de 26dB. llamado rango dinámico. Para excursiones iguales de la señal tanto en rango positivo como negativo se necesitan 16 intervalos de cuantización.1 3 A.

el número total de intervalos es de 496. Si se asumen intervalos de cuantización igualmente espaciados. .El rango dinámico (DR) es usualmente expresado en decibeles como la relación entre la máxima y la mínima amplitud de la señal: ¨ Pmax ¸ 0 log 0 © ©P ¹ ¹ ª min º ¨ Vmax ¸ 20 log10 © ©V ¹ ¹ ª min º DR Un rango dinámico típico es de 30dB. lo cual requiere palabras de 9 bits.

Sustituyendo el valor de q tenemos que: ¨ A ¸ SQR ! 1.02n  20 Log10© ©A ¹ ¹ ª max º .76  6.El desempeño de un sistema PCM uniforme de n bits se determina observando que: 2 Amax ! 2n Donde Amax es la amplitud máxima.

Si los niveles de la señal tienen pocas excursiones a los valores más altos. Un proceso de codificación más eficiente se logra cuando los intervalos de cuantización no son uniformes. . Los valores más altos de la señal son codificados con los mismos intervalos de cuantización. sino que se incrementan con el valor de la muestra.COMPANDING En un sistema PCM uniforme el tamaño de cada intervalo de cuantización está determinado por las condiciones del nivel más bajo de señal a ser codificada. se desperdiciarían niveles de cuantización.

la SQR es constante para todos los niveles de la señal.Cuando los intervalos de cuantización son directamente proporcionales al valor de las muestras. Cuando los intervalos de cuantización no son uniformes se presenta una relación no lineal entre las palabras codificadas y las muestras que ellas representan. El efecto de la operación de compresión se presenta en la siguiente diapositiva. . Una función no lineal se presenta cuando la señal de entrada análoga es inicialmente comprimida y luego cuantizada con intervalos de cuantización uniforme.

.Se puede observar que los intervalos de la señal de entrada son comprimidos sucesivamente en intervalos de cuantización de longitud constante. Los valores de muestra más grandes serán comprimidos antes de la codificación.

Las dos familias de compresión más utilizadas son la ley .El proceso de comprimir primero una señal y luego expandirla es conocido como companding. .Q y la ley -A .

Los análisis de las formas de onda de conversación indican que hay una redundancia considerable de una muestra a la otra.88 .REDUNDANCIAS EN LAS CONVERSACIONES Los sistemas PCM convencionales codifican cada muestra de una forma de onda independientemente de las otras muestras. El coeficiente de correlación entre muestras adyacentes de 8KHz es generalmente de 0. De esta forma un sistema PCM es capaz de codificar una forma de onda aleatoria cuyas máximas componentes de frecuencia no excedan la mitad de la tasa de muestreo.

Correlaciones muestra a muestra .Distribuciones de amplitud no uniforme .Factores de inactividad .Además de la correlación que existe entre las muestras adyacentes de una forma de onda de conversación. existen otros niveles de redundancia que pueden ser explotados para reducir las tasas de bits codificados: .Correlaciones ciclo a ciclo (periodicidad) .

La calidad promedio de una conversación PCM puede ser mejorada haciendo más cortos los intervalos cuantización de los niveles más bajos. La mayoría de las muestras con bajo nivel ocurren como resultado de las pausas en una conversación. los niveles de potencia de la conversación activa suelen estar en la parte baja del rango de codificación. e incrementando los intervalos de cuantización de los niveles más altos. .Distribuciones de amplitud no uniforme. Las muestras con bajos niveles de amplitud son más comunes que aquellas con niveles altos. Sin embargo.

Correlaciones muestra a muestra. La alta correlación entre muestras sucesivas indica que cualquier intento por reducir las tasas de transmisión deben aprovechar la correlación entre muestras adyacentes.Las mejoras logradas con esta técnica son mínimas. . y en su mayor parte no justifican la complejidad adicional. La forma más simple de aprovechar la redundancia entre muestras en una conversación es codificar solamente las diferencias entre las muestras adyacentes.

en cualquier instante de tiempo particular ciertos sonidos estarán compuestos por unas pocas frecuencias dentro de la banda. En esencia estos sistemas codifican la pendiente o derivada de una señal en el origen y recuperan la señal integrando en el destino. . Aunque una señal de conversación requiere el ancho de banda entero de 3003400Hz de un canal telefónico.Las diferencias de medidas son acumuladas en el decodificador para recuperar la señal. Correlaciones ciclo a ciclo (periodicidad).

la forma de onda presentará una fuerte correlación entre numerosas muestras correspondientes a varios ciclos de una oscilación. El ciclo natural de un sonido de voz se muestra en la figura .Cuando unas pocas frecuencias fundamentales existan en un sonido.

. La mayor inactividad ocurre como resultado de que una persona escucha mientras la otra habla. Factores de inactividad. El análisis de las conversaciones telefónicas indica que una conversación está típicamente activa durante el 40% de la duración de la llamada.Los codificadores que aprovechan la redundancia ciclo a ciclo en las conversaciones son más complicados que aquellos que solo remueven las redundancias en muestras adyacentes. Para una conexión full-duplex convencional esto significa una subutilización.

Ya que el rango de diferencias de muestra es menor que el rango de muestras individuales. La tasa de muestreo es a menudo la misma en lo que respecta a un sistema PCM comparable. .MODULACION POR CODIGO DE PULSOS DIFERENCIAL La Modulación por Código de Pulsos Diferencial (DPCM) está diseñada específicamente para sacar ventaja de la redundancia muestra a muestra en una forma de onda típica de conversación. se necesitan pocos bits para codificar las diferencias de las muestras.

PCM ADAPTATIVO DIFERENCIAL DPCM tiene una implementación relativamente sencilla y puede darnos un ahorro de 1 a 2 bits por muestra con respecto a la codificación estándar PCM. Incluso se pueden lograr ahorros mayores agregando lógica de adaptación al algoritmo básico de PCM para crear lo que se llama PCM Diferencial Adaptativo (ADPCM) .

.MODULACION DELTA La Modulación Delta es otra técnica de digitalización que se aprovecha de la redundancia muestra a muestra en una forma de onda de conversación. DM se puede considerar como un caso especial de DPCM usando solamente 1 bit por muestra de la diferencia de señal.

El bit especifica solamente la polaridad de la diferencia de la muestra y por lo tanto indica si la señal se incrementa o se decrementa respecto a la última muestra. .

. Los sistemas DPCM simples permiten alrededor de 5 dB de ganancia de predicción. DM).CODIFICACION PREDICTIVA ADAPTATIVA Los sistemas diferenciales anteriores (DPCM. La relación entre la potencia de la señal de entrada y la potencia de la diferencia de señal es lo que se llama ganancia de predicción. ADPCM. operan con tasas de datos más bajas que el sistema PCM debido a que codifican una diferencia de señal que tiene una potencia promedio más baja que la señal de entrada.

Si los coeficientes son determinados a partir de la historia pasada y usados para predecir los segmentos de conversación subsecuentes. se pueden obtener ganancias de predicción del orden de los 13 dB .La Codificación Predictiva Adaptativa (APC) permite grandes niveles de ganancia de predicción adaptando los coeficientes de predicción a segmentos de conversación individuales. .

Los codificadores dividen el espectro de entrada en subbandas mediante filtros. Estos códigos son multiplexados y transmitidos al decodificador donde son demultiplexados. PCM ó ADPCM. decodificados y combinados para reconstruir la señal de entrada. Cada subbanda es codificada separadamente con APCM. .CODIFICACIÓN SUBBANDA Es un codificador que usa un análisis en el dominio de la frecuencia en lugar del dominio del tiempo como en los anteriores.

por Voice Coders (codificadores de voz). Los procedimientos de digitalización de los vocoders codifican específicamente señales de voz. .VOCODERS Los algoritmos anteriores pretenden reproducir la señal de entrada tan exactamente como sea posible. Estos asumen poco o ningún conocimiento de la naturaleza de la señal que procesan y son aplicables a cualquier señal presente en un canal de voz. De allí su nombre de vocoders. Estas técnicas son diseñadas exclusivamente para señales de voz.

. con menos bits que los codificadores de formas de onda generales. de la conversación. perceptivamente.El objetivo básico de un vocoder es codificar solamente los aspectos más importantes.

FIN .