El campo de la digitalización de la voz ha sido, y es todavía, un área de permanente desarrollo. Este desarrollo ha producido muchos tipos diferentes de algoritmos para digitalización de la voz. La escogencia de un tipo particular depende del costo de implementación y los requerimientos de desempeño necesarios en la aplicación. El algoritmo usados para sistemas T1 es el de PCM companded, el cual proporciona excelente calidad a una tasa moderada (64 Kbps) y con un costo moderado.

Las aplicaciones de transmisión con anchos de banda limitados, como los sistemas celulares digitales, requieren algoritmos de digitalización de la voz más sofisticados para lograr tasas del orden de 8 16 Kbps. Otras aplicaciones para la voz digitalizada son los sistemas de almacenamiento de la voz. El almacenamiento digital es particularmente apropiado para grabar anuncios, ya que el sonido pregrabado no se deteriora con el tiempo y además, los anuncios individuales, que son guardados en memorias o en CDs pueden ser accesados en forma aleatoria.

La grabación de conversaciones en memorias con capacidad limitada son ejemplo de una aplicación que puede usar algoritmos con tasas de digitalización muy bajas y con reducciones importantes de calidad La razón principal para que los sistemas de mensajes de voz usen almacenamiento digital es la de tener acceso aleatorio a los mensajes individualmente. Para minimizar el espacio de almacenamiento estos sistemas usan típicamente tasas de datos de 8 32 Kbps.

Las técnicas de digitalización de la voz pueden ser categorizadas en dos clases: las que codifican formas de onda análogas tan fielmente como sea posible y las que procesan formas de onda para codificar solamente los aspectos que son realmente importantes en los procesos de conversación y audición La primera categoría es representativa de los problemas generales de las conversiones A/D ó D/A y no esta restringida a la digitalización de las conversaciones.

.La tres técnicas más comunes usadas para codificar la voz son. La segunda categoría de digitalización de la conversación esta relacionada con producir codificadores y decodificadores de tasas de datos muy bajas para sistemas de transmisión de banda estrecha ó dispositivos de almacenamiento digital con capacidad limitada. PCM Diferencial (DPCM) y Modulación Delta (DM). Excepto en casos especiales los equipos telefónicos son diseñados para reproducir una forma de onda análoga usando una de estas técnicas. Modulación por Código de Pulsos (PCM).

principalmente para aplicaciones de celulares digitales. Estas técnica representan una tercera clase de algoritmos de digitalización de la voz. 8 Kbps) con calidades naturales de la conversación.Un dispositivo con esta clase de técnica especial es llamado un vocoder (voice coder. Estos codificadores se implementan como una combinación de las técnicas de bajas tasas de bits y los codificadores de formas de onda. codificador de voz). La mayor parte de los esfuerzos en este campo se han dedicado a desarrollar vocoders con tasas medias (ej. .

Las técnicas de digitalización predominantes están basadas en el uso de muestras espaciadas en forma regular y periódica.MODULACION DE AMPLITUD DE PULSO El primer paso en la digitalización de una forma de onda análoga es establecer un conjunto de tiempos discretos en los cuales se va a muestrear la señal de entrada. .

. La figura inferior muestra una forma de onda análoga muestreada a una frecuencia constante f s ! 1 / T y que luego es reconstruida mediante un filtro pasa bajas.Si tenemos un número suficiente de muestras la forma de onda original podrá ser recuperada completamente usando un filtro pasa-bajas para interpolar los valores intermedios de las muestras.

TASA DE MUESTREO DE NYQUIST Harry Nyquist logró establecer en 1933 la frecuencia de muestreo mínima requerida para extraer toda la información de una forma de onda continua variante en el tiempo. se definió por la relación: f s " (2)( BW ) Donde f s = frecuencia de muestreo BW = ancho de banda de la señal de entrada . Este resultado. llamado criterio de Nyquist.

. donde el muestreo se asemeja a la multiplicación de la señal por un tren de pulsos y la recuperación de la señal se logra mediante un filtro pasa bajas.La representación espectral del muestreo se puede apreciar en la figura inferior.

Esta distorsión se presenta porque las componentes de frecuencia generadas por el muestreo se superponen unas con otras haciendo imposible recuperar la forma original del espectro .DISTORSION POR SUPERPOSICION Si la forma de onda de entrada de un sistema PAM esta submuestreada ( f s 2 BW ) . la forma de onda original no podrá ser recuperada sin distorsión.

Otro término empleado para esto es aliasing . en la banda de frecuencias de interés. .En esencia. El aliasing no es un fenómeno exclusivo de la digitalización de la voz. la distorsión por superposición produce componentes de frecuencia. las cuales no existen en la forma de onda original.

. en donde cada valor de la muestra análoga es cuantizada a un valor discreto para su representación en una palabra codificada digitalmente.MODULACION POR CODIGO DE PULSOS La Modulación por Código de Pulsos (PCM) es una extensión de PAM. De esta manera el proceso de cuantización introduce cierta cantidad de error de distorsión en las muestras de la señal. Todos los valores de muestras que estén en un intervalo de cuantización particular serán representados por un valor discreto localizado en el centro del intervalo de cuantización.

Este error conocido como error de cuantización es minimizado estableciendo un gran número de intervalos de cuantización. .

los errores de cuantización serán independientes.RUIDO DE CUANTIZACIÓN Generalmente se asume que los errores de cuantización sucesivos de un codificador PCM están distribuidos en forma aleatoria y que no están correlacionados unos con otros Si la señal tiene tiempo suficiente para cambiar en amplitud por varios intervalos de cuantización. .

causando perdida de independencia en los errores de cuantización. o distorsión. creado por la digitalización de la señal análoga. El error de cuantización. . las muestras sucesivas probablemente caerán en el mismo intervalo.Si una señal es sobremuestrada (frecuencia mayor que la tasa de Nyquist). se expresa generalmente como una potencia promedio de ruido. relacionada con la potencia promedio de la señal.

De esta forma la relación señal a ruido de cuantización (SQR). se puede determinar como: E{x 2 (t )} E{[ y (t )  x(t )]2 } SQR Donde E{y} x(t ) y (t ) esperanza ó promedio señal de entrada análoga señal de salida decodificada .

donde q es el peso del intervalo de cuantización.Hay tres observaciones respecto a la determinación del valor esperado del ruido de cuantización: 1. 2. . empleando una densidad de probabilidad uniforme de amplitud 1 / q . El valor de una muestra tiene igual probabilidad de caer dentro de cualquier intervalo de cuantización. El error y (t )  x(t ) está limitado en amplitud a q / 2 .

Se asume que las amplitudes de la señal están limitadas al rango máximo del codificador. Si asumimos por conveniencia una resistencia de 1. se presentará una distorsión de sobrepeso. la potencia promedio del ruido de cuantización será: Potencia de ruido de cuatización ! 1 q 2 12 .3. . también llamada limitación de pico ó saturación. Si el valor de una muestra excede el rango del intervalo de cuantización mas alto.

el ruido de cuantización es independiente de los valores de las muestras y el SQR se determina como: ¨v¸ ¨ v2 ¸ SQR (db) ! 10 log10 © 2 © ¹ © q / 12 ¹ ! 10.Si todos los intervalos de cuantización tienen igual longitud (cuantización uniforme). .8  20 log10 © q ¹ ¹ ª º º ª Donde v es la amplitud rms de la entrada.

.78  20 log10 © ¹ ©q¹ ª º S Donde A es la amplitud pico de la onda senoidal.En particular. para una señal de entrada senoidal la SQR producida por cuantización uniforme es: ¨ A2 / 12 ¸ (db) ! 10 log10 © 2 © q / 12 ¹ ¹ º ª ¨ A¸ ! 7.

RUIDO DE CANAL INACTIVO Las ecuaciones para determinar los valores de SQR muestran que este valor es pequeño para valores de muestra pequeños. La figura superior muestra que el ruido puede ser mayor que la señal cuando los valores de las muestras están en el primer intervalo de cuantización. .

Este efecto es particularmente molesto durante las pausas de las conversaciones y se conoce como ruido de canal inactivo. Un método para minimizar el ruido de canal inactivo en sistemas PCM consiste en establecer niveles de cuantización que estén montados sobre el origen. .

ya que los rangos de codificación de señales positivas y negativas es igual. .En este caso todos los valores de las muestras que esten localizados en el intervalo central de cuantización son decodificados como una salida constante cero. Los sistemas PCM de este tipo usan un número impar de intervalos de cuantización.

.CODIFICACION PCM UNIFORME Un codificador que utiliza intervalos de cuantización de igual longitud para todas las muestras. El número de bits requerido para cada muestra se determina mediante la máxima potencia de ruido aceptable. De esta manera un sistema PCM uniforme usa un conversor análogo-digital convencional para generar los códigos de la muestra. Esto quiere decir que el equivalente numérico de cada palabra codificada es proporcional al valor de la muestra cuantizada que este representa. genera palabras codificadas que guardan una relación lineal con los valores de las muestras análogas.

Para excursiones iguales de la señal tanto en rango positivo como negativo se necesitan 16 intervalos de cuantización.La calidad mínima de voz digitalizada requiere una SQR de 26dB.1 3 A. llamado rango dinámico. un sistema telefónico debe ser capaz de transmitir un rango grande de amplitudes de señal. . o cuatro bits por muestra. Para que un sistema PCM uniforme logre esta SQR se necesita que ! 0. Además de proporcionar una calidad adecuada para las pequeñas señales.

Si se asumen intervalos de cuantización igualmente espaciados. lo cual requiere palabras de 9 bits. .El rango dinámico (DR) es usualmente expresado en decibeles como la relación entre la máxima y la mínima amplitud de la señal: ¨ Pmax ¸ 0 log 0 © ©P ¹ ¹ ª min º ¨ Vmax ¸ 20 log10 © ©V ¹ ¹ ª min º DR Un rango dinámico típico es de 30dB. el número total de intervalos es de 496.

El desempeño de un sistema PCM uniforme de n bits se determina observando que: 2 Amax ! 2n Donde Amax es la amplitud máxima.02n  20 Log10© ©A ¹ ¹ ª max º . Sustituyendo el valor de q tenemos que: ¨ A ¸ SQR ! 1.76  6.

. Si los niveles de la señal tienen pocas excursiones a los valores más altos. Los valores más altos de la señal son codificados con los mismos intervalos de cuantización.COMPANDING En un sistema PCM uniforme el tamaño de cada intervalo de cuantización está determinado por las condiciones del nivel más bajo de señal a ser codificada. Un proceso de codificación más eficiente se logra cuando los intervalos de cuantización no son uniformes. sino que se incrementan con el valor de la muestra. se desperdiciarían niveles de cuantización.

Cuando los intervalos de cuantización son directamente proporcionales al valor de las muestras. Cuando los intervalos de cuantización no son uniformes se presenta una relación no lineal entre las palabras codificadas y las muestras que ellas representan. la SQR es constante para todos los niveles de la señal. . El efecto de la operación de compresión se presenta en la siguiente diapositiva. Una función no lineal se presenta cuando la señal de entrada análoga es inicialmente comprimida y luego cuantizada con intervalos de cuantización uniforme.

Se puede observar que los intervalos de la señal de entrada son comprimidos sucesivamente en intervalos de cuantización de longitud constante. Los valores de muestra más grandes serán comprimidos antes de la codificación. .

Las dos familias de compresión más utilizadas son la ley .Q y la ley -A . .El proceso de comprimir primero una señal y luego expandirla es conocido como companding.

El coeficiente de correlación entre muestras adyacentes de 8KHz es generalmente de 0. Los análisis de las formas de onda de conversación indican que hay una redundancia considerable de una muestra a la otra.REDUNDANCIAS EN LAS CONVERSACIONES Los sistemas PCM convencionales codifican cada muestra de una forma de onda independientemente de las otras muestras.88 . De esta forma un sistema PCM es capaz de codificar una forma de onda aleatoria cuyas máximas componentes de frecuencia no excedan la mitad de la tasa de muestreo.

Correlaciones muestra a muestra .Correlaciones ciclo a ciclo (periodicidad) . existen otros niveles de redundancia que pueden ser explotados para reducir las tasas de bits codificados: .Factores de inactividad .Distribuciones de amplitud no uniforme .Además de la correlación que existe entre las muestras adyacentes de una forma de onda de conversación.

los niveles de potencia de la conversación activa suelen estar en la parte baja del rango de codificación. Las muestras con bajos niveles de amplitud son más comunes que aquellas con niveles altos. La calidad promedio de una conversación PCM puede ser mejorada haciendo más cortos los intervalos cuantización de los niveles más bajos. Sin embargo. e incrementando los intervalos de cuantización de los niveles más altos.Distribuciones de amplitud no uniforme. . La mayoría de las muestras con bajo nivel ocurren como resultado de las pausas en una conversación.

La forma más simple de aprovechar la redundancia entre muestras en una conversación es codificar solamente las diferencias entre las muestras adyacentes.Las mejoras logradas con esta técnica son mínimas. Correlaciones muestra a muestra. . y en su mayor parte no justifican la complejidad adicional. La alta correlación entre muestras sucesivas indica que cualquier intento por reducir las tasas de transmisión deben aprovechar la correlación entre muestras adyacentes.

en cualquier instante de tiempo particular ciertos sonidos estarán compuestos por unas pocas frecuencias dentro de la banda.Las diferencias de medidas son acumuladas en el decodificador para recuperar la señal. Correlaciones ciclo a ciclo (periodicidad). Aunque una señal de conversación requiere el ancho de banda entero de 3003400Hz de un canal telefónico. En esencia estos sistemas codifican la pendiente o derivada de una señal en el origen y recuperan la señal integrando en el destino. .

Cuando unas pocas frecuencias fundamentales existan en un sonido. El ciclo natural de un sonido de voz se muestra en la figura . la forma de onda presentará una fuerte correlación entre numerosas muestras correspondientes a varios ciclos de una oscilación.

Factores de inactividad. Para una conexión full-duplex convencional esto significa una subutilización. El análisis de las conversaciones telefónicas indica que una conversación está típicamente activa durante el 40% de la duración de la llamada.Los codificadores que aprovechan la redundancia ciclo a ciclo en las conversaciones son más complicados que aquellos que solo remueven las redundancias en muestras adyacentes. La mayor inactividad ocurre como resultado de que una persona escucha mientras la otra habla. .

MODULACION POR CODIGO DE PULSOS DIFERENCIAL La Modulación por Código de Pulsos Diferencial (DPCM) está diseñada específicamente para sacar ventaja de la redundancia muestra a muestra en una forma de onda típica de conversación. . Ya que el rango de diferencias de muestra es menor que el rango de muestras individuales. se necesitan pocos bits para codificar las diferencias de las muestras. La tasa de muestreo es a menudo la misma en lo que respecta a un sistema PCM comparable.

Incluso se pueden lograr ahorros mayores agregando lógica de adaptación al algoritmo básico de PCM para crear lo que se llama PCM Diferencial Adaptativo (ADPCM) .PCM ADAPTATIVO DIFERENCIAL DPCM tiene una implementación relativamente sencilla y puede darnos un ahorro de 1 a 2 bits por muestra con respecto a la codificación estándar PCM.

. DM se puede considerar como un caso especial de DPCM usando solamente 1 bit por muestra de la diferencia de señal.MODULACION DELTA La Modulación Delta es otra técnica de digitalización que se aprovecha de la redundancia muestra a muestra en una forma de onda de conversación.

El bit especifica solamente la polaridad de la diferencia de la muestra y por lo tanto indica si la señal se incrementa o se decrementa respecto a la última muestra. .

ADPCM. . DM). La relación entre la potencia de la señal de entrada y la potencia de la diferencia de señal es lo que se llama ganancia de predicción. operan con tasas de datos más bajas que el sistema PCM debido a que codifican una diferencia de señal que tiene una potencia promedio más baja que la señal de entrada.CODIFICACION PREDICTIVA ADAPTATIVA Los sistemas diferenciales anteriores (DPCM. Los sistemas DPCM simples permiten alrededor de 5 dB de ganancia de predicción.

. se pueden obtener ganancias de predicción del orden de los 13 dB . Si los coeficientes son determinados a partir de la historia pasada y usados para predecir los segmentos de conversación subsecuentes.La Codificación Predictiva Adaptativa (APC) permite grandes niveles de ganancia de predicción adaptando los coeficientes de predicción a segmentos de conversación individuales.

Cada subbanda es codificada separadamente con APCM. Estos códigos son multiplexados y transmitidos al decodificador donde son demultiplexados. . PCM ó ADPCM. decodificados y combinados para reconstruir la señal de entrada.CODIFICACIÓN SUBBANDA Es un codificador que usa un análisis en el dominio de la frecuencia en lugar del dominio del tiempo como en los anteriores. Los codificadores dividen el espectro de entrada en subbandas mediante filtros.

.VOCODERS Los algoritmos anteriores pretenden reproducir la señal de entrada tan exactamente como sea posible. De allí su nombre de vocoders. Estos asumen poco o ningún conocimiento de la naturaleza de la señal que procesan y son aplicables a cualquier señal presente en un canal de voz. Los procedimientos de digitalización de los vocoders codifican específicamente señales de voz. por Voice Coders (codificadores de voz). Estas técnicas son diseñadas exclusivamente para señales de voz.

de la conversación.El objetivo básico de un vocoder es codificar solamente los aspectos más importantes. con menos bits que los codificadores de formas de onda generales. . perceptivamente.

FIN .

Sign up to vote on this title
UsefulNot useful