El campo de la digitalización de la voz ha sido, y es todavía, un área de permanente desarrollo. Este desarrollo ha producido muchos tipos diferentes de algoritmos para digitalización de la voz. La escogencia de un tipo particular depende del costo de implementación y los requerimientos de desempeño necesarios en la aplicación. El algoritmo usados para sistemas T1 es el de PCM companded, el cual proporciona excelente calidad a una tasa moderada (64 Kbps) y con un costo moderado.

Las aplicaciones de transmisión con anchos de banda limitados, como los sistemas celulares digitales, requieren algoritmos de digitalización de la voz más sofisticados para lograr tasas del orden de 8 16 Kbps. Otras aplicaciones para la voz digitalizada son los sistemas de almacenamiento de la voz. El almacenamiento digital es particularmente apropiado para grabar anuncios, ya que el sonido pregrabado no se deteriora con el tiempo y además, los anuncios individuales, que son guardados en memorias o en CDs pueden ser accesados en forma aleatoria.

La grabación de conversaciones en memorias con capacidad limitada son ejemplo de una aplicación que puede usar algoritmos con tasas de digitalización muy bajas y con reducciones importantes de calidad La razón principal para que los sistemas de mensajes de voz usen almacenamiento digital es la de tener acceso aleatorio a los mensajes individualmente. Para minimizar el espacio de almacenamiento estos sistemas usan típicamente tasas de datos de 8 32 Kbps.

Las técnicas de digitalización de la voz pueden ser categorizadas en dos clases: las que codifican formas de onda análogas tan fielmente como sea posible y las que procesan formas de onda para codificar solamente los aspectos que son realmente importantes en los procesos de conversación y audición La primera categoría es representativa de los problemas generales de las conversiones A/D ó D/A y no esta restringida a la digitalización de las conversaciones.

PCM Diferencial (DPCM) y Modulación Delta (DM). . Modulación por Código de Pulsos (PCM). La segunda categoría de digitalización de la conversación esta relacionada con producir codificadores y decodificadores de tasas de datos muy bajas para sistemas de transmisión de banda estrecha ó dispositivos de almacenamiento digital con capacidad limitada.La tres técnicas más comunes usadas para codificar la voz son. Excepto en casos especiales los equipos telefónicos son diseñados para reproducir una forma de onda análoga usando una de estas técnicas.

Estos codificadores se implementan como una combinación de las técnicas de bajas tasas de bits y los codificadores de formas de onda. principalmente para aplicaciones de celulares digitales. codificador de voz).Un dispositivo con esta clase de técnica especial es llamado un vocoder (voice coder. . 8 Kbps) con calidades naturales de la conversación. Estas técnica representan una tercera clase de algoritmos de digitalización de la voz. La mayor parte de los esfuerzos en este campo se han dedicado a desarrollar vocoders con tasas medias (ej.

MODULACION DE AMPLITUD DE PULSO El primer paso en la digitalización de una forma de onda análoga es establecer un conjunto de tiempos discretos en los cuales se va a muestrear la señal de entrada. . Las técnicas de digitalización predominantes están basadas en el uso de muestras espaciadas en forma regular y periódica.

La figura inferior muestra una forma de onda análoga muestreada a una frecuencia constante f s ! 1 / T y que luego es reconstruida mediante un filtro pasa bajas. .Si tenemos un número suficiente de muestras la forma de onda original podrá ser recuperada completamente usando un filtro pasa-bajas para interpolar los valores intermedios de las muestras.

Este resultado.TASA DE MUESTREO DE NYQUIST Harry Nyquist logró establecer en 1933 la frecuencia de muestreo mínima requerida para extraer toda la información de una forma de onda continua variante en el tiempo. se definió por la relación: f s " (2)( BW ) Donde f s = frecuencia de muestreo BW = ancho de banda de la señal de entrada . llamado criterio de Nyquist.

La representación espectral del muestreo se puede apreciar en la figura inferior. donde el muestreo se asemeja a la multiplicación de la señal por un tren de pulsos y la recuperación de la señal se logra mediante un filtro pasa bajas. .

DISTORSION POR SUPERPOSICION Si la forma de onda de entrada de un sistema PAM esta submuestreada ( f s 2 BW ) . Esta distorsión se presenta porque las componentes de frecuencia generadas por el muestreo se superponen unas con otras haciendo imposible recuperar la forma original del espectro . la forma de onda original no podrá ser recuperada sin distorsión.

la distorsión por superposición produce componentes de frecuencia. El aliasing no es un fenómeno exclusivo de la digitalización de la voz.En esencia. . en la banda de frecuencias de interés. Otro término empleado para esto es aliasing . las cuales no existen en la forma de onda original.

MODULACION POR CODIGO DE PULSOS La Modulación por Código de Pulsos (PCM) es una extensión de PAM. . en donde cada valor de la muestra análoga es cuantizada a un valor discreto para su representación en una palabra codificada digitalmente. De esta manera el proceso de cuantización introduce cierta cantidad de error de distorsión en las muestras de la señal. Todos los valores de muestras que estén en un intervalo de cuantización particular serán representados por un valor discreto localizado en el centro del intervalo de cuantización.

Este error conocido como error de cuantización es minimizado estableciendo un gran número de intervalos de cuantización. .

RUIDO DE CUANTIZACIÓN Generalmente se asume que los errores de cuantización sucesivos de un codificador PCM están distribuidos en forma aleatoria y que no están correlacionados unos con otros Si la señal tiene tiempo suficiente para cambiar en amplitud por varios intervalos de cuantización. los errores de cuantización serán independientes. .

El error de cuantización. o distorsión. las muestras sucesivas probablemente caerán en el mismo intervalo. creado por la digitalización de la señal análoga.Si una señal es sobremuestrada (frecuencia mayor que la tasa de Nyquist). . causando perdida de independencia en los errores de cuantización. se expresa generalmente como una potencia promedio de ruido. relacionada con la potencia promedio de la señal.

se puede determinar como: E{x 2 (t )} E{[ y (t )  x(t )]2 } SQR Donde E{y} x(t ) y (t ) esperanza ó promedio señal de entrada análoga señal de salida decodificada .De esta forma la relación señal a ruido de cuantización (SQR).

El error y (t )  x(t ) está limitado en amplitud a q / 2 . donde q es el peso del intervalo de cuantización. empleando una densidad de probabilidad uniforme de amplitud 1 / q . El valor de una muestra tiene igual probabilidad de caer dentro de cualquier intervalo de cuantización. 2.Hay tres observaciones respecto a la determinación del valor esperado del ruido de cuantización: 1. .

3. . la potencia promedio del ruido de cuantización será: Potencia de ruido de cuatización ! 1 q 2 12 . Si el valor de una muestra excede el rango del intervalo de cuantización mas alto. se presentará una distorsión de sobrepeso. también llamada limitación de pico ó saturación. Se asume que las amplitudes de la señal están limitadas al rango máximo del codificador. Si asumimos por conveniencia una resistencia de 1.

8  20 log10 © q ¹ ¹ ª º º ª Donde v es la amplitud rms de la entrada. .Si todos los intervalos de cuantización tienen igual longitud (cuantización uniforme). el ruido de cuantización es independiente de los valores de las muestras y el SQR se determina como: ¨v¸ ¨ v2 ¸ SQR (db) ! 10 log10 © 2 © ¹ © q / 12 ¹ ! 10.

para una señal de entrada senoidal la SQR producida por cuantización uniforme es: ¨ A2 / 12 ¸ (db) ! 10 log10 © 2 © q / 12 ¹ ¹ º ª ¨ A¸ ! 7.78  20 log10 © ¹ ©q¹ ª º S Donde A es la amplitud pico de la onda senoidal. .En particular.

.RUIDO DE CANAL INACTIVO Las ecuaciones para determinar los valores de SQR muestran que este valor es pequeño para valores de muestra pequeños. La figura superior muestra que el ruido puede ser mayor que la señal cuando los valores de las muestras están en el primer intervalo de cuantización.

Este efecto es particularmente molesto durante las pausas de las conversaciones y se conoce como ruido de canal inactivo. . Un método para minimizar el ruido de canal inactivo en sistemas PCM consiste en establecer niveles de cuantización que estén montados sobre el origen.

Los sistemas PCM de este tipo usan un número impar de intervalos de cuantización. ya que los rangos de codificación de señales positivas y negativas es igual.En este caso todos los valores de las muestras que esten localizados en el intervalo central de cuantización son decodificados como una salida constante cero. .

CODIFICACION PCM UNIFORME Un codificador que utiliza intervalos de cuantización de igual longitud para todas las muestras. El número de bits requerido para cada muestra se determina mediante la máxima potencia de ruido aceptable. genera palabras codificadas que guardan una relación lineal con los valores de las muestras análogas. Esto quiere decir que el equivalente numérico de cada palabra codificada es proporcional al valor de la muestra cuantizada que este representa. . De esta manera un sistema PCM uniforme usa un conversor análogo-digital convencional para generar los códigos de la muestra.

. un sistema telefónico debe ser capaz de transmitir un rango grande de amplitudes de señal. o cuatro bits por muestra.La calidad mínima de voz digitalizada requiere una SQR de 26dB.1 3 A. llamado rango dinámico. Para excursiones iguales de la señal tanto en rango positivo como negativo se necesitan 16 intervalos de cuantización. Además de proporcionar una calidad adecuada para las pequeñas señales. Para que un sistema PCM uniforme logre esta SQR se necesita que ! 0.

El rango dinámico (DR) es usualmente expresado en decibeles como la relación entre la máxima y la mínima amplitud de la señal: ¨ Pmax ¸ 0 log 0 © ©P ¹ ¹ ª min º ¨ Vmax ¸ 20 log10 © ©V ¹ ¹ ª min º DR Un rango dinámico típico es de 30dB. Si se asumen intervalos de cuantización igualmente espaciados. el número total de intervalos es de 496. lo cual requiere palabras de 9 bits. .

Sustituyendo el valor de q tenemos que: ¨ A ¸ SQR ! 1.02n  20 Log10© ©A ¹ ¹ ª max º .76  6.El desempeño de un sistema PCM uniforme de n bits se determina observando que: 2 Amax ! 2n Donde Amax es la amplitud máxima.

se desperdiciarían niveles de cuantización. Un proceso de codificación más eficiente se logra cuando los intervalos de cuantización no son uniformes. . sino que se incrementan con el valor de la muestra.COMPANDING En un sistema PCM uniforme el tamaño de cada intervalo de cuantización está determinado por las condiciones del nivel más bajo de señal a ser codificada. Si los niveles de la señal tienen pocas excursiones a los valores más altos. Los valores más altos de la señal son codificados con los mismos intervalos de cuantización.

Una función no lineal se presenta cuando la señal de entrada análoga es inicialmente comprimida y luego cuantizada con intervalos de cuantización uniforme.Cuando los intervalos de cuantización son directamente proporcionales al valor de las muestras. El efecto de la operación de compresión se presenta en la siguiente diapositiva. . la SQR es constante para todos los niveles de la señal. Cuando los intervalos de cuantización no son uniformes se presenta una relación no lineal entre las palabras codificadas y las muestras que ellas representan.

Los valores de muestra más grandes serán comprimidos antes de la codificación. .Se puede observar que los intervalos de la señal de entrada son comprimidos sucesivamente en intervalos de cuantización de longitud constante.

. Las dos familias de compresión más utilizadas son la ley .Q y la ley -A .El proceso de comprimir primero una señal y luego expandirla es conocido como companding.

Los análisis de las formas de onda de conversación indican que hay una redundancia considerable de una muestra a la otra.REDUNDANCIAS EN LAS CONVERSACIONES Los sistemas PCM convencionales codifican cada muestra de una forma de onda independientemente de las otras muestras. El coeficiente de correlación entre muestras adyacentes de 8KHz es generalmente de 0. De esta forma un sistema PCM es capaz de codificar una forma de onda aleatoria cuyas máximas componentes de frecuencia no excedan la mitad de la tasa de muestreo.88 .

Distribuciones de amplitud no uniforme . existen otros niveles de redundancia que pueden ser explotados para reducir las tasas de bits codificados: .Correlaciones ciclo a ciclo (periodicidad) .Factores de inactividad .Además de la correlación que existe entre las muestras adyacentes de una forma de onda de conversación.Correlaciones muestra a muestra .

e incrementando los intervalos de cuantización de los niveles más altos. Las muestras con bajos niveles de amplitud son más comunes que aquellas con niveles altos.Distribuciones de amplitud no uniforme. Sin embargo. La calidad promedio de una conversación PCM puede ser mejorada haciendo más cortos los intervalos cuantización de los niveles más bajos. los niveles de potencia de la conversación activa suelen estar en la parte baja del rango de codificación. La mayoría de las muestras con bajo nivel ocurren como resultado de las pausas en una conversación. .

Las mejoras logradas con esta técnica son mínimas. La alta correlación entre muestras sucesivas indica que cualquier intento por reducir las tasas de transmisión deben aprovechar la correlación entre muestras adyacentes. Correlaciones muestra a muestra. . La forma más simple de aprovechar la redundancia entre muestras en una conversación es codificar solamente las diferencias entre las muestras adyacentes. y en su mayor parte no justifican la complejidad adicional.

Aunque una señal de conversación requiere el ancho de banda entero de 3003400Hz de un canal telefónico. en cualquier instante de tiempo particular ciertos sonidos estarán compuestos por unas pocas frecuencias dentro de la banda. .Las diferencias de medidas son acumuladas en el decodificador para recuperar la señal. Correlaciones ciclo a ciclo (periodicidad). En esencia estos sistemas codifican la pendiente o derivada de una señal en el origen y recuperan la señal integrando en el destino.

Cuando unas pocas frecuencias fundamentales existan en un sonido. la forma de onda presentará una fuerte correlación entre numerosas muestras correspondientes a varios ciclos de una oscilación. El ciclo natural de un sonido de voz se muestra en la figura .

La mayor inactividad ocurre como resultado de que una persona escucha mientras la otra habla.Los codificadores que aprovechan la redundancia ciclo a ciclo en las conversaciones son más complicados que aquellos que solo remueven las redundancias en muestras adyacentes. El análisis de las conversaciones telefónicas indica que una conversación está típicamente activa durante el 40% de la duración de la llamada. Factores de inactividad. . Para una conexión full-duplex convencional esto significa una subutilización.

La tasa de muestreo es a menudo la misma en lo que respecta a un sistema PCM comparable. . se necesitan pocos bits para codificar las diferencias de las muestras.MODULACION POR CODIGO DE PULSOS DIFERENCIAL La Modulación por Código de Pulsos Diferencial (DPCM) está diseñada específicamente para sacar ventaja de la redundancia muestra a muestra en una forma de onda típica de conversación. Ya que el rango de diferencias de muestra es menor que el rango de muestras individuales.

Incluso se pueden lograr ahorros mayores agregando lógica de adaptación al algoritmo básico de PCM para crear lo que se llama PCM Diferencial Adaptativo (ADPCM) .PCM ADAPTATIVO DIFERENCIAL DPCM tiene una implementación relativamente sencilla y puede darnos un ahorro de 1 a 2 bits por muestra con respecto a la codificación estándar PCM.

DM se puede considerar como un caso especial de DPCM usando solamente 1 bit por muestra de la diferencia de señal.MODULACION DELTA La Modulación Delta es otra técnica de digitalización que se aprovecha de la redundancia muestra a muestra en una forma de onda de conversación. .

.El bit especifica solamente la polaridad de la diferencia de la muestra y por lo tanto indica si la señal se incrementa o se decrementa respecto a la última muestra.

Los sistemas DPCM simples permiten alrededor de 5 dB de ganancia de predicción. La relación entre la potencia de la señal de entrada y la potencia de la diferencia de señal es lo que se llama ganancia de predicción. DM). ADPCM. operan con tasas de datos más bajas que el sistema PCM debido a que codifican una diferencia de señal que tiene una potencia promedio más baja que la señal de entrada.CODIFICACION PREDICTIVA ADAPTATIVA Los sistemas diferenciales anteriores (DPCM. .

La Codificación Predictiva Adaptativa (APC) permite grandes niveles de ganancia de predicción adaptando los coeficientes de predicción a segmentos de conversación individuales. Si los coeficientes son determinados a partir de la historia pasada y usados para predecir los segmentos de conversación subsecuentes. . se pueden obtener ganancias de predicción del orden de los 13 dB .

PCM ó ADPCM. Estos códigos son multiplexados y transmitidos al decodificador donde son demultiplexados. Cada subbanda es codificada separadamente con APCM. decodificados y combinados para reconstruir la señal de entrada.CODIFICACIÓN SUBBANDA Es un codificador que usa un análisis en el dominio de la frecuencia en lugar del dominio del tiempo como en los anteriores. Los codificadores dividen el espectro de entrada en subbandas mediante filtros. .

VOCODERS Los algoritmos anteriores pretenden reproducir la señal de entrada tan exactamente como sea posible. por Voice Coders (codificadores de voz). Estas técnicas son diseñadas exclusivamente para señales de voz. De allí su nombre de vocoders. Estos asumen poco o ningún conocimiento de la naturaleza de la señal que procesan y son aplicables a cualquier señal presente en un canal de voz. . Los procedimientos de digitalización de los vocoders codifican específicamente señales de voz.

. de la conversación. con menos bits que los codificadores de formas de onda generales.El objetivo básico de un vocoder es codificar solamente los aspectos más importantes. perceptivamente.

FIN .

Sign up to vote on this title
UsefulNot useful