P. 1
1.3. Digitalizacion de La Voz

1.3. Digitalizacion de La Voz

|Views: 3.453|Likes:
Publicado porGustavo Rios

More info:

Published by: Gustavo Rios on Nov 29, 2010
Copyright:Attribution Non-commercial

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as PPTX, PDF, TXT or read online from Scribd
See more
See less

07/03/2013

pdf

text

original

El campo de la digitalización de la voz ha sido, y es todavía, un área de permanente desarrollo. Este desarrollo ha producido muchos tipos diferentes de algoritmos para digitalización de la voz. La escogencia de un tipo particular depende del costo de implementación y los requerimientos de desempeño necesarios en la aplicación. El algoritmo usados para sistemas T1 es el de PCM companded, el cual proporciona excelente calidad a una tasa moderada (64 Kbps) y con un costo moderado.

Las aplicaciones de transmisión con anchos de banda limitados, como los sistemas celulares digitales, requieren algoritmos de digitalización de la voz más sofisticados para lograr tasas del orden de 8 16 Kbps. Otras aplicaciones para la voz digitalizada son los sistemas de almacenamiento de la voz. El almacenamiento digital es particularmente apropiado para grabar anuncios, ya que el sonido pregrabado no se deteriora con el tiempo y además, los anuncios individuales, que son guardados en memorias o en CDs pueden ser accesados en forma aleatoria.

La grabación de conversaciones en memorias con capacidad limitada son ejemplo de una aplicación que puede usar algoritmos con tasas de digitalización muy bajas y con reducciones importantes de calidad La razón principal para que los sistemas de mensajes de voz usen almacenamiento digital es la de tener acceso aleatorio a los mensajes individualmente. Para minimizar el espacio de almacenamiento estos sistemas usan típicamente tasas de datos de 8 32 Kbps.

Las técnicas de digitalización de la voz pueden ser categorizadas en dos clases: las que codifican formas de onda análogas tan fielmente como sea posible y las que procesan formas de onda para codificar solamente los aspectos que son realmente importantes en los procesos de conversación y audición La primera categoría es representativa de los problemas generales de las conversiones A/D ó D/A y no esta restringida a la digitalización de las conversaciones.

Modulación por Código de Pulsos (PCM). PCM Diferencial (DPCM) y Modulación Delta (DM). La segunda categoría de digitalización de la conversación esta relacionada con producir codificadores y decodificadores de tasas de datos muy bajas para sistemas de transmisión de banda estrecha ó dispositivos de almacenamiento digital con capacidad limitada. .La tres técnicas más comunes usadas para codificar la voz son. Excepto en casos especiales los equipos telefónicos son diseñados para reproducir una forma de onda análoga usando una de estas técnicas.

Un dispositivo con esta clase de técnica especial es llamado un vocoder (voice coder. Estas técnica representan una tercera clase de algoritmos de digitalización de la voz. 8 Kbps) con calidades naturales de la conversación. La mayor parte de los esfuerzos en este campo se han dedicado a desarrollar vocoders con tasas medias (ej. codificador de voz). Estos codificadores se implementan como una combinación de las técnicas de bajas tasas de bits y los codificadores de formas de onda. . principalmente para aplicaciones de celulares digitales.

MODULACION DE AMPLITUD DE PULSO El primer paso en la digitalización de una forma de onda análoga es establecer un conjunto de tiempos discretos en los cuales se va a muestrear la señal de entrada. . Las técnicas de digitalización predominantes están basadas en el uso de muestras espaciadas en forma regular y periódica.

.Si tenemos un número suficiente de muestras la forma de onda original podrá ser recuperada completamente usando un filtro pasa-bajas para interpolar los valores intermedios de las muestras. La figura inferior muestra una forma de onda análoga muestreada a una frecuencia constante f s ! 1 / T y que luego es reconstruida mediante un filtro pasa bajas.

se definió por la relación: f s " (2)( BW ) Donde f s = frecuencia de muestreo BW = ancho de banda de la señal de entrada .TASA DE MUESTREO DE NYQUIST Harry Nyquist logró establecer en 1933 la frecuencia de muestreo mínima requerida para extraer toda la información de una forma de onda continua variante en el tiempo. Este resultado. llamado criterio de Nyquist.

.La representación espectral del muestreo se puede apreciar en la figura inferior. donde el muestreo se asemeja a la multiplicación de la señal por un tren de pulsos y la recuperación de la señal se logra mediante un filtro pasa bajas.

la forma de onda original no podrá ser recuperada sin distorsión.DISTORSION POR SUPERPOSICION Si la forma de onda de entrada de un sistema PAM esta submuestreada ( f s 2 BW ) . Esta distorsión se presenta porque las componentes de frecuencia generadas por el muestreo se superponen unas con otras haciendo imposible recuperar la forma original del espectro .

Otro término empleado para esto es aliasing . . la distorsión por superposición produce componentes de frecuencia. las cuales no existen en la forma de onda original. El aliasing no es un fenómeno exclusivo de la digitalización de la voz.En esencia. en la banda de frecuencias de interés.

De esta manera el proceso de cuantización introduce cierta cantidad de error de distorsión en las muestras de la señal. Todos los valores de muestras que estén en un intervalo de cuantización particular serán representados por un valor discreto localizado en el centro del intervalo de cuantización.MODULACION POR CODIGO DE PULSOS La Modulación por Código de Pulsos (PCM) es una extensión de PAM. en donde cada valor de la muestra análoga es cuantizada a un valor discreto para su representación en una palabra codificada digitalmente. .

.Este error conocido como error de cuantización es minimizado estableciendo un gran número de intervalos de cuantización.

RUIDO DE CUANTIZACIÓN Generalmente se asume que los errores de cuantización sucesivos de un codificador PCM están distribuidos en forma aleatoria y que no están correlacionados unos con otros Si la señal tiene tiempo suficiente para cambiar en amplitud por varios intervalos de cuantización. . los errores de cuantización serán independientes.

las muestras sucesivas probablemente caerán en el mismo intervalo. El error de cuantización. o distorsión. se expresa generalmente como una potencia promedio de ruido. creado por la digitalización de la señal análoga. causando perdida de independencia en los errores de cuantización. relacionada con la potencia promedio de la señal. .Si una señal es sobremuestrada (frecuencia mayor que la tasa de Nyquist).

se puede determinar como: E{x 2 (t )} E{[ y (t )  x(t )]2 } SQR Donde E{y} x(t ) y (t ) esperanza ó promedio señal de entrada análoga señal de salida decodificada .De esta forma la relación señal a ruido de cuantización (SQR).

. El error y (t )  x(t ) está limitado en amplitud a q / 2 . donde q es el peso del intervalo de cuantización. empleando una densidad de probabilidad uniforme de amplitud 1 / q . 2. El valor de una muestra tiene igual probabilidad de caer dentro de cualquier intervalo de cuantización.Hay tres observaciones respecto a la determinación del valor esperado del ruido de cuantización: 1.

se presentará una distorsión de sobrepeso. la potencia promedio del ruido de cuantización será: Potencia de ruido de cuatización ! 1 q 2 12 . Se asume que las amplitudes de la señal están limitadas al rango máximo del codificador. .3. Si el valor de una muestra excede el rango del intervalo de cuantización mas alto. Si asumimos por conveniencia una resistencia de 1. también llamada limitación de pico ó saturación.

el ruido de cuantización es independiente de los valores de las muestras y el SQR se determina como: ¨v¸ ¨ v2 ¸ SQR (db) ! 10 log10 © 2 © ¹ © q / 12 ¹ ! 10. .Si todos los intervalos de cuantización tienen igual longitud (cuantización uniforme).8  20 log10 © q ¹ ¹ ª º º ª Donde v es la amplitud rms de la entrada.

para una señal de entrada senoidal la SQR producida por cuantización uniforme es: ¨ A2 / 12 ¸ (db) ! 10 log10 © 2 © q / 12 ¹ ¹ º ª ¨ A¸ ! 7.78  20 log10 © ¹ ©q¹ ª º S Donde A es la amplitud pico de la onda senoidal. .En particular.

. La figura superior muestra que el ruido puede ser mayor que la señal cuando los valores de las muestras están en el primer intervalo de cuantización.RUIDO DE CANAL INACTIVO Las ecuaciones para determinar los valores de SQR muestran que este valor es pequeño para valores de muestra pequeños.

.Este efecto es particularmente molesto durante las pausas de las conversaciones y se conoce como ruido de canal inactivo. Un método para minimizar el ruido de canal inactivo en sistemas PCM consiste en establecer niveles de cuantización que estén montados sobre el origen.

En este caso todos los valores de las muestras que esten localizados en el intervalo central de cuantización son decodificados como una salida constante cero. ya que los rangos de codificación de señales positivas y negativas es igual. . Los sistemas PCM de este tipo usan un número impar de intervalos de cuantización.

El número de bits requerido para cada muestra se determina mediante la máxima potencia de ruido aceptable. genera palabras codificadas que guardan una relación lineal con los valores de las muestras análogas. De esta manera un sistema PCM uniforme usa un conversor análogo-digital convencional para generar los códigos de la muestra.CODIFICACION PCM UNIFORME Un codificador que utiliza intervalos de cuantización de igual longitud para todas las muestras. Esto quiere decir que el equivalente numérico de cada palabra codificada es proporcional al valor de la muestra cuantizada que este representa. .

Para que un sistema PCM uniforme logre esta SQR se necesita que ! 0.1 3 A. Además de proporcionar una calidad adecuada para las pequeñas señales. o cuatro bits por muestra. llamado rango dinámico. .La calidad mínima de voz digitalizada requiere una SQR de 26dB. un sistema telefónico debe ser capaz de transmitir un rango grande de amplitudes de señal. Para excursiones iguales de la señal tanto en rango positivo como negativo se necesitan 16 intervalos de cuantización.

el número total de intervalos es de 496.El rango dinámico (DR) es usualmente expresado en decibeles como la relación entre la máxima y la mínima amplitud de la señal: ¨ Pmax ¸ 0 log 0 © ©P ¹ ¹ ª min º ¨ Vmax ¸ 20 log10 © ©V ¹ ¹ ª min º DR Un rango dinámico típico es de 30dB. lo cual requiere palabras de 9 bits. . Si se asumen intervalos de cuantización igualmente espaciados.

76  6.El desempeño de un sistema PCM uniforme de n bits se determina observando que: 2 Amax ! 2n Donde Amax es la amplitud máxima. Sustituyendo el valor de q tenemos que: ¨ A ¸ SQR ! 1.02n  20 Log10© ©A ¹ ¹ ª max º .

Si los niveles de la señal tienen pocas excursiones a los valores más altos. Los valores más altos de la señal son codificados con los mismos intervalos de cuantización. sino que se incrementan con el valor de la muestra. . se desperdiciarían niveles de cuantización. Un proceso de codificación más eficiente se logra cuando los intervalos de cuantización no son uniformes.COMPANDING En un sistema PCM uniforme el tamaño de cada intervalo de cuantización está determinado por las condiciones del nivel más bajo de señal a ser codificada.

la SQR es constante para todos los niveles de la señal. El efecto de la operación de compresión se presenta en la siguiente diapositiva. Cuando los intervalos de cuantización no son uniformes se presenta una relación no lineal entre las palabras codificadas y las muestras que ellas representan. . Una función no lineal se presenta cuando la señal de entrada análoga es inicialmente comprimida y luego cuantizada con intervalos de cuantización uniforme.Cuando los intervalos de cuantización son directamente proporcionales al valor de las muestras.

Los valores de muestra más grandes serán comprimidos antes de la codificación.Se puede observar que los intervalos de la señal de entrada son comprimidos sucesivamente en intervalos de cuantización de longitud constante. .

.El proceso de comprimir primero una señal y luego expandirla es conocido como companding. Las dos familias de compresión más utilizadas son la ley .Q y la ley -A .

Los análisis de las formas de onda de conversación indican que hay una redundancia considerable de una muestra a la otra. De esta forma un sistema PCM es capaz de codificar una forma de onda aleatoria cuyas máximas componentes de frecuencia no excedan la mitad de la tasa de muestreo.88 . El coeficiente de correlación entre muestras adyacentes de 8KHz es generalmente de 0.REDUNDANCIAS EN LAS CONVERSACIONES Los sistemas PCM convencionales codifican cada muestra de una forma de onda independientemente de las otras muestras.

Correlaciones ciclo a ciclo (periodicidad) .Distribuciones de amplitud no uniforme . existen otros niveles de redundancia que pueden ser explotados para reducir las tasas de bits codificados: .Correlaciones muestra a muestra .Además de la correlación que existe entre las muestras adyacentes de una forma de onda de conversación.Factores de inactividad .

La mayoría de las muestras con bajo nivel ocurren como resultado de las pausas en una conversación. e incrementando los intervalos de cuantización de los niveles más altos. los niveles de potencia de la conversación activa suelen estar en la parte baja del rango de codificación. La calidad promedio de una conversación PCM puede ser mejorada haciendo más cortos los intervalos cuantización de los niveles más bajos.Distribuciones de amplitud no uniforme. Sin embargo. . Las muestras con bajos niveles de amplitud son más comunes que aquellas con niveles altos.

La forma más simple de aprovechar la redundancia entre muestras en una conversación es codificar solamente las diferencias entre las muestras adyacentes. Correlaciones muestra a muestra. . La alta correlación entre muestras sucesivas indica que cualquier intento por reducir las tasas de transmisión deben aprovechar la correlación entre muestras adyacentes. y en su mayor parte no justifican la complejidad adicional.Las mejoras logradas con esta técnica son mínimas.

Correlaciones ciclo a ciclo (periodicidad). En esencia estos sistemas codifican la pendiente o derivada de una señal en el origen y recuperan la señal integrando en el destino. en cualquier instante de tiempo particular ciertos sonidos estarán compuestos por unas pocas frecuencias dentro de la banda.Las diferencias de medidas son acumuladas en el decodificador para recuperar la señal. . Aunque una señal de conversación requiere el ancho de banda entero de 3003400Hz de un canal telefónico.

El ciclo natural de un sonido de voz se muestra en la figura .Cuando unas pocas frecuencias fundamentales existan en un sonido. la forma de onda presentará una fuerte correlación entre numerosas muestras correspondientes a varios ciclos de una oscilación.

Factores de inactividad. Para una conexión full-duplex convencional esto significa una subutilización.Los codificadores que aprovechan la redundancia ciclo a ciclo en las conversaciones son más complicados que aquellos que solo remueven las redundancias en muestras adyacentes. El análisis de las conversaciones telefónicas indica que una conversación está típicamente activa durante el 40% de la duración de la llamada. La mayor inactividad ocurre como resultado de que una persona escucha mientras la otra habla. .

. se necesitan pocos bits para codificar las diferencias de las muestras. Ya que el rango de diferencias de muestra es menor que el rango de muestras individuales.MODULACION POR CODIGO DE PULSOS DIFERENCIAL La Modulación por Código de Pulsos Diferencial (DPCM) está diseñada específicamente para sacar ventaja de la redundancia muestra a muestra en una forma de onda típica de conversación. La tasa de muestreo es a menudo la misma en lo que respecta a un sistema PCM comparable.

PCM ADAPTATIVO DIFERENCIAL DPCM tiene una implementación relativamente sencilla y puede darnos un ahorro de 1 a 2 bits por muestra con respecto a la codificación estándar PCM. Incluso se pueden lograr ahorros mayores agregando lógica de adaptación al algoritmo básico de PCM para crear lo que se llama PCM Diferencial Adaptativo (ADPCM) .

DM se puede considerar como un caso especial de DPCM usando solamente 1 bit por muestra de la diferencia de señal.MODULACION DELTA La Modulación Delta es otra técnica de digitalización que se aprovecha de la redundancia muestra a muestra en una forma de onda de conversación. .

El bit especifica solamente la polaridad de la diferencia de la muestra y por lo tanto indica si la señal se incrementa o se decrementa respecto a la última muestra. .

La relación entre la potencia de la señal de entrada y la potencia de la diferencia de señal es lo que se llama ganancia de predicción. ADPCM. Los sistemas DPCM simples permiten alrededor de 5 dB de ganancia de predicción. operan con tasas de datos más bajas que el sistema PCM debido a que codifican una diferencia de señal que tiene una potencia promedio más baja que la señal de entrada. .CODIFICACION PREDICTIVA ADAPTATIVA Los sistemas diferenciales anteriores (DPCM. DM).

La Codificación Predictiva Adaptativa (APC) permite grandes niveles de ganancia de predicción adaptando los coeficientes de predicción a segmentos de conversación individuales. Si los coeficientes son determinados a partir de la historia pasada y usados para predecir los segmentos de conversación subsecuentes. . se pueden obtener ganancias de predicción del orden de los 13 dB .

Los codificadores dividen el espectro de entrada en subbandas mediante filtros. decodificados y combinados para reconstruir la señal de entrada. . PCM ó ADPCM. Cada subbanda es codificada separadamente con APCM. Estos códigos son multiplexados y transmitidos al decodificador donde son demultiplexados.CODIFICACIÓN SUBBANDA Es un codificador que usa un análisis en el dominio de la frecuencia en lugar del dominio del tiempo como en los anteriores.

VOCODERS Los algoritmos anteriores pretenden reproducir la señal de entrada tan exactamente como sea posible. Estas técnicas son diseñadas exclusivamente para señales de voz. Los procedimientos de digitalización de los vocoders codifican específicamente señales de voz. . Estos asumen poco o ningún conocimiento de la naturaleza de la señal que procesan y son aplicables a cualquier señal presente en un canal de voz. De allí su nombre de vocoders. por Voice Coders (codificadores de voz).

El objetivo básico de un vocoder es codificar solamente los aspectos más importantes. perceptivamente. de la conversación. . con menos bits que los codificadores de formas de onda generales.

FIN .

You're Reading a Free Preview

Descarga
scribd
/*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->