Documentos de Académico
Documentos de Profesional
Documentos de Cultura
1 - Transmisiones de Voz
1 - Transmisiones de Voz
Esto nos hace suponer que un micrófono debe ser capaz de capturar y transmitir todo este
rango de frecuencias. Sin embargo, en la actualidad sabemos que para transmitir voz
“entendible” no es necesario transmitir todas las frecuencias sino un rango mucho menor y
transmitir un rango menor de frecuencias tiene sus ventajas pues facilita la transmisión
como veremos más adelante. Por lo tanto los teléfonos comerciales solo transmiten un
rango aproximado de 400Hz a 4kHz. Esto distorsiona un poquito la voz pero de todas
maneras se puede entender. Es por eso que cuando oímos a alguien por teléfono su voz
suena ligeramente diferente que en la vida real pero aun así podemos entender la
conversación.
Digitalizacion de la voz
Digitalizacion es: Acción de convertir en digital información analógica. En otras palabras,
es convertir cualquier señal de entrada continua (analógica) en una serie de valores
numéricos.
La información digital es la única información que puede procesar una computadora,
generalmente en el sistema binario, es decir unos (1) y ceros (0).
Mientras que la telefonía tradicional utiliza la voz mediante señales analógicas, la telefonía
IP requiere tenerla codificada en formato digital, es decir en 0’s y 1’s, puesto que es el
único lenguaje interpretado por el computador. A este proceso de conversión se le denomina
digitalización de voz.
La señal digital, es la codificación de la señal sonora en términos discretos (por lo general
en dos estados 1, y 0). El principal problema de la señal digital, es que nuestro oído es
analógico con lo que por un lado necesitamos una conversión analógica digital y
posteriormente una conversión digital analógica (para que nuestro oído sea capaz de
percibirla). A este conjunto de procesos se le suele llamar DSP (Digital Signal Procesing).
En el paso del analógico al digital (ADC) existen dos procesos el muestreo (número de
muestras que cogemos de la señal analógica, a mas muestras, mejor representación de la
señal) y la codificación (el valor que le vamos a dar a todas esas muestras, a mayor número
de bits mayor parecido con la señal analógica. Posteriormente aparece el DAC (paso de la
señal digital a la analógica), para que nuestro oído sea capaz de escucharlo.
Teorema de Nyquist
Según el teorema de muestreo de Nyquist-Shannon, para poder replicar con exactitud (es
decir, siendo matemáticamente reversible en su totalidad) la forma de una onda es necesario
que la frecuencia de muestreo sea superior al doble de la máxima frecuencia a muestrear.
Es un error frecuente y extendido creer que una misma señal muestreada con una tasa
elevada se reconstruye mejor que una muestreada con una tasa inferior. Esto es falso
(siempre que la tasas empleadas cumplan el criterio de Nyquist, naturalmente). El proceso
de muestreo (que no debe ser confundido con el de cuantificación) es, desde el punto de
vista matemático perfectamente reversible, esto es, su reconstrucción es exacta, no
aproximada. Dicho de otro modo, desde el punto de vista matemático al que se refiere el
teorema de muestreo de Nyquist-Shannon, la reconstrucción de una señal de 10 kHz es
idéntica tanto si se obtiene de una tasa de muestreo de 25000 muestras por segundo como
de una de 50000 muestras por segundo. No aporta nada incrementar la tasa de muestreo
una vez que ésta cumple el criterio de Nyquist. También son errores frecuentes y
extendidos, relacionados con lo expuesto en este párrafo, creer que los puntos que resultan
del proceso de muestreo se unen en la reconstrucción mediante rectas formando dientes de
sierra o que existe un proceso de cálculo que realiza la interpolación de manera simulada.
En resumen, el teorema de muestreo demuestra que toda la información de una señal
contenida en el intervalo temporal entre dos muestras cualesquiera está descrita por la serie
total de muestras siempre que la señal registrada sea de naturaleza periódica (como lo es el
sonido) y no tenga componentes de frecuencia igual o superior a la mitad de la tasa de
muestreo; no es necesario inventar la evolución de la señal entre muestras.
En la práctica y dado que no existen los filtros analógicos pasa-bajo ideales, se debe dejar
un margen entre la frecuencia máxima que se desea registrar y la frecuencia de Nyquist
(frecuencia crítica) que resulta de la tasa de muestreo elegida (por ejemplo, para CD-Audio
la frecuencia máxima de los componentes a registrar y reproducir es de 20 kHz y la
frecuencia crítica de la tasa de 44100 muestras por segundo empleada es de 22,05 kHz; un
margen del 10% aproximadamente para esta aplicación). Pero este margen es una necesidad
que resulta de las limitaciones físicas de un filtro de reconstrucción (o filtro antialiasing)
real, y no una consideración que contemple (o deba contemplar) el teorema. Con frecuencia
en los conversores modernos de CD-Audio, para la reconstrucción de una señal se emplean
técnicas de sobremuestreo con objeto de aumentar este margen y permitir el uso de filtros
de fase lineal (retardo de grupo nulo) en la banda pasante y, en general, más sencillos y
económicos con pendientes de atenuación más suaves.
Los nuevos formatos de audio que recientemente han aparecido (aunque con escaso éxito
comercial) que emplean PCM sin pérdida por compresión con tasas de muestreo más altas a
las empleadas en el CD-Audio, (DVD-Audio, por ejemplo) para registrar y reproducir
señales de idéntico ancho de banda se justifican porque permiten el empleo de filtros de
reconstrucción más benignos, sencillos y económicos sacrificando un recurso cada vez más
económico y de menor trascendencia (la capacidad de almacenamiento, un recurso crítico
en el pasado) y porque, además, satisfacen simultáneamente las expectativas de un mercado
como el audiófilo, caracterizado por dogmas entre los que se encuentra muy extendida la
falsa creencia de que esto representa una mejora en la calidad de la señal reconstruida (en
particular, de sus componentes de alta frecuencia). Este error es sólo una consecuencia de
una clara incomprensión de las consecuencias del teorema de muestreo y de establecer
comparaciones falaces como, por ejemplo, con la digitalización de imágenes (donde no se
realiza una reconstrucción de una señal periódica), etc.
La alta tasa de muestreo de otro formato de audio de reciente aparición, el SACD o Super
Audio CD, es una consecuencia del uso de una tecnología denominada modulación Sigma-
Delta (Direct Stream Digital). Si bien la tasa de muestreo es 64 veces la del CD-Audio, es
necesario tener presente que se trata de una cuantificación de 1 bit (en lugar de los 16
empleados en el CD-Audio) y basado en técnicas de Noise Shaping (modelado de ruido).
No es posible, por tanto, establecer comparaciones superficiales con el PCM de CD-Audio,
ya que en este caso la relación señal-ruido no es constante respecto de la frecuencia (en
CD-Audio el ruido de cuantificación es independiente de la frecuencia y sólo depende de
los intervalos de amplitud empleados en el proceso de cuantificación, es decir, de unos
98,09 dB constantes para los 16 bits de este estándar CD-Audio en todo el espectro útil).
Un SACD puede registrar y reproducir señales con componentes de hasta 33 kHz con una
relación señal-ruido equivalente al de un CD-Audio (aunque 33 kHz está casi una octava
por encima del máximo audible y, por tanto, una ventaja sobre el CD-Audio de dudosa
utilidad) y mantener una relación señal-ruido de aproximadamente 122 dB para el espectro
audible (un potencial, el equivalente aproximado a 20 bits, también de dudosa utilidad
práctica como formato final de usuario). Entre las ventajas objetivas de estos formatos
recientes (DVD-Audio y SACD) se encuentra el potencial multicanal (registro de más de
dos canales) y la capacidad para el empleo de técnicas de protección de copia (algo de
extraordinario interés para las compañías discográficas). Ninguna prueba doble-ciego
realizada en condiciones controladas ha probado que existan diferencias audibles entre
estos formatos denominados de “alta resolución”.
Conversión analógica-digital
La conversión analógica-digital (CAD) consiste en la transcripción de señales analógicas
en señales digitales, con el propósito de facilitar su procesamiento (codificación,
compresión, etc.) y hacer la señal resultante (la digital) más inmune al ruido y otras
interferencias a las que son más sensibles las señales analógicas.
Digitalización y
Compresión
La digitalización es una tecnología que se ha
desarrollado con éxito para la transmisión de
voz y video. La telefonía fija y la celular
manejan esta tecnología pero cada uno tiene
sus propios codificadores. Como sabemos la
mejor calidad de audio la tiene todavía la
comunicación telefónica, la celular es buena pero como todos hemos notado nuestro
cerebro necesita hacer un mayor esfuerzo para entender una conversación por un teléfono
celular, de ahí que no se debe conducir y hablar por el celular a la vez. Las centrales IP
utilizan codificadores diferentes para poder transmitir por la web, ya que estos deben de
utilizar el menor ancho de banda posible. Como sabemos el primer paso para cada conexión
de VoIP es la digitalización, convirtiendo las señales analógicas en paquetes digitales. Esto
se puede hacer en varias maneras; La forma más fácil es tomar un muestreo de frecuencias
con una proporción fija que sea lo suficientemente alta para captar todas las frecuencias
necesarias, luego dividimos la fuerza de la señal en varios niveles. Por ejemplo, 8000 Hz y
256 niveles de muestreo es una configuración fija muy común. De esta manera, la señal se
escaneada y digitaliza por medio de un convertidor de analógico a digital o ADC la cual
muestrea la data en la frecuencia fija con una profundidad de 8 bits. Los datos son enviados
sin comprimir, la otra parte los decodifica con un convertidor de digital a analógico o DAC.
La combinación de 8 kilohercios y la profundidad de muestreo de 8 bits es buena para
sustituir a las conversaciones normales de telefonía. Las comunicaciones en telefonía se
llevan a cabo en frecuencias entre aprox. 500 Hz y 3.500 Hz a 256 niveles diferentes por lo
cual es suficiente para proporcionar una buena calidad. Pero, la calidad tiene un precio en
VoIP. El muestreo de datos sin comprimir a esta proporción genera un flujo continuo de
datos de 8 kbytes/seg. Esto no es gran cosa para los anchos de banda de países
desarrollados, pero puede ser demasiado para conexiones de Internet más lentas, o peor aún
a través de una conexión de internet móvil. Por lo tanto se han hecho varios intentos de
reducir el número de kilobytes por segundo necesarios para lograr una calidad de voz
aceptable. Esto puede en principio, lograrse de varias maneras. Usted puede reducir la
frecuencia de muestreo un poco, pero esto tiene un efecto negativo debido a que las
frecuencias más altas se filtran. De acuerdo con el Teorema de muestreo de Nyquist-
Shannon, que se remonta a 1928, mucho antes de que hubiera VoIP o incluso en Internet, no
es posible digitalizar las señales en una frecuencia de muestreo inferior a 2 veces la
frecuencia más alta en el espectro. La reducción de la tasa de muestreo de 4000 Hz, por
ejemplo, reduciría el máximo permitido de frecuencia en la señal analógica a 2000 Hz, que
es muy por debajo de las frecuencias que son comunes en el habla, de mujeres y niños. Por
lo tanto la reducción de la frecuencia de muestreo puede ayudar un poco en la reducción de
la asignación de ancho de banda de la aplicación de VoIP, pero en una pequeña proporción.
Otro enfoque es, por tanto, reducir el número de bits necesarios para almacenar una muestra
de datos. Como se mencionó anteriormente, 8 bits de codificación dará una calidad
razonablemente alta para una señal en una conversación. La reducción del número a 4
reduciría el ancho de banda utilizado en un 50%. Lamentablemente, esta reducción también
tiene un precio. Con 8 bits, hay 256 niveles de señal posible. La decodificación de la señal
nuevamente a analógica origina una leve señal donde el paso de un nivel a otro es menor
del 0,5% del valor de la señal de pico a pico. A pesar de ser una distorsión del 0,5% puede
ser audible, el discurso seguirá siendo comprensible y la mayoría de las personas que no
son meticulosas no lo detectaran.
Con una profundidad de 4 bits, la codificación de la señal sólo tendrá 16 niveles diferentes
disponibles. Esto no es mucho. Cada paso en la conversión de digital a analógica será de un
7%, que es linealmente dividido entre el máximo pico de intensidad de señal posible.
Imaginen que alguien está hablando en voz baja en su teléfono donde su fuerza de señal no
será más del 25% del pico, en este caso la codificación digital es casi binaria, generando un
sonido enlatado del lado para el receptor. La reducción de la profundidad de muestreo con
un 50%, de 8-4 bits da una degradación de la calidad de un factor de 16. Esto tampoco es lo
que queremos.
Una solución para combatir el problema de la mala calidad de voz con un volumen bajo de
señal es no dividir el gráfico de intensidad de la señal en 16 niveles de igualdad, sino tener
más niveles en torno a la línea cero y menos cerca de los niveles de volumen máximo. Un
enfoque común consiste en utilizar una escala logarítmica en lugar de una escala lineal. Las
escalas logarítmicas no son extrañas en esta aplicación, ya que nuestros oídos raramente
escuchan diferencias de volumen en una escala logarítmica. Diez veces más volumen en
términos de energía se escuchan como cerca de dos veces más alto para el oído humano.
Otra solución es usar algoritmos de adaptación que dividen la señal linealmente, pero no
entre los valores máximos posibles de la señal de pico a pico, sino entre los valores reales
de la señal. Si alguien está hablando a un volumen bajo, estos algoritmos de forma
automática aumentar la señal y el error de cuantificación de la señal nunca es mucho más
de 7% a 4 bits de profundidad de muestreo. A veces se puede escuchar este tipo de
acondicionamiento de señales en las líneas con ruido, donde los niveles de ruido aumenta
en medio de palabras o frases. Esto es porque el algoritmo de muestreo amplificar las
señales de bajo volumen, incluso si no hay presencia de señal real. La amplificación del
ruido en la línea se escuchara en el extremo del receptor.
Ahora la mejor manera de reducir las necesidades de ancho de banda para una aplicación de
VoIP esta en el uso de un protocolo propietario de baja pérdida de compresión (low-loss).
Todos sabemos que es una compresión ya que lo vemos en nuestros PCs. Las aplicaciones
como ZIP reducen el tamaño de los archivos mediante el análisis de patrones de bits y el
cálculo de patrones de bits alternativos y tablas de conversión que ocupan menos espacio
que el archivo original, estas técnicas de compresión que se utiliza en la compresión ZIP se
llaman (no-loss) no-pérdida, ya que es posible extraer los archivos originales de la versión
comprimida sin pérdida de información. Otras técnicas son de baja pérdida y aceptan
algunas pérdidas de información en el aumento de la compresión. La compresion low-loss
de baja pérdida se utiliza a menudo en la compresión de imágenes como la del formato
JPG. La versión sin comprimir se parece a la original, pero en estrecha observación pueden
ver los artefactos causados por el algoritmo de compresión. Este tipo de algoritmo funciona
mejor si se desarrolla con conocimiento de los datos a comprimir. Han desarrollado
algoritmos de compresión específicos para la compresión de voz que cuentan con baja
pérdida combinada con una asignación de ancho de banda muy reducido. La compresión en
los teléfonos móviles es un ejemplo de ello.