Está en la página 1de 16

DIGITALIZACIN

DE LA VOZ
CODEC
ANTONIO
DIGITALIZACIN DE LA VOZ
2

NDICE
1. INTRODUCCIN ......................................................................................................................................... 3
2. LA NATURALEZA DEL HABLA .............................................................................................................. 3
3. MEDICIN DE LA CALIDAD DE VOZ ................................................................................................... 4
3.1 Mtodo subjetivo MOS ........................................................................................................................... 4
3.2 Mtodos objetivos .................................................................................................................................... 4
4. RETOS DE LA TRANSMISIN DE VOZ, QoS en las redes de VoIP. ................................................... 5
4.1 Disponibilidad .......................................................................................................................................... 5
4.2 Jitter .......................................................................................................................................................... 6
4.3 Prdida de paquetes ................................................................................................................................ 6
4.4 Retardo ..................................................................................................................................................... 7
4.5 Eco ............................................................................................................................................................. 8
4.6 Ancho de banda ....................................................................................................................................... 9
5. TCNICAS DE CODIFICACIN .............................................................................................................. 9
5.1 Codec de forma de onda ........................................................................................................................ 11
5.1.1 Muestro .......................................................................................................................................... 11
5.1.2 Cuantificacin uniforme ................................................................................................................ 11
5.1.3 Cuantificacin no uniforme ........................................................................................................... 12
5.1.4 Cuantificacin diferencial .............................................................................................................. 13
5.1.5 Cuantificacin diferencial delta y ADPCM (Adaptative delta PCM) ........................................ 13
5.2 Vocoder ................................................................................................................................................... 13
5.3 Codificacin hbrida .............................................................................................................................. 15
6 CONCLUSIONES ........................................................................................................................................ 15


DIGITALIZACIN DE LA VOZ
3


1. INTRODUCCIN
El sonido no es ms que variaciones de la presin del aire. Estas variaciones de presin son captadas
por los micrfonos y convertidas en seales elctricas cuya amplitud es proporcional a la presin del aire.
Tanto la seal sonora como la seal elctrica resultante varan de forma continua, o lo que es lo mismo, son
seales de tipo analgico.
Para que estas seales puedan ser manejadas directamente en la Red, es necesario someterlas a un
proceso de conversin en seales digitales. Evidentemente, una conversin de analgico en digital suele venir
acompaado de su correspondiente conversin inversa, de digital en analgico, cuando dicha informacin
llega al destino.
Aunque las primeras conversiones de analgico en digital suponan simplemente tomar muestras
peridicamente e ir convirtiendo el valor de la amplitud de cada muestra en informacin binaria, en la
actualidad, dicho proceso se ha completado con tcnicas de codificacin que permiten mantener unos buenos
niveles de calidad de sonido utilizando menores anchos de banda (velocidad de transferencia). La importancia
de la codificacin es tal, que a todo el proceso se le conoce tambin como cdec, o codificacin y
decodificacin de la informacin.
El Proceso de codificacin y decodificacin viene emparejado. Quiere esto decir que cada tcnica de
codificacin tiene su correspondiente tcnica de decodificacin. Para que el sistema funcione, ambos extremos
de la comunicacin deben contar con el mismo tipo de cdec. Ah es donde intervienen los organismos
reguladores. La UIT-I es el organismo regulador que ha venido marcando las pautas de los distintos estndares
de cdec, G.711, G.729, etc.
El resultado es que en el mercado existen distintos sistemas de digitalizacin, lo que hace que no todas
las aplicaciones o dispositivos VoIP sean compatibles entre s. De hecho, en general, cada proveedor de
servicio de VoIP ofrece conectividad exclusivamente con sus propios usuarios dentro de Internet y con los de
la red telefnica.

2. LA NATURALEZA DEL HABLA
El sonido de la voz no es ms que la vibracin del aire producida por las cuerdas vocales. Aunque el
odo humano puede percibir sonidos con frecuencias entre 20 y 20.000 Hz, la voz humana slo es capaz de
generar frecuencias entre 40 y 10.000 Hz.
El micrfono convierte las vibraciones sonoras en seales elctricas. Esta seal analgica es idntica
en frecuencia e intensidad al sonido que representa. Los primeros circuitos telefnicos transmitan la seal
elctrica tal cual, utilizando para ello un par de hilos para cada circuito. Conforme creci la red telefnica,
surgi la necesidad de ahorrar costes, y se vio que no es necesario transmitir todo el margen de frecuencias
para que el sonido sea inteligible en el destino. De Hecho, se comprob que se consigue el 100% de
inteligibilidad transmitiendo slo las frecuencias menores de 5000 Hz. A pesar de ello, en telefona se ha
admitido una cierta prdida de inteligibilidad, reduciendo el margen de frecuencias que son transmitidas a las
comprendidas entre 300 y 3.400 Hz. Esta limitacin le ha dado al sonido telefnico ese timbre tan
caracterstico. La llegada de la telefona digital amplio el margen de frecuencias a los 4000 Hz.


Figura 1 Espectro vocal
DIGITALIZACIN DE LA VOZ
4


3. MEDICIN DE LA CALIDAD DE VOZ
Una de las caractersticas ms importantes de los distintos sistemas de codificacin y decodificacin
de la voz es la calidad de sonido inteligible conseguido en destino. La finalidad de la voz sobre IP es
conseguir una comunicacin mediante el empleo del habla, por tanto, ms que fidelidad del sonido importa la
inteligibilidad del mismo. Esto es lo que se conoce como calidad de la voz. Para medir este concepto tan
subjetivo de la calidad de la voz en comunicaciones telefnicas se manejan estos tres parmetros bsicos:
Calidad de audicin: cmo se escucha, si se entiende bien.
Calidad de conversacin: cmo se interacta.
Calidad de transmisin: calidad de la red.
El objetivo de las mediciones es poder medir las mejoras de un sistema concreto o realizar comparaciones
entre sistemas distintos. Para ello, suele ser suficiente medir uno o dos de los parmetros anteriores.
Aunque parece una tarea complicada. Existen diversos mtodos normalizados para realizar las mediciones de
la calidad de voz. Los ms conocidos son: MOS, PSQM y PAMS.

3.1 Mtodo subjetivo MOS
MOS (Mean Opinion Score, Valoracin media de opinin), fue uno de los primeros mtodos de
medicin de la calidad de voz. Se trata de un sistema de valoracin subjetiva que consiste en evaluar la
calidad de distintas muestras y ponderar los resultados para obtener un PUNTUACIN MEDIA. El sistema
MOS dispone de una escala de cinco puntos con el siguiente significado:

PUNTUACIN SIGNIFICADO
1 Mala. Distorsin muy molesta
2 Pobre. Distorsin molesta
3 Regular. Distorsin perceptible y ligeramente molesta
4 Buena. Nivel de distorsin perceptible pero no molesta
5 Excelente. Sin distorsin

Para realizar una valoracin se elige un grupo de personas (mnimo de 30) que participan en una
conversacin empleando el sistema que se pretende evaluar o escuchan una seleccin de muestras de voces
sometidas a dicho sistema. Cada participante valora la conversacin o cada una de las muestras de acuerdo a
la escala anterior. El resultado final asignado es el valor medio de las distintas valoraciones.
El sistema MOS est recogido en la recomendacin P.800 de la UIT-I. Donde se recoge las
indicaciones que se deben tener en cuenta a la hora de realizar este tipo de valoracin. Desde el punto de vista
prctico, una puntuacin de MOS de 4 o superior supone una alta calidad de voz.
El gran inconveniente del sistema MOS es que su realizacin tiene un alto coste debido a los recursos
y personas que deben involucrarse.

3.2 Mtodos objetivos

En la idea de reducir los costes de evaluacin de la calidad de voz, la UIT-I sac en 1998 una nueva
recomendacin, la P.861. En esta recomendacin se recogen las caractersticas del sistema conocido como
PSQM (Perceptual Speech Quality Measurement, Medicin perceptiva de la calidad del habla),
desarrollado por el Instituto KPN de Holanda.
La gran ventaja de este nuevo sistema es que se trata de un mtodo objetivo que se lleva a cabo
mediante el empleo de un dispositivo electrnico.
El PSQM se basa en una comparacin entre la seal a evaluar y la seal de origen. La prueba incluye
una serie de algoritmos que determina los efectos de un conjunto de variables como: la persona que habla
(hombre, mujer o nio), el volumen de la voz original, el retardo, el porcentaje de silencio o el ruido
ambiental. La puntuacin final se obtiene despus de realizar distintas mediciones, La escala de valores vara
entre el 0, equivale al valor MOS 5, y el 6,5 que equivale al valor MOS 1.
El mtodo PSQM, est en desuso y la UIT-I ha remplazado la recomendacin P.861 por la P.862, ms
conocida como PESQ (Perceptual Evaluatin or Speech Quality, Evaluacin perceptiva de la calidad del
habla).
DIGITALIZACIN DE LA VOZ
5

A pesar de las grandes ventajas de las mediciones objetivas, el mtodo MOS ofrece una mayor
fiabilidad. Frecuentemente son utilizados los mtodos objetivos en los laboratorios y MOS como medicin
definitiva de calidad.

4. RETOS DE LA TRANSMISIN DE VOZ, QoS en las redes de VoIP.
Para los usuarios de las redes sobre paquetes las diferencias tecnolgicas existentes entre las redes de
conmutacin de circuitos y de paquetes deben ser totalmente transparentes. Es decir, que de alguna manera
hay que conseguir que las redes de conmutacin de paquetes ofrezcan una calidad de servicio tcnico similar a
las redes de conmutacin de circuitos sin perder sus caractersticas propias. En general los factores que
determinan esta calidad son, por orden de importancia, la disponibilidad, el jitter, las prdidas, el retardo y
ancho de banda. Adems, en comunicaciones telefnicas otra limitacin tecnolgica que hay que tener en
cuenta es el eco.
Estudiaremos la influencia de estas limitaciones tecnolgicas, para posteriormente describir cuales son
las herramientas tecnolgicas que dispone la red para garantizar los parmetros de retardo, jitter, perdidas y
ancho de banda requeridos en una comunicacin de voz sobre paquetes.

4.1 Disponibilidad
La disponibilidad de un sistema es una medida de la probabilidad con que se encontrar en
condiciones de funcionamiento, de manera que cuanto mayor es la disponibilidad mayor es dicha
probabilidad.
Las redes telefnicas convencionales RTPC o la RDSI presentan valores de disponibilidad muy
elevados, en torno al 99,999 %, es decir 5,25 minutos fuera de servicio al ao. Sin embargo, las redes de datos
no alcanzan, ni de lejos, estos niveles de disponibilidad. Al contrario sufren prdidas de servicio peridicas,
por ejemplo, por errores del usuario o del software.

Disponibilidad Tiempo anual fuera de servicio
99,000% 3das, 15 horas, 36 minutos
99,500% 1 da, 19 horas, 48 minutos
99,900% 8 horas, 46 minutos
99,990% 53 minutos
99,999% 5 minutos
99,999% 30 segundos

A la hora de disear cualquier sistema debemos analizar, en primer lugar, el tiempo que el sistema
puede dejar de estar operativo debido a fallos inesperados en el hardware y el coste que ello supone para
contrastarlo con el coste de la inversin necesaria para prevenir dichos fallos. Para la VoIP los componentes
crticos son los servidores, las pasarelas y los terminales de usuario.
La clave de la tolerancia a fallos es la redundancia, cuyo principio es simple: cualquier parte del
sistema que resulte crtica para su funcionamiento debe estar replicada, de tal modo que el sistema de reserva
reemplace al principal en caso de fallo de este ltimo. Replicar absolutamente todos y cada uno de los
componentes de la red no tiene sentido y, adems, no es viable econmicamente, por lo que se opta por
duplicar nica y exclusivamente aquellos que realmente son crticos para el funcionamiento de la red,
generalmente, los servidores encargados de control de llamadas, la sealizacin y las pasarelas.
Por otro lado se pueden configurar los terminales de usuarios para que si ocurriera que la llamada no
se puede cursar por carecer de recursos o por estar la red fuera de servicio, dicha llamada se encamine por la
RTPC o RDSI. Es lo que se conoce como encaminamiento de buckup.
Adems, es recomendable utilizar sistemas de alimentacin ininterrumpida (SAI) que reducen el
impacto de los cortes de suministro elctrico. Estos sistemas, si son de pequea potencia, constan de una
batera que acumula energa y de un ondulador que transforma la corriente continua en alterna a 230V(50Hz)
para alimentar al equipo durante un cierto tiempo que da lugar a poder cerrar el equipo y evitar la prdida de
datos. En caso de sistemas de gran potencia se tienen generadores con motores de gasoil, con el que el sistema
puede presentar gran autonoma. En ambos casos, entran en funcionamiento ante los cortes de energa y
tambin realizan un filtrado y estabilizado de la corriente, para los picos de tensin y microcortes.

DIGITALIZACIN DE LA VOZ
6

4.2 Jitter
En VoIP, jitter es la variacin en el tiempo en la llegada de los paquetes, causada por congestin de
red, perdida de sincronizacin o por las diferentes rutas seguidas por los paquetes para llegar al destino. Es un
problema tpico de las redes de conmutacin de paquetes y que no sucede en las redes de conmutacin de
circuitos.



Tan importante como el retardo en s, es que dicho retardo permanezca constante. Cuando se tiene un
retardo constante, las partes que intervienen en la comunicacin se acaban adaptando a l. No obstante, si el
tiempo de retardo vara constantemente, la conversacin se vuelve mucho ms incmoda, ya que genera en las
partes una sensacin de completo descontrol.
La forma de evitar fluctuaciones de retardo es utilizando memorias internas (bferes) que vayan
aadiendo retardo cuando la comunicacin es ms rpida y quitando cuando es ms lenta. El resultado es un
retardo elevado, pero constante.

Los motivos de las fluctuaciones del retardo (jitter) son dos:
Enrutamiento variable. Los paquetes IP de una misma comunicacin pueden tomar caminos
distintos para llegar al destino, por tanto, pueden experimentar retardos distintos.
Ocupacin variable. Aunque todos los paquetes viajaran por la misma ruta, el nivel de ocupacin de
los equipos intermedios (routers) no es constante, por lo que el tiempo necesario para resolver los
enrutamientos puede variar de unos paquetes a otros.

En el caso de la conmutacin de circuitos utilizada por las redes telefnicas tradicionales no existen
fluctuaciones de retardo, ya que, una vez que se ha establecido el circuito que comunica ambos extremos, toda
la informacin viaja por el mismo camino y utiliza los mismos recursos, de un modo exclusivo.

4.3 Prdida de paquetes
Otro inconveniente de la redes IP que pueden afectar a la calidad de la voz es la prdida de paquete.
Esto es, de vez en cuando, algn paquete que forma parte de una comunicacin se pierde en el camino. En las
comunicaciones de datos, el equipo destinatario detecta la falta de este paquete y le pide al origen que se lo
retrasmita. El tiempo adicional necesario para esa retrasmisin no suele afectar al resultado general de la
comunicacin.

DIGITALIZACIN DE LA VOZ
7


En el caso de la voz, si se pierde un paquete resulta ms conveniente darlo por perdido que esperar a
la retrasmisin del mismo. La espera genera un retardo indeseado, mientras que la falta espordica de un
paquete prcticamente no influye en el entendimiento de la comunicacin, sea de voz o video.
La solucin ms inmediata al problema de prdidas es la mejora de la arquitectura de la red. En
efecto, puesto que las prdidas son, bsicamente, una cuestin de capacidad, si se sustituyen las lneas y los
routers por otros de mayor capacidad el problema queda aparentemente resuelto. Sin embargo, esta solucin
no es definitiva puesto que en cuanto aumente ligeramente el trfico de la red, los efectos nocivos de las
prdidas volvern a aparecer.
Ya que, la alternativa ms obvia, que sera solicitar los paquetes perdidos, no es posible porque
introduciramos un retardo adicional que empeorara la calidad de voz. Son necesarias otro tipo de tcnicas
que atenen los efectos de las prdidas. A tal fin se han desarrollado tres grupos:
Correccin de errores (FEC, Forward Error Control) La posibilidad de corregir errores se
consigue aadiendo al mensaje original unos bits de redundancia. La fuente digital enva la
secuencia de datos al codificador, encargado de aadir dichos bits de redundancia. A la salida
del codificador obtenemos la denominada palabra cdigo. Esta palabra cdigo es enviada al
receptor y ste, mediante el decodificador adecuado y aplicando los algoritmos de correccin
de errores, obtendr la secuencia de datos original.
Distribucin de errores: consiste en aleatorizar las prdidas para dispersar sus efectos. De
nuevo, el inconveniente es el retardo adicional que introducen y que consume un mayor ancho
de banda.
Recuperacin de errores (Paket Loss Concealment): sustituyen el paquete perdido por otro
mediante:
o Insercin de ceros: la prdida de paquetes de voz es reemplazada con ceros.
o Sustitucin de forma de onda: la brecha perdida es reconstruida repitiendo una
porcin de la voz ya recibida. La forma ms simple es repetir el sonido del ltimo
frame recibido.
o Mtodo basados en modelos: un creciente nmero de algoritmos que toman las
ventajas de los modelos de habla de interpolacin y extrapolacin de brechas de
sonido estn siendo presentados o desarrollados.
4.4 Retardo
Al retardo tambin se la llama latencia. No es un problema especfico de las redes no orientadas a
conexin y por tanto de la VoIP. Es un problema general de las redes de telecomunicacin. Por ejemplo, la
latencia en los enlaces va satlite es muy elevada por las distancias que debe recorrer la informacin llegando
incluso a los 500 o 600 ms.
La latencia o retardo entre el punto inicial y final de la comunicacin debiera ser inferior a 150 ms. El
odo humano es capaz de detectar latencias de unos 250 ms, 200 ms en el caso de personas bastante sensibles.
Si se supera ese umbral la comunicacin se vuelve molesta.
La latencia se define tcnicamente en VoIP como el tiempo que tarda un paquete en llegar desde la
fuente al destino.
No hay una solucin que se pueda implementar de manera sencilla. Muchas veces depende de los
equipos por los que pasan los paquetes, es decir, de la red misma. Se puede intentar reservar un ancho de
banda de origen a destino o sealizar los paquetes con valores de TOS
1
para intentar que los equipos sepan
que se trata de trfico en tiempo real y lo traten con mayor prioridad pero actualmente no suelen ser medidas
muy eficaces ya que no disponemos del control de la red.
Si el problema de la latencia est en nuestra propia red interna podemos aumentar el ancho de banda o
velocidad del enlace o priorizar esos paquetes dentro de nuestra red.


1
ToS (Type of Service) Tipo de servicio. Se suele corresponder con un campo de 8 bits de la cabecera de los datagramas IP que
identifica la prioridad relativa de un paquete sobre otro. Los dispositivos de red usan este paquete para priorizar paquetes de forma
adecuada y ponerles en las diferentes colas.
DIGITALIZACIN DE LA VOZ
8




4.5 Eco
EL eco es un fenmeno comn a las redes telefnicas convencionales y a las redes de voz sobre
paquetes. Se produce cuando el emisor escucha parte de su propia voz junto con la voz del otro interlocutor o
en ausencia de ella.
Las causas del eco son muy variadas. En primer lugar, se encuentra el eco acstico, debido a un
acoplamiento entre el micrfono y el auricular del telfono. Debe considerarse sobre todo en los telfonos
manos libres o inalmbricos y se suele solucionar con telfonos de calidad. El otro tipo de eco es el eco
elctrico, consecuencia de una desadaptacin de impedancias en el extremo receptor. ste es ms importante y
es el que trataremos.
El eco se produce por un fenmeno tcnico que es la conversin de 2 a 4 hilos de los sistemas
telefnicos o por un retorno de la seal que se escucha por los altavoces y se cuela de nuevo por el micrfono.
El eco es especialmente molesto cuanto mayor es el retardo y cuanto mayor es su intensidad con lo
cual se convierte en un problema en VoIP puesto que los retardos suelen ser mayores que en la red de
telefona tradicional.
El odo humano es capaz de
detectar el eco cuando su retardo con la
seal original es igual o superior a 10 ms.
Pero otro factor importante es la
intensidad del eco ya que normalmente la
seal de vuelta tiene menor potencia que
la original. Es tolerable que llegue a 65
ms y una atenuacin de 25 a 30 dB. En
este caso hay dos posibles soluciones para
evitar este efecto tan molesto.
- Supresores de eco - Consiste en
evitar que la seal emitida sea
devuelta, convirtiendo por
DIGITALIZACIN DE LA VOZ
9

momentos la lnea full-duplex en una linea half-duplex de tal manera que si se detecta comunicacin
en un sentido se impide la comunicacin en sentido contrario. El tiempo de conmutacin de los
supresores de eco es muy pequeo. Impide una comunicacin full-duplex plena.
- Canceladores de eco - Es el sistema por el cual el dispositivo emisor guarda la informacin que
enva en memoria y es capaz de detectar en la seal de vuelta la misma informacin (tal vez atenuada
y con ruido). El dispositivo filtra esa informacin y cancela esas componentes de la voz. Requiere
mayor tiempo de procesamiento.
A la hora de estudiar el eco en redes sobre paquetes, se ha de tener en cuenta que ste nicamente se
produce en los segmentos analgicos de la red y no en los digitales. Estos segmentos susceptibles de sufrir eco
reciben el nombre de circuitos de cola. Por ejemplo, cuando el mbito de la voz sobre paquetes abarca la res
completa no se produce eco puesto que toda la comunicacin tiene lugar a travs de la red de datos.

4.6 Ancho de banda
El ancho de banda de una red puede definirse como la cantidad mxima de informacin que la red es
capaz de transportar, por unidad de tiempo. El primer requisito que de be cumplir una red de voa sobre
paquetes para ofrecer la calidad adecuada es disponer de ancho de banda suficiente para cursar
comunicaciones de voz. El ancho de banda medio de la red debe ser tal que:

BW = (BW
VOZ
+ BW
VIDEO
+ BW
DATOS
)/0,75

De esta manera nos dejamos un 25% de margen para hacer frente a posibles picos de trfico. Al
dimensionar la red segn este criterio, nos garantizamos que tendremos suficiente ancho de banda para cursar
todas las comunicaciones, reduciendo la probabilidad de que el retardo, el jitted o las prdidas de paquetes
tengan un impacto considerable.

5. TCNICAS DE CODIFICACIN
El primer paso en VoIP es convertir la seal analgica procedente del micrfono en seal digital, para
su posterior transmisin por la red.
En los aos 40 se desarroll un procedimiento de modulacin que permita transformar una seal
analgica en una secuencia de bits (seal digital), este mtodo fue inventado por Alec Reeves en 1937. Una
trama o stream PCM es una representacin digital de una seal analgica en donde la magnitud de la onda
analgica es tomada en intervalos uniformes (muestras), cada muestra puede tomar un conjunto finito de
valores, los cuales se encuentran codificados.
Fue en la dcada de los 50 cuando se comienza a trabajar sobre lo que sera el precursor del vocoder,
que hasta la llegada de a era digital no comienza su despegue, dado que la tecnologa analgica no era
suficiente.
Pero el gran salto se produjo en la dcada de los 80 con la aparicin del DSP (Digital Signal
Procesor), dado que aunque las bases matemticas estaban dadas desde hace muchos aos, el bajo nivel de
procesamiento de la poca no permita obtener resultados en tiempo real. Fue durante esta dcada cuando
aparecieron los algoritmos de mayor compresin.

La ITU normaliz las distintas tcnicas de compresin, algunas de las cuales utilizaremos en VoIP. De lo visto
anteriormente, la ITU, gener una serie de especificaciones para el de Multimedia segn el medio de
transporte, especificando adems que tipo de compresin utilizar en cada caso.

Por tanto en VoIP utilizaremos:
DIGITALIZACIN DE LA VOZ
10

o G.711
o G.723.1
o G.729

La razn por la cual existen tantas variantes en la
compresin, se debe a aos de investigacin y una meta
en comn:
.- Menor velocidad.
.- Mayor calidad.
.- Mayor eficiencia en el algoritmo.
.- Menor retardo en la compresin.
Existen tres tipos generales de tcnicas de codificacin y decodificacin de la voz o codecs:
De forma de onda (Waveforms Coders)
Vocoder o de la seal origen (Voice Coder)
Hbridos (Hybrid Coders)
Los codecs de forma de onda, a los que
pertenecen los siguientes codecs G.711-PCM,
G.721-ADPCM y G.726-ADPCM. Bsicamente
muestrean la seal analgica y la codifican
directamente. Transmiten los valores cuantificados
a los extremos distantes, donde se reconstruye la
seal original. Este sistema de codec es ms bien
simple y reproducen una buena calidad de sonido
en destino. Su mayor inconveniente, comparado
con otros sistemas, es que necesitan un gran ancho
de banda para conseguir unos mnimos niveles de
calidad.
El vocoder representa a la seal sonora de
acuerdo a un modelo matemtico. Estn basados en
el principio de generacin de la voz.
Peridicamente identifica el modelo con el que se
corresponde al sonido muestreado y enva al
destino los parmetros que lo identifican. En el
destino se van reconstruyendo la forma de onda de
acuerdo a los parmetros recibidos. Es de destacar que, en el caso del vocoder, no se transmite la informacin
directa de la voz, sino los parmetros que la definen. Este sistema puede verse completado con un
identificador de silencio para conseguir una mayor eficiencia. Con el sistema vocoder se puede reducir la
necesidad de ancho de banda hasta los 2,4 Kbps. En este caso, el sonido no es de buena calidad, suena como
metlico, pero es inteligible.


El inconveniente de un sistema vocoder es que no ofrece una alta calidad de sonido, ni an
aumentando considerablemente el ancho de banda. Para conseguir mejorar la calidad, se utilizan sistemas
DIGITALIZACIN DE LA VOZ
11

hbridos. Estos ofrecen los mejor de ambos sistemas, consiguiendo una muy buena calidad de sonido con un
ancho de banda limitado.

5.1 Codec de forma de onda
Es la codificacin por excelencia en los sistemas TDM, y el proceso se descompone en:
Muestreo
Cuantificacin
o Uniforme
o Logartmica
Codificacin
5.1.1 Muestro
El proceso de muestreo consiste en tomar valores instantneos de una seal analgica, a intervalos de
tiempo iguales. A los valores instantneos obtenidos se les llama muestras.
Este proceso se ilustra en siguiente figura.

El muestreo se efecta siempre a un ritmo uniforme, que viene dado por la frecuencia de muestreo fm
o sampling rate.
La condicin que debe cumplir fm viene dada por el teorema del muestreo "Si una seal contiene
nicamente frecuencias inferiores a f, queda completamente determinada por muestras tomadas a una
velocidad igual o superior a 2f."
De acuerdo con el teorema del muestreo, las seales telefnicas de frecuencia vocal (que ocupan la
Banda de 300 a - 3.400 Hz), se han de muestrear a una frecuencia igual o superior a 6.800 Hz (2 x 3.400).
En la prctica, sin embargo, se suele tomar una frecuencia de muestreo o sampling rate de fm = 8.000
Hz. Es decir, se toman 8.000 muestras por segundo que corresponden a una separacin entre muestras de:
T=1/8000= 0,000125 seg. = 125 s
Por lo tanto, dos muestras consecutivas de una misma seal estn separadas 125 s que es el periodo
de muestreo.
Luego dichas muestras deben ser cuantificadas, para lo cual tendremos en principio dos opciones:
cuantificacin uniforme
cuantificacin no uniforme o logartmica.

5.1.2 Cuantificacin uniforme

Hay que utilizar un nmero finito de valores discretos para representar de forma aproximada la
amplitud de las muestras. Para ello, toda la gama de amplitudes que pueden tomar las muestras se divide en
intervalos iguales y a todas las muestras cuya amplitud caen dentro de un intervalo, se les da el mismo valor.
El proceso de cuantificacin introduce necesariamente un error, ya que se sustituye la amplitud real de
la muestra, por un valor aproximado. A este error se le llama error de cuantificacin. El error de
cuantificacin se podra reducir aumentando el nmero de intervalos de cuantificacin, pero existen
limitaciones de tipo prctico que obligan a que el nmero de intervalos no sobrepase un determinado valor.
Una cuantificacin de este tipo, en la que todos los intervalos tienen la misma amplitud, se llama
cuantificacin uniforme.
En siguiente figura se muestra el efecto de la cuantificacin para el caso de una seal analgica. El
nmero de intervalos de cuantificacin se ha limitado a ocho.
La seal original es la de trazo continuo y la seal reconstruida es la lnea de trazos, mientras que el
error de cuantificacin introducido en cada muestra, da lugar a una deformacin o distorsin de la seal
reconstruida que se representa por lnea de trazos y puntos.

DIGITALIZACIN DE LA VOZ
12


5.1.3 Cuantificacin no uniforme

En una cuantificacin uniforme la distorsin es la misma cualquiera que sea la amplitud de la muestra.
Por lo tanto cuanto menor es la amplitud de la seal de entrada mayor es la influencia del error. La situacin
se hace ya inadmisible para seales cuya amplitud analgica est cerca de la de un intervalo de cuantificacin.
Para solucionar este problema existen dos soluciones:
- Aumentar los intervalos de cuantificacin - si hay ms intervalos habr menos errores pero
necesitaremos ms nmeros binarios para cuantificar una muestra y por tanto acabaremos necesitando
mas ancho de banda para transmitirla.
- Mediante una cuantificacin no uniforme, en la cual se toma un nmero determinado de intervalos y
se distribuyen de forma no uniforme aproximndolos en los niveles bajos de seal, y separndolos en
los niveles altos. De esta forma, para las seales dbiles es como si se utilizase un nmero muy
elevado de niveles de cuantificacin, con lo que se produce una disminucin de la distorsin. Sin
embargo para las seales fuertes se tendr una situacin menos favorable que la correspondiente a una
cuantificacin uniforme, pero todava suficientemente buena.
Por lo tanto lo que podemos hacer es realizar una cuantificacin no uniforme mediante un codec
(compresor-decompresor) y una cuantificacin uniforme segn se ve en la siguiente figura:


El proceso de cuantificacin no uniforme responde a una caracterstica determinada llamada ley de
Codificacin o de compresin. Hay dos tipos de leyes de codificacin: las continuas y las de segmentos.
En las primeras, los intervalos de cuantificacin son todos de amplitud distinta, creciendo
ordenadamente desde valores muy pequeos, correspondientes a las seales de nivel bajo, a valores grandes,
correspondientes a las seales de nivel alto. En las segundas, la gama de funcionamiento se divide en un
DIGITALIZACIN DE LA VOZ
13

nmero determinado de grupos y dentro de cada grupo los intervalos de cuantificacin tienen la misma
amplitud, siendo distinta de unos grupos a otros.
Normalmente se utilizan las leyes de codificacin de segmentos.G.711 Ley A (a-law) y ley (u-law)
Actualmente, las dos leyes de compresin de segmentos ms utilizadas son la ley A (a-law) y la ley
(u-law) que dan lugar al codec g.711. La ley A (a-law) se utiliza principalmente en los sistemas PCM
europeos, y la ley (u-law) se utiliza en los sistemas PCM americanos.

5.1.4 Cuantificacin diferencial

En las seales de frecuencia vocal, predominan generalmente las bajas frecuencias, por ello las
amplitudes de dos muestras consecutivas difieren generalmente en una cantidad muy pequea. Aprovechando
esta circunstancia, se ha ideado la cuantificacin diferencial.

En la cuantificacin diferencial, en lugar de tratar cada muestra separadamente, se cuantifica y
codifica la diferencia entre una muestra y la que le precede. Como el nmero de intervalos de cuantificacin
necesarios para cuantificar la diferencia entre dos muestras consecutivas es lgicamente inferior al necesario
para cuantificar una muestra aislada, la cuantificacin diferencial permite una reduccin sensible de la
frecuencia de transmisin en lnea, ya que esta es proporcional al nmero de intervalos de cuantificacin.

5.1.5 Cuantificacin diferencial delta y ADPCM (Adaptative delta PCM)

Si en un sistema DPCM vamos aumentando la frecuencia de muestreo, llega un momento en que dos
muestras consecutivas tienen una amplitud tan prxima, que no se necesita ms que un solo intervalo de
cuantificacin para cuantificar la diferencia.

En este caso solo se necesitara un bit por muestra, y la velocidad de transmisin en lnea (bit rate)
sera igual a la velocidad de muestreo. Este tipo de modulacin se conoce con el nombre de modulacin delta.

La modulacin delta descrita, se denomina modulacin delta porque la magnitud de la variacin
producida a la salida es fija. Existen otros tipos de modulacin delta ms sofisticados, en los cuales dicha
variacin no es fija sino que depende de las variaciones de la seal de entrada. Por ejemplo ADPCM o
Adaptative delta PCM se basa en ajustar la escala de cuantificacin de forma dinmica para adaptarse mejor a
las diferencias pequeas o grandes.

5.2 Vocoder
A diferencia de las tcnicas de codificacin por forma de onda, las cuales han probado su utilidad, con
la difusin del G.711 y dems. El mercado demandaba una compresin aun mayor, es decir, poder transmitir
voz con velocidades aptas a interfaces serie de baja velocidad. Estaba claro que la tcnica de codificacin por
forma de onda no provea la solucin, dado que la calidad de voz se degrada fuertemente con la reduccin de
velocidad. Dicho requerimiento requiri un estudio, ms profundo de las seales y capacidades de
procesamiento en MIPS
2
, cada vez ms importantes.
Segn lo visto anteriormente, resulta fundamental poder comprimir la voz, para lograr bit rates
menores. Del anlisis temporal de la voz humana, surgen algunos elementos que pueden ayudar en la
compresin.
La naturaleza repetitiva (peridica) de la voz.

2
MIPS es la abreviacin de las palabras "M"illones de "I"nstrucciones "P"or "S"egundo". Es una forma de medir la
potencia de los procesadores.
DIGITALIZACIN DE LA VOZ
14


Las pausas realizadas en la misma conversacin.

Por lo que se comienza un estudio exhaustivo de la voz y sus propiedades, buscando factores que
ayuden a la compresin de la misma. Con lo cual nos encontramos con las componentes esenciales y
composicin de la voz, tomando esta como una conversacin normal en un dialogo telefnico.


El principio de codificacin, es el de enviar solamente los
parmetros que permitan la sntesis de la seal en el otro extremo y que sta
(al odo humano) resulte similar a la seal de origen. El hecho de que
resulte similar al odo humano se debe a que en el proceso de anlisis, las
formas de onda pueden ser muy distintas.

Se ataca el problema mediante el estudio de la generacin de la voz.
Se busca un modelo matemtico cuyo comportamiento se asemeje al
sistema del habla.
El flujo de aire enviado de los pulmones genera las modificaciones
en el volumen. Las cuerdas vocales vibran, generando los sonidos, siendo
responsables del tono del mismo. Las variaciones en el sonido se logran
mediante el cambio en la forma del tracto vocal. Dichos anlisis de los
componentes humanos involucrados en el habla, se modelizan
matemticamente.
Lo que se busca es poder extraer coeficientes que permitan generar los sonidos y a la vez requieran
menos rendimiento para su envo. El modelo matemtico empleado es:


DIGITALIZACIN DE LA VOZ
15


La tcnica VOCODER, permite bajos bit rates, los cuales oscilan entre 3 a 8 Kbps, lo que presenta
una notable mejora en comparacin con las tcnicas de codificacin de forma de onda. El inconveniente
quizs con esta tcnica es que el sonido logrado por sntesis en el extremo opuesto, pierde el tinte de la voz,
dificultando el reconocimiento de la misma.
A este tipo de codificadores corresponden los codecs G.723.1 MPC-MLQ, G.728 LD-CELP y G.729,
CS-CELP.
5.3 Codificacin hbrida

Se basa en utilizar los dos mtodos anteriores, buscando la alta calidad de la codificacin por fonema
de onda y los bajos bit rates de la codificacin vocoder.
Se los subdivide en:
o RELP (Residual Excited Linear Prediction Coding).
o CELP (Code Excited Linear Prediction).
o VSELP (Vector Sum Excited Linear Predictin)
o RPE-LTP (Regular Pulse Excitation-Long Term Prediction).

Cada una de estas conlleva leves variantes, pero a fin de no complicar en exceso el anlisis, nos
centraremos en los procesos involucrados en VoIP, que son CELP y MPC.
El principio de codificacin de CELP ha tenido mucho xito para producir comunicaciones a calidad
de telefona estndar con tasas binarias entre 4.8 y 16 kbps. Los estndares de la ITU-T a 16kbps producen
una seal de voz que es casi indistinguible de PCM con ley A a 64kbps. Recientemente se ha trabajado mucho
en codecs que operen por debajo de los 4.8 kbps, con el objetivo de producir un cdec a 2.4 3.6 kbps, con
calidad de voz equivalente aceptable, con el objetivo de que la voz sea algo ms inteligible.

6 CONCLUSIONES
Algunos os preguntareis, el porqu de esta bsqueda incesante de cada vez ms nivel de compresin
de la voz. Analicemos con nmeros algunos datos para aclarar las cosas.
Si queremos establecer una comunicacin de voz a travs de las redes IP, el proceso que deberemos seguir es
el siguiente:
.- muestrear.
.- cuantificar,
.- codificar,
.- empaquetar,
.- transmitir a la red.
Bien, las muestras se toman con una frecuencia de muestreo de 8 KHz, o lo que es lo mismo cada
125s. Cada muestra se codifica con 8 bit, obteniendo un volumen de datos de 64 Kbps.
8000 m/s x 8 bits/s = 64 Kbps
Cada una de estas muestras debe ser insertada en un paquete para su transmisin por la Red, por lo
que necesitaremos un encabezado de 58 bytes por muestra.
1 byte muestra + 58 bytes encabezado
Como debemos enviar un paquete por cada muestra tendremos:
1 s = 8000 muestras
1 muestra = 1 paquete
DIGITALIZACIN DE LA VOZ
16

1 paquete= 59 bytes
1 byte= 8 bits
1s = 8000 x x59 x 8
1 s= 3.776.000 bits
Es decir con el sistema original de cdec G.711 necesitamos un canal que nos permita enviar 3,77
Mbps. Con este sistema no podemos enviar ni un solo canal en una trama E1.

El error est en el proceso de empaquetado, en el cual por cada muestra, debido a los protocolos a emplear
(ETHERNET, IP, UDP y RTP), cada paquete posee un encabezado de 58 bytes, que resultan excesivos
comparados con la carga de informacin. La solucin pasa por aumentar la carga muestras/encabezado de
manera equilibrada