Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Medida de La Calidad de Voz en Redes IP
Medida de La Calidad de Voz en Redes IP
Jos Joskowicz
Rafael Sotelo
IIE/FING/UDELAR
Montevideo, Uruguay
IIE/FING/UDELAR FI/UM
Montevideo, Uruguay
josej@fing.edu.uy
rsotelo@um.edu.uy
I. INTRODUCCIN
La transmisin de voz sobre redes IP (VoIP) tiene un rol
cada vez ms importante y un uso cada vez ms difundido. Los
usuarios esperan ver satisfechas sus expectativas de calidad del
servicio con independencia de la tecnologa utilizada. En este
sentido, la calidad de experiencia QoE mide que tan bien un
servicio de red satisface las expectativas y necesidades vistas
por el usuario. Por otro lado, la calidad de servicio QoS
refiere a la medida del rendimiento de la red desde el punto de
vista tcnico, y a la posibilidad de gestionarla para cumplir con
las prestaciones necesarias para las aplicaciones.
La VoIP enfrenta problemticas propias de las redes de
datos, que se manifiestan como degradaciones en la calidad del
servicio percibida por los usuarios (QoE). Estas degradaciones
pueden deberse por ejemplo a retardos, jitter (diferencia de
retardos) y prdida de paquetes, entre otros factores.
Para que la tecnologa de VoIP pueda ser utilizada en
forma masiva y comercial, es esencial garantizar una calidad
de voz aceptable. Para ello se han desarrollado mtodos para
medirla. Estos mtodos se dividen en subjetivos y objetivos.
Los mtodos subjetivos de medida de la calidad de servicio, se
basan en conocer directamente la opinin de los usuarios.
Tpicamente resultan en un promedio de opiniones (por
ejemplo, en un valor de MOS Mean Opinin Store). Los
mtodos objetivos miden propiedades fsicas de una red para
prever o estimar el rendimiento percibido por los usuarios. A
su vez se subdividen en Intrusivos (se inyecta una seal de voz
conocida en el canal y se estudia su degradacin a la salida,
por ejemplo PESQ) y No Intrusivos (monitorean ciertos
parmetros en un punto de la red y en base a estos permite
establecer en tiempo real la calidad que percibira un usuario).
El presente artculo brinda una breve introduccin a la
transmisin de voz sobre redes IP, luego describe los mtodos
y arquitecturas de medicin aceptados, estandarizados y
normalizados. Presenta la evaluacin realizada por varios
artculos acerca del estado del backbone de Internet para
IP (UDP + RTP)
40 bytes
160 bytes
Bytes de
Ancho de
trama
Banda en
Ethernet
LAN (kbps)
146
116,8
226
90,4
306
81,6
76
60,8
86
34,4
96
25,6
82
32,7
90
23,9
79
31,7
86
22,9
(1)
Lado recepcin
OLR
SLR
RLR
Punto de 0 dBr
Factor Ds
Ruido
ambiente Ps
Ruido de circuito Nc
referido a 0 dBr
Factor Dr
Ruido
ambiente Pr
ndice de
enmascaramiento
para el efecto
local STMR
ndice de efecto
local del oyente
LSTR (LSTR =
STMR + Dr)
ndice de sonoridad
del eco para el
hablante TELR
Factor de mejora A
G.107_F01
Fig. 2
Ro (efecto del ruido) e Is (relacionado con el volumen de
la conexin y con la cuantificacin) son intrnsecos a la seal
de voz en la entrada de la red y no dependen de sta. Son
irrelevantes al comparar VoIP a llamadas PSTN.
Id modela las degradaciones producidas por los retardos y
el eco, mientras que Ie-eff representa las degradaciones
producidas por los cdecs y por las prdidas de paquetes de
distribucin aleatoria.
A representa el factor de ventaja que significa que el
usuario aceptara una degradacin en la calidad a cambio de
facilidad de acceso (por ejemplo, en telefona mvil o
satelital).
Posteriormente se propuso tener en cuenta el recency
effect. Para establecer la calidad de voz de una llamada, se la
divide en perodos de tiempo con prdidas uniformes. Al
variar las prdidas, variar el Ie. Sin embargo el usuario
percibe los cambios ms tarde, segn una curva exponencial,
que ser ms rpida cuando empeoran las prdidas que cuando
mejoran.
El factor Ie del E-Model corresponde a las degradaciones
producidas por los codecs y por las prdidas de paquetes. Sin
embargo, en una conversacin telefnica realizada a travs de
VoIP, la tasa de prdida de paquetes no puede considerarse
constate. Por el contrario, es generalmente tpico que la tasa de
prdida de paquetes sea baja durante ciertos perodos y crezca
considerablemente durante rfagas. Por ello, la calidad de la
voz tampoco puede considerarse constante durante la
conversacin, sino que podr variar segn el momento.
Asumiendo que existen dos estados relativos a la prdida de
paquetes (un estado de baja prdida y otro de alta prdida),
tambin existirn dos valores instantneos de Ie , los que se
pueden denominar Ieg (gap) durante el perodo de baja tasa
de prdida de paquetes y Ieb (burst) durante el perodo de
Fig. 3
En la revisin efectuada en el ao 2000, se proporcion
una versin mejorada del modelo E con el fin de tener en
cuenta mejor los efectos del ruido ambiente en el lado emisor
y la distorsin de cuantificacin. En la revisin de 2002 se ha
incluido la degradacin debida a la prdida aleatoria de
paquetes en una manera paramtrica para diferentes cdecs.
En relacin con la versin de 2003, puede verse un modelado
mejorado de la calidad para niveles bajos del efecto local del
hablante. La revisin 2005 permite realizar predicciones ms
precisas sobre la calidad de los cdecs en condiciones de
prdida de paquetes dependiente (a corto plazo).
B.
Fig. 4
Lo esencial en este proceso es la transformacin de la
seal inicial y la degradada, en una representacin interna que
intenta reproducir la representacin psicoacstica de seales
de audio en el sistema auditivo humano, teniendo en cuenta la
frecuencia por percepcin (Bark) y la sonoridad (Sone).
El modelo cognitivo de PESQ termina brindando una
distancia entre la seal vocal inicial y la seal vocal degradada
(nota PESQ), la que corresponde a su vez con una
prediccin de la MOS subjetiva. La nota PESQ se hace
corresponder a una escala similar a la de MOS, un nmero
nico en una escala de 0,5 a 4,5, aunque en la mayora de los
casos la gama de las salidas estar entre 1,0 y 4,5, que es la
gama normal de valores de MOS que suelen darse en un
experimento sobre la calidad de voz.
C. ITU-T P.563
El algoritmo P.563 [8] es aplicable a la prediccin de la
calidad vocal sin una seal de referencia independiente. Por
ese motivo, este mtodo se recomienda para la evaluacin no
intrusiva de la calidad vocal y para la supervisin y evaluacin
con la red en funcionamiento, empleando en el extremo lejano
de una conexin telefnica fuentes de seal vocal
desconocidas.
En comparacin con la Rec. ITU-T P.862, P.563 predice
la calidad de la voz de una seal degradada sin una seal vocal
de referencia dada. En la figura 5 se ilustran las diferencias
entre ambos mtodos.
El enfoque utilizado en P.563 puede visualizarse como un
experto que escucha una llamada real con un dispositivo de
prueba, tal como un microtelfono convencional conectado en
Fig. 5
Bsicamente, la parametrizacin de la seal del algoritmo
P.563 puede dividirse en tres bloques funcionales
independientes que se corresponden con las tres clases de
distorsin principales, las que se corresponden con el anlisis
del tracto vocal y desnaturalizacin de la voz, el anlisis de un
ruido adicional intenso y las interrupciones, silenciamientos y
recorte temporal.
El modelo de calidad vocal de P.563 se compone de tres
bloques principales:
1. Decisin sobre la clase de distorsin de que se trata.
2. Evaluacin de la calidad vocal intermedia para la
correspondiente clase de distorsin.
3. Clculo global de la calidad vocal.
Cada clase de distorsin utiliza una combinacin lineal de
varios parmetros para generar la calidad vocal intermedia.
Fig. 6
La punta de prueba psyVoIP captura los datos de una
llamada especfica, como se muestra en la Figura 6. PsyVoIP
clasifica y caracteriza los distintos gateways y telfonos IP ya
que se comprob que dan distinta calidad ante las mismas
condiciones de red.
Otra propuesta de medicin no intrusiva se presenta en
[15]. Se propone tomar los paquetes recibidos, extraer su
encabezamiento y sustituir el payload de voz con una seal
conocida. De esa forma se obtiene una seal sustituta
conocida, con la misma distorsin que la recibida. Luego se
puede aplicar cualquiera de las herramientas objetivas que
precisan de la seal original (PESQ, PQSM) y obtener un
MOS (Ver figura 7).
Fig. 7