Está en la página 1de 4

VOIP.

LA TELEFONA DE INTERNET

40 ITES-Paraninfo

TIPO
FRECUENCIA
FUNDAMENTAL (Hz)
Soprano (mujer) 260 a 1.040
Mezzosoprano (mujer) 220 a 880
Contralto (mujer) 200 a 780
Tenor (hombre) 130 a 520
Bartono (hombre) 100 a 390
Bajo (hombre) 80 a 330
Tabla 3.1. Efemplos ae frecuencias funaamentales ae la vo:
MEDICIN DE LA CALIDAD DE LA VOZ
Una de las caracteristicas mas importantes de los distintos sistemas de codiIicacion
y decodiIicacion de la voz es la calidad de sonido inteligible conseguido en destino. La
Iinalidad de la tecnologia de voz sobre IP es conseguir una comunicacion mediante el
empleo del habla, por tanto, mas que la Iidelidad del sonido importa la inteligibilidad del
mismo. Esto es lo que se conoce como calidad de la voz. La pregunta es Como se puede
medir un concepto que parece tan subjetivo?
En general, cuando se mide la calidad de la voz en comunicaciones teleIonicas, no
se habla de Iidelidad del sonido, sino de estos tres parametros basicos:
R Calidad de audicion. Como se escucha, si se entiende bien.
R Calidad de conversacion. Como se interactua.
R Calidad de transmision. Calidad de la red.
En cualquier caso, el objetivo de las mediciones es poder medir las mejoras de un
sistema concreto o realizar comparaciones entre sistemas distintos. Para ello, suele ser
suIiciente con medir uno o dos de los parametros anteriores.
Aunque parece una tarea complicada, el hecho es que existen diversos mtodos
normalizados para realizar mediciones de la calidad de la voz. Los mas conocidos son:
MOS, PSQM y PAMS
Mtodo subjetivo. MOS
MOS (Mean Opinion Score, Valoracion media de opinion`) Iue uno de los
primeros mtodos de medicion de la calidad de la voz. Se trata de un sistema de
valoracion subjetiva que consiste en evaluar la calidad de distintas muestras y ponderar
CAPTULO 3: DIGITALIZACIN DE LA VOZ

ITES-Paraninfo
los resultados para obtener una puntuacion media. El sistema MOS dispone de una escala
de cinco puntos con el siguiente signiIicado:
1. 0DOD. Distorsion muy molesta
2. 3REUH. Distorsion molesta
3. 5HJXODU. Distorsion perceptible y ligeramente molesta
4. %XHQD. Nivel de distorsion perceptible pero no molesta
5. ([FHOHQWH. Sin distorsion
Para realizar una valoracion se elige un grupo de personas (un minimo de 30) que
participan en una conversacion empleando el sistema que se pretende evaluar o escuchan
una seleccion de muestras de voces sometidas a dicho sistema. Cada participante valora
la conversacion o cada una de las muestras de acuerdo a la escala anterior. El resultado
Iinal asignado es el valor medio de las distintas valoraciones. Para la realizacion de las
pruebas suelen utilizarse una seleccion de Irases hechas (por ejemplo, las conocidas
como Irases de Harvard, Harvara sentences) que estan pensadas para contener todos los
sonidos que, tipicamente, nos podemos encontrar en una conversacion.

Figura 3.2. Software ae analisis ae JoIP
VOIP. LA TELEFONA DE INTERNET

42 ITES-Paraninfo

El sistema MOS esta recogido en la recomendacion P.800 de la UIT-T. Para
asegurar en lo posible la objetividad de la medicion, esta recomendacion incluye una
serie de indicaciones relativas a la seleccion de participantes, el entorno donde se deben
realizar las pruebas, explicacion de la valoracion, analisis de resultado, etc. Idealmente, si
se realizasen dos evaluaciones distintas a un mismo sistema debieran obtenerse
puntuaciones similares.
Desde el punto de vista practico, una puntuacion MOS de 4 o superior supone una
alta calidad de voz.
El gran inconveniente del sistema MOS es que su realizacion tiene un alto coste
debido a los recursos y personas que deben involucrarse.
Mtodos objetivos
En la idea de reducir los costes de evaluacion de la calidad de la voz, la UIT-T saco
en 1998 una nueva recomendacion, la P.861. Esta recomendacion recoge las
caracteristicas del sistema conocido como PSQM (3HUFHSWXDO 6SHHFK 4XDOLW\
0HDVXUHPHQW, Medicion perceptiva de la calidad del habla`), desarrollado por el
Instituto KPN de Holanda.
La gran ventaja de este nuevo sistema es que se trata de un mtodo objetivo que se
lleva a cabo mediante el empleo de un dispositivo electronico.
El sistema PSQM se basa en una comparacion entre la seal a evaluar y la seal de
origen. La prueba incluye una serie de algoritmos que determinan los eIectos de un
conjunto de variables como: la persona que habla (hombre, mujer o nio), el volumen de
la voz original, el retardo, el porcentaje de silencio o el ruido ambiental. La puntuacion
Iinal se obtiene despus de realizar distintas mediciones. La escala de valores varia entre
el 0, equivalente al valor MOS 5, y el 6,5, equivalente al valor MOS 1.
Recientemente, la UIT-T ha reemplazado la recomendacion P.861 por la P.862,
mas conocida como PESQ (3HUFHSWXDO (YDOXDWLRQ RU 6SHHFK 4XDOLW\, Evaluacion
perceptiva de la calidad del habla`). La escala PESQ se mueve en el rango de -1 a 4,5.
Otro de los sistemas objetivos de evaluacion de la calidad de la voz es el conocido
como PAMS (3HUFHSWXDO$QDO\VLV0HDVXUHPHQW6\VWHP, Sistema perceptivo de medida
y analisis`). Este sistema pretende medir el nivel de esIuerzo necesario para comprender
el habla. Para realizarlo se llevan a cabo distintas comparaciones entre el sonido original
y resultante. El resultado es un valor en la escala de 1 a 5.
CAPTULO 3: DIGITALIZACIN DE LA VOZ

ITES-Paraninfo 43

)LJXUD0HGLFLyQGHODFDOLGDGGHODYR]
A pesar de las grandes ventajas de las mediciones objetivas, el mtodo MOS oIrece
una mayor Iiabilidad. Frecuentemente son utilizados los mtodos objetivos en las
practicas de laboratorio y MOS como medicion deIinitiva de calidad.
RETOS DE LA TRANSMISIN DE LA VOZ
Tradicionalmente, uno de los temas mas criticos de la teleIonia IP ha sido la calidad
de la voz. Los primeros sistemas de voz sobre IP oIrecian una calidad de sonido
claramente mejorable y, lo que era peor, esta calidad variaba en el tiempo. La razon es
simple, la tecnologia IP no Iue diseada para soportar el intercambio de voz o de
cualquier otro tipo de seal interactiva en tiempo real (por ejemplo, video). IP Iue
diseado para la transmision de datos, donde resulta extremadamente importante que no
se pierda ni un solo bit, aunque es extremadamente tolerante con el retardo. La voz, sin
embargo, es muy sensible al retardo, aunque no importa que algun bit no llegue al destino
(se admite una prdida de hasta el 5). Por tanto, es claro que la transmision de la voz
tiene unos requisitos diIerentes a la de los datos.