Documentos de Académico
Documentos de Profesional
Documentos de Cultura
25
precisión. Algunos ejemplos son IBM Viavoice y Dragon Al igual que las otras técnicas de tratamiento digital de voz
Naturally Speaking que proporcionan capacidades de [2], el primer paso consiste en la digitalización de la señal
reconocimiento de habla contínua, con vocabularios de analógica captada por un micrófono. El resultado de este
hasta 60.000 palabras. Mediante el uso de kits de desarrollo primer paso son muestras PCM, que pueden considerarse
de aplicaciones (API o SDK) es posible aprovechar toda la como un primer formato digital a partir del cual se aplican
tecnología existente y aplicarla a nuestros problemas algoritmos de compresión. La figura 1 resume mediante un
concretos, programando a nivel de aplicación y sin requerir ejemplo el proceso de conversión a muestras PCM,
conocimientos de tratamiento de voz. consistente en muestrear la señal analógica y aplicarle un
cuantificador a los valores de amplitud.
3. Síntesis de voz
El objetivo de la síntesis de voz es conseguir que el
cuantificación
7 1 1
ordenador “lea” un texto y lo reproduzca mediante un 6 1 1
5 1
altavoz, de forma que no sea necesario leer de pantalla.
nivel de
4
3 0 0
Está relacionada con la codificación, puesto que para 2
vocabularios muy limitados es posible almacenar las 1
0 0
diferentes realizaciones mediante una grabación
(comprimida o no), cuando el texto a sintetizar es muy
amplio este sistema se vuelve inviable, puesto que sería PCM
tremendamente costoso almacenar en una memoria todas las
palabras posibles. En estos casos, se han desarrollado
sistemas de síntesis de voz que permitan transcribir un
instantes de muestreo
fichero de texto a una señal acústica semejante a la que se
obtendría si una persona leyera dicho texto. Una de las Obsérvese que cada uno de los valores del cuantificador se
aplicaciones más importantes de la síntesis de voz es la representa mediante el tren de pulsos indicado en la tabla 1.
ayuda a discapacitados. La mayor parte de programas
comerciales de reconocimiento del habla incorporan Fig. 1. Ejemplo de muestras PCM
también funciones de síntesis. Para obtener una nivel de Código PCM forma de
demostración de un sistema conversor texto voz, puede cuantificacion natural onda PCM
bajarse un programa (libre) desarrollado en la Universidad
de Edimburgo: http://www.cstr.ed.ac.uk/projects/festival.html
0 000
4. Mejora de voz
En muchos contextos la calidad de la señal de voz se
degrada. En estos casos, se pueden aplicar técnicas de 1 001
procesado de señal para mejorar la calidad de la voz. Por
ejemplo, eliminación de ecos, ruidos, sustitución de
paquetes perdidos en telefonía por conmutación de 2 010
paquetes, etc.
5. Compresión 3 011
Las técnicas de codificación de voz pretenden reducir el
volumen de información necesario para almacenar o
transmitir una señal de voz, de forma que la pérdida de 4 100
calidad de la señal decodificada respecto a la señal sin 101
comprimir sea lo menor posible. Por supuesto, deberá
mantenerse la inteligibilidad del mensaje, y existirá un 5
compromiso calidad versus tasa de compresión,
complejidad computacional, etc.
6 110
Para estudiar los diferentes algoritmos existentes, resulta
útil una primera clasificación en dos grandes grupos:
métodos de codificación de forma de onda, y métodos
paramétricos. Mientras que los primeros intentan reproducir 7 111
fielmente la forma de onda de la señal a codificar, los
segundos se basan en un modelo de producción del habla, e Tabla 1: Ejemplo de códigos PCM
intentan reproducir en el proceso de decodificación una El valor de los niveles de salida del cuantificador dependerá
señal que al escucharla se parezca a la original, aunque del tipo de cuantificador (uniforme, no uniforme,
existan distorsiones en la forma de onda generada. adaptativo, etc.) así como del número de niveles y margen
Las características y aplicaciones de cada uno de los dinámico de la señal. En determinadas aplicaciones, de
métodos serán muy diferentes. procesado de señal, se utilizan los cuantificadores
vectoriales, cuyo funcionamiento es análogo al
cuantificador clásico (escalar) con la diferencia de que los
26
valores de entrada y salida son grupos de muestras cuantificador suele ser adaptativo, dando lugar a la
(vectores). modulación delta adaptativa.
Dependiendo de la aplicación, la representación PCM La figura 3 muestra un ejemplo de codificación delta
requerirá un mayor o menor número de bits. Algunos adaptativa de una frase de voz muestreada a 16kHz. La
ejemplos son: figura muestra la señal original, la codificada, el valor del
paso de cuantificación (delta) y el error de reconstrucción
• Señal de voz transmitida por una línea telefónica RDSI:
(diferencia entre la señal original y la reconstruida).
8 bits por muestra (cuantificación logarítmica) y 8kHz
de frecuencia de muestreo. Modulación delta adaptativa
• Señal de un CD: 16 bits por muestra y 44.1 kHz de 0.5
original
frecuencia de muestreo 0
-0.5
• En estudios de grabación, suelen usarse grabaciones a 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000
~x[n] ˆx[n] ˆ
d[n] Filt. Corr. Filt.Corr.
P Multipuls Largo plazo corto plazo
Filt. de Filtro de
Estocástico Correlación Corr.Corto
Largo plazo plazo
Figura 4: Diversos modelos paramétricos.
Figura 2. Esquema de codificación DPCM Básicamente consisten en modelar el sistema fonador
Existe una versión simplificada de codificador diferencial humano como una señal de excitación y un filtro (que
que recibe el nombre de codificador o modulador delta. modela el tracto vocal y las cavidades acústicas atravesadas
por loa señal de excitación).
Este sistema consiste en utilizar el mismo diagrama de
bloques de la figura 2 usando un cuantificador de un único El modelo más sencillo y que proporciona mayores tasas de
bit, y un predictor lineal de orden uno. Para que el sistema compresión es el VOCODER LPC. A diferencia de la
funcione correctamente, la señal de voz debe estar codificación diferencial, no se realiza una codificación de
sobremuestreada. De esta forma aumenta la correlación forma de onda muestra a muestra, sino que se realiza una
entre muestras consecutivas, y por tanto se reduce el simplificación. En primer lugar, se clasifican las tramas en
margen dinámico del error de predicción. Por otra parte, el dos grandes tipos, según si presentan sonoridad o no. En los
segmentos sonoros se obtiene el valor de la frecuencia
27
fundamental de vibración de las cuerdas vocales, o valor de Cuando el número de codificadores a comparar es elevado,
pitch. Dado que la fisiología del aparato fonador humano se realiza una audición de todos ellos, y los oyentes los
establece unos límites superior e inferior del valor de pitch puntúan de acuerdo con la tabla 2
(entre 50 y 800 Hz equivalente a un margen de 10 a 160
Puntuación Calidad Valoración de la degradación
muestras a una frecuencia de muestreo de 8 KHz). Se
5 Excelente Imperceptible
asigna un valor de pitch nulo a las tramas etiquetadas como
sordas. De este modo, se establece un conjunto de 12 4 Buena Perceptible pero no molesta
parámetros reales cada 25 ms que deberán ser transmitidos 3 Aceptable Ligeramente molesta
al sistema receptor. Para que su representación sea 2 Pobre Molesta
eficiente, deberán ser cuantificados y codificados de forma 1 Insatisfactoria Muy molesta
conveniente. Tabla 2: Evaluación subjetiva de codificadores
Para detectar la sonoridad de una trama, existen diversas Realizando un promediado de las puntuaciones otorgadas
alternativas, incluyendo la combinación de varios métodos, por todos los oyentes, se extrae el MOS (Mean Opinion
para tomar una decisión conjunta. Algunos de los sistemas Score), que representa la calidad subjetiva de un
empleados son: cálculo del número de cruces por cero, codificador concreto.
energía de la trama o del error de predicción, máximo
Lógicamente la calidad de un codificador está en
secundario de la autocorrelación o del cepstrum, etc.
contraposición con su tasa de bits: cuanto menor sea la tasa
Si una trama es sonora, su señal de excitación de bits menor será la calidad de la voz recuperada.
correspondiente se modela mediante un tren de deltas de
A parte de la calidad y la tasa de bits también son
frecuencia el periodo de pitch. Si la trama es sorda, se
importantes la complejidad computacional (que condiciona
utiliza ruido blanco gausiano. La potencia de la señal de
directamente el coste del equipo) y el retardo necesario para
entrada al filtro de síntesis debe ser igual a la potencia del
realizar el procesado de las muestras, puesto que éste se
error de predicción.
añade a los retardos de transmisión, y si es elevado puede
La voz sintetizada mediante un vocoder LPC presenta una ser molesto y requerir el uso de canceladores de eco, lo cual
calidad "robótica", aunque se entiende perfectamente el incrementa el coste de los equipos. La tabla 3 compara los
mensaje. principales esquemas de codificación.
El codificador CELP almacena varias excitaciones posibles Codificador Tasa Complejidad Retardo Calidad MOS
en una tabla de códigos de excitaciones (codebook), de bits [MIPS] [ms]
forma que tiene lugar un proceso de optimización en lazo Kb/s
cerrado para determinar la señal de excitación que se PCM 64 0.01 0 Alta >4
entrará al filtro LPC. En este proceso se escoge la señal de ADPCM 32 0.1 0 Alta >4
excitación que proporcione la señal decodificada de la ASBC 18 1 25 Alta >4
máxima calidad perceptual de todas las posibles MPLPC 8 10 35 Comunicaciones >2
(procedimiento de análisis por síntesis). Mediante estos CELP 4 100 35 Comunicaciones >2
codificadores es posible trabajar en el margen de Vocoder LPC 2 1 35 sintética <2
velocidades de 4.8 Kb/s a 9.6 Kb/s.
Tabla 3: Comparación entre codificadores
La predicción lineal multipulso (MPLPC) fue el primero de La tabla 4 resume los principales estándares de codificación
los esquemas de análisis por síntesis. No realiza ninguna de audio.
suposición sobre la señal de excitación, y consiste en
especificar la señal de excitación mediante un conjunto Estándar Año Tasa de Características
pequeño de pulsos de diferentes amplitudes situados en bits kb/s
intervalos no espaciados uniformemente. La codificación G.711 1988 64 PCM en el margen de
consiste en determinar la posición y las amplitudes de los frecuencias de voz
pulsos que producen mínimo error. La única información
que debe fijarse a priori es el número de pulsos necesarios G.722 1988 64 Codificación de audio (por
en el análisis de cada bloque. Usualmente suele utilizarse un subandas) con ancho de banda
7 kHz
pulso cada 8 muestras. El MPLPC sería equivalente a un
CELP con todas las combinaciones posibles de números de G.723.1 1996 5,3 y 6,3 CELP algebraico y multipulso
pulsos y sus posibles valores de amplitudes cuantificadas.
G.728 1992 16 LD-CELP (CELP de bajo
Una de sus variantes está implementada en el estándar de retardo)
codificación europeo de telefonía móvil GSM.
G.729 1996 8 CS-ACELP (CELP algebraico
5.3 Evaluación de los codificadores de estructura conjugada)
Para evaluar la calidad de la voz codificada existen diversos Tabla 4: Estándares de la ITU
sistemas. Uno de ellos consiste en realizar pruebas
comparativas entre dos codificadores (que se deseen Referencias
comparar) realizando audiciones de una misma señal
[1] M. Faúndez Sistemas de Comunicaciones, Marcombo 2001
codificada por ambos métodos. Entonces, se evalúa el
porcentaje de oyentes que han preferido (considerado de [2] M. Faúndez Tratamiento digital de voz e imagen,
más calidad) cada uno de ellos, y el porcentaje de indecisos. Marcombo 2000
28