Está en la página 1de 4

Aplicaciones del tratamiento de voz: compresión

Marcos Faúndez Zanuy


Escola Universitària Politècnica de Mataró (EUPMT) adscrita a la UPC
Avda. Puig i Cadafalch 101-111 08303 MATARO (BARCELONA)
tel: 93 757 44 04 fax: 93 757 05 24 e-mail: faundez@eupmt.es http://www.eupmt.es/veu

Entre las principales aplicaciones del reconocimiento del


Resumen
habla cabe destacar:
Este artículo resume el estado del arte y aplicaciones del
tratamiento del habla: reconocimiento de locutor y del • Servicios de audiotext: a partir de un sistema de
habla, síntesis, codificación y mejora. Se proporcionan navegación de menús mediante números, es posible
direcciones web y programas comerciales ilustrativos de las extraer información de cines, transportes, procesos de
diversas aplicaciones, con especial énfasis en aquellos renovación de documentos, etc. Por ejemplo, un
productos que pueden ser adaptados por los programadores sistema puede preguntarnos nuestro código postal para
a problemas específicos. Se trata con mayor detalle las informarnos de la oficina de policía más cercana para
aplicaciones de compresión de voz. renovar el documento nacional de identidad. La
principal ventaja respecto a un sistema de información
1. Introducción clásico es la posibilidad de disponer del servicio las 24
horas del día todos los días del año, o disponer del
Sin duda alguna, la voz es la forma más natural y eficiente servicio en varios idiomas seleccionables mediante la
de comunicación entre los seres humanos. Sin embargo, información de los menús.
cada vez son más frecuentes las situaciones en las que la
comunicación se establece con una máquina, o aquellas en • Transcripción automática de conversaciones: a partir
las que una máquina puede ayudar a la comunicación entre de las señales de voz de entrada es posible generar un
dos seres humanos. Si la persona y el ordenador están en fichero de texto de salida, fácilmente procesable dentro
una misma ubicación es posible usar diversos periféricos. de un ordenador, y almacenable con un tamaño
Por ejemplo el teclado, ratón, pantalla táctil, etc. En sensiblemente menor.
aquellos casos en los que el ordenador esté en una posición • Dictado automático de textos: para discapacitados
central y deba accederse a él desde cualquier posición resulta útil la posibilidad de dar órdenes a través de la
geográfica, la línea telefónica ofrece un sistema de acceso voz, redactar textos sin necesidad de usar el teclado,
remoto inmejorable: el teléfono de nuestras casas, las etc.
cabinas telefónicas, y los teléfonos móviles permiten el
acceso desde prácticamente cualquier punto del mundo. En • Control a distancia: mediante una conexión telefónica y
estas situaciones resulta más deseable, económico y sencillo un ordenador con el programa adecuado, pueden
para el usuario, poder establecer una comunicación oral con realizarse consultas de saldos bancarios, dar órdenes de
la máquina. En caso contrario el locutor debería disponer de compra y venta de acciones, controlar la calefacción de
otro ordenador y un modem [1]. Lógicamente será nuestros hogares, sistemas de riego, etc.
necesario abordar los problemas descritos a continuación. Entre las principales aplicaciones del reconocimiento de
locutor cabe destacar:
2. Reconocimiento del habla y de locutor • Acceso a recintos o informaciones: mediante la voz es
El reconocimiento automático del habla permite al posible identificar a las personas, y permitirles acceder
ordenador interpretar el significado de nuestras palabras y a o no a fábricas, hogares, informaciones bancarias
partir de ellas tomar decisiones, ejecutar órdenes, etc. privadas o de determinados grupos de trabajo, etc.
Dependiendo de la aplicación el ordenador deberá
confirmar previamente que el usuario que realiza la llamada • Reconocimiento de sospechosos: a partir de
está autorizado a acceder a la información, dar órdenes, etc. grabaciones policiales, es posible identificar a qué
haciendo necesario abordar un segundo problema. individuo pertenece la voz de la grabación.

El reconocimiento de locutor permite al ordenador conocer • Transcripción automática de reuniones: en reuniones


quién es la persona que accede al sistema (identificación de con diversos oradores interesa disponer de la
locutor), o pedir una clave al locutor (código secreto) y transcripción de las frases habladas (reconocimiento
comprobar que realmente es quien dice ser (verificación de del habla), así como de las identidades de las personas
locutor). Sin lugar a dudas, en las aplicaciones en las que la que han realizado las alocuciones.
seguridad desempeñe un papel importante, la voz es la Si bien las prestaciones de los sistemas actuales son
característica biométrica, personal e intransferible, más fácil inferiores a la capacidad humana para reconocer palabras e
de enviar por medio telefónico, frente a otros sistemas identificar personas a partir de la voz, existen productos
como huellas dactilares, análisis de la retina, etc. comerciales en el mercado que cada vez ofrecen una mayor

25
precisión. Algunos ejemplos son IBM Viavoice y Dragon Al igual que las otras técnicas de tratamiento digital de voz
Naturally Speaking que proporcionan capacidades de [2], el primer paso consiste en la digitalización de la señal
reconocimiento de habla contínua, con vocabularios de analógica captada por un micrófono. El resultado de este
hasta 60.000 palabras. Mediante el uso de kits de desarrollo primer paso son muestras PCM, que pueden considerarse
de aplicaciones (API o SDK) es posible aprovechar toda la como un primer formato digital a partir del cual se aplican
tecnología existente y aplicarla a nuestros problemas algoritmos de compresión. La figura 1 resume mediante un
concretos, programando a nivel de aplicación y sin requerir ejemplo el proceso de conversión a muestras PCM,
conocimientos de tratamiento de voz. consistente en muestrear la señal analógica y aplicarle un
cuantificador a los valores de amplitud.
3. Síntesis de voz
El objetivo de la síntesis de voz es conseguir que el

cuantificación
7 1 1
ordenador “lea” un texto y lo reproduzca mediante un 6 1 1
5 1
altavoz, de forma que no sea necesario leer de pantalla.

nivel de
4
3 0 0
Está relacionada con la codificación, puesto que para 2
vocabularios muy limitados es posible almacenar las 1
0 0
diferentes realizaciones mediante una grabación
(comprimida o no), cuando el texto a sintetizar es muy
amplio este sistema se vuelve inviable, puesto que sería PCM
tremendamente costoso almacenar en una memoria todas las
palabras posibles. En estos casos, se han desarrollado
sistemas de síntesis de voz que permitan transcribir un
instantes de muestreo
fichero de texto a una señal acústica semejante a la que se
obtendría si una persona leyera dicho texto. Una de las Obsérvese que cada uno de los valores del cuantificador se
aplicaciones más importantes de la síntesis de voz es la representa mediante el tren de pulsos indicado en la tabla 1.
ayuda a discapacitados. La mayor parte de programas
comerciales de reconocimiento del habla incorporan Fig. 1. Ejemplo de muestras PCM
también funciones de síntesis. Para obtener una nivel de Código PCM forma de
demostración de un sistema conversor texto voz, puede cuantificacion natural onda PCM
bajarse un programa (libre) desarrollado en la Universidad
de Edimburgo: http://www.cstr.ed.ac.uk/projects/festival.html
0 000
4. Mejora de voz
En muchos contextos la calidad de la señal de voz se
degrada. En estos casos, se pueden aplicar técnicas de 1 001
procesado de señal para mejorar la calidad de la voz. Por
ejemplo, eliminación de ecos, ruidos, sustitución de
paquetes perdidos en telefonía por conmutación de 2 010
paquetes, etc.

5. Compresión 3 011
Las técnicas de codificación de voz pretenden reducir el
volumen de información necesario para almacenar o
transmitir una señal de voz, de forma que la pérdida de 4 100
calidad de la señal decodificada respecto a la señal sin 101
comprimir sea lo menor posible. Por supuesto, deberá
mantenerse la inteligibilidad del mensaje, y existirá un 5
compromiso calidad versus tasa de compresión,
complejidad computacional, etc.
6 110
Para estudiar los diferentes algoritmos existentes, resulta
útil una primera clasificación en dos grandes grupos:
métodos de codificación de forma de onda, y métodos
paramétricos. Mientras que los primeros intentan reproducir 7 111
fielmente la forma de onda de la señal a codificar, los
segundos se basan en un modelo de producción del habla, e Tabla 1: Ejemplo de códigos PCM
intentan reproducir en el proceso de decodificación una El valor de los niveles de salida del cuantificador dependerá
señal que al escucharla se parezca a la original, aunque del tipo de cuantificador (uniforme, no uniforme,
existan distorsiones en la forma de onda generada. adaptativo, etc.) así como del número de niveles y margen
Las características y aplicaciones de cada uno de los dinámico de la señal. En determinadas aplicaciones, de
métodos serán muy diferentes. procesado de señal, se utilizan los cuantificadores
vectoriales, cuyo funcionamiento es análogo al
cuantificador clásico (escalar) con la diferencia de que los

26
valores de entrada y salida son grupos de muestras cuantificador suele ser adaptativo, dando lugar a la
(vectores). modulación delta adaptativa.
Dependiendo de la aplicación, la representación PCM La figura 3 muestra un ejemplo de codificación delta
requerirá un mayor o menor número de bits. Algunos adaptativa de una frase de voz muestreada a 16kHz. La
ejemplos son: figura muestra la señal original, la codificada, el valor del
paso de cuantificación (delta) y el error de reconstrucción
• Señal de voz transmitida por una línea telefónica RDSI:
(diferencia entre la señal original y la reconstruida).
8 bits por muestra (cuantificación logarítmica) y 8kHz
de frecuencia de muestreo. Modulación delta adaptativa
• Señal de un CD: 16 bits por muestra y 44.1 kHz de 0.5
original
frecuencia de muestreo 0

-0.5
• En estudios de grabación, suelen usarse grabaciones a 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000

20 bits por muestra, que tras hacer las mezclas, se 0.5


0
decodificada
estampan en CD’s a 16 bits por muestra. -0.5
1000 2000 3000 4000 5000 6000 7000 8000 9000 10000

5.1 Codificadores de forma de onda 0.2


delta
Aún en el caso de utilizar una frecuencia de muestro de
8KHz (ancho de banda de 4KHz) y 8 bits por muestra para 0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000

representar una señal de voz, la tasa de bits resultante es de 0.5


error
64Kbps, lo cual resulta excesivo en múltiples aplicaciones. 0
Por ello, se han desarrollado técnicas que permitan una -0.5
1000 2000 3000 4000 5000 6000 7000 8000 9000 10000

mejor representación de la señal de voz, eliminando la Nº de muestra


redundancia presente entre muestras consecutivas.
Figura 3: Ejemplo de codificación delta adaptativa
Una primera posibilidad es usar un codificador DPCM o
PCM diferencial, consistente en codificar para cada muestra
una versión cuantificada de la diferencia entre su valor real
5.2 Codificadores paramétricos
y el valor obtenido mediante un proceso de predicción. La Los esquemas de codificación paramétrica se basan en la
predicción está formada por una combinación de muestras obtención de los parámetros de un modelo de producción de
anteriores (y por tanto ya codificadas previamente y señal de voz. En el emisor se analiza la señal de voz,
disponibles en el decodificador). La figura 2 muestra el correspondiente a un segmento temporal considerado
esquema DPCM. En el caso de utilizar un cuantificador o/y estacionario, y se obtiene el conjunto de parámetros que lo
un predictor adaptativo, el esquema se denomina DPCM han generado. Estos parámetros son los que se transmiten y
adaptativo, o abreviadamente ADPCM. el receptor reproduce con ellos una señal de características
análogas a la señal original.
La figura 4 esquematiza varios modelos paramétricos para
x[n] d[n] c[n] codificar voz.
+ Q Habla Sintética
Excitación
-
-1 Conmutador Filtro
Q Vocoder Sonoro/Sordo LPC

~x[n] ˆx[n] ˆ
d[n] Filt. Corr. Filt.Corr.
P Multipuls Largo plazo corto plazo

Filt. de Filtro de
Estocástico Correlación Corr.Corto
Largo plazo plazo
Figura 4: Diversos modelos paramétricos.
Figura 2. Esquema de codificación DPCM Básicamente consisten en modelar el sistema fonador
Existe una versión simplificada de codificador diferencial humano como una señal de excitación y un filtro (que
que recibe el nombre de codificador o modulador delta. modela el tracto vocal y las cavidades acústicas atravesadas
por loa señal de excitación).
Este sistema consiste en utilizar el mismo diagrama de
bloques de la figura 2 usando un cuantificador de un único El modelo más sencillo y que proporciona mayores tasas de
bit, y un predictor lineal de orden uno. Para que el sistema compresión es el VOCODER LPC. A diferencia de la
funcione correctamente, la señal de voz debe estar codificación diferencial, no se realiza una codificación de
sobremuestreada. De esta forma aumenta la correlación forma de onda muestra a muestra, sino que se realiza una
entre muestras consecutivas, y por tanto se reduce el simplificación. En primer lugar, se clasifican las tramas en
margen dinámico del error de predicción. Por otra parte, el dos grandes tipos, según si presentan sonoridad o no. En los
segmentos sonoros se obtiene el valor de la frecuencia

27
fundamental de vibración de las cuerdas vocales, o valor de Cuando el número de codificadores a comparar es elevado,
pitch. Dado que la fisiología del aparato fonador humano se realiza una audición de todos ellos, y los oyentes los
establece unos límites superior e inferior del valor de pitch puntúan de acuerdo con la tabla 2
(entre 50 y 800 Hz equivalente a un margen de 10 a 160
Puntuación Calidad Valoración de la degradación
muestras a una frecuencia de muestreo de 8 KHz). Se
5 Excelente Imperceptible
asigna un valor de pitch nulo a las tramas etiquetadas como
sordas. De este modo, se establece un conjunto de 12 4 Buena Perceptible pero no molesta
parámetros reales cada 25 ms que deberán ser transmitidos 3 Aceptable Ligeramente molesta
al sistema receptor. Para que su representación sea 2 Pobre Molesta
eficiente, deberán ser cuantificados y codificados de forma 1 Insatisfactoria Muy molesta
conveniente. Tabla 2: Evaluación subjetiva de codificadores
Para detectar la sonoridad de una trama, existen diversas Realizando un promediado de las puntuaciones otorgadas
alternativas, incluyendo la combinación de varios métodos, por todos los oyentes, se extrae el MOS (Mean Opinion
para tomar una decisión conjunta. Algunos de los sistemas Score), que representa la calidad subjetiva de un
empleados son: cálculo del número de cruces por cero, codificador concreto.
energía de la trama o del error de predicción, máximo
Lógicamente la calidad de un codificador está en
secundario de la autocorrelación o del cepstrum, etc.
contraposición con su tasa de bits: cuanto menor sea la tasa
Si una trama es sonora, su señal de excitación de bits menor será la calidad de la voz recuperada.
correspondiente se modela mediante un tren de deltas de
A parte de la calidad y la tasa de bits también son
frecuencia el periodo de pitch. Si la trama es sorda, se
importantes la complejidad computacional (que condiciona
utiliza ruido blanco gausiano. La potencia de la señal de
directamente el coste del equipo) y el retardo necesario para
entrada al filtro de síntesis debe ser igual a la potencia del
realizar el procesado de las muestras, puesto que éste se
error de predicción.
añade a los retardos de transmisión, y si es elevado puede
La voz sintetizada mediante un vocoder LPC presenta una ser molesto y requerir el uso de canceladores de eco, lo cual
calidad "robótica", aunque se entiende perfectamente el incrementa el coste de los equipos. La tabla 3 compara los
mensaje. principales esquemas de codificación.
El codificador CELP almacena varias excitaciones posibles Codificador Tasa Complejidad Retardo Calidad MOS
en una tabla de códigos de excitaciones (codebook), de bits [MIPS] [ms]
forma que tiene lugar un proceso de optimización en lazo Kb/s
cerrado para determinar la señal de excitación que se PCM 64 0.01 0 Alta >4
entrará al filtro LPC. En este proceso se escoge la señal de ADPCM 32 0.1 0 Alta >4
excitación que proporcione la señal decodificada de la ASBC 18 1 25 Alta >4
máxima calidad perceptual de todas las posibles MPLPC 8 10 35 Comunicaciones >2
(procedimiento de análisis por síntesis). Mediante estos CELP 4 100 35 Comunicaciones >2
codificadores es posible trabajar en el margen de Vocoder LPC 2 1 35 sintética <2
velocidades de 4.8 Kb/s a 9.6 Kb/s.
Tabla 3: Comparación entre codificadores
La predicción lineal multipulso (MPLPC) fue el primero de La tabla 4 resume los principales estándares de codificación
los esquemas de análisis por síntesis. No realiza ninguna de audio.
suposición sobre la señal de excitación, y consiste en
especificar la señal de excitación mediante un conjunto Estándar Año Tasa de Características
pequeño de pulsos de diferentes amplitudes situados en bits kb/s
intervalos no espaciados uniformemente. La codificación G.711 1988 64 PCM en el margen de
consiste en determinar la posición y las amplitudes de los frecuencias de voz
pulsos que producen mínimo error. La única información
que debe fijarse a priori es el número de pulsos necesarios G.722 1988 64 Codificación de audio (por
en el análisis de cada bloque. Usualmente suele utilizarse un subandas) con ancho de banda
7 kHz
pulso cada 8 muestras. El MPLPC sería equivalente a un
CELP con todas las combinaciones posibles de números de G.723.1 1996 5,3 y 6,3 CELP algebraico y multipulso
pulsos y sus posibles valores de amplitudes cuantificadas.
G.728 1992 16 LD-CELP (CELP de bajo
Una de sus variantes está implementada en el estándar de retardo)
codificación europeo de telefonía móvil GSM.
G.729 1996 8 CS-ACELP (CELP algebraico
5.3 Evaluación de los codificadores de estructura conjugada)
Para evaluar la calidad de la voz codificada existen diversos Tabla 4: Estándares de la ITU
sistemas. Uno de ellos consiste en realizar pruebas
comparativas entre dos codificadores (que se deseen Referencias
comparar) realizando audiciones de una misma señal
[1] M. Faúndez Sistemas de Comunicaciones, Marcombo 2001
codificada por ambos métodos. Entonces, se evalúa el
porcentaje de oyentes que han preferido (considerado de [2] M. Faúndez Tratamiento digital de voz e imagen,
más calidad) cada uno de ellos, y el porcentaje de indecisos. Marcombo 2000

28

También podría gustarte