Está en la página 1de 11

ENFOQUE ACÚSTICO FONÉTICO

1 INTRODUCCIÓN

El enfoque acústico fonético está basado en la teoría que postula que existe
un número finito y diferenciado de unidades fonéticas en el lenguaje
hablado, y que pueden ser caracterizadas por un conjunto de propiedades que
se manifiestan en la señal de voz a lo largo del tiempo.
Engloba todos aquellos procesos destinados a realizar una decodificación de
palabras a partir de las características diferenciadoras que la voz presenta y
de un conjunto de reglas, dispuestas en forma de sistema experto, que
existen en el habla.

Los fonemas se estructuran en palabras, y éstas en frases, que son las que
modelan las ideas. Aunque las propiedades acústicas de las unidades fonéticas
son altamente variables debido tanto a una variedad infinita de hablantes
como a la vecindad de las unidades fonéticas (conocidas como las co-
articulaciones de los sonidos), se asume que las reglas que gobiernan su
variabilidad son sencillas y pueden ser aprendidas de manera rápida para
poder implementarse en situaciones prácticas.

Definición de Acústica

El sonido se transmite a través de ondas longitudinales. Su intensidad depende


de la amplitud de onda y cuanto mayor es, más intensamente el tímpano
percibe una emisión de sonidos. Por otro lado, el tono permite diferenciar
entre los sonidos graves y los agudos (un sonido es más agudo si su frecuencia
es mayor). Mediante el timbre es posible distinguir dos notas iguales emitidas
por instrumentos diferentes. Éstos y otros principios asociados al sonido son
estudiados en una disciplina de la física, la acústica.

¿Qué es Fonética?

La Fonética es una rama de la Lingüística  que se encarga específicamente


del estudio del lenguaje articulado, acto del cual supone la presencia de por
lo menos dos personas: una que habla y otra que escucha. La primera produce
sonidos, la segunda los oye y los interpreta. Desde esta perspectiva podemos
decir entonces  que la fonética se ocupa de un doble aspecto: 
Aspecto acústico: estudia la estructura física de los sonidos utilizados y la
forma en la que el oído humano registra y percibe estos sonidos.
Aspecto articulatorio o fisiológico: que se ocupa de nuestro aparato fonador
y del modo en el que producimos los sonidos del lenguaje. 

.
Proceso de Comunicación

La comunicación es un proceso de intercambio de información en el cual un


emisor elabora un código (proceso de codificación), una serie de
pensamientos o ideas (mensaje) que transmite a través de un determinado
canal o medio de trasmisión (lenguaje oral, escrito o de signos), a un receptor
el cual organiza, comprende y reestructura el mensaje (proceso de
decodificación). Este trayecto del mensaje se conoce como: circuito del
habla, en la cual se distinguen cinco fases: CODIFICACIÓN, EMISIÓN,
TRANSMISIÓN, RECEPCIÓN Y DESCODIFICACIÓN.

Esquema del Proceso de Comunicación

La codificación y la descodificación son estudiadas por la Lingüística y la


Psicología, mientras que la emisión, trasmisión y recepción son el objeto de
estudio de la Fonética. Según como se considere la emisión, la transmisión o
la recepción de los elementos sonoros de una lengua, la fonética será
ARTICULATORIA o FISIOLÓGICA, ACÚSTICA O AUDITIVA

El habla como señal portadora de información lingüística

La emisión de un enunciado requiere el movimiento coordinado de un


conjunto de estructuras anatómicas: fonética articulatoria.
El resultado es una onda sonora producto de la corriente de aire originada en
los pulmones y modulada por el tracto vocal: fonética acústica.

La onda sonora es portadora de información lingüística que se transmite a un


receptor: fonética perceptiva.

El proceso de comunicación y la división de la fonética.

La información lingüística transmitida por el emisor se codifica en forma


de movimientos de los articuladores.

El movimiento de los articuladores produce una perturbación de las moléculas


de aire.

El movimiento de las moléculas se transmite en forma de onda sonora.

El sistema auditivo del receptor recoge la onda sonora y el


sistema perceptivo la procesa extrayendo la información lingüística.

La información lingüística está codificada en la onda sonora.


La codificación de la información lingüística en la onda sonora.

Información lingüística

Necesaria para que el interlocutor comprenda el mensaje que se transmite.

Información extralingüística

Información adicional sobre estado de ánimo, procedencia geográfica, grupo


social, intención comunicativa, etc.

La fonética acústica

Estudio de las relaciones entre la estructura acústica y los sonidos del habla
codificados en la onda sonora.
Oscilograma de la palabra «hola» pronunciada por un hablante de catalán.

Relación entre los indicios acústicos (acoustic cues) presentes en la onda


sonora y los rasgos fonéticos de los sonidos.

Indicios acústicos presentes en la onda sonora.

Los indicios acústicos como las transiciones, la oclusión o la explosión


proporcionan información sobre la clase de consonante.

La fonética acústica utiliza el método experimental.

Enfoque Acústico-Fonético

Consiste en detectar sonidos elementales y asignarles determinados rótulos.


La base de este enfoque es la hipótesis de que en el lenguaje hablado existe
un número finito de unidades fonéticas distintas (fonemas fonemas) y que
estas unidades pueden caracterizarse por un conjunto de propiedades
acústicas que se manifiestan en la señal hablada en función del tiempo. Si
bien las propiedades acústicas de los fonemas son altamente variables con el
locutor y con los fonemas vecinos (co-articulación de sonidos), se asume que
las reglas que gobiernan la variabilidad son simples y pueden ser aprendidas
fácilmente por el sistema de reconocimiento.
El reconocimiento consiste básicamente de dos pasos:
 Primer paso: segmentación y rotulado. La señal es dividida en regiones
acústicas a las que son asignados uno o más fonemas, resultando en una
caracterización de la señal de voz mediante un reticulado de fonemas.
 Segundo paso: se trata de determinar una palabra (o conjunto de
palabras) válida a partir de la secuencia de fonemas rotulados en el
primer paso. Se introducen en esta etapa restricciones lingüísticas
(vocabulario, sintaxis, y reglas semánticas)

RECONOCIMIENTO
En un reconocedor de voz basado en el enfoque acústico-fonético se pueden
distinguir un conjunto de bloques de procesado, como se observa en la
siguiente figura.

Bloques de un reconocedor de voz basado en un enfoque acústico-fonético

En un reconocedor basado en sistemas expertos, existe una fase que extrae


las reglas de producción a partir del análisis de la señal de voz. En el
momento del reconocimiento, se aplican estas reglas para obtener la
secuencia de palabras reconocidas a partir de las características detectadas.
Análisis acústico de la señal de voz
Se tiene una señal de voz, obtenida a través de un micrófono, a partir de las
variaciones de presión, sobre ella se aplica un procesado inicial, que es
básicamente la transformación de la señal de su dominio temporal a
frecuencial haciendo uso de la transformada de Fourier en un banco de
filtros perceptuales.

Otros análisis que también se utilizan son la envolvente espectral obtenida a


través del cálculo de los coeficientes de predicción lineal, en inglés Linear
Predictive Coding (LPC), o el número de cruces por cero. Las características
obtenidas se denominan características acústicas.

Detección de características fonéticas


Tras el análisis acústico de la señal de voz, se realiza la extracción de los
parámetros denominados características fonéticas, que se consideran
discriminativos desde un punto de vista perceptual.

Una característica fonética es la propiedad mínima que presenta un


fragmento de la señal de voz y que diferencia a dos unidades diferentes.
Entre las características fonéticas más usuales se encuentran, el cálculo de la
frecuencia fundamental de las cuerdas vocales, los valores de los formantes
de la voz, la detección del grado de sonoridad, el grado de fricción, etc.
Fase de segmentación y etiquetado
La señal de voz es dividida en regiones en las que las características fonéticas
son similares, para que puedan ser asignadas a una o varias categorías
fonéticas, posteriormente utilizadas para realizar la decodificación de la
secuencia de palabras.

Esta es usualmente la etapa más difícil de llevar a cabo en forma confiable. El


resultado es un reticulado de fonemas a partir del cual se determina la
palabra que mejor se ajusta, teniendo en cuenta restricciones lingüísticas,
como el vocabulario, sintaxis y semántica.

Segmentación y etiquetado de la secuencia de dígitos en Inglés Seven-Six


El símbolo “sil” significa un silencio o pausa entre sonidos o palabras, la
posición vertical en la red , para cualquier tiempo, es una medida del
mejor patrón identificado para una unidad fonética, con las unidades
superiores siendo las que mejores califican. Mediante una labor de
búsqueda, es posible derivar la cadena: sil-AO-L-AX-B-AW-T que
corresponde a las palabras “all about” (todo sobre), con los fonemas L, AX y B
siendo las segundas o terceras opciones en la red y los otros fonemas
siendo las primeras opciones. La Figura ilustra la dificultad en decodificar
unidades fonéticas en palabras.

Red fonética para la palabra “all about”


Fase de discriminación

Su función es la decodificación de las palabras pronunciadas a partir del


conjunto de categorías fonéticas obtenidas en la fase previa. Usa reglas
sintácticas y semánticas obtenidas mediante el estudio de la señal de voz, y
que imponen restricciones para llevar a cabo la discriminación entre las
palabras pronunciadas.

La fase de discriminación se realiza a partir del bloque de estrategia de


control. La estrategia de control puede funcionar de dos maneras diferentes:

 Estrategia de control Bottom-Up

Parte de las características obtenidas en los bloques de análisis acústico y


fonético, para construir la secuencia de palabras reconocidas.

 Estrategia de control Top-Down

Esta estrategia empieza por escoger un conjunto de secuencias de palabras


candidatas, las cuales van siendo descartadas en función de las características
fonéticas encontradas. La secuencia de palabras reconocida se corresponde
con la que tenga mayor posibilidad de haber sido generada. Estas dos
estrategias de control presentan el inconveniente de que una vez que se dan
por buenas las categorías fonéticas detectadas, éstas no pueden volver a
verificarse y si alguna fuera errónea el reconocedor no podría recuperarse.
Por eso, suelen implementarse estrategias de control mixtas que combinan
ambas.

Una estrategia de control de tipo mixto empieza por un control


estratégico tipo Bottom-Up, que obtiene un conjunto de hipótesis a partir de
las características fonéticas más fiables. Luego, usando el resto de
características fonéticas se realiza un procesado Top-Down que se encarga
de verificarlas. A continuación, se vuelve a generar otro nuevo conjunto
de hipótesis que se vuelven a verificar. Este proceso cíclico acaba
cuando se obtiene una secuencia de palabras bastante fiable.

PROBLEMAS CON EL ENFOQUE ACÚSTICO-FONÉTICO

Por una variedad de diferentes razones, el enfoque acústico-fonético no ha


logrado el mismo éxito en sistemas prácticos que tienen métodos alternativos.
Algunas de estas razones son:

 El método requiere un amplio conocimiento de las propiedades


acústicas de las unidades fonéticas. Este conocimiento, es a lo mejor
incompleto, y en el peor de los casos no disponible para las situaciones
más simples.
 La escogencia de las características es realizada en su mayor parte por
consideraciones ad-hoc. Para sistemas de mayor envergadura la
escogencia de las características está basada en la intuición y no es
óptima en casos variables o bien definidos.
 El diseño de un clasificador de sonidos tampoco es óptimo. Métodos ad-
hoc son generalmente usados para construir árboles binarios de
decisión.
 Los procedimientos automáticos existentes no son bien definidos
acorde con los sistemas reales, en el etiquetado del habla. En realidad,
no hay un camino ideal para el etiquetado y segmentación en el
entrenamiento del habla de una manera uniforme y consistente.

Conclusiones
Resulta evidente por todo lo expuesto en este ensayo que actualmente, la
aplicación de la Fonética Acústica a los estudios descriptivos de una lengua o
de una variedad dialectal es cada vez más importante, llegando a ser
prácticamente imprescindible.

Basado en lo anterior puede inferirse que hoy en día el profesional en Terapia


del Lenguaje, debe familiarizarse un poco más con términos como
Espectrogramas, formantes, frecuencia fundamental, armónicos, etc., propios
de la fonética acústica, que al parecer revelan información más detallada y
objetiva acerca de los distintos sonidos producidos en una lengua.  Esto sin
dejar de lado las características propuestas por la fonética articulatoria
tradicional y sus características nasales, orales, velares, etc., y que
anteriormente era considerada como la más  adecuada para estudiar la
producción de los sonidos desde el punto de vista fonético. 

El conocimiento de la fonética y especialmente la fonología, nos proporciona


una visión de la importancia que revisten las normas de pronunciación, en
concordancia con las reglas establecidas, como herramienta para el logro de
una comunicación efectiva. Saber cuales son los defectos que se producen en
la pronunciación y las formas de corregirlos, nos permite una mejor
utilización del lenguaje y la preservación del mismo, aunque éste sea un
proceso, y como tal, en cambio continuo, pero dentro de las normas
establecidas.

También podría gustarte