Está en la página 1de 7

SEMINARIO 6: EL ANALISIS ESPECTROGRAFICO DE LOS SONIDOS DEL

HABLA: EL PRAAT

Análisis perceptivo de los estímulos del habla.

TEORÍA

En el espectrograma se tratan de incluir los tres parámetros físicos para poder tener con
precisión una representación visual del desarrollo acústico del habla. El espectrograma refleja
la secuencia de frecuencias y amplitudes del habla por periodos de tiempo. La secuencia de
sonidos del habla se puede describir como unas bandas de una determinada frecuencia a la
que denominaremos formantes. Pero esta representación visual tiene detrás de sí
puntuaciones que se pueden convertir (por medio de determinados algoritmos) en valores del
habla. Valores del habla útiles para definir las hablas características de las personas, identificar
a partir de ellos a las mismas, los hablas de determinadas patologías o simplemente de
comportamientoshumanos concretos como la mentira. Los programas de análisis biométrico
de la voz nos ayudan a conseguir esto.

1. De la señal oral al código lingüístico: análisis perceptivo de los estímulos físicos del habla

La percepción del lenguaje es diferente a la percepción de sonidos puros como la música. Es la


decodificación de sonidos complejos por parte de nuestro cerebro.

Representación visual del habla

¿Cómo se crea la onda sonora? Forma y volumen de la cavidad


Parametros fonéticos acústicos

La fonética acústica analiza las características físicas de los sonidos verbales: la presión de las
ondas sonoras sobre el receptor.

Estructura: el sonido es una onda longitudinal cuyo medio de desplazmiento es normalmente


de aire, pero puede desplazarse por cualquier medio excepto el vacío. El desplazamiento del
aire es lo que crea cambios de presión que el oído capta como sonido.

El tiempo (T): duración. El sonido se decide, que una sola onda, que tarda 1seg, va a ser 1 Hz.
Pero en 1seg puede haber más de una onda, por ejemplo 2Hz, dos ondas. Esto es la frecuencia
de la onda. El sonido puro es una onda completa en 1 seg de forma continua.

Onda simple Onda compleja

Las ondas pueden cambiar, cuanta más altura más presión hace, esto se denomina amplitud
de la onda. El aparato que mide la amplitud de la onda se denomina spectrum. La amplitud del
sonido se mide en decibelios (dB), de 0 a 100 en el lenguaje humano, intensidad. A más
decibelios, mayor altura de la onda y mayor intensidad de sonido.
Onda aperiódica Onda periódica

Estos parámetros fonéticos, son sonidos que llegan al oído y que el oído tiene que procesar.

Las perturbaciones de la intensidad es que no vamos a poder mantener una línea en el


fonema.

Shimmer son las alteraciones del fonema, las modulaciones. Las personas con demencia tienen
menos shimmer porque apenas existe modulación.

La frecuencia del sonido (f): tono y timbre de la voz. Son el número de ciclos que se produce en
un segundo. Compone el tono del sonido, f= 1/T. Un disco que de 45 RPM tiene una frecuencia
de 45/60 seg= 0,70 Hz. Una frecuencia de 200Hz son 200 por segundo. Depende de la longitud
de onda. El ser humano percibe entre 20 y 20 000Hz siendo entre 3 000 y 5 000 Hz la máxima
sensibilidad. El tono de la voz, cuantas más ondas el sonido es más agudo, cuanto menos el
sonido es más grave. Formula: 1seg/nº de ondas.

El espectrograma va a registrar la duración total y ratio de articulación, número de pausas,


vacilaciones y roturas de voz.

Características de un espectrograma: armónicos. Los sonidos armónicos presentan estrías


verticales (vibración de las cuerdas vocales).

- En los sonidos inarmónicos o ruidos la energía aparece en forma de mancha vertical de


mayor o menor duración pero informe, inanalizable
- Los formantes caracterizan a los sonidos con rasgos vocálicos mientras que los blancos
verticales o los ruidos caracterizan a los consonánticos.

Los formantes son un conjunto de frecuencias que se refuerzan por la resonancia en la cavidad
vocal. Son bandas características de cada fonema. Son numeradas de abajo a arriba como F1,
F2 y F3.
La frecuencia fundamental F0 es la onda de más baja frecuencia. Es el tono de una persona y
puede ser alto o bajo dependiendo de su frecuencia:

- 350 Hz para niños


- 250 Hz para mujeres
- 125 Hz para varones

El número y amplitud del resto de ondas (armónicos) determinan el timbre que puede ser
grave o agudo

El Pattern Playback: Cooper y Liberman en los años 40 inventan una máquina, en la que, a
partir de patrones acústicos simplificados y dibujados en acetatos reproducían sonidos. El
oyente debía discriminar el lenguaje. Fue el primer sintetizador de voz.

Pistas acústico – fonéticas en la discriminación de vocales VS no vocales

Las vocales son las que tienen las bandas deformantes. Los formantes son un conjunto de
frecuencias que se refuerzan por la resonancia en la cavidad vocal. Son bandas características
de cada fonema. Son numeradas de abajo a arriba como F1,F2, F3

- Estructura definida de formantes


- Alto nivel de sonoridad
- Extensa en el tiempo (100-300 mseg)
- Mejor discriminación en contexto consonántico
- Duración se reduce en tasas altas de emisión

 La vocal “i” se caracteriza por presentar un F2 (2600Hz) situado en una frecuencia más
alta que el resto de vocales y F1 muy bajo (400Hz)
 La vocal “e” presenta un F2 situado en un rango de frecuencia más baja que el
segundo formante de la vocal “i”
 La vocal “a” se caracteriza por presentar F1 y F2 muy cercanos en frecuencias medias
 La vocal “o” paralela a “a” pero ambas más bajas
 La vocal “u” se caracteriza por F1 y F2 de baja frecuencia (400Hz y 600Hz)

La correspondencia articulatoria se logra por medio de posicionamientos de la lengua en


horizontal y en altura de la punta.

Pistas acústico – fonéticas en la discriminación de consonantes

- Estructuras no definidas
- Cambios en la distribución de energía
o Densidad: nivel de concentración de energía
 Palatales /y/ y velares /k/, /g/, /x/ son densas alrededor de los 1000Hz
 Fricativas y labiodentales /f/ difusas (ruido aperiódico) con energía en
extremos
 Nasales densidad baja /m/, /n/
o Tensión: difusión de energía en el tiempo
 Difuso: /n/ y /m/ pasa por otra cavidad
 Estable líquidas /l/ inestable /ch/ africadas
o Obstrucción o explosión:
 Interrupciones total oclusivas /p/, /t/, /k/
 Parcial en fricativas
o Cavidad resonante: oral nasal
o Graves (-1000Hz) o agudas (+1000Hz)

- Transmisión en paralelo del sonido en oclusivas


- Predominio de frecuencias: muy altas /s/ o medio – altas /f/
- Las transiciones de formantes son clave para identificar las consonantes

Análisis de las características distintivas del habla. Las claves acústicas

Claves acústico – fonéticas en la percepción de consonantes:

- Obstrucción parcial del aire


- Cambios distribución energía
- Estructuras no definidas
Cada fonema va a tener miles de frecuencias distintas, no son todos iguales, de manera que
cada fonema va a utilizar una frecuencia. El aparato que mide las frecuencias es el oscilograma.
El ser humano percibe entre 20 y 20 000. Vamos a utilizar entre 3 000 u 8 000. Las
perturbaciones entre dos pulsos seguidos de voz: Jitter Hz mean. Entre dos pulsos pausados
Jitter period perturbat

El VOT (Voice Onset Time) es la discriminación entre consonantes oclusivas sonoras (ba) y
sordas (pa)

Análisis acústico:

- Intensidad: volumen del habla dB


- Articulación y fonación: Shim, Jitter, VOT
- Tempo: nº y % de pausas
- Ritmo: velocidad de elocución
- Prosodia: picos y valles del núcleo silábico
- Espectro: F0 y formantes

También podría gustarte