Documentos de Académico
Documentos de Profesional
Documentos de Cultura
HABLA: EL PRAAT
TEORÍA
En el espectrograma se tratan de incluir los tres parámetros físicos para poder tener con
precisión una representación visual del desarrollo acústico del habla. El espectrograma refleja
la secuencia de frecuencias y amplitudes del habla por periodos de tiempo. La secuencia de
sonidos del habla se puede describir como unas bandas de una determinada frecuencia a la
que denominaremos formantes. Pero esta representación visual tiene detrás de sí
puntuaciones que se pueden convertir (por medio de determinados algoritmos) en valores del
habla. Valores del habla útiles para definir las hablas características de las personas, identificar
a partir de ellos a las mismas, los hablas de determinadas patologías o simplemente de
comportamientoshumanos concretos como la mentira. Los programas de análisis biométrico
de la voz nos ayudan a conseguir esto.
1. De la señal oral al código lingüístico: análisis perceptivo de los estímulos físicos del habla
La fonética acústica analiza las características físicas de los sonidos verbales: la presión de las
ondas sonoras sobre el receptor.
El tiempo (T): duración. El sonido se decide, que una sola onda, que tarda 1seg, va a ser 1 Hz.
Pero en 1seg puede haber más de una onda, por ejemplo 2Hz, dos ondas. Esto es la frecuencia
de la onda. El sonido puro es una onda completa en 1 seg de forma continua.
Las ondas pueden cambiar, cuanta más altura más presión hace, esto se denomina amplitud
de la onda. El aparato que mide la amplitud de la onda se denomina spectrum. La amplitud del
sonido se mide en decibelios (dB), de 0 a 100 en el lenguaje humano, intensidad. A más
decibelios, mayor altura de la onda y mayor intensidad de sonido.
Onda aperiódica Onda periódica
Estos parámetros fonéticos, son sonidos que llegan al oído y que el oído tiene que procesar.
Shimmer son las alteraciones del fonema, las modulaciones. Las personas con demencia tienen
menos shimmer porque apenas existe modulación.
La frecuencia del sonido (f): tono y timbre de la voz. Son el número de ciclos que se produce en
un segundo. Compone el tono del sonido, f= 1/T. Un disco que de 45 RPM tiene una frecuencia
de 45/60 seg= 0,70 Hz. Una frecuencia de 200Hz son 200 por segundo. Depende de la longitud
de onda. El ser humano percibe entre 20 y 20 000Hz siendo entre 3 000 y 5 000 Hz la máxima
sensibilidad. El tono de la voz, cuantas más ondas el sonido es más agudo, cuanto menos el
sonido es más grave. Formula: 1seg/nº de ondas.
Los formantes son un conjunto de frecuencias que se refuerzan por la resonancia en la cavidad
vocal. Son bandas características de cada fonema. Son numeradas de abajo a arriba como F1,
F2 y F3.
La frecuencia fundamental F0 es la onda de más baja frecuencia. Es el tono de una persona y
puede ser alto o bajo dependiendo de su frecuencia:
El número y amplitud del resto de ondas (armónicos) determinan el timbre que puede ser
grave o agudo
El Pattern Playback: Cooper y Liberman en los años 40 inventan una máquina, en la que, a
partir de patrones acústicos simplificados y dibujados en acetatos reproducían sonidos. El
oyente debía discriminar el lenguaje. Fue el primer sintetizador de voz.
Las vocales son las que tienen las bandas deformantes. Los formantes son un conjunto de
frecuencias que se refuerzan por la resonancia en la cavidad vocal. Son bandas características
de cada fonema. Son numeradas de abajo a arriba como F1,F2, F3
La vocal “i” se caracteriza por presentar un F2 (2600Hz) situado en una frecuencia más
alta que el resto de vocales y F1 muy bajo (400Hz)
La vocal “e” presenta un F2 situado en un rango de frecuencia más baja que el
segundo formante de la vocal “i”
La vocal “a” se caracteriza por presentar F1 y F2 muy cercanos en frecuencias medias
La vocal “o” paralela a “a” pero ambas más bajas
La vocal “u” se caracteriza por F1 y F2 de baja frecuencia (400Hz y 600Hz)
- Estructuras no definidas
- Cambios en la distribución de energía
o Densidad: nivel de concentración de energía
Palatales /y/ y velares /k/, /g/, /x/ son densas alrededor de los 1000Hz
Fricativas y labiodentales /f/ difusas (ruido aperiódico) con energía en
extremos
Nasales densidad baja /m/, /n/
o Tensión: difusión de energía en el tiempo
Difuso: /n/ y /m/ pasa por otra cavidad
Estable líquidas /l/ inestable /ch/ africadas
o Obstrucción o explosión:
Interrupciones total oclusivas /p/, /t/, /k/
Parcial en fricativas
o Cavidad resonante: oral nasal
o Graves (-1000Hz) o agudas (+1000Hz)
El VOT (Voice Onset Time) es la discriminación entre consonantes oclusivas sonoras (ba) y
sordas (pa)
Análisis acústico: