Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Laboratorio de Fonética
Santiago de Chile
2009
Prólogo
posee prácticas y ejercicios muy recomendables en cada capítulo, sino especialmente por su
manera de explicar los entresijos de los programas que nos ofrece. Lo hace siempre con un
lenguaje cercano, sencillo, incluso ameno. La obra presenta en los primeros capítulos una
aproximación a los conceptos que se suelen utilizar en fonética acústica, que se explican de
forma muy clara; pero, sobre todo, el libro representa una ayuda muy eficaz en el manejo
todo en el funcionamiento del programa PRAAT, que maneja con gran pericia. Se trata de un
potente instrumento que ofrece un gran abanico de posibilidades al investigador del habla,
pues se puede realizar todo tipo de gráficos con suma facilidad: oscilogramas,
supuesto, ofrece todas las posibles mediciones de parámetros acústicos con absoluta
fiabilidad. Además, posee una gran calidad de imagen y sus datos son tan fidedignos que
Barcelona, que utilizo el PRAAT y lo enseño a mis alumnos. Recuerdo que durante un curso
nos fuimos reuniendo, un día a la semana, algunos miembros del grupo de investigación del
Laboratorio. Se discutían varias cuestiones y se hacían varias cosas: una de ellas era atender
a las explicaciones que Domingo nos daba sobre el funcionamiento del PRAAT. También
servía para exponer nuestras dudas sobre sus posibilidades y su manejo, que Domingo
trataba de resolver, si no ese mismo día, a la semana siguiente. Aprendimos entonces
mucho. Pero ahora confieso que al leer este Manual, he seguido aprendiendo cosas nuevas.
He visto, por fin, cómo hacer los espectros que otros programas presentan de manera tan
fácil, cómo añadir líneas, flechas o elipses, etc. Todo esto es de suma utilidad para la
muy útil por el ahorro de trabajo que presenta; se trata de los scripts; es decir, las macros
que permiten agilizar el trabajo rutinario. En este libro se ofrecen varios muy útiles, como
muestra.
Sólo puedo subrayar hechos positivos en este libro. Lo aconsejo a todo aquel que
para que sus alumnos aprendan más y mejor. Y sugiero con toda energía su lectura y su
práctica a todos aquellos que ya utilizan el PRAAT, pero que lo hacen de manera burda. Es
totalmente negros, y por tanto ilegibles, para dilucidar una cuestión fonética. Hay que
decirles que lean sobre todo el capítulo 7 de este libro y cómo utilizar, en el “Spectrogram
¿Podemos fabricar voces artificiales que parezcan totalmente naturales? ¿Podrían esas
voces simular emociones? ¿Se puede identificar a un individuo por la voz, tal como se hace
por la huella dactilar? ¿Puede una máquina reconocer qué ha dicho una persona? ¿Puede
lengua que intentamos aprender? ¿Existe un detector de mentiras que funcione a partir de la
voz?
Estas preguntas nos sugieren que la Fonética está relacionada con áreas de la vida
que resultan muy familiares y también con otras que pertenecen al ámbito de las
de manera activa, ya que hoy están dadas las condiciones tecnológicas para hacerlo; así,
La Fonética Acústica ocupa una posición estratégica al estudiar el objeto que está
emisiones verbales.
asequibles y muchos programas de extraordinaria utilidad son gratuitos; mientras que para
hacer Fonética Articulatoria los requerimientos suelen ser bastante más costosos. Además,
desde el punto de vista de las invasividad de las técnicas, la Fonética Acústica parece ser la
disciplina. Hay que saber qué es una onda sonora (simple, compleja, periódica y
aperiódica), qué es ciclo, período, frecuencia, amplitud, qué y cómo son los espectros y
los espectrogramas, qué es la frecuencia fundamental y qué son y para qué se usa el
español. Son los que se derivan del procesamiento digital de la señal sonora: por ejemplo,
analógico vs. digital, muestra y frecuencia de muestreo, bit, Nyquist frequency, ventana
Entre los primeros sonogramas de los años cincuenta y el momento actual (2009,
para ser precisos), ha sucedido algo revolucionario: el advenimiento del sonido digital y
disco compacto (y del DVD), el hecho de que los ordenadores puedan “hablar” (unos mejor
que otros), de que puedan “reconocer” algunas órdenes. Algunas tecnologías permiten que
un texto escrito pueda ser “leído” por una máquina y, la operación inversa, que una palabra
emitida por una persona pueda ser “escrita” automáticamente por el ordenador. Puedes
archivos de música con equipos que se encuentran lejos… Todo esto es parte de la
Efectivamente, hoy están dadas las condiciones para hacer análisis y ejercicios con
programas diseñados especialmente para trabajar con el sonido digital. Pero no todo es
fácil. Practicar la disciplina a partir de los nuevos instrumentos tiene también interesantes
procedimientos que te permitirán obtener buenos resultados y facilitarte así un camino que
En este manual trabajaremos con algunos programas que cumplen con las siguientes
características:
Uno de los programas es un editor de audio y los otros están diseñados más bien
para el análisis acústico, aún cuando comparten muchísimas funciones. El principal editor
que nos concentraremos es PRAAT (creado por Paul Boersma y David Weenink en el
próximos años. De tal modo que si en algún momento te das cuenta de que la Fonética es
una de tus pasiones vitales, entonces te recomiendo que pongas especial atención a este
Centre for Speech Technology (CTT), KTH, Suecia que se puede obtener en
http://www.speech.kth.se/wavesurfer.
Para usar productivamente este manual, debes tener los siguientes conocimientos:
como Eugenio Martínez Celdrán (1989, 1991, 1998), Ana María Fernández
procesamiento de los datos. Para esos temas, lo conveniente será revisar los
En cada capítulo, la información central está constituida por las técnicas de manejo de los
técnicas necesarias para poder tener un material de audio listo para ser analizado, es decir,
un corpus. Esta parte incluye desde algunos conocimientos de requerimientos físicos hasta
información acerca de cómo editar las señales grabadas. En la segunda parte aprenderás las
técnicas básicas que sirven para realizar los análisis, desde el etiquetaje de las señales hasta
el análisis del tono fundamental. Se incluye en esta parte un capítulo acerca de cómo hacer
PRAAT en el Lab fue el motor de este trabajo. Su redacción continuó en Santiago de Chile
entre los años 2008 y 2009 gracias al apoyo de la Facultad de Letras de la Pontificia
fui dando ánimo para convertirlo en un libro, consciente de que llena un vacío para nuestros
estudiantes, de los cuales algunos serán, literalmente, los fonetistas del siglo XXI.
Actividades
investigación científica.
Visita la lista de discusión del programa PRAAT (en inglés), puedes acceder a
respectiva respuesta.
Esta primera parte comienza con una revisión de los propósitos y las características
generales del quehacer de los fonetistas; luego se señalan cuáles son los elementos
señales. En seguida, se revisan los pasos necesarios para hacer una grabación apta para el
manera que tengas el material listo para hacer los análisis que desees.
1. ¿QUÉ SIGNIFICA HACER FONÉTICA ACÚSTICA HOY DÍA?
Esta pregunta es válida para todas las disciplinas y no es una pregunta trivial; es una
versión del “¿para qué sirve?” Aquí verás algunas respuestas, pero ten en cuenta que la
• Descripción de lenguas
siempre está incompleta. En cada lengua (y en todas sus variantes) hay aspectos que no
están descritos todavía o que están en proceso de cambio. También hay descripciones ya
hechas que merecen una adecuada revisión. Por supuesto, también el punto de vista
acústico es uno de los enfoques útiles en estas actualizaciones y uno de los más recurrentes.
Las nuevas tecnologías, en particular las llamadas tecnologías del habla, han aportado
sobre los fenómenos fónicos de las distintas lenguas y sus variedades para que se puedan
señales, puede tener más antecedentes para conseguir una pronunciación adecuada al
modelo.
Las necesidades en el área de las patologías del habla son, además de urgentes, múltiples y
de la Fonética Acústica. En parte, las mismas descripciones precisas del habla de los
pacientes son ya de alguna utilidad (indirecta para los pacientes, claro está); pero también
Acústica.
Las teorías fonéticas y fonológicas usan datos empíricos para comprobar o para refutar sus
hipótesis. Por esta razón, se produce un diálogo epistémico interesante y creativo entre las
generalizaciones y las investigaciones sobre casos específicos. Muchas veces los estudios
constata que estamos en un terreno compartido. La tradición nos hace pensar que esta es un
área de los lingüistas, pero una revisión detenida nos muestra que hay colegas provenientes
enfoques que existen. Evidentemente cada profesional realiza los estudios con propósitos
de ciertos sonidos, en tanto que un fonoaudiólogo puede querer establecer las propiedades
típicas de una voz con determinada patología. Del mismo modo, un ingeniero se puede
interesar en conocer con qué parámetros se describe mejor una vocal para reproducirla
mediante un ordenador. Un forense puede estar muy interesado en saber cómo se puede
argumentar si dos muestras de voz corresponden o no a la misma persona para presentar ese
antecedente en un juicio.
Por nuestra parte, los lingüistas dedicados a la Fonética, tenemos un abanico muy
de los suprasegmentos (cantidad, intensidad y altura tonal). Más allá de la Fonética misma,
hoy tienen creciente presencia los estudios en los que se relaciona la Fonética con
información de un nivel distinto del fónico (oracional, discursivo, pragmático). Así, por
ejemplo, es posible investigar cuáles son los valores de la frecuencia fundamental de una
distintas disciplinas implicadas. Estos cruces exigen, obviamente, trabajo en equipo y son,
interdisciplinas son muchísimas; tantas como áreas del saber se puedan relacionar en una
torno al cual se defina una investigación y una de las ciencias implicadas funcione como la
el primer caso, se hacen las mediciones en la señal tal como esta fue registrada por el
micrófono; en el segundo caso, los valores de esa señal se transforman de acuerdo con
modelos cocleares para simular el procesamiento auditivo y, en el último caso, una o varias
muestras de habla emitida por personas reales. En cambio, los objetivos de quienes trabajan
habla que parezca lo más natural posible. Por cierto, se trata de orientaciones
acústicas que caracterizan mejor las vocales del español, hay un colega que está interesado
laboratorio o con habla espontánea. Cada opción tiene sus pros y sus contras.
van a estudiar y, por lo mismo, la investigación puede ser muy precisa. El habla espontánea
(o, mejor, semiespontánea) permite registrar una variedad mayor de fenómenos, pero con
menos control ya que no podemos predecir con exactitud qué va a decir el informante.
las señales editadas ya puede el investigador realizar su tarea analítica propiamente tal. Los
análisis más frecuentes se refieren a las mediciones temporales, de los formantes vocálicos
Antes de que se trabajara con sonido digital, cuando un fonetista usaba una máquina para
obtener una forma de representación del sonido, por ejemplo, un sonograma, tenía que
realizar una emisión más bien breve y el resultado era un gráfico impreso en un papel
Otra diferencia no menor es que con los métodos actuales, la duración de la muestra
grabada puede ser muy larga y uno puede observar la señal en la pantalla y hacer
Vemos que hoy se usa una representación digital del sonido analógico.
originales, pero el hecho de que sean digitales impone especificidades al objeto y a las
formas de trabajar con él. Por esta razón, uno de los temas que en este manual se desarrolla
es el del procesamiento digital de la señal (o DSP), dado que el objeto con el que
trabajamos es una versión digitalizada del sonido y los instrumentos de análisis son,
Cuando se examinan las diferencias entre la Fonética Acústica hecha sobre muestras
analógicas y la practicada sobre sonidos digitales, se puede afirmar que ha tenido lugar una
puntos de continuidad.
A esto hay que agregar que se debe poner en conocimiento de los lectores de nuestras
aquello que permita verificar los datos presentados. La ciencia, lamentablemente, también
ha sido víctima de fraudes y la única manera de evitarlos es crear el hábito de declarar toda
la información de la que se dispone. Asimismo, se debe tener en cuenta que la ética rige
también la selección de los temas de investigación y la aplicación que se hace con una
disciplina.
informantes tanto los propósitos de la investigación como el uso y difusión que se hará de
las muestras obtenidas. Es una práctica conveniente que toda persona grabada para una
investigación, firme un consentimiento informado en que declara saber que su voz será
Actividades
del sistema. ¿Se nota que es una voz artificial? ¿Cómo se podría mejorar?
condiciones mínimas de estos últimos requerimientos. Hay que tener en cuenta que estas
estudio de grabación, sino que más bien se dirigen a un estudiante especialmente interesado
en la disciplina.
2.1. Equipo
hacer personalmente las grabaciones; también se puede trabajar con grabaciones ya hechas
Computador
Los requisitos de un computador para ser usado en tareas de fonética acústica son los
siguientes:
audio.
Entrada para audio o capacidad para soportar dispositivos externos a los que se
puedan conectar micrófonos.
grandes que los archivos de texto, por lo que se requiere disponer de buena
parte del disco para almacenarlos. Una buena alternativa es que el equipo
los computadores son suficientemente altas para el trabajo con audio. Debes
tener en cuenta que al trabajar con archivos grandes las operaciones toman
más tiempo.
Micrófono
mejores que las que se pueden hacer con uno de los que habitualmente vienen incorporados
en el computador. Es imprescindible trabajar con uno que cumpla con las siguientes
condiciones, de lo contrario, las señales que se obtienen pueden ser inútiles desde el punto
de vista de la investigación:
Que recoja la señal que viene de la boca del informante y no el ruido ambiente u
otras voces que provienen de otras fuentes. Para esto un micrófono de tipo
Mientras más se acerque a una respuesta plana en esta gama, tanto mejor.
micrófono.
En este gráfico, la curva indica qué frecuencias (Hz) realza el micrófono. Los
lugares en que no hay marca, son Hz en los que no hay registro de señal. Por lo tanto, un
micrófono con esta respuesta de frecuencia registra los sonidos entre 200 Hz y 10000 Hz y
registra con mayor intensidad aquellos que están entre 800 Hz y 6000 Hz, con un máximo
alrededor de los 3000 Hz.
Por cierto, para registros de habla, se requiere un micrófono que responda entre 50
Hz y 10000 Hz. En el caso de la figura 2.1, habría problemas para registrar las frecuencias
más graves, por ejemplo, en voces masculinas, lo que podría ser una limitación en el
estudio de la melodía de la voz, tema que será tratado más adelante en este mismo manual.
computacional) antes de hacer los registros, hasta familiarizarse con él totalmente para
conocer sus potencialidades y limitaciones. Tienes que saber, por ejemplo, a qué distancia
Junto con el equipamiento “físico” (así se le suele llamar), son imprescindibles los
programas computacionales que permiten hacer los registros, las ediciones y los análisis.
En este manual presentamos, como se ha señalado, los que funcionan en distintos sistemas
Además de los programas directamente relacionados con el audio, hay otros que son
complementarios, como un editor de texto, una base de datos, una planilla electrónica, un
realizar presentaciones.
Los programas que interesan principalmente en este manual, son de dos tipos: los de
edición y los de análisis. Por cierto, muchas funciones se encuentran en ambos tipos y para
muchas tareas son equivalentes. En líneas generales, podemos decir que los programas de
análisis son mucho más específicos para las tareas de un fonetista; en tanto los editores
sirven para muchos propósitos, entre otros, por ejemplo, para aplicar “efectos especiales” a
archivos de música.
Editores de sonido
Básicamente un editor de sonido funciona como un editor de texto, pero con archivos de
audio. Estos programas, aunque están diseñados principalmente para editar música, pueden
ser muy útiles para el trabajo con muestras de habla. Las funciones más importantes, para
Analizadores acústicos
Las funciones de un programa de análisis acústico son muchísimas como para presentar una
• Gráficos: un buen analizador acústico suele facilitar la tarea del investigador con
archivo de texto (sin rescribirlos, claro está) o bien con un módulo para análisis
programas que resultan altamente funcionales y que cumplen con las mejores condiciones
de las que se han señalado, tales como AUDACITY, PRAAT y WAVESURFER.
Actividades
micrófono se usó para hacer las grabaciones. Por tu cuenta, averigua la respuesta
frecuencial de ese dispositivo y evalúa si era o no una buena opción para ese
estudio.
Cuestionario
micrófonos.
400 5000 300 6000 300 6000
A B C
D E F
que el 0 dB se sitúa al centro del eje vertical. El eje horizontal indica las frecuencias en Hz
Necesitas estudiar ciertos aspectos del habla cuyas frecuencias están entre los
En este capítulo aprenderás las nociones básicas respecto del sonido digital
Una onda sonora se describe como una fluctuación de presión que se propaga en un medio
elástico (como, por ejemplo, el aire), lo que les permite a las moléculas acercarse y alejarse.
Para hacer una representación de este movimiento, se ha optado por disponer la dimensión
Teóricamente, en cada uno de estos ejes, entre un punto y otro hay infinitos valores.
saltos o quiebres entre un punto y otro. A este tipo de señales se las denomina “analógicas”
(por oposición a “digitales”) o “continuas” (en oposición a “discretas”). Imagina ahora que
Los sonidos que escuchamos en la naturaleza, incluida por supuesto la voz humana,
no son habitualmente tonos puros, como el de la figura 3.1; tienen otras características que
ya estudiaremos, pero sí son analógicos (o, lo que es igual, continuos). Por lo mismo, si se
3.2. DIGITALIZACIÓN
archivo que pueda ser leído por un ordenador. Al hacerlo, transformamos el sonido
analógico en sonido digital, o, lo que es lo mismo, la señal continua pasa a ser discreta. En
discontinuo; lo que antes tenía entre un punto y otro un número infinito de puntos, ahora
original. Para ello se debe establecer cuántas muestras (o valores) por segundo se toman en
el eje temporal y con qué grado de precisión se establecen las variaciones de amplitud.
En la figura 3.2 se muestra la misma señal de la figura anterior, con una trama
digitalización.
Figura 3.2. La imagen de la onda de la figura 3.1, con un tramado que
Para tener una representación digital de la onda, debemos considerar cada punto
más cercano a la señal original en que se cruzan las líneas horizontales con las verticales.
valores positivos (sobre el 0) y negativos (bajo el 0). En la figura 3.3 se muestran esos
puntos.
Figura 3.3. La misma señal de las figuras anteriores, con una marca en
considera como una muestra de la señal. Si unimos con una línea esos puntos, tendremos
una idea de cómo es una señal digitalizada. Una aproximación gráfica al resultado de este
la señal.
el eje vertical (de la amplitud) como en el eje horizontal (del tiempo). Podemos decir que
original. No puede ser de otra forma, ya que para poner en un computador una señal hay
que digitalizarla. Lo importante es que esta réplica del sonido original sea suficientemente
buena como para que al reproducirla “suene” igual y, para los fines de la Fonética Acústica,
que conserve la información sobre tiempo, frecuencias y amplitudes que son relevantes en
De lo dicho hasta aquí, se deduce que son dos las transformaciones que se producen
al digitalizar una señal. En un caso se transforman los valores continuos de la amplitud en
una serie discreta de números y en el otro los valores temporales continuos se representan
la amplitud. Con 8 bits, podemos representar 259 niveles y con 16 bits, 65.536.
Por ejemplo, si tenemos una señal de algunos segundos y se ha decidido digitalizar con
22.050 muestras por segundo, el número de muestras o valores que tendremos para la
Cuanto mayor sea la frecuencia de muestreo, tanto más fiel será la representación
del sonido digital respecto del original, pero también más grandes los archivos, más lentas
1
Esta es la terminología usada en la versión en español del programa AUDACITY.
las operaciones que el ordenador realice y no toda la información representada será
dos. Por lo tanto, hay que tener en cuenta que la frecuencia de muestreo debe ser (por lo
menos) el doble de la frecuencia más alta que nos interesa registrar (este valor de
frecuencia se denomina Nyquist frequency). Así, con 44.100 muestras por segundo
Dado que para estudiar el habla humana necesitamos considerar frecuencias hasta
22.050. Con este valor se capturan teóricamente hasta los 11000 Hz (esa es la Nyquist
valores se pueden especificar. Hay que tener en cuenta que la frecuencia de muestreo se
puede reducir después de hecha la grabación, pero el camino inverso es imposible. En otras
palabras, si haces una grabación a 22.050 muestras por segundo, podrás “submuestrearla”,
por ejemplo, a 10.000. Pero nunca podrás elevar el número de muestras una vez realizada la
grabación.
Actividades
• Investiga cuáles son las medidas que definen la calidad de una fotografía digital
y reflexiona sobre los paralelismos que existen entre sonido e imagen digitales.
• Discute sobre el siguiente asunto: a partir de cierta frecuencia de muestreo, la
• Haz a mano alzada un dibujo de una onda (que sea aproximadamente como el de
la figura 3.5) en una hoja de papel milimetrado. Cada cinco milímetros pon un
tienen marca positiva y los que están bajo el 0 tienen signo negativo. Escribe a
digitalización.
Cuestionario
1. ¿Cuál es la Nyquist frequency de una señal si fue grabada a 16000 muestras por segundo?
3. Vas a hacer tres investigaciones y pretendes usar el mismo corpus. Los objetos de
grabación:
3.2. ¿Cuál es la que permite hacer las tres investigaciones y al mismo tiempo es la más
económica?
Para desarrollar este capítulo, se requiere que sepas cómo conectar el micrófono u otro
dispositivo para ingresar audio al computador, ya que mostraremos cuáles son los pasos
necesarios para grabar una señal en AUDACITY y en PRAAT. Lo indicado aquí servirá, con la
información adaptada, para usar otros programas. También aprenderás a almacenar la señal
en el disco duro y, por supuesto a recuperarla para trabajar con ella en el programa de
edición o en el de análisis.
Cada programa tiene su interfaz, pero todos tienen alguna manera de especificar lo
siguiente:
• La frecuencia de muestreo
computador tenga un micrófono incorporado que esté preseleccionado por defecto. En este
caso, a pesar de que se tenga otro micrófono conectado correctamente, es posible que no
sea este último el que esté grabando. Esto explica baja intensidad de la señal y,
consiguientemente, excesivo ruido aunque el informante esté hablando “muy cerca del
micrófono”. No se debe confundir que el micrófono esté bien conectado con que esté
efectivamente "seleccionado".
En este programa todos los pasos se realizan marcando sobre los íconos correspondientes y
son los que se enuncian a continuación (los números entre paréntesis aluden a partes
Elegir 22050 siempre, salvo que haya fundadas razones para elegir
DESCOMPRIMIDO DE EXPORTACIÓN).
Figura 4.1. Comandos para grabar una señal en Audacity. Los objetos
superior con las opciones PRAAT y HELP y dos paneles: uno de objetos, PRAAT OBJECTS (1) y
otro de dibujo, PRAAT PICTURE (2). Cada uno de estos paneles tiene sus respectivos menús
superiores (3 y 4). En estas primeras lecciones trabajaremos solo con el panel de objetos
(1).
El menú superior tiene tres opciones constantes: NEW, READ y WRITE referidas a
archivos y variados tipos de objetos. Al lado derecho también está la opción HELP.
Figura 4.2. Pantalla inicial del programa PRAAT. Los números están
explicados en el texto
una opción tiene puntos suspensivos, significa que al activarla habrá que
completar un formulario.)
8. Escuchar la señal.
saturada.
un objeto en el panel no implica que sea un archivo almacenado en el disco duro. El error
2
Desde hace ya un tiempo, PRAAT no permite grabar con frecuencias de muestreo inferiores a
44100; a cambio, permite grabar con valores bastante altos. En todo caso, siempre se puede
submuestrear, como señalamos en el capítulo anterior y explicaremos más adelante.
frecuente (de principiante) es cerrar el programa sin haber guardado el archivo.
El investigador debe saber muy bien cuál es la distancia óptima entre la boca del
ambiental. Habitualmente se considera que 15 cm es una buena distancia; sin embargo, este
valor puede ser menor si el hablante tiene una voz muy suave o si el micrófono es poco
sensible.
Si no hay una adecuada relación entre estos factores, se pueden producir problemas
como que la señal sea demasiado débil o demasiado intensa. En ambos casos el resultado es
Si las grabaciones tienen buena calidad, se pueden hacer análisis con más facilidad
realizar algún trabajo complementario de edición antes de hacer los análisis. Los problemas
Si la señal “satura” el canal, se produce una amplitud recortada en los puntos más
alejados del 0, tal como se observa en la figura 4.4. Esto ocurre cuando en el momento de la
imágenes de la figura 4.5 que muestran una misma frase (de una misma hablante) grabada
con dos dispositivos diferentes: la primera está hecha con un micrófono relativamente
acercamiento a estas señales, como el que se muestra en la figura 4.6, se observa mejor la
Si comparas las partes indicadas por las flechas, puedes observar que en la imagen
superior, las zonas de silencio de la voz están más cercanas al valor 0 (el centro vertical de
la imagen).
Una grabación exitosa debe tener una buena relación (diferencia) entre lo que es
propiamente la señal y lo que es el ruido existente en los momentos de silencio. O sea, una
diferencia considerable. Mientras mejor sea la relación señal-ruido, más cerca del 0 debe
información relevante para el análisis será de mejor calidad. Algunas soluciones posibles al
problema de una mala relación señal-ruido, se mostrarán en el capítulo 5.
Otro problema que se puede producir es que la memoria del computador no esté
preparada para grabar un archivo muy extenso. En PRAAT puedes cambiar el tamaño
PREFERENCES...).
Actividades
tu disco duro.
útiles.
• Graba una misma emisión varias veces con distinta frecuencia de muestreo y
Cuestionario
disco duro?
sonido?
Este es el último capítulo de la primera parte de este manual. Aquí aprenderás a editar las
Es necesario hacer todo esto antes de proceder al análisis, pues una señal inadecuada puede
Supongamos que le has pedido a un informante que lea unas oraciones y que con
ese material has hecho una grabación de dos minutos de duración con una frecuencia de
muestreo de 22050. Tienes almacenado el archivo en formato wav. En esa grabación hay
algunas partes que te interesan como objeto de estudio (las oraciones leídas); el resto, no
(silencios, toses, risas, preguntas al investigador que quedaron grabadas, etc.). Para facilitar
las cosas, lo mejor será crear varios archivos que contengan únicamente las emisiones que
importan para tu investigación. De tal manera que de ese archivo de dos minutos de
grabación, vas a obtener, por ejemplo, 20 archivos de unos 1,5 segundos cada uno.
Conservar el archivo original es una medida de seguridad que debe ser observada siempre.
Debes dedicar alguna reflexión a los nombres que darás a los archivos que
que el nombre te resulte informativo; por ejemplo, con la primera letra indicas si el hablante
es hombre (h) o mujer (m); con la segunda, si la emisión es una interrogación (i) o una
afirmación (a) —todo esto dependerá de qué estés investigando, por supuesto—; con un
tercer elemento puedes indicar el número del informante; etc. Así un nombre de archivo
el que puedas hacer la edición. En todos los programas hay una opción que permite abrir un
archivo. En AUDACITY, la opción es Archivo > Abrir y en PRAAT es READ > READ FROM
FILE…. En este último programa, también existe la posibilidad de abrir archivos muy largos
con la opción READ > READ FROM LONG FILE… En el caso de AUDACITY, aparece el
oscilograma de la señal; en tanto que en PRAAT aparece el nombre del archivo en el panel
de objetos; para poder operar con el sonido, hay que presionar el botón Edit con lo que
SELECCIÓN.
Duplicar. CREA UNA COPIA DEL SEGMENTO EN UNA PISTA NUEVA PERO NO
Encontrar cruces por cero. EN UNA SELECCIÓN DADA, SITÚA EL INICIO Y EL FINAL
OPERACIONES FUTURAS.
segmento que es de interés para tu investigación. Hay dos recomendaciones que conviene
nuevo archivo no comience abruptamente con la señal sino que tenga un poco de silencio
antes y después.
b) Cortar en los cruces por cero, en este caso, usando la opción ENCONTRAR CRUCES
POR CERO. No hacerlo de esta manera puede producir efectos acústicos y gráficos que
Los editores de sonido tienen una función para eliminar ruido. Se trata de un filtro que
elimina las frecuencias características de un ruido previamente identificadas. Los pasos son
los siguientes:
MEMORIA.
IDENTIFICADO.
PASO SIGUIENTE.
En las figuras 5.2 y 5.3, se observa cómo se hace esta operación. Al activar el Menú
EFECTO > UTILITY > REMOCIÓN DE RUIDO… aparece un formulario en el que hay que,
desea eliminar.
Figura 5.2. Primer paso para la eliminación del ruido en AUDACITY.
Una vez que el ruido ha sido eliminado, se tiene una señal con la que se pueden
hacer análisis de mejor rendimiento. A pesar de ello, este procedimiento pocas veces da un
resultado óptimo. Por lo general, la señal filtrada presenta unos zumbidos muy
característicos que no son parte de la señal original. Hay que tener cierta experiencia en
Las imágenes de la figura 5.4 muestran una señal antes y después de ser filtrada.
Figura 5.4. Señal antes (A) y después (B) de habérsele eliminado ruido.
señal-ruido; esto es especialmente apreciable en los puntos señalados por las flechas.
Cuestiones generales
La primera posibilidad para examinar una señal es la ventana de edición. Esto se hace
marcando el botón EDIT cuando el objeto de tipo SOUND está seleccionado en el panel de
objetos. Al ejecutar este botón, se abre una ventana que muestra, por defecto, la forma de la
onda y el espectrograma de banda ancha de la señal (si la señal es mayor a 10 ms, hay que
En la figura 5.5 se muestra una señal en la ventana de edición. Esta ventana tiene (1)
un menú superior (FILE, EDIT, QUERY, VIEW, SELECT, SPECTRUM, PITCH, INTENSITY,
FORMANT y PULSES); una ventana con el oscilograma (2) y otra con el espectrograma (3);
una franja que permite —al cliquear en ella— escuchar la porción seleccionada con el
cursor (4) o la anterior o la posterior (el mismo efecto tiene la franja que está sobre el
oscilograma (10); otra franja que sirve para escuchar el segmento visible en la ventana (5);
una tercera franja que permite escuchar la señal completa (6), o sea, el objeto seleccionado
íntegro. Estas franjas dan la información temporal (en segundos). Para escuchar usando
estas franjas, solo hay que marcar con el cursor en la que corresponde.
explicados en el texto.
En la parte inferior de la ventana de edición hay, al lado izquierdo, cuatro botones
(7) que sirven para ver la señal completa (ALL), acercarse (IN), alejarse (OUT), o ver solo la
selección (SEL). También hay una barra de desplazamiento (8) y un recuadro para
Para activar o desactivar las opciones de análisis que se pueden mostrar en esta
opciones; la primera de ellas es la que permite mostrar u ocultar el análisis del que se trata.
La figura 5.6 muestra la misma señal de la figura anterior, pero esta vez con todas
parte exterior de la ventana se muestran los valores del pitch (3) y, en la parte interior, (4) el
valor de la intensidad.
desactivado la opción que muestra el espectrograma y los pulsos, por lo tanto, solo se
En la ventana de edición, puedes seleccionar con el cursor una porción de la señal. Marca el
inicio de la selección con el cursor y arrastra el cursor hasta donde deseas segmentar. La
selección queda destacada. Si deseas acercar la selección, usa el botón inferior SEL (o, en el
Es posible que desees crear un archivo separado con un segmento de la señal. Para
hacerlo, debes tener en cuenta que en los extremos de la ventana no se realiza análisis
alguno; por lo tanto, siempre hay que hacer una selección levemente “generosa” al
Otras funciones
Las siguientes funciones también están disponibles en esta ventana de edición, en el menú
EDIT:
desplazamiento del cursor. Especialmente útil para medir con mucha precisión son las
siguientes:
Move start of selection to nearest zero crossing. CON ESTA FUNCIÓN DESPLAZAS
PUNTO DE 0 AMPLITUD.
Con ambas funciones desplazas los límites de la selección a los puntos exactos en el
• Palíndromos invertidos
produce la sensación de que se escucha otra lengua. Prueba este efecto. Esta sensación
se anula parcialmente cuando grabamos una emisión de esas que se leen igual al leerlas
EN SILENCIO. HAZ LA SELECCIÓN SITUANDO LOS LÍMITES EN LOS CRUCES POR CERO.
ESTOS DOS GRUPOS HABRÁ DOS SUBGRUPOS: UNO DE INFORMANTES ENTRE 20 Y 35 AÑOS
REPETIRÁ 5 VECES LA SERIE “BA SA AKA AJA DA YA ATA MA GA AÑA APA” PERO SOLO TE
INTERESAN “BA DA GA APA ATA ACA”. ES IMPORTANTE QUE TENGAS CADA PALABRA
producir el material para ser analizado acústicamente, pues ya sabes los fundamentos
básicos del sonido digital, conoces las técnicas para grabar y sabes también editar las
grabaciones. Felicitaciones por haber avanzado hasta este punto en el manual. Repasa lo
que has aprendido, vuelve atrás si tienes alguna duda y, cuando te sientas cómodo, avanza a
Con lo visto hasta aquí, ya estás en condiciones de comenzar los análisis propiamente tal.
Los temas de estudio y las categorías de análisis son muchos; en esta segunda parte solo se
presentan los más frecuentes, bajo la comprensión de que esas categorías se pueden aplicar,
comienza por enseñar a etiquetar las señales. Esta operación requiere de algún grado de
análisis, aún cuando se pueda entender como un capítulo de transición. Se revisará después
cómo hacer espectrogramas, herramienta analítica poderosa ya que permite observar las
frecuencias a través de una señal. Luego se señala cómo hacer mediciones de tiempo, de
frecuencias de los formantes vocálicos y del pitch. Esta parte concluye con una explicación
Este proceso sirve para poder volver a la señal y confirmar el análisis que
Imagina que haces un análisis en un determinado punto o segmento de la señal para obtener
cierta información. Si después de un tiempo, necesitas revisar ese dato ¿cómo puedes tener
La mejor manera, la más segura y confiable, es poner una etiqueta allí donde deseas
hacer el análisis, de tal manera que el programa guarde la información temporal asociada.
Dicho sea de paso, etiquetar presupone saber segmentar; por lo mismo, el hecho de poner
etiquetas permite obtener información temporal muy interesante: por ejemplo, si segmentas
las sílabas de algunas palabras, puedes obtener fácilmente la información de cuánto dura
editores y en los analizadores de señales de audio. Lo que hacen los programas cuando
crean etiquetas es que producen un archivo adicional, asociado al archivo sonoro, en el que
ellas. Si tienes una señal abierta, por ejemplo, en la modalidad Demonstration, puedes
marcar en la zona .lab (abajo del espectrograma) el lugar donde termina un segmento y
escribir la etiqueta correspondiente tal como se muestra en la figura 6.1. Tienes que marcar
también el lugar donde el segmento comienza para que las marcas delimiten una unidad
completa.
etiquetar palabras, sílabas y sonidos, necesitarás un estrato para cada nivel. Esto se hace
cliqueando con el mouse mientras presionas la tecla CONTROL. Con esto se despliega un
menú contextual que incluye la posibilidad Create Pane, que a su vez incluye la opción
imagen 6.3
hay que cliquear, sino solo poner el cursor en un punto ya sea del espectrograma, del
oscilograma o del sector de las etiquetas (.lab) e inmediatamente el programa asume que en
ese punto termina una unidad; solo hay que escribir la etiqueta correspondiente.
Para poner la etiqueta, hay que tener el segmento marcado (1); en ese momento
puede ser útil ajustar los límites en los cruces de cero más cercanos (menú EDITAR >
ENCONTRAR LOS CRUCES POR CERO). En el menú PISTAS (2) existe la opción AGREGAR
ETIQUETA EN SELECCIÓN. Al activarla aparece una nueva pista para las etiquetas con el
nombre PISTA DE ETIQUETAS (3) y marcas sincrónicas al inicio y al término del fragmento
límites temporales del segmento etiquetado y a la duración total del mismo (7). Se puede
guardar el archivo como proyecto, o sea, con el formato propio del programa.
También tienes la posibilidad de exportar las etiquetas. Con esta opción se genera
un archivo de formato txt de dos columnas: tiempo de inicio del segmento y etiqueta
respectiva. Al abrir un archivo de este tipo desde una planilla electrónica puedes hacer
nombre de la pista de etiquetas (3), se despliega un menú que permite modificar el orden de
presentación de las pistas. En este menú también puedes definir la tipografía y, si dispones
de fuentes fonéticas, puedes usar esta función para presentar las etiquetas con
transcripciones; ten en cuenta que al exportar al archivo txt no se conservarán los símbolos.
En PRAAT puedes crear etiquetas de dos tipos: de intervalo o puntuales. Para hacerlo hay
que tener seleccionada una señal en el panel de objetos y elegir, en el menú dinámico, en la
los estratos y, en otro campo, los nombres de los estratos puntuales (los nombres de cada
estrato se separan por espacios). Debes tener en cuenta que todo estrato que no sea definido
entre ambos tipos de etiquetas es que en los intervalos se debe marcar el inicio y el término
opción EDIT. Al activarla, aparece una ventana como la de la figura 6.6 que contiene el
oscilograma, el espectrograma (con los análisis superpuestos que deseas mantener) y las
está activo se indica con una mano roja; a la derecha se observa el nombre de cada estrato
(2). Al centro hay unas barritas con un círculo en la parte superior (3) que son sincrónicas
aparecen estas barritas en el TextGrid). Estas barras son las potenciales marcas. Para
fijarlas, solo hay que cliquear con el cursor en el círculo superior de la barrita en el estrato
las marcas de punto (las del estrato 4). En este caso se han usado las primeras tres capas
para escribir etiquetas de palabras, sílabas y sonidos3 (tal como lo indican los nombres de
los estratos).
Para poner las etiquetas, te sitúas con el cursor en un fragmento que ya has
Escribes la etiqueta y, mientras escribes, el texto aparece en la parte superior (1). En esa
pequeña ventana de edición puedes escribir, modificar y borrar el texto de las etiquetas.
3
En estricto rigor, /p/ se ha realizado como un sonido sonoro aproximante.
Para mover una marca, solo tienes que seleccionarla y arrastrarla con el ratón. Para
borrar una marca, tienes que marcarla con el cursor (cuando está seleccionada cambia su
color) y en BOUNDARY, en el menú superior, tienes la opción REMOVE (también hay una
combinación de teclas).
objetos y usar la opción WRITE del menú superior de este panel. Cualquiera de las opciones
de formato será suficientemente útil para tus propósitos. Hay una forma para guardar
espacio en el disco.
Para recuperar la información de las etiquetas, basta con abrir el archivo TextGrid
etiquetas de cada estrato distribuidas en un eje temporal. Por supuesto, también puedes
seleccionar ambos objetos y editarlos, lo que es muy cómodo para la mayoría de los
propósitos de investigación.
Almacenamiento de la información
que tomar decisiones respecto del directorio en el que almacenarás el conjunto de datos de
subdirectorios:
los gráficos).
Dado que la ordenación del material es asunto de estilo personal, lo dicho aquí
debes interpretarlo solo como una sugerencia; no obstante, sabemos que es imprescindible
Actividades
• Usa AUDACITY, abre una señal relativamente breve y etiqueta cada una de las
palabras.
• Exporta los datos a un archivo txt y léelos desde una planilla electrónica. Observa
• En PRAAT crea un TextGrid de una señal, con cuatro estratos: dos puntuales y dos de
segmento. Los estratos se llaman A, B, C y D. Usa las marcas del estrato A para
indicar las sílabas y el B para indicar solo las vocales. Los estratos puntuales C y D
• Prueba lo siguiente: abre un TextGrid desde un editor de texto plano e identifica las
etiquetas, que están escritas entre comillas. Modifícalas desde el editor de texto y
por ejemplo, los intervalos del primer estrato que coincidan con ciertos
caracteres, (o que sean distintos a esos caracteres, que los contengan, etc.).
• Ubica tres sonidos en el panel de objetos. Dales a cada uno un nombre para esta
actividad (usa el botón inferior RENAME), por ejemplo, “voz_1”, “voz_2” y “voz_3”.
En Fonética Acústica, se trabaja con varios tipos de representaciones gráficas del sonido
realizadas con los datos numéricos que constituyen un archivo de audio digital. El más
vista la información frecuencial y para ello se dispone del espectrograma, que es una
oscilograma en el que se hace un análisis espectral de los componentes que existen en una
se muestran los sucesivos análisis espectrales a lo largo del eje temporal. En otras palabras,
sensación de continuidad.
corta. Si el análisis se realiza con una ventana corta, por ejemplo, de 5 ms, entonces el
resultado será un gráfico con buena definición temporal, pero la información frecuencial
será bastante gruesa. A la inversa, si la ventana es larga, por ejemplo, de 30 ms, la
información frecuencial será mejor que la temporal. Esta asimetría entre resolución
banda estrecha respectivamente, porque para obtenerlos había que colocar unos filtros
(físicos) de 300 Hz o de 45 Hz, por ejemplo, con los que se obtenían, respectivamente,
Los espectrogramas hechos con una ventana de análisis larga (o de banda estrecha)
muestran la información de la frecuencia con bastante detalle, tanto así que en una vocal se
frecuencial con menos detalle y, aunque parezca contradictorio, por lo mismo son más
útiles para tareas de análisis fonético ya que, por ejemplo, se pueden observar con claridad
espectros) de una señal artificial, creada por ordenador, que tiene tres partes claramente
distinguibles: en el primer momento hay tres componentes armónicos (500 Hz, 1000 Hz y
1500 Hz); en el segundo momento hay un ruido (componentes aleatorios de todas las
frecuencias) y en el momento final hay cuatro componentes armónicos (200 Hz, 400 Hz,
espectrograma. Por esa razón, se señalan los puntos a, b y c en los que se hacen los análisis
banda estrecha) y abajo, los tres espectros que corresponden a los momentos a, b y c. El
espectrograma muestra una gama de Hz entre los 0 y los 5000 Hz, la misma que se usa en
que el espectrograma del momento c tiene cuatro líneas horizontales en la parte más baja de
0 a los 5000 Hz; por esta razón, en el espectrograma aparece una mancha en toda la zona y,
por lo mismo, en el espectro aparecen relieves a lo largo de todas las frecuencias. Habrás
7.1. En Audacity
menú que se despliega al marcar en el nombre de la pista de audio, tal como se observa en
la figura 7.2.
Figura 7.2. Menú desplegable que permite seleccionar el
espectrograma.
mismo formulario puedes indicar si prefieres el gráfico en ESCALA DE GRISES (en caso
Hz.
7.2. En WaveSurfer
Se debe abrir un sonido con el menú superior File > Open se selecciona el archivo de
audio y luego el programa ofrece una serie de posibilidades para mostrar los análisis:
la opción Demonstration.
Con esta opción, el archivo sonoro se abre y tenemos a nuestra disposición cuatro ventanas:
una ventana con el oscilograma y el espectrograma, otra con el espectro, otra de control
gráfico y una ventana para aumentar en el gráfico la amplitud de la señal. En este momento
Las cuatro ventanas se muestran en la figura 7.5 habiendo ya modificado algunas de las
Al cambiar de posición el punto que aparece en la ventana Image Controls, cambian las
propiedades del gráfico y podemos así cambiar el brillo y el contraste, con lo cual podemos
(Analysis windows lenght) cambiaremos, como se señaló antes, el ancho de banda del
espectrograma. En la figura 7.6 se muestra la misma señal en un espectrograma de banda
estrecha.
7.3. En PRAAT
Debes tener un objeto de tipo sound en la ventana PRAAT OBJETCS y activar el botón
EDIT. Ya sabes que con esta opción aparece una ventana que muestra por defecto un
ventana EDIT, en SPECTRUM, está desactivada la opción SHOW SPECTROGRAM; en ese caso
habrá que activarla en el mismo menú. Otra causa por la que no se ve el espectrograma es
porque la señal visible supera los 10 segundos; en este caso, al acercarse a una porción de la
Para mejorar la visión que se tiene del espectrograma, puede ser conveniente
desactivar otros gráficos que se muestran superpuestos, por ejemplo, si aparece el pitch o si
se ven puntos rojos que siguen la trayectoria de los formantes. En el menú superior
según corresponda.
hacer que se desplieguen en la pantalla hasta los 8000 Hz. En todo caso,
el valor máximo de la frecuencia observable es siempre la mitad de la
0.03 s (30 ms) y para uno de banda ancha usa 0.005 s (5 ms).
Dynamic range (dB): Fijado por defecto en 50 dB. Mientras más alto este valor,
Figura 7.8. Tres espectrogramas de una misma señal: (A) banda ancha,
con una gama frecuencial de 0 a 5000 Hz, (B) banda estrecha con una
Hz.
30 dB.
objeto espectrograma. Para crearlo, selecciona el objeto de tipo Sound del que quieras hacer
Espectros
se realiza en una unidad de tiempo que se denomina ventana de análisis y que en los
procesamientos digitales del audio, la longitud de esta ventana determina el ancho de banda
con el que se muestran los gráficos.
que te interesa (por ejemplo, una vocal) y en el menú ANALIZAR tienes la opción DIBUJAR
correspondiente.
El resultado es una ventana con gráficos como los que se observan en la figura 7.11,
en los que se aprecian, para el segmento marcado de la señal, los relieves de amplitud
frecuencial es el que permite ver los armónicos (B), en tanto que en el de banda ancha (A)
se observan los relieves de manera más gruesa. Esto es exactamente lo que se observa en un
espectro se hace cambiando el número que está señalado con (1) en las dos imágenes. Al
desplazar el cursor aparece una línea vertical a la altura frecuencial del pico más cercano
(2), y en (3) aparece el valor en Hz del pico. Si el cursor no está localizado en un pico
frecuencial, el valor de (4) será distinto al de (3). En los dos gráficos de la figura 7.11, el
cursor está levemente desplazado a la derecha respecto del pico más cercano, por esta
razón, el valor de (4) es un poco más alto que el de (3). La opción EXPORTAR (5) sirve para
crear un archivo de tipo txt que puedes leer en cualquier programa de tratamiento de
números e incluso puedes construir gráficos por tu cuenta con la misma información gráfica
del espectro.
En PRAAT puedes ver espectros con el comando VIEW SPECTRAL SLICE, en el menú
Las características del espectro dependen de los valores que hayas dado a los
misma manera como la película es una sucesión de fotogramas); de esta manera, si tienes
de banda estrecha. La figura 7.12 muestra el oscilograma y los dos tipos de espectrogramas.
punto.
Figura 7.12. En la parte superior, oscilograma y espectrogramas de
Si analizas las imágenes de los espectros de la figura 7.12, deberían ser congruentes
con los espectrogramas en los puntos que se señalan. Las flechas del cursor en los
espectral.
Actividades
• Selecciona una secuencia de dos sílabas y crea con ella un nuevo objeto.
milisegundos (ms).
corresponda.
Usa el comando VIEW (uno de los botones del menú dinámico) con los
dos. Redimensiona ambas ventanas de espectrogramas para que puedas
• Consigue dos informantes para grabar una misma vocal con una voz
en la voz grave.
Preguntas
1 ¿Qué operaciones debes hacer para averiguar cuántas muestras hay en una
frecuencia de muestreo.
C) Multiplicar 22050 por 5 y dividir por 1000.
I De banda estrecha
II De banda ancha
III De ventana de 5 ms
IV De ventana de 30 ms
A) Solo I
B) Solo II
C) II y IV
D) I y IV
E) I, III y IV
hasta los 11 KHz ¿Cuál(es) puede(n) estar hecho(s) con una ventana de
análisis de 30 ms?
Figura 7.13. Tres espectros (de 0 a 11000 Hz en el eje horizontal).
8. ANÁLISIS TEMPORAL
¿Cuántas sílabas por segundo pronunciamos habitualmente? ¿Cuánto más largas son las
vocales tónicas respecto de las átonas? ¿Duran los sonidos duplicados exactamente el doble
que los simples? ¿En qué casos es relevante lingüísticamente la cantidad? Las respuestas a
la señal de habla.
En los programas que se han presentado en este manual, puedes ver la señal en
identificar sonidos; no obstante, para medición del tiempo, debes considerarlo solo como
instrumento auxiliar; las mediciones debes hacerlas siempre en el oscilograma (para una
interesantísima explicación sobre este fenómeno, puedes consultar Ladefoged 2002: cc-cc y
la sección “3.1. Viewing a spectrogram” del menú de ayuda de PRAAT, también hay versión
en Internet).
oscilograma el fragmento de la señal que deseas medir. Por ejemplo, si deseas saber cuál es
mejorar con el uso de las etiquetas y con la automatización de la obtención de los datos.
8.1. Mediciones temporales en AUDACITY
Para hacer mediciones de tiempo en AUDACITY debes tener una señal con etiquetas en los
fragmentos que te interesa medir. Supongamos que tienes etiquetadas las sílabas que
componen una emisión y lo has hecho siguiendo las instrucciones dadas en el capítulo 6.
El paso siguiente es exportar los datos usando la opción EXPORTAR ETIQUETAS del
programa de cálculo. En dicho archivo tendrás tres columnas: el valor temporal de inicio, el
0.071002 0.148608 el
0.148608 0.264192 ka
0.264192 0.356659 pi
0.356659 0.465638 te
AUDACITY.
este resultado se debe expresar en una nueva columna (todo esto se debe hacer en una
planilla electrónica). Con ello tendremos el valor de la duración de cada etiqueta, tal como
de cada sílaba.
Si una etiqueta se inicia exactamente donde termina la otra, los cálculos serán muy
limpios; si hay algún desajuste, lo mejor será uniformar los datos de tal manera que, por
ejemplo, el número de la segunda fila de la primera columna sea exactamente el mismo que
tabla.
El orden de las columnas lo puedes rehacer desde el programa que utilices; que una
celda contenga el mismo valor de otra, es algo que también se puede automatizar y, por
mínimos.
En este programa las etiquetas se pueden editar (y también exportar) desde una
ventana especial que se despliega en el menú PISTAS > EDITAR ETIQUETAS, como se observa
en la figura 8.2:
Obtener valores de duración en forma manual es muy sencillo. Basta con marcar el
esa figura, el número 4 señala una franja que permite escuchar la sección marcada; en esa
el TextGrid de la señal de audio y etiquetar los segmentos que quieres medir (por ejemplo,
Para conseguir las etiquetas y las duraciones basta con tener en el panel de objetos
Seleccionado el objeto TextGrid, puedes usar el botón QUERY para obtener los datos.
GET NUMBER OF INTERVALS… con esta opción se despliega un formulario que pide el
número del estrato y da como resultado el número de intervalos que hay en ese estrato. Si
GET STARTING POINT… al seleccionar esta opción aparece un formulario que pide el
número del estrato y el número del intervalo; da como resultado el tiempo de inicio de ese
intervalo.
GET END POINT… operación similar a la anterior que da como resultado la ubicación
Una serie de opciones paralelas para los estratos de puntos da como resultado el
número de puntos de un estrato (GET NUMBER OF POINTS…), el tiempo en el que se ubica una
Para lograrlo habrá que seleccionar el objeto TextGrid y usar el comando QUERY para
Esta es una manera correcta de hacerlo en PRAAT, pero resultará largo y tedioso.
Sabemos que los ordenadores son máquinas útiles especialmente para aquellas acciones que
se repiten muchas veces. Veremos ahora cómo programar una subrutina que realice estas
Seleccionar el TextGrid.
En ese estrato, contar el número de intervalos y usar ese resultado como una
El paso final de esta tarea consiste en enviar a la pantalla las etiquetas y las
una tabulación.
formulario inicial.
5. Un comando de tipo for hace que para todos los segmentos con
aparezca en milisegundos.
# Inicio
# 1. El formulario
natural estrato 1
endform
clearinfo
printline segmento'tab$'ms
for i to n
if etiqueta$ != ""
tt = t2-t1
tt = tt*1000
printline 'etiqueta$''tab$''tt:2'
endif
endfor
Para usar esta subrutina es necesario tener el TextGrid en el panel de objetos, abrir
el editor de scripts de PRAAT (PRAAT > NEW PRAAT SCRIPT), copiar o reescribir el texto del
script (las líneas precedidas por “#” no son necesarias) y ejecutar el script (RUN en el menú
RUN del menú del editor de scripts). El resultado debe ser un archivo de texto con dos
columnas de datos. Esos resultados los puedes llevar a una planilla electrónica.
pantalla del editor de script, en el menú FILE, existe la opción para guardarlo. PRAAT
permite incorporar tus propios scripts en los menús del programa, pero esto queda fuera del
Otras mediciones
Hay unas mediciones de tiempo que son muy productivas en los análisis fonéticos y
que no son de segmentos exactamente, sino de relación entre dos puntos. El ejemplo más
típico, pero no el único, es el caso del VOT (voice onset time o ‘tiempo de inicio de la
sonoridad’). Se usa para describir consonantes oclusivas. Puedes ver interesantes
descripciones y ejemplos en Fernández Planas (2003: 97-98), Martínez Celdrán (2003: 80-
84). Básicamente se mide el tiempo que hay entre la explosión de una oclusiva y el inicio
Figura 8.3. Secuencias “ta” y “da”. Las flechas señalan el momento del
sonoridad aparece después de la explosión (como en “ta”), se dice que el VOT es positivo.
en la ventana de edición. También podemos usar el script ya expuesto, pero en estos casos
Para resolver este problema, se puede crear un script que funcione a partir de un
TextGrid con dos estratos puntuales y en cada uno poner una marca (la del primer estrato
marcas en dos estratos diferentes, garantizamos que el resultado puede ser positivo o
negativo, ya que una actuará como el cero (referencial) y la otra marca podrá situarse antes
inicial. Luego deberá trabajar con el TextGrid y obtener los valores temporales para las
marcas que hay en los dos estratos (no puede haber otras marcas) y restar del valor del
estrato 2 el valor considerado como referencia (el de la marca del estrato 1). Por supuesto,
clearinfo
word sonido
endform
archivo$ = selected$("TextGrid")
tiempo = b - a
printline 'sonido$''tab$''tiempo:3'
número “3” después de los dos puntos “:” en la última línea de instrucción del script.
Con lo visto hasta este momento, ya puedes hacer análisis de cuestiones temporales
en la señal acústica. Este tipo de análisis es muy importante ya que son muchísimos los
fenómenos fónicos relacionados con este parámetro, tal como se mencionó en el párrafo
Actividades
• Con el texto del script en la ventana del editor de scripts, selecciona las líneas:
natural estrato 1
endform
Cambia en la primera línea lo que está después de la palabra “form”; escribe, por
ejemplo, “Este es un formulario”; selecciona solo esas líneas y usa el comando RUN
SELECTION (desde el menú RUN). Observa el resultado para que más adelante puedas
• Graba tu nombre completo y haz un TextGrid con cuatro estratos de segmentos: uno
para el nombre completo; otro para las palabras que lo componen; el tercero para las
sílabas y el cuarto para los sonidos. Usa el script presentado para hacer las
• Graba tres veces una misma frase a diferentes velocidades: normal, lenta y rápida.
Investiga en esos datos, usando la herramienta TextGrid para saber cuántas sílabas
• Graba las secuencias “ba da ga pa ta ka”. Crea archivos separados para cada
emisión. Para cada archivo, haz el TextGrid con dos estratos de puntos y pon las
vocálicos.
¿Cómo se caracterizan acústicamente las vocales? ¿Cómo puedo crear vocales artificiales
por medio de un computador? ¿A qué se debe que una vocal se perciba como más aguda
que otra? ¿Qué rasgos acústicos son relevantes desde el punto de vista de la percepción
como estas.
Una noción básica es la de formante. Baste aquí con señalar que las cavidades
las cuerdas vocales se produce el tono laríngeo, que consiste en una onda periódica
compleja con componentes que mantienen entre sí una relación frecuencial constante, es
que adopta el resonador bucal. Por lo tanto, los formantes que se pueden apreciar en un
análisis acústico tienen un correlato articulatorio con las secciones que se pueden distinguir
en la cavidad de la boca.
5000 Hz en la voz masculina, en tanto que para la voz femenina, lo esperable es encontrar
ese mismo número de formantes entre los 0 y los 5500 Hz; la diferencia se debe a la distinta
y un ancho de banda (o resonancia efectiva). La literatura especializada nos explica que los
dos formantes de más baja frecuencia (F1 y F2) son determinantes para la descripción y
vocales y, por razones teóricas importantes, evitaremos, el análisis de aquellas que puedan
estar nasalizadas.
Este programa de edición de audio puede darnos una información interesante a partir de los
que hay periodicidad (por ejemplo, un fragmento de una vocal), puedes hacer un análisis
espectral de banda ancha. Un espectro de este tipo se muestra nuevamente en la figura 9.1
estrecha.
En el caso que se presenta en la figura 9.1 (A), el primer pico está en los 336 Hz. El
espectro mostrado en 9.1 (B) muestra los componentes, en este caso, está marcado uno de
ellos situado en la frecuencia 2282 Hz. Una medición de varios picos en el espectro de
banda estrecha mostraría que se trata de una onda periódica, efectivamente, y que la
capítulo anterior, el espectro de banda ancha es una visión más gruesa de las frecuencias
También puedes exportar los datos de un espectro, con lo que tendrás un archivo txt
de dos columnas en que aparecen todas las frecuencias computadas en el espectro y las
análisis y en cada uno de ellos hacer el espectro (ancho), fijándose en los valores
específicamente de F1 y F2.
Análisis de los formantes en WAVESURFER
análisis acústico. En el menú File > Preferences > Misc se encuentra la opción Use
que permite cambiar los colores del espectrograma, una ventana Spectrum Section Plot con
ventanas.
El Spectrum Section Plot cambia si le pedimos que active el modo LPC (Linear
Otra opción de este programa es el modo Speech analysis. Con esta, el programa
espectrograma con los centros frecuenciales de los cuatro primeros formantes y, abajo, la
frecuencia del punto que señala el cursor. En la medida en que el investigador señale el
debe tener en cuenta que el programa permite modificar la trayectoria de los formantes, por
lo que se debe “apuntar” con el cursor, pero no “arrastrarlo”, pues modificará los valores
originales de la señal.
Para estudiar los formantes usando PRAAT, hay dos maneras. Una es observar los formantes
en la ventana de edición en la que puedes obtener datos numéricos precisos. La otra manera
Como ya te resulta familiar, al editar una señal sonora, PRAAT despliega una ventana que
tiene la opción FORMANTS en menú superior. Si activas la opción SHOW FORMANTS, verás en
varios parámetros. Para una voz femenina, como se mencionó al comenzar este capítulo,
hay que usar 5500 para el campo MAXIMUM FORMANT (HZ) y fijar en 5 el campo NUMBER OF
FORMANTS. Para voz masculina hay que cambiar el valor de MAXIMUM FORMANT (HZ) a
5000. Esto implica que el programa encontrará solo 5 formantes entre los 0 Hz y los 5500
Con la opción DOT SIZE (MM) puedes cambiar el tamaño del trazo. Con 0.5 será
formantes de una señal en esta ventana de edición. Al situar el cursor en un punto del
figura 5.2. En la figura 9.5, tienes otro ejemplo de ventana de edición (oscilograma,
está graduado para mostrar hasta los 5500 Hz y este es también el número para el MAXIMUM
FORMANT (HZ).
formantes que interesan para la descripción fonética, sino que son resonancias propias de
una emisión de una persona. El análisis de los formantes debe seguir una cierta lógica que
se salen de esa dirección son valores espurios que no deben ser considerados en el análisis.
En la zona marcada con (4) ocurre este fenómeno: aparecen unos puntos que no se deben
tomar en cuenta en el análisis. En otras palabras, al estudiar los formantes de una vocal se
debe tomar la medición en una zona de la señal en la que los valores sean claros y
consistentes.
En el menú FORMANT hay una serie de posibilidades bajo la sección QUERY para la
esas opciones, FORMANT LISTING, da la lista de los valores de los centros de frecuencia de los
hacer los cálculos. Las demás opciones se refieren al centro de frecuencia o al ancho de
Una manera rápida de hacer los análisis es con el sistema LOG FILE del menú QUERY
del menú superior. En primer lugar, conviene revisar la opción LOG SETTINGS… del menú
QUERY del menú superior. El formulario tiene la apariencia que muestra la figura 9.6.
Figura 9.6 Formulario del LOG SETTING.
't1:4''tab$''t2:4''tab$''f1:0''tab$''f2:0''tab$''f3:0'
decimales.
cuatro decimales.
del cursor.
Usa este método: pon el cursor en un punto de la señal en el que te interese medir
los centros de frecuencias de F1, F2 y F3 y selecciona en QUERY, del menú superior de esta
ventana de edición, la opción LOG 2. Aparecen en una ventana de texto los números
posición del cursor a otro punto (o selecciona un segmento vocálico estable) y repite la
operación LOG 2. Se crea así un archivo de texto en el que vas acumulando la información
solicitada.
't1:2''tab$''t2:2''tab$''f1:0'’b1:0’'tab$''f2:0'’b2:0’'tab$'
seleccionada una porción de la señal, entonces serán distintos los valores de ‘t1’ y ‘t2’; y el
Crear un objeto FORMANT es útil para poder automatizar tareas de análisis, como las
Con este objeto creado, puedes usar el botón QUERY de la misma manera como se
Vamos a suponer que te interesa conocer los valores de los formantes 1, 2 y 3 en las
Para hacer el análisis de los formantes usando el TextGrid, debes editar el objeto
debe estar habilitada. Posteriormente será necesario crear también el objeto Formant
correspondiente.
En el estrato puntual debes poner las marcas en los lugares donde te interesa
conocer los valores del centro de frecuencia del formante y del ancho de banda respectivo;
para hacerlo, recuerda, debes editar el objeto SOUND junto con TextGrid y al situar las
marcas debes tener en cuenta lo explicado antes sobre los valores espurios que suelen
aparecer en las señales. Escribe una etiqueta en cada marca con la vocal de la cual se trate.
Una vez hecha esta operación, tendrás tantas marcas puntuales como puntos en el
enunciado donde te interese conocer los valores. Y en cada marca estará escrita una
En la figura anterior, están etiquetadas todas las vocales del enunciado excepto una
que está nasalizada.
Las operaciones siguientes las harás manualmente. Esta manera es muy lenta, pero
es que sigas los pasos siguientes uno a uno para que sepas cabalmente cómo funciona el
puesto las marcas con las etiquetas (no es necesario que selecciones al
GET TIME OF POINT... del botón QUERY. Tendrás que hacerlo tantas veces
cada marca. Almacena ese valor pues será útil para un paso siguiente.
Usa la forma habitual para copiar un texto: marca con el cursor el texto
NUMBER, TIME (S), y otros dos campos más (estos últimos no conviene
del punto 3 (la información temporal). Si has seguido los pasos, solo
formulario que aparece con el número del formante, por ejemplo, “1” y
7. Repites estas operaciones con cada uno de los formantes que deseas
el TEXTGRID.
Una vez realizadas estas operaciones, tendrás una lista de valores de centros
frecuenciales anchos de banda para cada una de las marcas puestas en el estrato puntual del
TEXTGRID.
Tus resultados se pueden ordenar en una tabla que tenga provisoriamente las
siguientes columnas:
Vocal Tiempo F1 b1 F2 b2 F3 b3
La columna “Vocal” indicará de qué vocal se trata, la columna “Tiempo” tendrá una
entrada en segundos (s) y todas las columnas siguientes tendrán entradas en Hz de los
El script siguiente permite realizar las tareas anteriores de manera automatizada. Lo único
2. Imprimir en pantalla una línea con títulos para las columnas: Caso,
clearinfo
form Informante
natural estrato 1
choice sexo 1
button f
button m
comment En "estrato" indique el numero del estrato con marcas para los formantes
endform
if sexo$ = "m"
valor = 5000
elsif sexo$ = "f"
valor = 5500
endif
printline
Caso'tab$'Iniciales'tab$'Sexo'tab$'Tiempo'tab$'Vocal'tab$'F1'tab$'b1'tab$'F2'tab$'b2
# En el objeto Formant encuentra los valores para F1, F2, b1, b2 para cada punto
for i to ndepunto
printline
'i''tab$''iniciales$''tab$''sexo$''tab$''tiempopunto:2''tab$''etiquetapunto$''tab$''f1:0''tab
$''b1:0''tab$''f2:0''tab$''b2:0''tab$'
endfor
Remove
Con esta nueva herramienta puedes hacer los análisis de formantes en gran cantidad
de vocales y tener así una cantidad considerable de datos que te permitan llegar a resultados
consistentes.
Síntesis de vocales
Los estudios de los formantes vocálicos han permitido sintetizar, es decir, crear sonidos que
F1 y F2.
Sobre este asunto en particular, recomiendo, por una parte, una página web que es
una verdadera "fábrica de vocales", perteneciente al Speech Research Lab (A. I. duPont
Hospital for Children y la Universidad de Delaware); por otra parte, es conveniente
conocer la versión demo del programa FORMANT SYNTHESIZER; finalmente, hay que usar el
En esta ventana, el usuario indica los valores de la frecuencia fundamental y los tres
correspondientes y luego activa el botón Synthetize. Aparece una nueva pantalla con la
de nuestra síntesis.
9.9. El programa nos presenta los valores referidos a la fuente (tono laríngeo) en rojo y los
referidos a las resonancias, o filtro, en verde. Aquí se pueden manipular todos los
No exagero si digo que usar este programa es una experiencia divertida pues uno
presiona el botón Play y el programa genera el sonido. Además, el usuario puede modificar
los valores mientras el sonido se ejecuta, con lo que se observa la variación y el efecto de
El módulo editor de vocales de PRAAT, (New > Sound > Create sound from
En este módulo, el usuario tiene que poner el cursor en algún punto de este espacio
por ese espacio el sonido variará de acuerdo con las frecuencias del F1 (eje vertical) y del
F2 (eje horizontal).
parte inferior de la ventana. Con esta opción puedes crear estímulos con distintos valores
en la parte baja la vocal [a]; hacia la izquierda las vocales de la serie palatal y hacia la
intensidad (las frecuencias están en orden correlativo) y haz un gráfico con esos
valores. Compara el gráfico que has hecho con el espectro que el programa
realizó automáticamente.
• Usa el script 9.1 para hacer la lista de los valores de las vocales de una emisión
• Graba expresiones que tengan una misma vocal como, por ejemplo: “El que
debe es él”, “La rana canta para la hada”, “Sí; insistí”, “Yo no como poco”, “Su
luz, un tul” y haz la misma operación de análisis anterior con cada emisión.
• Graba emisiones que contengan las cinco vocales del español, tales como “Mira
masculina.
• Graba dos veces expresiones en las que haya vocales en contacto, como, por
ejemplo, “El río estaba en la imaginación de uno”. La primera vez, hazlo con
Algunos de los valores obtenidos, sitúalos en una carta de formante hecha por ti.
Ten en cuenta que muchas veces se utilizan escalas logarítmicas para esas
representaciones.
10. ANÁLISIS DEL TONO (PITCH)
fundamental.
¿Se diferencian los dialectos hispánicos por la melodía del habla? ¿En qué unidades de
medida se expresa mejor la altura tonal? ¿Cómo se puede caracterizar melódicamente una
pregunta? ¿Cómo se puede comparar la voz femenina y la voz masculina si una de ellas es
naturalmente más aguda? El tema que se desarrolla en este capítulo está relacionado con
sonido rico en armónicos que se modifica por las cavidades supraglóticas que actúan como
frecuencia entre ellos es constante. Por ejemplo, si un armónico tiene 500 Hz y el siguiente
tiene 600 Hz, podemos suponer que el anterior tiene 400 y que el siguiente tiene 700.
Podemos afirmar también que el décimo armónico tiene 1000 Hz. En otras palabras, todos
unidad puramente acústica y se relaciona con la duración del ciclo: una f0 de 100 Hz
implica que en un segundo habrá 100 ciclos, por lo tanto, cada ciclo dura 10 ms.
estrecha relación entre ambos conceptos y la frecuencia de vibración de las cuerdas vocales.
Dicho con otras palabras, la vibración periódica de las cuerdas vocales, por ejemplo, a una
razón de 100 vibraciones por segundo, se registra acústicamente como una frecuencia
fundamental de 100 Hz y esto produce una percepción de una altura tonal de 100 Hz.
El espectro
la señal analizada. Una vez con el espectro a la vista solo tienes que tomar dos
2250 Hz, puedes establecer que la frecuencia fundamental es de 225 Hz, es decir, la
Con toda seguridad, el primer componente debe tener 225 Hz, el segundo 450 Hz, el
Para identificar los valores de la frecuencia fundamental de una emisión debes hacer
sucesivos análisis espectrales en los puntos en que te interesa hacer la medición; recuerda
que deben ser segmentos periódicos de la señal. Por razones teóricas, siempre se privilegia
frecuencial o, lo que es lo mismo, de banda estrecha. Hay que tener en cuenta que un
mismo, en un espectrograma de banda estrecha (es decir, de una ventana de análisis larga,
por ejemplo, de 30 ms, en el que se tiene buena resolución de las frecuencias) se puede
Habrá que establecer un rango de Hz que permita ver con relativa nitidez las bajas
frecuencias. Normalmente los espectrogramas tienen una gama de 5000 o 5500 Hz, pero
La figura 10.1 muestra tres espectrogramas de banda estrecha de una misma porción
A B C
de las que se registran en A y aparecen solo los 7 primeros componentes. En este segundo
gráfico las variaciones de frecuencias se notan con más claridad que en el primero. En C se
muestra hasta los 1000 Hz y solo se observan 3 componentes. Con esta gama es más fácil
identificar los valores de la frecuencia fundamental (el componente más bajo). Estos
gráficos están hechos con PRAAT y para obtener los valores frecuenciales hay que ceñirse a
valor de la frecuencia fundamental lo puedes inferir pues ya sabes que la relación entre
10.2.
obstante le valor de la frecuencia fundamental es de 100 Hz. Este valor está dado por la
diferencia entre regular entre los armónicos, que están situados a los 400 Hz, 500 Hz, 600
Hz y 700 Hz. Este es el mecanismo por el cual nuestro cerebro puede interpretar el tono
En el oscilograma
duración de un ciclo y calcular el número de ciclos que pueden existir en un segundo. Por
En todos los programas mencionados en este manual, puedes hacer la medición del
hacerlo con un nivel de precisión muy grande si, teniendo un ciclo seleccionado, ajustas los
fragmento seleccionado es breve, entonces la frecuencia aparece entre paréntesis, tal como
(5).
El script siguiente puede ser útil si deseas calcular una frecuencia a partir de una
clearinfo
real el_ciclo_es_de
comment (milisegundos)
endform
t = 'el_ciclo_es_de'/1000
frecuencia = 1/'t'
printline Duración'tab$'Fo
printline 'el_ciclo_es_de:2''tab$''frecuencia:2'
de la frecuencia fundamental.
Algoritmos de autocorrelación
Los programas diseñados para analizar acústicamente el habla usan algoritmos que buscan
algoritmo de este tipo es una curva que muestra variaciones de frecuencia a través del
tiempo. Por ejemplo, la figura 10.4 muestra una curva de f0 obtenida en PRAAT.
300
200
100
0 0.3 0.6 0.9 1.2 1.5 1.8
vertical.
Este gráfico muestra el tiempo en el eje horizontal y la frecuencia (en Hz) en el eje
vertical. Esta señal tiene dos prominencias por encima de los 200 Hz: aproximadamente en
el segundo 0.7 y en el 1.3. En tres partes el trazo está interrumpido; a pesar de ello se puede
apreciar una continuidad en la dirección del mismo. Esos cortes corresponden a porciones
figura 10.5:
espectrograma.
algoritmo que funciona con el método de autocorrelación, es decir, hace una búsqueda de
los valores de la señal en una ventana de análisis hasta encontrar un patrón. No obstante,
algoritmos como este suelen cometer errores. Frecuentemente, uno puede encontrar bruscas
caídas o ascensos súbitos que tienen diferencias del doble de Hz. Observa la figura 10.6, en
la que se muestra una curva de pitch con caídas que no corresponden a valores
frecuenciales efectivos.
500
300
100
Si usamos alguna estrategia para corregir los valores erróneos, podemos obtener,
500
300
100
algoritmo.
¿Qué debes hacer cuando te encuentras con un valor sospechoso? La mejor opción
es siempre obtener manualmente el valor del pitch en aquella parte donde te parece que hay
un valor erróneo y corregirlo. En otras palabras, una curva que representa valores de f0
obtenidos mediante un algoritmo de autocorrelación es siempre una guía útil acerca de los
valores de f0 de esa emisión, pero solo una guía y siempre debe ser verificada y, si es
necesario, corregida.
puntos del análisis. Además del tipo de error mencionado pueden ocurrir otros, como que
donde sabemos que no hay periodicidad en la frecuencia. Por estas razones, los valores que
el algoritmo proporciona deben ser revisados y, si tienen errores, hay que corregirlos.
activada la opción correspondiente, tal como explicamos en el capítulo 5. Esa es una buena
manera para hacer una primera exploración de los valores, pero puede presentar errores, por
unidades usadas para presentar los valores: Hz, st, mel, ERB. Sobre la gama frecuencial es
muy importante tener en cuenta que aquellos valores que se sitúen fuera de la gama
establecida no serán computados. También hay que saber que la duración de la ventana de
análisis se establece automáticamente de tal manera que puedan ocurrir tres ciclos del valor
PRAAT.
que se expresan los valores. Las opciones del menú Drawing method permite la opción de
En la figura 10.6 se muestran los valores corregidos de los de la figura 10.5. Una
manera para enmendar este tipo de errores es cambiar el valor más bajo desplegado, de tal
manera que, como en el ejemplo, si no se computan los valores bajo los 120 Hz el error no
se produce.
De la misma manera, si una señal tiene un pitch sobre los 500 Hz y hemos fijado los
parámetros en un máximo de 300 Hz, también tendremos error. Por ejemplo, compárese el
b1
a
a1
en B, entre los 150 Hz y los 700 Hz. Los círculos indican puntos en
cambio, entre 150 Hz y 700 Hz. Por esta razón, en la primera aparece un error en los
valores de pitch en el círculo b: al establecer que la gama de Hz hasta los 500 Hz, los
elevar los valores que en A están después del quiebre, lo que tendremos es un resultado
como el de la imagen B.
En la imagen A hay otro error: el del círculo a. En la señal, hay un ruido que no
Sin embargo, el programa detecta una periodicidad y la marca como pitch. Al cambiar el
rango y especificar 150 Hz como mínimo, ese valor desaparece (círculo a1, en la imagen B)
dos trazos de f0 que, para efectos de la mayoría de los análisis, se consideran irrelevantes.
El objeto PITCH
Dada la naturaleza del programa PRAAT, para editar con más detalles y con más
posibilidades, y para automatizar las mediciones, lo mejor es crear un objeto de tipo pitch.
objetos. Hay una zona de botones bajo el título ANALYSE con un botón PERIODICITY-; la
formulario simple con tres campos: Time step(s); Pitch floor (Hz) y Pitch ceiling (Hz). La
primera opción se establece automáticamente, por lo mismo no hay que hacer nada en ese
campo; los otros dos sí son relevantes para establecer el valor más alto y el más bajo que
ventana de edición. Una vez que das el OK a ese formulario aparece un nuevo elemento en
el panel de objetos precedido de “Pitch”, que indica el tipo de objeto del que se trata.
Ahora bien, cuando seleccionas el objeto Pitch, el menú dinámico de botones ofrece
PLAY. Con esta opción puedes escuchar el pitch detectado como simples
PRAAT PICTURE.
QUERY. Permite obtener valores del pitch. Esta opción es importante para
automatizar tareas, como veremos más adelante.
En la zona Synthesize, hay tres opciones: con cada una de ellas se crea un
En los botones agrupados bajo el título CONVERT, tenemos varias opciones útiles
KILL OCTAVE JUMPS. Esta opción corrige automáticamente los saltos bruscos
resultado de esta operación será una curva muy parecida a la original pero
más estilizada. Los valores no coincidirán punto por punto con los de la
Figura 10.10. Ventana de edición del objeto pitch. Los números están
explicados en el texto.
En esta ventana, la línea de color está compuesta por una serie de puntos (1) que
corresponden a los valores del pitch detectados automáticamente por el programa. Los
números que aparecen dispersos por la ventana (2) son otros posibles valores frecuenciales
aparece al lado izquierdo de esta ventana, cuando el cursor está situado sobre él.
objeto Sound, se escucha la señal, pero con este objeto no escuchas la señal sino solo su
frecuencia fundamental. Por cierto, como en toda ventana de edición en PRAAT, puedes
escuchar la señal completa o una porción de ella (tal como se explicó a propósito de la
figura 5.5).
Si marcas sobre uno de los candidatos señalados con el número 2 en la figura 10.10,
cambiarás el valor del pitch y el “candidato” se transformará en un punto de color, un
“elegido”.
misma, puedes usar las opciones del menú SELECTION que te permiten elevar la frecuencia
de la selección en una octava (OCTAVE UP) o en una quinta (FIFTH UP) , es decir, 12 st o 7 st
respectivamente; bajar la frecuencia en una octava (OCTAVE DOWN) o en una quinta (FIFTH
que se muestra con la opción CHANGE CEILING...; al activarla aparece un formulario simple
formulario en el que hay que especificar los valores mínimos y máximos del pitch; los
valores por omisión suelen ser adecuados; es recomendable no cambiar el campo TIME STEP
(S).
Con este objeto seleccionado, puedes usar el botón EDIT y aparecerá una pantalla
En esta ventana tienes tres secciones: arriba, (1) el oscilograma; (2) al centro, el
En la sección de manipulación del pitch tienes una curva de f0 formada por puntos
verdes (4) que puedes mover a voluntad. Marcas uno y lo arrastras con el ratón. El
desplazamiento de uno solo de los puntos no tiene tanto efecto perceptivo como cuando se
para el desplazamiento de los puntos. En el menú PITCH, tienes la opción SET PITCH
DRAGGING STRATEGY… con la que puedes determinar que los desplazamientos sean solo
verticales, solo horizontales o una combinación de ambos. Prueba con ONLY VERTICAL, para
comenzar; de esta manera podrás cambiar la frecuencia de varios puntos sin cambiar su
posición temporal.
Haz lo siguiente con una señal de unos dos o tres segundo de duración:
D. Borra todos los puntos del pitch (menú superior, PITCH > REMOVE PITCH
POINTS).
hablante.
F. Agrega en ese punto un punto de pitch (PITCH > ADD PITCH POINT AT
CURSOR).
misma altura.
H. Sitúa el primer punto más arriba de tal manera que la melodía sea
constantemente descendente.
Con esto ya tienes una idea de lo que puedes hacer con esta función. Por supuesto,
puedes mover cada punto de pitch a voluntad; puedes agregar puntos de pitch en cualquier
Con estas herramientas tenemos las posibilidad de crear manualmente una versión
PITCH FREQUENCY…; con la primera, tienes que especificar con cuántos Hz quieres hacer
variar ese punto o esa selección. Con la segunda, proporcionas un factor para modificar la
señal; así, por ejemplo, al multiplicar por 2, las frecuencia se duplicará y si multiplicamos,
umbral a voluntad. Como todo objeto de tipo Manipulation, puedes modificar esos valores
que el programa te ofrece para obtener la curva que satisfaga mejor tus expectativas como
investigador.
Automatización de resultados
necesario que tengas los tres objetos en el panel de objetos: el de sonido, el TextGrid y el
Pitch. El resultado es una lista de etiquetas, el tiempo en el que está situada y el valor de la
clearinfo
archivo$ = selected$("Sound")
pitch$ = selected$("Pitch")
textgrid$ = selected$("TextGrid")
form Estrato
natural Estrato 1
endform
# tf = estrato
printline
printline secs.'tab$'Hz
printline 'etiqueta$''tab$''t:2''tab$''f0:1'
endfor
Texto de script 10.1. Este script automatiza la obtención de valores de
f0 en una señal.
Actividades
mínimos).
• Cambia la emisión para que quede con un f0 plano (toda la emisión con el mismo
valor).
• Parte de la emisión original y modifica los valores de la parte final del enunciado
para que tenga forma tonal interrogativa. Confirma con algunos informantes que la
• Cambia todos los valores de la emisión original de tal manera que dé la impresión
de que es otro el sexo del informante. Si es una voz femenina, baja todas las
investigación fonética.
mejores maneras de hacerlos? ¿Qué cualidades debe tener una imagen según vaya a ser
Los gráficos en trabajos de investigación fonética cumplen varias funciones. Por lo general,
dan una información acerca de las cualidades del sonido que son muy interesantes para el
En este capítulo, solo se expondrán las características de los gráficos que son
partir de planillas electrónicas como los gráficos de torta, histogramas, etc. Sí expondremos
cómo hacer imágenes que presenten gráficos habituales de representación del sonido:
Este procedimiento se puede usar con cualquier programa y consiste en hacer una
todos los computadores hay una opción para imprimir la pantalla en un archivo de imagen.
sido usado en este mismo manual en varias ocasiones para presentar el funcionamiento de
algún programa. Las imágenes que muestran interfaz de algún programa y que aparecen
con alguna flecha, números o círculos para destacar algo, han sido hechas a partir de
la intervención.
comprensibles pues ahora podemos aludir a los puntos del pitch, al formante tal o cual, a la
primera vocal señalada en el oscilograma, etc. Actualmente, los estudios de fonética por lo
general incluyen más de algún gráfico ya que funcionan como un complemento semiótico
primordial.
pantalla o desde el editor de imágenes, puedes crear una ilustración con las indicaciones
que estimes conveniente. Conviene tener en cuenta quién es el lector del trabajo, de eso
En el capítulo 4, en que se muestra cómo hacer las grabaciones, la imagen 4.2 muestra las
esta ventana.
Desde la ventana de edición, se pueden hacer gráficos de todos los que estén activos, pues
en cada menú aparece una opción que permite llevar al PRAAT PICTURE el oscilograma, el
Draw visible sound; en Spectrum, Paint visible spectrogram, etc. El resultado de estas
Figura 11.2. Panel de objetos, ventana de edición y panel gráfico de PRAAT. La opción
PICTURE.
posibles y el formulario que aparece en cada caso es sencillo, y puedes probar los efectos
que producen las opciones en cada uno de los campos. Especialmente interesante es lo que
a partir del borde exterior resaltado en celeste en la interfaz del programa. La exportación la
puedes hacer a la memoria ram mediante la opción de File > Copy to clipboard y
pegándola directamente en un archivo de texto o bien guardando la imagen en alguno de los
En la ventana PRAAT PICTURE se distinguen, entre otros, los elementos que aparecen
PRAAT.
Este panel tiene un menú superior con las opciones File, Edit, Margins, World, Select, Pen,
Font y Help. Tiene también una zona para hacer los gráficos (1) que está graduada en
pulgadas, tanto en la parte superior como en el costado izquierdo (2). El área seleccionada
(3) aparece destacada con un marco (4) que tiene un borde interno (5) y otro externo (6).
En una mirada a las posibilidades de los menús, observamos que el menú File permite,
RAM. Con Edit podemos deshacer la última intervención o borrar todo. Margins permite
poner texto y marcas en los bordes de un área seleccionada. Con World podemos escribir
texto en el área seleccionada o trazar líneas y figuras. Con Select podemos determinar si el
mouse selecciona el borde interno (5) o el externo (6), cambiar el área seleccionada
tomando como referencia el borde interno o el externo. Con Pen se puede determinar el tipo
y ancho de línea, tamaño de flecha y el color que se usará para dibujar los elementos. Font
del marco de selección de área; de tal manera que es importante hacer una selección de
Supongamos ahora que tienes en PRAAT OBJETCS, la siguiente lista de objetos: un Sound,
como aparece en la figura 11.2. Al seleccionar uno de esos objeto, aparece un botón en el
desactivas la opción Garnish. Luego, dibujas el marco interior del oscilogramama con la
opción Margins > Draw inner box. En seguida, seleccionas con el cursor el área
inmediatamente inferior y repites los pasos, pero esta vez seleccionas el objeto
Spectrogram. Seleccionas otra área y haces el dibujo del objeto Pitch. Finalmente,
seleccionas el área de la figura completa (los tres gráficos) y en el menú Select eliges la
opción Select outer viewport y completas los campos con los valores de los bordes
exteriores del recuadro según las medidas que el panel PRAAT PICTURE muestra (en rojo) en
Vamos a suponer ahora que quieres agregar marcas de tiempo cada ciertas fracciones de
segundos para que el lector tenga más información. Las marcas las pondrás en la parte
inferior del gráfico y además pondrás unas guías en cada tiempo marcado para mejor
comprensión de la figura. El resultado debe ser algo como lo que se presenta en la figura
11.5.
Para hacer la figura 11.5, se siguieron todos los pasos dados para construir la figura
11.4 pero, antes de hacer la selección del área previa a la exportación de la figura, se eligió
del menú Margins la opción Marks bottom every... con cual aparece un formulario en el que
hay que completar Units y Distance, y seleccionar las posibilidades de escribir los números,
poner los ticks y hacer las guías. En el caso de la figura anterior, las opciones fueron: Units:
1 (la unidad de referencia en este caso es el segundo); en este caso, la distancia, 0.4 (de
segundo) da una distancia entre marcas que hace legible la información; un valor menor
500
400
300
200
100
0
t o o
Para hacer la figura 11.6, se han seguido los siguientes pasos son: en primer lugar,
se seleccionó el área para dibujar el oscilograma; se seleccionó el objeto Sound y fue dada
la orden Draw (desactivada la opción Garnish); luego se hizo el marco interior. Después, se
seleccionó el área inferior para dibujar la curva de f0. Se dio la orden Draw sin Garnish. Se
hizo el marco interior para la curva de f0 y fueron puestas las marcas a la derecha con la
opción Mark right every... El formulario se completó con Units 1, Distance 100 (si se
hubiera indicado una distancia mayor, las marcas habrían quedado más distanciadas) y se
optó por poner los ticks, los números y las guías horizontales. Las marcas en la parte
inferior señalan inicio y término de cada sonido. En este caso, se usaron los valores
obtenidos en la ventana de edición. Cada uno de esos valores fue usado con la opción One
mark bottom... y se escribió ese valor en el campo Position; se dio la instrucción de poner
los ticks, las guías verticales pero no los números. Se hizo la misma operación con los
cuatro puntos. Para poner los caracteres fonéticos, se obtuvo el punto medio de cada
sonido en la ventana de edición y ese valor se usó con el mismo comando anterior, One
mark bottom..., esta vez se desactivaron las guías, los ticks y los números, solo se escribió
Draw text se escribieron los símbolos correspondientes. En el menú Help de PRAAT hay
de la figura 11.6, se usaron las siguientes dos secuencias para las consonantes: t\Nv y
\dh\Tv.
exterior del área de dibujo de tal manera que el gráfico completo, incluyendo los números y
las letras, queden incluidos dentro de él. Recuérdese que para hacer esta selección el
usuario se debe guiar por los números que indican las pulgadas del panel (número 2 en la
figura 11.3).
5
3
2500
2
objeto aparte con un fragmento de una señal. Esta operación fue explicada en la sección
5.3. El objeto nuevo se editó y, desde la ventana de edición, se pintó el espectrograma (sin
Garnish) y se hizo el marco interior, como en todos los casos anteriores. Luego se puso la
indicación de 2500 (Hz) a la derecha de la imagen. El comando utilizado fue Margins >
los números del lado izquierdo se usó el comando Margins > Mark left every... y en el
programa pone una marca cada 1000 (Hz, en este caso). Si hubiésemos puesto como unidad
1 y la distancia 1000, las marcas estarían en las mismas posiciones pero los números
Text special para escribir "KHz". Para conseguir este resultado, se usó la posición
horizontal -0.03 pues se escribió un poco antes de que comience la señal y la posición
vertical fue especificada como 2500 dado que el programa está trabajando con una
gradación de 0 a 5000 pues esos son los Hz mostrados en el espectrograma; por lo mismo,
2500 en el eje vertical es el punto medio. Con la rotación de 90 grados y el texto "KHz",
en el menú Pen para dibujar una flecha con World > Draw arrow... y una elipse con World
> Draw ellipse... En estos últimos dos elementos hay que considerar que cuando el
programa tiene un objeto como este, los valores de los ejes horizontales y verticales son los
que corresponden al objeto que se ha pintado; o sea, los números de las coordenadas
coinciden con los valores temporales y frecuenciales. Por esta razón, para hacer la flecha se
obtuvieron los valores en la ventana de edición: la flecha parte desde el punto que señala
los 0.39 segundos (horizontal) y 4000 Hz (vertical) hasta los 0.21 segundos y 1800 Hz.
Estas indicaciones sirven prácticamente para trabajar gráficos de todos los análisis
gráfico de PRAAT es que las marcas se sitúan exactamente en el punto que queremos indicar
y el programa respeta los valores del objeto analizado. Además, los valores de los ejes se
pueden cambiar mediante el comando Margins > axes..., lo que es especialmente útil
A B
1 2 3 4 5 1 2 3 4 5
0 3.462
Time (s)
PICTURE para dibujar el oscilograma; seleccionado el objeto Sound, se dio la orden Draw
sin Garnish; esta vez no se dibujó el marco interior. Luego se seleccionó el área para
Draw, sin Garnish y tampoco se hizo el marco interior. Luego se seleccionó el área que
incluye el oscilograma y la curva de tono más una zona para disponer tres estratos del
TextGrid; se seleccionó el objeto TextGrid y se dio la orden Draw con Garnish. Para
finalizar, se seleccionó solo el área del oscilograma y se hizo el marco interior. Una figura
como esta es bastante útil para exponer cuestiones metodológicas o resultados; por cierto, el
gráficos de PRAAT. Esta no es la única forma, pero puede ser interesante para presentar
resultados.
Una manera de hacer rápidamente una carta de formantes es crear un objeto del tipo
Formant.
150 150
[ i ] [ u ]
[ e ]
[ o ]
F1 (Hz)
F1 (Hz)
[ a ]
800 800
3000 500 3000 500
F2 (Hz) F2 (Hz)
Figura 11.9. Carta de formantes (A) sin datos y (B) con valores
vocálicos.
La figura 11.9 B fue realizada siguiendo los siguientes pasos. En primer lugar, se
seleccionó un área interior de dibujo cuadrada. Luego se seleccionó en Pen el color blanco.
Se creo en seguida un FormantGrid (New > Tiers > FormantGrid...) a partir de las
opciones por defecto. De tal manera que apareció el objeto FormantGrid en el panel de
objetos. Este objeto se seleccionó y fue convertido en un objeto Formant (en la práctica,
cualquier objeto Formant habría servido para el presente propósito). Un objeto Formant se
puede dibujar de varias maneras a partir de la opción Draw: como trazos en el eje temporal
o bien se puede hacer una carta mediante la opción Scatter plot... prescindiendo del eje
Figura 11.10. Formulario para hacer carta de formantes con los valores
por defecto.
Para hacer la figura 11.9 B se cambiaron los rangos de ambos formantes en función
de los que se quería presentar. Nótese que tanto en el eje horizontal como vertical los
valores se exponen en orden decreciente (primero el valor alto y luego el valor bajo). En el
caso presente, al estar seleccionado el color blanco, se dibuja el marco y los valores de los
márgenes, pero las marcas dentro de la carta no se ven. Ahora aparecen en PRAAT PICTURE
los márgenes de una carta de formantes vacía, tal como se aprecia en la figura 11.9 A.
Luego se selecciona Pen > Black para restituir el color negro de las marcas y mediante el
menú World > Text se procede a escribir cada una de las marcas en los puntos que
hubo que completar esos campos con los valores formánticos correspondientes.
Con lo presentado aquí no se agotan las posibilidades gráficas de este módulo del
programa; pero al menos se han entregado los elementos suficientes para presentar
informes de investigación con gráficos de análisis acústicos que cumplan con los mínimos
requisitos de una entrega académica seria. Como en todos los demás casos, la práctica
aprendizaje.
Para finalizar diremos que las imágenes digitales tienen una cierta resolución,
frecuencia de muestreo más alta es más pesado que uno de frecuencia más baja. Sin
embargo, de la misma manera que con los archivos de audio, muchas veces una resolución
Una imagen que solo será vista en pantalla, ya sea para una presentación o para
poner en la web, requiere una resolución baja, de 72 dpi (o ppp); una que será impresa en
papel, por ejemplo, en un informe, necesita una resolución un poco más alta, de unos 150
dpi. Las resoluciones de valores más altos solo son necesarias para imprimir
Actividades
• Toma un objeto Sound, crea el objeto Formant y haz el gráfico de oscilograma y
color blanco. Como en el ejemplo siguiente. Agrega marcas verticales cada mil Hz
5
4
3
2
1
0
0 0.2 0.4 0.6 0.8 1
• Toma valores promedio de los formantes 1 y 2 de las vocales del español de alguna
capítulo.
• A partir de una señal breve, haz el TextGrid que incluya un estrato de puntual en el
que etiquetes las vocales. Crea el objeto Pitch correspondiente, edítalo según lo
TextGrid juntos.
• Crea en el panel Praat Picture un rectángulo y especifica que el eje horizontal cubra
para el eje vertical especifica valores entre 0 y 5000 (como si se tratara de valores
frecuenciales desplegados en un espectrograma). Dibuja líneas como si fueran
5000
4000
3000 i
e
2000 a
o
1000 u
0
GLOSARIO
bibliografía específica.
como la cinta de casette, que representa de modo CONTINUO los valores temporales
CAVIDADES SUPRAGLÓTICAS: Desde el punto de vista articulatorio, son las zonas que están
CICLO DE UNA ONDa: En acústica, el movimiento completo de una partícula que comienza
respuestas frecuenciales muy precisas. Este tipo de micrófono también requiere una
externas.
representa sin saltos entre un punto y otro las variaciones de AMPLITUD de una señal
CORPUS: Material de estudio; es este caso, material grabado y editado de tal manera que
almacenado en un computador.
DISCRETO: Por oposición a CONTINUO, es la cualidad de un tipo de almacenamiento que
representa de manera discontinua, con saltos entre un punto y otro, las variaciones
VENTANA DE ANÁLISIS breve. Representa las frecuencias con poco detalle y, por lo
tanto, permite ver las principales concentraciones de energía de una señal pero no
FILTRO (2): Las resonancias de las cavidades supraglóticas que amplifican algunas
banda ancha. Se representa F1, F2, etc. y tienen uso fundamental en el análisis
amplitud de la señal.
FRECUENCIA DE UNA ONDA: Número de ciclos por segundo que posee una onda. La unidad
de medida es el Hz (hercio).
FUENTE: En fonética, la fuente está dada por el tono laríngeo. Véase también FILTRO (2).
computacionales.
condiciones experimentales.
sobre lenguaje.
expresa en dB.
externas.
MICRÓFONO UNIDIRECCIONAL: Tipo de micrófono que registra mejor la señal situada frente
a él.
distintas frecuencias.
NYQUIST FREQUENCY: Es la máxima frecuencia que se puede registrar dada una frecuencia
de tipo Sound, Pitch, Formant, Intensity, y varios más. Los objetos no son archivos
ONDA: Fluctuación de la presión en un medio, que se desplaza y que hace que las partículas
ONDA APERIÓDICA: Una ONDA cuyos componentes no tienen relación frecuencial constante
entre sí.
ONDA PERIÓDICA: En Acústica, aquella ONDA COMPLEJA cuyos componentes tienen relación
ONDA SIMPLE: En Acústica, aquella ONDA que tiene un solo componente. Es equivalente a
sinusoide.
temporal.
por computador.
SATURACIÓN: (Clipping). Efecto que se produce cuando el registro de una señal supera la
consonantes de una lengua. Según sea el caso, se refiere a los fonemas o a las
variantes.
SÍNTESIS DE HABLA: En TECNOLOGÍAS DEL HABLA, aquella que tiene el objetivo de crear
SONOGRAMA: En Fonética Acústica, fue nombre que recibió antiguamente el gráfico del
SUPRASEGMENTOS: En Fonética esta expresión se refiere a los aspectos tales como melodía
TONO LARÍNGEO: Es el sonido producido por la acción de las cuerdas vocales tal como se
1. la alternativa B, pues tiene respuesta plana en las frecuencias que interesan en el estudio.
2. La alternativa D, pues abarca desde los 350 hasta los 7000 Hz.
3.1. Alternativas D, E y F.
3.2. Alternativa D.
3.3. En estricto rigor, la alternativa F que tiene mayor número de muestras por segundo.
Capítulo 4. La grabación
señal, eso significa que el habrá una mala relación señal-ruido pues el supuesto silencio
4. Porque una vez hecha la grabación solo se puede disminuir la frecuencia de muestreo, no
1. Alternativa C.
4. Alternativa d. Las opciones "de banda estrecha" y "de ventana de 30 ms" son
equivalentes y permiten ver los componentes armónicos de una señal, por lo tanto, se puede
BIBLIOGRAFÍA MENCIONADA
Fernández Planas, Ana María. 2005. Así se habla: nociones fundamentales de fonética
Anthropos.
Martínez Celdrán, Eugenio y Ana María Fernández Planas. 2007. Manual de fonética