Está en la página 1de 178

Manual para el análisis fonético acústico

mediante programas especializados

Domingo Román Montes de Oca

Laboratorio de Fonética

Facultad de Letras, Universidad Católica de Chile

Santiago de Chile

2009
Prólogo

La obra que presentamos posee un carácter didáctico innegable, no sólo porque

posee prácticas y ejercicios muy recomendables en cada capítulo, sino especialmente por su

manera de explicar los entresijos de los programas que nos ofrece. Lo hace siempre con un

lenguaje cercano, sencillo, incluso ameno. La obra presenta en los primeros capítulos una

aproximación a los conceptos que se suelen utilizar en fonética acústica, que se explican de

forma muy clara; pero, sobre todo, el libro representa una ayuda muy eficaz en el manejo

de ciertos programas de análisis del habla. Domingo posee un conocimiento profundo de

algunos que se han convertido en herramientas básicas para el estudioso de la fonética

acústica; aunque explica el AUDACITY y el WAVESURFER, focaliza su explicación sobre

todo en el funcionamiento del programa PRAAT, que maneja con gran pericia. Se trata de un

potente instrumento que ofrece un gran abanico de posibilidades al investigador del habla,

pues se puede realizar todo tipo de gráficos con suma facilidad: oscilogramas,

espectrogramas, espectros, extracción del pitch y de la curva de intensidad, etc. Y, por

supuesto, ofrece todas las posibles mediciones de parámetros acústicos con absoluta

fiabilidad. Además, posee una gran calidad de imagen y sus datos son tan fidedignos que

este programa se ha convertido en una herramienta reconocida internacionalmente.

Hace tiempo, desde que Domingo estuvo trabajando en nuestro Laboratorio en

Barcelona, que utilizo el PRAAT y lo enseño a mis alumnos. Recuerdo que durante un curso

nos fuimos reuniendo, un día a la semana, algunos miembros del grupo de investigación del

Laboratorio. Se discutían varias cuestiones y se hacían varias cosas: una de ellas era atender

a las explicaciones que Domingo nos daba sobre el funcionamiento del PRAAT. También

servía para exponer nuestras dudas sobre sus posibilidades y su manejo, que Domingo
trataba de resolver, si no ese mismo día, a la semana siguiente. Aprendimos entonces

mucho. Pero ahora confieso que al leer este Manual, he seguido aprendiendo cosas nuevas.

He visto, por fin, cómo hacer los espectros que otros programas presentan de manera tan

fácil, cómo añadir líneas, flechas o elipses, etc. Todo esto es de suma utilidad para la

investigación y, sobre todo, para la publicación posterior. Me he ejercitado en una práctica

muy útil por el ahorro de trabajo que presenta; se trata de los scripts; es decir, las macros

que permiten agilizar el trabajo rutinario. En este libro se ofrecen varios muy útiles, como

muestra.

Sólo puedo subrayar hechos positivos en este libro. Lo aconsejo a todo aquel que

tenga necesidad de trabajar en fonética acústica. Lo recomiendo a los profesores de fonética

para que sus alumnos aprendan más y mejor. Y sugiero con toda energía su lectura y su

práctica a todos aquellos que ya utilizan el PRAAT, pero que lo hacen de manera burda. Es

muy desalentador ver en Congresos cómo alguien presenta imágenes de espectrogramas

totalmente negros, y por tanto ilegibles, para dilucidar una cuestión fonética. Hay que

decirles que lean sobre todo el capítulo 7 de este libro y cómo utilizar, en el “Spectrogram

setting”, el “Dynamic range”, por ejemplo.

Domingo Román es un verdadero especialista en la materia y tenemos que

agradecerle que haya puesto su conocimiento por escrito y al servicio de todos.

EUGENIO MARTÍNEZ CELDRÁN


INTRODUCCIÓN

¿Podemos fabricar voces artificiales que parezcan totalmente naturales? ¿Podrían esas

voces simular emociones? ¿Se puede identificar a un individuo por la voz, tal como se hace

por la huella dactilar? ¿Puede una máquina reconocer qué ha dicho una persona? ¿Puede

cantar un ordenador? ¿Puede una máquina ayudarnos a corregir la pronunciación de una

lengua que intentamos aprender? ¿Existe un detector de mentiras que funcione a partir de la

voz?

Estas preguntas nos sugieren que la Fonética está relacionada con áreas de la vida

que resultan muy familiares y también con otras que pertenecen al ámbito de las

posibilidades tecnológicas en proceso de desarrollo. Al ocuparse científicamente de los

sonidos de la comunicación lingüística de los seres humanos, se producen nexos evidentes

con múltiples necesidades que abarcan cuestiones biológicas, evolutivas, psicolingüísticas,

policiales, cibernéticas y, por cierto, las propiamente lingüísticas.

En este manual, te propongo un acercamiento a la dimensión acústica de la Fonética

de manera activa, ya que hoy están dadas las condiciones tecnológicas para hacerlo; así,

este manual se debe usar como una guía para aprender.

La Fonética Acústica ocupa una posición estratégica al estudiar el objeto que está

entre el hablante y el oyente. En efecto, a partir de la señal misma, deberíamos poder

reconstruir, parcialmente al menos, los detalles articulatorios, auditivos y perceptivos de las

emisiones verbales.

El desarrollo de las tecnologías de análisis le ha dado otra ventaja a la Fonética


Acústica. Para practicarla hoy día, se requiere un computador y un programa de análisis y,

eventualmente, un micrófono. Ordenadores y micrófonos ya los hay a precios relativamente

asequibles y muchos programas de extraordinaria utilidad son gratuitos; mientras que para

hacer Fonética Articulatoria los requerimientos suelen ser bastante más costosos. Además,

desde el punto de vista de las invasividad de las técnicas, la Fonética Acústica parece ser la

más amable para los informantes.

Los textos disponibles en español que explican conceptos de Fonética Acústica, en

su mayoría se concentran en las propiedades físicas y en las formas de representación del

sonido. El conocimiento de estos contenidos es imprescindible para desenvolverse en la

disciplina. Hay que saber qué es una onda sonora (simple, compleja, periódica y

aperiódica), qué es ciclo, período, frecuencia, amplitud, qué y cómo son los espectros y

los espectrogramas, qué es la frecuencia fundamental y qué son y para qué se usa el

análisis a partir de formantes.

Además de estos temas tradicionales en Fonética Acústica, hay otros, relacionados

con los anteriores, que no aparecen tratados en la bibliografía actual de referencia en

español. Son los que se derivan del procesamiento digital de la señal sonora: por ejemplo,

analógico vs. digital, muestra y frecuencia de muestreo, bit, Nyquist frequency, ventana

de análisis, aliasing, entre otros.

Entre los primeros sonogramas de los años cincuenta y el momento actual (2009,

para ser precisos), ha sucedido algo revolucionario: el advenimiento del sonido digital y

con él múltiples posibilidades para su análisis, almacenamiento y síntesis.

Este nuevo fenómeno ya es parte de nuestro entorno; piensa en la existencia del

disco compacto (y del DVD), el hecho de que los ordenadores puedan “hablar” (unos mejor
que otros), de que puedan “reconocer” algunas órdenes. Algunas tecnologías permiten que

un texto escrito pueda ser “leído” por una máquina y, la operación inversa, que una palabra

emitida por una persona pueda ser “escrita” automáticamente por el ordenador. Puedes

almacenar discos de música completos (y muchos) en formato MP3 y escucharlos mientras

haces deporte; puedes disfrutar de la radio a través de Internet, puedes intercambiar

archivos de música con equipos que se encuentran lejos… Todo esto es parte de la

revolución que significó el sonido digital.

La Fonética Acústica también se ha visto beneficiada por estas nuevas tecnologías.

Efectivamente, hoy están dadas las condiciones para hacer análisis y ejercicios con

programas diseñados especialmente para trabajar con el sonido digital. Pero no todo es

fácil. Practicar la disciplina a partir de los nuevos instrumentos tiene también interesantes

desafíos teóricos y técnicos.

Este manual universitario está pensado especialmente para colaborar en tu

aprendizaje a partir de estas nuevas tecnologías, mediante la exposición de algunos temas y

procedimientos que te permitirán obtener buenos resultados y facilitarte así un camino que

puede ser fascinante.

En este manual trabajaremos con algunos programas que cumplen con las siguientes

características:

• Tienen prestigio académico en su funcionamiento y en sus resultados.

• Se pueden usar sin tener que pagar licencias.

• Están en continuo mejoramiento gracias a las sugerencias de los usuarios.

• Tienen varios sistemas de ayuda en Internet.


• Funcionan en más de un sistema operativo.

Uno de los programas es un editor de audio y los otros están diseñados más bien

para el análisis acústico, aún cuando comparten muchísimas funciones. El principal editor

que mencionaremos es AUDACITY, proyecto original de Dominic Mazzoni desde 1999; se

puede obtener en http://audacity.sourceforge.net/. El programa de análisis acústico en el

que nos concentraremos es PRAAT (creado por Paul Boersma y David Weenink en el

Institute of Phonetic Sciences de la Universidad de Amsterdam, vigente desde 1992; se

puede obtener en el sitio www.praat.org). Este probablemente sea el estándar de los

próximos años. De tal modo que si en algún momento te das cuenta de que la Fonética es

una de tus pasiones vitales, entonces te recomiendo que pongas especial atención a este

programa. También mencionaremos otras herramientas interesantes y útiles, como por

ejemplo, WAVESURFER, de Kåre Sjölander y Jonas Beskow (2005), desarrollado en el

Centre for Speech Technology (CTT), KTH, Suecia que se puede obtener en

http://www.speech.kth.se/wavesurfer.

Para usar productivamente este manual, debes tener los siguientes conocimientos:

De Fonética necesitas conocer las nociones básicas de la disciplina. Como este

no es un manual de Fonética sin más, sino uno de manejo de programas para

análisis acústico, no se profundizará en los conceptos teóricos. En este

sentido, este manual debe entenderse como complementario de otros tales

como Eugenio Martínez Celdrán (1989, 1991, 1998), Ana María Fernández

Planas (2005), Eugenio Martínez y Ana María Fernández (2007),

especialmente el primer capítulo.

Se requieren también ciertas destrezas computacionales; debes conocer bien el


equipo en el que vas a trabajar en cuanto a su capacidad de almancenamiento

de datos y las posibilidades de conectarle un micrófono o algún dispositivo

externo para proporcionarle sonido. También debes saber cómo descargar en

tu equipo programas y archivos desde sitios de Internet.

Es importante conocer los elementos básicos del diseño experimental y del

procesamiento de los datos. Para esos temas, lo conveniente será revisar los

textos de Eugenio Martínez Celdrán (1991) y de Joaquím Llisterri (1991).

También debes saber cómo guardar archivos, crear carpetas y organizar la

información en directorios a los que puedas acudir fácilmente.

Es conveniente que tengas el hábito de hacer periódicamente copias de

seguridad de tus trabajos.

En cada capítulo, la información central está constituida por las técnicas de manejo de los

programas. Solo en los casos en que ha parecido imprescindible, he agregado información

teórica en función de una comprensión cabal de los contenidos. También encontrarás

actividades y cuestionarios para que puedas evaluar tu aprendizaje, y un glosario básico y

operacional de las palabras que aparecen en negritas, al final del libro.

El orden de los contenidos es el siguiente: en la primera parte aprenderás y ejercitarás las

técnicas necesarias para poder tener un material de audio listo para ser analizado, es decir,

un corpus. Esta parte incluye desde algunos conocimientos de requerimientos físicos hasta

información acerca de cómo editar las señales grabadas. En la segunda parte aprenderás las

técnicas básicas que sirven para realizar los análisis, desde el etiquetaje de las señales hasta

el análisis del tono fundamental. Se incluye en esta parte un capítulo acerca de cómo hacer

gráficos de los diferentes análisis.


La primera versión de este manual fue realizada durante el año 2006, mientras

estuve de becario en el Laboratori de Fonètica de la Universitat de Barcelona. El grupo

PRAAT en el Lab fue el motor de este trabajo. Su redacción continuó en Santiago de Chile

entre los años 2008 y 2009 gracias al apoyo de la Facultad de Letras de la Pontificia

Universidad Católica de Chile. En la medida en que más colegas opinaron acerca de él me

fui dando ánimo para convertirlo en un libro, consciente de que llena un vacío para nuestros

estudiantes, de los cuales algunos serán, literalmente, los fonetistas del siglo XXI.

Actividades

Consigue en Internet el texto de la licencia GNU. Léelo y discute acerca de la

importancia que pueden tener estos programas en el desarrollo de la

investigación científica.

Revisa la historia de los programas PRAAT y AUDACITY.

Visita la lista de discusión del programa PRAAT (en inglés), puedes acceder a

ella desde la página del programa. Lee alguna de las preguntas y su

respectiva respuesta.

Revisa algún artículo de una revista especializada en fonética y fíjate qué

programa de análisis acústico se ha usado para la investigación.

Averigua acerca de los distintos tipos de programas que existen dentro de la

categoría de software libre.


PRIMERA PARTE

Esta primera parte comienza con una revisión de los propósitos y las características

generales del quehacer de los fonetistas; luego se señalan cuáles son los elementos

imprescindibles para hacer investigación desde la perspectiva acústica de la disciplina;

posteriormente, se presentan algunas nociones básicas del DSP o procesamiento digital de

señales. En seguida, se revisan los pasos necesarios para hacer una grabación apta para el

análisis y finalmente encontrarás algunas instrucciones para editar la grabación de tal

manera que tengas el material listo para hacer los análisis que desees.
1. ¿QUÉ SIGNIFICA HACER FONÉTICA ACÚSTICA HOY DÍA?

El propósito de este capítulo es que puedas identificar las características

generales de la Fonética Acústica que se realiza hoy. Quiénes la hacen, qué

se investiga, cuáles son los procedimientos habituales, etc.

1.1. ¿Para qué se hace Fonética Acústica?

Esta pregunta es válida para todas las disciplinas y no es una pregunta trivial; es una

versión del “¿para qué sirve?” Aquí verás algunas respuestas, pero ten en cuenta que la

pregunta es difícil de contestar a cabalidad y que la lista de soluciones está abierta.

• Descripción de lenguas

La tarea de describir y, en lo posible, explicar la fonética (y la fonología) de un idioma

siempre está incompleta. En cada lengua (y en todas sus variantes) hay aspectos que no

están descritos todavía o que están en proceso de cambio. También hay descripciones ya

hechas que merecen una adecuada revisión. Por supuesto, también el punto de vista

acústico es uno de los enfoques útiles en estas actualizaciones y uno de los más recurrentes.

• Aplicaciones a nuevas tecnologías

Las nuevas tecnologías, en particular las llamadas tecnologías del habla, han aportado

potentes posibilidades de análisis a los fonetistas, y al mismo tiempo necesitan información

sobre los fenómenos fónicos de las distintas lenguas y sus variedades para que se puedan

implementar, por ejemplo, en programas de conversión texto-habla o en sistemas de

reconocimiento de voz, ya sean programas que identifiquen a un hablante o bien

programas que identifiquen lo que se ha dicho.


• Colaboración en el aprendizaje de segundas lenguas

Un campo atractivo de aplicación de la fonética acústica es la enseñanza de la

pronunciación de segundas lenguas. Si un estudiante tiene una representación visual de una

pronunciación modelo (por ejemplo, en un espectrograma) y cuenta con la representación

de la realización propia, acompañado de un instructor que le ayude a interpretar esas

señales, puede tener más antecedentes para conseguir una pronunciación adecuada al

modelo.

• Investigación en patologías del habla

Las necesidades en el área de las patologías del habla son, además de urgentes, múltiples y

variadas. Prácticamente en todas ellas existe la posibilidad de una participación productiva

de la Fonética Acústica. En parte, las mismas descripciones precisas del habla de los

pacientes son ya de alguna utilidad (indirecta para los pacientes, claro está); pero también

se pueden desarrollar técnicas de rehabilitación que incluyan elementos de la Fonética

Acústica.

• Aportaciones a las teorías fonéticas y fonológicas

Las teorías fonéticas y fonológicas usan datos empíricos para comprobar o para refutar sus

hipótesis. Por esta razón, se produce un diálogo epistémico interesante y creativo entre las

generalizaciones y las investigaciones sobre casos específicos. Muchas veces los estudios

fonéticos ponen a prueba ciertas afirmaciones fonológicas y, a la inversa, las afirmaciones

fonológicas son fuente de preguntas para los fonetistas.


1.2. ¿Quiénes hacen Fonética Acústica?

Al observar en las publicaciones quiénes hacen investigaciones en Fonética Acústica, se

constata que estamos en un terreno compartido. La tradición nos hace pensar que esta es un

área de los lingüistas, pero una revisión detenida nos muestra que hay colegas provenientes

de otros campos del conocimiento, principalmente: fonoaudiólogos, otorrinolaringólogos,

profesores de segundas lenguas, estudiosos de la literatura, psicólogos, ingenieros

acústicos, informáticos y forenses.

Esta lista, aunque no es exhaustiva, sirve para darnos cuenta de la pluralidad de

enfoques que existen. Evidentemente cada profesional realiza los estudios con propósitos

particulares; por ejemplo, un psicólogo puede estar interesado en cuestiones de percepción

de ciertos sonidos, en tanto que un fonoaudiólogo puede querer establecer las propiedades

típicas de una voz con determinada patología. Del mismo modo, un ingeniero se puede

interesar en conocer con qué parámetros se describe mejor una vocal para reproducirla

mediante un ordenador. Un forense puede estar muy interesado en saber cómo se puede

argumentar si dos muestras de voz corresponden o no a la misma persona para presentar ese

antecedente en un juicio.

Por nuestra parte, los lingüistas dedicados a la Fonética, tenemos un abanico muy

amplio de temas. Se investigan las propiedades de los segmentos (vocales y consonantes) y

de los suprasegmentos (cantidad, intensidad y altura tonal). Más allá de la Fonética misma,

hoy tienen creciente presencia los estudios en los que se relaciona la Fonética con

información de un nivel distinto del fónico (oracional, discursivo, pragmático). Así, por

ejemplo, es posible investigar cuáles son los valores de la frecuencia fundamental de una

afirmación y de una pregunta; se puede indagar la diferente velocidad de habla en la


narración y en la descripción; es posible averiguar cuáles son las condiciones fonéticas para

el cambio de turno en una conversación, etc.

Pero la Fonética no solo puede establecer nexos al interior de la Lingüística. Al

interesarse por problemas que también incumben a otras ciencias, se producen

investigaciones de carácter interdisciplinar, por ejemplo, si se estudian las propiedades

vocálicas de las emisiones de sujetos con patologías articulatorias. Idealmente, esta

modalidad de trabajo requiere la participación de investigadores provenientes de las

distintas disciplinas implicadas. Estos cruces exigen, obviamente, trabajo en equipo y son,

al mismo tiempo, experiencias muy enriquecedoras para todos. En teoría, las

interdisciplinas son muchísimas; tantas como áreas del saber se puedan relacionar en una

investigación específica. En este tipo de estudios, lo normal es que haya un problema en

torno al cual se defina una investigación y una de las ciencias implicadas funcione como la

principal y las demás colaboren con ella.

1.3. ¿Cómo se trabaja?

Según la orientación del estudio —sin considerar el aspecto articulatorio de la Fonética—,

una investigación fonética puede estar centrada en el análisis de la señal acústica, en el

procesamiento auditivo (simulado a partir de la señal acústica) o bien en la percepción. En

el primer caso, se hacen las mediciones en la señal tal como esta fue registrada por el

micrófono; en el segundo caso, los valores de esa señal se transforman de acuerdo con

modelos cocleares para simular el procesamiento auditivo y, en el último caso, una o varias

señales (naturales, modificadas o sintéticas) se someten a mediciones de identificación,

discriminación o correspondencia. De estas tres posibilidades, solo la primera es,


estrictamente hablando, Fonética Acústica.

Es necesario distinguir entre el trabajo de análisis y el que busca hacer síntesis de

habla. Para quienes se dedican al análisis, el objetivo es hacer investigación a partir de

muestras de habla emitida por personas reales. En cambio, los objetivos de quienes trabajan

en síntesis son diferentes: tratan de producir, a partir de procedimientos computacionales,

habla que parezca lo más natural posible. Por cierto, se trata de orientaciones

complementarias. Así, mientras un investigador se interesa en conocer las propiedades

acústicas que caracterizan mejor las vocales del español, hay un colega que está interesado

en conocer esos resultados para aplicarlos a la producción de sonidos por ordenador.

Cuando un fonetista desarrolla tareas de análisis, puede trabajar con habla de

laboratorio o con habla espontánea. Cada opción tiene sus pros y sus contras.

Evidentemente, en el habla de laboratorio se tiene mayor control de las variables que se

van a estudiar y, por lo mismo, la investigación puede ser muy precisa. El habla espontánea

(o, mejor, semiespontánea) permite registrar una variedad mayor de fenómenos, pero con

menos control ya que no podemos predecir con exactitud qué va a decir el informante.

Las señales obtenidas en laboratorio y en alguna medida las muestras de habla

semiespontánea requieren de algún grado de edición, es decir, de filtrado, o de recorte. Con

las señales editadas ya puede el investigador realizar su tarea analítica propiamente tal. Los

análisis más frecuentes se refieren a las mediciones temporales, de los formantes vocálicos

y de la frecuencia fundamental. Estos análisis y sus aplicaciones a los segmentos y a los

suprasegmentos son el tema principal de este libro.


1.4. ¿Tiene importancia que el sonido sea digital?

Antes de que se trabajara con sonido digital, cuando un fonetista usaba una máquina para

obtener una forma de representación del sonido, por ejemplo, un sonograma, tenía que

realizar una emisión más bien breve y el resultado era un gráfico impreso en un papel

especial. Hoy día la grabación se hace ante un micrófono conectado a un computador; el

filtrado de frecuencias se hace mediante operaciones matemáticas en el archivo de audio.

Otra diferencia no menor es que con los métodos actuales, la duración de la muestra

grabada puede ser muy larga y uno puede observar la señal en la pantalla y hacer

acercamientos progresivos al punto que desee investigar.

Vemos que hoy se usa una representación digital del sonido analógico.

Normalmente se trata de muy buenas representaciones, indistinguibles al oído, de las

originales, pero el hecho de que sean digitales impone especificidades al objeto y a las

formas de trabajar con él. Por esta razón, uno de los temas que en este manual se desarrolla

es el del procesamiento digital de la señal (o DSP), dado que el objeto con el que

trabajamos es una versión digitalizada del sonido y los instrumentos de análisis son,

básicamente, algoritmos computacionales.

Cuando se examinan las diferencias entre la Fonética Acústica hecha sobre muestras

analógicas y la practicada sobre sonidos digitales, se puede afirmar que ha tenido lugar una

verdadera revolución, al menos, en los instrumentos y metodologías, aunque con muchos

puntos de continuidad.

1.5. Fon... ética

Es importante mencionar que el científico, como todo profesional, tiene un comportamiento


que se debe regir por principios éticos. Algunos deben ser bastante obvios, como, por

ejemplo, respetar la autoría de la información y proceder con la mayor objetividad posible.

A esto hay que agregar que se debe poner en conocimiento de los lectores de nuestras

investigaciones la mayor cantidad de datos: el corpus en el que realizó el análisis y todo

aquello que permita verificar los datos presentados. La ciencia, lamentablemente, también

ha sido víctima de fraudes y la única manera de evitarlos es crear el hábito de declarar toda

la información de la que se dispone. Asimismo, se debe tener en cuenta que la ética rige

también la selección de los temas de investigación y la aplicación que se hace con una

disciplina.

Es también responsabilidad del investigador exponer adecuadamente a los

informantes tanto los propósitos de la investigación como el uso y difusión que se hará de

las muestras obtenidas. Es una práctica conveniente que toda persona grabada para una

investigación, firme un consentimiento informado en que declara saber que su voz será

utilizada para fines de investigación.

Actividades

• Consigue 10 abstracts de artículos de Fonética. Lee solo los abstracts y clasifícalos

en función del tipo de habla que se investiga (semiespontánea o de laboratorio) .

• Si conoces un laboratorio de fonética, descríbelo. Si no, visita virtualmente alguno.

• Indaga si el ordenador en el que trabajas tiene un sistema de voz, o sea, si puede

pronunciar un texto que tú escribas. Si lo tiene, hazlo funcionar y evalúa la calidad

del sistema. ¿Se nota que es una voz artificial? ¿Cómo se podría mejorar?

• Consigue un modelo de consentimiento informado y haz una propuesta de un texto


para que tus informantes lo firmen llegado el caso.
2. ELEMENTOS NECESARIOS

En este capítulo aprenderás cuáles son los requerimientos básicos para

poder comenzar una investigación en Fonética Acústica.

Para hacer investigación en Fonética Acústica, se requiere la información teórica que

explica qué se va a estudiar, un diseño experimental referido a cómo se hará el estudio, y

algunos dispositivos físicos y programas computacionales. Aquí veremos solamente las

condiciones mínimas de estos últimos requerimientos. Hay que tener en cuenta que estas

indicaciones no están pensadas para montar un laboratorio de acústica o para hacer un

estudio de grabación, sino que más bien se dirigen a un estudiante especialmente interesado

en la disciplina.

2.1. Equipo

Los elementos de esta categoría son, básicamente, un micrófono y un computador. El

computador es imprescindible. El micrófono es necesario solo en caso de que necesites

hacer personalmente las grabaciones; también se puede trabajar con grabaciones ya hechas

a las que tengas acceso.

Computador

Los requisitos de un computador para ser usado en tareas de fonética acústica son los

siguientes:

· Una tarjeta de sonido de calidad suficiente para grabar con fidelidad el

audio.

Entrada para audio o capacidad para soportar dispositivos externos a los que se
puedan conectar micrófonos.

Buena capacidad de almacenamiento. Los archivos de audio son bastante más

grandes que los archivos de texto, por lo que se requiere disponer de buena

parte del disco para almacenarlos. Una buena alternativa es que el equipo

tenga la opción de grabar en disco compacto o en DVD.

Velocidad de procesamiento. En general, las velocidades de procesamiento de

los computadores son suficientemente altas para el trabajo con audio. Debes

tener en cuenta que al trabajar con archivos grandes las operaciones toman

más tiempo.

Micrófono

Las grabaciones hechas con un micrófono relativamente bueno son incomparablemente

mejores que las que se pueden hacer con uno de los que habitualmente vienen incorporados

en el computador. Es imprescindible trabajar con uno que cumpla con las siguientes

condiciones, de lo contrario, las señales que se obtienen pueden ser inútiles desde el punto

de vista de la investigación:

Que recoja la señal que viene de la boca del informante y no el ruido ambiente u

otras voces que provienen de otras fuentes. Para esto un micrófono de tipo

unidireccional y dinámico es lo indicado.

Que tenga especificada la respuesta frecuencial. Es importante conocer al

menos cuál es la respuesta del micrófono a las distintas frecuencias. El ideal


es uno que recoja por igual las frecuencias entre los 50 Hz y los 10000 Hz.

Mientras más se acerque a una respuesta plana en esta gama, tanto mejor.

Como no siempre esto es posible, al menos conocer cuál es la respuesta ya

es un dato útil. Los micrófonos llamados “de condensador” tienen

respuestas frecuenciales más adecuadas todavía, pero su precio es mayor y

requieren de dispositivos complementarios.

La figura 2.1 muestra un gráfico (hipotético) de la respuesta frecuencial de un

micrófono.

Figura 2.1 Gráfico de respuesta frecuencial de un micrófono.

En este gráfico, la curva indica qué frecuencias (Hz) realza el micrófono. Los

lugares en que no hay marca, son Hz en los que no hay registro de señal. Por lo tanto, un

micrófono con esta respuesta de frecuencia registra los sonidos entre 200 Hz y 10000 Hz y

registra con mayor intensidad aquellos que están entre 800 Hz y 6000 Hz, con un máximo
alrededor de los 3000 Hz.

Por cierto, para registros de habla, se requiere un micrófono que responda entre 50

Hz y 10000 Hz. En el caso de la figura 2.1, habría problemas para registrar las frecuencias

más graves, por ejemplo, en voces masculinas, lo que podría ser una limitación en el

estudio de la melodía de la voz, tema que será tratado más adelante en este mismo manual.

Es fundamental probar el sistema de grabación (computador, micrófono y programa

computacional) antes de hacer los registros, hasta familiarizarse con él totalmente para

conocer sus potencialidades y limitaciones. Tienes que saber, por ejemplo, a qué distancia

conviene que se sitúe el informante de acuerdo con su volumen natural de voz.

2.2. Programas de análisis

Junto con el equipamiento “físico” (así se le suele llamar), son imprescindibles los

programas computacionales que permiten hacer los registros, las ediciones y los análisis.

En este manual presentamos, como se ha señalado, los que funcionan en distintos sistemas

operativos y que, al mismo tiempo, tienen probada confiabilidad.

Además de los programas directamente relacionados con el audio, hay otros que son

complementarios, como un editor de texto, una base de datos, una planilla electrónica, un

programa de tratamiento estadístico, un editor de imágenes y probablemente uno para

realizar presentaciones.

Los programas que interesan principalmente en este manual, son de dos tipos: los de

edición y los de análisis. Por cierto, muchas funciones se encuentran en ambos tipos y para

muchas tareas son equivalentes. En líneas generales, podemos decir que los programas de

análisis son mucho más específicos para las tareas de un fonetista; en tanto los editores
sirven para muchos propósitos, entre otros, por ejemplo, para aplicar “efectos especiales” a

archivos de música.

Editores de sonido

Básicamente un editor de sonido funciona como un editor de texto, pero con archivos de

audio. Estos programas, aunque están diseñados principalmente para editar música, pueden

ser muy útiles para el trabajo con muestras de habla. Las funciones más importantes, para

un investigador en fonética, de los editores de sonido son las siguientes:

• Grabación. Hacer registros a partir de un micrófono o de algún otro dispositivo

conectado. Esas señales se pueden guardar en el disco con distintos formatos.

• Creación. En un editor se pueden crear tonos, silencios y ruidos, además se

pueden sumar señales.

• Edición. En una ventana se pueden cortar y pegar fragmentos seleccionados de

la señal; también se pueden etiquetar esos segmentos.

• Manipulación. Un fragmento o una señal completa puede modificarse de varias

maneras: se le puede cambiar la velocidad (rápida o lenta) o el tono (grave o

agudo). También se puede amplificar, reducir gradualmente la intensidad de los

extremos de una selección y eliminar ruido.

Analizadores acústicos

Las funciones de un programa de análisis acústico son muchísimas como para presentar una

lista exhaustiva, pero podemos señalar algunas como ejemplos:

• Grabación: en la mayoría, se puede grabar voz directamente.


• Creación: se pueden crear tonos, ruidos y espacios de silencio.

• Edición: en estos programas existen funciones de edición como cortar, pegar,

etiquetar fragmentos, etc.

• Representación del sonido: además del oscilograma, se pueden crear

espectrogramas de distinto tipo y otros gráficos.

• Manipulación: varios programas permiten modificar una señal en alguna de sus

cualidades (tono, duración, intensidad o timbre).

• Análisis: hay ciertos análisis que se usan preferentemente en el estudio del

habla: análisis espectral, de formantes, del pitch, de intensidad, y de cualidad

de la voz, entre otros. Normalmente, en estos programas hay buena

disponibilidad de estos procedimientos.

• Gráficos: un buen analizador acústico suele facilitar la tarea del investigador con

un módulo de gráficos que permita presentar adecuadamente los ejemplos sin

tener que recurrir al procedimiento de “fotografiar la pantalla” para obtener

imágenes del programa.

• Obtención de datos: en algunos casos existen procedimientos para que el

programa proporcione los datos numéricos en un archivo de texto, de donde los

puedes copiar y pegar en una planilla electrónica, en una base de datos o en un

archivo de texto (sin rescribirlos, claro está) o bien con un módulo para análisis

estadístico dentro del mismo programa.

Como ya se ha mencionado, en este manual se muestra cómo hacer Fonética usando

programas que resultan altamente funcionales y que cumplen con las mejores condiciones
de las que se han señalado, tales como AUDACITY, PRAAT y WAVESURFER.

Actividades

• Consigue el nombre y la descripción de la tarjeta de sonido del computador en el

que trabajas. Averigua si permite grabar archivos de sonido de buena calidad.

• Averigua qué características acústicas tiene una cabina insonorizada. Si tienes

acceso a una, ingresa y observa lo que sucede con el ruido exterior.

• Averigua cuáles son las marcas de micrófonos más prestigiosas.

• Revisa, en algún artículo de fonética publicado en una revista de prestigio

internacional, una investigación en Fonética Acústica que explicite qué

micrófono se usó para hacer las grabaciones. Por tu cuenta, averigua la respuesta

frecuencial de ese dispositivo y evalúa si era o no una buena opción para ese

estudio.

Cuestionario

La figura 2.2. presenta varias respuestas frecuenciales (hipotéticas) de diferentes

micrófonos.
400 5000 300 6000 300 6000

A B C

D E F

350 7000 300 5100 400 5000

Figura 2.2. Respuestas frecuenciales (hipotéticas) de distintos micrófonos. Debes suponer

que el 0 dB se sitúa al centro del eje vertical. El eje horizontal indica las frecuencias en Hz

y se señala en cada caso donde comienza y donde termina la respuesta frecuencial.

Necesitas estudiar ciertos aspectos del habla cuyas frecuencias están entre los

400 Hz y los 5000 Hz. Elige la mejor respuesta frecuencial de un micrófono

para este propósito entre las que se presentan en la figura 2.2.

¿Cuál de esas respuestas frecuenciales es más amplia?

¿Cuál de estas respuestas es la más "realista"?

¿Cuál de estas respuestas enfatizará más los componentes graves de la señal?


3. SONIDO DIGITAL Y SONIDO ANALÓGICO

En este capítulo aprenderás las nociones básicas respecto del sonido digital

y que se relacionan a su vez con la investigación en Fonética Acústica.

3.1. LA SEÑAL CONTINUA

Una onda sonora se describe como una fluctuación de presión que se propaga en un medio

elástico (como, por ejemplo, el aire), lo que les permite a las moléculas acercarse y alejarse.

Para hacer una representación de este movimiento, se ha optado por disponer la dimensión

temporal en la abscisa y, en la ordenada, las variaciones que corresponden a la amplitud.

Teóricamente, en cada uno de estos ejes, entre un punto y otro hay infinitos valores.

Lo anterior implica que la señal es continua en términos de valores, o sea, no hay

saltos o quiebres entre un punto y otro. A este tipo de señales se las denomina “analógicas”

(por oposición a “digitales”) o “continuas” (en oposición a “discretas”). Imagina ahora que

la figura 3.1 representa una onda periódica simple analógica.


Figura 3.1. Simulación de un tono puro analógico. La señal aquí

representada tiene infinitas variaciones entre el inicio y el final, tanto

en el eje temporal (horizontal) como en el de la amplitud (vertical).

Los sonidos que escuchamos en la naturaleza, incluida por supuesto la voz humana,

no son habitualmente tonos puros, como el de la figura 3.1; tienen otras características que

ya estudiaremos, pero sí son analógicos (o, lo que es igual, continuos). Por lo mismo, si se

representan gráficamente esas variaciones de amplitud de movimientos en el tiempo, se

debe hacer con un trazo continuo.

3.2. DIGITALIZACIÓN

Cualquier sonido analógico se puede digitalizar para que quede convertido en un

archivo que pueda ser leído por un ordenador. Al hacerlo, transformamos el sonido

analógico en sonido digital, o, lo que es lo mismo, la señal continua pasa a ser discreta. En

otras palabras, la representación de trazo continuo es sustituida por una de trazo

discontinuo; lo que antes tenía entre un punto y otro un número infinito de puntos, ahora

pasa a tener un número determinado de valores.

Al digitalizar una señal continua, se crea una representación numérica de la señal

original. Para ello se debe establecer cuántas muestras (o valores) por segundo se toman en

el eje temporal y con qué grado de precisión se establecen las variaciones de amplitud.

En la figura 3.2 se muestra la misma señal de la figura anterior, con una trama

superpuesta de valores discretos (no continuos) en ambos ejes para proceder a su

digitalización.
Figura 3.2. La imagen de la onda de la figura 3.1, con un tramado que

permitirá traducir los valores continuos en discretos.

Para tener una representación digital de la onda, debemos considerar cada punto

más cercano a la señal original en que se cruzan las líneas horizontales con las verticales.

En otras palabras, se procede a convertir a valores discretos la señal continua. En el eje

horizontal se considera el centro como un valor cero (referencial); a partir de él se ordenan

valores positivos (sobre el 0) y negativos (bajo el 0). En la figura 3.3 se muestran esos

puntos.
Figura 3.3. La misma señal de las figuras anteriores, con una marca en

cada cruce de valores discretos. Los puntos están en el cruce de la

trama más cercano a la forma de la onda.

Cada uno de esos puntos (definido por su valor de tiempo y de amplitud) se

considera como una muestra de la señal. Si unimos con una línea esos puntos, tendremos

una idea de cómo es una señal digitalizada. Una aproximación gráfica al resultado de este

proceso se muestra en la figura 3.4:


Figura 3.4. Señal digitalizada. Los puntos mostrados en la figura

anterior se encuentran unidos para mostrar la representación digital de

la señal.

El resultado del proceso de digitalización es una representación discontinua tanto en

el eje vertical (de la amplitud) como en el eje horizontal (del tiempo). Podemos decir que

una representación digital de una onda es una simplificación en ambos ejes.

Si comparamos ahora la señal digitalizada y la señal original, veremos diferencias y

similitudes. Esto es así porque la señal digitalizada es una réplica simplificada de la

original. No puede ser de otra forma, ya que para poner en un computador una señal hay

que digitalizarla. Lo importante es que esta réplica del sonido original sea suficientemente

buena como para que al reproducirla “suene” igual y, para los fines de la Fonética Acústica,

que conserve la información sobre tiempo, frecuencias y amplitudes que son relevantes en

la comunicación verbal humana.

De lo dicho hasta aquí, se deduce que son dos las transformaciones que se producen
al digitalizar una señal. En un caso se transforman los valores continuos de la amplitud en

una serie discreta de números y en el otro los valores temporales continuos se representan

en “muestras” (samples) a intervalos regulares. Respectivamente se denominan formato

de muestreo1 y frecuencia de muestreo.

El formato de muestreo (quantization) corresponde a la simplificación en la

amplitud. La precisión en los grados de la representación de la amplitud en la señal digital

se mide en bits. Las mediciones usuales son 8 y 16 (a pesar de lo que informan

comercialmente algunas tarjetas de sonido).

De este número depende la cantidad de niveles que podemos desplegar en el eje de

la amplitud. Con 8 bits, podemos representar 259 niveles y con 16 bits, 65.536.

Evidentemente, mientras mayor sea la precisión, tanto mejor representada estará la

señal. Además, en el ajuste entre el valor original y su digitalización se produce un ruido

que es menor en la medida en que la precisión en la representación es más alta.

La frecuencia de muestreo (sampling rate, sampling frequency) consiste en el

número de muestras que se toman en un segundo para representarlas en el archivo digital.

Por ejemplo, si tenemos una señal de algunos segundos y se ha decidido digitalizar con

22.050 muestras por segundo, el número de muestras o valores que tendremos para la

representación temporal será de exactamente 22.050 por cada segundo. Si aumentamos la

frecuencia de muestreo al doble, se duplicará el número de las muestras, con lo que

tendremos un archivo el doble de largo.

Cuanto mayor sea la frecuencia de muestreo, tanto más fiel será la representación

del sonido digital respecto del original, pero también más grandes los archivos, más lentas
1
Esta es la terminología usada en la versión en español del programa AUDACITY.
las operaciones que el ordenador realice y no toda la información representada será

relevante para las investigaciones.

El mínimo de muestras necesarias por cada ciclo para capturar su periodicidad es

dos. Por lo tanto, hay que tener en cuenta que la frecuencia de muestreo debe ser (por lo

menos) el doble de la frecuencia más alta que nos interesa registrar (este valor de

frecuencia se denomina Nyquist frequency). Así, con 44.100 muestras por segundo

tenemos frecuencias hasta los 22.000 Hz (esa será la Nyquist frequency).

Dado que para estudiar el habla humana necesitamos considerar frecuencias hasta

de 10000 Hz (o 10 KHz), la frecuencia de muestreo conveniente para hacer registros es de

22.050. Con este valor se capturan teóricamente hasta los 11000 Hz (esa es la Nyquist

frequency). Con frecuencias de muestreo más elevadas no se obtiene ningún beneficio

analítico, a pesar de la mayor fidelidad teórica a la onda original.

Al usar un programa para grabar sonido en un computador, normalmente estos

valores se pueden especificar. Hay que tener en cuenta que la frecuencia de muestreo se

puede reducir después de hecha la grabación, pero el camino inverso es imposible. En otras

palabras, si haces una grabación a 22.050 muestras por segundo, podrás “submuestrearla”,

por ejemplo, a 10.000. Pero nunca podrás elevar el número de muestras una vez realizada la

grabación.

Actividades

• Investiga cuáles son las medidas que definen la calidad de una fotografía digital

y reflexiona sobre los paralelismos que existen entre sonido e imagen digitales.
• Discute sobre el siguiente asunto: a partir de cierta frecuencia de muestreo, la

mayor fidelidad de una representación no es relevante para el oído humano.

• Averigua sobre el efecto aliasing y sobre los filtros antialiasing.

• Haz a mano alzada un dibujo de una onda (que sea aproximadamente como el de

la figura 3.5) en una hoja de papel milimetrado. Cada cinco milímetros pon un

número correlativo en el eje horizontal, a partir de 0; estos números

corresponderán al número de la muestra. En el eje vertical establece valores de 1

en 1 a cada milímetro. La línea media es 0 y, obviamente, los valores sobre el 0

tienen marca positiva y los que están bajo el 0 tienen signo negativo. Escribe a

continuación la lista de esos valores en dos columnas en una hoja de cálculo, de

tal manera que la primera columna tenga la información del número de la

muestra y la segunda columna tenga la información de la amplitud.

• Construye el gráfico de líneas correspondiente y compáralo con la figura que tú

habías realizado a mano.


Figura 3.5. Forma de onda para el ejercicio de simulación de la

digitalización.

Cuestionario

1. ¿Cuál es la Nyquist frequency de una señal si fue grabada a 16000 muestras por segundo?

A) 16000 B) 32000 C) 8000 D) 4000

2. Con una frecuencia de muestreo de 22050, ¿cuántas muestras hay en un milisegundo?

3. Vas a hacer tres investigaciones y pretendes usar el mismo corpus. Los objetos de

estudio implican, en cada caso:

I. Frecuencia entre 80 Hz y 700 Hz.

II. Frecuencias entre 300 Hz y 5500 Hz.

III. Frecuencias entre los 2000 Hz y los 8000 Hz.

Las siguientes frecuencias de muestreo están disponibles en tu sistema de

grabación:

A) 8000 B) 10000 C) 11025 D)16000 E) 22050 F) 44100

3.1. ¿Cuáles permiten hacer las tres investigaciones?

3.2. ¿Cuál es la que permite hacer las tres investigaciones y al mismo tiempo es la más

económica?

3.3. ¿Cuál es la que creará archivos más fieles al original?


4. LA GRABACIÓN

En este capítulo aprenderás cómo grabar una señal y cómo guardar el

archivo de audio en el disco.

Para desarrollar este capítulo, se requiere que sepas cómo conectar el micrófono u otro

dispositivo para ingresar audio al computador, ya que mostraremos cuáles son los pasos

necesarios para grabar una señal en AUDACITY y en PRAAT. Lo indicado aquí servirá, con la

información adaptada, para usar otros programas. También aprenderás a almacenar la señal

en el disco duro y, por supuesto a recuperarla para trabajar con ella en el programa de

edición o en el de análisis.

Cada programa tiene su interfaz, pero todos tienen alguna manera de especificar lo

siguiente:

• La frecuencia de muestreo

• Si la grabación será mono o estéreo

• El dispositivo de entrada de sonido, es decir, el micrófono

Por lo general, se especifican estas condiciones y luego se activa el comando “grabar”.

Finalmente se detiene la grabación y luego se almacena el archivo para su edición y uso.

Existe la posibilidad de cometer el siguiente error de principiante: puede suceder que el

computador tenga un micrófono incorporado que esté preseleccionado por defecto. En este

caso, a pesar de que se tenga otro micrófono conectado correctamente, es posible que no

sea este último el que esté grabando. Esto explica baja intensidad de la señal y,

consiguientemente, excesivo ruido aunque el informante esté hablando “muy cerca del
micrófono”. No se debe confundir que el micrófono esté bien conectado con que esté

efectivamente "seleccionado".

4.1. Grabar en AUDACITY

En este programa todos los pasos se realizan marcando sobre los íconos correspondientes y

son los que se enuncian a continuación (los números entre paréntesis aluden a partes

señaladas en la figura 4.1).

1. Observar el nivel de la entrada del sonido (1).

En primer lugar, debes confirmar que la señal está llegando al

programa. En segundo término, tienes que comprobar que el

indicador de nivel de entrada no llegue al final para que no haya

saturación de la señal. Se puede regular el nivel de entrada (2)

permitiendo que la señal llegue con más o con menos intensidad.

2. Determinar la frecuencia de muestreo (3).

Elegir 22050 siempre, salvo que haya fundadas razones para elegir

una frecuencia distinta.

3. Comenzar la grabación con el botón RECORD (4).

4. Aparece el oscilograma de la señal (5).

5. Finalizar la grabación con el botón STOP (6).

6. Escuchar la señal registrada (7).

Para confirmar que la señal que aparece en la pantalla corresponde

efectivamente a lo que se quería registrar, hay que activar el botón

PLAY y el programa reproducirá la señal.


7. Guardar el archivo.

Hasta el momento tenemos un archivo de trabajo en la memoria

RAM, pero no en el disco duro. Desde el menú ARCHIVO (8) se

puede guardar como proyecto (en un formato específico del

programa) o exportar en otro formato. Esto se determina en

PREFERENCIAS > FORMATO DE ARCHIVOS > FORMATO

DESCOMPRIMIDO DE EXPORTACIÓN).

Todos estos pasos se ilustran en la figura 4.1:

Figura 4.1. Comandos para grabar una señal en Audacity. Los objetos

numerados están explicados en el texto.

4.2. Grabar en PRAAT

Al abrir el programa, la apariencia es la que se observa en la figura 4.2 (algunos aspectos

pueden ser levemente diferentes dependiendo de la plataforma utilizada). Aparece un menú

superior con las opciones PRAAT y HELP y dos paneles: uno de objetos, PRAAT OBJECTS (1) y
otro de dibujo, PRAAT PICTURE (2). Cada uno de estos paneles tiene sus respectivos menús

superiores (3 y 4). En estas primeras lecciones trabajaremos solo con el panel de objetos

(1).

El menú superior tiene tres opciones constantes: NEW, READ y WRITE referidas a

archivos y variados tipos de objetos. Al lado derecho también está la opción HELP.

Figura 4.2. Pantalla inicial del programa PRAAT. Los números están

explicados en el texto

Los pasos para grabar en este programa son los siguientes:

1. En el menú NEW, seleccionas la opción RECORD MONO SOUND... (Cuando

una opción tiene puntos suspensivos, significa que al activarla habrá que
completar un formulario.)

2. Aparece un panel como el que se muestra en la figura 4.3 en el que tienes

que seleccionar el dispositivo de entrada del sonido (Input source) y la

frecuencia de muestreo (Sampling frequency). El indicador del nivel de la

señal (Meter) aparece también en este panel, al centro.

3. Iniciar la grabación (botón RECORD)

4. Finalizar la grabación (botón STOP)

5. Crear el objeto Sound (botón SAVE TO LIST)

Al seleccionar esta opción, aparece un objeto en el panel PRAAT

OBJECTS de nombre Sound sound (por defecto). Técnicamente, este

es un tipo particular de objeto llamado SOUND. Más adelante

veremos otros tipos de objetos.

6. Cerrar el panel de grabación (botón CLOSE).

7. Guardar este objeto como archivo.

Seleccionas el objeto (o sea, lo marcas con el cursor) y desde el

menú WRITE lo puedes guardar como un archivo de sonido en

formatos aiff, wav u otros mediante las órdenes WRITE TO AIFF

FILE..., WRITE TO WAV FILE..., etc.

8. Escuchar la señal.

Seleccionado el objeto de tipo Sound, tienes un menú de botones a

la derecha del objeto. Una de las opciones es PLAY. Al activarla,

escucharás la señal registrada.


Figura 4.3. Panel de grabación en PRAAT. En este caso se ha

seleccionado un dispositivo para un micrófono externo y una

frecuencia de muestreo de 441002. El indicador muestra una señal no

saturada.

Importante: un error de principiante consiste en confundir objeto con archivo. Tener

un objeto en el panel no implica que sea un archivo almacenado en el disco duro. El error

2
Desde hace ya un tiempo, PRAAT no permite grabar con frecuencias de muestreo inferiores a
44100; a cambio, permite grabar con valores bastante altos. En todo caso, siempre se puede
submuestrear, como señalamos en el capítulo anterior y explicaremos más adelante.
frecuente (de principiante) es cerrar el programa sin haber guardado el archivo.

4.3. Problemas posibles en las grabaciones

El investigador debe saber muy bien cuál es la distancia óptima entre la boca del

informante y el micrófono, dado el volumen natural de la voz de la persona y el ruido

ambiental. Habitualmente se considera que 15 cm es una buena distancia; sin embargo, este

valor puede ser menor si el hablante tiene una voz muy suave o si el micrófono es poco

sensible.

Si no hay una adecuada relación entre estos factores, se pueden producir problemas

como que la señal sea demasiado débil o demasiado intensa. En ambos casos el resultado es

una grabación difícil de analizar.

Si las grabaciones tienen buena calidad, se pueden hacer análisis con más facilidad

y con resultados fiables. En caso contrario será imprescindible repetir la grabación o

realizar algún trabajo complementario de edición antes de hacer los análisis. Los problemas

más frecuentes son la saturación (clipping) y el exceso de ruido.

Si la señal “satura” el canal, se produce una amplitud recortada en los puntos más

alejados del 0, tal como se observa en la figura 4.4. Esto ocurre cuando en el momento de la

grabación los indicadores de intensidad alcanzaron el rojo (números 1 y 2 de la figura 4.1

en AUDACITY y el METER en PRAAT).


0

Figura 4.4. Señal saturada al momento de la grabación. Se observa que

la amplitud llega al máximo posible.

Una de las propiedades de una grabación es la relación señal-ruido. Obsérvense las

imágenes de la figura 4.5 que muestran una misma frase (de una misma hablante) grabada

con dos dispositivos diferentes: la primera está hecha con un micrófono relativamente

bueno; la segunda se hizo con el micrófono incorporado del ordenador.

Figura 4.5 Dos señales con diferente relación señal-ruido, semejantes

en el contenido verbal, pero registradas con diferentes micrófonos: La

imagen superior (A) se hizo con un micrófono relativamente adecuado;

en tanto que la inferior (B) se realizó con el micrófono incorporado.


El oscilograma de (A) es más claro; los perfiles son más nítidos. En un

acercamiento a estas señales, como el que se muestra en la figura 4.6, se observa mejor la

diferencia entre ambas.

Figura 4.6. Acercamiento al inicio de la señal de la figura anterior. Las

flechas indican las partes equivalentes donde se observa mejor la

diferencia de la relación señal-ruido entre ambas señales.

Si comparas las partes indicadas por las flechas, puedes observar que en la imagen

superior, las zonas de silencio de la voz están más cercanas al valor 0 (el centro vertical de

la imagen).

Una grabación exitosa debe tener una buena relación (diferencia) entre lo que es

propiamente la señal y lo que es el ruido existente en los momentos de silencio. O sea, una

diferencia considerable. Mientras mejor sea la relación señal-ruido, más cerca del 0 debe

estar la señal en las partes que corresponden a silencios y, consecuentemente, la

información relevante para el análisis será de mejor calidad. Algunas soluciones posibles al
problema de una mala relación señal-ruido, se mostrarán en el capítulo 5.

Otro problema que se puede producir es que la memoria del computador no esté

preparada para grabar un archivo muy extenso. En PRAAT puedes cambiar el tamaño

asignado al buffer de memoria en las preferencias (PREFERENCES > SOUND RECORDING

PREFERENCES...).

Actividades

• Conecta un micrófono y practica cómo hacer un registro sonoro y guardarlo en

tu disco duro.

• En PRAAT cambia el tamaño del buffer y observa cómo cambia el tiempo

disponible para grabar.

• Usa ambos programas (e incorpora otro si tienes) y prueba la calidad del

micrófono, diciendo una misma oración en distintas intensidades y a diferentes

distancias. En otras palabras, prueba todas las posibilidades que te parezcan

útiles.

• Graba una misma emisión varias veces con distinta frecuencia de muestreo y

observa si hay o no diferencias audibles entre ellas.

Cuestionario

1. Tienes dos archivos con señales de la misma duración pero de diferente

frecuencia de muestreo. ¿Cuál de los dos archivos ocupará más espacio en tu

disco duro?

2. ¿Qué problema se puede producir si al momento de la grabación observas que

el indicador del nivel de intensidad de la entrada del sonido se pone rojo?


3. ¿Qué sucederá en términos de la relación señal-ruido si en el momento en que

el informante está en silencio observas actividad en el indicador de entrada de

sonido?

4. ¿Por qué razones crees que es importante determinar la frecuencia de muestreo

antes de iniciar la grabación?


5. EDICIÓN DE LAS SEÑALES

En este capítulo aprenderás algunas operaciones básicas de la edición de

archivos de audio. La edición es el paso inmediatamente anterior al análisis

acústico propiamente tal.

Este es el último capítulo de la primera parte de este manual. Aquí aprenderás a editar las

señales ya grabadas; es decir, depurarlas, recortarlas, limpiarlas de ruido si lo hubiese, etc.

Es necesario hacer todo esto antes de proceder al análisis, pues una señal inadecuada puede

afectar los resultados de una investigación.

Supongamos que le has pedido a un informante que lea unas oraciones y que con

ese material has hecho una grabación de dos minutos de duración con una frecuencia de

muestreo de 22050. Tienes almacenado el archivo en formato wav. En esa grabación hay

algunas partes que te interesan como objeto de estudio (las oraciones leídas); el resto, no

(silencios, toses, risas, preguntas al investigador que quedaron grabadas, etc.). Para facilitar

las cosas, lo mejor será crear varios archivos que contengan únicamente las emisiones que

importan para tu investigación. De tal manera que de ese archivo de dos minutos de

grabación, vas a obtener, por ejemplo, 20 archivos de unos 1,5 segundos cada uno.

Conservar el archivo original es una medida de seguridad que debe ser observada siempre.

Debes dedicar alguna reflexión a los nombres que darás a los archivos que

constituirán el corpus de tu investigación. Una técnica posible es codificar de tal manera

que el nombre te resulte informativo; por ejemplo, con la primera letra indicas si el hablante

es hombre (h) o mujer (m); con la segunda, si la emisión es una interrogación (i) o una
afirmación (a) —todo esto dependerá de qué estés investigando, por supuesto—; con un

tercer elemento puedes indicar el número del informante; etc. Así un nombre de archivo

como “ma5” significará ‘informante femenina, emisión afirmativa, informante cinco’.

El paso siguiente, evidentemente es abrir un archivo de audio desde un programa en

el que puedas hacer la edición. En todos los programas hay una opción que permite abrir un

archivo. En AUDACITY, la opción es Archivo > Abrir y en PRAAT es READ > READ FROM

FILE…. En este último programa, también existe la posibilidad de abrir archivos muy largos

con la opción READ > READ FROM LONG FILE… En el caso de AUDACITY, aparece el

oscilograma de la señal; en tanto que en PRAAT aparece el nombre del archivo en el panel

de objetos; para poder operar con el sonido, hay que presionar el botón Edit con lo que

aparece la ventana de edición.

Veremos ahora algunas opciones en AUDACITY que te ayudarán a producir el

material, a partir de una grabación como la que se ha mencionado.

5.1. La edición en AUDACITY

En AUDACITY existen, entre otras, las siguientes posibilidades en el menú EDITAR:

Cortar. ELIMINA EL SEGMENTO SELECCIONADO.

Copiar. GUARDA EN LA MEMORIA DE TRABAJO EL SEGMENTO MARCADO PARA

PEGARLO EN OTRA PARTE DEL MISMO ARCHIVO O EN OTRA SEÑAL.

Pegar. PEGA EL FRAGMENTO COPIADO, EN EL PUNTO DONDE ESTÁ EL CURSOR.

Recortar. ELIMINA LAS PARTES DE LA SEÑAL QUE NO SE ENCUENTRAN EN LA

SELECCIÓN.

Silence Audio. CONVIERTE EN SILENCIO EL SEGMENTO SELECCIONADO.


Dividir y nueva. ESTA OPERACIÓN TIENE DOS EFECTOS.

A) EL LUGAR DEL SEGMENTO SELECCIONADO SE CONVIERTE EN SILENCIO.

B) EL FRAGMENTO SELECCIONADO ORIGINAL SE COPIA EN UNA NUEVA

PISTA, TAL COMO SE MUESTRA EN LA FIGURA 5.1.

Duplicar. CREA UNA COPIA DEL SEGMENTO EN UNA PISTA NUEVA PERO NO

ELIMINA NADA DE LA SEÑAL ORIGINAL.

Encontrar cruces por cero. EN UNA SELECCIÓN DADA, SITÚA EL INICIO Y EL FINAL

EN EL CRUCE POR CERO MÁS CERCANO, DE TAL MANERA QUE LA EDICIÓN

SEA MÁS LIMPIA.

Guardar la selección. CONSERVA LA SELECCIÓN EN LA MEMORIA PARA

OPERACIONES FUTURAS.

Figura 5.1. Resultado de la operación DIVIDIR Y NUEVA, en AUDACITY.

La segunda pista contiene un segmento que inicialmente estaba en la

señal de la primera pista, en la que fue sustituido por silencio.


Dado un archivo sonoro, más o menos largo, con estas opciones podrás recortar el

segmento que es de interés para tu investigación. Hay dos recomendaciones que conviene

observar al cortar un fragmento para su estudio:

a) Dejar un margen antes y después de la señal que se va a estudiar; es decir, que el

nuevo archivo no comience abruptamente con la señal sino que tenga un poco de silencio

antes y después.

b) Cortar en los cruces por cero, en este caso, usando la opción ENCONTRAR CRUCES

POR CERO. No hacerlo de esta manera puede producir efectos acústicos y gráficos que

dificulten los análisis.

5. 2. FILTRADO del ruido

Los editores de sonido tienen una función para eliminar ruido. Se trata de un filtro que

elimina las frecuencias características de un ruido previamente identificadas. Los pasos son

los siguientes:

• SELECCIONAR UNA ZONA DE LA SEÑAL QUE CONTIENE LO QUE EL ANALISTA

CONSIDERA QUE ES “RUIDO”.

• EL PROGRAMA HACE UN ANÁLISIS DE ESE FRAGMENTO Y LO ALMACENA EN LA

MEMORIA.

• LUEGO HAY QUE SELECCIONAR LA PARTE DE LA SEÑAL QUE SE DESEA FILTRAR.

NORMALMENTE SE SELECCIONARÁ TODA LA SEÑAL.

• SE ESPECIFICA LA CANTIDAD DE RUIDO QUE SE DESEA ELIMINAR. LA NORMA ES:


HAY QUE ELIMINAR LA MENOR CANTIDAD NECESARIA PARA ESCUCHAR BIEN LA

SEÑAL. MIENTRAS MAYOR SEA LA CANTIDAD ESPECIFICADA, MÁS FRECUENCIAS SE

ELIMINAN Y, POR LO TANTO, SI BIEN DESAPARECE EL RUIDO, TAMBIÉN

DESAPARECEN OTROS COMPONENTES DE LA SEÑAL.

• EN SEGUIDA HAY QUE APLICAR EL FILTRO PARA ELIMINAR EL RUIDO YA

IDENTIFICADO.

• SE ESCUCHA EL RESULTADO DE LA APLICACIÓN DEL FILTRO.

SI EL RESULTADO NO ES SATISFACTORIO, HABRÁ QUE VOLVER A ESPECIFICAR LA

CANTIDAD DE RUIDO O CAMBIAR EL SEGMENTO QUE EL PROGRAMA TOMA COMO

MUESTRA. SOLO UNA VEZ QUE EL RESULTADO ES SATISFACTORIO SE PROCEDE CON EL

PASO SIGUIENTE.

• ELIMINACIÓN DEL RUIDO.

En las figuras 5.2 y 5.3, se observa cómo se hace esta operación. Al activar el Menú

EFECTO > UTILITY > REMOCIÓN DE RUIDO… aparece un formulario en el que hay que,

primero, especificar la muestra de ruido y, luego, seleccionar la cantidad de ruido que se

desea eliminar.
Figura 5.2. Primer paso para la eliminación del ruido en AUDACITY.

Figura 5.3. Segundo paso para la eliminación del ruido en AUDACITY.

Una vez que el ruido ha sido eliminado, se tiene una señal con la que se pueden
hacer análisis de mejor rendimiento. A pesar de ello, este procedimiento pocas veces da un

resultado óptimo. Por lo general, la señal filtrada presenta unos zumbidos muy

característicos que no son parte de la señal original. Hay que tener cierta experiencia en

análisis para saber si afectarán o no a los resultados de la investigación y, en virtud de ello,

tomar las decisiones adecuadas.

Las imágenes de la figura 5.4 muestran una señal antes y después de ser filtrada.

Figura 5.4. Señal antes (A) y después (B) de habérsele eliminado ruido.

Como se puede observar, después del filtrado, mejora notablemente la relación

señal-ruido; esto es especialmente apreciable en los puntos señalados por las flechas.

5.3. Edición en PRAAT

Cuestiones generales

La primera posibilidad para examinar una señal es la ventana de edición. Esto se hace

marcando el botón EDIT cuando el objeto de tipo SOUND está seleccionado en el panel de
objetos. Al ejecutar este botón, se abre una ventana que muestra, por defecto, la forma de la

onda y el espectrograma de banda ancha de la señal (si la señal es mayor a 10 ms, hay que

hacer un acercamiento para que aparezca el espectrograma). Opcionalmente se puede

agregar el pitch, la intensidad, los formantes y los pulsos glóticos detectados.

En la figura 5.5 se muestra una señal en la ventana de edición. Esta ventana tiene (1)

un menú superior (FILE, EDIT, QUERY, VIEW, SELECT, SPECTRUM, PITCH, INTENSITY,

FORMANT y PULSES); una ventana con el oscilograma (2) y otra con el espectrograma (3);

una franja que permite —al cliquear en ella— escuchar la porción seleccionada con el

cursor (4) o la anterior o la posterior (el mismo efecto tiene la franja que está sobre el

oscilograma (10); otra franja que sirve para escuchar el segmento visible en la ventana (5);

una tercera franja que permite escuchar la señal completa (6), o sea, el objeto seleccionado

íntegro. Estas franjas dan la información temporal (en segundos). Para escuchar usando

estas franjas, solo hay que marcar con el cursor en la que corresponde.

Figura 5.5. Ventana de edición de PRAAT. Los números están

explicados en el texto.
En la parte inferior de la ventana de edición hay, al lado izquierdo, cuatro botones

(7) que sirven para ver la señal completa (ALL), acercarse (IN), alejarse (OUT), o ver solo la

selección (SEL). También hay una barra de desplazamiento (8) y un recuadro para

sincronizar ventanas (9).

Para activar o desactivar las opciones de análisis que se pueden mostrar en esta

ventana de edición, debes seleccionar, en el menú superior, el análisis que te interesa

(SPECTRUM, PITCH, INTENSITY, FORMANT o PULSES). En cada caso se desplegarán varias

opciones; la primera de ellas es la que permite mostrar u ocultar el análisis del que se trata.

La figura 5.6 muestra la misma señal de la figura anterior, pero esta vez con todas

las posibilidades (espectrograma, pitch, intensidad, formantes y pulsos).

Figura 5.6. Ventana de edición en PRAAT que muestra todos los

análisis: pulsos detectados, formantes, pitch e intensidad.


En las ventanas de edición, cada vez que se ubica el cursor en una determinada

posición, se observan en los márgenes los valores correspondientes a las distintas

mediciones que el programa realiza. En la ventana del oscilograma, a la izquierda se

muestran (1) los valores de amplitud; en el espectrograma y en los formantes, se observan a

la izquierda de la ventana inferior (2) los valores de la frecuencia. Al lado derecho, en la

parte exterior de la ventana se muestran los valores del pitch (3) y, en la parte interior, (4) el

valor de la intensidad.

La figura 5.7 muestra la misma señal de la figura anterior, pero en la que se ha

desactivado la opción que muestra el espectrograma y los pulsos, por lo tanto, solo se

observan los formantes, el pitch y la intensidad.

Figura 5.7. Ventana de edición en PRAAT sin espectrograma ni pulsos.

Respecto de la figura 5.6, la línea que representa la intensidad aparecerá ahora en

color verde y, al no estar el espectrograma de fondo, se puede distinguir mejor su perfil.


Selección de un segmento de la señal

En la ventana de edición, puedes seleccionar con el cursor una porción de la señal. Marca el

inicio de la selección con el cursor y arrastra el cursor hasta donde deseas segmentar. La

selección queda destacada. Si deseas acercar la selección, usa el botón inferior SEL (o, en el

menú superior, VIEW > ZOOM TO SELECTION).

Es posible que desees crear un archivo separado con un segmento de la señal. Para

hacerlo, debes tener en cuenta que en los extremos de la ventana no se realiza análisis

alguno; por lo tanto, siempre hay que hacer una selección levemente “generosa” al

comienzo y al final, tal como se señaló un poco antes.

La selección se puede convertir en un nuevo objeto en el panel PRAAT OBJECTS

eligiendo del menú FILE la opción EXTRACT SELECTION (preservando o no el tiempo

original). También se puede almacenar directamente en disco el segmento marcado: en el

mismo menú FILE existe la opción WRITE SELECTION TO...

Otras funciones

Las siguientes funciones también están disponibles en esta ventana de edición, en el menú

EDIT:

Cut: BORRA UN SEGMENTO SELECCIONADO.

Copy selection to Sound clipboard: MANTIENE EN LA MEMORIA OPERATIVA UN

SEGMENTO SELECCIONADO (POR EJEMPLO, PARA PEGARLO EN OTRA PARTE DE

LA SEÑAL O EN OTRO ARCHIVO).


Paste after selection. PEGA UN SEGMENTO SELECCIONADO QUE ESTÁ EN LA

MEMORIA OPERATIVA (A PARTIR DEL USO DEL COMANDO ANTERIOR) EN EL

PUNTO DEL CURSOR O EN EL PUNTO FINAL DE LA SELECCIÓN ACTUAL.

Set selection to zero. CONVIERTE EL SEGMENTO SELECCIONADO EN VALORES DE

AMPLITUD CERO, O SEA, SILENCIOS ABSOLUTOS.

Reverse selection. INVIERTE LA DIRECCIÓN DE LA SEÑAL. CON ESTA OPERACIÓN,

TODO SE ESCUCHA EN EL SENTIDO INVERSO.

En el menú SELECT encontramos varias posibilidades relacionadas con el

desplazamiento del cursor. Especialmente útil para medir con mucha precisión son las

siguientes:

Move start of selection to nearest zero crossing. CON ESTA FUNCIÓN DESPLAZAS

EL INICIO DE LA SELECCIÓN AL PUNTO DONDE LA FORMA DE LA ONDA CRUZA EL

PUNTO DE 0 AMPLITUD.

Move end of selection to nearest zero crossing. LA MISMA FUNCIÓN ANTERIOR,

PERO APLICADA AL TÉRMINO DE LA SELECCIÓN.

Con ambas funciones desplazas los límites de la selección a los puntos exactos en el

que la forma de la onda pasa por la amplitud 0.


Actividades:

• Palíndromos invertidos

Cuando se invierte la dirección de lectura de una señal de habla común y corriente, se

produce la sensación de que se escucha otra lengua. Prueba este efecto. Esta sensación

se anula parcialmente cuando grabamos una emisión de esas que se leen igual al leerlas

de “atrás hacia adelante”, los llamados palindromos.

A. GRABA UNA SEÑAL CON ALGUNA DE ESTAS FRASES: “DÁBALE ARROZ A LA

ZORRA EL ABAD”, “LUZ AZUL”, “AMENO FONEMA”, “ANITA LAVA LA TINA”.

B. ABRE LA SEÑAL Y SELECCIONA LA PARTE QUE CONTIENE EL PALÍNDROMO.

C. CREA UN ARCHIVO APARTE CON ESE SEGMENTO.

D. EDITA EL NUEVO ARCHIVO.

E. SELECCIONA TODA LA SEÑAL.

F. INVIERTE LA DIRECCIÓN DE LA SEÑAL.

G. ESCÚCHALA Y OBSERVA EN QUÉ SE PARECE A LA ORIGINAL Y EN QUÉ DIFIERE.

• GRABA LA FRASE "TE PASÓ SU ZAPATO". SELECCIONA LAS CONSONANTES Y CONVIÉRTELAS

EN SILENCIO. HAZ LA SELECCIÓN SITUANDO LOS LÍMITES EN LOS CRUCES POR CERO.

REPITE LA OPERACIÓN CON LAS VOCALES (Y CONSERVA LAS CONSONANTES). ESCUCHA Y

HAZ ESCUCHAR A OTROS ESAS EMISIONES.

• INDAGA EN OTROS PROGRAMAS QUE PERMITEN EDITAR ARCHIVOS DE AUDIO Y ENCUENTRA

LAS FUNCIONES QUE PUEDAN SER ÚTILES PARA LOS FONETISTAS.


• INVENTA UNA CODIFICACIÓN PARA NOMBRAR LOS ARCHIVOS DE UNA INVESTIGACIÓN EN LA

QUE TRABAJARÁS CON 10 INFORMANTES FEMENINOS Y 10 MASCULINOS. EN CADA UNO DE

ESTOS DOS GRUPOS HABRÁ DOS SUBGRUPOS: UNO DE INFORMANTES ENTRE 20 Y 35 AÑOS

Y OTRO QUE CONTIENE LOS INFORMANTES ENTRE 45 Y 65 AÑOS. CADA INFORMANTE

REPETIRÁ 5 VECES LA SERIE “BA SA AKA AJA DA YA ATA MA GA AÑA APA” PERO SOLO TE

INTERESAN “BA DA GA APA ATA ACA”. ES IMPORTANTE QUE TENGAS CADA PALABRA

EMITIDA EN UN ARCHIVO Y QUE EN UN ARCHIVO SOLO EXISTA UNA PALABRA EN ESTUDIO.

Revisadas y practicadas estas opciones de los programas, ya estás en condiciones de

producir el material para ser analizado acústicamente, pues ya sabes los fundamentos

básicos del sonido digital, conoces las técnicas para grabar y sabes también editar las

grabaciones. Felicitaciones por haber avanzado hasta este punto en el manual. Repasa lo

que has aprendido, vuelve atrás si tienes alguna duda y, cuando te sientas cómodo, avanza a

la segunda parte, al análisis acústico propiamente tal.


SEGUNDA PARTE

Con lo visto hasta aquí, ya estás en condiciones de comenzar los análisis propiamente tal.

Los temas de estudio y las categorías de análisis son muchos; en esta segunda parte solo se

presentan los más frecuentes, bajo la comprensión de que esas categorías se pueden aplicar,

haciendo las adecuaciones necesarias, a otros aspectos no mencionados. Esta sección

comienza por enseñar a etiquetar las señales. Esta operación requiere de algún grado de

análisis, aún cuando se pueda entender como un capítulo de transición. Se revisará después

cómo hacer espectrogramas, herramienta analítica poderosa ya que permite observar las

frecuencias a través de una señal. Luego se señala cómo hacer mediciones de tiempo, de

frecuencias de los formantes vocálicos y del pitch. Esta parte concluye con una explicación

de cómo hacer gráficos para la exposición de resultados.


6. ETIQUETAR UNA SEÑAL

En este capítulo aprenderás a etiquetar segmentos de un archivo de audio.

Este proceso sirve para poder volver a la señal y confirmar el análisis que

has realizado. De la misma manera, otra persona puede ver exactamente

qué es lo que has marcado para el análisis.

Imagina que haces un análisis en un determinado punto o segmento de la señal para obtener

cierta información. Si después de un tiempo, necesitas revisar ese dato ¿cómo puedes tener

la certeza de que repetirás el análisis exactamente en el mismo lugar?

La mejor manera, la más segura y confiable, es poner una etiqueta allí donde deseas

hacer el análisis, de tal manera que el programa guarde la información temporal asociada.

Dicho sea de paso, etiquetar presupone saber segmentar; por lo mismo, el hecho de poner

etiquetas permite obtener información temporal muy interesante: por ejemplo, si segmentas

las sílabas de algunas palabras, puedes obtener fácilmente la información de cuánto dura

cada una de esas sílabas.

En general, la operación de poner etiquetas es una función posible de realizar en los

editores y en los analizadores de señales de audio. Lo que hacen los programas cuando

crean etiquetas es que producen un archivo adicional, asociado al archivo sonoro, en el que

se guarda la información textual y temporal. Aquí veremos cómo crear etiquetas en

WAVESURFER, AUDACITY y PRAAT.

6.1. Etiquetas en WAVESURFER

El programa WAVESURFER permite etiquetar señales y realizar ciertas operaciones con

ellas. Si tienes una señal abierta, por ejemplo, en la modalidad Demonstration, puedes
marcar en la zona .lab (abajo del espectrograma) el lugar donde termina un segmento y

escribir la etiqueta correspondiente tal como se muestra en la figura 6.1. Tienes que marcar

también el lugar donde el segmento comienza para que las marcas delimiten una unidad

completa.

Figura 6.1. Creación de una etiqueta en WAVESURFER.

Si lo necesitas, puedes agregar otros niveles de etiquetas, por ejemplo, si quieres

etiquetar palabras, sílabas y sonidos, necesitarás un estrato para cada nivel. Esto se hace

cliqueando con el mouse mientras presionas la tecla CONTROL. Con esto se despliega un

menú contextual que incluye la posibilidad Create Pane, que a su vez incluye la opción

Transcription, tal como se muestra en la imagen 6.2.


Figura 6.2. Creación de niveles de etiquetas en WAVESURFER.

Siguiendo este procedimiento, es posible crear etiquetas como se muestra en la

imagen 6.3

Figura 6.3. Etiquetas en WaveSurfer.

Es muy interesante y rápida la configuración HTK TRANSCRIPTION. En este modo, no

hay que cliquear, sino solo poner el cursor en un punto ya sea del espectrograma, del
oscilograma o del sector de las etiquetas (.lab) e inmediatamente el programa asume que en

ese punto termina una unidad; solo hay que escribir la etiqueta correspondiente.

6.2. Etiquetas en AUDACITY

En este programa, al abrir un archivo, aparece el oscilograma de la señal. En la figura 6.4

aparece seleccionada la parte de un emisión que se desea etiquetar.

Figura 6.4. Selección de un fragmento de la señal para etiquetarlo.

Para poner la etiqueta, hay que tener el segmento marcado (1); en ese momento

puede ser útil ajustar los límites en los cruces de cero más cercanos (menú EDITAR >

ENCONTRAR LOS CRUCES POR CERO). En el menú PISTAS (2) existe la opción AGREGAR

ETIQUETA EN SELECCIÓN. Al activarla aparece una nueva pista para las etiquetas con el

nombre PISTA DE ETIQUETAS (3) y marcas sincrónicas al inicio y al término del fragmento

seleccionado. Los valores que aparecen en la parte inferior (5 y 6) corresponden a los

límites temporales del segmento etiquetado y a la duración total del mismo (7). Se puede

especificar la unidad de medida (segundos, muestras, etc.).

Para guardar el archivo de sonido con las etiquetas creadas, lo conveniente es

guardar el archivo como proyecto, o sea, con el formato propio del programa.
También tienes la posibilidad de exportar las etiquetas. Con esta opción se genera

un archivo de formato txt de dos columnas: tiempo de inicio del segmento y etiqueta

respectiva. Al abrir un archivo de este tipo desde una planilla electrónica puedes hacer

mediciones temporales con mucha precisión y facilidad, como veremos en el capítulo 8.

Puedes cambiar la apariencia de en esta pantalla. Al marcar con el ratón en el

nombre de la pista de etiquetas (3), se despliega un menú que permite modificar el orden de

presentación de las pistas. En este menú también puedes definir la tipografía y, si dispones

de fuentes fonéticas, puedes usar esta función para presentar las etiquetas con

transcripciones; ten en cuenta que al exportar al archivo txt no se conservarán los símbolos.

6.3. Etiquetas en PRAAT

En PRAAT puedes crear etiquetas de dos tipos: de intervalo o puntuales. Para hacerlo hay

que tener seleccionada una señal en el panel de objetos y elegir, en el menú dinámico, en la

sección ANNOTATE, la opción TO TEXTGRID.

Inmediatamente aparece un formulario que pide en un campo los nombres de todos

los estratos y, en otro campo, los nombres de los estratos puntuales (los nombres de cada

estrato se separan por espacios). Debes tener en cuenta que todo estrato que no sea definido

explícitamente como puntual, será considerado como de intervalo. La principal diferencia

entre ambos tipos de etiquetas es que en los intervalos se debe marcar el inicio y el término

de un fragmento y la etiqueta cubrirá el segmento completo. En un estrato de puntos, en

tanto, cada marca y etiqueta se sitúan en un valor temporal único.

La figura 6.5 muestra un formulario que se ha completado para crear un TextGrid


con cuatro estratos: uno de marca puntual (llamado “intensidad”) y tres de marca de

intervalos (“palabra”, "sílaba” y “sonido”).

Figura 6.5. Formulario para crear el TextGrid. En este caso, se

especifican cuatro estratos de los cuales solo uno es de puntos.

Completado el formulario, das el OK y se crea el nuevo objeto en el panel

correspondiente. El paso siguiente es editar en conjunto el objeto del tipo Sound y el

TextGrid asociado. Al seleccionar ambos tipos de objetos, en el menú dinámico aparece la

opción EDIT. Al activarla, aparece una ventana como la de la figura 6.6 que contiene el

oscilograma, el espectrograma (con los análisis superpuestos que deseas mantener) y las

capas o estratos para poner las marcas.


Figura 6.6. Objeto de sonido y TextGrid editados conjuntamente.

En el TextGrid, se observa a la izquierda un número para cada estrato (1) y el que

está activo se indica con una mano roja; a la derecha se observa el nombre de cada estrato

(2). Al centro hay unas barritas con un círculo en la parte superior (3) que son sincrónicas

con el cursor (si marcas un punto en el oscilograma o en el espectrograma, en ese punto

aparecen estas barritas en el TextGrid). Estas barras son las potenciales marcas. Para

fijarlas, solo hay que cliquear con el cursor en el círculo superior de la barrita en el estrato

en el que interesa situar la marca.

En la figura 6.7 aparece el TextGrid con más límites insertos.


Figura 6.7. Objeto de sonido y objeto TextGrid editados

conjuntamente. Ya se han puesto varias marcas y etiquetas en los

cuatro estratos del TextGrid.

Puedes apreciar el distinto efecto de las marcas de intervalo (estratos 1, 2 y 3) y de

las marcas de punto (las del estrato 4). En este caso se han usado las primeras tres capas

para escribir etiquetas de palabras, sílabas y sonidos3 (tal como lo indican los nombres de

los estratos).

Para poner las etiquetas, te sitúas con el cursor en un fragmento que ya has

delimitado y en ese momento el segmento marcado aparecerá destacado por el color.

Escribes la etiqueta y, mientras escribes, el texto aparece en la parte superior (1). En esa

pequeña ventana de edición puedes escribir, modificar y borrar el texto de las etiquetas.

3
En estricto rigor, /p/ se ha realizado como un sonido sonoro aproximante.
Para mover una marca, solo tienes que seleccionarla y arrastrarla con el ratón. Para

borrar una marca, tienes que marcarla con el cursor (cuando está seleccionada cambia su

color) y en BOUNDARY, en el menú superior, tienes la opción REMOVE (también hay una

combinación de teclas).

Para guardar el TextGrid, tienes que seleccionarlo aisladamente en el panel de

objetos y usar la opción WRITE del menú superior de este panel. Cualquiera de las opciones

de formato será suficientemente útil para tus propósitos. Hay una forma para guardar

conjuntamente el archivo de sonido y el TextGrid, pero es poco económica en términos de

espacio en el disco.

Para recuperar la información de las etiquetas, basta con abrir el archivo TextGrid

desde el programa. Al hacerlo, aparecerá en el panel de objetos. Si lo editas, tendrás las

etiquetas de cada estrato distribuidas en un eje temporal. Por supuesto, también puedes

seleccionar ambos objetos y editarlos, lo que es muy cómodo para la mayoría de los

propósitos de investigación.

Almacenamiento de la información

Al guardar el archivo del TextGrid de PRAAT o las etiquetas de AUDACITY, tendrás

que tomar decisiones respecto del directorio en el que almacenarás el conjunto de datos de

tus investigaciones. Lo verdaderamente importante es que los puedas encontrar fácilmente.

Un orden posible es crear un directorio específico para tu investigación y, en él, varios

subdirectorios:

• Uno para el material en bruto, es decir, las grabaciones sin edición;

• Otro en el que almacenarás señales y TextGrids (puedes hacerlo en


subdirectorios diferentes);

• Un subdirectorio de análisis propiamente tal (reportes de análisis, hojas de

cálculo, bases de datos, etc.

• Un subdirectorio para el informe de investigación (básicamente, el texto y

los gráficos).

Dado que la ordenación del material es asunto de estilo personal, lo dicho aquí

debes interpretarlo solo como una sugerencia; no obstante, sabemos que es imprescindible

plantearse este asunto. El siguiente esquema muestra este orden:

Esquema 6.1. Una manera de organizar los archivos.

Actividades

• Usa AUDACITY, abre una señal relativamente breve y etiqueta cada una de las

palabras.
• Exporta los datos a un archivo txt y léelos desde una planilla electrónica. Observa

qué operaciones puedes realizar.

• En PRAAT crea un TextGrid de una señal, con cuatro estratos: dos puntuales y dos de

segmento. Los estratos se llaman A, B, C y D. Usa las marcas del estrato A para

indicar las sílabas y el B para indicar solo las vocales. Los estratos puntuales C y D

servirán para indicar, respectivamente, el centro y el final de la vocal.

• Pon las etiquetas que corresponda y guarda el archivo TextGrid.

• Examina las posibilidades de crear límites en los segmentos o de incluir marcas en

estrato de puntos a partir del menú superior en la ventana de edición.

• Examina la posibilidad de modificar un TextGrid desde el panel de objetos

(MODIFY); en particular, observa:

a) Cómo cambiar el nombre del estrato

b) Cómo poner etiquetas en un estrato de puntos

c) Cómo poner etiquetas en un estrato de segmentos

• Prueba lo siguiente: abre un TextGrid desde un editor de texto plano e identifica las

etiquetas, que están escritas entre comillas. Modifícalas desde el editor de texto y

recupéralas luego desde PRAAT.

• Observa el efecto de trabajar con un archivo de sonido y un TextGrid

simultáneamente. Selecciona ambos objetos y usa el botón EXTRACT- y revisa las

distintas posibilidades de esta opción:

a) Con la primera, crearás nuevos objetos de sonido a partir de las

segmentaciones hechas independientemente de que hayas puesto etiquetas o no.


b) Con la segunda, extraerás solo los intervalos que están etiquetados y crearás

nuevos objetos de sonido.

c) La tercera te permite crear nuevos objetos a partir de criterios de búsqueda:

por ejemplo, los intervalos del primer estrato que coincidan con ciertos

caracteres, (o que sean distintos a esos caracteres, que los contengan, etc.).

• Ubica tres sonidos en el panel de objetos. Dales a cada uno un nombre para esta

actividad (usa el botón inferior RENAME), por ejemplo, “voz_1”, “voz_2” y “voz_3”.

Selecciona estos tres objetos y usa, en COMBINE SOUNDS-, la opción CONCATENATE

RECOVERABILE. Observa lo que ocurre en el panel de objetos. Aparecen dos nuevos

objetos seleccionados: uno de tipo Sound y otro de tipo TextGrid. Edítalos y

observa cuál es el efecto de esta unión de objetos.


7. CÓMO HACER ESPECTROGRAMAS

En este capítulo aprenderás cómo hacer espectrogramas y espectros de

distinta resolución frecuencial. Esta herramienta es el primer paso en los

análisis frecuenciales de una muestra de audio.

En Fonética Acústica, se trabaja con varios tipos de representaciones gráficas del sonido

realizadas con los datos numéricos que constituyen un archivo de audio digital. El más

importante de estos gráficos es el que representa la forma de la onda u oscilograma, que

muestra el tiempo y la amplitud. Para algunos análisis es importante además tener a la

vista la información frecuencial y para ello se dispone del espectrograma, que es una

representación sincrónica al oscilograma pero con información de las frecuencias.

Estas dos representaciones están estrechamente relacionadas. Se parte del

oscilograma en el que se hace un análisis espectral de los componentes que existen en una

ventana de análisis, o sea, en unos cuantos milisegundos de la señal. En el espectrograma

se muestran los sucesivos análisis espectrales a lo largo del eje temporal. En otras palabras,

un espectrograma es una representación de espectros sucesivos y superpuestos para dar la

sensación de continuidad.

El espectrograma es de muchísima ayuda para identificar tipos de sonidos e incluso

para identificar específicamente de qué sonido se trata; en el análisis acústico, se ha

convertido en una herramienta verdaderamente insustituible.

La ventana de tiempo en la que se realiza el análisis espectral puede ser larga o

corta. Si el análisis se realiza con una ventana corta, por ejemplo, de 5 ms, entonces el

resultado será un gráfico con buena definición temporal, pero la información frecuencial
será bastante gruesa. A la inversa, si la ventana es larga, por ejemplo, de 30 ms, la

información frecuencial será mejor que la temporal. Esta asimetría entre resolución

temporal y frecuencial es inevitable.

En la tradición, los dos tipos de espectrogramas se denominan de banda ancha y de

banda estrecha respectivamente, porque para obtenerlos había que colocar unos filtros

(físicos) de 300 Hz o de 45 Hz, por ejemplo, con los que se obtenían, respectivamente,

espectrogramas de banda ancha o de banda estrecha.

Los espectrogramas hechos con una ventana de análisis larga (o de banda estrecha)

muestran la información de la frecuencia con bastante detalle, tanto así que en una vocal se

pueden distinguir con claridad el tono fundamental y los armónicos.

Los espectrogramas de ventana corta (o de banda ancha) muestran la información

frecuencial con menos detalle y, aunque parezca contradictorio, por lo mismo son más

útiles para tareas de análisis fonético ya que, por ejemplo, se pueden observar con claridad

los formantes vocálicos.

En los programas se puede modificar el tipo de espectrograma a través del cambio

de longitud de la ventana de análisis, la gama de Hz que se muestra, y otros parámetros.

En la figura 7.1 se muestran tres tipos de gráficos (oscilograma, espectrograma y

espectros) de una señal artificial, creada por ordenador, que tiene tres partes claramente

distinguibles: en el primer momento hay tres componentes armónicos (500 Hz, 1000 Hz y

1500 Hz); en el segundo momento hay un ruido (componentes aleatorios de todas las

frecuencias) y en el momento final hay cuatro componentes armónicos (200 Hz, 400 Hz,

600 Hz y 800 Hz).


La función de esta figura es ejemplificar la relación entre el espectro y el

espectrograma. Por esa razón, se señalan los puntos a, b y c en los que se hacen los análisis

con una ventana de 30 ms.

El oscilograma está en la parte superior de la figura; al centro, el espectrograma (de

banda estrecha) y abajo, los tres espectros que corresponden a los momentos a, b y c. El

espectrograma muestra una gama de Hz entre los 0 y los 5000 Hz, la misma que se usa en

cada uno de los espectros de la fila inferior.

Figura 7.1 Oscilograma (arriba) y espectrograma (al centro) de una

señal; espectros (abajo) de tres momentos diferentes.


Es importante que comprendas la relación que hay entre los espectros y los espectrogramas:

en el espectro correspondiente al momento a hay tres componentes que equivalen a las

líneas horizontales que se observan en el espectrograma; el espectro del momento c tiene,

en cambio, cuatro componentes en la zona de más bajas frecuencias, de la misma manera

que el espectrograma del momento c tiene cuatro líneas horizontales en la parte más baja de

la gama de frecuencias. El momento b tiene componentes aleatorios en toda la gama de los

0 a los 5000 Hz; por esta razón, en el espectrograma aparece una mancha en toda la zona y,

por lo mismo, en el espectro aparecen relieves a lo largo de todas las frecuencias. Habrás

notado que, a diferencia del espectrograma, en el espectro se representan las frecuencias en

el eje horizontal y no hay representación temporal.

Por lo tanto, un espectro es el resultado de un análisis frecuencial realizado en una porción

pequeña de la señal, en tanto que un espectrograma es una representación de una serie de

espectros; la representación de ambos gráficos difiere también en la forma de expresar la

intensidad: en el espectro se proporcionan valores numéricos de la intensidad; en tanto, en

el espectrograma se infiere por la intensidad del color.

7.1. En Audacity

Audacity permite ver opcionalmente el oscilograma o el espectrograma. También permite

seleccionar el tipo de espectrograma y ofrece la posibilidad de verlo en colores.

Para ver el espectrograma de la señal, se debe seleccionar la opción ESPECTRO en el

menú que se despliega al marcar en el nombre de la pista de audio, tal como se observa en

la figura 7.2.
Figura 7.2. Menú desplegable que permite seleccionar el

espectrograma para observar una señal.

El resultado será que la señal se ve ahora en su representación de espectrograma, tal

como se puede apreciar en la figura 7.3.

Figura 7.3. Espectrograma en color de la misma señal de la figura 7.2.


En las preferencias del programa, hay una opción para fijar los parámetros del

espectrograma. El formulario se muestra en la figura 7.4.

Figura 7.4. Formulario para determinar las especificaciones del

espectrograma.

Con TAMAÑO DE FFT se selecciona el ancho de banda del espectrograma; en este

mismo formulario puedes indicar si prefieres el gráfico en ESCALA DE GRISES (en caso

contrario aparecerá en colores). También en este formulario se puede especificar la gama de

Hz.

7.2. En WaveSurfer

Este programa también de libre distribución y multiplataforma, permite de manera bastante

amable hacer espectrogramas, espectros y otros análisis.

Se debe abrir un sonido con el menú superior File > Open se selecciona el archivo de

audio y luego el programa ofrece una serie de posibilidades para mostrar los análisis:

Demonstration, HTK transcription, IPA transcription, Spectrogram, Speech analysis y


varios más. Para una primera aproximación a este programa, conviene mirar el sonido con

la opción Demonstration.

Con esta opción, el archivo sonoro se abre y tenemos a nuestra disposición cuatro ventanas:

una ventana con el oscilograma y el espectrograma, otra con el espectro, otra de control

gráfico y una ventana para aumentar en el gráfico la amplitud de la señal. En este momento

nos interesan especialmente las ventanas con la forma de la onda y el espectrograma y la

que permite controlar los gráficos.

Las cuatro ventanas se muestran en la figura 7.5 habiendo ya modificado algunas de las

cualidades del gráfico tal como aparecen por defecto.

Figura 7.5. Las principales ventanas en WAVESURFER bajo el modo Demonstration.

Al cambiar de posición el punto que aparece en la ventana Image Controls, cambian las

propiedades del gráfico y podemos así cambiar el brillo y el contraste, con lo cual podemos

manejar el color de la presentación. Si variamos la longitud de la ventana de análisis

(Analysis windows lenght) cambiaremos, como se señaló antes, el ancho de banda del
espectrograma. En la figura 7.6 se muestra la misma señal en un espectrograma de banda

estrecha.

Figura 7.6. Espectrograma de banda estrecha en WAVESURFER.

7.3. En PRAAT

Para la mayoría de los análisis acústicos te bastará con desplegar un espectrograma de

ventana corta (o de banda ancha) en la ventana de edición.

Debes tener un objeto de tipo sound en la ventana PRAAT OBJETCS y activar el botón

EDIT. Ya sabes que con esta opción aparece una ventana que muestra por defecto un

espectrograma de banda ancha. Si no está visible es porque en el menú superior de la

ventana EDIT, en SPECTRUM, está desactivada la opción SHOW SPECTROGRAM; en ese caso

habrá que activarla en el mismo menú. Otra causa por la que no se ve el espectrograma es

porque la señal visible supera los 10 segundos; en este caso, al acercarse a una porción de la

señal inferior a 10 segundos, el espectrograma aparece.

Para mejorar la visión que se tiene del espectrograma, puede ser conveniente
desactivar otros gráficos que se muestran superpuestos, por ejemplo, si aparece el pitch o si

se ven puntos rojos que siguen la trayectoria de los formantes. En el menú superior

correspondiente —Pitch, Formant, Pulses, Intensity— puedes desactivar las opciones

según corresponda.

En este momento tienes una señal en la ventana de edición; es decir, puedes

observar el oscilograma y el espectrograma tal como ya habías visto en la figura 5.5.

Veremos ahora cómo modificar ese espectrograma.

Para hacer modificaciones en la apariencia del espectrograma debes desplegar, en

menú superior, en SPECTRUM, la opción SPECTROGRAM SETTING... con lo que aparece un

formulario como el de la figura 7.7.

Figura 7.7. Formulario para modificar parámetros en la visualización

del espectrograma en la ventana de edición.

Los campos de este formulario tienen las siguientes funciones:

View range (Hz): Muestra el rango de frecuencia; por defecto, va de 0 Hz a

5000 Hz, pero se puede modificar completamente. Por ejemplo, puedes

hacer que se desplieguen en la pantalla hasta los 8000 Hz. En todo caso,
el valor máximo de la frecuencia observable es siempre la mitad de la

frecuencia de muestreo (recuerda lo aprendido en el capítulo 3).

Window length (s): Muestra la extensión de la ventana de análisis. Aquí

puedes cambiar el tipo de espectrograma. Para uno de banda estrecha, usa

0.03 s (30 ms) y para uno de banda ancha usa 0.005 s (5 ms).

Dynamic range (dB): Fijado por defecto en 50 dB. Mientras más alto este valor,

más sucio será el gráfico en la ventana del espectrograma, porque

mostrará elementos de menos energía. Si bajamos el valor de este

parámetro se presentarán solo las frecuencias que superen ciertos dB.

El resultado de la modificación de la longitud de la ventana y del rango de Hz

desplegado se observa en la figura 7.8, en la que se presentan tres espectrogramas

diferentes de la misma señal.

Figura 7.8. Tres espectrogramas de una misma señal: (A) banda ancha,

con una gama frecuencial de 0 a 5000 Hz, (B) banda estrecha con una

gama de 0 a 5000 Hz y (C) banda ancha con una gama de 0 a 10000

Hz.

El efecto de cambiar los valores del parámetro Dinamyc range se aprecia en la


figura 7.9 en que una misma señal se muestra con dos valores diferentes.

Figura 7.9. Dos espectrogramas de banda ancha de una misma señal,

en la imagen A el Dynamic range está en 50 dB y en la imagen B, en

30 dB.

Además de trabajar con el espectrograma en la ventana de edición, puedes crear el

objeto espectrograma. Para crearlo, selecciona el objeto de tipo Sound del que quieras hacer

el espectrograma, activa el botón SPECTRUM- y en el menú desplegable aparecerá la opción

TO SPECTROGRAM... En el formulario que aparece puedes especificar la longitud de la

ventana y la gama de Hz que se desplegarán. No cambies el tipo de ventana; conserva la

opción Gaussian, que está seleccionada por defecto.

Espectros

Al comienzo de este capítulo, se señaló que el espectrograma es una representación de

espectros dispuestos en forma sucesiva. Permítenos una comparación: el espectro es el

fotograma y el espectrograma es la película completa. Señalamos que el análisis espectral

se realiza en una unidad de tiempo que se denomina ventana de análisis y que en los

procesamientos digitales del audio, la longitud de esta ventana determina el ancho de banda
con el que se muestran los gráficos.

Es posible que en algún momento quieras examinar el espectro correspondiente a un

determinado punto del espectrograma.

En Audacity, para observar un espectro debes seleccionar el fragmento de la señal

que te interesa (por ejemplo, una vocal) y en el menú ANALIZAR tienes la opción DIBUJAR

ESPECTRO. Esto se muestra en la figura 7.10.

Figura 7.10. Fragmento seleccionado de una señal para ver el espectro

correspondiente.

El resultado es una ventana con gráficos como los que se observan en la figura 7.11,

en los que se aprecian, para el segmento marcado de la señal, los relieves de amplitud

(vertical) de los componentes frecuenciales (horizontal). El espectro con mayor definición

frecuencial es el que permite ver los armónicos (B), en tanto que en el de banda ancha (A)

se observan los relieves de manera más gruesa. Esto es exactamente lo que se observa en un

espectrograma a través del tiempo.


Figura 7.11. Dos espectros de una misma parte de una señal. A la

izquierda, un espectro de banda ancha y, a la derecha, un espectro de

banda estrecha. Los números están explicados en el texto.

En estos espectros se observan las intensidades relativas de los componentes de

ciertas frecuencias en el segmento marcado en la señal. El cambio de ancho de banda del

espectro se hace cambiando el número que está señalado con (1) en las dos imágenes. Al

desplazar el cursor aparece una línea vertical a la altura frecuencial del pico más cercano

(2), y en (3) aparece el valor en Hz del pico. Si el cursor no está localizado en un pico

frecuencial, el valor de (4) será distinto al de (3). En los dos gráficos de la figura 7.11, el

cursor está levemente desplazado a la derecha respecto del pico más cercano, por esta

razón, el valor de (4) es un poco más alto que el de (3). La opción EXPORTAR (5) sirve para

crear un archivo de tipo txt que puedes leer en cualquier programa de tratamiento de

números e incluso puedes construir gráficos por tu cuenta con la misma información gráfica

del espectro.

En PRAAT puedes ver espectros con el comando VIEW SPECTRAL SLICE, en el menú

SPECTRUM de la ventana de edición. Puedes poner el cursor en un punto de la señal o bien


hacer una selección, por ejemplo, de la parte más estable de una vocal.

Las características del espectro dependen de los valores que hayas dado a los

parámetros del espectrograma en SPECTROGRAM SETTING... del menú SPECTRUM, en la

ventana de edición (recuerda que el espectrograma es una sucesión de espectros de la

misma manera como la película es una sucesión de fotogramas); de esta manera, si tienes

una ventana de análisis 5 ms (0.005 s) obtendrás un espectro y un espectrograma de banda

ancha y con una ventana de análisis de 30 ms (0.03 s) el espectro y el espectrograma serán

de banda estrecha. La figura 7.12 muestra el oscilograma y los dos tipos de espectrogramas.

Se acompañan además de dos espectros (también de distinto tipo) tomados en el mismo

punto.
Figura 7.12. En la parte superior, oscilograma y espectrogramas de

banda ancha (derecha) y de banda estrecha (izquierda). Dos espectros

del mismo punto de la señal, también de distinto ancho de banda.

Si analizas las imágenes de los espectros de la figura 7.12, deberían ser congruentes

con los espectrogramas en los puntos que se señalan. Las flechas del cursor en los

espectrogramas (parte superior) apuntan al tiempo de la señal en el que se realizó el análisis

espectral.

Actividades

• Selecciona una secuencia de dos sílabas y crea con ella un nuevo objeto.

Al hacer la selección, pon los límites en los cruces de cero (revisa lo

expuesto en el capítulo 5) y crea un nuevo archivo.

• De este nuevo objeto, crea dos objetos espectrogramas: uno con la

ventana de análisis de 30 ms y otro con la ventana de 5 ms; ten en

cuenta que el programa te ofrecerá estos valores en segundos (s), no en

milisegundos (ms).

• Renombra cada objeto espectrograma como “ancho” y “estrecho” según

corresponda.

• Cierra la ventanas de edición que tengas abiertas y selecciona el objeto

“ancho” y el objeto ”estrecho” (los dos espectrogramas recién creados).

Usa el comando VIEW (uno de los botones del menú dinámico) con los
dos. Redimensiona ambas ventanas de espectrogramas para que puedas

verlas simultáneamente en la pantalla y fíjate que el indicador GROUP, el

cuadradito en el extremo inferior derecho para la coordinación de las

ventanas, esté activo. Ahora, si pones el cursor en un punto en una de

las ventanas, te aparecerá también en la otra en el mismo punto.

Opcionalmente puedes editar también el objeto sound (y desactivar la

vista del espectrograma en este objeto) y coordinar el oscilograma con

los dos tipos de espectrogramas que tienes.

• Consigue dos informantes para grabar una misma vocal con una voz

masculina grave y con una voz femenina más aguda. Inspecciona la

señal en un espectrograma de banda estrecha y observa la distancia entre

los armónicos. Teóricamente debería ser mayor en la voz aguda y menor

en la voz grave.

• Los armónicos deben ser múltiplos del fundamental. Observa este

fenómeno en un espectrograma de banda estrecha de una vocal. Esto

implica que la distancia en Hz entre armónicos debe ser constante.

Preguntas

1 ¿Qué operaciones debes hacer para averiguar cuántas muestras hay en una

ventana de análisis de 5 ms si la frecuencia de muestreo es de 22050?

A) Dividir el número de la frecuencia de muestreo por 5.

B) Dividir el valor en ms de la ventana de análisis por el valor de la

frecuencia de muestreo.
C) Multiplicar 22050 por 5 y dividir por 1000.

D) Multiplicar 5 por 1000 y dividir por 22050

E) Dividir 1000 por 22050.

2. ¿Cuántas muestras hay en una ventana de análisis de 30 ms para una señal

con las mismas 22050 muestras por segundo?

3. ¿De qué parámetro depende en los espectrogramas de sonidos digitales lo

que tradicionalmente se llama “ancho de banda”?

4. ¿Con cuál de los siguientes tipos de espectros puedes tener información

sobre la frecuencia fundamental de una vocal?:

I De banda estrecha

II De banda ancha

III De ventana de 5 ms

IV De ventana de 30 ms

A) Solo I

B) Solo II

C) II y IV

D) I y IV

E) I, III y IV

5. En la figura 7.13 hay tres espectros en cuyo eje horizontal se representa

hasta los 11 KHz ¿Cuál(es) puede(n) estar hecho(s) con una ventana de

análisis de 30 ms?
Figura 7.13. Tres espectros (de 0 a 11000 Hz en el eje horizontal).
8. ANÁLISIS TEMPORAL

En este capítulo aprenderás a hacer análisis de fenómenos temporales de

muestras de habla y a usar algunos scripts sencillos en PRAAT.

¿Cuántas sílabas por segundo pronunciamos habitualmente? ¿Cuánto más largas son las

vocales tónicas respecto de las átonas? ¿Duran los sonidos duplicados exactamente el doble

que los simples? ¿En qué casos es relevante lingüísticamente la cantidad? Las respuestas a

estas y a otras preguntas similares requieren investigaciones sobre aspectos temporales de

la señal de habla.

En este capítulo veremos específicamente cómo hacer análisis de este tipo de

fenómenos aprovechando señales ya editadas y en lo posible etiquetadas.

En los programas que se han presentado en este manual, puedes ver la señal en

forma de oscilograma o de espectrograma. El espectrograma es de gran utilidad para

identificar sonidos; no obstante, para medición del tiempo, debes considerarlo solo como

instrumento auxiliar; las mediciones debes hacerlas siempre en el oscilograma (para una

interesantísima explicación sobre este fenómeno, puedes consultar Ladefoged 2002: cc-cc y

la sección “3.1. Viewing a spectrogram” del menú de ayuda de PRAAT, también hay versión

en Internet).

El procedimiento más evidente para hacer mediciones de este tipo es marcar en el

oscilograma el fragmento de la señal que deseas medir. Por ejemplo, si deseas saber cuál es

la duración de una consonante, seleccionas el segmento de la señal que corresponde y los

programas dan la indicación de la duración del fragmento marcado. El proceso puede

mejorar con el uso de las etiquetas y con la automatización de la obtención de los datos.
8.1. Mediciones temporales en AUDACITY

Para hacer mediciones de tiempo en AUDACITY debes tener una señal con etiquetas en los

fragmentos que te interesa medir. Supongamos que tienes etiquetadas las sílabas que

componen una emisión y lo has hecho siguiendo las instrucciones dadas en el capítulo 6.

El paso siguiente es exportar los datos usando la opción EXPORTAR ETIQUETAS del

menú ARCHIVO. Aparece un formulario para nombrar el archivo txt y seleccionar el

directorio, tal como se muestra en la figura 8.1.

Figura 8.1. Formulario de AUDACITY para guardar el archivo con la

información de las etiquetas.

El archivo exportado lo puedes abrir desde un procesador de palabras o desde un

programa de cálculo. En dicho archivo tendrás tres columnas: el valor temporal de inicio, el

del término y la etiqueta misma.


Por ejemplo, puedes recuperar valores tales como los que se presentan, a modo de

ejemplo, en la tabla 8.1.

Inicio Término Sílaba

0.071002 0.148608 el

0.148608 0.264192 ka

0.264192 0.356659 pi

0.356659 0.465638 te

Tabla 8.1. Valores temporales recuperados a partir de las etiquetas de

AUDACITY.

Esa información no contiene explícitamente la duración de cada sílaba. Para

obtenerla hay que restar el valor de la celda de la columna 2 al de la de la primera columna;

este resultado se debe expresar en una nueva columna (todo esto se debe hacer en una

planilla electrónica). Con ello tendremos el valor de la duración de cada etiqueta, tal como

se ejemplifica en la tabla 8.2.

inicio Término Duración Sílaba

0,071002 0,148608 0,077606 el

0,148608 0,264192 0,115584 ka

0,264192 0,356659 0,092467 pi

0,356659 0,465638 0,108979 te

Tabla 8.2. Modificaciones a la tabla anterior para obtener la duración

de cada sílaba.

Si una etiqueta se inicia exactamente donde termina la otra, los cálculos serán muy
limpios; si hay algún desajuste, lo mejor será uniformar los datos de tal manera que, por

ejemplo, el número de la segunda fila de la primera columna sea exactamente el mismo que

el de la segunda columna de la primera fila, tal como se destaca a modo de ejemplo en la

tabla.

El orden de las columnas lo puedes rehacer desde el programa que utilices; que una

celda contenga el mismo valor de otra, es algo que también se puede automatizar y, por

supuesto, también la operación de restar los valores. Adicionalmente, en estos programas es

fácil obtener cómputos como el promedio, la desviación estándar, valores máximos y

mínimos.

En este programa las etiquetas se pueden editar (y también exportar) desde una

ventana especial que se despliega en el menú PISTAS > EDITAR ETIQUETAS, como se observa

en la figura 8.2:

Figura 8.2. Ventana de edición de etiquetas.

En esta ventana puedes reescribir el contenido de la etiqueta y modificar la unidad

de tiempo en que se expresan el inicio y el final.


8.2. Mediciones temporales en PRAAT

Obtener valores de duración en forma manual es muy sencillo. Basta con marcar el

segmento en la ventana de edición y la duración aparece en la ventana. En la figura 5.5,

como ya se ha señalado, se muestra una ventana de edición con un segmento marcado. En

esa figura, el número 4 señala una franja que permite escuchar la sección marcada; en esa

misma franja hay unos números que señalan la duración en segundos.

Obtener valores en forma permanente y automatizada implica necesariamente hacer

el TextGrid de la señal de audio y etiquetar los segmentos que quieres medir (por ejemplo,

con etiquetas para cada sílaba).

Para conseguir las etiquetas y las duraciones basta con tener en el panel de objetos

el TextGrid. A partir de este momento, el objeto con la señal es irrelevante, pues la

indicación temporal está contenida en el TextGrid.

Seleccionado el objeto TextGrid, puedes usar el botón QUERY para obtener los datos.

Especialmente interesantes son las siguientes opciones de este menú:

GET NUMBER OF INTERVALS… con esta opción se despliega un formulario que pide el

número del estrato y da como resultado el número de intervalos que hay en ese estrato. Si

no hemos puesto marca alguna, entonces contará un intervalo.

GET STARTING POINT… al seleccionar esta opción aparece un formulario que pide el

número del estrato y el número del intervalo; da como resultado el tiempo de inicio de ese

intervalo.

GET END POINT… operación similar a la anterior que da como resultado la ubicación

temporal del punto final de ese intervalo.


GET LABEL OF INTERVAL… el formulario pide el número del estrato y el del intervalo;

da como resultado la etiqueta que contiene.

Una serie de opciones paralelas para los estratos de puntos da como resultado el

número de puntos de un estrato (GET NUMBER OF POINTS…), el tiempo en el que se ubica una

marca (GET TIME OF POINT…) y la etiqueta (GET LABEL OF POINT…).

Con estas herramientas podemos obtener los valores de la duración de segmentos

etiquetados previamente, si le restamos al tiempo final de un intervalo, el tiempo de inicio.

Para lograrlo habrá que seleccionar el objeto TextGrid y usar el comando QUERY para

conseguir la primera etiqueta de un estrato, el punto de término y el punto de inicio de ese

mismo intervalo. Conseguidos esos elementos, deberás hacer la resta correspondiente

(tiempo de término - tiempo de inicio) y obtendrás la duración del segmento.

Esta es una manera correcta de hacerlo en PRAAT, pero resultará largo y tedioso.

Sabemos que los ordenadores son máquinas útiles especialmente para aquellas acciones que

se repiten muchas veces. Veremos ahora cómo programar una subrutina que realice estas

tareas, ya que efectivamente PRAAT lo permite y es una de las extraordinarias cualidades

señaladas al inicio de este manual. Las subrutinas se denominan scripts.

En concreto, la subrutina tendrá que hacer lo siguiente:

Seleccionar el TextGrid.

Seleccionar el estrato que corresponda.

En ese estrato, contar el número de intervalos y usar ese resultado como una

variable para lo que viene a continuación.

Para cada intervalo, obtener la etiqueta, los puntos de inicio y de término.


La subrutina deberá restar al valor del punto de término el valor del punto

de inicio y a ese resultado asignarle el nombre de una variable que

identifique la duración del segmento.

El paso final de esta tarea consiste en enviar a la pantalla las etiquetas y las

duraciones de los segmentos.

El script que realiza esa tarea, lo hace en los siguientes pasos:

1. Presenta un formulario para identificar el estrato (por defecto, 1) en el

que se quiere hacer las mediciones.

2. Limpia la pantalla de texto para volcar los resultados.

3. Escribe en la pantalla las expresiones “segmento” y “ms” separadas por

una tabulación.

4. Consigue el número de intervalos del estrato especificado en el

formulario inicial.

5. Un comando de tipo for hace que para todos los segmentos con

etiquetas, se identifique la etiqueta, el tiempo de inicio y el tiempo de

término y se haga la resta correspondiente y que finalmente envíe a la

pantalla el valor de la etiqueta y de la duración. Este comando contiene

una condición: si un segmento no tiene etiqueta, entonces no se envía el

resultado a la pantalla. Además, el resultado de la resta que expresa la

duración del segmento es multiplicado por 1000 para que el valor

aparezca en milisegundos.
# Inicio

# 1. El formulario

form Mediciones de tiempo en un estrato

natural estrato 1

endform

# “estrato” es ahora nombre de una variable

# 2 Limpieza de la pantalla para el volcado de datos

clearinfo

# 3. Escribe en la pantalla “segmento” y “ms”

printline segmento'tab$'ms

# 4. Consigue el número de intervalos que hay en “estrato”

n = Get number of intervals... 'estrato'

# “n” es ahora nombre de una variable

# 5. El comando for que:

# consigue etiquetas y valores temporales

# hace la resta necesaria

# multiplica el resultado por 1000

# envía los resultados a la pantalla

for i to n

etiqueta$ = Get label of interval... 'estrato' i

if etiqueta$ != ""

t1 = Get starting point... 'estrato' i

t2 = Get end point... 'estrato' i

tt = t2-t1
tt = tt*1000

printline 'etiqueta$''tab$''tt:2'

endif

endfor

# “t1”, “t2” y “tt” son nombres de variables.

# fin del script

Texto de script 1. Medición de segmentos.

Para usar esta subrutina es necesario tener el TextGrid en el panel de objetos, abrir

el editor de scripts de PRAAT (PRAAT > NEW PRAAT SCRIPT), copiar o reescribir el texto del

script (las líneas precedidas por “#” no son necesarias) y ejecutar el script (RUN en el menú

RUN del menú del editor de scripts). El resultado debe ser un archivo de texto con dos

columnas de datos. Esos resultados los puedes llevar a una planilla electrónica.

Puedes guardar el script en un directorio especial para estas herramientas. En la

pantalla del editor de script, en el menú FILE, existe la opción para guardarlo. PRAAT

permite incorporar tus propios scripts en los menús del programa, pero esto queda fuera del

alcance de este manual.

Otras mediciones

Hay unas mediciones de tiempo que son muy productivas en los análisis fonéticos y

que no son de segmentos exactamente, sino de relación entre dos puntos. El ejemplo más

típico, pero no el único, es el caso del VOT (voice onset time o ‘tiempo de inicio de la
sonoridad’). Se usa para describir consonantes oclusivas. Puedes ver interesantes

descripciones y ejemplos en Fernández Planas (2003: 97-98), Martínez Celdrán (2003: 80-

84). Básicamente se mide el tiempo que hay entre la explosión de una oclusiva y el inicio

de la sonoridad. Si tomamos la secuencia “ta”, observaremos un silencio que corresponde al

período de oclusión de [ t ̪], luego se observará la explosión y, después de un breve lapso, el

inicio de la sonoridad de la vocal siguiente. Lo mismo es válido para [ p ] y [ k ]. Para las

oclusivas sordas, la sonoridad comienza después de la explosión. En cambio si la secuencia

es “da”, se observa que la sonoridad de [ d ̪], y de las oclusivas sonoras en general,

comienza antes de la explosión. La figura 8.3 muestra ambos casos.

Figura 8.3. Secuencias “ta” y “da”. Las flechas señalan el momento del

inicio de la sonoridad. El tiempo entre líneas verticales corresponde a la

duración del VOT.

Para medir el VOT, el procedimiento habitual es considerar la explosión como punto

de referencia y en función de él medir la distancia temporal al inicio de la sonoridad. Si la

sonoridad aparece después de la explosión (como en “ta”), se dice que el VOT es positivo.

En cambio, si la sonoridad comienza antes, el VOT será negativo.


Como en las mediciones de segmentos, esto se puede hacer manualmente

seleccionando la porción de tiempo que media entre la explosión y el inicio de la sonoridad

en la ventana de edición. También podemos usar el script ya expuesto, pero en estos casos

no se podrá diferenciar automáticamente entre valores negativos y positivos.

Para resolver este problema, se puede crear un script que funcione a partir de un

TextGrid con dos estratos puntuales y en cada uno poner una marca (la del primer estrato

actuará como referencia y se situará en el punto de la barra de explosión). Al poner las

marcas en dos estratos diferentes, garantizamos que el resultado puede ser positivo o

negativo, ya que una actuará como el cero (referencial) y la otra marca podrá situarse antes

(valor negativo) o después (valor positivo).

El script especificará el sonido que estamos estudiando mediante un formulario

inicial. Luego deberá trabajar con el TextGrid y obtener los valores temporales para las

marcas que hay en los dos estratos (no puede haber otras marcas) y restar del valor del

estrato 2 el valor considerado como referencia (el de la marca del estrato 1). Por supuesto,

el script debe enviar los resultados a la pantalla.

El siguiente script automatiza esa tarea:

# inicio del script

clearinfo

form Especificar sonido

word sonido

endform

archivo$ = selected$("TextGrid")

select TextGrid 'archivo$'


a = Get time of point... 1 1

b = Get time of point... 2 1

tiempo = b - a

printline 'sonido$''tab$''tiempo:3'

# fin del script

Texto de script 2. Medición de diferencia temporal entre dos puntos.

El resultado se presenta en segundos y con tres decimales, tal como indica el

número “3” después de los dos puntos “:” en la última línea de instrucción del script.

Con lo visto hasta este momento, ya puedes hacer análisis de cuestiones temporales

en la señal acústica. Este tipo de análisis es muy importante ya que son muchísimos los

fenómenos fónicos relacionados con este parámetro, tal como se mencionó en el párrafo

inicial de este capítulo. Adaptando la información, en otros programas las posibilidades de

mediciones temporales son más o menos similares a las expuestas aquí.

Actividades

• Modifica el script usado para mediciones de segmentos de tal manera que:

a) Los resultados estén expresados en segundos y no en milisegundos.

b) Los datos aparezcan con un solo decimal.

• Con el texto del script en la ventana del editor de scripts, selecciona las líneas:

form Mediciones de tiempo en un estrato

natural estrato 1
endform

Cambia en la primera línea lo que está después de la palabra “form”; escribe, por

ejemplo, “Este es un formulario”; selecciona solo esas líneas y usa el comando RUN

SELECTION (desde el menú RUN). Observa el resultado para que más adelante puedas

crear tus propios formularios.

• Graba tu nombre completo y haz un TextGrid con cuatro estratos de segmentos: uno

para el nombre completo; otro para las palabras que lo componen; el tercero para las

sílabas y el cuarto para los sonidos. Usa el script presentado para hacer las

mediciones en todos los estratos.

• Graba tres veces una misma frase a diferentes velocidades: normal, lenta y rápida.

Investiga en esos datos, usando la herramienta TextGrid para saber cuántas sílabas

por segundo produces en cada caso.

• Graba las secuencias “ba da ga pa ta ka”. Crea archivos separados para cada

emisión. Para cada archivo, haz el TextGrid con dos estratos de puntos y pon las

marcas en la explosión y en el inicio de la sonoridad. Usa el script y guarda los

resultados en una hoja de cálculo.


9. ANÁLISIS DE FORMANTES

En este capítulo aprenderás a obtener los valores de los formantes

vocálicos.

¿Cómo se caracterizan acústicamente las vocales? ¿Cómo puedo crear vocales artificiales

por medio de un computador? ¿A qué se debe que una vocal se perciba como más aguda

que otra? ¿Qué rasgos acústicos son relevantes desde el punto de vista de la percepción

para la discriminación de las vocales? Este capítulo se estructura en función de preguntas

como estas.

Una noción básica es la de formante. Baste aquí con señalar que las cavidades

supraglóticas actúan como resonadores que, dada su movilidad, pueden reaccionar a

diferentes frecuencias. La manifestación acústica de esas resonancias son los formantes.

En el caso de las vocales y de los sonidos sonoros en general, al existir vibración de

las cuerdas vocales se produce el tono laríngeo, que consiste en una onda periódica

compleja con componentes que mantienen entre sí una relación frecuencial constante, es

decir, armónica. Al pasar a las cavidades supraglóticas, algunos de esos componentes se

amplifican y otros, correspondientemente, resultan atenuados, dependiendo de la forma

que adopta el resonador bucal. Por lo tanto, los formantes que se pueden apreciar en un

análisis acústico tienen un correlato articulatorio con las secciones que se pueden distinguir

en la cavidad de la boca.

Aunque la frecuencia de los formantes variará, como es sabido, según la

articulación de la que se trate, lo esperable es encontrar cinco formantes en un rango de 0 a

5000 Hz en la voz masculina, en tanto que para la voz femenina, lo esperable es encontrar
ese mismo número de formantes entre los 0 y los 5500 Hz; la diferencia se debe a la distinta

longitud del tracto vocal entre hombres y mujeres.

Los formantes se manifiestan acústicamente como concentraciones de energía en

ciertas zonas frecuenciales y tienen como cualidades fundamentales un centro de frecuencia

y un ancho de banda (o resonancia efectiva). La literatura especializada nos explica que los

dos formantes de más baja frecuencia (F1 y F2) son determinantes para la descripción y

percepción de las vocales.

La primera aproximación a los formantes se hace habitualmente en un

espectrograma de banda ancha en el que las zonas destacadas representan concentraciones

de energía, tal como fue expuesto en el capítulo 7.

Por razones técnicas, en este capítulo nos concentraremos exclusivamente en las

vocales y, por razones teóricas importantes, evitaremos, el análisis de aquellas que puedan

estar nasalizadas.

Análisis de formantes en AUDACITY

Este programa de edición de audio puede darnos una información interesante a partir de los

análisis espectrales, como se adelantó en el apartado Espectros, del capítulo 7.

Por ejemplo, si seleccionas en el oscilograma una porción en la que resulta evidente

que hay periodicidad (por ejemplo, un fragmento de una vocal), puedes hacer un análisis

espectral de banda ancha. Un espectro de este tipo se muestra nuevamente en la figura 9.1

A. Se expone al lado el análisis de banda estrecha para hacer la comparación.


Figura 9.1. Espectro (A) de banda ancha correspondiente a un

segmento de una vocal y (B) el mismo segmento analizado con banda

estrecha.

En el caso que se presenta en la figura 9.1 (A), el primer pico está en los 336 Hz. El

espectro mostrado en 9.1 (B) muestra los componentes, en este caso, está marcado uno de

ellos situado en la frecuencia 2282 Hz. Una medición de varios picos en el espectro de

banda estrecha mostraría que se trata de una onda periódica, efectivamente, y que la

distancia frecuencial entre cada componente es bastante parecida. Como se vio en el

capítulo anterior, el espectro de banda ancha es una visión más gruesa de las frecuencias

producto de la longitud de la ventana de análisis.

También puedes exportar los datos de un espectro, con lo que tendrás un archivo txt

de dos columnas en que aparecen todas las frecuencias computadas en el espectro y las

intensidades relativas de cada una.

El estudio de los formantes en AUDACITY tendría que considerar varios puntos de

análisis y en cada uno de ellos hacer el espectro (ancho), fijándose en los valores

específicamente de F1 y F2.
Análisis de los formantes en WAVESURFER

El programa WAVESURFER tiene varias opciones para desplegar los gráficos de

análisis acústico. En el menú File > Preferences > Misc se encuentra la opción Use

configuration. Aquí disponemos de posibilidades tales como Demonstration, IPA

Transcription, Speech Analysis, entre otras.

Al usar la opción Demonstration, se depliega una ventana que muestra la forma de

onda y el espectrograma. Adicionalmente, se muestra un cuadro de diálogo Image Controls

que permite cambiar los colores del espectrograma, una ventana Spectrum Section Plot con

el espectro correspondiente al punto donde se encuentra el cursor en la ventana con el

oscilograma. Todo esto se muestra en la figura 9.2.


Figura 9.2. Pantalla en el modo Demonstration de WAVESURFER. Se

observa la forma de onda y el espectro correspondiente, entre otras

ventanas.

El Spectrum Section Plot cambia si le pedimos que active el modo LPC (Linear

Predictive Coding). El mismo punto de la imagen anterior se observa ahora con el

espectrograma de banda estrecha:


Figura 9.3. El mismo punto de la imagen 9.2, pero esta vez con

espectro de banda estrecha.

De esta manera, el investigador dispone de los formantes en el espectrograma y los

valores correspondientes en el espectro; opcionalmente, puede hacer el análisis FFT.

Otra opción de este programa es el modo Speech analysis. Con esta, el programa

muestra una ventana como la de la figura 9.4.

Figura 9.4. El modo Speech analysis en WAVESURFER muestra el oscilograma, el

espectrograma con los centros frecuenciales de los cuatro primeros formantes y, abajo, la

curva de la frecuencia fundamental.


En la última línea de esta ventana, aparecen los datos numéricos de tiempo y

frecuencia del punto que señala el cursor. En la medida en que el investigador señale el

centro de frecuencia de uno de los formantes, aparecerán los valores correspondientes. Se

debe tener en cuenta que el programa permite modificar la trayectoria de los formantes, por

lo que se debe “apuntar” con el cursor, pero no “arrastrarlo”, pues modificará los valores

originales de la señal.

Análisis de los formantes en PRAAT

Para estudiar los formantes usando PRAAT, hay dos maneras. Una es observar los formantes

en la ventana de edición en la que puedes obtener datos numéricos precisos. La otra manera

es crear un objeto FORMANT con el fin de obtener datos de manera automática.

Formantes en la ventana de edición de PRAAT

Como ya te resulta familiar, al editar una señal sonora, PRAAT despliega una ventana que

tiene la opción FORMANTS en menú superior. Si activas la opción SHOW FORMANTS, verás en

rojo los formantes identificados por el programa.

Con la opción FORMANT SETTING, se despliega un formulario en el que se especifican

varios parámetros. Para una voz femenina, como se mencionó al comenzar este capítulo,

hay que usar 5500 para el campo MAXIMUM FORMANT (HZ) y fijar en 5 el campo NUMBER OF

FORMANTS. Para voz masculina hay que cambiar el valor de MAXIMUM FORMANT (HZ) a

5000. Esto implica que el programa encontrará solo 5 formantes entre los 0 Hz y los 5500

Hz, o 5000 Hz.

Con la opción DOT SIZE (MM) puedes cambiar el tamaño del trazo. Con 0.5 será

bastante fino y con 2 será más bien grueso.


Ajustando estos parámetros puedes inspeccionar visualmente los valores de los

formantes de una señal en esta ventana de edición. Al situar el cursor en un punto del

espectrograma, por ejemplo, sobre un punto de formante, al lado izquierdo de la ventana

tendrás el valor en Hz correspondiente a ese punto. Esto ya se indicó en el comentario a la

figura 5.2. En la figura 9.5, tienes otro ejemplo de ventana de edición (oscilograma,

espectrograma y formantes). Ya que este caso es el de una voz femenina, el espectrograma

está graduado para mostrar hasta los 5500 Hz y este es también el número para el MAXIMUM

FORMANT (HZ).

Figura 9.5. Los formantes en la ventana de edición.

Si cuentas las líneas formadas por los puntos rojos superpuestos en el

espectrograma, vemos que el máximo número de formantes es 5. Por ejemplo, en la zona

marcada con (1).

El valor que se muestra en el lado izquierdo (2) corresponde al centro de la

frecuencia del formante que está en el punto del cursor (3).


Algunas veces, se producen resonancias que no corresponden estrictamente a los

formantes que interesan para la descripción fonética, sino que son resonancias propias de

una emisión de una persona. El análisis de los formantes debe seguir una cierta lógica que

gráficamente se manifiesta en la continuidad de la dirección del trazo. Aquellos puntos que

se salen de esa dirección son valores espurios que no deben ser considerados en el análisis.

En la zona marcada con (4) ocurre este fenómeno: aparecen unos puntos que no se deben

tomar en cuenta en el análisis. En otras palabras, al estudiar los formantes de una vocal se

debe tomar la medición en una zona de la señal en la que los valores sean claros y

consistentes.

En el menú FORMANT hay una serie de posibilidades bajo la sección QUERY para la

obtención de valores de los formantes y de los anchos de bandas respectivos. La primera de

esas opciones, FORMANT LISTING, da la lista de los valores de los centros de frecuencia de los

formantes en un punto si tienes el cursor en un punto de la señal o en una selección, si

tienes un fragmento marcado. La lista de valores la puedes copiar en un programa para

hacer los cálculos. Las demás opciones se refieren al centro de frecuencia o al ancho de

banda (bandwidth) de cada formante.

Uso del LOG FILE

Una manera rápida de hacer los análisis es con el sistema LOG FILE del menú QUERY

del menú superior. En primer lugar, conviene revisar la opción LOG SETTINGS… del menú

QUERY del menú superior. El formulario tiene la apariencia que muestra la figura 9.6.
Figura 9.6 Formulario del LOG SETTING.

Pon atención en el campo LOG 2 FORMAT que, por defecto, contiene:

't1:4''tab$''t2:4''tab$''f1:0''tab$''f2:0''tab$''f3:0'

Esto se lee así:

 ‘t1:4’ simboliza el tiempo de inicio de la selección expresado con cuatro

decimales.

 ‘tab$’ indica una tabulación. (Este símbolo se repite más adelante.)

 ‘t2:4’ simboliza el tiempo de término de la selección expresado con

cuatro decimales.

 ‘f1:0’ simboliza el centro de frecuencia del primer formante

expresando en números redondeados (sin decimales).

 ‘f2:0’ simboliza el centro de frecuencia del segundo formante, y


también está expresado en números redondeados.

 ‘f3:0’ simboliza el centro de frecuencia del tercer formante y se expresa

también sin decimales.

Si no has marcado un fragmento de la señal, en ‘t1:4’ y ‘t2:4’ se indicará la posición

del cursor.

Usa este método: pon el cursor en un punto de la señal en el que te interese medir

los centros de frecuencias de F1, F2 y F3 y selecciona en QUERY, del menú superior de esta

ventana de edición, la opción LOG 2. Aparecen en una ventana de texto los números

correspondientes a tiempo y valores frecuenciales de lo que se ha indicado. Cambia la

posición del cursor a otro punto (o selecciona un segmento vocálico estable) y repite la

operación LOG 2. Se crea así un archivo de texto en el que vas acumulando la información

solicitada.

En LOG SETTING… puedes cambiar las peticiones y obtener la información temporal

y la de los valores frecuenciales de los formantes 1 y 2 con sus correspondientes anchos de

banda, si especificas el siguiente contenido en la entrada del campo LOG 2 FORMAT :

't1:2''tab$''t2:2''tab$''f1:0'’b1:0’'tab$''f2:0'’b2:0’'tab$'

donde ‘b1:0’ simboliza ancho de banda de F1 expresado sin decimales. Si tienes

seleccionada una porción de la señal, entonces serán distintos los valores de ‘t1’ y ‘t2’; y el

cálculos de F1 y de F2 será un promedio en cada caso; en tanto que el ancho de banda se

calculará en el centro de la selección. Puedes agregar el elemento ‘dur:2’ para expresar la

duración del fragmento con dos decimales.


El objeto FORMANT

Crear un objeto FORMANT es útil para poder automatizar tareas de análisis, como las

anteriores. Hay dos formas para crear un objeto de este tipo:

A. En la ventana de edición, si está activa la opción que permite mostrar

los formantes, en el mismo menú FORMANT, seleccionas EXTRACT VISIBLE

FORMANT CONTOUR. Con ello se crea un nuevo objeto en el panel PRAAT

OBJECTS con el nombre Formant untitled.

B. Selecciona el objeto SOUND en el panel de objetos y activa el menú (de

la zona ANALYSE) FORMANT & LPC- . En este menú se encuentra la

opción TO FORMANT (BURG)...; con ella se crea un nuevo objeto, pero, a

diferencia de la modalidad anterior, el nuevo objeto FORMANT conserva

el nombre del objeto SOUND.

Con este objeto creado, puedes usar el botón QUERY de la misma manera como se

presentó el mismo comando desde el menú FORMANT de la ventana de edición. Este

comando es el se emplea para automatizar las tareas.

Uso del TextGrid para el análisis de los formantes

Vamos a suponer que te interesa conocer los valores de los formantes 1, 2 y 3 en las

vocales de una emisión.

Para hacer el análisis de los formantes usando el TextGrid, debes editar el objeto

Sound y el TextGrid correspondiente (con un estrato puntual). La opción Show formants

debe estar habilitada. Posteriormente será necesario crear también el objeto Formant
correspondiente.

En el estrato puntual debes poner las marcas en los lugares donde te interesa

conocer los valores del centro de frecuencia del formante y del ancho de banda respectivo;

para hacerlo, recuerda, debes editar el objeto SOUND junto con TextGrid y al situar las

marcas debes tener en cuenta lo explicado antes sobre los valores espurios que suelen

aparecer en las señales. Escribe una etiqueta en cada marca con la vocal de la cual se trate.

Una vez hecha esta operación, tendrás tantas marcas puntuales como puntos en el

enunciado donde te interese conocer los valores. Y en cada marca estará escrita una

etiqueta. Un ejemplo se muestra en la figura 9.7.

Figura 9.7. Ejemplo de señal y TEXTGRID con un estrato de puntos en

el que aparecen las marcas con etiquetas (vocales) donde se estudiarán

los valores de los formantes.

En la figura anterior, están etiquetadas todas las vocales del enunciado excepto una
que está nasalizada.

Las operaciones siguientes las harás manualmente. Esta manera es muy lenta, pero

es necesaria para comprender qué hará el script al automatizar la tarea. La recomendación

es que sigas los pasos siguientes uno a uno para que sepas cabalmente cómo funciona el

script que presentaremos después.

1. En el panel de objetos, selecciona el objeto TextGrid en el que has

puesto las marcas con las etiquetas (no es necesario que selecciones al

mismo tiempo el objeto Sound). Simplemente selecciónalo, no lo edites.

2. Identifica la posición de las marcas en el estrato puntual con el comando

GET TIME OF POINT... del botón QUERY. Tendrás que hacerlo tantas veces

como marcas tengas en el estrato puntual del TEXTGRID. Al activar esta

opción, tendrás que completar un formulario simple de dos campos:

TIER NUMBER y POINT NUMBER (número del estrato y número de la

marca). Si el estrato puntual donde tienes las marcas es el número 3, ese

será el TIER NUMBER. El número de cada marca (POINT NUMBER) es

correlativo, si hay 19 marcas, la primera será 1 y la última será 19.

3. Aparece una pantalla de texto con la información del valor temporal de

cada marca. Almacena ese valor pues será útil para un paso siguiente.

Usa la forma habitual para copiar un texto: marca con el cursor el texto

y selecciona la opción COPY del menú EDIT. En este momento, ese

valor está en la memoria operativa del computador.

4. Selecciona ahora el objeto FORMANT en el panel de objetos.

5. Para obtener el centro de la frecuencia de un formante, en el menú que


se despliega con el botón QUERY, selecciona primero GET VALUE AT

TIME... Aparece un formulario en el que hay que completar FORMANT

NUMBER, TIME (S), y otros dos campos más (estos últimos no conviene

modificarlos). El primer campo de este formulario se refiere al número

del formante; el segundo, al momento de la señal en que se pide el

análisis. Para obtener la información sobre el F1 correspondiente a la

primera marca, debes escribir “1” en FORMANT NUMBER y pegar el texto

del punto 3 (la información temporal). Si has seguido los pasos, solo

debes posicionarte en el campo TIME (S) y pegar el texto. Presionas OK

y aparece, en una ventana de texto, el valor frecuencial que puedes

“copiar y pegar” en un programa de cálculo. Obviamente para el F2, en

FORMANT NUMBER habrá que escribir “2” y así sucesivamente. El

máximo es, según lo que hemos especificado, cinco.

6. Para conseguir el ancho de banda de un formante, la operación es

parecida a la anterior. Seleccionado el objeto FORMANT, en el menú del

botón QUERY eliges la opción GET BANDWIDTH AT TIME... y completas el

formulario que aparece con el número del formante, por ejemplo, “1” y

el tiempo; pegas el texto que todavía debe permanecer en la memoria

operativa. Con OK se despliega el valor del ancho de banda, que debes

“copiar y pegar” en el programa en el que realizarás los cómputos.

7. Repites estas operaciones con cada uno de los formantes que deseas

analizar y en cada una de las marcas que tienes en el estrato puntual en

el TEXTGRID.
Una vez realizadas estas operaciones, tendrás una lista de valores de centros

frecuenciales anchos de banda para cada una de las marcas puestas en el estrato puntual del

TEXTGRID.

Tus resultados se pueden ordenar en una tabla que tenga provisoriamente las

siguientes columnas:

Vocal Tiempo F1 b1 F2 b2 F3 b3

La columna “Vocal” indicará de qué vocal se trata, la columna “Tiempo” tendrá una

entrada en segundos (s) y todas las columnas siguientes tendrán entradas en Hz de los

centros de frecuencias de los formantes 1, 2 y 3 y los respectivos anchos de banda ( “b”).

Análisis automatizado de los formantes

El script siguiente permite realizar las tareas anteriores de manera automatizada. Lo único

que el programa no hace es poner las marcas y las correspondientes etiquetas en el

TEXTGRID; esas son prerrogativas del investigador.

Lo que hace este script es, básicamente:

1. Presentar un formulario en el cual se indiquen los datos del informante,

el estrato que tiene las marcas y si se trata de mujer o de hombre.

2. Imprimir en pantalla una línea con títulos para las columnas: Caso,

Iniciales, Sexo, Tiempo, Vocal, F1, b1, F2, b2.

3. Seleccionar el objeto SOUND y crear el objeto FORMANT correspondiente.

Para la especificación de MAXIMUM FORMANT (HZ) usará valores

diferentes según sea el sexo del informante.


4. Identificar, en el TEXTGRID, el número de puntos y para cada punto

(desde 1 hasta el número de puntos que existan en ese estrato) identifica

la etiqueta y el tiempo en el que está localizada.

5. Conseguir los datos (centro de frecuencia y ancho de banda), en el

objeto FORMANT, de los formantes 1 y 2 en el tiempo en el que están

puestas las marcas con las etiquetas y enviar a la pantalla de

información las etiquetas y los valores correspondientes

6. Eliminar el objeto FORMANT de la lista de objetos.

Este es el texto del script:

clearinfo

# Presenta el formulario para los datos del informante

form Informante

word iniciales INIC

natural estrato 1

choice sexo 1

button f

button m

comment En "estrato" indique el numero del estrato con marcas para los formantes

endform

# Asigna distintos valores dependiendo del sexo del informante.

if sexo$ = "m"

valor = 5000
elsif sexo$ = "f"

valor = 5500

endif

# Imprime una línea de títulos de columnas

printline

Caso'tab$'Iniciales'tab$'Sexo'tab$'Tiempo'tab$'Vocal'tab$'F1'tab$'b1'tab$'F2'tab$'b2

# Selecciona el objeto Sound y crea el objeto Formant

sonido$ = selected$ ("Sound")

select Sound 'sonido$'

To Formant (burg)... 0 5 'valor' 0.025 50

# En el TextGrid, busca el número de marcas, y las etiquetas existentes.

# En el objeto Formant encuentra los valores para F1, F2, b1, b2 para cada punto

# Imprime los datos en la pantalla.

select TextGrid 'sonido$'

ndepunto = Get number of points... 'estrato'

for i to ndepunto

select TextGrid 'sonido$'

tiempopunto = Get time of point... 'estrato' 'i'

etiquetapunto$ = Get label of point... 'estrato' 'i'

# seleccionar objeto formantes

select Formant 'sonido$'

f1 = Get value at time... 'estrato' 'tiempopunto' Hertz Linear

b1 = Get bandwidth at time... 'estrato' 'tiempopunto' Hertz Linear

f2 = Get value at time... 2 'tiempopunto' Hertz Linear


b2 = Get bandwidth at time... 2 'tiempopunto' Hertz Linear

printline

'i''tab$''iniciales$''tab$''sexo$''tab$''tiempopunto:2''tab$''etiquetapunto$''tab$''f1:0''tab

$''b1:0''tab$''f2:0''tab$''b2:0''tab$'

endfor

# Selecciona el objeto Formant y lo borra

select Formant 'sonido$'

Remove

Texto de script 9.1. Análisis de los formantes

Con esta nueva herramienta puedes hacer los análisis de formantes en gran cantidad

de vocales y tener así una cantidad considerable de datos que te permitan llegar a resultados

consistentes.

Síntesis de vocales

Los estudios de los formantes vocálicos han permitido sintetizar, es decir, crear sonidos que

suenan como las vocales a partir de formalizaciones numéricas de frecuencia fundamental o

F0 (este concepto se verá en detalle más adelante) y valores formánticos, especialmente de

F1 y F2.

Sobre este asunto en particular, recomiendo, por una parte, una página web que es

una verdadera "fábrica de vocales", perteneciente al Speech Research Lab (A. I. duPont
Hospital for Children y la Universidad de Delaware); por otra parte, es conveniente

conocer la versión demo del programa FORMANT SYNTHESIZER; finalmente, hay que usar el

módulo de síntesis de vocales de PRAAT. Estos programas o módulos permiten crear

vocales especificando los valores de F1 y F2 y son experiencias muy interesantes que se

pueden aprovechar en estudios perceptivos.

La página mencionada es de la autoría de H. Timothy Bunnell y su dirección

electrónica es esta: http://www.asel.udel.edu/speech/tutorials/synthesis/vowels.html.

Presenta la interfaz que se observa en la figura 9.8:

Figura 9.8. Interfaz del sintetizador de vocales del SRL.

En esta ventana, el usuario indica los valores de la frecuencia fundamental y los tres

primeros formantes, además de la duración (en milisegundos) en los campos

correspondientes y luego activa el botón Synthetize. Aparece una nueva pantalla con la

opción Listen to result. Al activar el ícono correspondiente, podemos escuchar el resultado

de nuestra síntesis.

En FORMANT SYNTHESIZER, se muestra una ventana compleja, como la de la figura

9.9. El programa nos presenta los valores referidos a la fuente (tono laríngeo) en rojo y los
referidos a las resonancias, o filtro, en verde. Aquí se pueden manipular todos los

parámetros: el centro de frecuencia (Frequency) y el ancho de banda (Bandwith).

Figura 9.8. Pantalla de FORMANT SYNTHESIZER para generar vocales sintéticas.

No exagero si digo que usar este programa es una experiencia divertida pues uno

presiona el botón Play y el programa genera el sonido. Además, el usuario puede modificar

los valores mientras el sonido se ejecuta, con lo que se observa la variación y el efecto de

cada uno de los parámetros que se pueden manipular.

El módulo editor de vocales de PRAAT, (New > Sound > Create sound from

VowelEditor, presenta una pantalla como la de la figura 9.10 A y B.


Figura 9.10. EL editor de vocales de PRAAT. En A se observa la pantalla inicial y en B una

trayectoria de F1 y F2 hecha por el investigador.

En este módulo, el usuario tiene que poner el cursor en algún punto de este espacio

acústico-vocálico. Al hacer clic, se escucha el sonido correspondiente. Al mover el cursor

por ese espacio el sonido variará de acuerdo con las frecuencias del F1 (eje vertical) y del

F2 (eje horizontal).

El sonido creado se puede llevar al panel de objetos mediante el botón Publish, en la

parte inferior de la ventana. Con esta opción puedes crear estímulos con distintos valores

para F1 y F2 y someterlos a pruebas de percepción.

Es importante que te des cuenta de que si el gráfico representa el F2 en el eje

horizontal (y con valores dispuestos en forma logarítmica, no lineal) la representación

acústica es equivalente a la articulatoria. En la parte superior están las vocales altas [i u] y

en la parte baja la vocal [a]; hacia la izquierda las vocales de la serie palatal y hacia la

derecha las velares.


Actividades

• Haz la operación de exportar los datos de un espectro de AUDACITY. Lee ese

archivo desde una planilla electrónica; coge los datos de la columna de

intensidad (las frecuencias están en orden correlativo) y haz un gráfico con esos

valores. Compara el gráfico que has hecho con el espectro que el programa

realizó automáticamente.

• Usa el script 9.1 para hacer la lista de los valores de las vocales de una emisión

breve, que tenga unas 10 vocales.

• Graba expresiones que tengan una misma vocal como, por ejemplo: “El que

debe es él”, “La rana canta para la hada”, “Sí; insistí”, “Yo no como poco”, “Su

luz, un tul” y haz la misma operación de análisis anterior con cada emisión.

• Graba emisiones que contengan las cinco vocales del español, tales como “Mira

su pelo” y estudia las diferencias de los formantes usando también el script ya

presentado. Puedes comparar también los valores de la voz femenina y la

masculina.

• Graba dos veces expresiones en las que haya vocales en contacto, como, por

ejemplo, “El río estaba en la imaginación de uno”. La primera vez, hazlo con

velocidad normal; la segunda, muy rápido. Aplica el script y compara los

valores conseguidos. ¿Cambian notoriamente algunos valores?

• Revisa en la bibliografía de fonética del español las “cartas de formantes”.

Algunos de los valores obtenidos, sitúalos en una carta de formante hecha por ti.

Ten en cuenta que muchas veces se utilizan escalas logarítmicas para esas

representaciones.
10. ANÁLISIS DEL TONO (PITCH)

En este capítulo aprenderás a obtener los valores de la frecuencia

fundamental.

¿Se diferencian los dialectos hispánicos por la melodía del habla? ¿En qué unidades de

medida se expresa mejor la altura tonal? ¿Cómo se puede caracterizar melódicamente una

pregunta? ¿Cómo se puede comparar la voz femenina y la voz masculina si una de ellas es

naturalmente más aguda? El tema que se desarrolla en este capítulo está relacionado con

este tipo de preguntas.

Frecuencia fundamental y pitch

En el capítulo anterior, observábamos que la vibración de las cuerdas vocales produce un

sonido rico en armónicos que se modifica por las cavidades supraglóticas que actúan como

amplificadores de algunas de esas frecuencias. De esa manera se originan los formantes de

las vocales y los de las consonantes sonoras.

Los armónicos mantienen una relación matemática entre sí. La diferencia de

frecuencia entre ellos es constante. Por ejemplo, si un armónico tiene 500 Hz y el siguiente

tiene 600 Hz, podemos suponer que el anterior tiene 400 y que el siguiente tiene 700.

Podemos afirmar también que el décimo armónico tiene 1000 Hz. En otras palabras, todos

son múltiplos de 100. Esta diferencia es la frecuencia fundamental o f0 entendida como

unidad puramente acústica y se relaciona con la duración del ciclo: una f0 de 100 Hz

implica que en un segundo habrá 100 ciclos, por lo tanto, cada ciclo dura 10 ms.

La frecuencia fundamental tiene un correlato perceptivo, el tono o pitch. Hay una

estrecha relación entre ambos conceptos y la frecuencia de vibración de las cuerdas vocales.
Dicho con otras palabras, la vibración periódica de las cuerdas vocales, por ejemplo, a una

razón de 100 vibraciones por segundo, se registra acústicamente como una frecuencia

fundamental de 100 Hz y esto produce una percepción de una altura tonal de 100 Hz.

La medición acústica de la frecuencia fundamental ha resultado extraordinariamente

importante para el desarrollo de los estudios de la entonación. Actualmente hay una

interesante proliferación de investigaciones y de proyectos en torno a la prosodia y

especialmente de fenómenos que se estudian a través de la frecuencia fundamental.

Cómo obtener el valor de la frecuencia fundamental

Hay varias formas complementarias para obtener el valor de la frecuencia fundamental.

Revisaremos algunas de ellas.

El espectro

Si produces un espectro de una vocal o de una consonante sonora (recuerda lo revisado en

el capítulo 7) de alta definición frecuencial, podrás observar los armónicos de la porción de

la señal analizada. Una vez con el espectro a la vista solo tienes que tomar dos

componentes contiguos y observar cuál es la diferencia de frecuencias entre ellos. Por

ejemplo, si tomas el noveno y el décimo y los valores son, respectivamente, 2025 Hz y

2250 Hz, puedes establecer que la frecuencia fundamental es de 225 Hz, es decir, la

diferencia entre ellos.

Con toda seguridad, el primer componente debe tener 225 Hz, el segundo 450 Hz, el

tercero 675 Hz, el cuarto 900 Hz y así sucesivamente.

Para identificar los valores de la frecuencia fundamental de una emisión debes hacer

sucesivos análisis espectrales en los puntos en que te interesa hacer la medición; recuerda
que deben ser segmentos periódicos de la señal. Por razones teóricas, siempre se privilegia

el análisis de este componente en las vocales.

El espectrograma de banda estrecha

Un análisis semejante al anterior se puede realizar con un espectrograma de alta resolución

frecuencial o, lo que es lo mismo, de banda estrecha. Hay que tener en cuenta que un

espectrograma es una sucesión de espectros, como afirmamos en el capítulo 7. Por lo

mismo, en un espectrograma de banda estrecha (es decir, de una ventana de análisis larga,

por ejemplo, de 30 ms, en el que se tiene buena resolución de las frecuencias) se puede

apreciar la evolución de todos los componentes armónicos.

Habrá que establecer un rango de Hz que permita ver con relativa nitidez las bajas

frecuencias. Normalmente los espectrogramas tienen una gama de 5000 o 5500 Hz, pero

ahora necesitamos concentrarnos en las frecuencias bajo los 1000 Hz.

La figura 10.1 muestra tres espectrogramas de banda estrecha de una misma porción

de señal con distintas gamas de Hz desplegadas en el eje vertical. En A la gama va de 0 Hz

a 5000 Hz; en el caso B, de 0 Hz a 2500 Hz y en C de 0 Hz a 1000 Hz.

A B C

Figura 10.1. Espectrogramas de banda estrecha. A) de 0 Hz a 5500 Hz;

B) de 0 Hz a 2500 Hz y C) de 0 Hz a 1000 Hz.

Podemos comentar que en A se observa una gran cantidad de armónicos, más o


menos 16. El movimiento frecuencial se nota más exagerado en las partes altas del

espectrograma. En B tienes un acercamiento a las frecuencias, un poco menos de la mitad

de las que se registran en A y aparecen solo los 7 primeros componentes. En este segundo

gráfico las variaciones de frecuencias se notan con más claridad que en el primero. En C se

muestra hasta los 1000 Hz y solo se observan 3 componentes. Con esta gama es más fácil

identificar los valores de la frecuencia fundamental (el componente más bajo). Estos

gráficos están hechos con PRAAT y para obtener los valores frecuenciales hay que ceñirse a

lo explicado en el capítulo 5, a propósito de la figura 5.6.

Si la señal ha sido filtrada, no aparecerán todos los componentes; sin embargo el

valor de la frecuencia fundamental lo puedes inferir pues ya sabes que la relación entre

armónicos indica el valor de la frecuencia fundamental. Esto se puede apreciar en la figura

10.2.

0 200 400 600 800 1000 1200


Figura 10.2. Espectro con cuatro componentes a 100 Hz de distancia.

En este espectro, se representan 4 componentes. El primero es de 400 Hz; no

obstante le valor de la frecuencia fundamental es de 100 Hz. Este valor está dado por la

diferencia entre regular entre los armónicos, que están situados a los 400 Hz, 500 Hz, 600

Hz y 700 Hz. Este es el mecanismo por el cual nuestro cerebro puede interpretar el tono

fundamental en las señales telefónicas, que están filtradas.

En el oscilograma

La forma más exacta para obtener el valor de la frecuencia fundamental es medir la

duración de un ciclo y calcular el número de ciclos que pueden existir en un segundo. Por

ejemplo, si el ciclo mide 10 ms (0.010 s) habrá que dividir 1 por 0.01).

En todos los programas mencionados en este manual, puedes hacer la medición del

ciclo mediante la selección y acercamientos sucesivos en el oscilograma. Además puedes

hacerlo con un nivel de precisión muy grande si, teniendo un ciclo seleccionado, ajustas los

cursores al nivel del 0 amplitud.

En PRAAT, siempre que seleccionas una porción de una señal en la ventana de

edición, automáticamente se realiza el cálculo de la frecuencia en la barra superior. Si el

fragmento seleccionado es breve, entonces la frecuencia aparece entre paréntesis, tal como

se muestra en la figura 10.3.


Figura 10.3. Ventana de edición de PRAAT en la que se ve la

información del pitch, y se ha desactivado el espectrograma. Se indica

el tiempo que dura el fragmento seleccionado (1) y la frecuencia

correspondiente (2). Tanto el inicio (3) y fin de la selección (4) están

ajustados a los cruces por cero. La frecuencia obtenida en forma

manual (2) coincide gruesamente con la obtenida en forma automática

(5).

El script siguiente puede ser útil si deseas calcular una frecuencia a partir de una

duración dada (expresada en ms) sin tener la señal a la mano.

# Script que pide un valor en milisegundos

# y proporciona el valor de F0 correspondiente

clearinfo

form Convierte duración del ciclo en valor de F0

real el_ciclo_es_de

comment (milisegundos)
endform

t = 'el_ciclo_es_de'/1000

frecuencia = 1/'t'

printline Duración'tab$'Fo

printline 'el_ciclo_es_de:2''tab$''frecuencia:2'

Script 10.1. Convierte el valor de un ciclo en el correspondiente valor

de la frecuencia fundamental.

Algoritmos de autocorrelación

Los programas diseñados para analizar acústicamente el habla usan algoritmos que buscan

en forma automática patrones en la forma de la onda. El resultado de la aplicación de un

algoritmo de este tipo es una curva que muestra variaciones de frecuencia a través del

tiempo. Por ejemplo, la figura 10.4 muestra una curva de f0 obtenida en PRAAT.

300

200

100
0 0.3 0.6 0.9 1.2 1.5 1.8

Figura 10.4. Ejemplo de una curva de valores de f0 obtenida en PRAAT

En el eje horizontal se muestra el tiempo y la frecuencia en el eje

vertical.

Este gráfico muestra el tiempo en el eje horizontal y la frecuencia (en Hz) en el eje

vertical. Esta señal tiene dos prominencias por encima de los 200 Hz: aproximadamente en
el segundo 0.7 y en el 1.3. En tres partes el trazo está interrumpido; a pesar de ello se puede

apreciar una continuidad en la dirección del mismo. Esos cortes corresponden a porciones

aperiódicas de la señal; a pesar de esas interrupciones naturales en toda muestra de habla,

nuestro sistema perceptivo reconstruye siempre la melodía en forma continua.

El mismo tipo de curva presenta el programa WAVESURFER. Así se aprecia en la

figura 10.5:

Figura 10.5. En WAVESURFER, con la configuración Speech analysis se

observa la curva de frecuencia fundamental en el panel que está bajo el

espectrograma.

Esta forma de obtener los valores de la frecuencia fundamental es producto de un

algoritmo que funciona con el método de autocorrelación, es decir, hace una búsqueda de

los valores de la señal en una ventana de análisis hasta encontrar un patrón. No obstante,

algoritmos como este suelen cometer errores. Frecuentemente, uno puede encontrar bruscas

caídas o ascensos súbitos que tienen diferencias del doble de Hz. Observa la figura 10.6, en

la que se muestra una curva de pitch con caídas que no corresponden a valores

frecuenciales efectivos.
500

300

100

0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2

Figura 10.6. Ejemplo de un análisis automático con dos errores.

Si usamos alguna estrategia para corregir los valores erróneos, podemos obtener,

automáticamente también, un resultado como el que se muestra en la figura 10.6.

500

300

100

0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2

Figura 10.7. Ejemplo de análisis automático en el que se han

corregido los valores que originalmente proporcionaba el

algoritmo.

¿Qué debes hacer cuando te encuentras con un valor sospechoso? La mejor opción

es siempre obtener manualmente el valor del pitch en aquella parte donde te parece que hay

un valor erróneo y corregirlo. En otras palabras, una curva que representa valores de f0

obtenidos mediante un algoritmo de autocorrelación es siempre una guía útil acerca de los

valores de f0 de esa emisión, pero solo una guía y siempre debe ser verificada y, si es

necesario, corregida.

Edición del pitch

Las curvas obtenidas automáticamente mediante algoritmos de autocorrelación


proporcionan rápidamente los valores pero, como hemos visto, pueden fallar en ciertos

puntos del análisis. Además del tipo de error mencionado pueden ocurrir otros, como que

no aparezca un valor donde evidentemente lo hay y, el opuesto, que aparezca un valor

donde sabemos que no hay periodicidad en la frecuencia. Por estas razones, los valores que

el algoritmo proporciona deben ser revisados y, si tienen errores, hay que corregirlos.

En la ventana de edición de PRAAT, la curva de pitch se aprecia en azul si tenemos

activada la opción correspondiente, tal como explicamos en el capítulo 5. Esa es una buena

manera para hacer una primera exploración de los valores, pero puede presentar errores, por

lo que hay que hacerlo con precaución.

Con la opción PITCH SETTING se puede establecer la gama de Hz desplegados y las

unidades usadas para presentar los valores: Hz, st, mel, ERB. Sobre la gama frecuencial es

muy importante tener en cuenta que aquellos valores que se sitúen fuera de la gama

establecida no serán computados. También hay que saber que la duración de la ventana de

análisis se establece automáticamente de tal manera que puedan ocurrir tres ciclos del valor

más bajo establecido, o seis, según el tipo de ventana de análisis.


Figura 10.8. Parámetros para el establecimiento del pitch en

PRAAT.

En los dos primeros campos se establece el rango de Hz en los cuales el programa

encontrará valores “candidatos” al pitch. Con la opción Unit se selecciona la unidad en la

que se expresan los valores. Las opciones del menú Drawing method permite la opción de

dibujar la curva con línea o puntos.

En la figura 10.6 se muestran los valores corregidos de los de la figura 10.5. Una

manera para enmendar este tipo de errores es cambiar el valor más bajo desplegado, de tal

manera que, como en el ejemplo, si no se computan los valores bajo los 120 Hz el error no

se produce.

De la misma manera, si una señal tiene un pitch sobre los 500 Hz y hemos fijado los

parámetros en un máximo de 300 Hz, también tendremos error. Por ejemplo, compárese el

resultado hacia el final de la emisión en las dos imágenes de la figura 10.9:


A B

b1
a

a1

Figura 10.9. Resultados del análisis automático con dos gamas de Hz

diferentes. Aunque los dos gráficos muestran desde 0 Hz a 700 Hz,

en A el cómputo se realizó entre los 75 Hz y los 500 Hz; en tanto que

en B, entre los 150 Hz y los 700 Hz. Los círculos indican puntos en

los que hay diferencia en los resultados.

Las imágenes de la figura 10.9 corresponden a dos cómputos del pitch. En la

imagen A el cómputo de valores se ha realizado entre 75 Hz y 500 Hz; en la imagen B, en

cambio, entre 150 Hz y 700 Hz. Por esta razón, en la primera aparece un error en los

valores de pitch en el círculo b: al establecer que la gama de Hz hasta los 500 Hz, los

valores superiores no se detectan y el programa los sitúa en valores más bajos,

habitualmente, una octava; en cambio, en la imagen B, en el círculo b1 se observa la

continuidad ascendente de la frecuencia. Es más, si hacemos mentalmente el ejercicio de

elevar los valores que en A están después del quiebre, lo que tendremos es un resultado

como el de la imagen B.

En la imagen A hay otro error: el del círculo a. En la señal, hay un ruido que no

corresponde a parte alguna de la emisión de la informante; es una señal de otra naturaleza.

Sin embargo, el programa detecta una periodicidad y la marca como pitch. Al cambiar el

rango y especificar 150 Hz como mínimo, ese valor desaparece (círculo a1, en la imagen B)

ya que los valores detectados estaban alrededor de los 78 Hz.


Una vez corregidos estos dos errores, se observan solo mínimas diferencias entre los

dos trazos de f0 que, para efectos de la mayoría de los análisis, se consideran irrelevantes.

El objeto PITCH

Dada la naturaleza del programa PRAAT, para editar con más detalles y con más

posibilidades, y para automatizar las mediciones, lo mejor es crear un objeto de tipo pitch.

Esto se hace de la siguiente manera: selecciona el objeto de tipo Sound en el panel de

objetos. Hay una zona de botones bajo el título ANALYSE con un botón PERIODICITY-; la

primera de las opciones que se despliegan con él es TO PITCH...; al activarla aparece un

formulario simple con tres campos: Time step(s); Pitch floor (Hz) y Pitch ceiling (Hz). La

primera opción se establece automáticamente, por lo mismo no hay que hacer nada en ese

campo; los otros dos sí son relevantes para establecer el valor más alto y el más bajo que

queremos computar, de manera similar a lo que hacíamos en el menú PITCH SETTING… de la

ventana de edición. Una vez que das el OK a ese formulario aparece un nuevo elemento en

el panel de objetos precedido de “Pitch”, que indica el tipo de objeto del que se trata.

Ahora bien, cuando seleccionas el objeto Pitch, el menú dinámico de botones ofrece

algunas interesantes posibilidades que revisaremos ahora; la opción EDIT la revisaremos

con detención un poco más adelante.

PLAY. Con esta opción puedes escuchar el pitch detectado como simples

pulsos glóticos (PULSES) o de manera más parecida al tono laríngeo (HUM).

DRAW. Esta es la opción que permite hacer gráficos de un objeto en el panel

PRAAT PICTURE.

QUERY. Permite obtener valores del pitch. Esta opción es importante para
automatizar tareas, como veremos más adelante.

En la zona Synthesize, hay tres opciones: con cada una de ellas se crea un

nuevo objeto de tipo Sound en el panel de objetos.

TO SOUND (PULSES). Crea un objeto de tipo sound con los valores de

la frecuencia fundamental como pulsos.

TO SOUND (HUM). Igual que la anterior, pero el objeto creado suena

más parecido a un tono laríngeo humano.

TO SOUND (SINE)…. La misma operación de las anteriores, pero el

resultado en una sinusoide.

En los botones agrupados bajo el título CONVERT, tenemos varias opciones útiles

para la corrección del pitch detectado.

KILL OCTAVE JUMPS. Esta opción corrige automáticamente los saltos bruscos

de octava (o sea, del doble de Hz entre dos puntos). Para usar

adecuadamente esta opción, hay que saber cuál es el resultado deseable.

INTERPOLATE. Completa los puntos sin valores de pitch con valores

plausibles, dejando una curva continua.

SMOOTH…. Suaviza la curva obtenida promediando los puntos contiguos. Si

la curva sobre la que aplica esta función está editada y corregida, el

resultado de esta operación será una curva muy parecida a la original pero

más estilizada. Los valores no coincidirán punto por punto con los de la

original, pero al oído serán indistinguibles.


Con el objeto pitch en el panel de objetos, el botón EDIT abre una ventana de

edición que tiene la apariencia que muestra la figura 10.10.

Figura 10.10. Ventana de edición del objeto pitch. Los números están

explicados en el texto.

En esta ventana, la línea de color está compuesta por una serie de puntos (1) que

corresponden a los valores del pitch detectados automáticamente por el programa. Los

números que aparecen dispersos por la ventana (2) son otros posibles valores frecuenciales

“candidatos” al pitch. Los segmentos en azul (3) en la franja UNV corresponden a

segmentos aperiódicos. El valor de la frecuencia de un punto detectado como pitch (5)

aparece al lado izquierdo de esta ventana, cuando el cursor está situado sobre él.

Al marcar en las bandas inferiores (al igual que en la ventana de edición de un

objeto Sound, se escucha la señal, pero con este objeto no escuchas la señal sino solo su

frecuencia fundamental. Por cierto, como en toda ventana de edición en PRAAT, puedes

escuchar la señal completa o una porción de ella (tal como se explicó a propósito de la

figura 5.5).

Si marcas sobre uno de los candidatos señalados con el número 2 en la figura 10.10,
cambiarás el valor del pitch y el “candidato” se transformará en un punto de color, un

“elegido”.

Si marcas con el cursor directamente en la franja UNV (número 3 en la figura 10.10)

en una parte blanca (no azul), cambiará a azul y, correspondientemente, desaparecerá el

valor de pitch que el programa había detectado, o que tú marcaste.

Tanto si seleccionas una parte de la señal como si tienes marcado un punto de la

misma, puedes usar las opciones del menú SELECTION que te permiten elevar la frecuencia

de la selección en una octava (OCTAVE UP) o en una quinta (FIFTH UP) , es decir, 12 st o 7 st

respectivamente; bajar la frecuencia en una octava (OCTAVE DOWN) o en una quinta (FIFTH

DOWN) o bien convertir el segmento en sordo (Unvoice).

En el menú EDIT de esta ventana puedes cambiar el valor de la frecuencia máxima

que se muestra con la opción CHANGE CEILING...; al activarla aparece un formulario simple

en el que ingresas el valor de la frecuencia máxima que necesitas desplegar.

La opción PATH FINDER... vuelve a los valores de pitch anteriores a las

modificaciones que puedas haber hecho en una sesión de trabajo.

Manipulación del pitch

Si tienes un objeto de tipo Sound en el panel de objetos, en el menú de botones hay

una zona llamada MANIPULATE con un botón TO MANIPULATION...; al activarlo aparece un

formulario en el que hay que especificar los valores mínimos y máximos del pitch; los

valores por omisión suelen ser adecuados; es recomendable no cambiar el campo TIME STEP

(S).

Una vez dado el OK a este formulario aparecerá un nuevo objeto en el panel de


objetos. Este nuevo objeto está precedido por la palabra “Manipulation”, que indica el tipo

de objeto del que se trata.

Con este objeto seleccionado, puedes usar el botón EDIT y aparecerá una pantalla

como la que muestra la figura 10.11.

Figura 10.11. Ventana de manipulación de una señal. Los números

están explicados en el texto.

En esta ventana tienes tres secciones: arriba, (1) el oscilograma; (2) al centro, el

pitch y, (3) abajo, una ventana de manipulación del tiempo.

En la sección de manipulación del pitch tienes una curva de f0 formada por puntos

verdes (4) que puedes mover a voluntad. Marcas uno y lo arrastras con el ratón. El

desplazamiento de uno solo de los puntos no tiene tanto efecto perceptivo como cuando se

desplazan varios de ellos. En este sentido, es importante determinar cuál es la estrategia

para el desplazamiento de los puntos. En el menú PITCH, tienes la opción SET PITCH

DRAGGING STRATEGY… con la que puedes determinar que los desplazamientos sean solo

verticales, solo horizontales o una combinación de ambos. Prueba con ONLY VERTICAL, para

comenzar; de esta manera podrás cambiar la frecuencia de varios puntos sin cambiar su

posición temporal.
Haz lo siguiente con una señal de unos dos o tres segundo de duración:

C. Selecciona toda la señal.

D. Borra todos los puntos del pitch (menú superior, PITCH > REMOVE PITCH

POINTS).

E. En la ventana de manipulación del pitch, pon el cursor al inicio de la

señal a una frecuencia más o menos media respecto de la voz del

hablante.

F. Agrega en ese punto un punto de pitch (PITCH > ADD PITCH POINT AT

CURSOR).

G. Repite esta operación en el punto final de la señal más o menos a la

misma altura.

En este momento, tienes la emisión con entonación monótona (plana). Puedes

escucharla gracias a un tipo particular de síntesis que permite variar la frecuencia

fundamental sin variar nada más.

H. Sitúa el primer punto más arriba de tal manera que la melodía sea

constantemente descendente.

Estos pasos aparecen ejemplificados en las distintas imágenes de la figura 10.12.


Figura 10.12. Ejemplificación de los pasos en una actividad de

manipulación del pitch. La secuencia de imágenes se corresponde con

lo enunciado inmediatamente antes.

Con esto ya tienes una idea de lo que puedes hacer con esta función. Por supuesto,

puedes mover cada punto de pitch a voluntad; puedes agregar puntos de pitch en cualquier

parte de la emisión y moverlos a tu criterio.

Con estas herramientas tenemos las posibilidad de crear manualmente una versión

estilizada de la curva de frecuencia fundamental que no toma en cuenta las variaciones

microprosódicas, observables en gris en esta pantalla.

En el menú PITCH, encuentras las opciones SHIFT PITCH FREQUENCY… y MULTIPLY

PITCH FREQUENCY…; con la primera, tienes que especificar con cuántos Hz quieres hacer

variar ese punto o esa selección. Con la segunda, proporcionas un factor para modificar la

señal; así, por ejemplo, al multiplicar por 2, las frecuencia se duplicará y si multiplicamos,

por ejemplo, por 0.5, el resultado será la mitad de la frecuencia original.

Además de estas opciones, en el menú PITCH puedes también establecer la unidad


de medida del pitch y la gama de Hz o de st que tú elijas. También tienes la opción de hacer

estilizaciones automáticas usando el umbral de 2 st como criterio o bien cambiando ese

umbral a voluntad. Como todo objeto de tipo Manipulation, puedes modificar esos valores

que el programa te ofrece para obtener la curva que satisfaga mejor tus expectativas como

investigador.

Un sonido manipulado de esta manera se puede convertir en un nuevo objeto Sound

mediante el comando Publish resynthesis.

Automatización de resultados

El siguiente script proporciona, en un archivo de texto, las etiquetas y los valores

correspondientes en Hz que hay en un estrato puntual de un TextGrid. Para que funcione, es

necesario que tengas los tres objetos en el panel de objetos: el de sonido, el TextGrid y el

Pitch. El resultado es una lista de etiquetas, el tiempo en el que está situada y el valor de la

frecuencia fundamental correspondiente.

clearinfo

archivo$ = selected$("Sound")

pitch$ = selected$("Pitch")

textgrid$ = selected$("TextGrid")

form Estrato

natural Estrato 1

endform
# tf = estrato

select TextGrid 'textgrid$'

puntos = Get number of points... estrato

select Sound 'archivo$'

select TextGrid 'textgrid$'

tnf$ = Get tier name... 'estrato'

printline F0 values for file 'archivo$'

printline

printline secs.'tab$'Hz

for i from 1 to puntos

select TextGrid 'textgrid$'

t = Get time of point... 'estrato' 'i'

etiqueta$ = Get label of point... 1 'i'

select Pitch 'pitch$'

f0 = Get value at time... 't' Hertz Linear

printline 'etiqueta$''tab$''t:2''tab$''f0:1'

endfor
Texto de script 10.1. Este script automatiza la obtención de valores de

f0 en una señal.

Actividades

• Averigua la diferencia entre lenguas tonales y lenguas entonativas.

• Infórmate acerca de la discusión teórica acerca de la función de la frecuencia

fundamental en la producción y percepción del acento.

Graba una emisión afirmativa breve y haz los siguientes ejercicios:

• Establece cuál es la gama de Hz en que se mueve el hablante (valores máximos y

mínimos).

• Cambia la emisión para que quede con un f0 plano (toda la emisión con el mismo

valor).

• Parte de la emisión original y modifica los valores de la parte final del enunciado

para que tenga forma tonal interrogativa. Confirma con algunos informantes que la

emisión se perciba efectivamente como interrogativa.

• Cambia todos los valores de la emisión original de tal manera que dé la impresión

de que es otro el sexo del informante. Si es una voz femenina, baja todas las

frecuencias hasta que dé la sensación de que es una voz masculina.


11. GRÁFICOS

En este capítulo aprenderás a hacer ilustraciones para tus trabajos de

investigación fonética.

¿Cuál es el sentido de poner gráficos en un trabajo de investigación? ¿Cuáles son las

mejores maneras de hacerlos? ¿Qué cualidades debe tener una imagen según vaya a ser

vista en pantalla o vaya a ser impresa en papel?

¿Para qué ilustrar un trabajo de investigación?

Los gráficos en trabajos de investigación fonética cumplen varias funciones. Por lo general,

dan una información acerca de las cualidades del sonido que son muy interesantes para el

lector especializado; además suelen ser complementos importantes para comprender la

metodología de análisis y, evidentemente, para presentar resultados.

En este capítulo, solo se expondrán las características de los gráficos que son

específicos de la disciplina; por lo mismo, se dejan de lado aquellos que se construyen a

partir de planillas electrónicas como los gráficos de torta, histogramas, etc. Sí expondremos

cómo hacer imágenes que presenten gráficos habituales de representación del sonido:

espectros, espectrogramas y las cartas de formantes.

Básicamente expondremos dos métodos: la copia de pantalla, procedimiento válido

para cualquier programa y el módulo de gráficos de PRAAT. Para complementar esta

información, es conveniente que el usuario tenga manejo de algún programa de tratamiento

de imágenes, para poder intervenir, ajustar, redimensionar, cambiar la resolución, etc.


11.1. Copias de pantallas

Este procedimiento se puede usar con cualquier programa y consiste en hacer una

captura de pantalla y luego insertarla en un documento de texto o en una presentación. En

todos los computadores hay una opción para imprimir la pantalla en un archivo de imagen.

Alternativamente, se puede imprimir una selección de la pantalla. Este procedimiento ha

sido usado en este mismo manual en varias ocasiones para presentar el funcionamiento de

algún programa. Las imágenes que muestran interfaz de algún programa y que aparecen

con alguna flecha, números o círculos para destacar algo, han sido hechas a partir de

fotografías de pantallas que han sido intervenidas en un editor de imágenes.

En la figura 11.1 se muestra una pantalla de WAVESURFER y el resultado posterior a

la intervención.

Figura 11.1. Fotografía de una sección de la pantalla con el programa

WAVESURFER y la misma imagen intervenida con texto y flechas.


Por cierto, con el gráfico intervenido, las explicaciones serán mucho más

comprensibles pues ahora podemos aludir a los puntos del pitch, al formante tal o cual, a la

primera vocal señalada en el oscilograma, etc. Actualmente, los estudios de fonética por lo

general incluyen más de algún gráfico ya que funcionan como un complemento semiótico

primordial.

Con el procedimiento señalado y sabiendo seleccionar o bien en la fotografía de

pantalla o desde el editor de imágenes, puedes crear una ilustración con las indicaciones

que estimes conveniente. Conviene tener en cuenta quién es el lector del trabajo, de eso

depende el grado de precisión y la cantidad de información que se expondrá.

11.2. El módulo de gráficos de PRAAT

En el capítulo 4, en que se muestra cómo hacer las grabaciones, la imagen 4.2 muestra las

dos ventanas de inicio de PRAAT: el panel de objetos, PRAAT OBJECTS y el de gráficos,

PRAAT PICTURE. En esta sección mostraremos algunas de las cualidades y posibilidades de

esta ventana.

11.2.1. A partir de la ventana de edición.

Desde la ventana de edición, se pueden hacer gráficos de todos los que estén activos, pues

en cada menú aparece una opción que permite llevar al PRAAT PICTURE el oscilograma, el

tono, la intensidad, los formantes, el espectrograma. En el menú File aparece la opción

Draw visible sound; en Spectrum, Paint visible spectrogram, etc. El resultado de estas

operaciones es que se crea un dibujo con el objeto deseado.


La siguiente figura, hecha con el procedimiento de fotografiar la pantalla, muestra

los dos paneles principales y la ventana de edición. En el panel de gráficos aparece el

resultado de la opción seleccionada en la ventana de edición.

Figura 11.2. Panel de objetos, ventana de edición y panel gráfico de PRAAT. La opción

Extract visible spectrogram produce el resultado que se observa en el panel PRAAT

PICTURE.

En el panel de gráficos, la imagen se sitúa en el área seleccionada previamente. Las

opciones por defecto dan el resultado que se muestra en la figura anterior.

Siguiendo el mismo procedimiento, se pueden hacer gráficos de todos los análisis

posibles y el formulario que aparece en cada caso es sencillo, y puedes probar los efectos

que producen las opciones en cada uno de los campos. Especialmente interesante es lo que

ocurre cuando desactivas el campo Garnish.

A partir de la imagen en el PRAAT PICTURE, puedes exportar la imagen seleccionada

a partir del borde exterior resaltado en celeste en la interfaz del programa. La exportación la

puedes hacer a la memoria ram mediante la opción de File > Copy to clipboard y
pegándola directamente en un archivo de texto o bien guardando la imagen en alguno de los

formatos disponibles y luego importándola al archivo que quieras.

11.2.2. Desde el panel de objetos

En la ventana PRAAT PICTURE se distinguen, entre otros, los elementos que aparecen

marcados en la figura 11.3.

Figura 11.3. Algunos de los elementos de la ventana de gráficos de

PRAAT.

Este panel tiene un menú superior con las opciones File, Edit, Margins, World, Select, Pen,

Font y Help. Tiene también una zona para hacer los gráficos (1) que está graduada en

pulgadas, tanto en la parte superior como en el costado izquierdo (2). El área seleccionada

(3) aparece destacada con un marco (4) que tiene un borde interno (5) y otro externo (6).
En una mirada a las posibilidades de los menús, observamos que el menú File permite,

entre otras posibilidades, guardar el archivo o almacenarlo provisoriamente en la memoria

RAM. Con Edit podemos deshacer la última intervención o borrar todo. Margins permite

poner texto y marcas en los bordes de un área seleccionada. Con World podemos escribir

texto en el área seleccionada o trazar líneas y figuras. Con Select podemos determinar si el

mouse selecciona el borde interno (5) o el externo (6), cambiar el área seleccionada

tomando como referencia el borde interno o el externo. Con Pen se puede determinar el tipo

y ancho de línea, tamaño de flecha y el color que se usará para dibujar los elementos. Font

permite elegir fuente y tamaño. Al cambiar el tamaño de la fuente, se ve afectado el grosor

del marco de selección de área; de tal manera que es importante hacer una selección de

fuente y tamaño antes de comenzar con la creación de figuras.

Supongamos ahora que tienes en PRAAT OBJETCS, la siguiente lista de objetos: un Sound,

un TextGrid, un Pitch, un Spectrogram y un Formant, todos correspondientes al Sound, tal

como aparece en la figura 11.2. Al seleccionar uno de esos objeto, aparece un botón en el

menú dinámico que permite hacer el gráfico correspondiente. En lo que sigue, se

presentarán opciones de gráficos un tanto más sofisticadas que la de la figura 11.3.

En primer lugar, supondremos que quieres hacer un gráfico que despliegue el

oscilograma en la parte superior, luego el espectrograma y, bajo el espectrograma, la curva

de tono. Más o menos lo que se muestra en la figura 11.4.


Figura 11.4. Gráfico que muestra el oscilograma, el espectrograma y la

curva de frecuencia fundamental de una señal.

El procedimiento para crear la figura anterior es el siguiente. Primero, en PRAAT

PICTURE seleccionas con el cursor el área donde dibujarás el oscilograma, luego

seleccionas, en PRAAT OBJECTS, el objeto Sound y le das la orden Draw; al hacerlo,

desactivas la opción Garnish. Luego, dibujas el marco interior del oscilogramama con la

opción Margins > Draw inner box. En seguida, seleccionas con el cursor el área

inmediatamente inferior y repites los pasos, pero esta vez seleccionas el objeto

Spectrogram. Seleccionas otra área y haces el dibujo del objeto Pitch. Finalmente,

seleccionas el área de la figura completa (los tres gráficos) y en el menú Select eliges la

opción Select outer viewport y completas los campos con los valores de los bordes

exteriores del recuadro según las medidas que el panel PRAAT PICTURE muestra (en rojo) en

el borde superior y en el izquierdo. El resultado debe ser la selección de la figura sin


márgenes. Eso lo llevas al clipboard y luego al programa donde lo quieras situar.

Vamos a suponer ahora que quieres agregar marcas de tiempo cada ciertas fracciones de

segundos para que el lector tenga más información. Las marcas las pondrás en la parte

inferior del gráfico y además pondrás unas guías en cada tiempo marcado para mejor

comprensión de la figura. El resultado debe ser algo como lo que se presenta en la figura

11.5.

0 0.4 0.8 1.2 1.6 2 2.4 2.8 3.2

Figura 11.5. La imagen de la figura 11.3 con indicaciones temporales

cada cierto intervalo.

Para hacer la figura 11.5, se siguieron todos los pasos dados para construir la figura

11.4 pero, antes de hacer la selección del área previa a la exportación de la figura, se eligió

del menú Margins la opción Marks bottom every... con cual aparece un formulario en el que
hay que completar Units y Distance, y seleccionar las posibilidades de escribir los números,

poner los ticks y hacer las guías. En el caso de la figura anterior, las opciones fueron: Units:

1 (la unidad de referencia en este caso es el segundo); en este caso, la distancia, 0.4 (de

segundo) da una distancia entre marcas que hace legible la información; un valor menor

pone las marcas muy cerca unas de otras.

Veamos otro ejemplo, solo con el oscilograma y la curva de frecuencia

fundamental. Esta vez, se pondrá texto en el eje temporal.

500
400
300
200
100
0
t o o

Figura 11.6. Las mismas imágenes anteriores pero con transcripción

fonética en la parte inferior.

Para hacer la figura 11.6, se han seguido los siguientes pasos son: en primer lugar,

se seleccionó el área para dibujar el oscilograma; se seleccionó el objeto Sound y fue dada

la orden Draw (desactivada la opción Garnish); luego se hizo el marco interior. Después, se

seleccionó el área inferior para dibujar la curva de f0. Se dio la orden Draw sin Garnish. Se

hizo el marco interior para la curva de f0 y fueron puestas las marcas a la derecha con la
opción Mark right every... El formulario se completó con Units 1, Distance 100 (si se

hubiera indicado una distancia mayor, las marcas habrían quedado más distanciadas) y se

optó por poner los ticks, los números y las guías horizontales. Las marcas en la parte

inferior señalan inicio y término de cada sonido. En este caso, se usaron los valores

obtenidos en la ventana de edición. Cada uno de esos valores fue usado con la opción One

mark bottom... y se escribió ese valor en el campo Position; se dio la instrucción de poner

los ticks, las guías verticales pero no los números. Se hizo la misma operación con los

cuatro puntos. Para poner los caracteres fonéticos, se obtuvo el punto medio de cada

sonido en la ventana de edición y ese valor se usó con el mismo comando anterior, One

mark bottom..., esta vez se desactivaron las guías, los ticks y los números, solo se escribió

en Position el tiempo medio del sonido obtenido en la ventana de edición y en el campo

Draw text se escribieron los símbolos correspondientes. En el menú Help de PRAAT hay

una detallada y completa descripción de cómo escribir símbolos y diacríticos. En el ejemplo

de la figura 11.6, se usaron las siguientes dos secuencias para las consonantes: t\Nv y

\dh\Tv.

Para almacenar esta imagen en el clipboard, es recomendable seleccionar el marco

exterior del área de dibujo de tal manera que el gráfico completo, incluyendo los números y

las letras, queden incluidos dentro de él. Recuérdese que para hacer esta selección el

usuario se debe guiar por los números que indican las pulgadas del panel (número 2 en la

figura 11.3).
5

3
2500
2

Figura 11.7. Espectrograma de una selección de la señal de la figura

anterior. Se incluye flecha y elipse para hacer indicaciones.

La figura 11.7 fue construida de la siguiente manera. En primer lugar, se hizo un

objeto aparte con un fragmento de una señal. Esta operación fue explicada en la sección

5.3. El objeto nuevo se editó y, desde la ventana de edición, se pintó el espectrograma (sin

Garnish) y se hizo el marco interior, como en todos los casos anteriores. Luego se puso la

indicación de 2500 (Hz) a la derecha de la imagen. El comando utilizado fue Margins >

One mark right... y en el formulario se indicó la posición y el texto correspondiente. Para

los números del lado izquierdo se usó el comando Margins > Mark left every... y en el

formulario se completó indicando que la unidad es 1000 y la distancia 1; de esta manera, el

programa pone una marca cada 1000 (Hz, en este caso). Si hubiésemos puesto como unidad

1 y la distancia 1000, las marcas estarían en las mismas posiciones pero los números

puestos corresponderían a valores en Hz y no en KHz. Luego se usó el comando World >

Text special para escribir "KHz". Para conseguir este resultado, se usó la posición

horizontal -0.03 pues se escribió un poco antes de que comience la señal y la posición

vertical fue especificada como 2500 dado que el programa está trabajando con una

gradación de 0 a 5000 pues esos son los Hz mostrados en el espectrograma; por lo mismo,
2500 en el eje vertical es el punto medio. Con la rotación de 90 grados y el texto "KHz",

alineación horizontal "left" y alineación vertical "half", el resultado es que se presenta en la

figura anterior. Además, se seleccionó un color y un grosor de trazo y de la punta de flecha

en el menú Pen para dibujar una flecha con World > Draw arrow... y una elipse con World

> Draw ellipse... En estos últimos dos elementos hay que considerar que cuando el

programa tiene un objeto como este, los valores de los ejes horizontales y verticales son los

que corresponden al objeto que se ha pintado; o sea, los números de las coordenadas

coinciden con los valores temporales y frecuenciales. Por esta razón, para hacer la flecha se

obtuvieron los valores en la ventana de edición: la flecha parte desde el punto que señala

los 0.39 segundos (horizontal) y 4000 Hz (vertical) hasta los 0.21 segundos y 1800 Hz.

Esto se indica en el formulario en los campos From x, From y, To x y To y.

Estas indicaciones sirven prácticamente para trabajar gráficos de todos los análisis

acústicos que se quiera presentar en un documento. La ventaja de trabajar en el módulo

gráfico de PRAAT es que las marcas se sitúan exactamente en el punto que queremos indicar

y el programa respeta los valores del objeto analizado. Además, los valores de los ejes se

pueden cambiar mediante el comando Margins > axes..., lo que es especialmente útil

cuando uno construye un gráfico sin un objeto de origen.


emisión

A B

1 2 3 4 5 1 2 3 4 5

0 3.462
Time (s)

Figura 11.8. Gráfico hecho en PRAAT que incluye oscilograma, curva

de frecuencia fundamental y TextGrid.

La figura 11.8 fue realizada de la siguiente manera: se seleccionó el área en PRAAT

PICTURE para dibujar el oscilograma; seleccionado el objeto Sound, se dio la orden Draw

sin Garnish; esta vez no se dibujó el marco interior. Luego se seleccionó el área para

disponer la curva de frecuencia fundamental, se seleccionó el objeto Pitch y se dio la orden

Draw, sin Garnish y tampoco se hizo el marco interior. Luego se seleccionó el área que

incluye el oscilograma y la curva de tono más una zona para disponer tres estratos del

TextGrid; se seleccionó el objeto TextGrid y se dio la orden Draw con Garnish. Para

finalizar, se seleccionó solo el área del oscilograma y se hizo el marco interior. Una figura

como esta es bastante útil para exponer cuestiones metodológicas o resultados; por cierto, el

contenido de los estratos es algo que el investigador determina.

Veremos ahora una manera de hacer cartas de formantes mediante el módulo de

gráficos de PRAAT. Esta no es la única forma, pero puede ser interesante para presentar

resultados.
Una manera de hacer rápidamente una carta de formantes es crear un objeto del tipo

Formant.

150 150

[ i ] [ u ]

[ e ]
[ o ]
F1 (Hz)

F1 (Hz)
[ a ]

800 800
3000 500 3000 500
F2 (Hz) F2 (Hz)

Figura 11.9. Carta de formantes (A) sin datos y (B) con valores

vocálicos.

La figura 11.9 B fue realizada siguiendo los siguientes pasos. En primer lugar, se

seleccionó un área interior de dibujo cuadrada. Luego se seleccionó en Pen el color blanco.

Se creo en seguida un FormantGrid (New > Tiers > FormantGrid...) a partir de las

opciones por defecto. De tal manera que apareció el objeto FormantGrid en el panel de

objetos. Este objeto se seleccionó y fue convertido en un objeto Formant (en la práctica,

cualquier objeto Formant habría servido para el presente propósito). Un objeto Formant se

puede dibujar de varias maneras a partir de la opción Draw: como trazos en el eje temporal

o bien se puede hacer una carta mediante la opción Scatter plot... prescindiendo del eje

temporal y tomando como coordenadas los valores en Hz de dos formantes. En el

formulario se establece por defecto el F1 en el eje vertical y el F2 en el horizontal y se

proponen unas gradaciones en Hz más o menos típicas. Este formulario se observa en la


figura 11.10.

Figura 11.10. Formulario para hacer carta de formantes con los valores

por defecto.

Para hacer la figura 11.9 B se cambiaron los rangos de ambos formantes en función

de los que se quería presentar. Nótese que tanto en el eje horizontal como vertical los

valores se exponen en orden decreciente (primero el valor alto y luego el valor bajo). En el

caso presente, al estar seleccionado el color blanco, se dibuja el marco y los valores de los

márgenes, pero las marcas dentro de la carta no se ven. Ahora aparecen en PRAAT PICTURE

los márgenes de una carta de formantes vacía, tal como se aprecia en la figura 11.9 A.

Luego se selecciona Pen > Black para restituir el color negro de las marcas y mediante el

menú World > Text se procede a escribir cada una de las marcas en los puntos que

corresponde. El formulario se completó considerando que la posición horizontal es

equivalente al formante 2 y la posición vertical corresponde al formante 1 y, por lo tanto,

hubo que completar esos campos con los valores formánticos correspondientes.

Con lo presentado aquí no se agotan las posibilidades gráficas de este módulo del

programa; pero al menos se han entregado los elementos suficientes para presentar
informes de investigación con gráficos de análisis acústicos que cumplan con los mínimos

requisitos de una entrega académica seria. Como en todos los demás casos, la práctica

constante y la prueba de alternativas son la mejor herramienta para perfeccionar el

aprendizaje.

11.3. Resolución de las imágenes

Para finalizar diremos que las imágenes digitales tienen una cierta resolución,

equivalente a la frecuencia de muestreo de los archivos de audio. Es una experiencia común

que en una cámara digital de fotografía, la capacidad de almacenamiento aumenta en la

medida en que la resolución disminuye; de la misma manera que un archivo de audio de

frecuencia de muestreo más alta es más pesado que uno de frecuencia más baja. Sin

embargo, de la misma manera que con los archivos de audio, muchas veces una resolución

alta no significa una ganancia perceptiva en cambio sí un gasto de espacio.

Una imagen que solo será vista en pantalla, ya sea para una presentación o para

poner en la web, requiere una resolución baja, de 72 dpi (o ppp); una que será impresa en

papel, por ejemplo, en un informe, necesita una resolución un poco más alta, de unos 150

dpi. Las resoluciones de valores más altos solo son necesarias para imprimir

profesionalmente, ya sea un libro o un artículo en revista. En estos casos, normalmente los

editores ponen condiciones a las imágenes.

Actividades
• Toma un objeto Sound, crea el objeto Formant y haz el gráfico de oscilograma y

espectrograma. Superpone en el espectrograma los formantes pero dibujados en

color blanco. Como en el ejemplo siguiente. Agrega marcas verticales cada mil Hz

y algunas marcas de tiempo.

5
4
3
2
1
0
0 0.2 0.4 0.6 0.8 1

Figura 11.11. Oscilograma, espectrograma y formantes superpuestos.

• Toma valores promedio de los formantes 1 y 2 de las vocales del español de alguna

investigación y haz la carta de formantes usando el procedimiento mostrado en este

capítulo.

• A partir de una señal breve, haz el TextGrid que incluya un estrato de puntual en el

que etiquetes las vocales. Crea el objeto Pitch correspondiente, edítalo según lo

expuesto en el capítulo 10 de este manual y examina los resultados de las distintas

opciones de gráficos que da la opción Draw cuando seleccionas el objeto Pitch y el

TextGrid juntos.

• Crea en el panel Praat Picture un rectángulo y especifica que el eje horizontal cubra

valores entre 0 y 1 (como si se tratara de una señal de 1 segundo de duración) y

para el eje vertical especifica valores entre 0 y 5000 (como si se tratara de valores
frecuenciales desplegados en un espectrograma). Dibuja líneas como si fueran

trazos esquemáticos de formantes vocálicos. Más o menos como el gráfico que se

presenta en la figura siguiente:

5000
4000
3000 i
e
2000 a
o
1000 u
0

Figura 11.12. Esquema de formantes vocálicos.

GLOSARIO

Este glosario es un conjunto de definiciones o descripciones de términos destacados en

negrita en el texto. No se trata de definiciones exhaustivas, sino de explicaciones breves y

funcionales a la lectura. Para información especializada, el lector deberá recurrir a

bibliografía específica.

ALGORITMO: En programación computacional, es un procedimiento que se realiza en un


número finito de pasos y que realiza una tarea específica.

ALIAS: En acústica, es el fenómeno que se produce cuando la digitalización de un sonido,

por efectos de la FRECUENCIA DE MUESTREO seleccionada, produce representaciones

de bajas frecuencias que no están en la señal original. Véase FILTRO ANTIALIASING.

ALIASING: Véase ALIAS.

ALMACENAMIENTO ANALÓGICO: Tipo de almacenamiento en algunos dispositivos, tales

como la cinta de casette, que representa de modo CONTINUO los valores temporales

y de AMPLITUD de la señal original.

ALMACENAMIENTO DIGITAL: Tipo de almacenamiento de información que realizan los

computadores basado en codificación binaria. Véase DISCONTINUO.

AMPLITUD DE UNA ONDA: Lo habitual en Fonética Acústica es significar la distancia del

movimiento de la partícula respecto del punto de reposo o 0 (cero). Algunas veces el

concepto se usa con el significado de 'distancia máxima'.

ANÁLISIS ESPECTRAL: En Fonética Acústica, es el análisis que se realiza en una VENTANA

DE ANÁLISIS en los componentes de la señal.

ANALÓGICO, ALMACENAMIENTO: Véase ALMACENAMIENTO ANALÓGICO.

APERIÓDICA, ONDA: Véase ONDA APERIÓDICA.

AUTOCORRELACIÓN, MÉTODO DE: Véase MÉTODO DE AUTOCORRELACIÓN.

BANDA ANCHA, ESPECTROGRAMA DE: Véase ESPECTROGRAMA DE BANDA ANCHA.

BANDA ESTRECHA, ESPECTROGRAMA DE: Véase ESPECTROGRAMA DE BANDA ESTRECHA.

BIT: Acrónimo de Binary digit. Es la unidad más pequeña de información en un sistema


computacional. Puede adoptar los valores 0 y 1.

CAVIDADES SUPRAGLÓTICAS: Desde el punto de vista articulatorio, son las zonas que están

por encima de la glotis y que actúan como resonadores.

CICLO DE UNA ONDa: En acústica, el movimiento completo de una partícula que comienza

en un punto de reposo, llega al de máxima AMPLITUD, vuelve al punto de reposo,

alcanza el punto de máxima AMPLITUD negativo y vuelve al punto de reposo.

COMPLEJA, ONDA: Véase ONDA COMPLEJA.

CONDENSADOR, MICRÓFONO DE: tipo de micrófono que, dada su arquitectura, permite

respuestas frecuenciales muy precisas. Este tipo de micrófono también requiere una

fuente de alimentación eléctrica y normalmente funciona con tarjetas de sonido

externas.

CONSENTIMIENTO INFORMADO: Documento firmado por el INFORMANTE en el que se declara

consciente de participar en una investigación y en el que autoriza al investigador

para registrar y estudiar su voz.

CONTINUO: Por oposición a DISCRETO, es la cualidad del tipo de almacenamiento que

representa sin saltos entre un punto y otro las variaciones de AMPLITUD de una señal

a través del tiempo.

CORPUS: Material de estudio; es este caso, material grabado y editado de tal manera que

contiene las muestras que permiten hacer una investigación.

DIGITAL, ALMACENAMIENTO: Véase ALMACENAMIENTO DIGITAL.

DIGITALIZAR: En Fonética Acústica, el proceso mediante el cual un sonido pasa a ser

almacenado en un computador.
DISCRETO: Por oposición a CONTINUO, es la cualidad de un tipo de almacenamiento que

representa de manera discontinua, con saltos entre un punto y otro, las variaciones

de AMPLITUD de una señal a través del tiempo.

DPI: (Dots per inch) Véase ppp.

DSP: (Digital Signal Processing) Véase PROCESAMIENTO DIGITAL DE SEÑALES.

ESPECTRO: Resultado de un ANÁLISIS ESPECTRAL. En el espectro acústico se representa la

amplitud y la frecuencia de los componentes de una onda. Los análisis espectrales

requieren de una VENTANA DE ANÁLISIS que puede ser larga o breve.

ESPECTROGRAMA: Representación gráfica del sonido hecha a partir de una sucesión de

ESPECTROS superpuestos de tal manera que se muestra de manera continua las

variaciones de frecuencias en el eje vertical y el tiempo en el eje horizontal. En este

gráfico la interpretación de la intensidad es más bien impresionista.

ESPECTROGRAMA DE BANDA ANCHA: ESPECTROGRAMA hecho en base a espectros de

VENTANA DE ANÁLISIS breve. Representa las frecuencias con poco detalle y, por lo

tanto, permite ver las principales concentraciones de energía de una señal pero no

los componentes ARMÓNICOS.

ESPECTROGRAMA DE BANDA ESTRECHA: ESPECTROGRAMA hecho en base a espectros de

VENTANA DE ANÁLISIS más bien larga. Permite observar los componentes

ARMÓNICOS de una señal.

FILTRO (1): En acústica, operación que elimina una banda de frecuencias.

FILTRO (2): Las resonancias de las cavidades supraglóticas que amplifican algunas

frecuencias del tono laríngeo, que se considera FUENTE.


FILTRO ANTIALIASING: FILTRO (1) que elimina los componentes por encima de la NYQUIST

FREQUENCY para evitar el efecto ALIASING. Véase ALIAS.

FORMANTE: Resonancia supraglotal. Son claramente visibles en los espectrogramas de

banda ancha. Se representa F1, F2, etc. y tienen uso fundamental en el análisis

acústico de las vocales.

FORMANTES VOCÁLICOS: Formantes que se aprecian en las emisiones vocálicas. Para

caracterizar las vocales del español son especialmente relevantes F1 y F2.

FORMATO DE MUESTREO: (Quantization) Cualidad en la representación digital de la

amplitud de la señal.

FRECUENCIA DE MUESTREO: (Sampling frequency, Sampling rate) Número de muestras que

se toma por segundo de una señal para su digitalización. Un valor típico en

investigaciones fonéticas es 22050. La llamada "calidad CD" es de 44.100.

FRECUENCIA DE UNA ONDA: Número de ciclos por segundo que posee una onda. La unidad

de medida es el Hz (hercio).

FRECUENCIA FUNDAMENTAL: Diferencia en Hz entre los componentes armónicos de una

señal. Habitualmente este número coincide con el componente de más baja

frecuencia. Se simboliza f0 y se correlaciona con el tono percibido o pitch.

FUENTE: En fonética, la fuente está dada por el tono laríngeo. Véase también FILTRO (2).

GNU: Licencia que protege la libre distribución y modificación de los programas

computacionales.

HABLA DE LABORATORIO: Muestras de habla obtenidas en condiciones experimentales.


HABLA ESPONTÁNEA: Muestras de habla natural.

HABLA SEMIESPONTÁNEA: Muestras de habla muy cercanas a lo natural, pero obtenidas en

condiciones experimentales.

INFORMANTE: Persona que voluntaria e informadamente participa en una investigación

sobre lenguaje.

INTENSIDAD: En Fonética Acústica, el efecto perceptivo de la AMPLITUD de la señal. Se

expresa en dB.

MÉTODO DE AUTOCORRELACIÓN: En análisis de la FRECUENCIA FUNDAMENTAL, es el

método que, mediante el desplazamiento de una VENTANA DE ANÁLISIS, establece

coincidencias altas en porciones de una señal para determinar si hay periodicidad y,

en caso de que la haya, el valor en HZ de la FRECUENCIA FUNDAMENTAL.

MICRÓFONO DE CONDENSADOR: Tipo de micrófono que dada su arquitectura permite

respuestas frecuenciales muy precisas. Este tipo de micrófono requiere de una

fuente de alimentación eléctrica y normalmente funciona con tarjetas de sonido

externas.

MICRÓFONO UNIDIRECCIONAL: Tipo de micrófono que registra mejor la señal situada frente

a él.

MODELOS COCLEARES: Representación de la respuesta diferenciadas de la cóclea a las

distintas frecuencias.

MUESTRA: En PROCESAMIENTO DIGITAL DE SEÑALES de audio, una muestra es un punto

temporal en el que se toma un valor de amplitud. Los archivos digitales de audio

tienen un número determinado de muestras por segundo. Véase FRECUENCIA DE


MUESTREO.

NYQUIST FREQUENCY: Es la máxima frecuencia que se puede registrar dada una frecuencia

de muestreo. Siempre es la mitad de la frecuencia de muestreo.

OBJETO: En PRAAT, un objeto es un conjunto temporal de datos, semejante a un archivo,

con el que se pueden realizar distintas operaciones computacionales. Existen objetos

de tipo Sound, Pitch, Formant, Intensity, y varios más. Los objetos no son archivos

porque no están almacenados en el disco; solo existen en la memoria operativa.

ONDA: Fluctuación de la presión en un medio, que se desplaza y que hace que las partículas

se acerquen y se alejen entre sí.

ONDA APERIÓDICA: Una ONDA cuyos componentes no tienen relación frecuencial constante

entre sí.

ONDA COMPLEJA: En Acústica, aquella onda que tiene más de un componente.

ONDA PERIÓDICA: En Acústica, aquella ONDA COMPLEJA cuyos componentes tienen relación

armónica entre sí.

ONDA SIMPLE: En Acústica, aquella ONDA que tiene un solo componente. Es equivalente a

sinusoide.

ONDA SONORA: ONDA que produce una sensación audible.

OSCILOGRAMA: Representación de las variaciones de AMPLITUD de una ONDA en el eje

temporal.

PERÍODO DE UNA ONDA: Duración de un ciclo. Se simboliza T.

PITCH: Véase TONO.


PPP: (Puntos por pulgada). Medida de nitidez de las imágenes digitales. Véase también DPI.

PROCESAMIENTO DIGITAL DE SEÑALES: Término genérico que se refiere a todo el

componente teórico y tecnológico que permite convertir señales en archivos legibles

por computador.

PROGRAMAS DE CONVERSIÓN TEXTO-HABLA: Tipo de programa computacional que, dado un

texto, produce la pronunciación correspondiente.

RELACIÓN SEÑAL-RUIDO: diferencia entre aquella parte de la onda que se considera

información y la otra, que se considera silencio o ruido ambiental.

RESPUESTA FRECUENCIAL: En dispositivos de grabación y de reproducción de sonido, es el

ámbito de frecuencias que el dispositivo registra o reproduce y el realce que le da a

algunas de esas frecuencias.

RUIDO: En Acústica, una ONDA APERIÓDICA.

SATURACIÓN: (Clipping). Efecto que se produce cuando el registro de una señal supera la

amplitud que el canal permite.

SCRIPT: En Computación, un script es una rutina diseñada por el usuario, en el entorno de

un programa computacional, para realizar una tarea de manera automática.

SEGMENTOS: En Fonética y en Fonología, esta expresión se refiere a las vocales y a las

consonantes de una lengua. Según sea el caso, se refiere a los fonemas o a las

variantes.

SÍNTESIS DE HABLA: En TECNOLOGÍAS DEL HABLA, aquella que tiene el objetivo de crear

archivos de audio que se interpretan como lenguaje verbal.


SINUSOIDE: Véase ONDA SIMPLE.

SISTEMAS DE RECONOCIMIENTO DE VOZ: En computación, aquellos sistemas que son capaces

de interpretar un archivo de audio en términos de la representación fonológica.

SONOGRAMA: En Fonética Acústica, fue nombre que recibió antiguamente el gráfico del

sonido equivalente al actual espectrograma.

SUBMUESTREAR: En procesamiento digital de señales de audio, reducir la FRECUENCIA DE

MUESTREO de una grabación. Véase MUESTRA.

SUPRASEGMENTOS: En Fonética esta expresión se refiere a los aspectos tales como melodía

de la voz, velocidad de habla, intensidad. En Fonología, son objetos

suprasegmentales el acento y la entonación.

TARJETA DE SONIDO: En computación, un componente que le permite al computador

registrar y reproducir de audio.

TECNOLOGÍAS DEL HABLA: Conjunto de recursos computacionales relacionados con el

lenguaje hablado, tales como el reconocimiento de voz y la conversión texto-habla.

TONO LARÍNGEO: Es el sonido producido por la acción de las cuerdas vocales tal como se

produce en la laringe (sin considerar el efecto de amplificación de frecuencias que

se produce en las cavidades supraglóticas).

TONO: (Pitch) Correlato perceptivo de la frecuencia fundamental. Véase también PITCH.

VELOCIDAD DE HABLA: Tasa a las que se produce la enunciación. Habitualmente mide en

sílabas por segundo.

VENTANA DE ANÁLISIS: Porción de tiempo en la que se realiza un ANÁLISIS ESPECTRAL o de


AUTOCORRELACIÓN para determinar la FRECUENCIA FUNDAMENTAL.

RESPUESTAS A LOS CUESTIONARIOS

Capítulo 2. Elementos necesarios

1. la alternativa B, pues tiene respuesta plana en las frecuencias que interesan en el estudio.

2. La alternativa D, pues abarca desde los 350 hasta los 7000 Hz.

3. La alternativa B, pues es plana; es decir, no realza ninguna frecuencia.

4. La alternativa A, pues tiene respuesta más alta en las frecuencias bajas.

Capítulo 3. Sonido digital y sonido analógico

1. Alternativa c), 8000 Hz que es la mitad de la frecuencia de muestreo.

2. En un ms hay veintidós muestras (22050/1000).

3.1. Alternativas D, E y F.

3.2. Alternativa D.

3.3. En estricto rigor, la alternativa F que tiene mayor número de muestras por segundo.

Capítulo 4. La grabación

1. El que tenga la frecuencia de muestreo más alta.


2. Se produce saturación del canal. Esas grabaciones son muy poco aprovechables desde el

punto de vista de la investigación fonética.

3. Si en una grabación, en los momentos de silencio del informantes, se observa entrada de

señal, eso significa que el habrá una mala relación señal-ruido pues el supuesto silencio

tendrá representación de amplitud en la señal registrada.

4. Porque una vez hecha la grabación solo se puede disminuir la frecuencia de muestreo, no

elevar. Por esta razón es fundamental d

Capítulo 7. Cómo hacer espectrogramas.

1. Alternativa C.

2. Habrá 661 muestras.

3. El ancho de banda en los espectrogramas depende del tamaño de la ventana de análisis.

4. Alternativa d. Las opciones "de banda estrecha" y "de ventana de 30 ms" son

equivalentes y permiten ver los componentes armónicos de una señal, por lo tanto, se puede

saber cuál es la frecuencia fundamental.

5. La alternativa B, que corresponde a un espectro de banda estrecha.

BIBLIOGRAFÍA MENCIONADA
Fernández Planas, Ana María. 2005. Así se habla: nociones fundamentales de fonética

general y española. Apuntes de catalán, gallego y euskara, Barcelona, Horsori.

Llisterri, Joaquím. 1991. Introducción a la fonética: el método experimental. Barcelona,

Anthropos.

Martínez Celdrán, Eugenio. 1989. Fonología general y española. Barcelona, Teide.

— .1991. Fonética experimental: Teoría y práctica. Madrid, Síntesis.

—. 1998. Análisis espectrográfico de los sonidos del habla. Barcelona, Ariel.

Martínez Celdrán, Eugenio y Ana María Fernández Planas. 2007. Manual de fonética

española. Articulaciones y sonidos del español, Barcelona, Ariel.

También podría gustarte