Manual para El Análisis Fonético Acústico Mediante Programas Especializado

Manual para el análisis fonético acústico
mediante programas especializados
Domingo Román Montes de Oca
Laboratorio de Fonética
Facultad de Letras, Universidad Católica de Chile
Santiago de Chile
2009
Prólogo
La obra que presentamos posee un carácter didáctico innegable, no sólo porque
posee prácticas y ejercicios muy recomendables en cada capítulo, sino especialmente por su
manera de explicar los entresijos de los programas que nos ofrece. Lo hace siempre con un
lenguaje cercano, sencillo, incluso ameno. La obra presenta en los primeros capítulos una
aproximación a los conceptos que se suelen utilizar en fonética acústica, que se explican de
forma muy clara; pero, sobre todo, el libro representa una ayuda muy eficaz en el manejo
de ciertos programas de análisis del habla. Domingo posee un conocimiento profundo de
algunos que se han convertido en herramientas básicas para el estudioso de la fonética
acústica; aunque explica el AUDACITY y el WAVESURFER, focaliza su explicación sobre
todo en el funcionamiento del programa PRAAT, que maneja con gran pericia. Se trata de un
potente instrumento que ofrece un gran abanico de posibilidades al investigador del habla,
pues se puede realizar todo tipo de gráficos con suma facilidad: oscilogramas,
espectrogramas, espectros, extracción del pitch y de la curva de intensidad, etc. Y, por
supuesto, ofrece todas las posibles mediciones de parámetros acústicos con absoluta
fiabilidad. Además, posee una gran calidad de imagen y sus datos son tan fidedignos que
este programa se ha convertido en una herramienta reconocida internacionalmente.
Hace tiempo, desde que Domingo estuvo trabajando en nuestro Laboratorio en
Barcelona, que utilizo el PRAAT y lo enseño a mis alumnos. Recuerdo que durante un curso
nos fuimos reuniendo, un día a la semana, algunos miembros del grupo de investigación del
Laboratorio. Se discutían varias cuestiones y se hacían varias cosas: una de ellas era atender
a las explicaciones que Domingo nos daba sobre el funcionamiento del PRAAT. También
servía para exponer nuestras dudas sobre sus posibilidades y su manejo, que Domingo
trataba de resolver, si no ese mismo día, a la semana siguiente. Aprendimos entonces
mucho. Pero ahora confieso que al leer este Manual, he seguido aprendiendo cosas nuevas.
He visto, por fin, cómo hacer los espectros que otros programas presentan de manera tan
fácil, cómo añadir líneas, flechas o elipses, etc. Todo esto es de suma utilidad para la
investigación y, sobre todo, para la publicación posterior. Me he ejercitado en una práctica
muy útil por el ahorro de trabajo que presenta; se trata de los scripts; es decir, las macros
que permiten agilizar el trabajo rutinario. En este libro se ofrecen varios muy útiles, como
muestra.
Sólo puedo subrayar hechos positivos en este libro. Lo aconsejo a todo aquel que
tenga necesidad de trabajar en fonética acústica. Lo recomiendo a los profesores de fonética
para que sus alumnos aprendan más y mejor. Y sugiero con toda energía su lectura y su
práctica a todos aquellos que ya utilizan el PRAAT, pero que lo hacen de manera burda. Es
muy desalentador ver en Congresos cómo alguien presenta imágenes de espectrogramas
totalmente negros, y por tanto ilegibles, para dilucidar una cuestión fonética. Hay que
decirles que lean sobre todo el capítulo 7 de este libro y cómo utilizar, en el “Spectrogram
setting”, el “Dynamic range”, por ejemplo.
Domingo Román es un verdadero especialista en la materia y tenemos que
agradecerle que haya puesto su conocimiento por escrito y al servicio de todos.
EUGENIO MARTÍNEZ CELDRÁN

INTRODUCCIÓN
¿Podemos fabricar voces artificiales que parezcan totalmente naturales? ¿Podrían esas
voces simular emociones? ¿Se puede identificar a un individuo por la voz, tal como se hace
por la huella dactilar? ¿Puede una máquina reconocer qué ha dicho una persona? ¿Puede
cantar un ordenador? ¿Puede una máquina ayudarnos a corregir la pronunciación de una
lengua que intentamos aprender? ¿Existe un detector de mentiras que funcione a partir de la
voz?
Estas preguntas nos sugieren que la Fonética está relacionada con áreas de la vida
que resultan muy familiares y también con otras que pertenecen al ámbito de las
posibilidades tecnológicas en proceso de desarrollo. Al ocuparse científicamente de los
sonidos de la comunicación lingüística de los seres humanos, se producen nexos evidentes
con múltiples necesidades que abarcan cuestiones biológicas, evolutivas, psicolingüísticas,
policiales, cibernéticas y, por cierto, las propiamente lingüísticas.
En este manual, te propongo un acercamiento a la dimensión acústica de la Fonética
de manera activa, ya que hoy están dadas las condiciones tecnológicas para hacerlo; así,
este manual se debe usar como una guía para aprender.
La Fonética Acústica ocupa una posición estratégica al estudiar el objeto que está
entre el hablante y el oyente. En efecto, a partir de la señal misma, deberíamos poder
reconstruir, parcialmente al menos, los detalles articulatorios, auditivos y perceptivos de las
emisiones verbales.
El desarrollo de las tecnologías de análisis le ha dado otra ventaja a la Fonética

Acústica. Para practicarla hoy día, se requiere un computador y un programa de análisis y,
eventualmente, un micrófono. Ordenadores y micrófonos ya los hay a precios relativamente
asequibles y muchos programas de extraordinaria utilidad son gratuitos; mientras que para
hacer Fonética Articulatoria los requerimientos suelen ser bastante más costosos. Además,
desde el punto de vista de las invasividad de las técnicas, la Fonética Acústica parece ser la
más amable para los informantes.
Los textos disponibles en español que explican conceptos de Fonética Acústica, en
su mayoría se concentran en las propiedades físicas y en las formas de representación del
sonido. El conocimiento de estos contenidos es imprescindible para desenvolverse en la
disciplina. Hay que saber qué es una onda sonora (simple, compleja, periódica y
aperiódica), qué es ciclo, período, frecuencia, amplitud, qué y cómo son los espectros y
los espectrogramas, qué es la frecuencia fundamental y qué son y para qué se usa el
análisis a partir de formantes.
Además de estos temas tradicionales en Fonética Acústica, hay otros, relacionados
con los anteriores, que no aparecen tratados en la bibliografía actual de referencia en
español. Son los que se derivan del procesamiento digital de la señal sonora: por ejemplo,
analógico vs. digital, muestra y frecuencia de muestreo, bit, Nyquist frequency, ventana
de análisis, aliasing, entre otros.
Entre los primeros sonogramas de los años cincuenta y el momento actual (2009,
para ser precisos), ha sucedido algo revolucionario: el advenimiento del sonido digital y
con él múltiples posibilidades para su análisis, almacenamiento y síntesis.
Este nuevo fenómeno ya es parte de nuestro entorno; piensa en la existencia del
disco compacto (y del DVD), el hecho de que los ordenadores puedan “hablar” (unos mejor
que otros), de que puedan “reconocer” algunas órdenes. Algunas tecnologías permiten que
un texto escrito pueda ser “leído” por una máquina y, la operación inversa, que una palabra
emitida por una persona pueda ser “escrita” automáticamente por el ordenador. Puedes
almacenar discos de música completos (y muchos) en formato MP3 y escucharlos mientras
haces deporte; puedes disfrutar de la radio a través de Internet, puedes intercambiar
archivos de música con equipos que se encuentran lejos… Todo esto es parte de la
revolución que significó el sonido digital.
La Fonética Acústica también se ha visto beneficiada por estas nuevas tecnologías.
Efectivamente, hoy están dadas las condiciones para hacer análisis y ejercicios con
programas diseñados especialmente para trabajar con el sonido digital. Pero no todo es
fácil. Practicar la disciplina a partir de los nuevos instrumentos tiene también interesantes
desafíos teóricos y técnicos.
Este manual universitario está pensado especialmente para colaborar en tu
aprendizaje a partir de estas nuevas tecnologías, mediante la exposición de algunos temas y
procedimientos que te permitirán obtener buenos resultados y facilitarte así un camino que
puede ser fascinante.
En este manual trabajaremos con algunos programas que cumplen con las siguientes
características:
• Tienen prestigio académico en su funcionamiento y en sus resultados.
• Se pueden usar sin tener que pagar licencias.
• Están en continuo mejoramiento gracias a las sugerencias de los usuarios.
• Tienen varios sistemas de ayuda en Internet.

• Funcionan en más de un sistema operativo.
Uno de los programas es un editor de audio y los otros están diseñados más bien
para el análisis acústico, aún cuando comparten muchísimas funciones. El principal editor
que mencionaremos es AUDACITY, proyecto original de Dominic Mazzoni desde 1999; se
puede obtener en http://audacity.sourceforge.net/. El programa de análisis acústico en el
que nos concentraremos es PRAAT (creado por Paul Boersma y David Weenink en el
Institute of Phonetic Sciences de la Universidad de Amsterdam, vigente desde 1992; se
puede obtener en el sitio www.praat.org). Este probablemente sea el estándar de los
próximos años. De tal modo que si en algún momento te das cuenta de que la Fonética es
una de tus pasiones vitales, entonces te recomiendo que pongas especial atención a este
programa. También mencionaremos otras herramientas interesantes y útiles, como por
ejemplo, WAVESURFER, de Kåre Sjölander y Jonas Beskow (2005), desarrollado en el
Centre for Speech Technology (CTT), KTH, Suecia que se puede obtener en
http://www.speech.kth.se/wavesurfer.
Para usar productivamente este manual, debes tener los siguientes conocimientos:
De Fonética necesitas conocer las nociones básicas de la disciplina. Como este
no es un manual de Fonética sin más, sino uno de manejo de programas para
análisis acústico, no se profundizará en los conceptos teóricos. En este
sentido, este manual debe entenderse como complementario de otros tales
como Eugenio Martínez Celdrán (1989, 1991, 1998), Ana María Fernández
Planas (2005), Eugenio Martínez y Ana María Fernández (2007),
especialmente el primer capítulo.
Se requieren también ciertas destrezas computacionales; debes conocer bien el

equipo en el que vas a trabajar en cuanto a su capacidad de almancenamiento
de datos y las posibilidades de conectarle un micrófono o algún dispositivo
externo para proporcionarle sonido. También debes saber cómo descargar en
tu equipo programas y archivos desde sitios de Internet.
Es importante conocer los elementos básicos del diseño experimental y del
procesamiento de los datos. Para esos temas, lo conveniente será revisar los
textos de Eugenio Martínez Celdrán (1991) y de Joaquím Llisterri (1991).
También debes saber cómo guardar archivos, crear carpetas y organizar la
información en directorios a los que puedas acudir fácilmente.
Es conveniente que tengas el hábito de hacer periódicamente copias de
seguridad de tus trabajos.
En cada capítulo, la información central está constituida por las técnicas de manejo de los
programas. Solo en los casos en que ha parecido imprescindible, he agregado información
teórica en función de una comprensión cabal de los contenidos. También encontrarás
actividades y cuestionarios para que puedas evaluar tu aprendizaje, y un glosario básico y
operacional de las palabras que aparecen en negritas, al final del libro.
El orden de los contenidos es el siguiente: en la primera parte aprenderás y ejercitarás las
técnicas necesarias para poder tener un material de audio listo para ser analizado, es decir,
un corpus. Esta parte incluye desde algunos conocimientos de requerimientos físicos hasta
información acerca de cómo editar las señales grabadas. En la segunda parte aprenderás las
técnicas básicas que sirven para realizar los análisis, desde el etiquetaje de las señales hasta
el análisis del tono fundamental. Se incluye en esta parte un capítulo acerca de cómo hacer
gráficos de los diferentes análisis.

La primera versión de este manual fue realizada durante el año 2006, mientras
estuve de becario en el Laboratori de Fonètica de la Universitat de Barcelona. El grupo
PRAAT en el Lab fue el motor de este trabajo. Su redacción continuó en Santiago de Chile
entre los años 2008 y 2009 gracias al apoyo de la Facultad de Letras de la Pontificia
Universidad Católica de Chile. En la medida en que más colegas opinaron acerca de él me
fui dando ánimo para convertirlo en un libro, consciente de que llena un vacío para nuestros
estudiantes, de los cuales algunos serán, literalmente, los fonetistas del siglo XXI.
Actividades
Consigue en Internet el texto de la licencia GNU. Léelo y discute acerca de la
importancia que pueden tener estos programas en el desarrollo de la
investigación científica.
Revisa la historia de los programas PRAAT y AUDACITY.
Visita la lista de discusión del programa PRAAT (en inglés), puedes acceder a
ella desde la página del programa. Lee alguna de las preguntas y su
respectiva respuesta.
Revisa algún artículo de una revista especializada en fonética y fíjate qué
programa de análisis acústico se ha usado para la investigación.
Averigua acerca de los distintos tipos de programas que existen dentro de la
categoría de software libre.

PRIMERA PARTE
Esta primera parte comienza con una revisión de los propósitos y las características
generales del quehacer de los fonetistas; luego se señalan cuáles son los elementos
imprescindibles para hacer investigación desde la perspectiva acústica de la disciplina;
posteriormente, se presentan algunas nociones básicas del DSP o procesamiento digital de
señales. En seguida, se revisan los pasos necesarios para hacer una grabación apta para el
análisis y finalmente encontrarás algunas instrucciones para editar la grabación de tal
manera que tengas el material listo para hacer los análisis que desees.
1. ¿QUÉ SIGNIFICA HACER FONÉTICA ACÚSTICA HOY DÍA?
El propósito de este capítulo es que puedas identificar las características
generales de la Fonética Acústica que se realiza hoy. Quiénes la hacen, qué
se investiga, cuáles son los procedimientos habituales, etc.
1.1. ¿Para qué se hace Fonética Acústica?
Esta pregunta es válida para todas las disciplinas y no es una pregunta trivial; es una
versión del “¿para qué sirve?” Aquí verás algunas respuestas, pero ten en cuenta que la
pregunta es difícil de contestar a cabalidad y que la lista de soluciones está abierta.
• Descripción de lenguas
La tarea de describir y, en lo posible, explicar la fonética (y la fonología) de un idioma
siempre está incompleta. En cada lengua (y en todas sus variantes) hay aspectos que no
están descritos todavía o que están en proceso de cambio. También hay descripciones ya
hechas que merecen una adecuada revisión. Por supuesto, también el punto de vista
acústico es uno de los enfoques útiles en estas actualizaciones y uno de los más recurrentes.
• Aplicaciones a nuevas tecnologías
Las nuevas tecnologías, en particular las llamadas tecnologías del habla, han aportado
potentes posibilidades de análisis a los fonetistas, y al mismo tiempo necesitan información
sobre los fenómenos fónicos de las distintas lenguas y sus variedades para que se puedan
implementar, por ejemplo, en programas de conversión texto-habla o en sistemas de
reconocimiento de voz, ya sean programas que identifiquen a un hablante o bien
programas que identifiquen lo que se ha dicho.

• Colaboración en el aprendizaje de segundas lenguas
Un campo atractivo de aplicación de la fonética acústica es la enseñanza de la
pronunciación de segundas lenguas. Si un estudiante tiene una representación visual de una
pronunciación modelo (por ejemplo, en un espectrograma) y cuenta con la representación
de la realización propia, acompañado de un instructor que le ayude a interpretar esas
señales, puede tener más antecedentes para conseguir una pronunciación adecuada al
modelo.
• Investigación en patologías del habla
Las necesidades en el área de las patologías del habla son, además de urgentes, múltiples y
variadas. Prácticamente en todas ellas existe la posibilidad de una participación productiva
de la Fonética Acústica. En parte, las mismas descripciones precisas del habla de los
pacientes son ya de alguna utilidad (indirecta para los pacientes, claro está); pero también
se pueden desarrollar técnicas de rehabilitación que incluyan elementos de la Fonética
Acústica.
• Aportaciones a las teorías fonéticas y fonológicas
Las teorías fonéticas y fonológicas usan datos empíricos para comprobar o para refutar sus
hipótesis. Por esta razón, se produce un diálogo epistémico interesante y creativo entre las
generalizaciones y las investigaciones sobre casos específicos. Muchas veces los estudios
fonéticos ponen a prueba ciertas afirmaciones fonológicas y, a la inversa, las afirmaciones
fonológicas son fuente de preguntas para los fonetistas.

1.2. ¿Quiénes hacen Fonética Acústica?
Al observar en las publicaciones quiénes hacen investigaciones en Fonética Acústica, se
constata que estamos en un terreno compartido. La tradición nos hace pensar que esta es un
área de los lingüistas, pero una revisión detenida nos muestra que hay colegas provenientes
de otros campos del conocimiento, principalmente: fonoaudiólogos, otorrinolaringólogos,
profesores de segundas lenguas, estudiosos de la literatura, psicólogos, ingenieros
acústicos, informáticos y forenses.
Esta lista, aunque no es exhaustiva, sirve para darnos cuenta de la pluralidad de
enfoques que existen. Evidentemente cada profesional realiza los estudios con propósitos
particulares; por ejemplo, un psicólogo puede estar interesado en cuestiones de percepción
de ciertos sonidos, en tanto que un fonoaudiólogo puede querer establecer las propiedades
típicas de una voz con determinada patología. Del mismo modo, un ingeniero se puede
interesar en conocer con qué parámetros se describe mejor una vocal para reproducirla
mediante un ordenador. Un forense puede estar muy interesado en saber cómo se puede
argumentar si dos muestras de voz corresponden o no a la misma persona para presentar ese
antecedente en un juicio.
Por nuestra parte, los lingüistas dedicados a la Fonética, tenemos un abanico muy
amplio de temas. Se investigan las propiedades de los segmentos (vocales y consonantes) y
de los suprasegmentos (cantidad, intensidad y altura tonal). Más allá de la Fonética misma,
hoy tienen creciente presencia los estudios en los que se relaciona la Fonética con
información de un nivel distinto del fónico (oracional, discursivo, pragmático). Así, por
ejemplo, es posible investigar cuáles son los valores de la frecuencia fundamental de una
afirmación y de una pregunta; se puede indagar la diferente velocidad de habla en la

narración y en la descripción; es posible averiguar cuáles son las condiciones fonéticas para
el cambio de turno en una conversación, etc.
Pero la Fonética no solo puede establecer nexos al interior de la Lingüística. Al
interesarse por problemas que también incumben a otras ciencias, se producen
investigaciones de carácter interdisciplinar, por ejemplo, si se estudian las propiedades
vocálicas de las emisiones de sujetos con patologías articulatorias. Idealmente, esta
modalidad de trabajo requiere la participación de investigadores provenientes de las
distintas disciplinas implicadas. Estos cruces exigen, obviamente, trabajo en equipo y son,
al mismo tiempo, experiencias muy enriquecedoras para todos. En teoría, las
interdisciplinas son muchísimas; tantas como áreas del saber se puedan relacionar en una
investigación específica. En este tipo de estudios, lo normal es que haya un problema en
torno al cual se defina una investigación y una de las ciencias implicadas funcione como la
principal y las demás colaboren con ella.
1.3. ¿Cómo se trabaja?
Según la orientación del estudio —sin considerar el aspecto articulatorio de la Fonética—,
una investigación fonética puede estar centrada en el análisis de la señal acústica, en el
procesamiento auditivo (simulado a partir de la señal acústica) o bien en la percepción. En
el primer caso, se hacen las mediciones en la señal tal como esta fue registrada por el
micrófono; en el segundo caso, los valores de esa señal se transforman de acuerdo con
modelos cocleares para simular el procesamiento auditivo y, en el último caso, una o varias
señales (naturales, modificadas o sintéticas) se someten a mediciones de identificación,
discriminación o correspondencia. De estas tres posibilidades, solo la primera es,

estrictamente hablando, Fonética Acústica.
Es necesario distinguir entre el trabajo de análisis y el que busca hacer síntesis de
habla. Para quienes se dedican al análisis, el objetivo es hacer investigación a partir de
muestras de habla emitida por personas reales. En cambio, los objetivos de quienes trabajan
en síntesis son diferentes: tratan de producir, a partir de procedimientos computacionales,
habla que parezca lo más natural posible. Por cierto, se trata de orientaciones
complementarias. Así, mientras un investigador se interesa en conocer las propiedades
acústicas que caracterizan mejor las vocales del español, hay un colega que está interesado
en conocer esos resultados para aplicarlos a la producción de sonidos por ordenador.
Cuando un fonetista desarrolla tareas de análisis, puede trabajar con habla de
laboratorio o con habla espontánea. Cada opción tiene sus pros y sus contras.
Evidentemente, en el habla de laboratorio se tiene mayor control de las variables que se
van a estudiar y, por lo mismo, la investigación puede ser muy precisa. El habla espontánea
(o, mejor, semiespontánea) permite registrar una variedad mayor de fenómenos, pero con
menos control ya que no podemos predecir con exactitud qué va a decir el informante.
Las señales obtenidas en laboratorio y en alguna medida las muestras de habla
semiespontánea requieren de algún grado de edición, es decir, de filtrado, o de recorte. Con
las señales editadas ya puede el investigador realizar su tarea analítica propiamente tal. Los
análisis más frecuentes se refieren a las mediciones temporales, de los formantes vocálicos
y de la frecuencia fundamental. Estos análisis y sus aplicaciones a los segmentos y a los
suprasegmentos son el tema principal de este libro.

1.4. ¿Tiene importancia que el sonido sea digital?
Antes de que se trabajara con sonido digital, cuando un fonetista usaba una máquina para
obtener una forma de representación del sonido, por ejemplo, un sonograma, tenía que
realizar una emisión más bien breve y el resultado era un gráfico impreso en un papel
especial. Hoy día la grabación se hace ante un micrófono conectado a un computador; el
filtrado de frecuencias se hace mediante operaciones matemáticas en el archivo de audio.
Otra diferencia no menor es que con los métodos actuales, la duración de la muestra
grabada puede ser muy larga y uno puede observar la señal en la pantalla y hacer
acercamientos progresivos al punto que desee investigar.
Vemos que hoy se usa una representación digital del sonido analógico.
Normalmente se trata de muy buenas representaciones, indistinguibles al oído, de las
originales, pero el hecho de que sean digitales impone especificidades al objeto y a las
formas de trabajar con él. Por esta razón, uno de los temas que en este manual se desarrolla
es el del procesamiento digital de la señal (o DSP), dado que el objeto con el que
trabajamos es una versión digitalizada del sonido y los instrumentos de análisis son,
básicamente, algoritmos computacionales.
Cuando se examinan las diferencias entre la Fonética Acústica hecha sobre muestras
analógicas y la practicada sobre sonidos digitales, se puede afirmar que ha tenido lugar una
verdadera revolución, al menos, en los instrumentos y metodologías, aunque con muchos
puntos de continuidad.
1.5. Fon... ética
Es importante mencionar que el científico, como todo profesional, tiene un comportamiento

que se debe regir por principios éticos. Algunos deben ser bastante obvios, como, por
ejemplo, respetar la autoría de la información y proceder con la mayor objetividad posible.
A esto hay que agregar que se debe poner en conocimiento de los lectores de nuestras
investigaciones la mayor cantidad de datos: el corpus en el que realizó el análisis y todo
aquello que permita verificar los datos presentados. La ciencia, lamentablemente, también
ha sido víctima de fraudes y la única manera de evitarlos es crear el hábito de declarar toda
la información de la que se dispone. Asimismo, se debe tener en cuenta que la ética rige
también la selección de los temas de investigación y la aplicación que se hace con una
disciplina.
Es también responsabilidad del investigador exponer adecuadamente a los
informantes tanto los propósitos de la investigación como el uso y difusión que se hará de
las muestras obtenidas. Es una práctica conveniente que toda persona grabada para una
investigación, firme un consentimiento informado en que declara saber que su voz será
utilizada para fines de investigación.
Actividades
• Consigue 10 abstracts de artículos de Fonética. Lee solo los abstracts y clasifícalos
en función del tipo de habla que se investiga (semiespontánea o de laboratorio) .
• Si conoces un laboratorio de fonética, descríbelo. Si no, visita virtualmente alguno.
• Indaga si el ordenador en el que trabajas tiene un sistema de voz, o sea, si puede
pronunciar un texto que tú escribas. Si lo tiene, hazlo funcionar y evalúa la calidad
del sistema. ¿Se nota que es una voz artificial? ¿Cómo se podría mejorar?
• Consigue un modelo de consentimiento informado y haz una propuesta de un texto

para que tus informantes lo firmen llegado el caso.
2. ELEMENTOS NECESARIOS
En este capítulo aprenderás cuáles son los requerimientos básicos para
poder comenzar una investigación en Fonética Acústica.
Para hacer investigación en Fonética Acústica, se requiere la información teórica que
explica qué se va a estudiar, un diseño experimental referido a cómo se hará el estudio, y
algunos dispositivos físicos y programas computacionales. Aquí veremos solamente las
condiciones mínimas de estos últimos requerimientos. Hay que tener en cuenta que estas
indicaciones no están pensadas para montar un laboratorio de acústica o para hacer un
estudio de grabación, sino que más bien se dirigen a un estudiante especialmente interesado
en la disciplina.
2.1. Equipo
Los elementos de esta categoría son, básicamente, un micrófono y un computador. El
computador es imprescindible. El micrófono es necesario solo en caso de que necesites
hacer personalmente las grabaciones; también se puede trabajar con grabaciones ya hechas
a las que tengas acceso.
Computador
Los requisitos de un computador para ser usado en tareas de fonética acústica son los
siguientes:
· Una tarjeta de sonido de calidad suficiente para grabar con fidelidad el
audio.
Entrada para audio o capacidad para soportar dispositivos externos a los que se
puedan conectar micrófonos.
Buena capacidad de almacenamiento. Los archivos de audio son bastante más
grandes que los archivos de texto, por lo que se requiere disponer de buena
parte del disco para almacenarlos. Una buena alternativa es que el equipo
tenga la opción de grabar en disco compacto o en DVD.
Velocidad de procesamiento. En general, las velocidades de procesamiento de
los computadores son suficientemente altas para el trabajo con audio. Debes
tener en cuenta que al trabajar con archivos grandes las operaciones toman
más tiempo.
Micrófono
Las grabaciones hechas con un micrófono relativamente bueno son incomparablemente
mejores que las que se pueden hacer con uno de los que habitualmente vienen incorporados
en el computador. Es imprescindible trabajar con uno que cumpla con las siguientes
condiciones, de lo contrario, las señales que se obtienen pueden ser inútiles desde el punto
de vista de la investigación:
Que recoja la señal que viene de la boca del informante y no el ruido ambiente u
otras voces que provienen de otras fuentes. Para esto un micrófono de tipo
unidireccional y dinámico es lo indicado.
Que tenga especificada la respuesta frecuencial. Es importante conocer al
menos cuál es la respuesta del micrófono a las distintas frecuencias. El ideal

es uno que recoja por igual las frecuencias entre los 50 Hz y los 10000 Hz.
Mientras más se acerque a una respuesta plana en esta gama, tanto mejor.
Como no siempre esto es posible, al menos conocer cuál es la respuesta ya
es un dato útil. Los micrófonos llamados “de condensador” tienen
respuestas frecuenciales más adecuadas todavía, pero su precio es mayor y
requieren de dispositivos complementarios.
La figura 2.1 muestra un gráfico (hipotético) de la respuesta frecuencial de un
micrófono.
Figura 2.1 Gráfico de respuesta frecuencial de un micrófono.
En este gráfico, la curva indica qué frecuencias (Hz) realza el micrófono. Los
lugares en que no hay marca, son Hz en los que no hay registro de señal. Por lo tanto, un
micrófono con esta respuesta de frecuencia registra los sonidos entre 200 Hz y 10000 Hz y
registra con mayor intensidad aquellos que están entre 800 Hz y 6000 Hz, con un máximo
alrededor de los 3000 Hz.
Por cierto, para registros de habla, se requiere un micrófono que responda entre 50
Hz y 10000 Hz. En el caso de la figura 2.1, habría problemas para registrar las frecuencias
más graves, por ejemplo, en voces masculinas, lo que podría ser una limitación en el
estudio de la melodía de la voz, tema que será tratado más adelante en este mismo manual.
Es fundamental probar el sistema de grabación (computador, micrófono y programa
computacional) antes de hacer los registros, hasta familiarizarse con él totalmente para
conocer sus potencialidades y limitaciones. Tienes que saber, por ejemplo, a qué distancia
conviene que se sitúe el informante de acuerdo con su volumen natural de voz.
2.2. Programas de análisis
Junto con el equipamiento “físico” (así se le suele llamar), son imprescindibles los
programas computacionales que permiten hacer los registros, las ediciones y los análisis.
En este manual presentamos, como se ha señalado, los que funcionan en distintos sistemas
operativos y que, al mismo tiempo, tienen probada confiabilidad.
Además de los programas directamente relacionados con el audio, hay otros que son
complementarios, como un editor de texto, una base de datos, una planilla electrónica, un
programa de tratamiento estadístico, un editor de imágenes y probablemente uno para
realizar presentaciones.
Los programas que interesan principalmente en este manual, son de dos tipos: los de
edición y los de análisis. Por cierto, muchas funciones se encuentran en ambos tipos y para
muchas tareas son equivalentes. En líneas generales, podemos decir que los programas de
análisis son mucho más específicos para las tareas de un fonetista; en tanto los editores
sirven para muchos propósitos, entre otros, por ejemplo, para aplicar “efectos especiales” a
archivos de música.
Editores de sonido
Básicamente un editor de sonido funciona como un editor de texto, pero con archivos de
audio. Estos programas, aunque están diseñados principalmente para editar música, pueden
ser muy útiles para el trabajo con muestras de habla. Las funciones más importantes, para
un investigador en fonética, de los editores de sonido son las siguientes:
• Grabación. Hacer registros a partir de un micrófono o de algún otro dispositivo
conectado. Esas señales se pueden guardar en el disco con distintos formatos.
• Creación. En un editor se pueden crear tonos, silencios y ruidos, además se
pueden sumar señales.
• Edición. En una ventana se pueden cortar y pegar fragmentos seleccionados de
la señal; también se pueden etiquetar esos segmentos.
• Manipulación. Un fragmento o una señal completa puede modificarse de varias
maneras: se le puede cambiar la velocidad (rápida o lenta) o el tono (grave o
agudo). También se puede amplificar, reducir gradualmente la intensidad de los
extremos de una selección y eliminar ruido.
Analizadores acústicos
Las funciones de un programa de análisis acústico son muchísimas como para presentar una
lista exhaustiva, pero podemos señalar algunas como ejemplos:
• Grabación: en la mayoría, se puede grabar voz directamente.

• Creación: se pueden crear tonos, ruidos y espacios de silencio.
• Edición: en estos programas existen funciones de edición como cortar, pegar,
etiquetar fragmentos, etc.
• Representación del sonido: además del oscilograma, se pueden crear
espectrogramas de distinto tipo y otros gráficos.
• Manipulación: varios programas permiten modificar una señal en alguna de sus
cualidades (tono, duración, intensidad o timbre).
• Análisis: hay ciertos análisis que se usan preferentemente en el estudio del
habla: análisis espectral, de formantes, del pitch, de intensidad, y de cualidad
de la voz, entre otros. Normalmente, en estos programas hay buena
disponibilidad de estos procedimientos.
• Gráficos: un buen analizador acústico suele facilitar la tarea del investigador con
un módulo de gráficos que permita presentar adecuadamente los ejemplos sin
tener que recurrir al procedimiento de “fotografiar la pantalla” para obtener
imágenes del programa.
• Obtención de datos: en algunos casos existen procedimientos para que el
programa proporcione los datos numéricos en un archivo de texto, de donde los
puedes copiar y pegar en una planilla electrónica, en una base de datos o en un
archivo de texto (sin rescribirlos, claro está) o bien con un módulo para análisis
estadístico dentro del mismo programa.
Como ya se ha mencionado, en este manual se muestra cómo hacer Fonética usando
programas que resultan altamente funcionales y que cumplen con las mejores condiciones
de las que se han señalado, tales como AUDACITY, PRAAT y WAVESURFER.
Actividades
• Consigue el nombre y la descripción de la tarjeta de sonido del computador en el
que trabajas. Averigua si permite grabar archivos de sonido de buena calidad.
• Averigua qué características acústicas tiene una cabina insonorizada. Si tienes
acceso a una, ingresa y observa lo que sucede con el ruido exterior.
• Averigua cuáles son las marcas de micrófonos más prestigiosas.
• Revisa, en algún artículo de fonética publicado en una revista de prestigio
internacional, una investigación en Fonética Acústica que explicite qué
micrófono se usó para hacer las grabaciones. Por tu cuenta, averigua la respuesta
frecuencial de ese dispositivo y evalúa si era o no una buena opción para ese
estudio.
Cuestionario
La figura 2.2. presenta varias respuestas frecuenciales (hipotéticas) de diferentes
micrófonos.
400 5000 300 6000 300 6000
A B C
D E F
350 7000 300 5100 400 5000
Figura 2.2. Respuestas frecuenciales (hipotéticas) de distintos micrófonos. Debes suponer
que el 0 dB se sitúa al centro del eje vertical. El eje horizontal indica las frecuencias en Hz
y se señala en cada caso donde comienza y donde termina la respuesta frecuencial.
Necesitas estudiar ciertos aspectos del habla cuyas frecuencias están entre los
400 Hz y los 5000 Hz. Elige la mejor respuesta frecuencial de un micrófono
para este propósito entre las que se presentan en la figura 2.2.
¿Cuál de esas respuestas frecuenciales es más amplia?
¿Cuál de estas respuestas es la más "realista"?
¿Cuál de estas respuestas enfatizará más los componentes graves de la señal?

3. SONIDO DIGITAL Y SONIDO ANALÓGICO
En este capítulo aprenderás las nociones básicas respecto del sonido digital
y que se relacionan a su vez con la investigación en Fonética Acústica.
3.1. LA SEÑAL CONTINUA
Una onda sonora se describe como una fluctuación de presión que se propaga en un medio
elástico (como, por ejemplo, el aire), lo que les permite a las moléculas acercarse y alejarse.
Para hacer una representación de este movimiento, se ha optado por disponer la dimensión
temporal en la abscisa y, en la ordenada, las variaciones que corresponden a la amplitud.
Teóricamente, en cada uno de estos ejes, entre un punto y otro hay infinitos valores.
Lo anterior implica que la señal es continua en términos de valores, o sea, no hay
saltos o quiebres entre un punto y otro. A este tipo de señales se las denomina “analógicas”
(por oposición a “digitales”) o “continuas” (en oposición a “discretas”). Imagina ahora que
la figura 3.1 representa una onda periódica simple analógica.

Figura 3.1. Simulación de un tono puro analógico. La señal aquí
representada tiene infinitas variaciones entre el inicio y el final, tanto
en el eje temporal (horizontal) como en el de la amplitud (vertical).
Los sonidos que escuchamos en la naturaleza, incluida por supuesto la voz humana,
no son habitualmente tonos puros, como el de la figura 3.1; tienen otras características que
ya estudiaremos, pero sí son analógicos (o, lo que es igual, continuos). Por lo mismo, si se
representan gráficamente esas variaciones de amplitud de movimientos en el tiempo, se
debe hacer con un trazo continuo.
3.2. DIGITALIZACIÓN
Cualquier sonido analógico se puede digitalizar para que quede convertido en un
archivo que pueda ser leído por un ordenador. Al hacerlo, transformamos el sonido
analógico en sonido digital, o, lo que es lo mismo, la señal continua pasa a ser discreta. En
otras palabras, la representación de trazo continuo es sustituida por una de trazo
discontinuo; lo que antes tenía entre un punto y otro un número infinito de puntos, ahora
pasa a tener un número determinado de valores.
Al digitalizar una señal continua, se crea una representación numérica de la señal
original. Para ello se debe establecer cuántas muestras (o valores) por segundo se toman en
el eje temporal y con qué grado de precisión se establecen las variaciones de amplitud.
En la figura 3.2 se muestra la misma señal de la figura anterior, con una trama
superpuesta de valores discretos (no continuos) en ambos ejes para proceder a su
digitalización.
Figura 3.2. La imagen de la onda de la figura 3.1, con un tramado que
permitirá traducir los valores continuos en discretos.
Para tener una representación digital de la onda, debemos considerar cada punto
más cercano a la señal original en que se cruzan las líneas horizontales con las verticales.
En otras palabras, se procede a convertir a valores discretos la señal continua. En el eje
horizontal se considera el centro como un valor cero (referencial); a partir de él se ordenan
valores positivos (sobre el 0) y negativos (bajo el 0). En la figura 3.3 se muestran esos
puntos.
Figura 3.3. La misma señal de las figuras anteriores, con una marca en
cada cruce de valores discretos. Los puntos están en el cruce de la
trama más cercano a la forma de la onda.
Cada uno de esos puntos (definido por su valor de tiempo y de amplitud) se
considera como una muestra de la señal. Si unimos con una línea esos puntos, tendremos
una idea de cómo es una señal digitalizada. Una aproximación gráfica al resultado de este
proceso se muestra en la figura 3.4:

Figura 3.4. Señal digitalizada. Los puntos mostrados en la figura
anterior se encuentran unidos para mostrar la representación digital de
la señal.
El resultado del proceso de digitalización es una representación discontinua tanto en
el eje vertical (de la amplitud) como en el eje horizontal (del tiempo). Podemos decir que
una representación digital de una onda es una simplificación en ambos ejes.
Si comparamos ahora la señal digitalizada y la señal original, veremos diferencias y
similitudes. Esto es así porque la señal digitalizada es una réplica simplificada de la
original. No puede ser de otra forma, ya que para poner en un computador una señal hay
que digitalizarla. Lo importante es que esta réplica del sonido original sea suficientemente
buena como para que al reproducirla “suene” igual y, para los fines de la Fonética Acústica,
que conserve la información sobre tiempo, frecuencias y amplitudes que son relevantes en
la comunicación verbal humana.
De lo dicho hasta aquí, se deduce que son dos las transformaciones que se producen
al digitalizar una señal. En un caso se transforman los valores continuos de la amplitud en
una serie discreta de números y en el otro los valores temporales continuos se representan
en “muestras” (samples) a intervalos regulares. Respectivamente se denominan formato
de muestreo1 y frecuencia de muestreo.
El formato de muestreo (quantization) corresponde a la simplificación en la
amplitud. La precisión en los grados de la representación de la amplitud en la señal digital
se mide en bits. Las mediciones usuales son 8 y 16 (a pesar de lo que informan
comercialmente algunas tarjetas de sonido).
De este número depende la cantidad de niveles que podemos desplegar en el eje de
la amplitud. Con 8 bits, podemos representar 259 niveles y con 16 bits, 65.536.
Evidentemente, mientras mayor sea la precisión, tanto mejor representada estará la
señal. Además, en el ajuste entre el valor original y su digitalización se produce un ruido
que es menor en la medida en que la precisión en la representación es más alta.
La frecuencia de muestreo (sampling rate, sampling frequency) consiste en el
número de muestras que se toman en un segundo para representarlas en el archivo digital.
Por ejemplo, si tenemos una señal de algunos segundos y se ha decidido digitalizar con
22.050 muestras por segundo, el número de muestras o valores que tendremos para la
representación temporal será de exactamente 22.050 por cada segundo. Si aumentamos la
frecuencia de muestreo al doble, se duplicará el número de las muestras, con lo que
tendremos un archivo el doble de largo.
Cuanto mayor sea la frecuencia de muestreo, tanto más fiel será la representación
del sonido digital respecto del original, pero también más grandes los archivos, más lentas
1
Esta es la terminología usada en la versión en español del programa AUDACITY.
las operaciones que el ordenador realice y no toda la información representada será
relevante para las investigaciones.
El mínimo de muestras necesarias por cada ciclo para capturar su periodicidad es
dos. Por lo tanto, hay que tener en cuenta que la frecuencia de muestreo debe ser (por lo
menos) el doble de la frecuencia más alta que nos interesa registrar (este valor de
frecuencia se denomina Nyquist frequency). Así, con 44.100 muestras por segundo
tenemos frecuencias hasta los 22.000 Hz (esa será la Nyquist frequency).
Dado que para estudiar el habla humana necesitamos considerar frecuencias hasta
de 10000 Hz (o 10 KHz), la frecuencia de muestreo conveniente para hacer registros es de
22.050. Con este valor se capturan teóricamente hasta los 11000 Hz (esa es la Nyquist
frequency). Con frecuencias de muestreo más elevadas no se obtiene ningún beneficio
analítico, a pesar de la mayor fidelidad teórica a la onda original.
Al usar un programa para grabar sonido en un computador, normalmente estos
valores se pueden especificar. Hay que tener en cuenta que la frecuencia de muestreo se
puede reducir después de hecha la grabación, pero el camino inverso es imposible. En otras
palabras, si haces una grabación a 22.050 muestras por segundo, podrás “submuestrearla”,
por ejemplo, a 10.000. Pero nunca podrás elevar el número de muestras una vez realizada la
grabación.
Actividades
• Investiga cuáles son las medidas que definen la calidad de una fotografía digital
y reflexiona sobre los paralelismos que existen entre sonido e imagen digitales.
• Discute sobre el siguiente asunto: a partir de cierta frecuencia de muestreo, la
mayor fidelidad de una representación no es relevante para el oído humano.
• Averigua sobre el efecto aliasing y sobre los filtros antialiasing.
• Haz a mano alzada un dibujo de una onda (que sea aproximadamente como el de
la figura 3.5) en una hoja de papel milimetrado. Cada cinco milímetros pon un
número correlativo en el eje horizontal, a partir de 0; estos números
corresponderán al número de la muestra. En el eje vertical establece valores de 1
en 1 a cada milímetro. La línea media es 0 y, obviamente, los valores sobre el 0
tienen marca positiva y los que están bajo el 0 tienen signo negativo. Escribe a
continuación la lista de esos valores en dos columnas en una hoja de cálculo, de
tal manera que la primera columna tenga la información del número de la
muestra y la segunda columna tenga la información de la amplitud.
• Construye el gráfico de líneas correspondiente y compáralo con la figura que tú
habías realizado a mano.

Figura 3.5. Forma de onda para el ejercicio de simulación de la
digitalización.
Cuestionario
1. ¿Cuál es la Nyquist frequency de una señal si fue grabada a 16000 muestras por segundo?
A) 16000 B) 32000 C) 8000 D) 4000
2. Con una frecuencia de muestreo de 22050, ¿cuántas muestras hay en un milisegundo?
3. Vas a hacer tres investigaciones y pretendes usar el mismo corpus. Los objetos de
estudio implican, en cada caso:
I. Frecuencia entre 80 Hz y 700 Hz.
II. Frecuencias entre 300 Hz y 5500 Hz.
III. Frecuencias entre los 2000 Hz y los 8000 Hz.
Las siguientes frecuencias de muestreo están disponibles en tu sistema de
grabación:
A) 8000 B) 10000 C) 11025 D)16000 E) 22050 F) 44100
3.1. ¿Cuáles permiten hacer las tres investigaciones?
3.2. ¿Cuál es la que permite hacer las tres investigaciones y al mismo tiempo es la más
económica?
3.3. ¿Cuál es la que creará archivos más fieles al original?

4. LA GRABACIÓN
En este capítulo aprenderás cómo grabar una señal y cómo guardar el
archivo de audio en el disco.
Para desarrollar este capítulo, se requiere que sepas cómo conectar el micrófono u otro
dispositivo para ingresar audio al computador, ya que mostraremos cuáles son los pasos
necesarios para grabar una señal en AUDACITY y en PRAAT. Lo indicado aquí servirá, con la
información adaptada, para usar otros programas. También aprenderás a almacenar la señal
en el disco duro y, por supuesto a recuperarla para trabajar con ella en el programa de
edición o en el de análisis.
Cada programa tiene su interfaz, pero todos tienen alguna manera de especificar lo
siguiente:
• La frecuencia de muestreo
• Si la grabación será mono o estéreo
• El dispositivo de entrada de sonido, es decir, el micrófono
Por lo general, se especifican estas condiciones y luego se activa el comando “grabar”.
Finalmente se detiene la grabación y luego se almacena el archivo para su edición y uso.
Existe la posibilidad de cometer el siguiente error de principiante: puede suceder que el
computador tenga un micrófono incorporado que esté preseleccionado por defecto. En este
caso, a pesar de que se tenga otro micrófono conectado correctamente, es posible que no
sea este último el que esté grabando. Esto explica baja intensidad de la señal y,
consiguientemente, excesivo ruido aunque el informante esté hablando “muy cerca del
micrófono”. No se debe confundir que el micrófono esté bien conectado con que esté
efectivamente "seleccionado".
4.1. Grabar en AUDACITY
En este programa todos los pasos se realizan marcando sobre los íconos correspondientes y
son los que se enuncian a continuación (los números entre paréntesis aluden a partes
señaladas en la figura 4.1).
1. Observar el nivel de la entrada del sonido (1).
En primer lugar, debes confirmar que la señal está llegando al
programa. En segundo término, tienes que comprobar que el
indicador de nivel de entrada no llegue al final para que no haya
saturación de la señal. Se puede regular el nivel de entrada (2)
permitiendo que la señal llegue con más o con menos intensidad.
2. Determinar la frecuencia de muestreo (3).
Elegir 22050 siempre, salvo que haya fundadas razones para elegir
una frecuencia distinta.
3. Comenzar la grabación con el botón RECORD (4).
4. Aparece el oscilograma de la señal (5).
5. Finalizar la grabación con el botón STOP (6).
6. Escuchar la señal registrada (7).
Para confirmar que la señal que aparece en la pantalla corresponde
efectivamente a lo que se quería registrar, hay que activar el botón
PLAY y el programa reproducirá la señal.

7. Guardar el archivo.
Hasta el momento tenemos un archivo de trabajo en la memoria
RAM, pero no en el disco duro. Desde el menú ARCHIVO (8) se
puede guardar como proyecto (en un formato específico del
programa) o exportar en otro formato. Esto se determina en
PREFERENCIAS > FORMATO DE ARCHIVOS > FORMATO
DESCOMPRIMIDO DE EXPORTACIÓN).
Todos estos pasos se ilustran en la figura 4.1:
Figura 4.1. Comandos para grabar una señal en Audacity. Los objetos
numerados están explicados en el texto.
4.2. Grabar en PRAAT
Al abrir el programa, la apariencia es la que se observa en la figura 4.2 (algunos aspectos
pueden ser levemente diferentes dependiendo de la plataforma utilizada). Aparece un menú
superior con las opciones PRAAT y HELP y dos paneles: uno de objetos, PRAAT OBJECTS (1) y
otro de dibujo, PRAAT PICTURE (2). Cada uno de estos paneles tiene sus respectivos menús
superiores (3 y 4). En estas primeras lecciones trabajaremos solo con el panel de objetos
(1).
El menú superior tiene tres opciones constantes: NEW, READ y WRITE referidas a
archivos y variados tipos de objetos. Al lado derecho también está la opción HELP.
Figura 4.2. Pantalla inicial del programa PRAAT. Los números están
explicados en el texto
Los pasos para grabar en este programa son los siguientes:
1. En el menú NEW, seleccionas la opción RECORD MONO SOUND... (Cuando
una opción tiene puntos suspensivos, significa que al activarla habrá que
completar un formulario.)
2. Aparece un panel como el que se muestra en la figura 4.3 en el que tienes
que seleccionar el dispositivo de entrada del sonido (Input source) y la
frecuencia de muestreo (Sampling frequency). El indicador del nivel de la
señal (Meter) aparece también en este panel, al centro.
3. Iniciar la grabación (botón RECORD)
4. Finalizar la grabación (botón STOP)
5. Crear el objeto Sound (botón SAVE TO LIST)
Al seleccionar esta opción, aparece un objeto en el panel PRAAT
OBJECTS de nombre Sound sound (por defecto). Técnicamente, este
es un tipo particular de objeto llamado SOUND. Más adelante
veremos otros tipos de objetos.
6. Cerrar el panel de grabación (botón CLOSE).
7. Guardar este objeto como archivo.
Seleccionas el objeto (o sea, lo marcas con el cursor) y desde el
menú WRITE lo puedes guardar como un archivo de sonido en
formatos aiff, wav u otros mediante las órdenes WRITE TO AIFF
FILE..., WRITE TO WAV FILE..., etc.
8. Escuchar la señal.
Seleccionado el objeto de tipo Sound, tienes un menú de botones a
la derecha del objeto. Una de las opciones es PLAY. Al activarla,
escucharás la señal registrada.

Figura 4.3. Panel de grabación en PRAAT. En este caso se ha
seleccionado un dispositivo para un micrófono externo y una
frecuencia de muestreo de 441002. El indicador muestra una señal no
saturada.
Importante: un error de principiante consiste en confundir objeto con archivo. Tener
un objeto en el panel no implica que sea un archivo almacenado en el disco duro. El error
2
Desde hace ya un tiempo, PRAAT no permite grabar con frecuencias de muestreo inferiores a
44100; a cambio, permite grabar con valores bastante altos. En todo caso, siempre se puede
submuestrear, como señalamos en el capítulo anterior y explicaremos más adelante.
frecuente (de principiante) es cerrar el programa sin haber guardado el archivo.
4.3. Problemas posibles en las grabaciones
El investigador debe saber muy bien cuál es la distancia óptima entre la boca del
informante y el micrófono, dado el volumen natural de la voz de la persona y el ruido
ambiental. Habitualmente se considera que 15 cm es una buena distancia; sin embargo, este
valor puede ser menor si el hablante tiene una voz muy suave o si el micrófono es poco
sensible.
Si no hay una adecuada relación entre estos factores, se pueden producir problemas
como que la señal sea demasiado débil o demasiado intensa. En ambos casos el resultado es
una grabación difícil de analizar.
Si las grabaciones tienen buena calidad, se pueden hacer análisis con más facilidad
y con resultados fiables. En caso contrario será imprescindible repetir la grabación o
realizar algún trabajo complementario de edición antes de hacer los análisis. Los problemas
más frecuentes son la saturación (clipping) y el exceso de ruido.
Si la señal “satura” el canal, se produce una amplitud recortada en los puntos más
alejados del 0, tal como se observa en la figura 4.4. Esto ocurre cuando en el momento de la
grabación los indicadores de intensidad alcanzaron el rojo (números 1 y 2 de la figura 4.1
en AUDACITY y el METER en PRAAT).

0
Figura 4.4. Señal saturada al momento de la grabación. Se observa que
la amplitud llega al máximo posible.
Una de las propiedades de una grabación es la relación señal-ruido. Obsérvense las
imágenes de la figura 4.5 que muestran una misma frase (de una misma hablante) grabada
con dos dispositivos diferentes: la primera está hecha con un micrófono relativamente
bueno; la segunda se hizo con el micrófono incorporado del ordenador.
Figura 4.5 Dos señales con diferente relación señal-ruido, semejantes
en el contenido verbal, pero registradas con diferentes micrófonos: La
imagen superior (A) se hizo con un micrófono relativamente adecuado;
en tanto que la inferior (B) se realizó con el micrófono incorporado.

El oscilograma de (A) es más claro; los perfiles son más nítidos. En un
acercamiento a estas señales, como el que se muestra en la figura 4.6, se observa mejor la
diferencia entre ambas.
Figura 4.6. Acercamiento al inicio de la señal de la figura anterior. Las
flechas indican las partes equivalentes donde se observa mejor la
diferencia de la relación señal-ruido entre ambas señales.
Si comparas las partes indicadas por las flechas, puedes observar que en la imagen
superior, las zonas de silencio de la voz están más cercanas al valor 0 (el centro vertical de
la imagen).
Una grabación exitosa debe tener una buena relación (diferencia) entre lo que es
propiamente la señal y lo que es el ruido existente en los momentos de silencio. O sea, una
diferencia considerable. Mientras mejor sea la relación señal-ruido, más cerca del 0 debe
estar la señal en las partes que corresponden a silencios y, consecuentemente, la
información relevante para el análisis será de mejor calidad. Algunas soluciones posibles al
problema de una mala relación señal-ruido, se mostrarán en el capítulo 5.
Otro problema que se puede producir es que la memoria del computador no esté
preparada para grabar un archivo muy extenso. En PRAAT puedes cambiar el tamaño
asignado al buffer de memoria en las preferencias (PREFERENCES > SOUND RECORDING
PREFERENCES...).
Actividades
• Conecta un micrófono y practica cómo hacer un registro sonoro y guardarlo en
tu disco duro.
• En PRAAT cambia el tamaño del buffer y observa cómo cambia el tiempo
disponible para grabar.
• Usa ambos programas (e incorpora otro si tienes) y prueba la calidad del
micrófono, diciendo una misma oración en distintas intensidades y a diferentes
distancias. En otras palabras, prueba todas las posibilidades que te parezcan
útiles.
• Graba una misma emisión varias veces con distinta frecuencia de muestreo y
observa si hay o no diferencias audibles entre ellas.
Cuestionario
1. Tienes dos archivos con señales de la misma duración pero de diferente
frecuencia de muestreo. ¿Cuál de los dos archivos ocupará más espacio en tu
disco duro?
2. ¿Qué problema se puede producir si al momento de la grabación observas que
el indicador del nivel de intensidad de la entrada del sonido se pone rojo?

3. ¿Qué sucederá en términos de la relación señal-ruido si en el momento en que
el informante está en silencio observas actividad en el indicador de entrada de
sonido?
4. ¿Por qué razones crees que es importante determinar la frecuencia de muestreo
antes de iniciar la grabación?

5. EDICIÓN DE LAS SEÑALES
En este capítulo aprenderás algunas operaciones básicas de la edición de
archivos de audio. La edición es el paso inmediatamente anterior al análisis
acústico propiamente tal.
Este es el último capítulo de la primera parte de este manual. Aquí aprenderás a editar las
señales ya grabadas; es decir, depurarlas, recortarlas, limpiarlas de ruido si lo hubiese, etc.
Es necesario hacer todo esto antes de proceder al análisis, pues una señal inadecuada puede
afectar los resultados de una investigación.
Supongamos que le has pedido a un informante que lea unas oraciones y que con
ese material has hecho una grabación de dos minutos de duración con una frecuencia de
muestreo de 22050. Tienes almacenado el archivo en formato wav. En esa grabación hay
algunas partes que te interesan como objeto de estudio (las oraciones leídas); el resto, no
(silencios, toses, risas, preguntas al investigador que quedaron grabadas, etc.). Para facilitar
las cosas, lo mejor será crear varios archivos que contengan únicamente las emisiones que
importan para tu investigación. De tal manera que de ese archivo de dos minutos de
grabación, vas a obtener, por ejemplo, 20 archivos de unos 1,5 segundos cada uno.
Conservar el archivo original es una medida de seguridad que debe ser observada siempre.
Debes dedicar alguna reflexión a los nombres que darás a los archivos que
constituirán el corpus de tu investigación. Una técnica posible es codificar de tal manera
que el nombre te resulte informativo; por ejemplo, con la primera letra indicas si el hablante
es hombre (h) o mujer (m); con la segunda, si la emisión es una interrogación (i) o una
afirmación (a) —todo esto dependerá de qué estés investigando, por supuesto—; con un
tercer elemento puedes indicar el número del informante; etc. Así un nombre de archivo
como “ma5” significará ‘informante femenina, emisión afirmativa, informante cinco’.
El paso siguiente, evidentemente es abrir un archivo de audio desde un programa en
el que puedas hacer la edición. En todos los programas hay una opción que permite abrir un
archivo. En AUDACITY, la opción es Archivo > Abrir y en PRAAT es READ > READ FROM
FILE…. En este último programa, también existe la posibilidad de abrir archivos muy largos
con la opción READ > READ FROM LONG FILE… En el caso de AUDACITY, aparece el
oscilograma de la señal; en tanto que en PRAAT aparece el nombre del archivo en el panel
de objetos; para poder operar con el sonido, hay que presionar el botón Edit con lo que
aparece la ventana de edición.
Veremos ahora algunas opciones en AUDACITY que te ayudarán a producir el
material, a partir de una grabación como la que se ha mencionado.
5.1. La edición en AUDACITY
En AUDACITY existen, entre otras, las siguientes posibilidades en el menú EDITAR:
Cortar. ELIMINA EL SEGMENTO SELECCIONADO.
Copiar. GUARDA EN LA MEMORIA DE TRABAJO EL SEGMENTO MARCADO PARA
PEGARLO EN OTRA PARTE DEL MISMO ARCHIVO O EN OTRA SEÑAL.
Pegar. PEGA EL FRAGMENTO COPIADO, EN EL PUNTO DONDE ESTÁ EL CURSOR.
Recortar. ELIMINA LAS PARTES DE LA SEÑAL QUE NO SE ENCUENTRAN EN LA
SELECCIÓN.
Silence Audio. CONVIERTE EN SILENCIO EL SEGMENTO SELECCIONADO.

Dividir y nueva. ESTA OPERACIÓN TIENE DOS EFECTOS.
A) EL LUGAR DEL SEGMENTO SELECCIONADO SE CONVIERTE EN SILENCIO.
B) EL FRAGMENTO SELECCIONADO ORIGINAL SE COPIA EN UNA NUEVA
PISTA, TAL COMO SE MUESTRA EN LA FIGURA 5.1.
Duplicar. CREA UNA COPIA DEL SEGMENTO EN UNA PISTA NUEVA PERO NO
ELIMINA NADA DE LA SEÑAL ORIGINAL.
Encontrar cruces por cero. EN UNA SELECCIÓN DADA, SITÚA EL INICIO Y EL FINAL
EN EL CRUCE POR CERO MÁS CERCANO, DE TAL MANERA QUE LA EDICIÓN
SEA MÁS LIMPIA.
Guardar la selección. CONSERVA LA SELECCIÓN EN LA MEMORIA PARA
OPERACIONES FUTURAS.
Figura 5.1. Resultado de la operación DIVIDIR Y NUEVA, en AUDACITY.
La segunda pista contiene un segmento que inicialmente estaba en la
señal de la primera pista, en la que fue sustituido por silencio.

Dado un archivo sonoro, más o menos largo, con estas opciones podrás recortar el
segmento que es de interés para tu investigación. Hay dos recomendaciones que conviene
observar al cortar un fragmento para su estudio:
a) Dejar un margen antes y después de la señal que se va a estudiar; es decir, que el
nuevo archivo no comience abruptamente con la señal sino que tenga un poco de silencio
antes y después.
b) Cortar en los cruces por cero, en este caso, usando la opción ENCONTRAR CRUCES
POR CERO. No hacerlo de esta manera puede producir efectos acústicos y gráficos que
dificulten los análisis.
5. 2. FILTRADO del ruido
Los editores de sonido tienen una función para eliminar ruido. Se trata de un filtro que
elimina las frecuencias características de un ruido previamente identificadas. Los pasos son
los siguientes:
• SELECCIONAR UNA ZONA DE LA SEÑAL QUE CONTIENE LO QUE EL ANALISTA
CONSIDERA QUE ES “RUIDO”.
• EL PROGRAMA HACE UN ANÁLISIS DE ESE FRAGMENTO Y LO ALMACENA EN LA
MEMORIA.
• LUEGO HAY QUE SELECCIONAR LA PARTE DE LA SEÑAL QUE SE DESEA FILTRAR.
NORMALMENTE SE SELECCIONARÁ TODA LA SEÑAL.
• SE ESPECIFICA LA CANTIDAD DE RUIDO QUE SE DESEA ELIMINAR. LA NORMA ES:

HAY QUE ELIMINAR LA MENOR CANTIDAD NECESARIA PARA ESCUCHAR BIEN LA
SEÑAL. MIENTRAS MAYOR SEA LA CANTIDAD ESPECIFICADA, MÁS FRECUENCIAS SE
ELIMINAN Y, POR LO TANTO, SI BIEN DESAPARECE EL RUIDO, TAMBIÉN
DESAPARECEN OTROS COMPONENTES DE LA SEÑAL.
• EN SEGUIDA HAY QUE APLICAR EL FILTRO PARA ELIMINAR EL RUIDO YA
IDENTIFICADO.
• SE ESCUCHA EL RESULTADO DE LA APLICACIÓN DEL FILTRO.
SI EL RESULTADO NO ES SATISFACTORIO, HABRÁ QUE VOLVER A ESPECIFICAR LA
CANTIDAD DE RUIDO O CAMBIAR EL SEGMENTO QUE EL PROGRAMA TOMA COMO
MUESTRA. SOLO UNA VEZ QUE EL RESULTADO ES SATISFACTORIO SE PROCEDE CON EL
PASO SIGUIENTE.
• ELIMINACIÓN DEL RUIDO.
En las figuras 5.2 y 5.3, se observa cómo se hace esta operación. Al activar el Menú
EFECTO > UTILITY > REMOCIÓN DE RUIDO… aparece un formulario en el que hay que,
primero, especificar la muestra de ruido y, luego, seleccionar la cantidad de ruido que se
desea eliminar.
Figura 5.2. Primer paso para la eliminación del ruido en AUDACITY.
Figura 5.3. Segundo paso para la eliminación del ruido en AUDACITY.
Una vez que el ruido ha sido eliminado, se tiene una señal con la que se pueden
hacer análisis de mejor rendimiento. A pesar de ello, este procedimiento pocas veces da un
resultado óptimo. Por lo general, la señal filtrada presenta unos zumbidos muy
característicos que no son parte de la señal original. Hay que tener cierta experiencia en
análisis para saber si afectarán o no a los resultados de la investigación y, en virtud de ello,
tomar las decisiones adecuadas.
Las imágenes de la figura 5.4 muestran una señal antes y después de ser filtrada.
Figura 5.4. Señal antes (A) y después (B) de habérsele eliminado ruido.
Como se puede observar, después del filtrado, mejora notablemente la relación
señal-ruido; esto es especialmente apreciable en los puntos señalados por las flechas.
5.3. Edición en PRAAT
Cuestiones generales
La primera posibilidad para examinar una señal es la ventana de edición. Esto se hace
marcando el botón EDIT cuando el objeto de tipo SOUND está seleccionado en el panel de
objetos. Al ejecutar este botón, se abre una ventana que muestra, por defecto, la forma de la
onda y el espectrograma de banda ancha de la señal (si la señal es mayor a 10 ms, hay que
hacer un acercamiento para que aparezca el espectrograma). Opcionalmente se puede
agregar el pitch, la intensidad, los formantes y los pulsos glóticos detectados.
En la figura 5.5 se muestra una señal en la ventana de edición. Esta ventana tiene (1)
un menú superior (FILE, EDIT, QUERY, VIEW, SELECT, SPECTRUM, PITCH, INTENSITY,
FORMANT y PULSES); una ventana con el oscilograma (2) y otra con el espectrograma (3);
una franja que permite —al cliquear en ella— escuchar la porción seleccionada con el
cursor (4) o la anterior o la posterior (el mismo efecto tiene la franja que está sobre el
oscilograma (10); otra franja que sirve para escuchar el segmento visible en la ventana (5);
una tercera franja que permite escuchar la señal completa (6), o sea, el objeto seleccionado
íntegro. Estas franjas dan la información temporal (en segundos). Para escuchar usando
estas franjas, solo hay que marcar con el cursor en la que corresponde.
Figura 5.5. Ventana de edición de PRAAT. Los números están
explicados en el texto.
En la parte inferior de la ventana de edición hay, al lado izquierdo, cuatro botones
(7) que sirven para ver la señal completa (ALL), acercarse (IN), alejarse (OUT), o ver solo la
selección (SEL). También hay una barra de desplazamiento (8) y un recuadro para
sincronizar ventanas (9).
Para activar o desactivar las opciones de análisis que se pueden mostrar en esta
ventana de edición, debes seleccionar, en el menú superior, el análisis que te interesa
(SPECTRUM, PITCH, INTENSITY, FORMANT o PULSES). En cada caso se desplegarán varias
opciones; la primera de ellas es la que permite mostrar u ocultar el análisis del que se trata.
La figura 5.6 muestra la misma señal de la figura anterior, pero esta vez con todas
las posibilidades (espectrograma, pitch, intensidad, formantes y pulsos).
Figura 5.6. Ventana de edición en PRAAT que muestra todos los
análisis: pulsos detectados, formantes, pitch e intensidad.

En las ventanas de edición, cada vez que se ubica el cursor en una determinada
posición, se observan en los márgenes los valores correspondientes a las distintas
mediciones que el programa realiza. En la ventana del oscilograma, a la izquierda se
muestran (1) los valores de amplitud; en el espectrograma y en los formantes, se observan a
la izquierda de la ventana inferior (2) los valores de la frecuencia. Al lado derecho, en la
parte exterior de la ventana se muestran los valores del pitch (3) y, en la parte interior, (4) el
valor de la intensidad.
La figura 5.7 muestra la misma señal de la figura anterior, pero en la que se ha
desactivado la opción que muestra el espectrograma y los pulsos, por lo tanto, solo se
observan los formantes, el pitch y la intensidad.
Figura 5.7. Ventana de edición en PRAAT sin espectrograma ni pulsos.
Respecto de la figura 5.6, la línea que representa la intensidad aparecerá ahora en
color verde y, al no estar el espectrograma de fondo, se puede distinguir mejor su perfil.

Selección de un segmento de la señal
En la ventana de edición, puedes seleccionar con el cursor una porción de la señal. Marca el
inicio de la selección con el cursor y arrastra el cursor hasta donde deseas segmentar. La
selección queda destacada. Si deseas acercar la selección, usa el botón inferior SEL (o, en el
menú superior, VIEW > ZOOM TO SELECTION).
Es posible que desees crear un archivo separado con un segmento de la señal. Para
hacerlo, debes tener en cuenta que en los extremos de la ventana no se realiza análisis
alguno; por lo tanto, siempre hay que hacer una selección levemente “generosa” al
comienzo y al final, tal como se señaló un poco antes.
La selección se puede convertir en un nuevo objeto en el panel PRAAT OBJECTS
eligiendo del menú FILE la opción EXTRACT SELECTION (preservando o no el tiempo
original). También se puede almacenar directamente en disco el segmento marcado: en el
mismo menú FILE existe la opción WRITE SELECTION TO...
Otras funciones
Las siguientes funciones también están disponibles en esta ventana de edición, en el menú
EDIT:
Cut: BORRA UN SEGMENTO SELECCIONADO.
Copy selection to Sound clipboard: MANTIENE EN LA MEMORIA OPERATIVA UN
SEGMENTO SELECCIONADO (POR EJEMPLO, PARA PEGARLO EN OTRA PARTE DE
LA SEÑAL O EN OTRO ARCHIVO).

Paste after selection. PEGA UN SEGMENTO SELECCIONADO QUE ESTÁ EN LA
MEMORIA OPERATIVA (A PARTIR DEL USO DEL COMANDO ANTERIOR) EN EL
PUNTO DEL CURSOR O EN EL PUNTO FINAL DE LA SELECCIÓN ACTUAL.
Set selection to zero. CONVIERTE EL SEGMENTO SELECCIONADO EN VALORES DE
AMPLITUD CERO, O SEA, SILENCIOS ABSOLUTOS.
Reverse selection. INVIERTE LA DIRECCIÓN DE LA SEÑAL. CON ESTA OPERACIÓN,
TODO SE ESCUCHA EN EL SENTIDO INVERSO.
En el menú SELECT encontramos varias posibilidades relacionadas con el
desplazamiento del cursor. Especialmente útil para medir con mucha precisión son las
siguientes:
Move start of selection to nearest zero crossing. CON ESTA FUNCIÓN DESPLAZAS
EL INICIO DE LA SELECCIÓN AL PUNTO DONDE LA FORMA DE LA ONDA CRUZA EL
PUNTO DE 0 AMPLITUD.
Move end of selection to nearest zero crossing. LA MISMA FUNCIÓN ANTERIOR,
PERO APLICADA AL TÉRMINO DE LA SELECCIÓN.
Con ambas funciones desplazas los límites de la selección a los puntos exactos en el
que la forma de la onda pasa por la amplitud 0.

Actividades:
• Palíndromos invertidos
Cuando se invierte la dirección de lectura de una señal de habla común y corriente, se
produce la sensación de que se escucha otra lengua. Prueba este efecto. Esta sensación
se anula parcialmente cuando grabamos una emisión de esas que se leen igual al leerlas
de “atrás hacia adelante”, los llamados palindromos.
A. GRABA UNA SEÑAL CON ALGUNA DE ESTAS FRASES: “DÁBALE ARROZ A LA
ZORRA EL ABAD”, “LUZ AZUL”, “AMENO FONEMA”, “ANITA LAVA LA TINA”.
B. ABRE LA SEÑAL Y SELECCIONA LA PARTE QUE CONTIENE EL PALÍNDROMO.
C. CREA UN ARCHIVO APARTE CON ESE SEGMENTO.
D. EDITA EL NUEVO ARCHIVO.
E. SELECCIONA TODA LA SEÑAL.
F. INVIERTE LA DIRECCIÓN DE LA SEÑAL.
G. ESCÚCHALA Y OBSERVA EN QUÉ SE PARECE A LA ORIGINAL Y EN QUÉ DIFIERE.
• GRABA LA FRASE "TE PASÓ SU ZAPATO". SELECCIONA LAS CONSONANTES Y CONVIÉRTELAS
EN SILENCIO. HAZ LA SELECCIÓN SITUANDO LOS LÍMITES EN LOS CRUCES POR CERO.
REPITE LA OPERACIÓN CON LAS VOCALES (Y CONSERVA LAS CONSONANTES). ESCUCHA Y
HAZ ESCUCHAR A OTROS ESAS EMISIONES.
• INDAGA EN OTROS PROGRAMAS QUE PERMITEN EDITAR ARCHIVOS DE AUDIO Y ENCUENTRA
LAS FUNCIONES QUE PUEDAN SER ÚTILES PARA LOS FONETISTAS.

• INVENTA UNA CODIFICACIÓN PARA NOMBRAR LOS ARCHIVOS DE UNA INVESTIGACIÓN EN LA
QUE TRABAJARÁS CON 10 INFORMANTES FEMENINOS Y 10 MASCULINOS. EN CADA UNO DE
ESTOS DOS GRUPOS HABRÁ DOS SUBGRUPOS: UNO DE INFORMANTES ENTRE 20 Y 35 AÑOS
Y OTRO QUE CONTIENE LOS INFORMANTES ENTRE 45 Y 65 AÑOS. CADA INFORMANTE
REPETIRÁ 5 VECES LA SERIE “BA SA AKA AJA DA YA ATA MA GA AÑA APA” PERO SOLO TE
INTERESAN “BA DA GA APA ATA ACA”. ES IMPORTANTE QUE TENGAS CADA PALABRA
EMITIDA EN UN ARCHIVO Y QUE EN UN ARCHIVO SOLO EXISTA UNA PALABRA EN ESTUDIO.
Revisadas y practicadas estas opciones de los programas, ya estás en condiciones de
producir el material para ser analizado acústicamente, pues ya sabes los fundamentos
básicos del sonido digital, conoces las técnicas para grabar y sabes también editar las
grabaciones. Felicitaciones por haber avanzado hasta este punto en el manual. Repasa lo
que has aprendido, vuelve atrás si tienes alguna duda y, cuando te sientas cómodo, avanza a
la segunda parte, al análisis acústico propiamente tal.

SEGUNDA PARTE
Con lo visto hasta aquí, ya estás en condiciones de comenzar los análisis propiamente tal.
Los temas de estudio y las categorías de análisis son muchos; en esta segunda parte solo se
presentan los más frecuentes, bajo la comprensión de que esas categorías se pueden aplicar,
haciendo las adecuaciones necesarias, a otros aspectos no mencionados. Esta sección
comienza por enseñar a etiquetar las señales. Esta operación requiere de algún grado de
análisis, aún cuando se pueda entender como un capítulo de transición. Se revisará después
cómo hacer espectrogramas, herramienta analítica poderosa ya que permite observar las
frecuencias a través de una señal. Luego se señala cómo hacer mediciones de tiempo, de
frecuencias de los formantes vocálicos y del pitch. Esta parte concluye con una explicación
de cómo hacer gráficos para la exposición de resultados.

6. ETIQUETAR UNA SEÑAL
En este capítulo aprenderás a etiquetar segmentos de un archivo de audio.
Este proceso sirve para poder volver a la señal y confirmar el análisis que
has realizado. De la misma manera, otra persona puede ver exactamente
qué es lo que has marcado para el análisis.
Imagina que haces un análisis en un determinado punto o segmento de la señal para obtener
cierta información. Si después de un tiempo, necesitas revisar ese dato ¿cómo puedes tener
la certeza de que repetirás el análisis exactamente en el mismo lugar?
La mejor manera, la más segura y confiable, es poner una etiqueta allí donde deseas
hacer el análisis, de tal manera que el programa guarde la información temporal asociada.
Dicho sea de paso, etiquetar presupone saber segmentar; por lo mismo, el hecho de poner
etiquetas permite obtener información temporal muy interesante: por ejemplo, si segmentas
las sílabas de algunas palabras, puedes obtener fácilmente la información de cuánto dura
cada una de esas sílabas.
En general, la operación de poner etiquetas es una función posible de realizar en los
editores y en los analizadores de señales de audio. Lo que hacen los programas cuando
crean etiquetas es que producen un archivo adicional, asociado al archivo sonoro, en el que
se guarda la información textual y temporal. Aquí veremos cómo crear etiquetas en
WAVESURFER, AUDACITY y PRAAT.
6.1. Etiquetas en WAVESURFER
El programa WAVESURFER permite etiquetar señales y realizar ciertas operaciones con
ellas. Si tienes una señal abierta, por ejemplo, en la modalidad Demonstration, puedes
marcar en la zona .lab (abajo del espectrograma) el lugar donde termina un segmento y
escribir la etiqueta correspondiente tal como se muestra en la figura 6.1. Tienes que marcar
también el lugar donde el segmento comienza para que las marcas delimiten una unidad
completa.
Figura 6.1. Creación de una etiqueta en WAVESURFER.
Si lo necesitas, puedes agregar otros niveles de etiquetas, por ejemplo, si quieres
etiquetar palabras, sílabas y sonidos, necesitarás un estrato para cada nivel. Esto se hace
cliqueando con el mouse mientras presionas la tecla CONTROL. Con esto se despliega un
menú contextual que incluye la posibilidad Create Pane, que a su vez incluye la opción
Transcription, tal como se muestra en la imagen 6.2.

Figura 6.2. Creación de niveles de etiquetas en WAVESURFER.
Siguiendo este procedimiento, es posible crear etiquetas como se muestra en la
imagen 6.3
Figura 6.3. Etiquetas en WaveSurfer.
Es muy interesante y rápida la configuración HTK TRANSCRIPTION. En este modo, no
hay que cliquear, sino solo poner el cursor en un punto ya sea del espectrograma, del
oscilograma o del sector de las etiquetas (.lab) e inmediatamente el programa asume que en
ese punto termina una unidad; solo hay que escribir la etiqueta correspondiente.
6.2. Etiquetas en AUDACITY
En este programa, al abrir un archivo, aparece el oscilograma de la señal. En la figura 6.4
aparece seleccionada la parte de un emisión que se desea etiquetar.
Figura 6.4. Selección de un fragmento de la señal para etiquetarlo.
Para poner la etiqueta, hay que tener el segmento marcado (1); en ese momento
puede ser útil ajustar los límites en los cruces de cero más cercanos (menú EDITAR >
ENCONTRAR LOS CRUCES POR CERO). En el menú PISTAS (2) existe la opción AGREGAR
ETIQUETA EN SELECCIÓN. Al activarla aparece una nueva pista para las etiquetas con el
nombre PISTA DE ETIQUETAS (3) y marcas sincrónicas al inicio y al término del fragmento
seleccionado. Los valores que aparecen en la parte inferior (5 y 6) corresponden a los
límites temporales del segmento etiquetado y a la duración total del mismo (7). Se puede
especificar la unidad de medida (segundos, muestras, etc.).
Para guardar el archivo de sonido con las etiquetas creadas, lo conveniente es
guardar el archivo como proyecto, o sea, con el formato propio del programa.
También tienes la posibilidad de exportar las etiquetas. Con esta opción se genera
un archivo de formato txt de dos columnas: tiempo de inicio del segmento y etiqueta
respectiva. Al abrir un archivo de este tipo desde una planilla electrónica puedes hacer
mediciones temporales con mucha precisión y facilidad, como veremos en el capítulo 8.
Puedes cambiar la apariencia de en esta pantalla. Al marcar con el ratón en el
nombre de la pista de etiquetas (3), se despliega un menú que permite modificar el orden de
presentación de las pistas. En este menú también puedes definir la tipografía y, si dispones
de fuentes fonéticas, puedes usar esta función para presentar las etiquetas con
transcripciones; ten en cuenta que al exportar al archivo txt no se conservarán los símbolos.
6.3. Etiquetas en PRAAT
En PRAAT puedes crear etiquetas de dos tipos: de intervalo o puntuales. Para hacerlo hay
que tener seleccionada una señal en el panel de objetos y elegir, en el menú dinámico, en la
sección ANNOTATE, la opción TO TEXTGRID.
Inmediatamente aparece un formulario que pide en un campo los nombres de todos
los estratos y, en otro campo, los nombres de los estratos puntuales (los nombres de cada
estrato se separan por espacios). Debes tener en cuenta que todo estrato que no sea definido
explícitamente como puntual, será considerado como de intervalo. La principal diferencia
entre ambos tipos de etiquetas es que en los intervalos se debe marcar el inicio y el término
de un fragmento y la etiqueta cubrirá el segmento completo. En un estrato de puntos, en
tanto, cada marca y etiqueta se sitúan en un valor temporal único.
La figura 6.5 muestra un formulario que se ha completado para crear un TextGrid

con cuatro estratos: uno de marca puntual (llamado “intensidad”) y tres de marca de
intervalos (“palabra”, "sílaba” y “sonido”).
Figura 6.5. Formulario para crear el TextGrid. En este caso, se
especifican cuatro estratos de los cuales solo uno es de puntos.
Completado el formulario, das el OK y se crea el nuevo objeto en el panel
correspondiente. El paso siguiente es editar en conjunto el objeto del tipo Sound y el
TextGrid asociado. Al seleccionar ambos tipos de objetos, en el menú dinámico aparece la
opción EDIT. Al activarla, aparece una ventana como la de la figura 6.6 que contiene el
oscilograma, el espectrograma (con los análisis superpuestos que deseas mantener) y las
capas o estratos para poner las marcas.

Figura 6.6. Objeto de sonido y TextGrid editados conjuntamente.
En el TextGrid, se observa a la izquierda un número para cada estrato (1) y el que
está activo se indica con una mano roja; a la derecha se observa el nombre de cada estrato
(2). Al centro hay unas barritas con un círculo en la parte superior (3) que son sincrónicas
con el cursor (si marcas un punto en el oscilograma o en el espectrograma, en ese punto
aparecen estas barritas en el TextGrid). Estas barras son las potenciales marcas. Para
fijarlas, solo hay que cliquear con el cursor en el círculo superior de la barrita en el estrato
en el que interesa situar la marca.
En la figura 6.7 aparece el TextGrid con más límites insertos.

Figura 6.7. Objeto de sonido y objeto TextGrid editados
conjuntamente. Ya se han puesto varias marcas y etiquetas en los
cuatro estratos del TextGrid.
Puedes apreciar el distinto efecto de las marcas de intervalo (estratos 1, 2 y 3) y de
las marcas de punto (las del estrato 4). En este caso se han usado las primeras tres capas
para escribir etiquetas de palabras, sílabas y sonidos3 (tal como lo indican los nombres de
los estratos).
Para poner las etiquetas, te sitúas con el cursor en un fragmento que ya has
delimitado y en ese momento el segmento marcado aparecerá destacado por el color.
Escribes la etiqueta y, mientras escribes, el texto aparece en la parte superior (1). En esa
pequeña ventana de edición puedes escribir, modificar y borrar el texto de las etiquetas.
3
En estricto rigor, /p/ se ha realizado como un sonido sonoro aproximante.
Para mover una marca, solo tienes que seleccionarla y arrastrarla con el ratón. Para
borrar una marca, tienes que marcarla con el cursor (cuando está seleccionada cambia su
color) y en BOUNDARY, en el menú superior, tienes la opción REMOVE (también hay una
combinación de teclas).
Para guardar el TextGrid, tienes que seleccionarlo aisladamente en el panel de
objetos y usar la opción WRITE del menú superior de este panel. Cualquiera de las opciones
de formato será suficientemente útil para tus propósitos. Hay una forma para guardar
conjuntamente el archivo de sonido y el TextGrid, pero es poco económica en términos de
espacio en el disco.
Para recuperar la información de las etiquetas, basta con abrir el archivo TextGrid
desde el programa. Al hacerlo, aparecerá en el panel de objetos. Si lo editas, tendrás las
etiquetas de cada estrato distribuidas en un eje temporal. Por supuesto, también puedes
seleccionar ambos objetos y editarlos, lo que es muy cómodo para la mayoría de los
propósitos de investigación.
Almacenamiento de la información
Al guardar el archivo del TextGrid de PRAAT o las etiquetas de AUDACITY, tendrás
que tomar decisiones respecto del directorio en el que almacenarás el conjunto de datos de
tus investigaciones. Lo verdaderamente importante es que los puedas encontrar fácilmente.
Un orden posible es crear un directorio específico para tu investigación y, en él, varios
subdirectorios:
• Uno para el material en bruto, es decir, las grabaciones sin edición;
• Otro en el que almacenarás señales y TextGrids (puedes hacerlo en

subdirectorios diferentes);
• Un subdirectorio de análisis propiamente tal (reportes de análisis, hojas de
cálculo, bases de datos, etc.
• Un subdirectorio para el informe de investigación (básicamente, el texto y
los gráficos).
Dado que la ordenación del material es asunto de estilo personal, lo dicho aquí
debes interpretarlo solo como una sugerencia; no obstante, sabemos que es imprescindible
plantearse este asunto. El siguiente esquema muestra este orden:
Esquema 6.1. Una manera de organizar los archivos.
Actividades
• Usa AUDACITY, abre una señal relativamente breve y etiqueta cada una de las
palabras.
• Exporta los datos a un archivo txt y léelos desde una planilla electrónica. Observa
qué operaciones puedes realizar.
• En PRAAT crea un TextGrid de una señal, con cuatro estratos: dos puntuales y dos de
segmento. Los estratos se llaman A, B, C y D. Usa las marcas del estrato A para
indicar las sílabas y el B para indicar solo las vocales. Los estratos puntuales C y D
servirán para indicar, respectivamente, el centro y el final de la vocal.
• Pon las etiquetas que corresponda y guarda el archivo TextGrid.
• Examina las posibilidades de crear límites en los segmentos o de incluir marcas en
estrato de puntos a partir del menú superior en la ventana de edición.
• Examina la posibilidad de modificar un TextGrid desde el panel de objetos
(MODIFY); en particular, observa:
a) Cómo cambiar el nombre del estrato
b) Cómo poner etiquetas en un estrato de puntos
c) Cómo poner etiquetas en un estrato de segmentos
• Prueba lo siguiente: abre un TextGrid desde un editor de texto plano e identifica las
etiquetas, que están escritas entre comillas. Modifícalas desde el editor de texto y
recupéralas luego desde PRAAT.
• Observa el efecto de trabajar con un archivo de sonido y un TextGrid
simultáneamente. Selecciona ambos objetos y usa el botón EXTRACT- y revisa las
distintas posibilidades de esta opción:
a) Con la primera, crearás nuevos objetos de sonido a partir de las
segmentaciones hechas independientemente de que hayas puesto etiquetas o no.

b) Con la segunda, extraerás solo los intervalos que están etiquetados y crearás
nuevos objetos de sonido.
c) La tercera te permite crear nuevos objetos a partir de criterios de búsqueda:
por ejemplo, los intervalos del primer estrato que coincidan con ciertos
caracteres, (o que sean distintos a esos caracteres, que los contengan, etc.).
• Ubica tres sonidos en el panel de objetos. Dales a cada uno un nombre para esta
actividad (usa el botón inferior RENAME), por ejemplo, “voz_1”, “voz_2” y “voz_3”.
Selecciona estos tres objetos y usa, en COMBINE SOUNDS-, la opción CONCATENATE
RECOVERABILE. Observa lo que ocurre en el panel de objetos. Aparecen dos nuevos
objetos seleccionados: uno de tipo Sound y otro de tipo TextGrid. Edítalos y
observa cuál es el efecto de esta unión de objetos.

7. CÓMO HACER ESPECTROGRAMAS
En este capítulo aprenderás cómo hacer espectrogramas y espectros de
distinta resolución frecuencial. Esta herramienta es el primer paso en los
análisis frecuenciales de una muestra de audio.
En Fonética Acústica, se trabaja con varios tipos de representaciones gráficas del sonido
realizadas con los datos numéricos que constituyen un archivo de audio digital. El más
importante de estos gráficos es el que representa la forma de la onda u oscilograma, que
muestra el tiempo y la amplitud. Para algunos análisis es importante además tener a la
vista la información frecuencial y para ello se dispone del espectrograma, que es una
representación sincrónica al oscilograma pero con información de las frecuencias.
Estas dos representaciones están estrechamente relacionadas. Se parte del
oscilograma en el que se hace un análisis espectral de los componentes que existen en una
ventana de análisis, o sea, en unos cuantos milisegundos de la señal. En el espectrograma
se muestran los sucesivos análisis espectrales a lo largo del eje temporal. En otras palabras,
un espectrograma es una representación de espectros sucesivos y superpuestos para dar la
sensación de continuidad.
El espectrograma es de muchísima ayuda para identificar tipos de sonidos e incluso
para identificar específicamente de qué sonido se trata; en el análisis acústico, se ha
convertido en una herramienta verdaderamente insustituible.
La ventana de tiempo en la que se realiza el análisis espectral puede ser larga o
corta. Si el análisis se realiza con una ventana corta, por ejemplo, de 5 ms, entonces el
resultado será un gráfico con buena definición temporal, pero la información frecuencial
será bastante gruesa. A la inversa, si la ventana es larga, por ejemplo, de 30 ms, la
información frecuencial será mejor que la temporal. Esta asimetría entre resolución
temporal y frecuencial es inevitable.
En la tradición, los dos tipos de espectrogramas se denominan de banda ancha y de
banda estrecha respectivamente, porque para obtenerlos había que colocar unos filtros
(físicos) de 300 Hz o de 45 Hz, por ejemplo, con los que se obtenían, respectivamente,
espectrogramas de banda ancha o de banda estrecha.
Los espectrogramas hechos con una ventana de análisis larga (o de banda estrecha)
muestran la información de la frecuencia con bastante detalle, tanto así que en una vocal se
pueden distinguir con claridad el tono fundamental y los armónicos.
Los espectrogramas de ventana corta (o de banda ancha) muestran la información
frecuencial con menos detalle y, aunque parezca contradictorio, por lo mismo son más
útiles para tareas de análisis fonético ya que, por ejemplo, se pueden observar con claridad
los formantes vocálicos.
En los programas se puede modificar el tipo de espectrograma a través del cambio
de longitud de la ventana de análisis, la gama de Hz que se muestra, y otros parámetros.
En la figura 7.1 se muestran tres tipos de gráficos (oscilograma, espectrograma y
espectros) de una señal artificial, creada por ordenador, que tiene tres partes claramente
distinguibles: en el primer momento hay tres componentes armónicos (500 Hz, 1000 Hz y
1500 Hz); en el segundo momento hay un ruido (componentes aleatorios de todas las
frecuencias) y en el momento final hay cuatro componentes armónicos (200 Hz, 400 Hz,
600 Hz y 800 Hz).

La función de esta figura es ejemplificar la relación entre el espectro y el
espectrograma. Por esa razón, se señalan los puntos a, b y c en los que se hacen los análisis
con una ventana de 30 ms.
El oscilograma está en la parte superior de la figura; al centro, el espectrograma (de
banda estrecha) y abajo, los tres espectros que corresponden a los momentos a, b y c. El
espectrograma muestra una gama de Hz entre los 0 y los 5000 Hz, la misma que se usa en
cada uno de los espectros de la fila inferior.
Figura 7.1 Oscilograma (arriba) y espectrograma (al centro) de una
señal; espectros (abajo) de tres momentos diferentes.

Es importante que comprendas la relación que hay entre los espectros y los espectrogramas:
en el espectro correspondiente al momento a hay tres componentes que equivalen a las
líneas horizontales que se observan en el espectrograma; el espectro del momento c tiene,
en cambio, cuatro componentes en la zona de más bajas frecuencias, de la misma manera
que el espectrograma del momento c tiene cuatro líneas horizontales en la parte más baja de
la gama de frecuencias. El momento b tiene componentes aleatorios en toda la gama de los
0 a los 5000 Hz; por esta razón, en el espectrograma aparece una mancha en toda la zona y,
por lo mismo, en el espectro aparecen relieves a lo largo de todas las frecuencias. Habrás
notado que, a diferencia del espectrograma, en el espectro se representan las frecuencias en
el eje horizontal y no hay representación temporal.
Por lo tanto, un espectro es el resultado de un análisis frecuencial realizado en una porción
pequeña de la señal, en tanto que un espectrograma es una representación de una serie de
espectros; la representación de ambos gráficos difiere también en la forma de expresar la
intensidad: en el espectro se proporcionan valores numéricos de la intensidad; en tanto, en
el espectrograma se infiere por la intensidad del color.
7.1. En Audacity
Audacity permite ver opcionalmente el oscilograma o el espectrograma. También permite
seleccionar el tipo de espectrograma y ofrece la posibilidad de verlo en colores.
Para ver el espectrograma de la señal, se debe seleccionar la opción ESPECTRO en el
menú que se despliega al marcar en el nombre de la pista de audio, tal como se observa en
la figura 7.2.
Figura 7.2. Menú desplegable que permite seleccionar el
espectrograma para observar una señal.
El resultado será que la señal se ve ahora en su representación de espectrograma, tal
como se puede apreciar en la figura 7.3.
Figura 7.3. Espectrograma en color de la misma señal de la figura 7.2.

En las preferencias del programa, hay una opción para fijar los parámetros del
espectrograma. El formulario se muestra en la figura 7.4.
Figura 7.4. Formulario para determinar las especificaciones del
espectrograma.
Con TAMAÑO DE FFT se selecciona el ancho de banda del espectrograma; en este
mismo formulario puedes indicar si prefieres el gráfico en ESCALA DE GRISES (en caso
contrario aparecerá en colores). También en este formulario se puede especificar la gama de
Hz.
7.2. En WaveSurfer
Este programa también de libre distribución y multiplataforma, permite de manera bastante
amable hacer espectrogramas, espectros y otros análisis.
Se debe abrir un sonido con el menú superior File > Open se selecciona el archivo de
audio y luego el programa ofrece una serie de posibilidades para mostrar los análisis:
Demonstration, HTK transcription, IPA transcription, Spectrogram, Speech analysis y

varios más. Para una primera aproximación a este programa, conviene mirar el sonido con
la opción Demonstration.
Con esta opción, el archivo sonoro se abre y tenemos a nuestra disposición cuatro ventanas:
una ventana con el oscilograma y el espectrograma, otra con el espectro, otra de control
gráfico y una ventana para aumentar en el gráfico la amplitud de la señal. En este momento
nos interesan especialmente las ventanas con la forma de la onda y el espectrograma y la
que permite controlar los gráficos.
Las cuatro ventanas se muestran en la figura 7.5 habiendo ya modificado algunas de las
cualidades del gráfico tal como aparecen por defecto.
Figura 7.5. Las principales ventanas en WAVESURFER bajo el modo Demonstration.
Al cambiar de posición el punto que aparece en la ventana Image Controls, cambian las
propiedades del gráfico y podemos así cambiar el brillo y el contraste, con lo cual podemos
manejar el color de la presentación. Si variamos la longitud de la ventana de análisis
(Analysis windows lenght) cambiaremos, como se señaló antes, el ancho de banda del
espectrograma. En la figura 7.6 se muestra la misma señal en un espectrograma de banda
estrecha.
Figura 7.6. Espectrograma de banda estrecha en WAVESURFER.
7.3. En PRAAT
Para la mayoría de los análisis acústicos te bastará con desplegar un espectrograma de
ventana corta (o de banda ancha) en la ventana de edición.
Debes tener un objeto de tipo sound en la ventana PRAAT OBJETCS y activar el botón
EDIT. Ya sabes que con esta opción aparece una ventana que muestra por defecto un
espectrograma de banda ancha. Si no está visible es porque en el menú superior de la
ventana EDIT, en SPECTRUM, está desactivada la opción SHOW SPECTROGRAM; en ese caso
habrá que activarla en el mismo menú. Otra causa por la que no se ve el espectrograma es
porque la señal visible supera los 10 segundos; en este caso, al acercarse a una porción de la
señal inferior a 10 segundos, el espectrograma aparece.
Para mejorar la visión que se tiene del espectrograma, puede ser conveniente
desactivar otros gráficos que se muestran superpuestos, por ejemplo, si aparece el pitch o si
se ven puntos rojos que siguen la trayectoria de los formantes. En el menú superior
correspondiente —Pitch, Formant, Pulses, Intensity— puedes desactivar las opciones
según corresponda.
En este momento tienes una señal en la ventana de edición; es decir, puedes
observar el oscilograma y el espectrograma tal como ya habías visto en la figura 5.5.
Veremos ahora cómo modificar ese espectrograma.
Para hacer modificaciones en la apariencia del espectrograma debes desplegar, en
menú superior, en SPECTRUM, la opción SPECTROGRAM SETTING... con lo que aparece un
formulario como el de la figura 7.7.
Figura 7.7. Formulario para modificar parámetros en la visualización
del espectrograma en la ventana de edición.
Los campos de este formulario tienen las siguientes funciones:
View range (Hz): Muestra el rango de frecuencia; por defecto, va de 0 Hz a
5000 Hz, pero se puede modificar completamente. Por ejemplo, puedes
hacer que se desplieguen en la pantalla hasta los 8000 Hz. En todo caso,
el valor máximo de la frecuencia observable es siempre la mitad de la
frecuencia de muestreo (recuerda lo aprendido en el capítulo 3).
Window length (s): Muestra la extensión de la ventana de análisis. Aquí
puedes cambiar el tipo de espectrograma. Para uno de banda estrecha, usa
0.03 s (30 ms) y para uno de banda ancha usa 0.005 s (5 ms).
Dynamic range (dB): Fijado por defecto en 50 dB. Mientras más alto este valor,
más sucio será el gráfico en la ventana del espectrograma, porque
mostrará elementos de menos energía. Si bajamos el valor de este
parámetro se presentarán solo las frecuencias que superen ciertos dB.
El resultado de la modificación de la longitud de la ventana y del rango de Hz
desplegado se observa en la figura 7.8, en la que se presentan tres espectrogramas
diferentes de la misma señal.
Figura 7.8. Tres espectrogramas de una misma señal: (A) banda ancha,
con una gama frecuencial de 0 a 5000 Hz, (B) banda estrecha con una
gama de 0 a 5000 Hz y (C) banda ancha con una gama de 0 a 10000
Hz.
El efecto de cambiar los valores del parámetro Dinamyc range se aprecia en la

figura 7.9 en que una misma señal se muestra con dos valores diferentes.
Figura 7.9. Dos espectrogramas de banda ancha de una misma señal,
en la imagen A el Dynamic range está en 50 dB y en la imagen B, en
30 dB.
Además de trabajar con el espectrograma en la ventana de edición, puedes crear el
objeto espectrograma. Para crearlo, selecciona el objeto de tipo Sound del que quieras hacer
el espectrograma, activa el botón SPECTRUM- y en el menú desplegable aparecerá la opción
TO SPECTROGRAM... En el formulario que aparece puedes especificar la longitud de la
ventana y la gama de Hz que se desplegarán. No cambies el tipo de ventana; conserva la
opción Gaussian, que está seleccionada por defecto.
Espectros
Al comienzo de este capítulo, se señaló que el espectrograma es una representación de
espectros dispuestos en forma sucesiva. Permítenos una comparación: el espectro es el
fotograma y el espectrograma es la película completa. Señalamos que el análisis espectral
se realiza en una unidad de tiempo que se denomina ventana de análisis y que en los
procesamientos digitales del audio, la longitud de esta ventana determina el ancho de banda
con el que se muestran los gráficos.
Es posible que en algún momento quieras examinar el espectro correspondiente a un
determinado punto del espectrograma.
En Audacity, para observar un espectro debes seleccionar el fragmento de la señal
que te interesa (por ejemplo, una vocal) y en el menú ANALIZAR tienes la opción DIBUJAR
ESPECTRO. Esto se muestra en la figura 7.10.
Figura 7.10. Fragmento seleccionado de una señal para ver el espectro
correspondiente.
El resultado es una ventana con gráficos como los que se observan en la figura 7.11,
en los que se aprecian, para el segmento marcado de la señal, los relieves de amplitud
(vertical) de los componentes frecuenciales (horizontal). El espectro con mayor definición
frecuencial es el que permite ver los armónicos (B), en tanto que en el de banda ancha (A)
se observan los relieves de manera más gruesa. Esto es exactamente lo que se observa en un
espectrograma a través del tiempo.

Figura 7.11. Dos espectros de una misma parte de una señal. A la
izquierda, un espectro de banda ancha y, a la derecha, un espectro de
banda estrecha. Los números están explicados en el texto.
En estos espectros se observan las intensidades relativas de los componentes de
ciertas frecuencias en el segmento marcado en la señal. El cambio de ancho de banda del
espectro se hace cambiando el número que está señalado con (1) en las dos imágenes. Al
desplazar el cursor aparece una línea vertical a la altura frecuencial del pico más cercano
(2), y en (3) aparece el valor en Hz del pico. Si el cursor no está localizado en un pico
frecuencial, el valor de (4) será distinto al de (3). En los dos gráficos de la figura 7.11, el
cursor está levemente desplazado a la derecha respecto del pico más cercano, por esta
razón, el valor de (4) es un poco más alto que el de (3). La opción EXPORTAR (5) sirve para
crear un archivo de tipo txt que puedes leer en cualquier programa de tratamiento de
números e incluso puedes construir gráficos por tu cuenta con la misma información gráfica
del espectro.
En PRAAT puedes ver espectros con el comando VIEW SPECTRAL SLICE, en el menú
SPECTRUM de la ventana de edición. Puedes poner el cursor en un punto de la señal o bien

hacer una selección, por ejemplo, de la parte más estable de una vocal.
Las características del espectro dependen de los valores que hayas dado a los
parámetros del espectrograma en SPECTROGRAM SETTING... del menú SPECTRUM, en la
ventana de edición (recuerda que el espectrograma es una sucesión de espectros de la
misma manera como la película es una sucesión de fotogramas); de esta manera, si tienes
una ventana de análisis 5 ms (0.005 s) obtendrás un espectro y un espectrograma de banda
ancha y con una ventana de análisis de 30 ms (0.03 s) el espectro y el espectrograma serán
de banda estrecha. La figura 7.12 muestra el oscilograma y los dos tipos de espectrogramas.
Se acompañan además de dos espectros (también de distinto tipo) tomados en el mismo
punto.
Figura 7.12. En la parte superior, oscilograma y espectrogramas de
banda ancha (derecha) y de banda estrecha (izquierda). Dos espectros
del mismo punto de la señal, también de distinto ancho de banda.
Si analizas las imágenes de los espectros de la figura 7.12, deberían ser congruentes
con los espectrogramas en los puntos que se señalan. Las flechas del cursor en los
espectrogramas (parte superior) apuntan al tiempo de la señal en el que se realizó el análisis
espectral.
Actividades
• Selecciona una secuencia de dos sílabas y crea con ella un nuevo objeto.
Al hacer la selección, pon los límites en los cruces de cero (revisa lo
expuesto en el capítulo 5) y crea un nuevo archivo.
• De este nuevo objeto, crea dos objetos espectrogramas: uno con la
ventana de análisis de 30 ms y otro con la ventana de 5 ms; ten en
cuenta que el programa te ofrecerá estos valores en segundos (s), no en
milisegundos (ms).
• Renombra cada objeto espectrograma como “ancho” y “estrecho” según
corresponda.
• Cierra la ventanas de edición que tengas abiertas y selecciona el objeto
“ancho” y el objeto ”estrecho” (los dos espectrogramas recién creados).
Usa el comando VIEW (uno de los botones del menú dinámico) con los
dos. Redimensiona ambas ventanas de espectrogramas para que puedas
verlas simultáneamente en la pantalla y fíjate que el indicador GROUP, el
cuadradito en el extremo inferior derecho para la coordinación de las
ventanas, esté activo. Ahora, si pones el cursor en un punto en una de
las ventanas, te aparecerá también en la otra en el mismo punto.
Opcionalmente puedes editar también el objeto sound (y desactivar la
vista del espectrograma en este objeto) y coordinar el oscilograma con
los dos tipos de espectrogramas que tienes.
• Consigue dos informantes para grabar una misma vocal con una voz
masculina grave y con una voz femenina más aguda. Inspecciona la
señal en un espectrograma de banda estrecha y observa la distancia entre
los armónicos. Teóricamente debería ser mayor en la voz aguda y menor
en la voz grave.
• Los armónicos deben ser múltiplos del fundamental. Observa este
fenómeno en un espectrograma de banda estrecha de una vocal. Esto
implica que la distancia en Hz entre armónicos debe ser constante.
Preguntas
1 ¿Qué operaciones debes hacer para averiguar cuántas muestras hay en una
ventana de análisis de 5 ms si la frecuencia de muestreo es de 22050?
A) Dividir el número de la frecuencia de muestreo por 5.
B) Dividir el valor en ms de la ventana de análisis por el valor de la
frecuencia de muestreo.
C) Multiplicar 22050 por 5 y dividir por 1000.
D) Multiplicar 5 por 1000 y dividir por 22050
E) Dividir 1000 por 22050.
2. ¿Cuántas muestras hay en una ventana de análisis de 30 ms para una señal
con las mismas 22050 muestras por segundo?
3. ¿De qué parámetro depende en los espectrogramas de sonidos digitales lo
que tradicionalmente se llama “ancho de banda”?
4. ¿Con cuál de los siguientes tipos de espectros puedes tener información
sobre la frecuencia fundamental de una vocal?:
I De banda estrecha
II De banda ancha
III De ventana de 5 ms
IV De ventana de 30 ms
A) Solo I
B) Solo II
C) II y IV
D) I y IV
E) I, III y IV
5. En la figura 7.13 hay tres espectros en cuyo eje horizontal se representa
hasta los 11 KHz ¿Cuál(es) puede(n) estar hecho(s) con una ventana de
análisis de 30 ms?
Figura 7.13. Tres espectros (de 0 a 11000 Hz en el eje horizontal).
8. ANÁLISIS TEMPORAL
En este capítulo aprenderás a hacer análisis de fenómenos temporales de
muestras de habla y a usar algunos scripts sencillos en PRAAT.
¿Cuántas sílabas por segundo pronunciamos habitualmente? ¿Cuánto más largas son las
vocales tónicas respecto de las átonas? ¿Duran los sonidos duplicados exactamente el doble
que los simples? ¿En qué casos es relevante lingüísticamente la cantidad? Las respuestas a
estas y a otras preguntas similares requieren investigaciones sobre aspectos temporales de
la señal de habla.
En este capítulo veremos específicamente cómo hacer análisis de este tipo de
fenómenos aprovechando señales ya editadas y en lo posible etiquetadas.
En los programas que se han presentado en este manual, puedes ver la señal en
forma de oscilograma o de espectrograma. El espectrograma es de gran utilidad para
identificar sonidos; no obstante, para medición del tiempo, debes considerarlo solo como
instrumento auxiliar; las mediciones debes hacerlas siempre en el oscilograma (para una
interesantísima explicación sobre este fenómeno, puedes consultar Ladefoged 2002: cc-cc y
la sección “3.1. Viewing a spectrogram” del menú de ayuda de PRAAT, también hay versión
en Internet).
El procedimiento más evidente para hacer mediciones de este tipo es marcar en el
oscilograma el fragmento de la señal que deseas medir. Por ejemplo, si deseas saber cuál es
la duración de una consonante, seleccionas el segmento de la señal que corresponde y los
programas dan la indicación de la duración del fragmento marcado. El proceso puede
mejorar con el uso de las etiquetas y con la automatización de la obtención de los datos.
8.1. Mediciones temporales en AUDACITY
Para hacer mediciones de tiempo en AUDACITY debes tener una señal con etiquetas en los
fragmentos que te interesa medir. Supongamos que tienes etiquetadas las sílabas que
componen una emisión y lo has hecho siguiendo las instrucciones dadas en el capítulo 6.
El paso siguiente es exportar los datos usando la opción EXPORTAR ETIQUETAS del
menú ARCHIVO. Aparece un formulario para nombrar el archivo txt y seleccionar el
directorio, tal como se muestra en la figura 8.1.
Figura 8.1. Formulario de AUDACITY para guardar el archivo con la
información de las etiquetas.
El archivo exportado lo puedes abrir desde un procesador de palabras o desde un
programa de cálculo. En dicho archivo tendrás tres columnas: el valor temporal de inicio, el
del término y la etiqueta misma.

Por ejemplo, puedes recuperar valores tales como los que se presentan, a modo de
ejemplo, en la tabla 8.1.
Inicio Término Sílaba
0.071002 0.148608 el
0.148608 0.264192 ka
0.264192 0.356659 pi
0.356659 0.465638 te
Tabla 8.1. Valores temporales recuperados a partir de las etiquetas de
AUDACITY.
Esa información no contiene explícitamente la duración de cada sílaba. Para
obtenerla hay que restar el valor de la celda de la columna 2 al de la de la primera columna;
este resultado se debe expresar en una nueva columna (todo esto se debe hacer en una
planilla electrónica). Con ello tendremos el valor de la duración de cada etiqueta, tal como
se ejemplifica en la tabla 8.2.
inicio Término Duración Sílaba
0,071002 0,148608 0,077606 el
0,148608 0,264192 0,115584 ka
0,264192 0,356659 0,092467 pi
0,356659 0,465638 0,108979 te
Tabla 8.2. Modificaciones a la tabla anterior para obtener la duración
de cada sílaba.
Si una etiqueta se inicia exactamente donde termina la otra, los cálculos serán muy
limpios; si hay algún desajuste, lo mejor será uniformar los datos de tal manera que, por
ejemplo, el número de la segunda fila de la primera columna sea exactamente el mismo que
el de la segunda columna de la primera fila, tal como se destaca a modo de ejemplo en la
tabla.
El orden de las columnas lo puedes rehacer desde el programa que utilices; que una
celda contenga el mismo valor de otra, es algo que también se puede automatizar y, por
supuesto, también la operación de restar los valores. Adicionalmente, en estos programas es
fácil obtener cómputos como el promedio, la desviación estándar, valores máximos y
mínimos.
En este programa las etiquetas se pueden editar (y también exportar) desde una
ventana especial que se despliega en el menú PISTAS > EDITAR ETIQUETAS, como se observa
en la figura 8.2:
Figura 8.2. Ventana de edición de etiquetas.
En esta ventana puedes reescribir el contenido de la etiqueta y modificar la unidad
de tiempo en que se expresan el inicio y el final.

8.2. Mediciones temporales en PRAAT
Obtener valores de duración en forma manual es muy sencillo. Basta con marcar el
segmento en la ventana de edición y la duración aparece en la ventana. En la figura 5.5,
como ya se ha señalado, se muestra una ventana de edición con un segmento marcado. En
esa figura, el número 4 señala una franja que permite escuchar la sección marcada; en esa
misma franja hay unos números que señalan la duración en segundos.
Obtener valores en forma permanente y automatizada implica necesariamente hacer
el TextGrid de la señal de audio y etiquetar los segmentos que quieres medir (por ejemplo,
con etiquetas para cada sílaba).
Para conseguir las etiquetas y las duraciones basta con tener en el panel de objetos
el TextGrid. A partir de este momento, el objeto con la señal es irrelevante, pues la
indicación temporal está contenida en el TextGrid.
Seleccionado el objeto TextGrid, puedes usar el botón QUERY para obtener los datos.
Especialmente interesantes son las siguientes opciones de este menú:
GET NUMBER OF INTERVALS… con esta opción se despliega un formulario que pide el
número del estrato y da como resultado el número de intervalos que hay en ese estrato. Si
no hemos puesto marca alguna, entonces contará un intervalo.
GET STARTING POINT… al seleccionar esta opción aparece un formulario que pide el
número del estrato y el número del intervalo; da como resultado el tiempo de inicio de ese
intervalo.
GET END POINT… operación similar a la anterior que da como resultado la ubicación
temporal del punto final de ese intervalo.

GET LABEL OF INTERVAL… el formulario pide el número del estrato y el del intervalo;
da como resultado la etiqueta que contiene.
Una serie de opciones paralelas para los estratos de puntos da como resultado el
número de puntos de un estrato (GET NUMBER OF POINTS…), el tiempo en el que se ubica una
marca (GET TIME OF POINT…) y la etiqueta (GET LABEL OF POINT…).
Con estas herramientas podemos obtener los valores de la duración de segmentos
etiquetados previamente, si le restamos al tiempo final de un intervalo, el tiempo de inicio.
Para lograrlo habrá que seleccionar el objeto TextGrid y usar el comando QUERY para
conseguir la primera etiqueta de un estrato, el punto de término y el punto de inicio de ese
mismo intervalo. Conseguidos esos elementos, deberás hacer la resta correspondiente
(tiempo de término - tiempo de inicio) y obtendrás la duración del segmento.
Esta es una manera correcta de hacerlo en PRAAT, pero resultará largo y tedioso.
Sabemos que los ordenadores son máquinas útiles especialmente para aquellas acciones que
se repiten muchas veces. Veremos ahora cómo programar una subrutina que realice estas
tareas, ya que efectivamente PRAAT lo permite y es una de las extraordinarias cualidades
señaladas al inicio de este manual. Las subrutinas se denominan scripts.
En concreto, la subrutina tendrá que hacer lo siguiente:
Seleccionar el TextGrid.
Seleccionar el estrato que corresponda.
En ese estrato, contar el número de intervalos y usar ese resultado como una
variable para lo que viene a continuación.
Para cada intervalo, obtener la etiqueta, los puntos de inicio y de término.

La subrutina deberá restar al valor del punto de término el valor del punto
de inicio y a ese resultado asignarle el nombre de una variable que
identifique la duración del segmento.
El paso final de esta tarea consiste en enviar a la pantalla las etiquetas y las
duraciones de los segmentos.
El script que realiza esa tarea, lo hace en los siguientes pasos:
1. Presenta un formulario para identificar el estrato (por defecto, 1) en el
que se quiere hacer las mediciones.
2. Limpia la pantalla de texto para volcar los resultados.
3. Escribe en la pantalla las expresiones “segmento” y “ms” separadas por
una tabulación.
4. Consigue el número de intervalos del estrato especificado en el
formulario inicial.
5. Un comando de tipo for hace que para todos los segmentos con
etiquetas, se identifique la etiqueta, el tiempo de inicio y el tiempo de
término y se haga la resta correspondiente y que finalmente envíe a la
pantalla el valor de la etiqueta y de la duración. Este comando contiene
una condición: si un segmento no tiene etiqueta, entonces no se envía el
resultado a la pantalla. Además, el resultado de la resta que expresa la
duración del segmento es multiplicado por 1000 para que el valor
aparezca en milisegundos.
# Inicio
# 1. El formulario
form Mediciones de tiempo en un estrato
natural estrato 1
endform
# “estrato” es ahora nombre de una variable
# 2 Limpieza de la pantalla para el volcado de datos
clearinfo
# 3. Escribe en la pantalla “segmento” y “ms”
printline segmento'tab$'ms
# 4. Consigue el número de intervalos que hay en “estrato”
n = Get number of intervals... 'estrato'
# “n” es ahora nombre de una variable
# 5. El comando for que:
# consigue etiquetas y valores temporales
# hace la resta necesaria
# multiplica el resultado por 1000
# envía los resultados a la pantalla
for i to n
etiqueta$ = Get label of interval... 'estrato' i
if etiqueta$ != ""
t1 = Get starting point... 'estrato' i
t2 = Get end point... 'estrato' i
tt = t2-t1
tt = tt*1000
printline 'etiqueta$''tab$''tt:2'
endif
endfor
# “t1”, “t2” y “tt” son nombres de variables.
# fin del script
Texto de script 1. Medición de segmentos.
Para usar esta subrutina es necesario tener el TextGrid en el panel de objetos, abrir
el editor de scripts de PRAAT (PRAAT > NEW PRAAT SCRIPT), copiar o reescribir el texto del
script (las líneas precedidas por “#” no son necesarias) y ejecutar el script (RUN en el menú
RUN del menú del editor de scripts). El resultado debe ser un archivo de texto con dos
columnas de datos. Esos resultados los puedes llevar a una planilla electrónica.
Puedes guardar el script en un directorio especial para estas herramientas. En la
pantalla del editor de script, en el menú FILE, existe la opción para guardarlo. PRAAT
permite incorporar tus propios scripts en los menús del programa, pero esto queda fuera del
alcance de este manual.
Otras mediciones
Hay unas mediciones de tiempo que son muy productivas en los análisis fonéticos y
que no son de segmentos exactamente, sino de relación entre dos puntos. El ejemplo más
típico, pero no el único, es el caso del VOT (voice onset time o ‘tiempo de inicio de la
sonoridad’). Se usa para describir consonantes oclusivas. Puedes ver interesantes
descripciones y ejemplos en Fernández Planas (2003: 97-98), Martínez Celdrán (2003: 80-
84). Básicamente se mide el tiempo que hay entre la explosión de una oclusiva y el inicio
de la sonoridad. Si tomamos la secuencia “ta”, observaremos un silencio que corresponde al
período de oclusión de [ t ̪], luego se observará la explosión y, después de un breve lapso, el
inicio de la sonoridad de la vocal siguiente. Lo mismo es válido para [ p ] y [ k ]. Para las
oclusivas sordas, la sonoridad comienza después de la explosión. En cambio si la secuencia
es “da”, se observa que la sonoridad de [ d ̪], y de las oclusivas sonoras en general,
comienza antes de la explosión. La figura 8.3 muestra ambos casos.
Figura 8.3. Secuencias “ta” y “da”. Las flechas señalan el momento del
inicio de la sonoridad. El tiempo entre líneas verticales corresponde a la
duración del VOT.
Para medir el VOT, el procedimiento habitual es considerar la explosión como punto
de referencia y en función de él medir la distancia temporal al inicio de la sonoridad. Si la
sonoridad aparece después de la explosión (como en “ta”), se dice que el VOT es positivo.
En cambio, si la sonoridad comienza antes, el VOT será negativo.

Como en las mediciones de segmentos, esto se puede hacer manualmente
seleccionando la porción de tiempo que media entre la explosión y el inicio de la sonoridad
en la ventana de edición. También podemos usar el script ya expuesto, pero en estos casos
no se podrá diferenciar automáticamente entre valores negativos y positivos.
Para resolver este problema, se puede crear un script que funcione a partir de un
TextGrid con dos estratos puntuales y en cada uno poner una marca (la del primer estrato
actuará como referencia y se situará en el punto de la barra de explosión). Al poner las
marcas en dos estratos diferentes, garantizamos que el resultado puede ser positivo o
negativo, ya que una actuará como el cero (referencial) y la otra marca podrá situarse antes
(valor negativo) o después (valor positivo).
El script especificará el sonido que estamos estudiando mediante un formulario
inicial. Luego deberá trabajar con el TextGrid y obtener los valores temporales para las
marcas que hay en los dos estratos (no puede haber otras marcas) y restar del valor del
estrato 2 el valor considerado como referencia (el de la marca del estrato 1). Por supuesto,
el script debe enviar los resultados a la pantalla.
El siguiente script automatiza esa tarea:
# inicio del script
clearinfo
form Especificar sonido
word sonido
endform
archivo$ = selected$("TextGrid")
select TextGrid 'archivo$'

a = Get time of point... 1 1
b = Get time of point... 2 1
tiempo = b - a
printline 'sonido$''tab$''tiempo:3'
# fin del script
Texto de script 2. Medición de diferencia temporal entre dos puntos.
El resultado se presenta en segundos y con tres decimales, tal como indica el
número “3” después de los dos puntos “:” en la última línea de instrucción del script.
Con lo visto hasta este momento, ya puedes hacer análisis de cuestiones temporales
en la señal acústica. Este tipo de análisis es muy importante ya que son muchísimos los
fenómenos fónicos relacionados con este parámetro, tal como se mencionó en el párrafo
inicial de este capítulo. Adaptando la información, en otros programas las posibilidades de
mediciones temporales son más o menos similares a las expuestas aquí.
Actividades
• Modifica el script usado para mediciones de segmentos de tal manera que:
a) Los resultados estén expresados en segundos y no en milisegundos.
b) Los datos aparezcan con un solo decimal.
• Con el texto del script en la ventana del editor de scripts, selecciona las líneas:
form Mediciones de tiempo en un estrato
natural estrato 1
endform
Cambia en la primera línea lo que está después de la palabra “form”; escribe, por
ejemplo, “Este es un formulario”; selecciona solo esas líneas y usa el comando RUN
SELECTION (desde el menú RUN). Observa el resultado para que más adelante puedas
crear tus propios formularios.
• Graba tu nombre completo y haz un TextGrid con cuatro estratos de segmentos: uno
para el nombre completo; otro para las palabras que lo componen; el tercero para las
sílabas y el cuarto para los sonidos. Usa el script presentado para hacer las
mediciones en todos los estratos.
• Graba tres veces una misma frase a diferentes velocidades: normal, lenta y rápida.
Investiga en esos datos, usando la herramienta TextGrid para saber cuántas sílabas
por segundo produces en cada caso.
• Graba las secuencias “ba da ga pa ta ka”. Crea archivos separados para cada
emisión. Para cada archivo, haz el TextGrid con dos estratos de puntos y pon las
marcas en la explosión y en el inicio de la sonoridad. Usa el script y guarda los
resultados en una hoja de cálculo.

9. ANÁLISIS DE FORMANTES
En este capítulo aprenderás a obtener los valores de los formantes
vocálicos.
¿Cómo se caracterizan acústicamente las vocales? ¿Cómo puedo crear vocales artificiales
por medio de un computador? ¿A qué se debe que una vocal se perciba como más aguda
que otra? ¿Qué rasgos acústicos son relevantes desde el punto de vista de la percepción
para la discriminación de las vocales? Este capítulo se estructura en función de preguntas
como estas.
Una noción básica es la de formante. Baste aquí con señalar que las cavidades
supraglóticas actúan como resonadores que, dada su movilidad, pueden reaccionar a
diferentes frecuencias. La manifestación acústica de esas resonancias son los formantes.
En el caso de las vocales y de los sonidos sonoros en general, al existir vibración de
las cuerdas vocales se produce el tono laríngeo, que consiste en una onda periódica
compleja con componentes que mantienen entre sí una relación frecuencial constante, es
decir, armónica. Al pasar a las cavidades supraglóticas, algunos de esos componentes se
amplifican y otros, correspondientemente, resultan atenuados, dependiendo de la forma
que adopta el resonador bucal. Por lo tanto, los formantes que se pueden apreciar en un
análisis acústico tienen un correlato articulatorio con las secciones que se pueden distinguir
en la cavidad de la boca.
Aunque la frecuencia de los formantes variará, como es sabido, según la
articulación de la que se trate, lo esperable es encontrar cinco formantes en un rango de 0 a
5000 Hz en la voz masculina, en tanto que para la voz femenina, lo esperable es encontrar
ese mismo número de formantes entre los 0 y los 5500 Hz; la diferencia se debe a la distinta
longitud del tracto vocal entre hombres y mujeres.
Los formantes se manifiestan acústicamente como concentraciones de energía en
ciertas zonas frecuenciales y tienen como cualidades fundamentales un centro de frecuencia
y un ancho de banda (o resonancia efectiva). La literatura especializada nos explica que los
dos formantes de más baja frecuencia (F1 y F2) son determinantes para la descripción y
percepción de las vocales.
La primera aproximación a los formantes se hace habitualmente en un
espectrograma de banda ancha en el que las zonas destacadas representan concentraciones
de energía, tal como fue expuesto en el capítulo 7.
Por razones técnicas, en este capítulo nos concentraremos exclusivamente en las
vocales y, por razones teóricas importantes, evitaremos, el análisis de aquellas que puedan
estar nasalizadas.
Análisis de formantes en AUDACITY
Este programa de edición de audio puede darnos una información interesante a partir de los
análisis espectrales, como se adelantó en el apartado Espectros, del capítulo 7.
Por ejemplo, si seleccionas en el oscilograma una porción en la que resulta evidente
que hay periodicidad (por ejemplo, un fragmento de una vocal), puedes hacer un análisis
espectral de banda ancha. Un espectro de este tipo se muestra nuevamente en la figura 9.1
A. Se expone al lado el análisis de banda estrecha para hacer la comparación.

Figura 9.1. Espectro (A) de banda ancha correspondiente a un
segmento de una vocal y (B) el mismo segmento analizado con banda
estrecha.
En el caso que se presenta en la figura 9.1 (A), el primer pico está en los 336 Hz. El
espectro mostrado en 9.1 (B) muestra los componentes, en este caso, está marcado uno de
ellos situado en la frecuencia 2282 Hz. Una medición de varios picos en el espectro de
banda estrecha mostraría que se trata de una onda periódica, efectivamente, y que la
distancia frecuencial entre cada componente es bastante parecida. Como se vio en el
capítulo anterior, el espectro de banda ancha es una visión más gruesa de las frecuencias
producto de la longitud de la ventana de análisis.
También puedes exportar los datos de un espectro, con lo que tendrás un archivo txt
de dos columnas en que aparecen todas las frecuencias computadas en el espectro y las
intensidades relativas de cada una.
El estudio de los formantes en AUDACITY tendría que considerar varios puntos de
análisis y en cada uno de ellos hacer el espectro (ancho), fijándose en los valores
específicamente de F1 y F2.
Análisis de los formantes en WAVESURFER
El programa WAVESURFER tiene varias opciones para desplegar los gráficos de
análisis acústico. En el menú File > Preferences > Misc se encuentra la opción Use
configuration. Aquí disponemos de posibilidades tales como Demonstration, IPA
Transcription, Speech Analysis, entre otras.
Al usar la opción Demonstration, se depliega una ventana que muestra la forma de
onda y el espectrograma. Adicionalmente, se muestra un cuadro de diálogo Image Controls
que permite cambiar los colores del espectrograma, una ventana Spectrum Section Plot con
el espectro correspondiente al punto donde se encuentra el cursor en la ventana con el
oscilograma. Todo esto se muestra en la figura 9.2.

Figura 9.2. Pantalla en el modo Demonstration de WAVESURFER. Se
observa la forma de onda y el espectro correspondiente, entre otras
ventanas.
El Spectrum Section Plot cambia si le pedimos que active el modo LPC (Linear
Predictive Coding). El mismo punto de la imagen anterior se observa ahora con el
espectrograma de banda estrecha:

Figura 9.3. El mismo punto de la imagen 9.2, pero esta vez con
espectro de banda estrecha.
De esta manera, el investigador dispone de los formantes en el espectrograma y los
valores correspondientes en el espectro; opcionalmente, puede hacer el análisis FFT.
Otra opción de este programa es el modo Speech analysis. Con esta, el programa
muestra una ventana como la de la figura 9.4.
Figura 9.4. El modo Speech analysis en WAVESURFER muestra el oscilograma, el
espectrograma con los centros frecuenciales de los cuatro primeros formantes y, abajo, la
curva de la frecuencia fundamental.

En la última línea de esta ventana, aparecen los datos numéricos de tiempo y
frecuencia del punto que señala el cursor. En la medida en que el investigador señale el
centro de frecuencia de uno de los formantes, aparecerán los valores correspondientes. Se
debe tener en cuenta que el programa permite modificar la trayectoria de los formantes, por
lo que se debe “apuntar” con el cursor, pero no “arrastrarlo”, pues modificará los valores
originales de la señal.
Análisis de los formantes en PRAAT
Para estudiar los formantes usando PRAAT, hay dos maneras. Una es observar los formantes
en la ventana de edición en la que puedes obtener datos numéricos precisos. La otra manera
es crear un objeto FORMANT con el fin de obtener datos de manera automática.
Formantes en la ventana de edición de PRAAT
Como ya te resulta familiar, al editar una señal sonora, PRAAT despliega una ventana que
tiene la opción FORMANTS en menú superior. Si activas la opción SHOW FORMANTS, verás en
rojo los formantes identificados por el programa.
Con la opción FORMANT SETTING, se despliega un formulario en el que se especifican
varios parámetros. Para una voz femenina, como se mencionó al comenzar este capítulo,
hay que usar 5500 para el campo MAXIMUM FORMANT (HZ) y fijar en 5 el campo NUMBER OF
FORMANTS. Para voz masculina hay que cambiar el valor de MAXIMUM FORMANT (HZ) a
5000. Esto implica que el programa encontrará solo 5 formantes entre los 0 Hz y los 5500
Hz, o 5000 Hz.
Con la opción DOT SIZE (MM) puedes cambiar el tamaño del trazo. Con 0.5 será
bastante fino y con 2 será más bien grueso.

Ajustando estos parámetros puedes inspeccionar visualmente los valores de los
formantes de una señal en esta ventana de edición. Al situar el cursor en un punto del
espectrograma, por ejemplo, sobre un punto de formante, al lado izquierdo de la ventana
tendrás el valor en Hz correspondiente a ese punto. Esto ya se indicó en el comentario a la
figura 5.2. En la figura 9.5, tienes otro ejemplo de ventana de edición (oscilograma,
espectrograma y formantes). Ya que este caso es el de una voz femenina, el espectrograma
está graduado para mostrar hasta los 5500 Hz y este es también el número para el MAXIMUM
FORMANT (HZ).
Figura 9.5. Los formantes en la ventana de edición.
Si cuentas las líneas formadas por los puntos rojos superpuestos en el
espectrograma, vemos que el máximo número de formantes es 5. Por ejemplo, en la zona
marcada con (1).
El valor que se muestra en el lado izquierdo (2) corresponde al centro de la
frecuencia del formante que está en el punto del cursor (3).

Algunas veces, se producen resonancias que no corresponden estrictamente a los
formantes que interesan para la descripción fonética, sino que son resonancias propias de
una emisión de una persona. El análisis de los formantes debe seguir una cierta lógica que
gráficamente se manifiesta en la continuidad de la dirección del trazo. Aquellos puntos que
se salen de esa dirección son valores espurios que no deben ser considerados en el análisis.
En la zona marcada con (4) ocurre este fenómeno: aparecen unos puntos que no se deben
tomar en cuenta en el análisis. En otras palabras, al estudiar los formantes de una vocal se
debe tomar la medición en una zona de la señal en la que los valores sean claros y
consistentes.
En el menú FORMANT hay una serie de posibilidades bajo la sección QUERY para la
obtención de valores de los formantes y de los anchos de bandas respectivos. La primera de
esas opciones, FORMANT LISTING, da la lista de los valores de los centros de frecuencia de los
formantes en un punto si tienes el cursor en un punto de la señal o en una selección, si
tienes un fragmento marcado. La lista de valores la puedes copiar en un programa para
hacer los cálculos. Las demás opciones se refieren al centro de frecuencia o al ancho de
banda (bandwidth) de cada formante.
Uso del LOG FILE
Una manera rápida de hacer los análisis es con el sistema LOG FILE del menú QUERY
del menú superior. En primer lugar, conviene revisar la opción LOG SETTINGS… del menú
QUERY del menú superior. El formulario tiene la apariencia que muestra la figura 9.6.
Figura 9.6 Formulario del LOG SETTING.
Pon atención en el campo LOG 2 FORMAT que, por defecto, contiene:
't1:4''tab$''t2:4''tab$''f1:0''tab$''f2:0''tab$''f3:0'
Esto se lee así:
 ‘t1:4’ simboliza el tiempo de inicio de la selección expresado con cuatro
decimales.
 ‘tab$’ indica una tabulación. (Este símbolo se repite más adelante.)
 ‘t2:4’ simboliza el tiempo de término de la selección expresado con
cuatro decimales.
 ‘f1:0’ simboliza el centro de frecuencia del primer formante
expresando en números redondeados (sin decimales).
 ‘f2:0’ simboliza el centro de frecuencia del segundo formante, y

también está expresado en números redondeados.
 ‘f3:0’ simboliza el centro de frecuencia del tercer formante y se expresa
también sin decimales.
Si no has marcado un fragmento de la señal, en ‘t1:4’ y ‘t2:4’ se indicará la posición
del cursor.
Usa este método: pon el cursor en un punto de la señal en el que te interese medir
los centros de frecuencias de F1, F2 y F3 y selecciona en QUERY, del menú superior de esta
ventana de edición, la opción LOG 2. Aparecen en una ventana de texto los números
correspondientes a tiempo y valores frecuenciales de lo que se ha indicado. Cambia la
posición del cursor a otro punto (o selecciona un segmento vocálico estable) y repite la
operación LOG 2. Se crea así un archivo de texto en el que vas acumulando la información
solicitada.
En LOG SETTING… puedes cambiar las peticiones y obtener la información temporal
y la de los valores frecuenciales de los formantes 1 y 2 con sus correspondientes anchos de
banda, si especificas el siguiente contenido en la entrada del campo LOG 2 FORMAT :
't1:2''tab$''t2:2''tab$''f1:0'’b1:0’'tab$''f2:0'’b2:0’'tab$'
donde ‘b1:0’ simboliza ancho de banda de F1 expresado sin decimales. Si tienes
seleccionada una porción de la señal, entonces serán distintos los valores de ‘t1’ y ‘t2’; y el
cálculos de F1 y de F2 será un promedio en cada caso; en tanto que el ancho de banda se
calculará en el centro de la selección. Puedes agregar el elemento ‘dur:2’ para expresar la
duración del fragmento con dos decimales.

El objeto FORMANT
Crear un objeto FORMANT es útil para poder automatizar tareas de análisis, como las
anteriores. Hay dos formas para crear un objeto de este tipo:
A. En la ventana de edición, si está activa la opción que permite mostrar
los formantes, en el mismo menú FORMANT, seleccionas EXTRACT VISIBLE
FORMANT CONTOUR. Con ello se crea un nuevo objeto en el panel PRAAT
OBJECTS con el nombre Formant untitled.
B. Selecciona el objeto SOUND en el panel de objetos y activa el menú (de
la zona ANALYSE) FORMANT & LPC- . En este menú se encuentra la
opción TO FORMANT (BURG)...; con ella se crea un nuevo objeto, pero, a
diferencia de la modalidad anterior, el nuevo objeto FORMANT conserva
el nombre del objeto SOUND.
Con este objeto creado, puedes usar el botón QUERY de la misma manera como se
presentó el mismo comando desde el menú FORMANT de la ventana de edición. Este
comando es el se emplea para automatizar las tareas.
Uso del TextGrid para el análisis de los formantes
Vamos a suponer que te interesa conocer los valores de los formantes 1, 2 y 3 en las
vocales de una emisión.
Para hacer el análisis de los formantes usando el TextGrid, debes editar el objeto
Sound y el TextGrid correspondiente (con un estrato puntual). La opción Show formants
debe estar habilitada. Posteriormente será necesario crear también el objeto Formant
correspondiente.
En el estrato puntual debes poner las marcas en los lugares donde te interesa
conocer los valores del centro de frecuencia del formante y del ancho de banda respectivo;
para hacerlo, recuerda, debes editar el objeto SOUND junto con TextGrid y al situar las
marcas debes tener en cuenta lo explicado antes sobre los valores espurios que suelen
aparecer en las señales. Escribe una etiqueta en cada marca con la vocal de la cual se trate.
Una vez hecha esta operación, tendrás tantas marcas puntuales como puntos en el
enunciado donde te interese conocer los valores. Y en cada marca estará escrita una
etiqueta. Un ejemplo se muestra en la figura 9.7.
Figura 9.7. Ejemplo de señal y TEXTGRID con un estrato de puntos en
el que aparecen las marcas con etiquetas (vocales) donde se estudiarán
los valores de los formantes.
En la figura anterior, están etiquetadas todas las vocales del enunciado excepto una
que está nasalizada.
Las operaciones siguientes las harás manualmente. Esta manera es muy lenta, pero
es necesaria para comprender qué hará el script al automatizar la tarea. La recomendación
es que sigas los pasos siguientes uno a uno para que sepas cabalmente cómo funciona el
script que presentaremos después.
1. En el panel de objetos, selecciona el objeto TextGrid en el que has
puesto las marcas con las etiquetas (no es necesario que selecciones al
mismo tiempo el objeto Sound). Simplemente selecciónalo, no lo edites.
2. Identifica la posición de las marcas en el estrato puntual con el comando
GET TIME OF POINT... del botón QUERY. Tendrás que hacerlo tantas veces
como marcas tengas en el estrato puntual del TEXTGRID. Al activar esta
opción, tendrás que completar un formulario simple de dos campos:
TIER NUMBER y POINT NUMBER (número del estrato y número de la
marca). Si el estrato puntual donde tienes las marcas es el número 3, ese
será el TIER NUMBER. El número de cada marca (POINT NUMBER) es
correlativo, si hay 19 marcas, la primera será 1 y la última será 19.
3. Aparece una pantalla de texto con la información del valor temporal de
cada marca. Almacena ese valor pues será útil para un paso siguiente.
Usa la forma habitual para copiar un texto: marca con el cursor el texto
y selecciona la opción COPY del menú EDIT. En este momento, ese
valor está en la memoria operativa del computador.
4. Selecciona ahora el objeto FORMANT en el panel de objetos.
5. Para obtener el centro de la frecuencia de un formante, en el menú que

se despliega con el botón QUERY, selecciona primero GET VALUE AT
TIME... Aparece un formulario en el que hay que completar FORMANT
NUMBER, TIME (S), y otros dos campos más (estos últimos no conviene
modificarlos). El primer campo de este formulario se refiere al número
del formante; el segundo, al momento de la señal en que se pide el
análisis. Para obtener la información sobre el F1 correspondiente a la
primera marca, debes escribir “1” en FORMANT NUMBER y pegar el texto
del punto 3 (la información temporal). Si has seguido los pasos, solo
debes posicionarte en el campo TIME (S) y pegar el texto. Presionas OK
y aparece, en una ventana de texto, el valor frecuencial que puedes
“copiar y pegar” en un programa de cálculo. Obviamente para el F2, en
FORMANT NUMBER habrá que escribir “2” y así sucesivamente. El
máximo es, según lo que hemos especificado, cinco.
6. Para conseguir el ancho de banda de un formante, la operación es
parecida a la anterior. Seleccionado el objeto FORMANT, en el menú del
botón QUERY eliges la opción GET BANDWIDTH AT TIME... y completas el
formulario que aparece con el número del formante, por ejemplo, “1” y
el tiempo; pegas el texto que todavía debe permanecer en la memoria
operativa. Con OK se despliega el valor del ancho de banda, que debes
“copiar y pegar” en el programa en el que realizarás los cómputos.
7. Repites estas operaciones con cada uno de los formantes que deseas
analizar y en cada una de las marcas que tienes en el estrato puntual en
el TEXTGRID.
Una vez realizadas estas operaciones, tendrás una lista de valores de centros
frecuenciales anchos de banda para cada una de las marcas puestas en el estrato puntual del
TEXTGRID.
Tus resultados se pueden ordenar en una tabla que tenga provisoriamente las
siguientes columnas:
Vocal Tiempo F1 b1 F2 b2 F3 b3
La columna “Vocal” indicará de qué vocal se trata, la columna “Tiempo” tendrá una
entrada en segundos (s) y todas las columnas siguientes tendrán entradas en Hz de los
centros de frecuencias de los formantes 1, 2 y 3 y los respectivos anchos de banda ( “b”).
Análisis automatizado de los formantes
El script siguiente permite realizar las tareas anteriores de manera automatizada. Lo único
que el programa no hace es poner las marcas y las correspondientes etiquetas en el
TEXTGRID; esas son prerrogativas del investigador.
Lo que hace este script es, básicamente:
1. Presentar un formulario en el cual se indiquen los datos del informante,
el estrato que tiene las marcas y si se trata de mujer o de hombre.
2. Imprimir en pantalla una línea con títulos para las columnas: Caso,
Iniciales, Sexo, Tiempo, Vocal, F1, b1, F2, b2.
3. Seleccionar el objeto SOUND y crear el objeto FORMANT correspondiente.
Para la especificación de MAXIMUM FORMANT (HZ) usará valores
diferentes según sea el sexo del informante.

4. Identificar, en el TEXTGRID, el número de puntos y para cada punto
(desde 1 hasta el número de puntos que existan en ese estrato) identifica
la etiqueta y el tiempo en el que está localizada.
5. Conseguir los datos (centro de frecuencia y ancho de banda), en el
objeto FORMANT, de los formantes 1 y 2 en el tiempo en el que están
puestas las marcas con las etiquetas y enviar a la pantalla de
información las etiquetas y los valores correspondientes
6. Eliminar el objeto FORMANT de la lista de objetos.
Este es el texto del script:
clearinfo
# Presenta el formulario para los datos del informante
form Informante
word iniciales INIC
natural estrato 1
choice sexo 1
button f
button m
comment En "estrato" indique el numero del estrato con marcas para los formantes
endform
# Asigna distintos valores dependiendo del sexo del informante.
if sexo$ = "m"
valor = 5000
elsif sexo$ = "f"
valor = 5500
endif
# Imprime una línea de títulos de columnas
printline
Caso'tab$'Iniciales'tab$'Sexo'tab$'Tiempo'tab$'Vocal'tab$'F1'tab$'b1'tab$'F2'tab$'b2
# Selecciona el objeto Sound y crea el objeto Formant
sonido$ = selected$ ("Sound")
select Sound 'sonido$'
To Formant (burg)... 0 5 'valor' 0.025 50
# En el TextGrid, busca el número de marcas, y las etiquetas existentes.
# En el objeto Formant encuentra los valores para F1, F2, b1, b2 para cada punto
# Imprime los datos en la pantalla.
select TextGrid 'sonido$'
ndepunto = Get number of points... 'estrato'
for i to ndepunto
select TextGrid 'sonido$'
tiempopunto = Get time of point... 'estrato' 'i'
etiquetapunto$ = Get label of point... 'estrato' 'i'
# seleccionar objeto formantes
select Formant 'sonido$'
f1 = Get value at time... 'estrato' 'tiempopunto' Hertz Linear
b1 = Get bandwidth at time... 'estrato' 'tiempopunto' Hertz Linear
f2 = Get value at time... 2 'tiempopunto' Hertz Linear

b2 = Get bandwidth at time... 2 'tiempopunto' Hertz Linear
printline
'i''tab$''iniciales$''tab$''sexo$''tab$''tiempopunto:2''tab$''etiquetapunto$''tab$''f1:0''tab
$''b1:0''tab$''f2:0''tab$''b2:0''tab$'
endfor
# Selecciona el objeto Formant y lo borra
select Formant 'sonido$'
Remove
Texto de script 9.1. Análisis de los formantes
Con esta nueva herramienta puedes hacer los análisis de formantes en gran cantidad
de vocales y tener así una cantidad considerable de datos que te permitan llegar a resultados
consistentes.
Síntesis de vocales
Los estudios de los formantes vocálicos han permitido sintetizar, es decir, crear sonidos que
suenan como las vocales a partir de formalizaciones numéricas de frecuencia fundamental o
F0 (este concepto se verá en detalle más adelante) y valores formánticos, especialmente de
F1 y F2.
Sobre este asunto en particular, recomiendo, por una parte, una página web que es
una verdadera "fábrica de vocales", perteneciente al Speech Research Lab (A. I. duPont
Hospital for Children y la Universidad de Delaware); por otra parte, es conveniente
conocer la versión demo del programa FORMANT SYNTHESIZER; finalmente, hay que usar el
módulo de síntesis de vocales de PRAAT. Estos programas o módulos permiten crear
vocales especificando los valores de F1 y F2 y son experiencias muy interesantes que se
pueden aprovechar en estudios perceptivos.
La página mencionada es de la autoría de H. Timothy Bunnell y su dirección
electrónica es esta: http://www.asel.udel.edu/speech/tutorials/synthesis/vowels.html.
Presenta la interfaz que se observa en la figura 9.8:
Figura 9.8. Interfaz del sintetizador de vocales del SRL.
En esta ventana, el usuario indica los valores de la frecuencia fundamental y los tres
primeros formantes, además de la duración (en milisegundos) en los campos
correspondientes y luego activa el botón Synthetize. Aparece una nueva pantalla con la
opción Listen to result. Al activar el ícono correspondiente, podemos escuchar el resultado
de nuestra síntesis.
En FORMANT SYNTHESIZER, se muestra una ventana compleja, como la de la figura
9.9. El programa nos presenta los valores referidos a la fuente (tono laríngeo) en rojo y los
referidos a las resonancias, o filtro, en verde. Aquí se pueden manipular todos los
parámetros: el centro de frecuencia (Frequency) y el ancho de banda (Bandwith).
Figura 9.8. Pantalla de FORMANT SYNTHESIZER para generar vocales sintéticas.
No exagero si digo que usar este programa es una experiencia divertida pues uno
presiona el botón Play y el programa genera el sonido. Además, el usuario puede modificar
los valores mientras el sonido se ejecuta, con lo que se observa la variación y el efecto de
cada uno de los parámetros que se pueden manipular.
El módulo editor de vocales de PRAAT, (New > Sound > Create sound from
VowelEditor, presenta una pantalla como la de la figura 9.10 A y B.

Figura 9.10. EL editor de vocales de PRAAT. En A se observa la pantalla inicial y en B una
trayectoria de F1 y F2 hecha por el investigador.
En este módulo, el usuario tiene que poner el cursor en algún punto de este espacio
acústico-vocálico. Al hacer clic, se escucha el sonido correspondiente. Al mover el cursor
por ese espacio el sonido variará de acuerdo con las frecuencias del F1 (eje vertical) y del
F2 (eje horizontal).
El sonido creado se puede llevar al panel de objetos mediante el botón Publish, en la
parte inferior de la ventana. Con esta opción puedes crear estímulos con distintos valores
para F1 y F2 y someterlos a pruebas de percepción.
Es importante que te des cuenta de que si el gráfico representa el F2 en el eje
horizontal (y con valores dispuestos en forma logarítmica, no lineal) la representación
acústica es equivalente a la articulatoria. En la parte superior están las vocales altas [i u] y
en la parte baja la vocal [a]; hacia la izquierda las vocales de la serie palatal y hacia la
derecha las velares.

Actividades
• Haz la operación de exportar los datos de un espectro de AUDACITY. Lee ese
archivo desde una planilla electrónica; coge los datos de la columna de
intensidad (las frecuencias están en orden correlativo) y haz un gráfico con esos
valores. Compara el gráfico que has hecho con el espectro que el programa
realizó automáticamente.
• Usa el script 9.1 para hacer la lista de los valores de las vocales de una emisión
breve, que tenga unas 10 vocales.
• Graba expresiones que tengan una misma vocal como, por ejemplo: “El que
debe es él”, “La rana canta para la hada”, “Sí; insistí”, “Yo no como poco”, “Su
luz, un tul” y haz la misma operación de análisis anterior con cada emisión.
• Graba emisiones que contengan las cinco vocales del español, tales como “Mira
su pelo” y estudia las diferencias de los formantes usando también el script ya
presentado. Puedes comparar también los valores de la voz femenina y la
masculina.
• Graba dos veces expresiones en las que haya vocales en contacto, como, por
ejemplo, “El río estaba en la imaginación de uno”. La primera vez, hazlo con
velocidad normal; la segunda, muy rápido. Aplica el script y compara los
valores conseguidos. ¿Cambian notoriamente algunos valores?
• Revisa en la bibliografía de fonética del español las “cartas de formantes”.
Algunos de los valores obtenidos, sitúalos en una carta de formante hecha por ti.
Ten en cuenta que muchas veces se utilizan escalas logarítmicas para esas
representaciones.
10. ANÁLISIS DEL TONO (PITCH)
En este capítulo aprenderás a obtener los valores de la frecuencia
fundamental.
¿Se diferencian los dialectos hispánicos por la melodía del habla? ¿En qué unidades de
medida se expresa mejor la altura tonal? ¿Cómo se puede caracterizar melódicamente una
pregunta? ¿Cómo se puede comparar la voz femenina y la voz masculina si una de ellas es
naturalmente más aguda? El tema que se desarrolla en este capítulo está relacionado con
este tipo de preguntas.
Frecuencia fundamental y pitch
En el capítulo anterior, observábamos que la vibración de las cuerdas vocales produce un
sonido rico en armónicos que se modifica por las cavidades supraglóticas que actúan como
amplificadores de algunas de esas frecuencias. De esa manera se originan los formantes de
las vocales y los de las consonantes sonoras.
Los armónicos mantienen una relación matemática entre sí. La diferencia de
frecuencia entre ellos es constante. Por ejemplo, si un armónico tiene 500 Hz y el siguiente
tiene 600 Hz, podemos suponer que el anterior tiene 400 y que el siguiente tiene 700.
Podemos afirmar también que el décimo armónico tiene 1000 Hz. En otras palabras, todos
son múltiplos de 100. Esta diferencia es la frecuencia fundamental o f0 entendida como
unidad puramente acústica y se relaciona con la duración del ciclo: una f0 de 100 Hz
implica que en un segundo habrá 100 ciclos, por lo tanto, cada ciclo dura 10 ms.
La frecuencia fundamental tiene un correlato perceptivo, el tono o pitch. Hay una
estrecha relación entre ambos conceptos y la frecuencia de vibración de las cuerdas vocales.
Dicho con otras palabras, la vibración periódica de las cuerdas vocales, por ejemplo, a una
razón de 100 vibraciones por segundo, se registra acústicamente como una frecuencia
fundamental de 100 Hz y esto produce una percepción de una altura tonal de 100 Hz.
La medición acústica de la frecuencia fundamental ha resultado extraordinariamente
importante para el desarrollo de los estudios de la entonación. Actualmente hay una
interesante proliferación de investigaciones y de proyectos en torno a la prosodia y
especialmente de fenómenos que se estudian a través de la frecuencia fundamental.
Cómo obtener el valor de la frecuencia fundamental
Hay varias formas complementarias para obtener el valor de la frecuencia fundamental.
Revisaremos algunas de ellas.
El espectro
Si produces un espectro de una vocal o de una consonante sonora (recuerda lo revisado en
el capítulo 7) de alta definición frecuencial, podrás observar los armónicos de la porción de
la señal analizada. Una vez con el espectro a la vista solo tienes que tomar dos
componentes contiguos y observar cuál es la diferencia de frecuencias entre ellos. Por
ejemplo, si tomas el noveno y el décimo y los valores son, respectivamente, 2025 Hz y
2250 Hz, puedes establecer que la frecuencia fundamental es de 225 Hz, es decir, la
diferencia entre ellos.
Con toda seguridad, el primer componente debe tener 225 Hz, el segundo 450 Hz, el
tercero 675 Hz, el cuarto 900 Hz y así sucesivamente.
Para identificar los valores de la frecuencia fundamental de una emisión debes hacer
sucesivos análisis espectrales en los puntos en que te interesa hacer la medición; recuerda
que deben ser segmentos periódicos de la señal. Por razones teóricas, siempre se privilegia
el análisis de este componente en las vocales.
El espectrograma de banda estrecha
Un análisis semejante al anterior se puede realizar con un espectrograma de alta resolución
frecuencial o, lo que es lo mismo, de banda estrecha. Hay que tener en cuenta que un
espectrograma es una sucesión de espectros, como afirmamos en el capítulo 7. Por lo
mismo, en un espectrograma de banda estrecha (es decir, de una ventana de análisis larga,
por ejemplo, de 30 ms, en el que se tiene buena resolución de las frecuencias) se puede
apreciar la evolución de todos los componentes armónicos.
Habrá que establecer un rango de Hz que permita ver con relativa nitidez las bajas
frecuencias. Normalmente los espectrogramas tienen una gama de 5000 o 5500 Hz, pero
ahora necesitamos concentrarnos en las frecuencias bajo los 1000 Hz.
La figura 10.1 muestra tres espectrogramas de banda estrecha de una misma porción
de señal con distintas gamas de Hz desplegadas en el eje vertical. En A la gama va de 0 Hz
a 5000 Hz; en el caso B, de 0 Hz a 2500 Hz y en C de 0 Hz a 1000 Hz.
A B C
Figura 10.1. Espectrogramas de banda estrecha. A) de 0 Hz a 5500 Hz;
B) de 0 Hz a 2500 Hz y C) de 0 Hz a 1000 Hz.
Podemos comentar que en A se observa una gran cantidad de armónicos, más o

menos 16. El movimiento frecuencial se nota más exagerado en las partes altas del
espectrograma. En B tienes un acercamiento a las frecuencias, un poco menos de la mitad
de las que se registran en A y aparecen solo los 7 primeros componentes. En este segundo
gráfico las variaciones de frecuencias se notan con más claridad que en el primero. En C se
muestra hasta los 1000 Hz y solo se observan 3 componentes. Con esta gama es más fácil
identificar los valores de la frecuencia fundamental (el componente más bajo). Estos
gráficos están hechos con PRAAT y para obtener los valores frecuenciales hay que ceñirse a
lo explicado en el capítulo 5, a propósito de la figura 5.6.
Si la señal ha sido filtrada, no aparecerán todos los componentes; sin embargo el
valor de la frecuencia fundamental lo puedes inferir pues ya sabes que la relación entre
armónicos indica el valor de la frecuencia fundamental. Esto se puede apreciar en la figura
10.2.
0 200 400 600 800 1000 1200

Figura 10.2. Espectro con cuatro componentes a 100 Hz de distancia.
En este espectro, se representan 4 componentes. El primero es de 400 Hz; no
obstante le valor de la frecuencia fundamental es de 100 Hz. Este valor está dado por la
diferencia entre regular entre los armónicos, que están situados a los 400 Hz, 500 Hz, 600
Hz y 700 Hz. Este es el mecanismo por el cual nuestro cerebro puede interpretar el tono
fundamental en las señales telefónicas, que están filtradas.
En el oscilograma
La forma más exacta para obtener el valor de la frecuencia fundamental es medir la
duración de un ciclo y calcular el número de ciclos que pueden existir en un segundo. Por
ejemplo, si el ciclo mide 10 ms (0.010 s) habrá que dividir 1 por 0.01).
En todos los programas mencionados en este manual, puedes hacer la medición del
ciclo mediante la selección y acercamientos sucesivos en el oscilograma. Además puedes
hacerlo con un nivel de precisión muy grande si, teniendo un ciclo seleccionado, ajustas los
cursores al nivel del 0 amplitud.
En PRAAT, siempre que seleccionas una porción de una señal en la ventana de
edición, automáticamente se realiza el cálculo de la frecuencia en la barra superior. Si el
fragmento seleccionado es breve, entonces la frecuencia aparece entre paréntesis, tal como
se muestra en la figura 10.3.

Figura 10.3. Ventana de edición de PRAAT en la que se ve la
información del pitch, y se ha desactivado el espectrograma. Se indica
el tiempo que dura el fragmento seleccionado (1) y la frecuencia
correspondiente (2). Tanto el inicio (3) y fin de la selección (4) están
ajustados a los cruces por cero. La frecuencia obtenida en forma
manual (2) coincide gruesamente con la obtenida en forma automática
(5).
El script siguiente puede ser útil si deseas calcular una frecuencia a partir de una
duración dada (expresada en ms) sin tener la señal a la mano.
# Script que pide un valor en milisegundos
# y proporciona el valor de F0 correspondiente
clearinfo
form Convierte duración del ciclo en valor de F0
real el_ciclo_es_de
comment (milisegundos)
endform
t = 'el_ciclo_es_de'/1000
frecuencia = 1/'t'
printline Duración'tab$'Fo
printline 'el_ciclo_es_de:2''tab$''frecuencia:2'
Script 10.1. Convierte el valor de un ciclo en el correspondiente valor
de la frecuencia fundamental.
Algoritmos de autocorrelación
Los programas diseñados para analizar acústicamente el habla usan algoritmos que buscan
en forma automática patrones en la forma de la onda. El resultado de la aplicación de un
algoritmo de este tipo es una curva que muestra variaciones de frecuencia a través del
tiempo. Por ejemplo, la figura 10.4 muestra una curva de f0 obtenida en PRAAT.
300
200
100
0 0.3 0.6 0.9 1.2 1.5 1.8
Figura 10.4. Ejemplo de una curva de valores de f0 obtenida en PRAAT
En el eje horizontal se muestra el tiempo y la frecuencia en el eje
vertical.
Este gráfico muestra el tiempo en el eje horizontal y la frecuencia (en Hz) en el eje
vertical. Esta señal tiene dos prominencias por encima de los 200 Hz: aproximadamente en
el segundo 0.7 y en el 1.3. En tres partes el trazo está interrumpido; a pesar de ello se puede
apreciar una continuidad en la dirección del mismo. Esos cortes corresponden a porciones
aperiódicas de la señal; a pesar de esas interrupciones naturales en toda muestra de habla,
nuestro sistema perceptivo reconstruye siempre la melodía en forma continua.
El mismo tipo de curva presenta el programa WAVESURFER. Así se aprecia en la
figura 10.5:
Figura 10.5. En WAVESURFER, con la configuración Speech analysis se
observa la curva de frecuencia fundamental en el panel que está bajo el
espectrograma.
Esta forma de obtener los valores de la frecuencia fundamental es producto de un
algoritmo que funciona con el método de autocorrelación, es decir, hace una búsqueda de
los valores de la señal en una ventana de análisis hasta encontrar un patrón. No obstante,
algoritmos como este suelen cometer errores. Frecuentemente, uno puede encontrar bruscas
caídas o ascensos súbitos que tienen diferencias del doble de Hz. Observa la figura 10.6, en
la que se muestra una curva de pitch con caídas que no corresponden a valores
frecuenciales efectivos.
500
300
100
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2
Figura 10.6. Ejemplo de un análisis automático con dos errores.
Si usamos alguna estrategia para corregir los valores erróneos, podemos obtener,
automáticamente también, un resultado como el que se muestra en la figura 10.6.
500
300
100
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2
Figura 10.7. Ejemplo de análisis automático en el que se han
corregido los valores que originalmente proporcionaba el
algoritmo.
¿Qué debes hacer cuando te encuentras con un valor sospechoso? La mejor opción
es siempre obtener manualmente el valor del pitch en aquella parte donde te parece que hay
un valor erróneo y corregirlo. En otras palabras, una curva que representa valores de f0
obtenidos mediante un algoritmo de autocorrelación es siempre una guía útil acerca de los
valores de f0 de esa emisión, pero solo una guía y siempre debe ser verificada y, si es
necesario, corregida.
Edición del pitch
Las curvas obtenidas automáticamente mediante algoritmos de autocorrelación

proporcionan rápidamente los valores pero, como hemos visto, pueden fallar en ciertos
puntos del análisis. Además del tipo de error mencionado pueden ocurrir otros, como que
no aparezca un valor donde evidentemente lo hay y, el opuesto, que aparezca un valor
donde sabemos que no hay periodicidad en la frecuencia. Por estas razones, los valores que
el algoritmo proporciona deben ser revisados y, si tienen errores, hay que corregirlos.
En la ventana de edición de PRAAT, la curva de pitch se aprecia en azul si tenemos
activada la opción correspondiente, tal como explicamos en el capítulo 5. Esa es una buena
manera para hacer una primera exploración de los valores, pero puede presentar errores, por
lo que hay que hacerlo con precaución.
Con la opción PITCH SETTING se puede establecer la gama de Hz desplegados y las
unidades usadas para presentar los valores: Hz, st, mel, ERB. Sobre la gama frecuencial es
muy importante tener en cuenta que aquellos valores que se sitúen fuera de la gama
establecida no serán computados. También hay que saber que la duración de la ventana de
análisis se establece automáticamente de tal manera que puedan ocurrir tres ciclos del valor
más bajo establecido, o seis, según el tipo de ventana de análisis.

Figura 10.8. Parámetros para el establecimiento del pitch en
PRAAT.
En los dos primeros campos se establece el rango de Hz en los cuales el programa
encontrará valores “candidatos” al pitch. Con la opción Unit se selecciona la unidad en la
que se expresan los valores. Las opciones del menú Drawing method permite la opción de
dibujar la curva con línea o puntos.
En la figura 10.6 se muestran los valores corregidos de los de la figura 10.5. Una
manera para enmendar este tipo de errores es cambiar el valor más bajo desplegado, de tal
manera que, como en el ejemplo, si no se computan los valores bajo los 120 Hz el error no
se produce.
De la misma manera, si una señal tiene un pitch sobre los 500 Hz y hemos fijado los
parámetros en un máximo de 300 Hz, también tendremos error. Por ejemplo, compárese el
resultado hacia el final de la emisión en las dos imágenes de la figura 10.9:

A B
b1
a
a1
Figura 10.9. Resultados del análisis automático con dos gamas de Hz
diferentes. Aunque los dos gráficos muestran desde 0 Hz a 700 Hz,
en A el cómputo se realizó entre los 75 Hz y los 500 Hz; en tanto que
en B, entre los 150 Hz y los 700 Hz. Los círculos indican puntos en
los que hay diferencia en los resultados.
Las imágenes de la figura 10.9 corresponden a dos cómputos del pitch. En la
imagen A el cómputo de valores se ha realizado entre 75 Hz y 500 Hz; en la imagen B, en
cambio, entre 150 Hz y 700 Hz. Por esta razón, en la primera aparece un error en los
valores de pitch en el círculo b: al establecer que la gama de Hz hasta los 500 Hz, los
valores superiores no se detectan y el programa los sitúa en valores más bajos,
habitualmente, una octava; en cambio, en la imagen B, en el círculo b1 se observa la
continuidad ascendente de la frecuencia. Es más, si hacemos mentalmente el ejercicio de
elevar los valores que en A están después del quiebre, lo que tendremos es un resultado
como el de la imagen B.
En la imagen A hay otro error: el del círculo a. En la señal, hay un ruido que no
corresponde a parte alguna de la emisión de la informante; es una señal de otra naturaleza.
Sin embargo, el programa detecta una periodicidad y la marca como pitch. Al cambiar el
rango y especificar 150 Hz como mínimo, ese valor desaparece (círculo a1, en la imagen B)
ya que los valores detectados estaban alrededor de los 78 Hz.

Una vez corregidos estos dos errores, se observan solo mínimas diferencias entre los
dos trazos de f0 que, para efectos de la mayoría de los análisis, se consideran irrelevantes.
El objeto PITCH
Dada la naturaleza del programa PRAAT, para editar con más detalles y con más
posibilidades, y para automatizar las mediciones, lo mejor es crear un objeto de tipo pitch.
Esto se hace de la siguiente manera: selecciona el objeto de tipo Sound en el panel de
objetos. Hay una zona de botones bajo el título ANALYSE con un botón PERIODICITY-; la
primera de las opciones que se despliegan con él es TO PITCH...; al activarla aparece un
formulario simple con tres campos: Time step(s); Pitch floor (Hz) y Pitch ceiling (Hz). La
primera opción se establece automáticamente, por lo mismo no hay que hacer nada en ese
campo; los otros dos sí son relevantes para establecer el valor más alto y el más bajo que
queremos computar, de manera similar a lo que hacíamos en el menú PITCH SETTING… de la
ventana de edición. Una vez que das el OK a ese formulario aparece un nuevo elemento en
el panel de objetos precedido de “Pitch”, que indica el tipo de objeto del que se trata.
Ahora bien, cuando seleccionas el objeto Pitch, el menú dinámico de botones ofrece
algunas interesantes posibilidades que revisaremos ahora; la opción EDIT la revisaremos
con detención un poco más adelante.
PLAY. Con esta opción puedes escuchar el pitch detectado como simples
pulsos glóticos (PULSES) o de manera más parecida al tono laríngeo (HUM).
DRAW. Esta es la opción que permite hacer gráficos de un objeto en el panel
PRAAT PICTURE.
QUERY. Permite obtener valores del pitch. Esta opción es importante para
automatizar tareas, como veremos más adelante.
En la zona Synthesize, hay tres opciones: con cada una de ellas se crea un
nuevo objeto de tipo Sound en el panel de objetos.
TO SOUND (PULSES). Crea un objeto de tipo sound con los valores de
la frecuencia fundamental como pulsos.
TO SOUND (HUM). Igual que la anterior, pero el objeto creado suena
más parecido a un tono laríngeo humano.
TO SOUND (SINE)…. La misma operación de las anteriores, pero el
resultado en una sinusoide.
En los botones agrupados bajo el título CONVERT, tenemos varias opciones útiles
para la corrección del pitch detectado.
KILL OCTAVE JUMPS. Esta opción corrige automáticamente los saltos bruscos
de octava (o sea, del doble de Hz entre dos puntos). Para usar
adecuadamente esta opción, hay que saber cuál es el resultado deseable.
INTERPOLATE. Completa los puntos sin valores de pitch con valores
plausibles, dejando una curva continua.
SMOOTH…. Suaviza la curva obtenida promediando los puntos contiguos. Si
la curva sobre la que aplica esta función está editada y corregida, el
resultado de esta operación será una curva muy parecida a la original pero
más estilizada. Los valores no coincidirán punto por punto con los de la
original, pero al oído serán indistinguibles.

Con el objeto pitch en el panel de objetos, el botón EDIT abre una ventana de
edición que tiene la apariencia que muestra la figura 10.10.
Figura 10.10. Ventana de edición del objeto pitch. Los números están
explicados en el texto.
En esta ventana, la línea de color está compuesta por una serie de puntos (1) que
corresponden a los valores del pitch detectados automáticamente por el programa. Los
números que aparecen dispersos por la ventana (2) son otros posibles valores frecuenciales
“candidatos” al pitch. Los segmentos en azul (3) en la franja UNV corresponden a
segmentos aperiódicos. El valor de la frecuencia de un punto detectado como pitch (5)
aparece al lado izquierdo de esta ventana, cuando el cursor está situado sobre él.
Al marcar en las bandas inferiores (al igual que en la ventana de edición de un
objeto Sound, se escucha la señal, pero con este objeto no escuchas la señal sino solo su
frecuencia fundamental. Por cierto, como en toda ventana de edición en PRAAT, puedes
escuchar la señal completa o una porción de ella (tal como se explicó a propósito de la
figura 5.5).
Si marcas sobre uno de los candidatos señalados con el número 2 en la figura 10.10,
cambiarás el valor del pitch y el “candidato” se transformará en un punto de color, un
“elegido”.
Si marcas con el cursor directamente en la franja UNV (número 3 en la figura 10.10)
en una parte blanca (no azul), cambiará a azul y, correspondientemente, desaparecerá el
valor de pitch que el programa había detectado, o que tú marcaste.
Tanto si seleccionas una parte de la señal como si tienes marcado un punto de la
misma, puedes usar las opciones del menú SELECTION que te permiten elevar la frecuencia
de la selección en una octava (OCTAVE UP) o en una quinta (FIFTH UP) , es decir, 12 st o 7 st
respectivamente; bajar la frecuencia en una octava (OCTAVE DOWN) o en una quinta (FIFTH
DOWN) o bien convertir el segmento en sordo (Unvoice).
En el menú EDIT de esta ventana puedes cambiar el valor de la frecuencia máxima
que se muestra con la opción CHANGE CEILING...; al activarla aparece un formulario simple
en el que ingresas el valor de la frecuencia máxima que necesitas desplegar.
La opción PATH FINDER... vuelve a los valores de pitch anteriores a las
modificaciones que puedas haber hecho en una sesión de trabajo.
Manipulación del pitch
Si tienes un objeto de tipo Sound en el panel de objetos, en el menú de botones hay
una zona llamada MANIPULATE con un botón TO MANIPULATION...; al activarlo aparece un
formulario en el que hay que especificar los valores mínimos y máximos del pitch; los
valores por omisión suelen ser adecuados; es recomendable no cambiar el campo TIME STEP
(S).
Una vez dado el OK a este formulario aparecerá un nuevo objeto en el panel de

objetos. Este nuevo objeto está precedido por la palabra “Manipulation”, que indica el tipo
de objeto del que se trata.
Con este objeto seleccionado, puedes usar el botón EDIT y aparecerá una pantalla
como la que muestra la figura 10.11.
Figura 10.11. Ventana de manipulación de una señal. Los números
están explicados en el texto.
En esta ventana tienes tres secciones: arriba, (1) el oscilograma; (2) al centro, el
pitch y, (3) abajo, una ventana de manipulación del tiempo.
En la sección de manipulación del pitch tienes una curva de f0 formada por puntos
verdes (4) que puedes mover a voluntad. Marcas uno y lo arrastras con el ratón. El
desplazamiento de uno solo de los puntos no tiene tanto efecto perceptivo como cuando se
desplazan varios de ellos. En este sentido, es importante determinar cuál es la estrategia
para el desplazamiento de los puntos. En el menú PITCH, tienes la opción SET PITCH
DRAGGING STRATEGY… con la que puedes determinar que los desplazamientos sean solo
verticales, solo horizontales o una combinación de ambos. Prueba con ONLY VERTICAL, para
comenzar; de esta manera podrás cambiar la frecuencia de varios puntos sin cambiar su
posición temporal.
Haz lo siguiente con una señal de unos dos o tres segundo de duración:
C. Selecciona toda la señal.
D. Borra todos los puntos del pitch (menú superior, PITCH > REMOVE PITCH
POINTS).
E. En la ventana de manipulación del pitch, pon el cursor al inicio de la
señal a una frecuencia más o menos media respecto de la voz del
hablante.
F. Agrega en ese punto un punto de pitch (PITCH > ADD PITCH POINT AT
CURSOR).
G. Repite esta operación en el punto final de la señal más o menos a la
misma altura.
En este momento, tienes la emisión con entonación monótona (plana). Puedes
escucharla gracias a un tipo particular de síntesis que permite variar la frecuencia
fundamental sin variar nada más.
H. Sitúa el primer punto más arriba de tal manera que la melodía sea
constantemente descendente.
Estos pasos aparecen ejemplificados en las distintas imágenes de la figura 10.12.

Figura 10.12. Ejemplificación de los pasos en una actividad de
manipulación del pitch. La secuencia de imágenes se corresponde con
lo enunciado inmediatamente antes.
Con esto ya tienes una idea de lo que puedes hacer con esta función. Por supuesto,
puedes mover cada punto de pitch a voluntad; puedes agregar puntos de pitch en cualquier
parte de la emisión y moverlos a tu criterio.
Con estas herramientas tenemos las posibilidad de crear manualmente una versión
estilizada de la curva de frecuencia fundamental que no toma en cuenta las variaciones
microprosódicas, observables en gris en esta pantalla.
En el menú PITCH, encuentras las opciones SHIFT PITCH FREQUENCY… y MULTIPLY
PITCH FREQUENCY…; con la primera, tienes que especificar con cuántos Hz quieres hacer
variar ese punto o esa selección. Con la segunda, proporcionas un factor para modificar la
señal; así, por ejemplo, al multiplicar por 2, las frecuencia se duplicará y si multiplicamos,
por ejemplo, por 0.5, el resultado será la mitad de la frecuencia original.
Además de estas opciones, en el menú PITCH puedes también establecer la unidad

de medida del pitch y la gama de Hz o de st que tú elijas. También tienes la opción de hacer
estilizaciones automáticas usando el umbral de 2 st como criterio o bien cambiando ese
umbral a voluntad. Como todo objeto de tipo Manipulation, puedes modificar esos valores
que el programa te ofrece para obtener la curva que satisfaga mejor tus expectativas como
investigador.
Un sonido manipulado de esta manera se puede convertir en un nuevo objeto Sound
mediante el comando Publish resynthesis.
Automatización de resultados
El siguiente script proporciona, en un archivo de texto, las etiquetas y los valores
correspondientes en Hz que hay en un estrato puntual de un TextGrid. Para que funcione, es
necesario que tengas los tres objetos en el panel de objetos: el de sonido, el TextGrid y el
Pitch. El resultado es una lista de etiquetas, el tiempo en el que está situada y el valor de la
frecuencia fundamental correspondiente.
clearinfo
archivo$ = selected$("Sound")
pitch$ = selected$("Pitch")
textgrid$ = selected$("TextGrid")
form Estrato
natural Estrato 1
endform
# tf = estrato
select TextGrid 'textgrid$'
puntos = Get number of points... estrato
select Sound 'archivo$'
tnf$ = Get tier name... 'estrato'
printline F0 values for file 'archivo$'
printline
printline secs.'tab$'Hz
for i from 1 to puntos
t = Get time of point... 'estrato' 'i'
etiqueta$ = Get label of point... 1 'i'
select Pitch 'pitch$'
f0 = Get value at time... 't' Hertz Linear
printline 'etiqueta$''tab$''t:2''tab$''f0:1'
endfor
Texto de script 10.1. Este script automatiza la obtención de valores de
f0 en una señal.
Actividades
• Averigua la diferencia entre lenguas tonales y lenguas entonativas.
• Infórmate acerca de la discusión teórica acerca de la función de la frecuencia
fundamental en la producción y percepción del acento.
Graba una emisión afirmativa breve y haz los siguientes ejercicios:
• Establece cuál es la gama de Hz en que se mueve el hablante (valores máximos y
mínimos).
• Cambia la emisión para que quede con un f0 plano (toda la emisión con el mismo
valor).
• Parte de la emisión original y modifica los valores de la parte final del enunciado
para que tenga forma tonal interrogativa. Confirma con algunos informantes que la
emisión se perciba efectivamente como interrogativa.
• Cambia todos los valores de la emisión original de tal manera que dé la impresión
de que es otro el sexo del informante. Si es una voz femenina, baja todas las
frecuencias hasta que dé la sensación de que es una voz masculina.

11. GRÁFICOS
En este capítulo aprenderás a hacer ilustraciones para tus trabajos de
investigación fonética.
¿Cuál es el sentido de poner gráficos en un trabajo de investigación? ¿Cuáles son las
mejores maneras de hacerlos? ¿Qué cualidades debe tener una imagen según vaya a ser
vista en pantalla o vaya a ser impresa en papel?
¿Para qué ilustrar un trabajo de investigación?
Los gráficos en trabajos de investigación fonética cumplen varias funciones. Por lo general,
dan una información acerca de las cualidades del sonido que son muy interesantes para el
lector especializado; además suelen ser complementos importantes para comprender la
metodología de análisis y, evidentemente, para presentar resultados.
En este capítulo, solo se expondrán las características de los gráficos que son
específicos de la disciplina; por lo mismo, se dejan de lado aquellos que se construyen a
partir de planillas electrónicas como los gráficos de torta, histogramas, etc. Sí expondremos
cómo hacer imágenes que presenten gráficos habituales de representación del sonido:
espectros, espectrogramas y las cartas de formantes.
Básicamente expondremos dos métodos: la copia de pantalla, procedimiento válido
para cualquier programa y el módulo de gráficos de PRAAT. Para complementar esta
información, es conveniente que el usuario tenga manejo de algún programa de tratamiento
de imágenes, para poder intervenir, ajustar, redimensionar, cambiar la resolución, etc.

11.1. Copias de pantallas
Este procedimiento se puede usar con cualquier programa y consiste en hacer una
captura de pantalla y luego insertarla en un documento de texto o en una presentación. En
todos los computadores hay una opción para imprimir la pantalla en un archivo de imagen.
Alternativamente, se puede imprimir una selección de la pantalla. Este procedimiento ha
sido usado en este mismo manual en varias ocasiones para presentar el funcionamiento de
algún programa. Las imágenes que muestran interfaz de algún programa y que aparecen
con alguna flecha, números o círculos para destacar algo, han sido hechas a partir de
fotografías de pantallas que han sido intervenidas en un editor de imágenes.
En la figura 11.1 se muestra una pantalla de WAVESURFER y el resultado posterior a
la intervención.
Figura 11.1. Fotografía de una sección de la pantalla con el programa
WAVESURFER y la misma imagen intervenida con texto y flechas.

Por cierto, con el gráfico intervenido, las explicaciones serán mucho más
comprensibles pues ahora podemos aludir a los puntos del pitch, al formante tal o cual, a la
primera vocal señalada en el oscilograma, etc. Actualmente, los estudios de fonética por lo
general incluyen más de algún gráfico ya que funcionan como un complemento semiótico
primordial.
Con el procedimiento señalado y sabiendo seleccionar o bien en la fotografía de
pantalla o desde el editor de imágenes, puedes crear una ilustración con las indicaciones
que estimes conveniente. Conviene tener en cuenta quién es el lector del trabajo, de eso
depende el grado de precisión y la cantidad de información que se expondrá.
11.2. El módulo de gráficos de PRAAT
En el capítulo 4, en que se muestra cómo hacer las grabaciones, la imagen 4.2 muestra las
dos ventanas de inicio de PRAAT: el panel de objetos, PRAAT OBJECTS y el de gráficos,
PRAAT PICTURE. En esta sección mostraremos algunas de las cualidades y posibilidades de
esta ventana.
11.2.1. A partir de la ventana de edición.
Desde la ventana de edición, se pueden hacer gráficos de todos los que estén activos, pues
en cada menú aparece una opción que permite llevar al PRAAT PICTURE el oscilograma, el
tono, la intensidad, los formantes, el espectrograma. En el menú File aparece la opción
Draw visible sound; en Spectrum, Paint visible spectrogram, etc. El resultado de estas
operaciones es que se crea un dibujo con el objeto deseado.

La siguiente figura, hecha con el procedimiento de fotografiar la pantalla, muestra
los dos paneles principales y la ventana de edición. En el panel de gráficos aparece el
resultado de la opción seleccionada en la ventana de edición.
Figura 11.2. Panel de objetos, ventana de edición y panel gráfico de PRAAT. La opción
Extract visible spectrogram produce el resultado que se observa en el panel PRAAT
PICTURE.
En el panel de gráficos, la imagen se sitúa en el área seleccionada previamente. Las
opciones por defecto dan el resultado que se muestra en la figura anterior.
Siguiendo el mismo procedimiento, se pueden hacer gráficos de todos los análisis
posibles y el formulario que aparece en cada caso es sencillo, y puedes probar los efectos
que producen las opciones en cada uno de los campos. Especialmente interesante es lo que
ocurre cuando desactivas el campo Garnish.
A partir de la imagen en el PRAAT PICTURE, puedes exportar la imagen seleccionada
a partir del borde exterior resaltado en celeste en la interfaz del programa. La exportación la
puedes hacer a la memoria ram mediante la opción de File > Copy to clipboard y
pegándola directamente en un archivo de texto o bien guardando la imagen en alguno de los
formatos disponibles y luego importándola al archivo que quieras.
11.2.2. Desde el panel de objetos
En la ventana PRAAT PICTURE se distinguen, entre otros, los elementos que aparecen
marcados en la figura 11.3.
Figura 11.3. Algunos de los elementos de la ventana de gráficos de
PRAAT.
Este panel tiene un menú superior con las opciones File, Edit, Margins, World, Select, Pen,
Font y Help. Tiene también una zona para hacer los gráficos (1) que está graduada en
pulgadas, tanto en la parte superior como en el costado izquierdo (2). El área seleccionada
(3) aparece destacada con un marco (4) que tiene un borde interno (5) y otro externo (6).
En una mirada a las posibilidades de los menús, observamos que el menú File permite,
entre otras posibilidades, guardar el archivo o almacenarlo provisoriamente en la memoria
RAM. Con Edit podemos deshacer la última intervención o borrar todo. Margins permite
poner texto y marcas en los bordes de un área seleccionada. Con World podemos escribir
texto en el área seleccionada o trazar líneas y figuras. Con Select podemos determinar si el
mouse selecciona el borde interno (5) o el externo (6), cambiar el área seleccionada
tomando como referencia el borde interno o el externo. Con Pen se puede determinar el tipo
y ancho de línea, tamaño de flecha y el color que se usará para dibujar los elementos. Font
permite elegir fuente y tamaño. Al cambiar el tamaño de la fuente, se ve afectado el grosor
del marco de selección de área; de tal manera que es importante hacer una selección de
fuente y tamaño antes de comenzar con la creación de figuras.
Supongamos ahora que tienes en PRAAT OBJETCS, la siguiente lista de objetos: un Sound,
un TextGrid, un Pitch, un Spectrogram y un Formant, todos correspondientes al Sound, tal
como aparece en la figura 11.2. Al seleccionar uno de esos objeto, aparece un botón en el
menú dinámico que permite hacer el gráfico correspondiente. En lo que sigue, se
presentarán opciones de gráficos un tanto más sofisticadas que la de la figura 11.3.
En primer lugar, supondremos que quieres hacer un gráfico que despliegue el
oscilograma en la parte superior, luego el espectrograma y, bajo el espectrograma, la curva
de tono. Más o menos lo que se muestra en la figura 11.4.

Figura 11.4. Gráfico que muestra el oscilograma, el espectrograma y la
curva de frecuencia fundamental de una señal.
El procedimiento para crear la figura anterior es el siguiente. Primero, en PRAAT
PICTURE seleccionas con el cursor el área donde dibujarás el oscilograma, luego
seleccionas, en PRAAT OBJECTS, el objeto Sound y le das la orden Draw; al hacerlo,
desactivas la opción Garnish. Luego, dibujas el marco interior del oscilogramama con la
opción Margins > Draw inner box. En seguida, seleccionas con el cursor el área
inmediatamente inferior y repites los pasos, pero esta vez seleccionas el objeto
Spectrogram. Seleccionas otra área y haces el dibujo del objeto Pitch. Finalmente,
seleccionas el área de la figura completa (los tres gráficos) y en el menú Select eliges la
opción Select outer viewport y completas los campos con los valores de los bordes
exteriores del recuadro según las medidas que el panel PRAAT PICTURE muestra (en rojo) en
el borde superior y en el izquierdo. El resultado debe ser la selección de la figura sin

márgenes. Eso lo llevas al clipboard y luego al programa donde lo quieras situar.
Vamos a suponer ahora que quieres agregar marcas de tiempo cada ciertas fracciones de
segundos para que el lector tenga más información. Las marcas las pondrás en la parte
inferior del gráfico y además pondrás unas guías en cada tiempo marcado para mejor
comprensión de la figura. El resultado debe ser algo como lo que se presenta en la figura
11.5.
0 0.4 0.8 1.2 1.6 2 2.4 2.8 3.2
Figura 11.5. La imagen de la figura 11.3 con indicaciones temporales
cada cierto intervalo.
Para hacer la figura 11.5, se siguieron todos los pasos dados para construir la figura
11.4 pero, antes de hacer la selección del área previa a la exportación de la figura, se eligió
del menú Margins la opción Marks bottom every... con cual aparece un formulario en el que
hay que completar Units y Distance, y seleccionar las posibilidades de escribir los números,
poner los ticks y hacer las guías. En el caso de la figura anterior, las opciones fueron: Units:
1 (la unidad de referencia en este caso es el segundo); en este caso, la distancia, 0.4 (de
segundo) da una distancia entre marcas que hace legible la información; un valor menor
pone las marcas muy cerca unas de otras.
Veamos otro ejemplo, solo con el oscilograma y la curva de frecuencia
fundamental. Esta vez, se pondrá texto en el eje temporal.
500
400
300
200
100
0
t o o
Figura 11.6. Las mismas imágenes anteriores pero con transcripción
fonética en la parte inferior.
Para hacer la figura 11.6, se han seguido los siguientes pasos son: en primer lugar,
se seleccionó el área para dibujar el oscilograma; se seleccionó el objeto Sound y fue dada
la orden Draw (desactivada la opción Garnish); luego se hizo el marco interior. Después, se
seleccionó el área inferior para dibujar la curva de f0. Se dio la orden Draw sin Garnish. Se
hizo el marco interior para la curva de f0 y fueron puestas las marcas a la derecha con la
opción Mark right every... El formulario se completó con Units 1, Distance 100 (si se
hubiera indicado una distancia mayor, las marcas habrían quedado más distanciadas) y se
optó por poner los ticks, los números y las guías horizontales. Las marcas en la parte
inferior señalan inicio y término de cada sonido. En este caso, se usaron los valores
obtenidos en la ventana de edición. Cada uno de esos valores fue usado con la opción One
mark bottom... y se escribió ese valor en el campo Position; se dio la instrucción de poner
los ticks, las guías verticales pero no los números. Se hizo la misma operación con los
cuatro puntos. Para poner los caracteres fonéticos, se obtuvo el punto medio de cada
sonido en la ventana de edición y ese valor se usó con el mismo comando anterior, One
mark bottom..., esta vez se desactivaron las guías, los ticks y los números, solo se escribió
en Position el tiempo medio del sonido obtenido en la ventana de edición y en el campo
Draw text se escribieron los símbolos correspondientes. En el menú Help de PRAAT hay
una detallada y completa descripción de cómo escribir símbolos y diacríticos. En el ejemplo
de la figura 11.6, se usaron las siguientes dos secuencias para las consonantes: t\Nv y
\dh\Tv.
Para almacenar esta imagen en el clipboard, es recomendable seleccionar el marco
exterior del área de dibujo de tal manera que el gráfico completo, incluyendo los números y
las letras, queden incluidos dentro de él. Recuérdese que para hacer esta selección el
usuario se debe guiar por los números que indican las pulgadas del panel (número 2 en la
figura 11.3).
5
3
2500
2
Figura 11.7. Espectrograma de una selección de la señal de la figura
anterior. Se incluye flecha y elipse para hacer indicaciones.
La figura 11.7 fue construida de la siguiente manera. En primer lugar, se hizo un
objeto aparte con un fragmento de una señal. Esta operación fue explicada en la sección
5.3. El objeto nuevo se editó y, desde la ventana de edición, se pintó el espectrograma (sin
Garnish) y se hizo el marco interior, como en todos los casos anteriores. Luego se puso la
indicación de 2500 (Hz) a la derecha de la imagen. El comando utilizado fue Margins >
One mark right... y en el formulario se indicó la posición y el texto correspondiente. Para
los números del lado izquierdo se usó el comando Margins > Mark left every... y en el
formulario se completó indicando que la unidad es 1000 y la distancia 1; de esta manera, el
programa pone una marca cada 1000 (Hz, en este caso). Si hubiésemos puesto como unidad
1 y la distancia 1000, las marcas estarían en las mismas posiciones pero los números
puestos corresponderían a valores en Hz y no en KHz. Luego se usó el comando World >
Text special para escribir "KHz". Para conseguir este resultado, se usó la posición
horizontal -0.03 pues se escribió un poco antes de que comience la señal y la posición
vertical fue especificada como 2500 dado que el programa está trabajando con una
gradación de 0 a 5000 pues esos son los Hz mostrados en el espectrograma; por lo mismo,
2500 en el eje vertical es el punto medio. Con la rotación de 90 grados y el texto "KHz",
alineación horizontal "left" y alineación vertical "half", el resultado es que se presenta en la
figura anterior. Además, se seleccionó un color y un grosor de trazo y de la punta de flecha
en el menú Pen para dibujar una flecha con World > Draw arrow... y una elipse con World
> Draw ellipse... En estos últimos dos elementos hay que considerar que cuando el
programa tiene un objeto como este, los valores de los ejes horizontales y verticales son los
que corresponden al objeto que se ha pintado; o sea, los números de las coordenadas
coinciden con los valores temporales y frecuenciales. Por esta razón, para hacer la flecha se
obtuvieron los valores en la ventana de edición: la flecha parte desde el punto que señala
los 0.39 segundos (horizontal) y 4000 Hz (vertical) hasta los 0.21 segundos y 1800 Hz.
Esto se indica en el formulario en los campos From x, From y, To x y To y.
Estas indicaciones sirven prácticamente para trabajar gráficos de todos los análisis
acústicos que se quiera presentar en un documento. La ventaja de trabajar en el módulo
gráfico de PRAAT es que las marcas se sitúan exactamente en el punto que queremos indicar
y el programa respeta los valores del objeto analizado. Además, los valores de los ejes se
pueden cambiar mediante el comando Margins > axes..., lo que es especialmente útil
cuando uno construye un gráfico sin un objeto de origen.

emisión
A B
1 2 3 4 5 1 2 3 4 5
0 3.462
Time (s)
Figura 11.8. Gráfico hecho en PRAAT que incluye oscilograma, curva
de frecuencia fundamental y TextGrid.
La figura 11.8 fue realizada de la siguiente manera: se seleccionó el área en PRAAT
PICTURE para dibujar el oscilograma; seleccionado el objeto Sound, se dio la orden Draw
sin Garnish; esta vez no se dibujó el marco interior. Luego se seleccionó el área para
disponer la curva de frecuencia fundamental, se seleccionó el objeto Pitch y se dio la orden
Draw, sin Garnish y tampoco se hizo el marco interior. Luego se seleccionó el área que
incluye el oscilograma y la curva de tono más una zona para disponer tres estratos del
TextGrid; se seleccionó el objeto TextGrid y se dio la orden Draw con Garnish. Para
finalizar, se seleccionó solo el área del oscilograma y se hizo el marco interior. Una figura
como esta es bastante útil para exponer cuestiones metodológicas o resultados; por cierto, el
contenido de los estratos es algo que el investigador determina.
Veremos ahora una manera de hacer cartas de formantes mediante el módulo de
gráficos de PRAAT. Esta no es la única forma, pero puede ser interesante para presentar
resultados.
Una manera de hacer rápidamente una carta de formantes es crear un objeto del tipo
Formant.
150 150
[ i ] [ u ]
[ e ]
[ o ]
F1 (Hz)
F1 (Hz)
[ a ]
800 800
3000 500 3000 500
F2 (Hz) F2 (Hz)
Figura 11.9. Carta de formantes (A) sin datos y (B) con valores
vocálicos.
La figura 11.9 B fue realizada siguiendo los siguientes pasos. En primer lugar, se
seleccionó un área interior de dibujo cuadrada. Luego se seleccionó en Pen el color blanco.
Se creo en seguida un FormantGrid (New > Tiers > FormantGrid...) a partir de las
opciones por defecto. De tal manera que apareció el objeto FormantGrid en el panel de
objetos. Este objeto se seleccionó y fue convertido en un objeto Formant (en la práctica,
cualquier objeto Formant habría servido para el presente propósito). Un objeto Formant se
puede dibujar de varias maneras a partir de la opción Draw: como trazos en el eje temporal
o bien se puede hacer una carta mediante la opción Scatter plot... prescindiendo del eje
temporal y tomando como coordenadas los valores en Hz de dos formantes. En el
formulario se establece por defecto el F1 en el eje vertical y el F2 en el horizontal y se
proponen unas gradaciones en Hz más o menos típicas. Este formulario se observa en la

figura 11.10.
Figura 11.10. Formulario para hacer carta de formantes con los valores
por defecto.
Para hacer la figura 11.9 B se cambiaron los rangos de ambos formantes en función
de los que se quería presentar. Nótese que tanto en el eje horizontal como vertical los
valores se exponen en orden decreciente (primero el valor alto y luego el valor bajo). En el
caso presente, al estar seleccionado el color blanco, se dibuja el marco y los valores de los
márgenes, pero las marcas dentro de la carta no se ven. Ahora aparecen en PRAAT PICTURE
los márgenes de una carta de formantes vacía, tal como se aprecia en la figura 11.9 A.
Luego se selecciona Pen > Black para restituir el color negro de las marcas y mediante el
menú World > Text se procede a escribir cada una de las marcas en los puntos que
corresponde. El formulario se completó considerando que la posición horizontal es
equivalente al formante 2 y la posición vertical corresponde al formante 1 y, por lo tanto,
hubo que completar esos campos con los valores formánticos correspondientes.
Con lo presentado aquí no se agotan las posibilidades gráficas de este módulo del
programa; pero al menos se han entregado los elementos suficientes para presentar
informes de investigación con gráficos de análisis acústicos que cumplan con los mínimos
requisitos de una entrega académica seria. Como en todos los demás casos, la práctica
constante y la prueba de alternativas son la mejor herramienta para perfeccionar el
aprendizaje.
11.3. Resolución de las imágenes
Para finalizar diremos que las imágenes digitales tienen una cierta resolución,
equivalente a la frecuencia de muestreo de los archivos de audio. Es una experiencia común
que en una cámara digital de fotografía, la capacidad de almacenamiento aumenta en la
medida en que la resolución disminuye; de la misma manera que un archivo de audio de
frecuencia de muestreo más alta es más pesado que uno de frecuencia más baja. Sin
embargo, de la misma manera que con los archivos de audio, muchas veces una resolución
alta no significa una ganancia perceptiva en cambio sí un gasto de espacio.
Una imagen que solo será vista en pantalla, ya sea para una presentación o para
poner en la web, requiere una resolución baja, de 72 dpi (o ppp); una que será impresa en
papel, por ejemplo, en un informe, necesita una resolución un poco más alta, de unos 150
dpi. Las resoluciones de valores más altos solo son necesarias para imprimir
profesionalmente, ya sea un libro o un artículo en revista. En estos casos, normalmente los
editores ponen condiciones a las imágenes.
Actividades
• Toma un objeto Sound, crea el objeto Formant y haz el gráfico de oscilograma y
espectrograma. Superpone en el espectrograma los formantes pero dibujados en
color blanco. Como en el ejemplo siguiente. Agrega marcas verticales cada mil Hz
y algunas marcas de tiempo.
5
4
3
2
1
0
0 0.2 0.4 0.6 0.8 1
Figura 11.11. Oscilograma, espectrograma y formantes superpuestos.
• Toma valores promedio de los formantes 1 y 2 de las vocales del español de alguna
investigación y haz la carta de formantes usando el procedimiento mostrado en este
capítulo.
• A partir de una señal breve, haz el TextGrid que incluya un estrato de puntual en el
que etiquetes las vocales. Crea el objeto Pitch correspondiente, edítalo según lo
expuesto en el capítulo 10 de este manual y examina los resultados de las distintas
opciones de gráficos que da la opción Draw cuando seleccionas el objeto Pitch y el
TextGrid juntos.
• Crea en el panel Praat Picture un rectángulo y especifica que el eje horizontal cubra
valores entre 0 y 1 (como si se tratara de una señal de 1 segundo de duración) y
para el eje vertical especifica valores entre 0 y 5000 (como si se tratara de valores
frecuenciales desplegados en un espectrograma). Dibuja líneas como si fueran
trazos esquemáticos de formantes vocálicos. Más o menos como el gráfico que se
presenta en la figura siguiente:
5000
4000
3000 i
e
2000 a
o
1000 u
0
Figura 11.12. Esquema de formantes vocálicos.
GLOSARIO
Este glosario es un conjunto de definiciones o descripciones de términos destacados en
negrita en el texto. No se trata de definiciones exhaustivas, sino de explicaciones breves y
funcionales a la lectura. Para información especializada, el lector deberá recurrir a
bibliografía específica.
ALGORITMO: En programación computacional, es un procedimiento que se realiza en un

número finito de pasos y que realiza una tarea específica.
ALIAS: En acústica, es el fenómeno que se produce cuando la digitalización de un sonido,
por efectos de la FRECUENCIA DE MUESTREO seleccionada, produce representaciones
de bajas frecuencias que no están en la señal original. Véase FILTRO ANTIALIASING.
ALIASING: Véase ALIAS.
ALMACENAMIENTO ANALÓGICO: Tipo de almacenamiento en algunos dispositivos, tales
como la cinta de casette, que representa de modo CONTINUO los valores temporales
y de AMPLITUD de la señal original.
ALMACENAMIENTO DIGITAL: Tipo de almacenamiento de información que realizan los
computadores basado en codificación binaria. Véase DISCONTINUO.
AMPLITUD DE UNA ONDA: Lo habitual en Fonética Acústica es significar la distancia del
movimiento de la partícula respecto del punto de reposo o 0 (cero). Algunas veces el
concepto se usa con el significado de 'distancia máxima'.
ANÁLISIS ESPECTRAL: En Fonética Acústica, es el análisis que se realiza en una VENTANA
DE ANÁLISIS en los componentes de la señal.
ANALÓGICO, ALMACENAMIENTO: Véase ALMACENAMIENTO ANALÓGICO.
APERIÓDICA, ONDA: Véase ONDA APERIÓDICA.
AUTOCORRELACIÓN, MÉTODO DE: Véase MÉTODO DE AUTOCORRELACIÓN.
BANDA ANCHA, ESPECTROGRAMA DE: Véase ESPECTROGRAMA DE BANDA ANCHA.
BANDA ESTRECHA, ESPECTROGRAMA DE: Véase ESPECTROGRAMA DE BANDA ESTRECHA.
BIT: Acrónimo de Binary digit. Es la unidad más pequeña de información en un sistema

computacional. Puede adoptar los valores 0 y 1.
CAVIDADES SUPRAGLÓTICAS: Desde el punto de vista articulatorio, son las zonas que están
por encima de la glotis y que actúan como resonadores.
CICLO DE UNA ONDa: En acústica, el movimiento completo de una partícula que comienza
en un punto de reposo, llega al de máxima AMPLITUD, vuelve al punto de reposo,
alcanza el punto de máxima AMPLITUD negativo y vuelve al punto de reposo.
COMPLEJA, ONDA: Véase ONDA COMPLEJA.
CONDENSADOR, MICRÓFONO DE: tipo de micrófono que, dada su arquitectura, permite
respuestas frecuenciales muy precisas. Este tipo de micrófono también requiere una
fuente de alimentación eléctrica y normalmente funciona con tarjetas de sonido
externas.
CONSENTIMIENTO INFORMADO: Documento firmado por el INFORMANTE en el que se declara
consciente de participar en una investigación y en el que autoriza al investigador
para registrar y estudiar su voz.
CONTINUO: Por oposición a DISCRETO, es la cualidad del tipo de almacenamiento que
representa sin saltos entre un punto y otro las variaciones de AMPLITUD de una señal
a través del tiempo.
CORPUS: Material de estudio; es este caso, material grabado y editado de tal manera que
contiene las muestras que permiten hacer una investigación.
DIGITAL, ALMACENAMIENTO: Véase ALMACENAMIENTO DIGITAL.
DIGITALIZAR: En Fonética Acústica, el proceso mediante el cual un sonido pasa a ser
almacenado en un computador.
DISCRETO: Por oposición a CONTINUO, es la cualidad de un tipo de almacenamiento que
representa de manera discontinua, con saltos entre un punto y otro, las variaciones
de AMPLITUD de una señal a través del tiempo.
DPI: (Dots per inch) Véase ppp.
DSP: (Digital Signal Processing) Véase PROCESAMIENTO DIGITAL DE SEÑALES.
ESPECTRO: Resultado de un ANÁLISIS ESPECTRAL. En el espectro acústico se representa la
amplitud y la frecuencia de los componentes de una onda. Los análisis espectrales
requieren de una VENTANA DE ANÁLISIS que puede ser larga o breve.
ESPECTROGRAMA: Representación gráfica del sonido hecha a partir de una sucesión de
ESPECTROS superpuestos de tal manera que se muestra de manera continua las
variaciones de frecuencias en el eje vertical y el tiempo en el eje horizontal. En este
gráfico la interpretación de la intensidad es más bien impresionista.
ESPECTROGRAMA DE BANDA ANCHA: ESPECTROGRAMA hecho en base a espectros de
VENTANA DE ANÁLISIS breve. Representa las frecuencias con poco detalle y, por lo
tanto, permite ver las principales concentraciones de energía de una señal pero no
los componentes ARMÓNICOS.
ESPECTROGRAMA DE BANDA ESTRECHA: ESPECTROGRAMA hecho en base a espectros de
VENTANA DE ANÁLISIS más bien larga. Permite observar los componentes
ARMÓNICOS de una señal.
FILTRO (1): En acústica, operación que elimina una banda de frecuencias.
FILTRO (2): Las resonancias de las cavidades supraglóticas que amplifican algunas
frecuencias del tono laríngeo, que se considera FUENTE.

FILTRO ANTIALIASING: FILTRO (1) que elimina los componentes por encima de la NYQUIST
FREQUENCY para evitar el efecto ALIASING. Véase ALIAS.
FORMANTE: Resonancia supraglotal. Son claramente visibles en los espectrogramas de
banda ancha. Se representa F1, F2, etc. y tienen uso fundamental en el análisis
acústico de las vocales.
FORMANTES VOCÁLICOS: Formantes que se aprecian en las emisiones vocálicas. Para
caracterizar las vocales del español son especialmente relevantes F1 y F2.
FORMATO DE MUESTREO: (Quantization) Cualidad en la representación digital de la
amplitud de la señal.
FRECUENCIA DE MUESTREO: (Sampling frequency, Sampling rate) Número de muestras que
se toma por segundo de una señal para su digitalización. Un valor típico en
investigaciones fonéticas es 22050. La llamada "calidad CD" es de 44.100.
FRECUENCIA DE UNA ONDA: Número de ciclos por segundo que posee una onda. La unidad
de medida es el Hz (hercio).
FRECUENCIA FUNDAMENTAL: Diferencia en Hz entre los componentes armónicos de una
señal. Habitualmente este número coincide con el componente de más baja
frecuencia. Se simboliza f0 y se correlaciona con el tono percibido o pitch.
FUENTE: En fonética, la fuente está dada por el tono laríngeo. Véase también FILTRO (2).
GNU: Licencia que protege la libre distribución y modificación de los programas
computacionales.
HABLA DE LABORATORIO: Muestras de habla obtenidas en condiciones experimentales.

HABLA ESPONTÁNEA: Muestras de habla natural.
HABLA SEMIESPONTÁNEA: Muestras de habla muy cercanas a lo natural, pero obtenidas en
condiciones experimentales.
INFORMANTE: Persona que voluntaria e informadamente participa en una investigación
sobre lenguaje.
INTENSIDAD: En Fonética Acústica, el efecto perceptivo de la AMPLITUD de la señal. Se
expresa en dB.
MÉTODO DE AUTOCORRELACIÓN: En análisis de la FRECUENCIA FUNDAMENTAL, es el
método que, mediante el desplazamiento de una VENTANA DE ANÁLISIS, establece
coincidencias altas en porciones de una señal para determinar si hay periodicidad y,
en caso de que la haya, el valor en HZ de la FRECUENCIA FUNDAMENTAL.
MICRÓFONO DE CONDENSADOR: Tipo de micrófono que dada su arquitectura permite
respuestas frecuenciales muy precisas. Este tipo de micrófono requiere de una
fuente de alimentación eléctrica y normalmente funciona con tarjetas de sonido
externas.
MICRÓFONO UNIDIRECCIONAL: Tipo de micrófono que registra mejor la señal situada frente
a él.
MODELOS COCLEARES: Representación de la respuesta diferenciadas de la cóclea a las
distintas frecuencias.
MUESTRA: En PROCESAMIENTO DIGITAL DE SEÑALES de audio, una muestra es un punto
temporal en el que se toma un valor de amplitud. Los archivos digitales de audio
tienen un número determinado de muestras por segundo. Véase FRECUENCIA DE

MUESTREO.
NYQUIST FREQUENCY: Es la máxima frecuencia que se puede registrar dada una frecuencia
de muestreo. Siempre es la mitad de la frecuencia de muestreo.
OBJETO: En PRAAT, un objeto es un conjunto temporal de datos, semejante a un archivo,
con el que se pueden realizar distintas operaciones computacionales. Existen objetos
de tipo Sound, Pitch, Formant, Intensity, y varios más. Los objetos no son archivos
porque no están almacenados en el disco; solo existen en la memoria operativa.
ONDA: Fluctuación de la presión en un medio, que se desplaza y que hace que las partículas
se acerquen y se alejen entre sí.
ONDA APERIÓDICA: Una ONDA cuyos componentes no tienen relación frecuencial constante
entre sí.
ONDA COMPLEJA: En Acústica, aquella onda que tiene más de un componente.
ONDA PERIÓDICA: En Acústica, aquella ONDA COMPLEJA cuyos componentes tienen relación
armónica entre sí.
ONDA SIMPLE: En Acústica, aquella ONDA que tiene un solo componente. Es equivalente a
sinusoide.
ONDA SONORA: ONDA que produce una sensación audible.
OSCILOGRAMA: Representación de las variaciones de AMPLITUD de una ONDA en el eje
temporal.
PERÍODO DE UNA ONDA: Duración de un ciclo. Se simboliza T.
PITCH: Véase TONO.

PPP: (Puntos por pulgada). Medida de nitidez de las imágenes digitales. Véase también DPI.
PROCESAMIENTO DIGITAL DE SEÑALES: Término genérico que se refiere a todo el
componente teórico y tecnológico que permite convertir señales en archivos legibles
por computador.
PROGRAMAS DE CONVERSIÓN TEXTO-HABLA: Tipo de programa computacional que, dado un
texto, produce la pronunciación correspondiente.
RELACIÓN SEÑAL-RUIDO: diferencia entre aquella parte de la onda que se considera
información y la otra, que se considera silencio o ruido ambiental.
RESPUESTA FRECUENCIAL: En dispositivos de grabación y de reproducción de sonido, es el
ámbito de frecuencias que el dispositivo registra o reproduce y el realce que le da a
algunas de esas frecuencias.
RUIDO: En Acústica, una ONDA APERIÓDICA.
SATURACIÓN: (Clipping). Efecto que se produce cuando el registro de una señal supera la
amplitud que el canal permite.
SCRIPT: En Computación, un script es una rutina diseñada por el usuario, en el entorno de
un programa computacional, para realizar una tarea de manera automática.
SEGMENTOS: En Fonética y en Fonología, esta expresión se refiere a las vocales y a las
consonantes de una lengua. Según sea el caso, se refiere a los fonemas o a las
variantes.
SÍNTESIS DE HABLA: En TECNOLOGÍAS DEL HABLA, aquella que tiene el objetivo de crear
archivos de audio que se interpretan como lenguaje verbal.

SINUSOIDE: Véase ONDA SIMPLE.
SISTEMAS DE RECONOCIMIENTO DE VOZ: En computación, aquellos sistemas que son capaces
de interpretar un archivo de audio en términos de la representación fonológica.
SONOGRAMA: En Fonética Acústica, fue nombre que recibió antiguamente el gráfico del
sonido equivalente al actual espectrograma.
SUBMUESTREAR: En procesamiento digital de señales de audio, reducir la FRECUENCIA DE
MUESTREO de una grabación. Véase MUESTRA.
SUPRASEGMENTOS: En Fonética esta expresión se refiere a los aspectos tales como melodía
de la voz, velocidad de habla, intensidad. En Fonología, son objetos
suprasegmentales el acento y la entonación.
TARJETA DE SONIDO: En computación, un componente que le permite al computador
registrar y reproducir de audio.
TECNOLOGÍAS DEL HABLA: Conjunto de recursos computacionales relacionados con el
lenguaje hablado, tales como el reconocimiento de voz y la conversión texto-habla.
TONO LARÍNGEO: Es el sonido producido por la acción de las cuerdas vocales tal como se
produce en la laringe (sin considerar el efecto de amplificación de frecuencias que
se produce en las cavidades supraglóticas).
TONO: (Pitch) Correlato perceptivo de la frecuencia fundamental. Véase también PITCH.
VELOCIDAD DE HABLA: Tasa a las que se produce la enunciación. Habitualmente mide en
sílabas por segundo.
VENTANA DE ANÁLISIS: Porción de tiempo en la que se realiza un ANÁLISIS ESPECTRAL o de

AUTOCORRELACIÓN para determinar la FRECUENCIA FUNDAMENTAL.
RESPUESTAS A LOS CUESTIONARIOS
Capítulo 2. Elementos necesarios
1. la alternativa B, pues tiene respuesta plana en las frecuencias que interesan en el estudio.
2. La alternativa D, pues abarca desde los 350 hasta los 7000 Hz.
3. La alternativa B, pues es plana; es decir, no realza ninguna frecuencia.
4. La alternativa A, pues tiene respuesta más alta en las frecuencias bajas.
Capítulo 3. Sonido digital y sonido analógico
1. Alternativa c), 8000 Hz que es la mitad de la frecuencia de muestreo.
2. En un ms hay veintidós muestras (22050/1000).
3.1. Alternativas D, E y F.
3.2. Alternativa D.
3.3. En estricto rigor, la alternativa F que tiene mayor número de muestras por segundo.
Capítulo 4. La grabación
1. El que tenga la frecuencia de muestreo más alta.

2. Se produce saturación del canal. Esas grabaciones son muy poco aprovechables desde el
punto de vista de la investigación fonética.
3. Si en una grabación, en los momentos de silencio del informantes, se observa entrada de
señal, eso significa que el habrá una mala relación señal-ruido pues el supuesto silencio
tendrá representación de amplitud en la señal registrada.
4. Porque una vez hecha la grabación solo se puede disminuir la frecuencia de muestreo, no
elevar. Por esta razón es fundamental d
Capítulo 7. Cómo hacer espectrogramas.
1. Alternativa C.
2. Habrá 661 muestras.
3. El ancho de banda en los espectrogramas depende del tamaño de la ventana de análisis.
4. Alternativa d. Las opciones "de banda estrecha" y "de ventana de 30 ms" son
equivalentes y permiten ver los componentes armónicos de una señal, por lo tanto, se puede
saber cuál es la frecuencia fundamental.
5. La alternativa B, que corresponde a un espectro de banda estrecha.
BIBLIOGRAFÍA MENCIONADA
Fernández Planas, Ana María. 2005. Así se habla: nociones fundamentales de fonética
general y española. Apuntes de catalán, gallego y euskara, Barcelona, Horsori.
Llisterri, Joaquím. 1991. Introducción a la fonética: el método experimental. Barcelona,
Anthropos.
Martínez Celdrán, Eugenio. 1989. Fonología general y española. Barcelona, Teide.
— .1991. Fonética experimental: Teoría y práctica. Madrid, Síntesis.
—. 1998. Análisis espectrográfico de los sonidos del habla. Barcelona, Ariel.
Martínez Celdrán, Eugenio y Ana María Fernández Planas. 2007. Manual de fonética
española. Articulaciones y sonidos del español, Barcelona, Ariel.

Manual para El Análisis Fonético Acústico Mediante Programas Especializado

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Manual para El Análisis Fonético Acústico Mediante Programas Especializado

Cargado por

Copyright:

Formatos disponibles

Manual para el análisis fonético acústico

mediante programas especializados

Domingo Román Montes de Oca

Facultad de Letras, Universidad Católica de Chile

La obra que presentamos posee un carácter didáctico innegable, no sólo porque

de ciertos programas de análisis del habla. Domingo posee un conocimiento profundo de

algunos que se han convertido en herramientas básicas para el estudioso de la fonética

acústica; aunque explica el AUDACITY y el WAVESURFER, focaliza su explicación sobre

espectrogramas, espectros, extracción del pitch y de la curva de intensidad, etc. Y, por

este programa se ha convertido en una herramienta reconocida internacionalmente.

Hace tiempo, desde que Domingo estuvo trabajando en nuestro Laboratorio en

investigación y, sobre todo, para la publicación posterior. Me he ejercitado en una práctica

tenga necesidad de trabajar en fonética acústica. Lo recomiendo a los profesores de fonética

muy desalentador ver en Congresos cómo alguien presenta imágenes de espectrogramas

setting”, el “Dynamic range”, por ejemplo.

Domingo Román es un verdadero especialista en la materia y tenemos que

agradecerle que haya puesto su conocimiento por escrito y al servicio de todos.

EUGENIO MARTÍNEZ CELDRÁN

cantar un ordenador? ¿Puede una máquina ayudarnos a corregir la pronunciación de una

posibilidades tecnológicas en proceso de desarrollo. Al ocuparse científicamente de los

sonidos de la comunicación lingüística de los seres humanos, se producen nexos evidentes

con múltiples necesidades que abarcan cuestiones biológicas, evolutivas, psicolingüísticas,

policiales, cibernéticas y, por cierto, las propiamente lingüísticas.

En este manual, te propongo un acercamiento a la dimensión acústica de la Fonética

este manual se debe usar como una guía para aprender.

entre el hablante y el oyente. En efecto, a partir de la señal misma, deberíamos poder

reconstruir, parcialmente al menos, los detalles articulatorios, auditivos y perceptivos de las

El desarrollo de las tecnologías de análisis le ha dado otra ventaja a la Fonética

eventualmente, un micrófono. Ordenadores y micrófonos ya los hay a precios relativamente

más amable para los informantes.

Los textos disponibles en español que explican conceptos de Fonética Acústica, en

su mayoría se concentran en las propiedades físicas y en las formas de representación del

sonido. El conocimiento de estos contenidos es imprescindible para desenvolverse en la

análisis a partir de formantes.

Además de estos temas tradicionales en Fonética Acústica, hay otros, relacionados

con los anteriores, que no aparecen tratados en la bibliografía actual de referencia en

de análisis, aliasing, entre otros.

con él múltiples posibilidades para su análisis, almacenamiento y síntesis.

Este nuevo fenómeno ya es parte de nuestro entorno; piensa en la existencia del

almacenar discos de música completos (y muchos) en formato MP3 y escucharlos mientras

haces deporte; puedes disfrutar de la radio a través de Internet, puedes intercambiar

revolución que significó el sonido digital.

La Fonética Acústica también se ha visto beneficiada por estas nuevas tecnologías.

desafíos teóricos y técnicos.

Este manual universitario está pensado especialmente para colaborar en tu

aprendizaje a partir de estas nuevas tecnologías, mediante la exposición de algunos temas y

puede ser fascinante.

• Tienen prestigio académico en su funcionamiento y en sus resultados.

• Se pueden usar sin tener que pagar licencias.

• Están en continuo mejoramiento gracias a las sugerencias de los usuarios.

• Tienen varios sistemas de ayuda en Internet.

que mencionaremos es AUDACITY, proyecto original de Dominic Mazzoni desde 1999; se

puede obtener en http://audacity.sourceforge.net/. El programa de análisis acústico en el

Institute of Phonetic Sciences de la Universidad de Amsterdam, vigente desde 1992; se

puede obtener en el sitio www.praat.org). Este probablemente sea el estándar de los

programa. También mencionaremos otras herramientas interesantes y útiles, como por

ejemplo, WAVESURFER, de Kåre Sjölander y Jonas Beskow (2005), desarrollado en el

De Fonética necesitas conocer las nociones básicas de la disciplina. Como este

no es un manual de Fonética sin más, sino uno de manejo de programas para

análisis acústico, no se profundizará en los conceptos teóricos. En este

sentido, este manual debe entenderse como complementario de otros tales

Planas (2005), Eugenio Martínez y Ana María Fernández (2007),