Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Tutorial
Directrices para la selección de micrófonos
para la investigación de producción de voz humana
Universidad
Jan G. Švec Palacký Olomouc, Olomouc, República Checa
Svante Granqvist
Instituto Real de Tecnología, Estocolmo, Suecia
Propósito: Este tutorial aborda las características nivel de las fonaciones más fuertes. Los
fundamentales de los micrófonos (respuesta de micrófonos direccionales deben colocarse a la
frecuencia, rango de frecuencia, rango dinámico y distancia que corresponda a su respuesta de
direccionalidad), que son importantes para mediciones frecuencia máximamente plana, para evitar el efecto
precisas de la voz y el habla. de proximidad; de lo contrario, no serán adecuados
Método: Se revisó y analizó la literatura técnica y para mediciones espectrales y de nivel. Los valores
de voz. Se formularon las siguientes numéricos de estas recomendaciones se
recomendaciones sobre las características deseables derivaron para las distancias de micrófono de 30
de los micrófonos: La respuesta de frecuencia de los cm y 5 cm.
micrófonos debe ser plana (es decir, una variación Conclusiones: Las recomendaciones, si bien son
de menos de 2 dB) dentro del rango de frecuencia preliminares y necesitan una mayor justificación
entre la frecuencia fundamental más baja esperada numérica, deberían proporcionar la base para una
de la voz y el componente espectral más alto de la mejor precisión y repetibilidad de los estudios sobre
voz. interés. Se recomienda que el nivel de ruido la voz y la producción del habla en el futuro.
equivalente de los micrófonos sea al menos 15 dB
inferior al nivel sonoro de las fonaciones más suaves.
El límite superior del rango dinámico del micrófono Palabras clave: voz, medición, micrófonos, requisitos
debe estar por encima del sonido
sistemas, radiodifusión, etc. (AKG Acoustics, 2003; Howard
Al preparar las mediciones, uno se enfrenta a la & Murphy, 2007). En consecuencia, muchos de los micrófonos
Al crear un
laboratorio
pregunta de vm
"¿Qué oz y habla
icrófono y debe usar?" A pesar de
se no son adecuados para realizar mediciones precisas de la voz
los micrófonos presentan medios básicos para el registro y el habla. Las mediciones de voz a menudo son realizadas
de señales de voz, no se ha publicado suficiente por investigadores sin experiencia técnica que pueden no
información sobre qué micrófonos son o no adecuados estudiar la literatura técnica especializada sobre micrófonos
para las mediciones de voz. Si bien ha habido intentos de y sus características. Además, el personal técnico de apoyo en
brindar recomendaciones para la elección de micrófonos clínicas e institutos a menudo no tiene suficiente experiencia
(Baken y Orlikoff, 2000; Bless et al., 1992; Laver, Hiller y en acústica de la voz y el habla y, por lo tanto, difícilmente
Beck, 1992; Spielman, Starr, Popolo y Hunter, 2007; puede brindar apoyo experto en estos temas.
Švec, Šrámková, & Granqvist, 2009; Titze, 1995), hasta el Por lo tanto, el propósito de este tutorial es proporcionar
momento no ha habido una explicación suficiente de los pautas para seleccionar un micrófono que sea adecuado para
principios en los que deben basarse las recomendaciones. medir la voz y el habla. Las especificaciones proporcionadas
Esta falta de información ha llevado a una situación en la por el fabricante son revisadas y puestas en relación con las
que se han publicado estudios con micrófonos mal elegidos, características de la voz y el habla. Finalmente, se formulan
y los resultados informados contienen errores inherentes. recomendaciones que pueden utilizarse para seleccionar el
En la investigación de la voz y el habla, el propósito del micrófono adecuado para la investigación de la voz y el habla.
micrófono es convertir la señal de presión sonora en una señal Para asegurar una grabación precisa de la voz y el habla,
eléctrica con las mismas características (ver Figura 1). Sin consideraremos tres características fundamentales del sonido:
embargo, la mayoría de los micrófonos no están desarrollados (a) frecuencia fundamental (F0); (b) timbre, es decir, el
espectro de sonido; y (c) la amplitud de presión medida a través de
para este propósito, sino para la grabación de música, actuaciones, megafonía
356 American Journal of SpeechLanguage Pathology • vol. 19 • 356–368 • noviembre de 2010 • Asociación estadounidense del habla, el lenguaje y la audición
Descargado de: http://ajslp.pubs.asha.org/ por un usuario de la Universidad de Nueva York el
19/04/2016 Términos de uso: http://pubs.asha.org/ss/rights_and_permissions.aspx
Machine Translated by Google
FIGURA 1. Ilustración esquemática de una conversión de una señal FIGURA 2. Respuestas de frecuencia para tres micrófonos típicos: un
de presión sonora (voz) en una señal eléctrica por medio de un micrófono de medición omnidireccional, un micrófono de estudio
micrófono. El Micrófono 1 mantiene las mismas características de omnidireccional y un micrófono cardioide para uso en escenario (aquí
forma de onda, mientras que el Micrófono 2 altera la forma de onda. la respuesta es válida para el campo lejano). Tenga en cuenta el
Para mediciones de producción de voz, la alteración de la forma amplio pico de presencia en la región de 3 a 10 kHz para los dos
de onda no es deseable. Para recopilar los datos de este ejemplo, se últimos micrófonos.
utilizaron un micrófono de medición omnidireccional y un micrófono de
rendimiento cardioide con efecto de proximidad, ambos colocados a
una distancia de 5 cm.
el nivel de presión sonora (SPL). Idealmente, estas tres
características no deberían verse afectadas en el sonido capturado.
Mientras que el F0 de la voz normalmente se conserva bien en el
sonido capturado, la precisión del timbre capturado y SPL depende
de la respuesta de frecuencia y el rango dinámico del micrófono.
Un factor adicional es el ruido en la habitación, que también puede
influir en la precisión de la medición.
Todos estos factores serán considerados en las secciones siguientes.
Rango y respuesta de frecuencia
Los transductores de micrófono tienen una curva de respuesta voces roncas o chirriantes, sin embargo, podría haber componentes
de frecuencia inherente que refleja su diseño y propósito. La subarmónicos o caóticos del sonido, cuyas frecuencias podrían estar
respuesta de frecuencia ideal para las mediciones es plana (es decir, muy por debajo de los 50 Hz (p. ej., Herzel, 1996; Neubauer,
tener la misma sensibilidad para sonidos con diferentes frecuencias), Edgerton y Herzel, 2004; Švec, Schutte y Miller , 1996; Tokuda,
porque esto da como resultado una señal que tiene el mismo espectro Horáček, Švec y Herzel, 2007). Por lo tanto, el micrófono debería ser
(timbre) que el sonido original. Sin embargo, ningún micrófono real idealmente capaz de capturar las frecuencias más bajas posibles.
tiene una respuesta perfectamente plana. Por ejemplo, es común En los micrófonos de medición, a menudo se usa un límite inferior de
que los micrófonos de estudio/escenario tengan un “pico de presencia” 10 Hz. En estos casos, sin embargo, se debe tener cuidado con la
en la región de 3 a 10 kHz, lo que amplifica las frecuencias altas acústica de la sala y el ruido ambiental porque las señales capturadas
del sonido más que las frecuencias bajas y puede hacer que el pueden estar contaminadas por el ruido infrasónico y de baja
sonido sea perceptiblemente más atractivo ( ver Figura 2). Para una frecuencia de la sala y requieren un tratamiento especial.
medición precisa del SPL y el timbre de la voz, debe evitarse tal
coloración del espectro. Por lo tanto, los micrófonos de alta En el habla, los componentes de frecuencia más altos se producen
calidad destinados a fines de medición no muestran este pico de en consonantes como /s/, en las que el máximo espectral se centra
presencia. alrededor de 7000–8000 Hz (Fant, 1959) y algunos de los componentes
El rango de frecuencia de la respuesta del micrófono (es decir, la de sonido alcanzan frecuencias de 10000 Hz y superiores.
rango en el que la respuesta de frecuencia es lo suficientemente Sobre las vocales, las investigaciones se han limitado a menudo
plana) debe ser lo suficientemente amplio para capturar el espectro hasta las frecuencias de 5000 Hz, alrededor de las cuales existe un
completo del sonido de la voz/habla, desde los componentes de mínimo espectral (Dang & Honda, 1997; Ternström, 2008). Sin
interés de frecuencia más baja a la más alta. En la voz normal, el embargo, la investigación actual ha demostrado que también hay
componente de frecuencia más bajo está determinado por la F0 de componentes de frecuencia superiores a 5000 Hz producidos en las
la voz, que puede descender hasta unos 50 Hz en los hombres (p. vocales, lo que puede ser importante para la calidad de la voz
percibida (Ternström, 2008). El límite superior ideal para una frecuencia de micrófo
ej., Leino, Laukkanen, Ilomäki y Mäki, 2008; Sulter, Schutte y Miller, 1995). En
Švec & Granqvist: Directrices para la selección de micrófonos 357
Descargado de: http://ajslp.pubs.asha.org/ por un usuario de la Universidad de Nueva York el
19/04/2016 Términos de uso: http://pubs.asha.org/ss/rights_and_permissions.aspx
Machine Translated by Google
por lo tanto, se considera que la respuesta está alrededor de las (tanto LS1 como LS2, según la norma ANSI) tienen el límite de baja
frecuencias más altas perceptibles por el oído humano, es decir, 16000–20000 Hz. frecuencia de 10 Hz. Estos permiten el filtrado inverso de las señales de
Para especificar los requisitos de "planitud" de la respuesta de voz capturadas con frecuencias fundamentales de hasta al menos 100 Hz.
frecuencia, es útil tener en cuenta las tolerancias proporcionadas por las En los casos de filtrado inverso donde también interesan los valores de
normas nacionales e internacionales. La norma estadounidense ANSI caudal de aire calibrado, estos micrófonos siguen siendo insuficientes
S1.151997/Parte 1 (American National Standards Institute [ANSI], 2006), y suelen sustituirse por una máscara de caudal de aire y sensores con
que es comparable a la norma internacional IEC 610941 (Comisión un límite de baja frecuencia hasta niveles de CC, es decir, 0 Hz
Electrotécnica Internacional [IEC], 1992), especifica dos clases de (Rothenberg, 1973). ).
precisión (LS1 y LS2) para micrófonos diseñados especialmente para fines
de medición, es decir, micrófonos estándar de laboratorio (tipo LS). Aquí
Direccionalidad La
se requiere que la respuesta de frecuencia sea plana dentro de 2 dB
para el rango de frecuencia de 10–8000 Hz (micrófonos tipo LS1) o 10– direccionalidad es otra característica importante de los micrófonos. Un
20000 Hz (micrófonos tipo LS2). micrófono que es omnidireccional tiene la misma sensibilidad
independientemente de la dirección a la fuente de sonido.
La tolerancia de 2 dB es la diferencia máxima entre el nivel de sensibilidad Los micrófonos direccionales, por otro lado, responden de manera diferente
mayor y menor dentro del intervalo requerido. al sonido proveniente de diferentes direcciones. La direccionalidad de
un micrófono generalmente se muestra por su patrón de directividad o
Teniendo en cuenta las descripciones anteriores, se puede recomendar gráfico polar (consulte la Figura 3).
que el límite de baja frecuencia del micrófono destinado a la medición de Probablemente el patrón de directividad más común para los
la voz debe ser inferior a la frecuencia de voz más baja producida, siendo micrófonos direccionales es el cardioide (Figura 3b), aunque existen otros
50 Hz el máximo. El límite de frecuencia superior del micrófono debe patrones. El micrófono cardioide capta bien la señal que viene del frente
estar por encima de la frecuencia espectral de interés más alta, siendo pero suprime la señal que viene de otras direcciones. El gráfico
8000 Hz el mínimo. Entre los límites de frecuencia baja y frecuencia muestra que el micrófono cardioide tiene la sensibilidad más baja para los
superior, la respuesta de frecuencia del micrófono debe ser plana, con una sonidos que se originan en la dirección de 180°, es decir, desde atrás.
tolerancia de 2 dB.
Se ha encontrado que esto es útil para suprimir el ruido ambiental y el
Algunas aplicaciones, como el filtrado inverso de voz, requieren no sonido de reverberación en la sala, como se ilustra en la Figura 4.
solo una respuesta de frecuencia plana de un micrófono, sino también una Si bien la supresión del ruido ambiental es ventajosa para la
respuesta de fase plana. Esto es importante para preservar la forma medición de la señal de voz, los micrófonos direccionales tienen algunos
exacta de la forma de onda. El fabricante generalmente no proporciona la problemas serios de respuesta de frecuencia que deben tenerse en
respuesta de fase en la hoja de datos del micrófono. La respuesta de cuenta antes de usarlos. El problema es que el patrón direccional se logra
fase plana generalmente está garantizada cuando la respuesta de haciendo que el micrófono sea sensible al gradiente de presión, que a su
frecuencia es plana, pero el límite inferior para la planitud de la respuesta vez es proporcional a la velocidad de las partículas de aire, en lugar de
de fase ocurre en una frecuencia que es aproximadamente 10 veces más solo a la presión del sonido (Eargle, 2001; Merhaut, 1980). Por lo tanto,
alta que el límite de baja frecuencia del micrófono (Brüel & Kjaer, 1996, los micrófonos direccionales no registran necesariamente la presión sonora
Figuras 2.18). y 2.19). Por lo tanto, se puede requerir que el límite de real.
baja frecuencia del micrófono sea una década por debajo de la voz F0 Una consecuencia de esto es el llamado efecto de proximidad, que se trata
(F0/10). Micrófonos de tipo LS en la siguiente sección. Micrófonos de precisión
FIGURA 3. Ejemplos de gráficos polares de tres tipos de micrófonos: (a) omnidireccional, (b) cardioide y (c) hipercardioide. La
direccionalidad hipercardioide puede variar entre diseños, en particular con respecto al nivel del lóbulo dirigido hacia 180°.
358 American Journal of SpeechLanguage Pathology • vol. 19 • 356–368 • noviembre de 2010
Descargado de: http://ajslp.pubs.asha.org/ por un usuario de la Universidad de Nueva York el
19/04/2016 Términos de uso: http://pubs.asha.org/ss/rights_and_permissions.aspx
Machine Translated by Google
FIGURA 4. Señal de voz grabada a 30 cm simultáneamente con micrófono omnidireccional y direccional (cardioide) en presencia de ruido
ambiental. El micrófono cardioide reduce el efecto del ruido ambiental, como se demuestra en su espectrograma más limpio y SPL más bajos
durante las pausas del habla. (*En un sentido estricto, la señal del micrófono cardioide no es proporcional a la presión sonora realmente presente
en la sala, sino que se aproxima a la presión que se habría producido en un entorno menos ruidoso).
la medición de la presión sonora, como las que incorporan los sonómetros, Esto implica que para mediciones precisas de componentes de
son omnidireccionales. alta frecuencia, el micrófono debe orientarse de manera que se logre una
La omnidireccionalidad de un micrófono se garantiza solo hasta un respuesta plana máxima. Sin embargo, la dirección óptima varía entre
cierto límite de frecuencia por encima del cual incluso los micrófonos micrófonos, por lo que se debe consultar la hoja de datos del fabricante
"omnidireccionales" se vuelven direccionales. Este límite de frecuencia para encontrar este ángulo para cada modelo de micrófono. En general,
depende del tamaño de la punta del micrófono (para una punta de 1 hay dos orientaciones básicas de micrófonos (Brüel & Kjaer, 1984, 1996):
pulgada, el límite es de alrededor de 5 kHz; para tamaños más pequeños, (a) hacia la boca del hablante, que se usa con los micrófonos optimizados
para el sonido que proviene de una dirección (los llamados “campo libre”).
la frecuencia es mayor), y es el resultado de la difracción y la interferencia del sonido. .
Cuando el tamaño de la punta del micrófono se vuelve comparable a ” o micrófonos de “campo de incidencia frontal”), y (b) en un ángulo de
la longitud de onda del sonido, el micrófono se vuelve menos sensible a aproximadamente 70°, que es aplicable a micrófonos optimizados
los sonidos provenientes del costado y la parte posterior del micrófono. La principalmente para mediciones de ruido proveniente de todas las
respuesta de frecuencia del micrófono a altas frecuencias varía con el direcciones (los llamados “campo difuso” o “campo aleatorio”). campo
ángulo de incidencia. Las medidas muestran que para un 0.5in. micrófono de incidencia” micrófonos). Dichos micrófonos de campo difuso se
de membrana, el nivel a 10 kHz y 70° desciende aproximadamente 3 pueden encontrar en sonómetros que cumplen con el estándar ANSI
dB, y a 20 kHz aproximadamente 7 dB con respecto a la incidencia S1.41983 (ANSI, 1985). Los sonómetros que cumplen la norma
frontal debido a este efecto (Brüel & Kjaer, 1996). Para un micrófono internacional IEC 616721 (IEC, 2002) pueden tener tanto una respuesta
con el doble de diámetro de membrana (1 pulgada), se puede observar el de incidencia aleatoria como de campo libre. Para las mediciones de voz,
mismo efecto a la mitad de las frecuencias (5 y 10 kHz; Brüel & Kjaer, se deben preferir los micrófonos optimizados para el campo libre; estos se
1996). En términos de respuesta de frecuencia y direccionalidad, es dirigen hacia la fuente de sonido, es decir, la boca. Algunos micrófonos
preferible una punta más pequeña, pero generalmente se necesita un de alta calidad vienen con rejillas reemplazables para lograr una respuesta
compromiso porque una punta muy pequeña generalmente produce un plana para incidencia frontal o difusa; en estos casos se debe utilizar la
alto nivel de ruido del micrófono. rejilla de incidencia frontal.
Švec & Granqvist: Directrices para la selección de micrófonos 359
Descargado de: http://ajslp.pubs.asha.org/ por un usuario de la Universidad de Nueva York el
19/04/2016 Términos de uso: http://pubs.asha.org/ss/rights_and_permissions.aspx
Machine Translated by Google
Efecto de proximidad Los micrófonos de
La respuesta de frecuencia de un micrófono omnidireccional rango dinámico tienen un rango dinámico utilizable que está
no depende de la distancia entre la boca y el micrófono. limitado por su ruido interno en niveles bajos y distorsión
Los micrófonos direccionales, por otro lado, sufren el efecto de (recorte) en niveles altos (Brüel & Kjaer, 1996; DPA Microphones,
proximidad. Este efecto realza las frecuencias más bajas cuando 2007; consulte la Figura 6). El nivel de ruido generalmente se
dicho micrófono se coloca cerca de la boca (consulte la Figura 5). muestra en las especificaciones del micrófono como un nivel
de sonido ponderado A equivalente y se da en unidades de dBA
El efecto de proximidad no es fácil de compensar, ya que (calibrado para el valor de referencia estándar de 20 mPa,
el nivel de realce depende de la distancia entre la boca y el correspondiente a 0 dB). El espectro del ruido es
micrófono. Sin embargo, algunos micrófonos tienen compensación aproximadamente blanco para frecuencias altas. A bajas
integrada para el efecto de proximidad, por lo que su respuesta de frecuencias, suele haber cierto aumento del ruido. Este
frecuencia se vuelve aproximadamente plana a una distancia aumento es, sin embargo, de poca importancia porque su nivel
determinada. Si se utiliza una distancia diferente, la forma de onda suele ser inferior al del ruido de la sala, que suele presentar un comportamie
del sonido se alterará (recuerde la Figura 1) y habrá un error de Para garantizar una medición precisa de la voz y el habla, el nivel
respuesta de frecuencia, como se ilustra en la Figura 5. de ruido interno del micrófono (así como el nivel de ruido de la sala)
Cuando esté más cerca que la distancia de referencia, el micrófono debe ser considerablemente más bajo que el nivel esperado de las
potenciará las frecuencias bajas, mientras que a distancias más fonaciones más suaves. Para grabaciones limpias, se recomienda
lejanas que la referencia, las frecuencias bajas se suprimirán. El que el nivel de ruido del micrófono sea como mínimo 15 dB por
refuerzo o supresión de baja frecuencia en una respuesta de un debajo de los niveles de voz (consulte la Figura 6). Esto corresponde
micrófono cardioide es de hasta 6 dB por cada mitad o duplicación de aproximadamente a una señal de ruido con amplitudes al menos A
la distancia, respectivamente (Merhaut, 1980). más bajas que las amplitudes de la señal de voz (ver Figura 7). La
Desafortunadamente, muchos fabricantes no especifican la misma condición es válida también para los niveles de ruido de fondo.
distancia de referencia para los micrófonos direccionales (Šrámková, El requisito de una relación señalruido de al menos 15 dB se ha
2008; Švec et al., 2009) o miden los micrófonos de diadema a una adoptado como norma en la acústica de las aulas (ANSI, 2002) y
distancia lejana de la fuente. Esto significa que incluso si la hoja de se utiliza aquí por motivos de simplicidad. Para algunas aplicaciones,
datos del micrófono indica una respuesta de frecuencia plana, la sin embargo, pueden requerirse relaciones señal/ruido aún más altas
respuesta real en las grabaciones puede tener un fuerte refuerzo (30 dB o más); por ejemplo, en mediciones de perturbaciones, se
de las frecuencias más bajas. Si bien los cantantes han explorado encontró que los niveles de ruido inferiores a 30 dB por debajo de
este efecto para cambiar el timbre de su voz durante la interpretación, los niveles de voz tienen una influencia significativa en la midió los
la respuesta de frecuencia variable no es deseable para mediciones valores de fluctuación y brillo de la voz (Deliyski, Shaw, Evans y
precisas de la señal de voz. Por lo tanto, es importante tener en Vesselinov, 2006; Perry, Ingrisano, Palmer y McDonald, 2000).
cuenta la variabilidad de la respuesta de frecuencia en los
micrófonos direccionales y utilizar solo la distancia para la medición El límite superior del rango dinámico del micrófono se especifica
en la que la respuesta de frecuencia es plana. Si no se conoce la como el SPL que da como resultado una distorsión armónica total
distancia y el micrófono es direccional, el micrófono no se debe usar (THD) del 3% (Brüel & Kjaer, 1996). La norma ANSI S1.151997
para mediciones espectrales y de SPL de voz y habla. (ANSI, 2006) especifica un requisito aún más estricto del 1 % de THD.
Para las grabaciones de voz y habla, el nivel de este límite superior
del micrófono debe ser igual o superior a los niveles de las
FIGURA 5. Efecto de proximidad de un micrófono cardioide típico. fonaciones más fuertes (consulte la Figura 6).
Los componentes de baja frecuencia del espectro registrado se
potencian cuando disminuye la distancia bocamicrófono.
Este micrófono en particular tiene la respuesta más plana a una FIGURA 6. Rango dinámico de un micrófono y requisitos
distancia de 30 cm.
mínimos en función del rango dinámico de la voz. THD = distorsión
armónica total.
360 American Journal of SpeechLanguage Pathology • vol. 19 • 356–368 • noviembre de 2010
Descargado de: http://ajslp.pubs.asha.org/ por un usuario de la Universidad de Nueva York el
19/04/2016 Términos de uso: http://pubs.asha.org/ss/rights_and_permissions.aspx
Machine Translated by Google
FIGURA 7. La influencia del ruido en la forma de onda de presión: (a) FIGURA 8. Distorsión del micrófono: clipping suave y abrupto. El panel
una señal periódica limpia sin ruido, es decir, con una relación señal a superior ilustra una forma de onda con una distorsión de recorte suave,
ruido (SNR) infinita; (b–e) la misma forma de onda en las condiciones en como puede verse cuando un micrófono está sobrecargado. El recorte
las que se agrega ruido rosa de modo que el nivel de ruido sea (b) 20 abrupto (panel inferior) puede ocurrir en un amplificador de micrófono y
dB, (c) 15 dB, (d) 10 dB o (e) 5 dB más débil que la señal ; y (f) cuando el es más fácil de detectar visualmente. En esta ilustración, solo se ven
ruido tiene el mismo nivel que la señal. Observe el aumento de la afectados los picos positivos, pero son comunes los ejemplos en los que
perturbación de la forma de onda cuando aumenta el nivel de ruido. Para se ven afectados ambos o solo los picos negativos.
una medición precisa de la voz, se recomienda que la señal sea al
menos 15 dB más fuerte que el ruido interno del micrófono y el ruido de
fondo (casos a–c).
reconocible a través de picos aplanados de la forma de onda capturada
(ver Figura 8, abajo). Tal distorsión suele ser audible en el sonido. Por lo
general, ocurre en niveles más altos que el recorte suave (DPA
Microphones, 2007).
Rango dinámico frente a distancia del micrófono
Para especificar valores numéricos para los límites alto y bajo del
rango dinámico del micrófono, es importante considerar la distancia a la
que se va a utilizar el micrófono. Al aumentar la distancia de la boca,
la señal de voz se vuelve más débil (es decir, el nivel de voz disminuye).
Aquí, consideraremos dos posiciones de micrófono: (a) a una distancia
de 30 cm frente a la boca, que es la posición recomendada por la Unión
Europea de Foniatras para micrófonos de pie (Schutte & Seidner,
1983); y (b) a una distancia de 5 cm del lado de la boca, que es la
posición de “micrófono cercano” que se usa a menudo con micrófonos
montados en la cabeza. De acuerdo con la “ley de la distancia”, los
niveles de voz disminuyen en 6 dB cuando se duplica la distancia entre
la boca y el micrófono. A la distancia de 5 cm, los niveles son
aproximadamente 15 dB más altos que a 30 cm de la boca. (Sin
embargo, se necesita precaución aquí, ya que colocar el micrófono cerca
de la cabeza puede provocar artefactos y efectos de interferencia. La
distancia de 5 cm se considera aquí debido a su uso frecuente en la
Cuando se excede, los niveles de distorsión aumentan y los picos de práctica, pero merece más investigación y verificación. .)
la señal capturada se recortan progresivamente. Se pueden distinguir
dos tipos de recorte, suave y abrupto.
El recorte suave ocurre cuando las altas presiones acústicas deforman ¿Cuál debería ser el nivel de ruido máximo del micrófono para
la membrana del micrófono más allá de los límites de construcción lineal. estas distancias de medición? Los niveles de fonación más suaves se
Puede ser algo difícil de notar porque los picos se reducen suavemente han reportado alrededor de 40 dBA a una distancia de 30 cm (Heylen,
(consulte la Figura 8, arriba) y es posible que la distorsión no sea audible Wuyts, Mertens, De Bodt y Van de Heyning, 2002; Hunter, Švec y Titze,
en el sonido. El recorte abrupto, por otro lado, se origina principalmente 2006; Leino et al., 2008; Ma et al., 2007; Schneider & Bigenzahn, 2003;
en amplificadores electrónicos y es claramente Sulter et al., 1995),
Švec & Granqvist: Directrices para la selección de micrófonos 361
Descargado de: http://ajslp.pubs.asha.org/ por un usuario de la Universidad de Nueva York el
19/04/2016 Términos de uso: http://pubs.asha.org/ss/rights_and_permissions.aspx
Machine Translated by Google
lo que corresponde a aproximadamente 55 dBA a una distancia de 5 micrófonos, la membrana del micrófono actúa como una placa de
cm de la boca. Las mediciones específicas indican que, en casos condensador; cuando se desvía debido a las presiones acústicas, el
extremos, las fonaciones sostenidas más suaves pueden incluso voltaje del capacitor cambia en consecuencia, provocando una señal
acercarse a niveles de 30 dBA a 30 cm o 45 dBA a 5 cm (Šrámková, eléctrica (AKG Acoustics, 2003; Baken & Orlikoff, 2000; Howard &
2010). Teniendo en cuenta la regla de relación señal/ruido de 15 dB Murphy, 2007; Merhaut, 1980). La diferencia entre los tipos de
mencionada anteriormente, podemos formular el requisito para que el transductor de condensador y electret está en la forma en que se
nivel de ruido interno equivalente del micrófono (y para el nivel de polariza el condensador: el micrófono de condensador logra la
ruido de la sala) sea inferior a 15 dBA o 30 dBA cuando se pretenda polarización completamente a través de un voltaje aplicado
que sea se utiliza a una distancia de 30 o 5 cm, respectivamente. La externamente, mientras que el micrófono de electret utiliza un
información sobre el nivel de ruido interno equivalente real del material ferroeléctrico permanentemente polarizado (Elko & Harney, 2009). ; Sessle
micrófono se puede encontrar en las especificaciones proporcionadas Estos tecnicismos son, sin embargo, de poca preocupación para el
por el fabricante del micrófono. usuario. Las consecuencias prácticas son que los micrófonos electret
Los requisitos para los niveles de ruido del micrófono también son son menos costosos que los de condensador. Se ha asumido que el
válidos para los niveles de ruido ambiental. Además, aquí la relación desempeño del micrófono electret puede deteriorarse con el tiempo,
señalruido de 15 dB requiere que el nivel de ruido sea inferior a 15 pero las mediciones actuales han mostrado solo cambios muy pequeños
dBA cuando el micrófono se coloca a una distancia de 30 cm y que en su sensibilidad después de más de 10 años de uso cuando se
sea inferior a 30 dBA cuando se coloca a 5 cm. Los niveles de ruido maneja con cuidado (Yasuno & Miura, 2006).
ambiental se pueden medir con un sonómetro; en salas de oficina Aparte de la desventaja del requisito de potencia, los micrófonos
normales, estos niveles suelen superar los 40 dBA, lo que hace que las electret y de condensador superan a los micrófonos dinámicos en casi
evaluaciones de las fonaciones más suaves sean problemáticas. todos los aspectos, para fines de medición. El estándar ANSI
Algunas veces, las condiciones pueden mejorarse mediante un S1.151997 (ANSI, 2006) especifica que los micrófonos estándar de
cuidadoso filtrado de paso alto de las señales, pero este método laboratorio sean de tipo condensador.
está fuera del alcance de este artículo.
El límite dinámico superior del micrófono se puede derivar Preamplificador de micrófono
de los niveles más altos reportados para voz. En casos extremos,
Para capturar el sonido, se debe conectar un micrófono a un
como gritos o cantos operísticos en voz alta, estos niveles pueden
alcanzar valores entre 120 y 130 dB a la distancia de 30 cm preamplificador de micrófono y a un dispositivo de captura (consulte la
Figura 9). La función del preamplificador es ajustar los niveles de
(Angerstein & NeuschaeferRube, 1998; Leino et al., 2008; Šrámková,
voltaje relativamente débiles de la señal del micrófono (alrededor de
2010; Sulter et al., 1995), que corresponde a los niveles de
1 mV) a los niveles de línea estándar (alrededor de 1 V), lo que permite
aproximadamente 135–145(!) dB a una distancia de 5 cm. Muchos
que el sonido sea capturado por un dispositivo de grabación de sonido
micrófonos comerciales no pueden grabar presiones acústicas tan
estándar (como una grabadora digital o una computadora). Hay
altas fielmente y distorsionarán severamente estos sonidos fuertes.
muchos preamplificadores de micrófono en el mercado y sus
La distorsión altera el espectro de la voz y también provoca la
propiedades varían considerablemente. Está más allá del alcance de
subestimación de los altos niveles de sonido. Dado que algún tipo de
este artículo tratar la electrónica conectada a los preamplificadores.
distorsión (es decir, recorte suave) puede ser difícil de notar en la
Sin embargo, mencionaremos brevemente sus parámetros más
forma de onda grabada, es importante estudiar las especificaciones
importantes, es decir, la impedancia de entrada, el rango dinámico, la
del fabricante para el nivel máximo aceptable del micrófono para
ganancia, el rango de frecuencia y la potencia.
evitar estos problemas.
Cada micrófono requiere una impedancia de carga mínima (es
decir, impedancia de entrada) del preamplificador. Esto normalmente
Tipo de transductor se incluye en las especificaciones del micrófono como la “impedancia
Los transductores de micrófono convierten las presiones acústicas de terminación mínima” del micrófono. Si la impedancia del
en una señal eléctrica. Los tipos de transductores más comunes son preamplificador es demasiado baja, la sensibilidad del micrófono
electret, condensador y dinámico (AKG Acoustics, 2003; Howard & puede disminuir y, lo que es más grave, la respuesta de baja
Murphy, 2007). Las propiedades de los transductores dinámicos son frecuencia del micrófono puede verse afectada. Por ejemplo, los
considerablemente diferentes de las de electreto y condensador. micrófonos electret en miniatura montados en la cabeza a menudo
En un transductor dinámico, las señales eléctricas se producen por requieren una impedancia de terminación mínima de alrededor de 5
inducción electromagnética. Las desviaciones de la membrana de un kW, mientras que la impedancia de entrada de muchos
micrófono debido a la variación de la presión del sonido se preamplificadores de micrófono es de solo alrededor de 2 kW, lo que
transfieren a movimientos de una bobina de inducción o una cinta en no permite una transmisión óptima de las señales del micrófono. Por
un campo magnético permanente, lo que induce señales eléctricas lo tanto, se deben consultar las hojas de datos del micrófono y del
(AKG Acoustics, 2003; Baken & Orlikoff, 2000; Howard & Murphy, preamplificador para verificar que la impedancia de entrada sea al
2007). ; Merhaut, 1980). Los transductores dinámicos tienen la menos tan alta como la impedancia de terminación mínima requerida por el micrófon
ventaja de no requerir una fuente de alimentación, pero su respuesta El rango dinámico del preamplificador debe corresponder al rango
de frecuencia es, en promedio, considerablemente peor que la de los dinámico del micrófono. Cuando el rango dinámico del preamplificador
transductores de electreto y condensador. es más pequeño, agregará ruido a la señal del micrófono o introducirá
Los micrófonos electret y de condensador suelen tener una recortes en niveles altos.
respuesta de frecuencia más plana. Los transductores de electreto y Por lo tanto, el rango dinámico del preamplificador también debe ser al
condensador requieren alimentación, ya sea de una batería o menos 15 dB mayor que el rango dinámico máximo de la voz, para
mediante alimentación fantasma del amplificador del micrófono. En estos evitar la contaminación por ruido y recorte, como en el
362 American Journal of SpeechLanguage Pathology • vol. 19 • 356–368 • noviembre de 2010
Descargado de: http://ajslp.pubs.asha.org/ por un usuario de la Universidad de Nueva York el
19/04/2016 Términos de uso: http://pubs.asha.org/ss/rights_and_permissions.aspx
Machine Translated by Google
FIGURA 9. La ruta de la señal de sonido a través del micrófono y el preamplificador hasta el dispositivo de captura digital. Los parámetros
que se deben seleccionar bien en la medición de voz se enumeran debajo de cada una de las partes del equipo. El objetivo es
mantener la F0, el espectro y el nivel de la señal de voz sin perturbaciones, así como mantener el nivel de ruido muy por debajo del nivel
de la señal. A/D = analógico a digital.
caja del micrófono (recuerde las Figuras 7 y 8). Para un micrófono que plana sobre este rango. Algunos preamplificadores incluyen ecualizadores
tenga un rango dinámico de 115 dB (es decir, 15–130 dB), se espera que de frecuencia o mandos de graves/agudos que permiten modificar el
el preamplificador funcione al menos en el mismo rango dinámico. Muchos espectro sonoro (Howard & Murphy, 2007). A efectos de medición, deben
preamplificadores no satisfacen esta condición, lo que hace que las evitarse dichas modificaciones.
mediciones sobre el rango dinámico total de la voz no sean una tarea trivial. Como se mencionó en la sección anterior, los micrófonos de
Algunos autores han evitado este problema registrando la voz condensador y electret necesitan alimentación. La mayoría de las veces,
simultáneamente a través de dos micrófonos colocados a diferentes la energía se entrega a través del cable del micrófono desde la unidad
distancias (p. ej., 5 cm y 30 cm) y utilizando el más cercano para medir las denominada "fuente de alimentación fantasma", que proporciona un
fonaciones suaves y el lejano para las fonaciones fuertes (Pabon, 2007; voltaje estandarizado de 48 V. Muchos preamplificadores contienen una
Šrámková, 2010). En aras de la brevedad, estas soluciones especiales no unidad de alimentación fantasma de este tipo. Algunos micrófonos de
se abordan en detalle aquí. medición requieren una fuente de alimentación especializada que no es
compatible con la alimentación fantasma de 48 V. Otros micrófonos,
Normalmente, los preamplificadores tienen una perilla de ganancia especialmente los menos costosos, utilizan una batería como fuente de
para ajustar el nivel de la señal. La ganancia permite al usuario ajustar los alimentación. El funcionamiento con batería puede ser problemático, ya que
niveles de la señal para que coincidan con los niveles del dispositivo de captura. el estado de la batería a menudo afecta la sensibilidad del micrófono. El
El ajuste se debe realizar de modo que los sonidos más fuertes no suministro de energía desde el preamplificador es más confiable. La elección
sobrecarguen el preamplificador (provocando recorte de la señal), sino entre alimentación fantasma estandarizada de 48 V y otras soluciones
que estén cerca del límite superior del rango dinámico del preamplificador especializadas está determinada en gran medida por la elección del
(Ternström & Granqvist, 2010). Algunos preamplificadores no proporcionan micrófono. Una ventaja de la solución especializada es que el mismo
una atenuación lo suficientemente alta como para evitar la saturación a fabricante se encarga de la interfaz y, por lo tanto, se puede garantizar la
niveles de sonido muy altos, aunque el micrófono puede manejar la señal. compatibilidad de potencia, impedancia y niveles. La compra de un
En ese caso, dicho preamplificador no es adecuado para usarse con el preamplificador junto con un micrófono del mismo fabricante garantiza su
micrófono. La regla básica es que la ganancia del preamplificador debe compatibilidad y, por lo tanto, suele ser una buena y segura solución.
permitir ajustar el nivel de la señal para que los niveles máximos de voz
estén ligeramente por debajo de los niveles máximos grabables de ese
dispositivo.
Al igual que con los micrófonos, el rango de frecuencia del
Dispositivo de captura digital para señales de micrófono
preamplificador debe ser lo suficientemente grande para capturar todo el Para capturar la señal de voltaje proveniente del preamplificador del
espectro de la voz, desde las frecuencias más bajas hasta los componentes micrófono con un dispositivo de grabación digital, se debe usar un
espectrales de interés más altos, y la respuesta de frecuencia debe ser convertidor analógico a digital (A/D) (consulte la Figura 9).
Švec & Granqvist: Directrices para la selección de micrófonos 363
Descargado de: http://ajslp.pubs.asha.org/ por un usuario de la Universidad de Nueva York el
19/04/2016 Términos de uso: http://pubs.asha.org/ss/rights_and_permissions.aspx
Machine Translated by Google
Los convertidores A/D están integrados en dispositivos de captura de sonido componente espectral más alto de interés para capturar digitalmente todo el
digital, incluidas las tarjetas de sonido en las computadoras (Ternström & espectro de la voz, de acuerdo con el teorema de muestreo de Shannon (1949).
Granqvist, 2010). Aquí mencionaremos tres parámetros importantes del La frecuencia más alta capturada por un convertidor A/D se llama frecuencia
convertidor A/D que están más estrechamente relacionados con las características de Nyquist (FN) y es igual a la mitad de la frecuencia de muestreo (FN = FS/2;
del micrófono: resolución de bits, nivel de entrada máximo y frecuencia de Allaby & Allaby, 1999). Esto significa que si se va a capturar el rango de voz de
muestreo. hasta 8 kHz, se requiere una frecuencia de muestreo de al menos 16 kHz.
El rango dinámico digital del convertidor A/D está determinado por su
resolución de bits (Watkinson, 1998). Para capturar el rango dinámico completo Para capturar componentes de señales de voz de hasta 16–20 kHz (límite
de la voz y garantizar una relación señal/ruido mínima de 15 dB, se necesita superior del rango auditivo humano), se necesitan frecuencias de muestreo de al
un rango dinámico de aproximadamente 115 dB (que corresponde al rango de menos 32–40 kHz. Las grabadoras de audio estándar suelen funcionar con
15 a 130 dB a 30 cm determinado anteriormente para los micrófonos) . De frecuencias de muestreo de 44,1 kHz o 48 kHz, lo que permite capturar sonidos
acuerdo con la información proporcionada en la Tabla 1, esto indica que un en todo el rango de audición de los humanos. A menudo es preferible utilizar
convertidor A/D universal para señales de voz debe tener una resolución de 20 estas tasas de muestreo estándar, ya que las tasas no estándar pueden
bits o más. Muchos dispositivos de audio para consumidores (incluidas las introducir artefactos de conversión de tasa de muestreo. En casos especiales,
tarjetas de sonido de computadoras) ofrecen una resolución de solo 16 bits, lo como en mediciones de perturbaciones de frecuencia de alta precisión, incluso
que corresponde a un rango teórico máximo de 96 dB (Ternström & Granqvist, tasas de muestreo más altas pueden ser ventajosas (Titze, 1995; Titze, Horii y
2010). Esto significa que dichos dispositivos no pueden grabar los rangos Scherer, 1987).
extremos de las voces humanas sin ajustar la ganancia. Ha habido intentos de
reducir estas demandas, por ejemplo, dividiendo la señal de un solo micrófono Cuando se envía la señal desde el preamplificador del micrófono al
en dos canales con diferentes ganancias, o usando un atenuador automático dispositivo de grabación de audio, se utiliza el enchufe designado como
capaz de cambiar la ganancia en niveles específicos (por ejemplo, el programa “entrada de línea”. Algunos dispositivos de grabación ofrecen una toma de
de perfil de rango de voz de Kay Pentax, modelo 4326 ). Los detalles de tales "entrada de micrófono", que está diseñada para usarse como entrada para una
soluciones especiales van más allá del alcance de este artículo. La buena noticia señal de micrófono sin preamplificador. Esto indica que el dispositivo tiene un
es que los últimos dispositivos profesionales de grabación de sonido de alta preamplificador de micrófono integrado en el equipo. En el caso de usar el
calidad ofrecen una resolución de 24 bits, lo que corresponde a un rango zócalo de entrada de micrófono, se deben verificar los parámetros del
dinámico teórico de 141 dB. Aunque el rango dinámico real de la electrónica preamplificador incorporado como se describe en la sección anterior.
rara vez supera los 120 dB, es suficiente para cubrir todo el rango dinámico de
la voz hasta sus extremos sin ajuste de ganancia.
Recomendaciones
Con base en la información proporcionada anteriormente, podemos formu
tarde las siguientes recomendaciones para micrófonos:
Los convertidores A/D tienen un nivel de entrada máximo por encima del cual
1. El nivel de ruido (es decir, el límite dinámico bajo) del micrófono debe estar
la señal se corta. En los equipos de audio profesionales, el nivel máximo de
al menos 15 dB por debajo del nivel de voz producido más bajo. El mismo
entrada suele rondar los 7 V (European Broadcasting Union, 1979). En los
criterio debe considerarse para el nivel de ruido ambiental.
equipos de audio de consumo, este valor suele ser menor, alrededor de 1 V.
Como se mencionó en la sección anterior, los niveles de voz máximos que
salen del preamplificador deben ajustarse para que estén cerca pero sin 2. El límite dinámico superior del micrófono (es decir, el
exceder la entrada máxima. nivel del convertidor A/D. Para ello, el equipo de 3% de nivel de THD) debe ser al menos tan alto como el nivel de voz más
grabación suele ofrecer un indicador (como un color rojo) que avisa del clipping. alto producido.
Al grabar, siempre se debe evitar el recorte.
3. El límite de baja frecuencia del micrófono debe ser inferior a la frecuencia
más baja producida por la voz.
4. El límite de frecuencia superior del micrófono debe ser mayor que la
La tasa de muestreo (también llamada frecuencia de muestreo, o FS) frecuencia espectral de interés más alta.
debe ser al menos el doble de la frecuencia del 5. La respuesta de frecuencia del micrófono entre el límite de frecuencia inferior
y superior debe ser plana.
TABLA 1. Resolución de bits y rango dinámico teórico correspondiente de 6. Se deben usar micrófonos direccionales para SPL y
un convertidor A/D.
mediciones espectrales solo a la distancia en la que la respuesta de
frecuencia es plana, para evitar el efecto de proximidad.
Resolución de bits Rango dinámico teórico
Esa distancia debe encontrarse en las especificaciones del micrófono. Si
8 bits 45dB no se conoce la distancia, el micrófono no se considera adecuado para las
12 bits 69dB mediciones espectrales y de SPL de voz y habla.
16 bits 93dB
18 bits 105dB
20 bits 117dB Estas recomendaciones aseguran que la F0, el espectro y el SPL de la voz
24 bits 141dB
no se vean afectados considerablemente en el sonido capturado. La Tabla 2
resume las recomendaciones de micrófonos y proporciona los valores
Nota. Basado en Watkinson (1998, p. 246, tramado triangular,
Fórmula 8.2). numéricos correspondientes para las dos distancias de micrófono (30 cm y 5 cm)
descritas anteriormente
364 American Journal of SpeechLanguage Pathology • vol. 19 • 356–368 • noviembre de 2010
Descargado de: http://ajslp.pubs.asha.org/ por un usuario de la Universidad de Nueva York el
19/04/2016 Términos de uso: http://pubs.asha.org/ss/rights_and_permissions.aspx
Machine Translated by Google
(para diferentes distancias, los valores deben interpolarse a partir de Una búsqueda en Internet sobre las características de los micrófonos
los datos). Los valores se consideran para dos rangos de voz: (a) el rango disponibles en el mercado en 2008 reveló que muchos micrófonos
extremo, es decir, el rango total de voz hasta sus límites extremos comerciales no cumplían con las recomendaciones ofrecidas en la Tabla
informados; y (b) el rango limitado de la voz, que abarca la voz y el habla 2 (Šrámková, 2010; Švec et al., 2009). En algunos micrófonos montados
en las situaciones comunes pero no para fonaciones extremas o para en la cabeza, el límite dinámico superior era de alrededor de 130 dB, que
frecuencias superiores a 8 kHz. es demasiado bajo para capturar la voz más fuerte a una distancia de
aproximadamente 5 cm. La respuesta de frecuencia de muchos micrófonos
Puede haber mediciones especializadas para las que estos requisitos no era lo suficientemente plana y presentaba un "pico de presencia" (es
numéricos aún no sean suficientes. Sin embargo, en algunos casos (como decir, una ganancia de nivel de hasta 7 dB en frecuencias alrededor de 3–
para mediciones solo a niveles de voz cómodos), estos requisitos pueden 10 kHz). En los micrófonos direccionales, a menudo no se proporcionaba
ser demasiado estrictos. la distancia de referencia para la respuesta más plana. Esto indica que la
tarea de seleccionar un micrófono no debe tomarse a la ligera.
Discusión
Los micrófonos de medida de laboratorio del tipo LS (según normas
Con base en nuestras recomendaciones generales, se puede decir que
ANSI) garantizan que, salvo el nivel de ruido, se cumplen todas las
diferentes tareas de fonación plantean diferentes demandas en los
recomendaciones de la Tabla 2. Los micrófonos de tipo LS1 garantizan los
micrófonos. Para mediciones simples de fonaciones cómodas, los requisitos
parámetros para el rango limitado, mientras que los micrófonos de tipo
son diferentes que para mediciones avanzadas de fonaciones muy
LS2 satisfacen las recomendaciones también para el rango extremo. Los
fuertes o muy suaves. Además, se espera que los micrófonos de cabeza
niveles máximos de ruido de los micrófonos no están prescritos por la
colocados cerca de la boca (distancia de alrededor de 5 cm) tengan
norma ANSI y deben verificarse en la hoja de especificaciones del
especificaciones diferentes a los micrófonos montados en un soporte a
micrófono; muchos de los micrófonos de tipo LS cumplen con las
una distancia de 30 cm (ver Tabla 2).
recomendaciones de ruido de la Tabla 2.
Los requisitos también implican que las mediciones de F0 por
perturbaciones tienen demandas diferentes (es decir, una relación señal
¿Cómo se comparan nuestras recomendaciones con las
ruido de 30 dB o más; Deliyski et al., 2006; Perry et al., 2000) que las
recomendaciones de otros autores? Para mediciones de perturbaciones
mediciones de la voz SPL o la voz. espectro (es decir, respuesta de
de voz, Titze (1995, p. 28) ofreció las siguientes recomendaciones sobre
frecuencia plana del micrófono).
micrófonos:
Si bien la mejor selección de micrófono depende en gran medida del
propósito de la grabación, a menudo es deseable tener un micrófono que Para las señales de tipo 1 para las que se debe extraer una
funcione bien para varios propósitos. Los micrófonos que cubren toda medida de perturbación del orden del 0,1 % con una precisión del
la frecuencia y el rango dinámico de la voz son considerablemente más 10 %, se hacen las siguientes recomendaciones:
caros que los micrófonos que cubren una parte limitada de este rango. Si
a. Debe utilizarse un micrófono de condensador de calidad
bien los micrófonos económicos pueden funcionar bien para un propósito
profesional (omnidireccional o cardioide) con una sensibilidad
determinado, siempre existe el riesgo de que el micrófono se use fuera
mínima de –60 dB (Titze & Winholtz, 1993). b. Para
de sus capacidades. Desde esta perspectiva, los micrófonos de alta calidad
suelen resultar rentables a pesar de su alto precio. pronunciaciones de vocales constantes, la distancia entre la boca y
el micrófono puede mantenerse constante y a menos de 10 cm
(preferiblemente 34 cm) para evitar un asombro artificial y para
TABLA 2. Recomendaciones preliminares para micrófonos destinados a mediciones de voz y habla.
rango extremo Rango limitado
Nivel de ruido Al menos 15 dB por debajo del nivel de voz más bajob ≤15 dBA ≤30 dBA ≤30 dBA ≤45 dBA
Nivel máximo (3% de distorsión armónica total) Por encima del nivel de voz máximo fL: límite de ≥130 dB ≥145 dB ≥120 dB ≥135 dB ≤50 Hz >8 kHz
frecuencia inferior (–2 dB) Por debajo de la frecuencia más baja de la ≤10Hz ≤10Hz ≤50Hz
vozc fU: límite de frecuencia superior (–2 dB) Por encima de la frecuencia espectral más alta >16kHz >16kHz >8kHz
de interés
Planitud entre fL y fU (excepto una ganancia superior Departamento ≤2dB ≤2dB ≤2dB ≤2dB
a 5 kHz)
Ganancia máxima entre 5 kHz y fU Sin ganancia ≤1dB ≤3dB ≤3dB ≤5dB
a
La idoneidad de la distancia entre la boca y el micrófono de 5 cm para mediciones precisas de la voz necesita verificación debido a las incertidumbres de la radiación del sonido en la
proximidad de la cabeza.
b
Para las medidas de perturbación, la relación señalruido (SNR) de 15 dB puede no ser suficiente y, en su lugar, se debe considerar una SNR de 30 dB (Deliyski et al., 2006; Perry et
al., 2000).
C
El filtrado inverso puede requerir que este límite sea aproximadamente una década (1/10) por debajo del F0 de voz.
d
Para los micrófonos de cabeza montados al costado de la boca, podría ser ventajoso tener un pico de presencia, debido a la pérdida de frecuencias altas en el costado de la cabeza
(Cabrera et al., 2002; Dunn & Farnsworth, 1939). ; Marshall y Meyer, 1985). Sin embargo, no existen estándares sobre qué tan grande debe ser este pico, por lo que nuestra
recomendación es usar un micrófono a 30 cm delante de la boca para mediciones en las que el contenido de alta frecuencia por encima de 5 kHz es crítico.
Švec & Granqvist: Directrices para la selección de micrófonos 365
Descargado de: http://ajslp.pubs.asha.org/ por un usuario de la Universidad de Nueva York el
19/04/2016 Términos de uso: http://pubs.asha.org/ss/rights_and_permissions.aspx
Machine Translated by Google
mantener una alta relación señalruido; se recomienda un Roussel & Lobdell, 2006), el parámetro H1/H2 (Björkner, 2008;
micrófono en miniatura montado en la cabeza (Winholtz & Titze, [1997]). Salomao & Sundberg, 2008), o el coeficiente alfa (Frokjaer
Estas recomendaciones no están en conflicto con las Jensen & Prytz, 1976; Ilomäki, Laukkanen, Leppänen, &
Vilkman, 2008; Laukkanen, Ilomäki, Leppänen y Vilkman, 2008;
recomendaciones proporcionadas en este artículo. Cabe señalar,
Master, De Biase, Chiari y Laukkanen, 2008; Waaramaa, Laukkanen,
sin embargo, que las mediciones de perturbaciones no plantean
Alku y Vayrynen, 2008) y provocan imprecisión incluso en mediciones
demandas tan altas sobre las propiedades espectrales del sonido
calibradas de SPL de voz. De acuerdo con nuestras
(por lo tanto, el efecto de proximidad del micrófono cardioide no es
recomendaciones, el uso de micrófonos direccionales y cardioides
de gran preocupación aquí) o sobre el rango dinámico del micrófono,
es problemático cuando no se colocan a la distancia para la cual la
ya que la voz generalmente se produce a niveles cómodos.
respuesta de frecuencia del micrófono es plana.
Sin embargo, una alta relación señalruido es muy importante para
las medidas de perturbación porque la señal de ruido puede Antes de utilizar un micrófono con fines de medición, es importante
causar una contaminación considerable de la señal de voz estudiar sus especificaciones. Estas especificaciones normalmente
(recuerde la Figura 7). se proporcionan en la documentación que acompaña al micrófono
La distancia muy pequeña del micrófono de 3–4 cm y, por lo general, también se pueden encontrar en el sitio web del
recomendada por Titze (1995) para mediciones de perturbaciones fabricante. En los micrófonos que cumplen con el estándar LS,
tiene un efecto beneficioso de aumentar el nivel de la señal con las especificaciones deben ser precisas. Sin embargo, en los
respecto al nivel de ruido (tanto del micrófono como de la sala), micrófonos que no están clasificados (es decir, que no cumplen
mejorando así la señal. relación ruidoaruido. Sin embargo, a con el estándar LS1 o LS2), la precisión y las tolerancias de las
distancias menores de 20 cm, el micrófono generalmente se especificaciones generales del micrófono proporcionadas por el
coloca al lado de la boca, lo que puede causar problemas para fabricante en la hoja de datos o en la web pueden ser cuestionables.
obtener mediciones precisas del espectro y SPL de la voz y el habla suficiente información para responder a esta pregunta. Sin
porque se ha descubierto que la voz irradia menos energía de alta embargo, algunos fabricantes proporcionan especificaciones
frecuencia (por encima de 1 kHz) al costado en comparación precisas medidas individualmente para sus micrófonos. Dichos
con el frente de la boca (Cabrera, Davis, Barnes, Jacobs y Bell, 2002; micrófonos pueden considerarse confiables para fines de
Dunn y Farnsworth, 1939; Marshall y Meyer, 1985). Además, medición. Para micrófonos no clasificados sin características medidas
pequeños cambios en la posición del micrófono a una distancia individualmente, puede valer la pena que un especialista los pruebe
tan cercana pueden causar cambios no despreciables en el SPL y mida. Ciertamente, cuando no se conocen las características, el
medido. Y en el caso de voz fuerte, esta posición cercana requiere micrófono no debe considerarse adecuado para la medición de la
que el micrófono sea capaz de registrar niveles de sonido muy voz.
altos (potencialmente incluso hasta 147 dB) sin agregar distorsión a
la señal. Por lo tanto, la ubicación del micrófono para las grabaciones
Conclusión
de voz es un tema que merece más investigación.
En aras de la coherencia del tema, planeamos abordar este A pesar de que las mediciones de voz y habla se llevan a cabo
problema en un artículo separado. de forma rutinaria con fines clínicos y de investigación, el tema de la
Schutte y Seidner (1983) recomendaron que los niveles de ruido selección de micrófonos no ha recibido suficiente atención en la
de la sala fueran inferiores a 40 dBA cuando el micrófono se coloca literatura sobre voz y habla. En este artículo, hemos intentado
en un soporte y se coloca a 30 cm de distancia de los labios. establecer algunos principios fundamentales para guiar la selección
Cuando el micrófono está montado en la cabeza a 10 cm de distancia de micrófonos. Si bien estas recomendaciones pueden considerarse
de los labios, Dejonckere et al. (2001, p. 78) especificó que “lo ideal preliminares, proporcionan una base para mejorar la precisión de
es que las grabaciones se realicen en una habitación insonorizada, las mediciones. Esperamos que un mejor conocimiento sobre los
pero es aceptable una habitación silenciosa con un ruido ambiental micrófonos y sus características permita a los investigadores realizar
< 50 dB”. A la luz de nuestro análisis, estas recomendaciones mediciones más precisas de la voz y el habla en el futuro.
serían aceptables solo para la voz producida a niveles cómodos o
altos, que superen los 55 dBA SPL a 30 cm o los 65 dB SPL a 10
cm. Para voces suaves que se acercan a niveles de umbral de
Expresiones de gratitud
fonación de 30 dBA a 30 cm, se requieren niveles de ruido mucho
más bajos de acuerdo con nuestras recomendaciones, es decir, 15, El estudio fue apoyado por la Agencia de Subvenciones de la
República Checa, Proyecto GACR 101/08/1155, y por la Fundación
25 o 30 dBA cuando el micrófono se coloca a 30, 10 o 5 cm, respectivamente.
Algunos autores han considerado que un micrófono cardioide WennerGren en Suecia. La investigación también fue apoyada
es la mejor opción cuando se mide la voz en las clínicas (Baken & por la Evaluación avanzada de la función de voz COST Action
2103. Los autores desean agradecer a Skype por la conexión. Ambos
Orlikoff, 2000). Los micrófonos cardioides normalmente suprimen
autores hicieron una contribución igual al artículo.
el nivel de ruido en la sala en 5 dB (recuerde la Figura 4), lo que
puede ser útil en clínicas muy concurridas, especialmente cuando
las mediciones de perturbación son de interés. Por otro lado, el Referencias
efecto de proximidad del micrófono puede distorsionar las Acústica AKG. (2003). El ABC de AKG: conceptos básicos y
mediciones espectrales, como el parámetro del índice de fonación fundamentos de uso del micrófono. Nashville, TN: Autor.
suave en el software de análisis MultiDimensional Voice Program Allaby, A. y Allaby, M. (1999). Frecuencia de Nyquist. En
comúnmente utilizado (Kay Elemetrics, 1999; ver Deliyski, 1993; Diccionario de ciencias de la tierra. Obtenido de
Muñoz, Mendoza , Fresneda, Carballo y López, 2003; www.enciclopedia. com/doc/1O13Nyquistfrequency.html.
366 American Journal of SpeechLanguage Pathology • vol. 19 • 356–368 • noviembre de 2010
Descargado de: http://ajslp.pubs.asha.org/ por un usuario de la Universidad de Nueva York el
19/04/2016 Términos de uso: http://pubs.asha.org/ss/rights_and_permissions.aspx
Machine Translated by Google
Instituto Americano de Estándares Nacionales. (1985). Especificación para FrokjaerJensen, B. y Prytz, S. (1976). Registro de calidad de voz. Revisión
sonómetros (ANSI S1.41983). Melville, Nueva York: Sociedad Acústica técnica de Brüel & Kjaer, 3, 3–17. Obtenido de www.bksv.com/doc/
de América. technicalreview19763.pdf.
Instituto Americano de Estándares Nacionales. (2002). Acústico Herzel, H. (1996). Posibles mecanismos de inestabilidades vocales. En PJ
criterios de desempeño, requisitos de diseño y pautas para las escuelas Davis & NH Fletcher (Eds.), Fisiología de las cuerdas vocales:
(ANSI S12.602002). Melville, Nueva York: Sociedad Acústica de América. controlando la complejidad y el caos (págs. 63–75). San Diego, CA:
Singular.
Instituto Americano de Estándares Nacionales. (2006). Micrófonos de Heylen, L., Wuyts, FL, Mertens, F., De Bodt, M. y Van de Heyning, PH
medida. Parte 1: Especificaciones para micrófonos estándar de (2002). Perfiles de rango de voz normativos de usuarios profesionales
laboratorio (ANSI S1.151997/Parte 1 [R2006]). Melville, Nueva York: de voz masculinos y femeninos. Revista de Voz, 16, 1–7.
Sociedad Acústica de América. Howard, DM y Murphy, D. (2007). Ciencias de la voz, acústica y grabación.
Angerstein, W. y NeuschaeferRube, C. (1998). Exámenes de nivel de San Diego, CA: Plural.
presión sonora de la voz de llamada y habla en personas sanas y en Hunter, EJ, Švec, JG y Titze, IR (2006). Comparación de los perfiles de
pacientes con disfonía hiperfuncional. rango de voz producidos y percibidos en cantantes clásicos entrenados
Logopedia Foniatría Vocología, 23, 21–26. y no entrenados. Revista de Voz, 20, 513–526.
Baken, RJ y Orlikoff, RF (2000). Medición clínica del habla y la voz (2ª ed.). Ilomaki, I., Laukkanen, AM, Leppänen, K. y Vilkman, E.
San Diego, CA: Singular. (2008). Efectos del entrenamiento de la voz y la educación sobre la
Björkner, E. (2008). Teatro musical y canto de ópera: ¿por qué tan higiene de la voz en los parámetros acústicos y de percepción del habla
diferentes? Un estudio de la presión subglótica, la fuente de la voz y y el bienestar vocal autoinformado en maestras. Logopedia Foniatría
las características de frecuencia de los mantos. Revista de Voz, 22, 533–540. Vocología, 33, 83–92.
Bless, DM, Baken, RJ, Hacki, T., Fritzell, B., Laver, J., Schutte, HK, . . . Comisión Electrotécnica Internacional. (1992). interna
Hurme, P. (1992). Discusión del Comité de Voces de la Asociación estándar nacional: Micrófonos de medición—Parte 1: Especificaciones
Internacional de Logopedia y Foniatría (IALP) sobre temas de evaluación. para micrófonos estándar de laboratorio (IEC 610941:1992).
Revista de Voz, 6, 194–210. Ginebra, Suiza: Autor.
Bruel & Kjaer. (1984). Medición de sonido. Naerum, Dinamarca: Comisión Electrotécnica Internacional. (2002). Electroacústica:
Autor. sonómetros—Parte 1: Especificación (IEC 616721). Ginebra, Suiza:
Bruel & Kjaer. (1996). Manual de micrófonos. Naerum, Dinamarca: Autor.
Autor. Kay Elemetrics. (1999). Programa de voz multidimensional Modelo 5105
Cabrera, D., Davis, P., Barnes, J., Jacobs, M. y Bell, D. (Versión 2.0) [Software de computadora]. Lincoln Park, Nueva
(2002). Grabación de la voz operística para análisis acústico. Jersey: Autor.
Acústica Australia, 30, 103–108. Laukkanen, AM, Ilomaki, I., Leppänen, K. y Vilkman, E.
Dang, J. y Honda, K. (1997). Características acústicas de la fosa piriforme (2008). Medidas acústicas y autoinformes de fatiga vocal por parte de
en modelos y humanos. The Journal of the Acous tical Society of profesoras. Revista de Voz, 22, 283–289.
America, 101, 456–465. Laver, J., Hiller, S. y Beck, JM (1992). Perturbaciones de la forma de onda
Dejonckere, PH, Bradley, P., Clemente, P., Cornut, G., acústica y trastornos de la voz. Revista de Voz, 6, 115–126.
CrevierBuchman, L., Friedrich, G., . . . Woisard, V. (2001). Leino, T., Laukkanen, AM, Ilomäki, I. y Mäki, E. (2008).
Protocolo básico para la evaluación funcional de la patología de la voz, Evaluación de la capacidad vocal de estudiantes universitarios finlandeses.
especialmente para investigar la eficacia de los tratamientos Folia Phoniatrica et Logopaedica, 60, 199–209.
(fonoquirúrgicos) y evaluar nuevas técnicas de evaluación. Guía Ma, E., Robertson, J., Radford, C., Vagne, S., ElHalabi, R. y Yiu, E. (2007).
elaborada por el Comité de Foniatría de la Sociedad Europea de Fiabilidad de las medidas de habla y rango máximo de voz en la
Laringología (ELS). Archivos europeos de Oto RhinoLaryngology, detección de disfonía. Revista de Voz, 21, 397–406.
258, 77–82.
Deliyski, DD (1993). Modelo acústico y evaluación de la producción Marshall, AH y Meyer, J. (1985). La directividad y las impresiones auditivas
patológica de la voz. Actas de EUROSPEECH '93: Tercera Conferencia de los cantantes. Acústica, 58, 130–140.
Europea sobre Tecnología y Comunicación del Habla (págs. 1969– Master, S., De Biase, N., Chiari, BM y Laukkanen, AM
1972). Obtenido de www.iscaspeech. org/archive/eurospeech_1993/ (2008). Análisis acústico y perceptivo de las voces de actores y no
e93_1969.html. actores masculinos brasileños: espectro promedio a largo plazo y el
Deliyski, DD, Shaw, HS, Evans, MK y Vesselinov, R. "formante del actor". Revista de Voz, 22, 146–154.
(2006). Enfoque de árbol de regresión para estudiar los factores que Merhaut, J. (1980). Teoría de la electroacústica. Nueva York, NY: McGraw
influyen en el análisis de la voz acústica. Folia Phoniatrica et Hill.
Logopaedica, 58, 274–288. Muñoz, J., Mendoza, E., Fresneda, MD, Carballo, G., &
Micrófonos DPA. (2007). Cálculo del rango dinámico de un micrófono. López, P. (2003). Indicadores acústicos y perceptivos de voz normal y
Obtenido de www.dpamicrophones.com. patológica. Folia Phoniatrica et Logopaedica, 55, 102–114.
Dunn, HK y Farnsworth, DW (1939). Exploración del campo de presión
alrededor de la cabeza humana durante el habla. Revista de la Neubauer, J., Edgerton, M. y Herzel, H. (2004). Fenómenos no lineales en
Sociedad Acústica de América, 10, 184–199. la música vocal contemporánea. Revista de Voz, 18, 1–12.
Eargle, J. (2001). El libro del micrófono. Boston, MA: Focal Press. Pabón, P. (2007). Voice Profiler (Versión 4.0) [Software de computadora].
Elko, GW y Harney, KP (2009). Una historia de consumo Utrecht, Países Bajos: Autor.
micrófonos: El micrófono de condensador electret se une a los Perry, CK, Ingrisano, DR, Palmer, MA y McDonald, EJ (2000). Efectos del
microsistemas electromecánicos. Acústica hoy, 5, 4–13. ruido ambiental en estimaciones de voz derivadas de computadora
Unión Europea de Radiodifusión. (1979). El medidor de programa pico de hablantes femeninas. Revista de Voz, 14, 146–153.
estándar EBU para el control de la transmisión internacional (Tech. 3205
E, 2nd ed.). Bruselas, Bélgica: Autor. Rothenberg, M. (1973). Una nueva técnica de filtrado inverso para
Fant, G. (1959). Análisis acústico y síntesis del habla con aplicaciones al derivar la forma de onda del flujo de aire glótico durante la
sueco. Técnicas de Ericsson, 1, 1–106. sonorización. Revista de la Sociedad Acústica de América, 53, 1632–1645.
Švec & Granqvist: Directrices para la selección de micrófonos 367
Descargado de: http://ajslp.pubs.asha.org/ por un usuario de la Universidad de Nueva York el
19/04/2016 Términos de uso: http://pubs.asha.org/ss/rights_and_permissions.aspx
Machine Translated by Google
Roussel, NC y Lobdell, M. (2006). La utilidad clínica del índice de fonación Ternström, S. (2008). Alta fidelidad en la línea: diga "aah".
blanda. Lingüística clínica y fonética, 20, 181–186. Boletín Echoes de la Acoustical Society of America, 18, 4–5.
Salomao, GL y Sundberg, J. (2008). Relación entre el registro de voz Ternström, S. y Granqvist, S. (2010). Computadoras personales en el
percibido y los parámetros del glotograma de flujo en hombres. laboratorio de voz: segunda parte: dispositivos de audio. Logopedia
The Journal of the Acoustical Society of America, 124, 546–551. Foniatría Vocología, 35, 98–102.
Schneider, B. y Bigenzahn, W. (2003). Influencia de la glotis Titze, IR (1995). Taller de análisis acústico de la voz. Declaración resumida.
configuración de cierre sobre la eficacia vocal en mujeres jóvenes de Salt Lake City, UT: Centro Nacional para la Voz y el Habla. Obtenido
habla normal. Revista de Voz, 17, 468–480. de www.ncvs.org/museumarchive/sumstat.pdf.
Schutte, HK y Seidner, W. (1983). Recomendación de la Unión Europea de
Foniatras (UEP): Estandarizar la medición/fonetografía del área de voz. Titze, IR, Horii, Y. y Scherer, RC (1987). Algunas consideraciones técnicas
Folia Phoniatrica et Logopaedica, 35, 286–288. en las medidas de perturbación de la voz. Revista de investigación del
habla y la audición, 30, 252–260.
Sessler, GM y West, JE (1962). Micrófono de condensador autopolarizado Titze, IR y Winholtz, WS (1993). Efecto del tipo de micrófono y ubicación en
de alta capacitancia. Revista de la Sociedad Acústica de América, 34, las mediciones de perturbación de voz. Revista de investigación del habla
1787–1788. y la audición, 36, 1177–1190.
Shannon, EC (1949). Comunicación en presencia de ruido. Tokuda, IT, Horáček, J., Švec, JG y Herzel, H. (2007).
Actas de la IRE, 37, 10–21. Comparación del modelado biomecánico de transiciones de registro e
Spielman, J., Starr, AC, Popolo, PS y Hunter, EJ inestabilidades de voz con experimentos de laringe extirpada. The
(2007). Recomendaciones para la creación de un laboratorio de acústica Journal of the Acoustical Society of America, 122, 519–531.
de voz [NCVS Online Technical Memo No. 7, Version 1.4]. Waaramaa, T., Laukkanen, AM, Alku, P. y Vayrynen, E.
Obtenido de www.ncvs.org/elearning/technical.html. Šrámková, (2008). Expresión monotonal de emociones en diferentes vocales.
H. (2008). Technické požadavky pro akustickou Folia Phoniatrica et Logopaedica, 60, 249–255.
registraci hlasu a řeči [Requisitos técnicos sobre el registro acústico Watkinson, J. (1998). El arte de la reproducción del sonido. Woburn, MA:
de la voz y el habla] (Tesis de licenciatura inédita). Universidad Focal Press.
Palacký Olomouc, Olomouc, República Checa. Šrámková, H. (2010). Winholtz, WS y Titze, IR (1997). Micrófono miniatura montado en la cabeza
Vyšetření dynamického rozsahu akustického tlaku u lidského hlasu [Examen para análisis de perturbaciones de voz. Revista de investigación del
de los rangos dinámicos de las presiones sonoras en la voz humana] habla, el lenguaje y la audición, 40, 894–899.
(Tesis de maestría inédita). Yasuno, Y. y Miura, K. (2006). Cambio de sensibilidad con preservación a
Universidad Palacký Olomouc, Olomouc, República Checa. largo plazo y uso práctico del micrófono de condensador electret. Ciencia
Sulter, AM, Schutte, HK y Miller, DG (1995). Diferencias en las y tecnología acústica, 27, 302–304.
características del fonograma entre sujetos masculinos y femeninos
con y sin entrenamiento vocal. Revista de Voz, 9, 363–377. Recibido el 25 de septiembre de
2009 Revisión recibida el 8 de febrero de
Švec, JG, Schutte, HK y Miller, DG (1996). un submarino 2010 Aceptado el 3 de
patrón vibratorio armónico en cuerdas vocales normales. Revista de junio de 2010 DOI: 10.1044/10580360(2010/090091)
investigación del habla y la audición, 39, 135–143.
Švec, JG, Šrámková, H. y Granqvist, S. (2009). Re básico Autor de contacto: Jan G. Švec, Universidad Palacký Olomouc,
Requisitos de los micrófonos para grabaciones de voz. En C. Manfredi Facultad de Ciencias, Departamento de Física Experimental,
(Ed.), Modelos y análisis de emisiones vocales para aplicaciones Laboratorio de Biofísica, 17. listopadu 12, 771 46 Olomouc, República
biomédicas: 6º Taller Internacional (págs. 157–160). Checa. Correo electrónico: svecjang@gmail.com o
Florencia, Italia: Prensa de la Universidad de Florencia. jan.svec@upol.cz.
368 American Journal of SpeechLanguage Pathology • vol. 19 • 356–368 • noviembre de 2010
Descargado de: http://ajslp.pubs.asha.org/ por un usuario de la Universidad de Nueva York el
19/04/2016 Términos de uso: http://pubs.asha.org/ss/rights_and_permissions.aspx