Está en la página 1de 19

La localización por el oído y HRTF

en el mundo real y virtual


Roger Andreu. Barcelona.

In this section, we describe the HRTF function and its


applications in 3D Audio Systems and Virtual Reality.
On the other hand we will know the mechanism
involved in the phenomenon of hearing.
INTRODUCCIÓN

Presentamos la segunda versión del tutorial "La localización por el oído" donde,
además de los temas habituales, se han añadido algunos conceptos sobre la función
HRTF y sus aplicaciones.
Sabemos que todos los parámetros implicados en la localización del sonido:
variaciones de presión sonora o amplitud, tiempo, timbre, etc. pueden incluirse en una
función compleja conocida con el acrónimo HRTF, en inglés "Head Related Transfer
Function" o en español "Función de transferencia de la cabeza".
En nuestro presente tecnológico, este procedimiento sólo es útil en la escucha con
auriculares y siempre con las debidas reservas puesto que el componente subjetivo
de esta tecnología hace que no sea posible su implementación universal. También,
han habido serios intentos, sin demasiado éxito por cierto, de reproducir HRTF con
altavoces y sistemas de cancelación transaural que más adelante comentaremos.
La gran cualidad de la función HRTF es que nos ayuda a comprender, en profundidad,
el mecanismo de la audición, el cual, debería incluir todos los posibles fenómenos
acústicos involucrados tal como ocurre en la propia naturaleza. Sin embargo, en la
práctica, el desarrollo de esta función puede quedar limitada por el nivel de
conocimientos del proyectista y la tecnología puesta en juego, tal como ocurre en otras
ramas de la tecnología. Por esta razón, siempre hemos de tener presente que no
todas las implementaciones electrónico informáticas de HRTF presentan la misma
calidad. Todo depende del nivel de conocimiento en que nos estemos moviendo.
Por otra parte, tal como es lógico suponer, la función está íntimamente ligada con el
tamaño y forma de la cabeza y pabellones auditivos (el componente subjetivo citado
anteriormente). Esto quiere decir que, en ocasiones, el efecto tridimensional casi se
esfumará, al ser la cabeza del oyente demasiado diferente, en cuanto a medidas, del
modelo patrón escogido para implementar la función HRTF.
Al respecto, hace algún tiempo invitamos a un invidente a tener una experiencia
auditiva con un sistema de realidad virtual. Incluso, nosotros mismos interesados por
el sonido, nos pusimos los cascos sensoriales, eso sí, con los ojos tapados. Pues
bien, hay que decir que el resultado fue decepcionante. De hecho, pudimos
percatarnos que el sonido en alguno de estos sistemas es, casi siempre, un mero
acompañamiento de una imagen 3D interactiva. El sonido, en sí mismo, desde el
punto de vista espacial, no era lo suficientemente bueno como para que un invidente
(o, nosotros mismos) pudiéramos recrear en nuestra mente el espacio envolvente.
Todo se reducía a una estereofonía más o menos realista aunque desprovista de los
indicios psicoacústicos que nos hacen sentir el espacio sonoro circundante como
auténticamente real.
De hecho, este resultado es lo que se esperaba puesto que, en el mundo real, tal
como veremos enseguida, la percepción del espacio a distancia se conforma a través
de una conjunción psíquica entre vista y oído en total sincronía. Nuestro compañero
invidente, a pesar de su excelente sistema de audición, mucho mejor desarrollado que
el nuestro, dadas sus circunstancias, tampoco pudo recrear en su mente el espacio
circundante tal como experimenta en su vida cotidiana con fuentes de sonido reales.
Hay que decir, también, que personalmente volví a repetir el experimento pero esta vez
incluyendo la imagen. En este caso, pude comprobar que la ayuda visual ofrecida por
el sistema, fue más que suficiente para obtener un buen resultado a pesar de las
deficiencias del audio desde el punto de vista espacial.
Veamos, pues, todos los posibles parámetros que pueden incluirse en una función
HRTF para que sus resultados puedan acercarse a nuestra experiencia cotidiana
relacionada con el sonido.

LA PERCEPCIÓN DE LA DIRECCIÓN

Las diversas teorías de la localización del sonido se basan en la diferencia de marcha


o camino recorrido por las ondas sonoras hasta llegar a cada uno de los oídos. Si la
fuente de sonido se encuentra delante del oyente, exactamente en el plano de simetría
de la cabeza, el camino recorrido por el frente de onda hasta encontrarse con los
oídos es el mismo. Se recibe, entonces, en cada uno de ellos, la misma información
y en el mismo instante. Por lo tanto, miramos hacia adelante para poder evaluar con
más precisión la posición de la fuente sonora, acto guiado por el cerebro una vez
realizado el análisis de la información recibida en
las áreas auditivas corticales.
Si la fuente sonora no se encuentra exactamente
delante (o detrás) del oyente, aparece una
diferencia de marcha o camino recorrido
proporcional al seno del ángulo formado respecto
del plano de simetría de la cabeza.
Observemos con atención la figura 1, la cual,
describe la disposición de las partes implicadas
en un experimento de audición donde, el oyente,
recibe señales acústicas desde una fuente sonora.
El oído derecho recibe una parte de la señal
acústica radiada por la fuente sonora F. Con el
izquierdo ocurre exactamente lo mismo, con la salvedad, tal como comentábamos
hace un momento, de que las trayectorias desde la fuente a cada uno de los oídos no
tienen la misma longitud. Por lo tanto, en todas las posiciones, excepto cuando la
fuente sonora se encuentra delante del oyente, (o justamente detrás) aparece una
diferencia de tiempo en la llegada del frente de ondas a los oídos del oyente.
A esta diferencia de tiempo habrá que añadir una diferencia de presión sonora
dependiente de la frecuencia.
La señal que llega hasta el oyente es, en casi todos los casos, una onda compleja, es
decir, según Fourier, el resultado de la superposición de muchas ondas simples
provenientes del foco sonoro. Por lo tanto, en nuestro dibujo, la amplitud que llega a
los oídos del oyente es una función de la frecuencia. Las bajas frecuencias se difractan
muy bien alrededor de la cabeza del oyente y la amplitud de la señal en cada oído será
practicamente la misma. No ocurrirá lo mismo con las componentes de frecuencia
alta, las cuales, producirán una notable diferencia de presiones entre sus oídos. Todo
esto se traduce en que cada uno de ellos percibe un timbre diferente según donde se
encuentre la fuente sonora respecto del oyente.

En resumen, la dirección de donde proviene un sonido se basa en la detección, por


parte del cerebro, suponiendo la no intervención de la memoria, de las
correspondientes diferencias de presión sonora y tiempo que se producen en los
oídos. Si aceptamos la intervención de la memoria, entonces, podríamos hablar de las
diferencias de presión, tiempo y timbre en los oídos del oyente.
En cuanto a las diferencias de fase (Φ=K.Δr) puede demostrarse que este parámetro
no juega ningún papel en la localización de la dirección de una fuente sonora (En otros
aspectos puede ser útil). Basta observar, según la ecuación anterior, que diferentes
direcciones de una fuente sonora podrían producir la misma relación de fase, según
las frecuencias emitidas.
También, es interesante percatarse que otra fuente sonora simétricamente situada
respecto de F producirá las mismas diferencias de presión y tiempo. A pesar de eso,
según la ley del primer frente de onda" podemos localizar, sin ambigüedad, las
correspondientes direcciones de cada una de las fuentes situadas a la izquierda o la
derecha. Todo ello, nos informa que el cerebro detecta cual de los oídos recibe el
primer frente de onda procedente de la fuente para evaluar la dirección. Con lo cual,
también las distintas reflexiones que se producen en locales reverberantes, parecen
tomar la dirección del primer frente. No obstante, su complemento, el "Efecto Haas"
añade ciertos límites al fenómeno. Esto es, para señales de reverberación que llegan
al oído con un retardo superior a los 40 o 50 ms. aproximadamente, se producirá el
fenómeno del eco.
Todo lo dicho hasta el momento nos sirve para evaluar la dirección de donde proviene
un sonido en base a:

Diferencias de presión sonora. (Efecto fisiológico).


Diferencias de tiempo. (Efecto fisiológico).

Resumiendo, podemos expresarlo como:

Dir = f(Δp,0) + f(0,Δt)

También, si añadimos las correspondientes variaciones de timbre debido al cambio


de dirección, forma de la cabeza, pabellones auditivos, etc. la expresión queda así:

Dir = f(Δp,0,0) + f(0,Δt,0) + f(0,0,ΔT)

Donde:
Dir: Dirección de la fuente sonora.
p: Diferencias de presión sonora. (Efecto fisiológico).
t: Diferencias de tiempo. (Efecto fisiológico).
T: Diferencias de timbre. (Efecto psicofisiológico).

Finalmente, es de común conocimiento que en una sala de conciertos aparece un


campo acústico reverberante, el cual, "personalizará" el frente de ondas directo que
llega al oyente. Los músicos y público aficionado saben que no todas las salas de
concierto suenan igual puesto que el campo reverberante más las resonancias
propias del local "colorearán" la radiación directa de la fuente.

Ley del primer frente de onda y efecto Haas. (Efecto psicofisiológico).

Ahora, falta averiguar si es posible localizar una fuente sonora en el sentido de la


profundidad en la dirección detectada. Tema que vamos a tratar seguidamente.
LA PERCEPCIÓN DE LA PROFUNDIDAD - POSICIÓN

Acabamos de repasar los conceptos fundamentales en los cuales se basa la


detección por parte del oído y cerebro de la dirección en donde se encuentra una
fuente sonora. Esto es, la diferencia de trayectoria desde la fuente a cada oído,
generará las correspondientes diferencias de presión sonora, tiempo y timbre.
También, la ley del primer frente de onda, nos evita experimentar la ambigüedad en
la dirección izquierda-derecha debida a la posición de la fuente o la reverberación en
los locales cerrados.
No obstante, en determinadas situaciones (percepción de la profundidad) estos
parámetros no son suficientes para entender la localización por el oído. En este
apartado intentaremos aclarar esta cuestión.
Dejando de lado el sentido del olfato, es conocido que el ser humano interactua a
distancia en su medio utilizando los sentidos de la vista y el oído. Puede decirse que
estos órganos sensoriales se complementan de forma perfecta para conseguir
localizar, a distancia, un cuerpo emisor de ondas en el espacio tridimensional. La vista
o el oído, considerados de forma aislada, también nos ayudan en esta interacción con
el medio pero, repetimos,

"es la conjunción de la vista y el oído lo que permite al ser humano


desenvolverse e interactuar con el mundo, siempre y cuando nuestro cerebro,
después del lento aprendizaje ocurrido en nuestra más tierna infancia, pueda
dirigir el funcionamiento de estos órganos de forma conjunta y ordenada."
Veámoslo:

Supongamos que nos encontramos en una gran explanada. En un momento


determinado se produce un ruido que nos llama la atención. De forma casi automática,
lo que hacemos es girar la cabeza hasta localizar la dirección de la fuente de sonido.
Una vez localizada, lo único que queda por hacer es detectar el origen en esa
dirección. Para realizar esta acción de manera prácticamente instantánea tenemos la
visión binocular que nos informará del lugar donde se encuentra la fuente sonora,
siempre y cuando ésta sea visible. Si, en este proceso de evaluación del origen del
sonido, hubiéramos utilizado únicamente nuestros oídos, el margen de error en la
detección de la posición de la fuente, en el sentido de la profundidad, habría sido
mucho mayor, más aún para nosotros, tan acostumbrados a utilizar los sentidos de la
vista y oído de forma conjunta.
Es cierto que existen determinados modos de evaluar la distancia a que se encuentra
una fuente sonora pero, mientras podamos utilizar la visión, lo seguiremos haciendo
en detrimento de la apreciación de distancias por el sonido. Otra cosa sería padecer
una ceguera total, pues, sólo en este caso, las propiedades de localización por el oído
alcanzarían su máximo rendimiento.

Prestemos atención, ahora, a la figura, 2 donde observamos a un oyente O y tres


fuentes sonoras, F1, F1' y F2, las cuales, al estar suficientemente alejadas del oyente
supondremos la llegada de ondas planas.
La diferencia de tiempo t1, junto con las correspondientes diferencias de presión
sonora y timbre permitirán determinar en que dirección se encuentra la fuente sonora
F1. Ahora bien, observemos que la fuente F1' situada en la misma dirección producirá
igual diferencias de tiempo, presión y timbre.
La fuente F2 producirá la diferencia de tiempo t2. En nuestro caso se cumple que t1 =
t2 puesto que, en este ensayo hemos escogido una posición posterior en las que las
distancias existentes desde la fuente F2 a
los oídos del oyente es idéntica a las
distancias entre la fuente F1 y dicho oyente.
Ahora, prestemos atención al siguiente
hecho. Si, elevamos las fuentes sonoras
manteniendo sus distancias relativas
respecto de la cabeza del oyente, las
diferencias de tiempo y presión sonora
seguirán siendo prácticamente las mismas.
El timbre, en cambio, debido a los
pabellones auditivos empezará a sufrir
variaciones en función de la altura de la
fuente. Con estos indicios, el cerebro puede
llegar a detectar la posición arriba-abajo de
una fuente sonora.
Existen en el proceso de audición una
variación de parámetros que nos ayudarán
a determinar la posición de una fuente
sonora:

VARIACIÓN DE PARÁMETROS

La evaluación de la sonoridad en función de la distancia existente entre fuente


y oyente. Hemos de decir que la apreciación de distancias en base a la
sonoridad es francamente muy pobre. Factores tales como la reverberación o
los cambios de volumen de la fuente en el origen enmascararán las
apreciaciones. No obstante, la variación de la sonoridad es un truco muy
utilizado en las técnicas de grabación multipista para dar la sensación al oyente
de que determinados instrumentos se encuentran más alejados y, por esta
razón, su sonoridad es menor. Representa un indicio aproximado para localizar
a la fuente sonora en el sentido de la profundidad. (Eje Z).

En grandes recintos, salas de concierto, teatros, etc. La relación sonido


directo/reflejado también puede ayudarnos a evaluar si la fuente sonora se
encuentra cerca o lejos del oyente. No sirve para determinar una posición
concreta. Este efecto es muy utilizado, también, en los estudios de grabación.

El efecto Knudsen, es decir, el cambio de timbre por absorción de las


frecuencias altas por el aire nos informará de la lejanía o cercanía de la fuente,
pero no de su localización precisa. Además, es necesario conocer previamente
el sonido, esto equivale a decir que la intervención de la memoria es esencial.
Un buen técnico de grabación utilizará este efecto junto con los dos anteriores
para dar sensación de lejanía a determinados instrumentos.
La relación presión/velocidad de las partículas. Si nos encontramos en el
campo cercano de la fuente, es decir, en aquel lugar en el cual la radiación
acústica se describe como una onda esférica, es posible, según Von Békésy,
determinar la distancia mediante dicha relación, lo cual, se traduce en un cambio
de timbre variable según la distancia fuente-oyente. Su efecto está limitado a
distancias muy cercanas a la fuente. (Hasta 1,5m. aprox.)

El análisis del timbre, junto con los parámetros anteriores, nos ayudará a
resolver, las ambigüedades "delante/detrás" arriba/abajo. Para ello, tenemos a
nuestra disposición:

El efecto de "sombra" de los pabellones auditivos, los cuales, nos


ayudan a evaluar si el sonido viene de delante o detrás del oyente, incluso
saber si proviene de arriba o abajo respecto del sistema de audición.

Los movimientos de la cabeza en animales y humanos potenciarán, y


mucho, el efecto anterior. Para confirmar este aserto, podemos realizar el
siguiente experimento. En una habitación con algún tipo de fuente sonora,
colocamos una cabeza artificial desprovista de los pabellones auditivos.
Seguidamente, instalamos un sistema de seguimiento, el cual, permitirá a
ésta moverse como cualquier cabeza humana (izquierda-derecha y arriba-
abajo)
Acto seguido, introducimos en otra sala a un oyente provisto de auriculares
y el sistema impulsor de los movimientos de la cabeza artificial.
Entonces, ocurre lo siguiente: mientras el sistema de seguimiento se
encuentre desconectado, al oyente le será difícil averiguar si la fuente
sonora se encuentra delante o detrás. Incluso arriba o abajo.
Todo lo contrario ocurre cuando conectamos el dispositivo de seguimiento.
En estas condiciones, el oyente, gracias a los movimientos de su cabeza,
seguidos con precisión por la cabeza artificial, podrá detectar la posición
de la fuente sonora, llegando, incluso a averiguar si se encuentra en la
parte anterior o posterior.

El conocimiento que tengamos sobre un sonido también nos ayudará a


situar correctamente a la fuente sonora en el espacio. Por ejemplo, si oímos el
ruido producido por un avión, las diferencias de tiempos y presión sonora, nos
informarán de la dirección donde se encuentra el origen del sonido pero si
identificamos el tipo de ruido, habrá una tendencia clara a levantar la cabeza y
mirar al cielo en la citada dirección. Claro que también puede suceder que el
avión puede estar en tierra momentos antes del despegue. Es, entonces,
cuando el sentido de la vista entra en acción para eliminar toda duda sobre la
posición del avión.

La visión es el punto final en la determinación de la posición de una fuente


sonora. Ésta nos dará, después de las sucesivas evaluaciones de la dirección
realizada por el sistema auditivo, la ubicación exacta de la fuente de sonidos. Si
la visión no existe, la tolerancia en la apreciación de la posición será mucho
mayor.
Al ser la percepción a distancia del entorno una conjunción de propiedades
psico-fisiológicas, extendiendo su dominio, en la gran mayoría de personas, a
los sentidos de la vista y el oído, es realmente difícil la percepción
auténticamente tridimensional del sonido en los sistemas de reproducción
acústica. No obstante, con los sistemas de Realidad Virtual, al trabajar
conjuntamente con sonido e imagen mas interactividad, es posible recrear
espectaculares espacios visuales y sonoros de gran efectividad.
Lamentablemente, en la mayoría de sistemas RV el sonido, en cuanto a
prestaciones espaciales, no se encuentra a la altura de la imagen, tal como
hemos comentado al principio de este documento.

Con este tipo de experimentos, en los que De Boer, en los


años cuarenta del siglo pasado fue pionero, llegamos a la
conclusión de que los movimientos de la cabeza, unidos a la
asimetría arriba-abajo de ésta más la forma de los pabellones
auditivos, son cruciales para averiguar la dirección/posición de
la fuente sonora, sobretodo en lo que respecta a las
correlaciones delante-detrás y arriba-abajo.

SÍNTESIS

En resumidas cuentas, tal como acabamos de leer, los mecanismos que tiene nuestro
cerebro para localizar y situar espacialmente a una fuente sonora en el espacio real o
virtual utilizando dos oídos sanos son:

Determinación de la dirección:

Diferencias de tiempo. (Efecto fisiológico).


Diferencias de presión sonora. (Efecto fisiológico).
Diferencias de timbre. (Efecto psico-fisiológico).

Determinación de la posición:

Movimientos de la cabeza.
Relación sonido directo/reflejado.
Efecto Knudsen.
Evaluación de la sonoridad.
Teoría de Von Békésy.
Conocimiento sobre el sonido percibido.

Finalmente, en locales cerrados, podemos añadir:

Ley del primer frente de onda y Efecto Haas. (Efecto psico-fisiológico).

DESARROLLOS TECNOLÓGICOS

Como es de común conocimiento, los desarrollos tecnológicos aparecen en el


momento en que se desea reproducir los fenómenos físicos involucrados, en nuestro
caso, la audición. Diversos procedimientos existen para convertir una teoría en un
hecho real:

Si implementamos de forma práctica únicamente el primer término de la


ecuación vista anteriormente, es decir: Dir = f(Δp) estaremos ante la
reproducción estereofónica de intensidad o standard que todos conocemos.
Si hacemos lo mismo con el primer y segundo término conjuntamente,
Dir = f(Δp,0) + f(0,Δt) nos moveremos en el campo de la estereofonía avanzada.
Finalmente, si implementamos la ecuación completa,
Dir = f(Δp,0,0) + f(0,Δt,0) + f(0,0,ΔT) lo que hacemos es poner en práctica lo
que conocemos como la función HRTF.

Veamos estos procesos más detalladamente.

La estereofonía experimental de De Boer y Fletcher


Estos científicos desarrollaron, de forma independiente, allá por los años cuarenta del
siglo pasado, dos alternativas diferentes para la reproducción estereofónica. El
primero desarrolló la estereofonía utilizando una cabeza artificial. El segundo,
experimentó con un sistema electroacústico compuesto de tres micrófonos y tres
altavoces. Por razones prácticas, su sistema quedó, finalmente, compuesto de dos
micrófonos y dos altavoces. Los resultados fueron muy positivos en ambos sistemas.
Con la cabeza artificial de De Boer se realizaron grabaciones en donde se ponía en
práctica la ecuación: Dir = f(Δp,0) + f(0,Δt). Es decir, con este sistema quedaban
registrados la variaciones de presión sonora y tiempo de llegada en cada oído, tal
como sucede, también, en nuestro sistema auditivo.
Con el sistema de Fletcher, utilizando dos micrófonos convenientemente separados
se intentaba poner en práctica la misma ecuación.
En sus experimentos, ambos se percataron de que las variaciones de presión sonora
y tiempo de llegada, eran equivalentes, pues se obtenían los mismos resultados, tanto
si se utilizaban las variaciones de tiempo, las variaciones de presión o ambas
conjuntamente. Fue significativo descubrir que una posición virtual de la imagen
sonora situada, por ejemplo, en el centro-izquierda provocada por las variaciones de
presión sonora, podía ser neutralizada utilizando las diferencias de tiempo existentes
para esa posición pero en sentido contrario, con lo cual, la imagen volvía a situarse en
el origen.

La estereofonía standard
Finalmente, por razones de economía, la estereofonía utilizó y aún utiliza, casi de
forma exclusiva, las diferencias de presión sonora en los oídos consiguiéndose
grabaciones musicales de excelente calidad. Actualmente, las mesas de mezcla
funcionan según este principio; control panorámico individual por canal es equivalente
a decir variaciones de amplitud en el canal izquierdo o derecho para situar a la fuente
sonora en un punto escogido entre los altavoces. Ahora, la ecuación puesta en
práctica es: Dir = f(Δp). Esto es, La dirección de las fuentes sonoras, repetimos, son
detectadas por el oyente utilizando únicamente diferencias de presión sonora.
En la estereofonía avanzada, existen diversas técnicas de registro que incorporan,
además, las diferencias de tiempo, las cuales, nos permiten abrir, aún más, el campo
sonoro.
De la estereofonía, nació la cuadrifonía gracias a los trabajos de David Hafler de la
empresa Dinaco y, partiendo de esta tecnología, la empresa Dolby desarrolló su
sistema Surround.
Entonces, surge la pregunta: ¿Para qué complicarse la vida con HRTF y demás
ensayos avanzados si, actualmente, ya tenemos sistemas de audio muy efectivos? La
respuesta la tenemos observando la fig.3. Mientras que la estereofonía convencional
las fuentes aparecen en un espacio virtual de una dimensión, es decir, en la línea que
une los dos altavoces según la fig.3a, con la función HRTF y otras técnicas avanzadas
lo que se pretende es que el oyente se encuentre inmerso en el mismo campo sonoro
con atributos de "realidad", fig.3b.
Por otra parte, la experimentación HRTF nos permite conocer mucho mejor el
comportamiento del oído en lo que respecta a la localización de las fuentes de sonido.

Entre la estereofonía clásica y las técnicas de vanguardia se encuentra el sistema


Dolby Surround de la fig.4, el cual, nos permite disfrutar, tanto en nuestros hogares
como, también, en las salas de cine, de un sonido envolvente de calidad.

La función HRTF
LA CABEZA HUMANA NATURAL Y ARTIFICIAL

La cabeza humana es un elemento imprescindible para la realización de medidas e


implementación de HRTF en el desarrollo de aplicaciones acústicas avanzadas. Las
magnitudes físicas asociadas a los parámetros vistos hasta el momento están
condicionados por la forma y tamaño de la cabeza. Lo cual, no deja de ser un
inconveniente. Por lo tanto, para la realización de las medidas acústicas y
grabaciones musicales es aconsejable realizarlas en base a una cabeza humana de
tipo medio, la cual, nos servirá para proyectar un modelo sintético con las mismas
propiedades acústicas que el original.
Como HRTF está condicionado por la fisonomía de la cabeza, todas las personas que
se salgan del marco establecido, en cuanto a las medidas seleccionadas, tendrán
más dificultades para experimentar la música en 3D realizada con la implementación
HRTF y/o cabeza artificial.
Dejando a un lado la calidad de los micrófonos utilizados en la cabeza artificial, los
cuales, tendrían que situarse en el mismo nivel de comportamiento que el sistema de
audición oído-cerebro, (actualmente es prácticamente imposible), las propiedades
fisico-acústicas de "superficie" de la cabeza artificial son, básicamente, las mismas
en el original (cabeza humana) y la copia (cabeza artificial).

LAS CURVAS DE SILVIAN Y WHITE

Estas curvas realizadas a mediados de los años cuarenta del siglo XX representan un
primer indicio del comportamiento, tanto de una cabeza humana natural como,
también, de un modelo sintétíco y nos sirven para extraer importantes conclusiones,
relacionadas con la amplitud de la onda y el timbre, demostrando que el oído izquierdo
no recibe la misma presión sonora que el derecho (Excepto en frecuencias muy bajas
o cuando la fuente de sonido se encuentra justamente delante o detrás).
Este comportamiento es función de la frecuencia, por lo tanto, dado que las señales
musicales o la palabra son complejas, a medida que la fuente se mueve alredededor
de la cabeza cambia el timbre percibido. También, sucede lo mismo cuando la fuente
se mueve de arriba a abajo o viceversa.
Las variaciones de amplitud (presión sonora), tiempo y timbre son, pues, los
parámetros que la función HRTF ha de recoger en sus algoritmos.
Aquí nos encontramos con un caso similar al que comentábamos anteriormente: "para
localizar una dirección, podemos hacerlo en base a las diferencias de presión, tiempo
o ambas conjuntamente". Ahora vemos que para localizar una fuente sonora en las
posiciones arriba-abajo o delante-detrás del oyente podemos hacerlo a través del
timbre percibido (a causa de los micro retrasos de tiempo provocados por los
pabellones) o bien, utilizando la interactividad. De los dos sistemas, el más fiel es el
segundo, pero, también, es el proceso más complejo desde el punto de vista de la
implementación tecnológica. Lo ideal sería poder utilizar los dos sistemas en realidad
virtual de forma conjunta, con lo cual, afianzaremos aún más las percepciones.
Como ya se ha comentado anteriormente, un procesamiento completo de las señales
para realidad virtual o sonido HI-END debe dar cuenta, de estas variables:

Dir(p,t,T) = Dir(Δp,0,0) + Dir(0,Δt,0) + Dir(0,0,ΔT).

Dicho procesamiento es lo que conocemos como HRTF, "Head related transfer


function" o, en castellano, "Función de transferencia de la cabeza". Desde luego, el
sistema más simple, "la cabeza artificial" es el más fiel, puesto que puede utilizar
todos los parámetros puestos en juego por la naturaleza sin grandes complicaciones
tecnológicas.
Aunque la cabeza artificial percibe, en principio, lo mismo que nosotros si está bien
diseñada, hay una importante diferencia entre usar dicha cabeza o bien un programa
informático con implementación de HRTF; con la cabeza artificial el trabajo está
hecho, en el sentido de crear o experimentar entornos sonoros originales. Todo lo
contrario ocurre con la implementación de HRTF en un programa informático, puesto
que, de esta manera, ponemos en manos del ingeniero de sonido, músico, productor,
etc. otro medio más para poner en marcha la creatividad, no sólo con la música sino,
también, con el mismo espacio sonoro si el "plugin" HRTF está bien concebido.
Alternativas de escucha
LA AUDICIÓN CON ALTAVOCES

Supongamos, ahora, que al oyente "O1", situado en la sala de conciertos, le


colocamos un minúsculo micrófono en cada oído o, mejor aún, lo sustituimos por una
cabeza artificial.
A continuación, según la parte inferior del
dibujo, enviamos las señales I y D recogidas
a los amplificadores a1 y a2, los cuales, a su
vez, enviarán las señales a sus respectivas
pantallas acústicas situadas en una sala de
audición.
La experiencia nos dice que el oyente O2
situado en la sala de audición no
obtiene la misma impresión de espacio
sonoro que el oyente O1 situado en la
sala de conciertos. Basta observar que el
oído izquierdo de O2 no solamente recibe la
señal del oído izquierdo de O1 sino,
también, una componente de diafonía d
procedente de la pantalla acústica derecha.
Lo mismo podemos decir del oído derecho,
el cual, además de la señal que le es propia,
recibe la componente de diafonía i
procedente de la pantalla situada a su
izquierda. Este grave defecto del sistema
estereofónico convencional, hace imposible
recrear un espacio sonoro idéntico al que se produce en la sala de conciertos.
También, existe un campo sonoro reverberante r originado en la sala de audición que
modificará el campo directo y reverberante original de la sala de conciertos.

Reducir el campo reverberante en la sala de audición no es difícil. En cambio, la


eliminación de las señales de diafonía i y d es realmente un problema complejo que
requiere la manipulación algebraica del sonido procedente de la sala de conciertos.
Mientras que algunos investigadores han creado teorías y implementaciones más o
menos complejas para eliminar esta diafonía. Otros, en cambio, dudan si realmente
este procedimiento es el correcto. Basta observar que la cancelación trans-aural será
eficaz siempre y cuando la reverberación de la sala tienda a cero y el oyente se situe
justo enfrente de los altavaces, simétricamente situado, tal como podemos ver en la
figura 5. Todo lo cual, representa un serio engorro utilizar este método de
reproducción en una sala de estar común y corriente.
Sin embargo, la audición con altavoces, incluso con una simple grabación
estereofónica, puede llegar a ofrecer una gran calidad si el proceso de grabación
cumple con todos y cada uno de los requisitos involucrados.
LA AUDICIÓN CON AURICULARES

Es obvio que la audición con auriculares eliminaría la diafonía entre los dos canales,
puesto que la señales de los oídos izquierdo y derecho del oyente O1 en la sala de
conciertos, llegarían a los respectivos oídos del oyente O2 en la sala de audición. En
este sentido, la diafonía habría sido eliminada por completo.
No obstante, recordando algunos conceptos vistos anteriormente, aparece un serio
inconveniente que también impedirá la recepción de un campo sonoro espacial
completo.
Supongamos que realizamos nuevamente el experimento anterior pero, en este caso,
sustituimos las pantallas acústicas por unos auriculares. Se comprende que si O1 se
mueve o gira la cabeza, las diferencias de tiempo, presión sonora y timbre recogidas
corresponderán a su nueva posición. Es decir, a cada posición del oyente (o de la
fuente sonora) se creará un patrón determinado en cuanto a la información recogida
(diferencias de tiempos, presión sonora y timbre) y, gracias a esta información, el
cerebro situará a la fuente sonora en la adecuada dirección.
Evidentemente, no ocurre lo mismo con el oyente de la sala de audición, el cual,
recordemos, en este momento está utilizando auriculares. Si, en cualquier momento,
gira la cabeza hacia un lado, el campo sonoro percibido también se moverá hacia ese
lado puesto que él es el portador de los elementos de transducción electroacústicos
(auriculares). En estas condiciones, la información recibida seguirá siendo la misma,
independientemente de los cambios de posición. Nos encontramos, pues, ante una
experiencia inusual para el cerebro, puesto que en el mundo real, tal como le sucede
al oyente en la sala de conciertos, a cada posición tendría que recibir un patrón
determinado de información.
Ante esta situación, el sonido deja de percibirse como un campo espacial en lo que
respecta, sobretodo, a la descriminación de las señales delante-detrás.
Por fortuna, parece ser que el cerebro, en el campo de actuación que estamos
tratando, tiene varias formas para realizar el mismo cometido. Por ejemplo, prestemos
atención a la estereofonía clásica, la cual, representa, en principio, un campo sonoro
unidimensional de izquierda a derecha. Para lograr un buen ambiente estereofónico,
tanto podemos jugar con las variaciones de amplitud o de tiempo. Aunque, si
utilizamos los dos parámetros conjuntamente, afianzaremos, aún más, las diferentes
posiciones de los instrumentos implicados, reduciendo la ambigúedad en la posición.
No obstante, en la práctica sólo utilizamos las variaciones de amplitud en,
prácticamente, todos los casos.
Lo mismo sucede con la descriminación de señales delante-detrás. Podemos utilizar
las variaciones de timbre, incluso de tiempo producidas por los pabellones auditivos o
la interactividad, o bien, ambos fenómenos conjuntamente, con lo cual, las
descriminaciones arriba-abajo o delante-detrás se producirán mucho más claramente
que utilizando HRTF de forma pasiva.
En definitiva, las alternativas que tenemos a nuestra disposición en la reproducción del
sonido son:

1. Reproducción monofónica
Sin efectos indicadores de dirección.
2. Reproducción estereofónica con altavoces.
Aquí aceptamos la diafonía acústica como un mal menor dada la simplicidad
que reporta este sistema. Con modernas técnicas de grabación pueden lograrse
excelentes resultados.

3. Reproducción estereofónica con auriculares.


En este caso, pueden obtenerse reproducciones sonoras con una total
independencia de los dos canales. Al respecto, a mediados del siglo XX se
popularizaron grabaciones de gran calidad realizadas con cabeza artificial
inmóvil.
Es posible, también, crear entornos virtuales sonoros en los cuales, la posición
de las fuentes sonoras sean independientes de los movimientos del oyente
gracias a la implantación del proceso HRTF junto con los apropiados
dispositivos de seguimiento situados en los auriculares del oyente, tal como
hemos visto.

4. Reproducción cuadrafónica.
Aquí se añaden, al sistema estéreo convencional, dos o más canales laterales o
posteriores para dar cuenta de los efectos reverberantes de la sala de
conciertos o incluir efectos especiales envolventes. También es posible recrear
imaginativos espacios sonoros.

5. Sistemas electroacústicos en los que se elimina la diafonía de la sala de


audición
A pesar de su difícil puesta a punto, pueden conseguirse reproducciones
sonoras de gran impacto y efectividad desde el punto de vista espacial, dando
lugar a compactos equipos de reproducción con una o dos dos pantallas
acústicas.
Estos sistemas son muy útiles, incluso para entornos virtuales. En este sentido,
el usuario se coloca un ligero y cómodo casco sensorial con el sistema de
visualización y seguimiento. El sonido, en este caso concreto, proviene de
altavoces convenientemente situados.

REALIDAD VIRTUAL

Una vez descritas las bases en que se apoyan la estereofonía y cuadrafonía, estamos
preparados para describir los dispositivos electroacústicos asociados con los
equipos de Realidad Virtual. El primer paso, tal como hemos hecho en alguna otra
ocasion, será definir, lo más claramente posible, el término Realidad Virtual.

Desde mediados de la decada de los 40, los investigadores empiezan a experimentar


e interactuar con los primeros ordenadores de muy diversas maneras. En los primeros
tiempos, dicha interacción venía dada, en el sentido hombre-máquina por la
combinación lógica de diversas conexiones realizadas en una especie de panel de
control o utilizando teclados primitivos.
Las respuestas de la máquina se interpretaban a través de combinaciones luminosas,
dispositivos electromecánicos, etc. Eran, sin ningún lugar a dudas, toscos sistemas de
comunicación.
La aparición de la pantalla de rayos catódicos significó un paso de gigante en la
comunicación entre la máquina y el hombre. Con el tiempo, los interfaces fueron
perfeccionándose hasta llegar a los modernos teclados, pantallas y demás accesorios
de comunicación de la actualidad. Si a este significativo desarrollo del hardware
añadimos el ocurrido de forma paralela en el software obtenemos, finalmente, los
modernos ordenadores multimedia de la actualidad con sistemas operativos gráficos
relativamente fáciles de utilizar.
Hoy en día, la información que procesamos con los ordenadores puede estar
compuesta de textos, imagen, vídeo, sonido y música. Sin embargo, en líneas
generales, la transferencia de información es aún un proceso artificial que se aparta
bastante de los clásicos esquemas de la comunicación que, por propia naturaleza, el
ser humano ha desarrollado en su lenta pero inexorable evolución. Esto es, la
comunicación directa, frente a frente, utilizando canales de transmisión-recepción
naturales de gran anchura de banda, donde los datos enviados o recibidos fluyen con
extrema facilidad.
Estos canales de comunicación son, en este caso dos: el aire que transporta las
variaciones de presión sonora y la luz, portadora de las imágenes que podemos ver.
Si añadimos el tacto como un medio más de transferencia de información, la cantidad
total de datos que pueden transmitirse por segundo entre dos seres humanos
interactuando directamente es muy elevada.
La idea, entonces, es esta: ¿Por qué no comunicarse con los sistemas informáticos
utilizando los esquemas clásicos de la comunicación? La propuesta es realmente
fascinante, pues el ordenador y el ser humano se reencontrarían en un nuevo entorno
diseñado especificamente para interactuar con gran eficacia. Además, también
facilitaría el trabajo de los usuarios que podrían actuar de forma mucho más natural e
intuitiva, tal como hacemos en el mundo real.
Es cierto que esta nueva manera de enfocar " la relación hombre máquina" va a
generar una gran cantidad de problemas técnicos, en especial los relacionados con la
anchura de banda del canal de comunicación, velocidad e interactividad. No obstante,
en el futuro, estos escollos desaparecerán, tal como ha pasado en otras ramas de la
tecnología. Será, entonces, cuando dispondremos de un auténtico universo alternativo
para trabajar o pasar nuestros momentos de ocio, ofreciéndonos espacios a nuestra
medida para la música, la cultura, la ciencia, el teatro y el cine.
Como esta sección está dedicada al sonido, enfocaremos la tecnología virtual desde
este punto de vista, sin olvidar la estrecha relación existente con el sentido de la vista.
De hecho, cuando se habla de Realidad Virtual, nos imaginamos a un usuario
interactuando con la visión en un mundo tridimensional. En cuanto al sonido, es cierto
que es muy importante, pero generalmente no se le presta la debida atención.

Tal como comentamos en otra ocasión, nosotros podemos asegurar que el sonido,
como principal portador de la emoción y sentimiento de una imagen, es el toque final
para conseguir un mundo virtual de elevado realismo. Ahora bien, para que la escena
observada sea creible espacialmente es deseable que exista una estrecha
correlación entre la imagen y el sonido y, además, la interactividad ha de permitir que,
a pesar de los movimientos del usuario, el espacio virtual permanezca estable
Por ejemplo, imagínate que te has introducido en un entorno virtual. En un momento
determinado cierras los ojos. ¿Qué pasa entonces? Si realizas la misma acción en el
mundo real, los estímulos acústicos te ayudarán a mantener la imagen mental de la
escena que tan sólo hace un momento estabas observando. ¿Ocurre lo mismo en un
entorno virtual? La verdad es que en la mayoría de máquinas bautizadas con este
nombre el sonido es un mero acompañante y la asociación con la imagen observada
es, en muchas ocasiones, muy simple. Si, por ejemplo, aparece una moto por el lado
izquierdo, es cierto que el tubo de escape sonará por el auricular izquierdo, pero la
similitud con el mundo real acaba aquí. La espacialidad sonora, esto es, la sensación
de profundidad no existe, pues la imagen de la moto puede aparecer a una distancia
virtual de cinco metros pero el sonido del tubo de escape lo tienes dentro de la
cabeza. Es decir, la correlación audio-visual no es, ni mucho menos, perfecta. No
obstante, aunque dicha correlación no sea la óptima, el cerebro del oyente intentará
situar a la fuente sonora en el lugar correcto de la imagen... y la mayoría de veces lo
consigue.
Finalmente, la estabilidad espacial, esto es, la capacidad del sonido y la imagen de
permanecer estáticos a pesar de los movimientos del observador es una cualidad
fundamental que han de poseer los entornos virtuales de calidad.
En resumen, veamos rapidamente, los requisitos indispensables de un sistema
acústico para Realidad virtual.

Correlación entre sonido e imagen


Si el observador permanece inmóvil y es el objeto de la escena virtual el que se mueve
de derecha a izquierda o viceversa, el sonido deberá parecer que se mueve con él en
el mismo sentido.
Si el desplazamiento ocurre en el sentido de la profundidad o arriba y abajo, diversos
mecanismos de actuación sobre los canales sonoros deben de hacernos creer que el
sonido sigue a la imagen.

Estabilidad espacial
El campo sonoro, al igual que la imagen, a de permanecer estable en el espacio
virtual independientemente de los movimientos del observador. Lo ideal sería
conseguir los seis grados de libertad en el movimiento de éste:

Movimiento delante/atrás.
Moviento hacia la izquierda y/o derecha.
Movimiento hacia arriba o abajo.
Función rotatoria lateral.
Función rotatoria vertical.
Función rotatoria horizontal.

En la práctica, escogeremos los grados de libertad en función del tipo de entorno


virtual. Por ejemplo, si el observador se encuentra sentado, cosa por otra parte
bastante común, escogeremos como imprescindibles:

Función semi-rotatoria vertical.


Función semi-rotatoria horizontal.

De esta manera, el observador podrá mover la cabeza mirando hacia arriba, abajo,
izquierda y derecha mientras que el entorno visual y acústico mantiene su estabilidad
espacial.
Digamos, finalmente, que para conseguir la estabilidad espacial de la escena, junto
con los sistemas de visualización, audición y tactiles, es necesario incorporar un
dispositivo de seguimiento/orientación para que el ordenador "pueda conocer" en
todo momento la posición en que se encuentra el observador y actuar en
consecuencia con la imagen, el sonido y el tacto. Es decir, la interactividad entre el
usuario y el ordenador ha de ser muy alta.

NOTA FINAL

A pesar de que, en lo que respecta al fenómeno de la localización por el oído, hemos


puesto cierto énfasis en el fenómeno de las diferencias de tiempo, los sistemas
electroacústicos utilizados en los procesos de grabación/reproducción actuales,
utilizan de forma casi exclusiva el control de la posición a través de las diferencias de
amplitud de las ondas detectadas por el oído. (estereofonía de intensidad) Éste es un
proceso sencillo, sin prácticamente ninguna complicación tecnológica, utilizado
masivamente en los procesos de mezcla, tanto en estereofonía como cuadrifonía. Otro
asunto muy diferente es incluir, además de las citadas diferencias de presión sonora,
las correspondientes de tiempo y timbre, lo cual, requiere de una tecnología mucho
más elaborada y sofisticada.
Hemos de reconocer que, en la mayoría de ocasiones, no será necesario recurrir a
estos procesos adicionales. De hecho, en nuestro rápido repaso de los sistemas de
reproducción electroacústicos convencionales, hablaremos siempre de las diferencias
de presión sonora en los oídos del oyente, dejando de lado otros conceptos
relacionados con la localización. Esto sucede así porque en el estudio de grabación,
cuando el técnico ajusta el control panorámico de un canal, está manipulando la
diferente amplitud de la señal en cada uno de los canales estéreo o cuadrafónicos.
No obstante, si lo que pretendemos es obtener un realismo muy cercano a la
experiencia sensorial cotidiana, será de gran utilidad aprovechar al ciento por ciento,
todas las posibilidades que el sistema de audición nos ofrece. Uno de estos casos,
de gran interés práctico, son los dispositivos electroacústicos destinados a formar
parte de los equipos de Realidad Virtual.

La localización por el oído y HRTF


en el mundo real y virtual.
Copyright: Roger Andreu. Nº GI-277-19.
Generalitat de Catalunya.
Registro de la Propiedad intelectual.
Gobierno de España

También podría gustarte