Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Presentamos la segunda versión del tutorial "La localización por el oído" donde,
además de los temas habituales, se han añadido algunos conceptos sobre la función
HRTF y sus aplicaciones.
Sabemos que todos los parámetros implicados en la localización del sonido:
variaciones de presión sonora o amplitud, tiempo, timbre, etc. pueden incluirse en una
función compleja conocida con el acrónimo HRTF, en inglés "Head Related Transfer
Function" o en español "Función de transferencia de la cabeza".
En nuestro presente tecnológico, este procedimiento sólo es útil en la escucha con
auriculares y siempre con las debidas reservas puesto que el componente subjetivo
de esta tecnología hace que no sea posible su implementación universal. También,
han habido serios intentos, sin demasiado éxito por cierto, de reproducir HRTF con
altavoces y sistemas de cancelación transaural que más adelante comentaremos.
La gran cualidad de la función HRTF es que nos ayuda a comprender, en profundidad,
el mecanismo de la audición, el cual, debería incluir todos los posibles fenómenos
acústicos involucrados tal como ocurre en la propia naturaleza. Sin embargo, en la
práctica, el desarrollo de esta función puede quedar limitada por el nivel de
conocimientos del proyectista y la tecnología puesta en juego, tal como ocurre en otras
ramas de la tecnología. Por esta razón, siempre hemos de tener presente que no
todas las implementaciones electrónico informáticas de HRTF presentan la misma
calidad. Todo depende del nivel de conocimiento en que nos estemos moviendo.
Por otra parte, tal como es lógico suponer, la función está íntimamente ligada con el
tamaño y forma de la cabeza y pabellones auditivos (el componente subjetivo citado
anteriormente). Esto quiere decir que, en ocasiones, el efecto tridimensional casi se
esfumará, al ser la cabeza del oyente demasiado diferente, en cuanto a medidas, del
modelo patrón escogido para implementar la función HRTF.
Al respecto, hace algún tiempo invitamos a un invidente a tener una experiencia
auditiva con un sistema de realidad virtual. Incluso, nosotros mismos interesados por
el sonido, nos pusimos los cascos sensoriales, eso sí, con los ojos tapados. Pues
bien, hay que decir que el resultado fue decepcionante. De hecho, pudimos
percatarnos que el sonido en alguno de estos sistemas es, casi siempre, un mero
acompañamiento de una imagen 3D interactiva. El sonido, en sí mismo, desde el
punto de vista espacial, no era lo suficientemente bueno como para que un invidente
(o, nosotros mismos) pudiéramos recrear en nuestra mente el espacio envolvente.
Todo se reducía a una estereofonía más o menos realista aunque desprovista de los
indicios psicoacústicos que nos hacen sentir el espacio sonoro circundante como
auténticamente real.
De hecho, este resultado es lo que se esperaba puesto que, en el mundo real, tal
como veremos enseguida, la percepción del espacio a distancia se conforma a través
de una conjunción psíquica entre vista y oído en total sincronía. Nuestro compañero
invidente, a pesar de su excelente sistema de audición, mucho mejor desarrollado que
el nuestro, dadas sus circunstancias, tampoco pudo recrear en su mente el espacio
circundante tal como experimenta en su vida cotidiana con fuentes de sonido reales.
Hay que decir, también, que personalmente volví a repetir el experimento pero esta vez
incluyendo la imagen. En este caso, pude comprobar que la ayuda visual ofrecida por
el sistema, fue más que suficiente para obtener un buen resultado a pesar de las
deficiencias del audio desde el punto de vista espacial.
Veamos, pues, todos los posibles parámetros que pueden incluirse en una función
HRTF para que sus resultados puedan acercarse a nuestra experiencia cotidiana
relacionada con el sonido.
LA PERCEPCIÓN DE LA DIRECCIÓN
Donde:
Dir: Dirección de la fuente sonora.
p: Diferencias de presión sonora. (Efecto fisiológico).
t: Diferencias de tiempo. (Efecto fisiológico).
T: Diferencias de timbre. (Efecto psicofisiológico).
VARIACIÓN DE PARÁMETROS
El análisis del timbre, junto con los parámetros anteriores, nos ayudará a
resolver, las ambigüedades "delante/detrás" arriba/abajo. Para ello, tenemos a
nuestra disposición:
SÍNTESIS
En resumidas cuentas, tal como acabamos de leer, los mecanismos que tiene nuestro
cerebro para localizar y situar espacialmente a una fuente sonora en el espacio real o
virtual utilizando dos oídos sanos son:
Determinación de la dirección:
Determinación de la posición:
Movimientos de la cabeza.
Relación sonido directo/reflejado.
Efecto Knudsen.
Evaluación de la sonoridad.
Teoría de Von Békésy.
Conocimiento sobre el sonido percibido.
DESARROLLOS TECNOLÓGICOS
La estereofonía standard
Finalmente, por razones de economía, la estereofonía utilizó y aún utiliza, casi de
forma exclusiva, las diferencias de presión sonora en los oídos consiguiéndose
grabaciones musicales de excelente calidad. Actualmente, las mesas de mezcla
funcionan según este principio; control panorámico individual por canal es equivalente
a decir variaciones de amplitud en el canal izquierdo o derecho para situar a la fuente
sonora en un punto escogido entre los altavoces. Ahora, la ecuación puesta en
práctica es: Dir = f(Δp). Esto es, La dirección de las fuentes sonoras, repetimos, son
detectadas por el oyente utilizando únicamente diferencias de presión sonora.
En la estereofonía avanzada, existen diversas técnicas de registro que incorporan,
además, las diferencias de tiempo, las cuales, nos permiten abrir, aún más, el campo
sonoro.
De la estereofonía, nació la cuadrifonía gracias a los trabajos de David Hafler de la
empresa Dinaco y, partiendo de esta tecnología, la empresa Dolby desarrolló su
sistema Surround.
Entonces, surge la pregunta: ¿Para qué complicarse la vida con HRTF y demás
ensayos avanzados si, actualmente, ya tenemos sistemas de audio muy efectivos? La
respuesta la tenemos observando la fig.3. Mientras que la estereofonía convencional
las fuentes aparecen en un espacio virtual de una dimensión, es decir, en la línea que
une los dos altavoces según la fig.3a, con la función HRTF y otras técnicas avanzadas
lo que se pretende es que el oyente se encuentre inmerso en el mismo campo sonoro
con atributos de "realidad", fig.3b.
Por otra parte, la experimentación HRTF nos permite conocer mucho mejor el
comportamiento del oído en lo que respecta a la localización de las fuentes de sonido.
La función HRTF
LA CABEZA HUMANA NATURAL Y ARTIFICIAL
Estas curvas realizadas a mediados de los años cuarenta del siglo XX representan un
primer indicio del comportamiento, tanto de una cabeza humana natural como,
también, de un modelo sintétíco y nos sirven para extraer importantes conclusiones,
relacionadas con la amplitud de la onda y el timbre, demostrando que el oído izquierdo
no recibe la misma presión sonora que el derecho (Excepto en frecuencias muy bajas
o cuando la fuente de sonido se encuentra justamente delante o detrás).
Este comportamiento es función de la frecuencia, por lo tanto, dado que las señales
musicales o la palabra son complejas, a medida que la fuente se mueve alredededor
de la cabeza cambia el timbre percibido. También, sucede lo mismo cuando la fuente
se mueve de arriba a abajo o viceversa.
Las variaciones de amplitud (presión sonora), tiempo y timbre son, pues, los
parámetros que la función HRTF ha de recoger en sus algoritmos.
Aquí nos encontramos con un caso similar al que comentábamos anteriormente: "para
localizar una dirección, podemos hacerlo en base a las diferencias de presión, tiempo
o ambas conjuntamente". Ahora vemos que para localizar una fuente sonora en las
posiciones arriba-abajo o delante-detrás del oyente podemos hacerlo a través del
timbre percibido (a causa de los micro retrasos de tiempo provocados por los
pabellones) o bien, utilizando la interactividad. De los dos sistemas, el más fiel es el
segundo, pero, también, es el proceso más complejo desde el punto de vista de la
implementación tecnológica. Lo ideal sería poder utilizar los dos sistemas en realidad
virtual de forma conjunta, con lo cual, afianzaremos aún más las percepciones.
Como ya se ha comentado anteriormente, un procesamiento completo de las señales
para realidad virtual o sonido HI-END debe dar cuenta, de estas variables:
Es obvio que la audición con auriculares eliminaría la diafonía entre los dos canales,
puesto que la señales de los oídos izquierdo y derecho del oyente O1 en la sala de
conciertos, llegarían a los respectivos oídos del oyente O2 en la sala de audición. En
este sentido, la diafonía habría sido eliminada por completo.
No obstante, recordando algunos conceptos vistos anteriormente, aparece un serio
inconveniente que también impedirá la recepción de un campo sonoro espacial
completo.
Supongamos que realizamos nuevamente el experimento anterior pero, en este caso,
sustituimos las pantallas acústicas por unos auriculares. Se comprende que si O1 se
mueve o gira la cabeza, las diferencias de tiempo, presión sonora y timbre recogidas
corresponderán a su nueva posición. Es decir, a cada posición del oyente (o de la
fuente sonora) se creará un patrón determinado en cuanto a la información recogida
(diferencias de tiempos, presión sonora y timbre) y, gracias a esta información, el
cerebro situará a la fuente sonora en la adecuada dirección.
Evidentemente, no ocurre lo mismo con el oyente de la sala de audición, el cual,
recordemos, en este momento está utilizando auriculares. Si, en cualquier momento,
gira la cabeza hacia un lado, el campo sonoro percibido también se moverá hacia ese
lado puesto que él es el portador de los elementos de transducción electroacústicos
(auriculares). En estas condiciones, la información recibida seguirá siendo la misma,
independientemente de los cambios de posición. Nos encontramos, pues, ante una
experiencia inusual para el cerebro, puesto que en el mundo real, tal como le sucede
al oyente en la sala de conciertos, a cada posición tendría que recibir un patrón
determinado de información.
Ante esta situación, el sonido deja de percibirse como un campo espacial en lo que
respecta, sobretodo, a la descriminación de las señales delante-detrás.
Por fortuna, parece ser que el cerebro, en el campo de actuación que estamos
tratando, tiene varias formas para realizar el mismo cometido. Por ejemplo, prestemos
atención a la estereofonía clásica, la cual, representa, en principio, un campo sonoro
unidimensional de izquierda a derecha. Para lograr un buen ambiente estereofónico,
tanto podemos jugar con las variaciones de amplitud o de tiempo. Aunque, si
utilizamos los dos parámetros conjuntamente, afianzaremos, aún más, las diferentes
posiciones de los instrumentos implicados, reduciendo la ambigúedad en la posición.
No obstante, en la práctica sólo utilizamos las variaciones de amplitud en,
prácticamente, todos los casos.
Lo mismo sucede con la descriminación de señales delante-detrás. Podemos utilizar
las variaciones de timbre, incluso de tiempo producidas por los pabellones auditivos o
la interactividad, o bien, ambos fenómenos conjuntamente, con lo cual, las
descriminaciones arriba-abajo o delante-detrás se producirán mucho más claramente
que utilizando HRTF de forma pasiva.
En definitiva, las alternativas que tenemos a nuestra disposición en la reproducción del
sonido son:
1. Reproducción monofónica
Sin efectos indicadores de dirección.
2. Reproducción estereofónica con altavoces.
Aquí aceptamos la diafonía acústica como un mal menor dada la simplicidad
que reporta este sistema. Con modernas técnicas de grabación pueden lograrse
excelentes resultados.
4. Reproducción cuadrafónica.
Aquí se añaden, al sistema estéreo convencional, dos o más canales laterales o
posteriores para dar cuenta de los efectos reverberantes de la sala de
conciertos o incluir efectos especiales envolventes. También es posible recrear
imaginativos espacios sonoros.
REALIDAD VIRTUAL
Una vez descritas las bases en que se apoyan la estereofonía y cuadrafonía, estamos
preparados para describir los dispositivos electroacústicos asociados con los
equipos de Realidad Virtual. El primer paso, tal como hemos hecho en alguna otra
ocasion, será definir, lo más claramente posible, el término Realidad Virtual.
Tal como comentamos en otra ocasión, nosotros podemos asegurar que el sonido,
como principal portador de la emoción y sentimiento de una imagen, es el toque final
para conseguir un mundo virtual de elevado realismo. Ahora bien, para que la escena
observada sea creible espacialmente es deseable que exista una estrecha
correlación entre la imagen y el sonido y, además, la interactividad ha de permitir que,
a pesar de los movimientos del usuario, el espacio virtual permanezca estable
Por ejemplo, imagínate que te has introducido en un entorno virtual. En un momento
determinado cierras los ojos. ¿Qué pasa entonces? Si realizas la misma acción en el
mundo real, los estímulos acústicos te ayudarán a mantener la imagen mental de la
escena que tan sólo hace un momento estabas observando. ¿Ocurre lo mismo en un
entorno virtual? La verdad es que en la mayoría de máquinas bautizadas con este
nombre el sonido es un mero acompañante y la asociación con la imagen observada
es, en muchas ocasiones, muy simple. Si, por ejemplo, aparece una moto por el lado
izquierdo, es cierto que el tubo de escape sonará por el auricular izquierdo, pero la
similitud con el mundo real acaba aquí. La espacialidad sonora, esto es, la sensación
de profundidad no existe, pues la imagen de la moto puede aparecer a una distancia
virtual de cinco metros pero el sonido del tubo de escape lo tienes dentro de la
cabeza. Es decir, la correlación audio-visual no es, ni mucho menos, perfecta. No
obstante, aunque dicha correlación no sea la óptima, el cerebro del oyente intentará
situar a la fuente sonora en el lugar correcto de la imagen... y la mayoría de veces lo
consigue.
Finalmente, la estabilidad espacial, esto es, la capacidad del sonido y la imagen de
permanecer estáticos a pesar de los movimientos del observador es una cualidad
fundamental que han de poseer los entornos virtuales de calidad.
En resumen, veamos rapidamente, los requisitos indispensables de un sistema
acústico para Realidad virtual.
Estabilidad espacial
El campo sonoro, al igual que la imagen, a de permanecer estable en el espacio
virtual independientemente de los movimientos del observador. Lo ideal sería
conseguir los seis grados de libertad en el movimiento de éste:
Movimiento delante/atrás.
Moviento hacia la izquierda y/o derecha.
Movimiento hacia arriba o abajo.
Función rotatoria lateral.
Función rotatoria vertical.
Función rotatoria horizontal.
De esta manera, el observador podrá mover la cabeza mirando hacia arriba, abajo,
izquierda y derecha mientras que el entorno visual y acústico mantiene su estabilidad
espacial.
Digamos, finalmente, que para conseguir la estabilidad espacial de la escena, junto
con los sistemas de visualización, audición y tactiles, es necesario incorporar un
dispositivo de seguimiento/orientación para que el ordenador "pueda conocer" en
todo momento la posición en que se encuentra el observador y actuar en
consecuencia con la imagen, el sonido y el tacto. Es decir, la interactividad entre el
usuario y el ordenador ha de ser muy alta.
NOTA FINAL