Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Facultad de Artes
Proyecto de Grado
1. Resumen
Junto con el colectivo de teatro Kundali, quienes escribieron una obra titulada
Descafeinada, se busca producir el episodio piloto de un podcast, usando audio inmersivo.
La obra trata de una historia que se desarrolla en la ciudad de Bogotá, donde se ha cometido
crimen y, a lo largo de varios capítulos, se va desentramando a los personajes involucrados.
La obra está inspirada en los programas de Radioteatro del siglo pasado, a la vez que busca
actualizar el formato a los nuevos medios de escucha.
El objetivo de este proyecto es explorar un camino de posibilidades que brinda crear un
podcast con audio inmersivo y aprender sobre el flujo de trabajo que se debe tener en
cuenta para la producción de un proyecto similar.
El resultado de este trabajo fue la producción de un episodio piloto en formato binaural
de Descafeinada.
Palabras Clave: Audio Inmersivo, HRTF, Binaural, Ambisonics, Podcast, Dolby Atmos,
Audio Envolvente, Surround Sound.
-------------------------------------------------------------
3
Tabla de contenidos:
1. Resumen 2
Tabla de contenidos:
2. Introducción 4
3. Marco Teórico: 6
HRTF ( Head-Related Transfer Function )
Binaural
Para el caso anatómico:
Para el caso de la técnica de microfonía:
Para el caso de la reproducción:
Audio Inmersivo
Audio Basado en Canales (Channel - based)
Audio Basado en Objetos (Object – based)
Audio Basado en Escenas (Ambisonics)
Técnica de microfonía surround INA-5
4. Objetivos: 14
General:
Específicos:
5. Procedimiento 15
Plan general de producción
Proceso de grabación de diálogos
Proceso de creación musical:
Proceso de grabación de ambientes y efectos:
Proceso de post producción:
6. Resultados del proyecto 25
7. Conclusiones 26
8. Referencias 27
4
2. Introducción
A lo largo de la evolución de la humanidad se han creado tanto música como narrativas
ficticias y/o documentales a la par que medios especializados para la transmisión de estas.
Si se realiza una breve línea de tiempo, se puede dar cuenta de cómo estos avances
tecnológicos se han acercado a esa percepción espacial y a la vez han moldeado, para
siempre, la relación que tiene el oyente con las creaciones sonoras.
Desde vinilos, cartuchos de ocho pistas, cassettes, CD, minidisc y MP3, la mayoría de
formatos de audio para consumo tienen algo en común: El estéreo. Este sistema contiene
dos señales de audio discretas, diseñadas para ser reproducidas a través de dos parlantes o
audífonos. Esto hace que un oyente situado entre los dos parlantes escuche un espacio
sonoro en el que pareciera que se puede ubicar las fuentes en posiciones específicas. (Inglis,
2022). Esta ilusión espacial conocida como centro fantasma permite al oyente ubicar un
sonido en un plano (izquierda - derecha), al igual que una percepción de profundidad en ese
espacio.
Sin embargo, el estereo es limitado dado que no resuelve una sensación de altura, ni es
convincente al ubicar sonidos que provienen de atrás del oyente. Por esta razón, tecnologías
como el audio cuadrafónico (Quadraphonic sound), Dolby Stereo (ProLogic) o el surround
5.1 buscaban resolver algunas de estas limitaciones. Desafortunadamente, estas tecnologías
no fueron tan bien acogidas en el uso doméstico por parte del público, como sí lo fueron en
las salas de cine. (Inglis, 2022). Muchas de estas tecnologías resolvieron con éxito la
ubicación de un sonido en un plano horizontal, es decir (izquierda - derecha y adelante -
atrás), logrando así que el sonido envolviera al oyente.
Esta ilusión espacial resultaba impresionante, pero para el promedio de oyentes en casa,
se trataba de una inversión que no se podía hacer. No solo era una tecnología costosa sino
que adaptarla en un espacio podía ser una tarea tediosa. Esto sin contar que con los avances
tecnológicos acelerados, varias de estas tecnologías quedaban obsoletas en cuestión de un
par de años.
Por otro lado, lo que tenían en común el estéreo, el audio cuadrafónico o el surround 5.1
era que todas estas tecnologías consistían de formatos de audio basado en canales, lo que
significa que existía una correlación entre la cantidad de canales y la cantidad parlantes.
Estos últimos debían responder a una disposición específica, en un espacio particular, en
donde todo estuviera correctamente configurado. (Inglis, 2022).
5
3. Marco Teórico:
HRTF ( Head-Related Transfer Function )
La distancia entre los oídos se encuentra determinada por la cabeza, que absorbe y
refleja el sonido, generando diferencias de tiempo, amplitud y espectro en frecuencia. Estas
diferencias se perciben entre un oído y el otro, permitiendo la ubicación de una fuente
sonora en el espacio.
La diferencia de tiempo que hay entre lo que se demora una señal en llegar a un oído y
luego al otro es lo que le permite al cerebro identificar el ángulo de incidencia.
El máximo retraso de tiempo que hay entre los oídos está en el orden de los 0.65ms y se
conoce como delay Binaural o diferencia interaural de tiempo. Los humanos son capaces
de resolver la direccionalidad usando este método. Pero no existe una forma obvia de
distinguir entre atrás y adelante o arriba y abajo. (Rumsey, 2001, pág. 22)
A esto se le complementa con las diferencias de amplitud y espectro. Estas diferencias se
dan gracias a factores como el tamaño de la cabeza, el tamaño del oído externo y las
reflexiones en los hombros entre otras cosas. Todas estos factores actúan como barreras
para el sonido (en especial para las frecuencias altas) ya que las absorben o las reflejan,
modificando el espectro y la intensidad con las que alcanzan cada oído.
La suma de todos estos efectos resulta en una función de transferencia única para cada
posición de una fuente y su ángulo de incidencia, incluyendo diferentes elevaciones y
posiciones como atrás o adelante. (Rumsey, 2001, pág. 24)
Binaural
Es preciso aclarar que el término binaural puede hacer referencia tanto a una técnica de
microfonía como a una forma de reproducción y, a la vez, es un fenómeno relacionado con
la anatomía.
1
ASMR es la sigla de Respuesta Sensorial Meridiana Autónoma, que consiste en una respuesta
física y psicológica ante estímulos auditivos que causan sensación de hormigueo en la piel. En la
actualidad, existen varios videos en plataformas que exploran esta respuesta.
8
2
Para esto hay que tener en cuenta que los drivers de los audífonos están muy cercanos a los oídos,
haciendo que cada uno tuviera una señal independiente.
3
El efecto Haas, se usa también para explicar cómo percibimos las reflexiones en un espacio, es
decir que si en una ventana de 50 ms, una señal llega directo a un oído y las reflexiones de esa señal
llegan un poco después, el cerebro las asumirá como una sola señal ubicada en la dirección de la
primera en arribar.
9
Audio Inmersivo
El audio inmersivo podría definirse como el sonido que se escucha de forma natural con
los oídos, dado que el sistema auditivo está desarrollado para dar un contexto espacial
tridimensional.
Entonces, cuando se habla de audio inmersivo como desarrollo tecnológico, se está
haciendo referencia a todos los formatos de audio que aprovechan el espacio tridimensional
alrededor del oyente.
Es importante diferenciar este nuevo sistema de su predecesor, el audio envolvente o
surround sound. Este sistema, que tuvo su máximo reconocimiento con el formato surround
5.1, ya que había resuelto el posicionamiento del sonido de forma horizontal, creando la
ilusión de que el sonido rodeaba al oyente. Este formato se seguiría actualizando con el
paso del tiempo a 7.1 e incluso Tomlinson Holman (creador de THX), planteó combinar
dos sistemas 5.1, creando el formato 10.2. Este formato, también conocido como
Periphonic sound, colocaba a la altura del suelo un sistema 5.1 completo y a la altura del
techo, otro sistema 5.1, logrando de esta manera resolver el posicionamiento del sonido en
el plano vertical también.
Por eso, hay dos características claves para entender lo que ofrecen los formatos
modernos de audio inmersivo. Uno es que, no solo representa el audio en un plano
horizontal, sino que permite posicionar sonidos sobre el oyente (plano vertical). El otro es
que rompe la relación entre canales y parlantes, de forma que su reproducción es procesada
en tiempo real, independientemente del espacio en que se encuentre el oyente y para los
dispositivos de reproducción disponibles en ese momento. (Inglis, 2022).
Cómo el audio inmersivo se trata de un sistema tridimensional que abarca diferentes
formatos de reproducción, a continuación se hará, con intención de simplificar, una
definición tentativa para aclarar ambos términos:
Según las definiciones anteriores, todos los formatos de audio que agreguen altura se
pueden considerar audio inmersivo. Sin embargo, no todos los formatos basados en canales
lo son. (ver figura 4).
Por lo tanto, hay tres categorías en las que se clasifican todos los formatos de audio:
basado en canales, el basado en objetos y basado en escenas o ambisonics.
10
En este arreglo de reproducción, busca tener una señal independiente para cada canal sin
importar el número de parlantes que hagan parte del arreglo.4 En ese orden de ideas, si se
pretende reproducir un contenido en una sala surround 7.1, hay que hacer una mezcla de
audio con la equivalente cantidad de canales que se va a utilizar. Si, por ejemplo, se quiere
reproducir en una sala de cine o un sistema de teatro en casa, se tendrá que tener una
versión del contenido optimizado para la cantidad de canales que posea un formato de
audio multicanal (5.1, 7.1), y un arreglo de parlantes específico para su correcta
reproducción5 (3/2L, 5/2L). La relación de información entre los canales ubica el sonido en
el espacio, dando la sensación surround.
4
Es diferente hablar de canales a hablar de parlantes, ya que varios parlantes pueden reproducir la
información de un solo canal. En cambio, un canal es una vía por donde va una señal específica y
única. Por ejemplo, cuando se habla de un sistema estéreo de dos canales, significa que hay un canal
con la información de Left y otro con la información de Right, y cada canal puede ir a un arreglo de
uno o más parlantes. Si llegase a faltar el canal L o el R, la información estaría incompleta y no
tendría sentido el sistema.
5
Por ejemplo, en las salas de cine Dolby Surround 7.1, se tienen 8 canales independientes de
información (Left, Center, Right, Left Surround, Right Surround, Back Surround Left, Back
Surround Right y Subwoofer), donde se tiene un arreglo de 4 parlantes para cada canal de Surround
y tres parlantes para cada canal Back Surround.
11
El audio basado en canales es la categoría que ha sido un estándar a través de los años,
en donde el oyente se tiene que sumergir entre varios parlantes para sentir la espacialidad a
su alrededor (o en frente de él si hablamos de estéreo).
Los desarrollos tecnológicos necesarios para lograr tal fin son, en gran parte la historia
de la industria del audio para cine. Formatos como el Dolby Digital, Dolby-encoded
material, Sonny SDDS o DTS son ejemplos de sistemas de audio basados en canales, que
fueron adaptados en las salas de cine alrededor del mundo.
Una desventaja importante al trabajar con audio basado en canales, puede ser un
problema al momento de trabajar en sistemas de audio multicanal, ya que se requeriría de
un lugar ideal de escucha (sweet spot) para percibir de manera correcta dicha inmersividad.
En el caso del cine, esto se resolvió dejando un canal central independiente que irradiara
sonido a toda la sala por igual, de tal manera que la mayor parte del público pudiese
escuchar la información más relevante sin tener que depender de su ubicación en el teatro.
Además, y dado que la mayoría de oyentes no se puede permitir la compra de un arreglo
de monitores para experimentar este efecto espacial, se requiere hacer un downmix que
permita reducir el número de canales requeridos para la reproducción en sistemas de menor
cantidad de canales, muchas veces perdiendo la espacialidad al ajustarse a un formato
estéreo. Esto no es más que un algoritmo que combina los componentes de una señal
multicanal en una menor cantidad. (Toole, 2008, pág. 274).
Figura 5, [Diagrama] Audio basado en canales y downmix a estéreo. Xuejing Sun, 2019,
(https://lab.irt.de/demos/object-based-audio/)
De esta manera, solo se necesita tener los archivos originales y procesarlos con esta
metadata para que se pueda procesar posteriormente con un renderer que traduzca dicha
información, adaptándola al formato de reproducción disponible.
En la actualidad, Dolby Atmos Renderer ha hecho un gran avance en esta materia, ya que
su software permite que todos los equipos compatibles con Dolby Atmos puedan traducir
esa información en sus propios sistemas y capacidades. Por ejemplo: Si un carro tiene un
sistema Atmos, entonces el renderer procesará la metadata posicionando el audio, en un
lugar en el vehículo. De igual forma el renderer codificaría la señal para la escucha binaural
o para un sistema de teatro en casa.
Figura 7, [Fotografía] Zylia Pro 3rd order Ambisonics. Zylia, 2018, (https://www.zylia.co/zylia-pro.html)
6
Para encontrar más detalles sobre Ambisonics, consultar Anexo 1
7
Dr David Griesinger, se ha dedicado a crear algoritmos realistas para el sonido Surround y ha
trabajado para Lexicon donde ha diseñado procesadores como el Lexicon 960.
14
técnicas semi-coincidentes con el efecto de precedencia hace que sean más dependientes de
un balance atrás-adelante. (Rumsey, 2001, págs. 194 - 196)
La principal razón por la que se usó la técnica INA-5 en vez de otras técnicas TSRS
(True Space Recording System) fue porque INA-5 permite una mejor imagen espacial y no
tiene un frente muy definido. Si se quiere usar esta técnica para generar un centro definido,
tendría que posicionarse muy cerca de una fuente. Esta técnica es óptima si se quiere dar a
entender que todas las fuentes parecieran proceder de alrededor de un frente. Una
configuración de este tipo puede ser más apropiada para una captura general un poco más
atrás del salón. (Rumsey, 2001, págs. 194 - 196).
De INA-5 se deriva el arreglo ASM 5 (adjustable surround microphone), donde el
patrón polar de los micrófonos puede cambiarse por omnidireccionales, cardioides,
bidireccionales y todos los patrones intermedios con el fin de ajustarse a la captura del
sonido en un ambiente acústico. (Robjohns, 2001).
4. Objetivos:
General:
● Investigar sobre audio inmersivo
● Explorar la producción de contenido usando tecnologías de audio inmersivo.
Específicos:
● Producir y montar un capítulo piloto en formato binaural.
● Indagar sobre el flujo de señal de audio inmersivo para el trabajo en casa.
● Explorar el flujo de trabajo de un podcast concebido desde el audio inmersivo.
● Realizar la grabación en estudio de la música original con técnicas surround y
ambisonics.
● Realizar la grabación en locación de paisajes sonoros.
15
5. Procedimiento
La idea detrás de Descafeinada tuvo inicio en 2021. A lo largo de ese año se realizaron
los primeros escritos dramatúrgicos de esta obra, cuyos creadores son artistas escénicos de
la Pontificia Universidad Javeriana. A causa del confinamiento y en ausencia de entornos
naturales, se pensó en la posibilidad de envolver al oyente en otro espacio mediante el
sonido. Esta idea requería explorar medios en los que el oyente pudiera sentir las acciones
sucediendo a su alrededor, por lo que hubo que buscar herramientas tecnológicas que
permitieran producir audio inmersivo y cuyo resultado fuesen asequibles para un oyente
común.
Respecto a la naturaleza del proyecto, Descafeinada pretende ser una serie de ficción
episódica cuya estructura no dista de la de un programa de radio con la diferencia de que el
oyente la puede escuchar el contenido on demand. Por lo tanto se está hablando de un
podcast. Tanto la radio como el podcast son medios sonoros que acompañan al oyente
mientras éste suele realizar otra actividad como viajar en bus, cocinar, sacar al perro, etc.
Esto hace que su nivel de atención sea más ocasional, lo que implicaría que si se agregan
muchos detalles, estos no se van a apreciar. Se podría asumir que lo más central en un
contenido para la radio o podcast es, entonces, una narrativa atractiva.
El centro del contenido es aquel elemento que esté conduciendo la historia, mientras que
todo los demás suele estar en capas más externas ayudando a reforzar la narrativa.
Se pensó entonces que, para este proyecto, los diálogos debían estar definidos, claros e
incluso secos (cómo suele suceder en el mundo de la radio hablada). Cada personaje debía
trabajarse por separado, de tal manera que se pudieran posicionar en el espacio, por esto se
pensaron como objetos. Por su parte, la música sería extradiegética y, como su función es
reforzar la historia sin ser protagonista, podía ser más espaciosa y no tan definida. Además
16
no se buscaba ocupar altura con los instrumentos, sino que rodearan al oyente (surround).
En el caso de los ambientes, estos debían brindar contexto del espacio en el que se
encuentran los personajes, por lo tanto se debía trabajar por escenas (ambisonics) y, por
último, los efectos debían ser puntuales y sencillos de tal manera que se pudieran ubicar de
manera específico en el espacio (object).
Figura 11, [Diagrama] Flujo de trabajo del proyecto de grado, a) producción de podcast; b) Investigación
de sonido inmersivo. Creación propia.
Proceso de grabación de diálogos
Dado que no se contaba con un gran presupuesto, no se pudo trabajar con un director de
actores. Ya que los intérpretes de voz son estudiantes de la carrera de artes escénicas con
énfasis en actuación, se decidió que uno de los muchachos fuera el director de los demás.
Por lo tanto se contaba con cuatro actores, que realizaran las voces de todos los
personajes.
usando código de tiempo con el fin de mantener una buena sincronía entre la música y las
interpretaciones.
En cuanto Camilo terminó de hacer las composiciones, se hizo una maqueta sobre la
cual se grabó a los músicos. Esta sesión tenía una referencia de piano que se grabó en el
estudio 3 de la facultad de artes, junto con instrumentos midi y los diálogos ya montados.
Esta grabación fue una buena oportunidad para hacer pruebas respecto a la
compatibilidad de diferentes configuraciones que se usarían en la grabación con el resto de
músicos. Se realizaron las grabaciones de la maqueta usando el piano Steinway and Sons,
pero la sonoridad más adecuada y la que se usó en la grabación final fue la del piano
Yamaha.
Dado que el montaje para la grabación es complejo, en especial con la configuración de
micrófonos de la técnica INA-5, se tomó la decisión de grabar en bloque. Para el momento
de la grabación, se le colocó a cada músico un micrófono cercano (spot), y el ensamble se
capturó con la técnica surround.
19
Figura 14, [Fotografía], Grabación en estudio 3 del piano. Foto tomada por el Autor.
La técnica INA-5 hace las veces de un room y a la vez da la espacialidad que se buscaba
lograr con la música, es decir, que se sintiera alrededor del oyente. Esta técnica combinada
con los micrófonos cercanos, hacía que se sintieran unidos los instrumentos en el espacio,
sin perder detalle a causa de la distancia entre los micrófonos de INA-5 y los músicos.
Sobre una base de contrapeso se armó la técnica multicanal INA 5, que consiste en hacer
una especie de Decca Tree con tres micrófonos cardioides, sumada con un par de
micrófonos también cardioides para los canales left surround y right surround.
Sin embargo, para esta grabación se modificó la técnica usando cuatro micrófonos
Schoeps MK 21 para los canales left, right, left surround y right surround y un Schoeps
MK 4 para center, ya que se buscaba capturar una imagen más difusa del espacio del
estudio 3.
Todos los micrófonos fueron a los preamplificadores de la consola Midas x32, que se
usó como interfaz de audio para grabar en un computador portátil.
Figura 16, [Fotografía], Grabación de la música en estudio 3. Foto tomada por el autor.
la convención AmbiX, ya que se quería que fuera compatible con el plug-ins soundfield
nt-sf 1 de Rode.
Se experimentó con la grabación en movimiento, que si bien es una experiencia sonora
interesante, puede ser demasiado llamativa para ser un ambiente. Al realizar las grabaciones
en movimiento, había una gran dificultad para manipular la grabadora sin que esta
capturara el ruido. Revisando los audios, era común encontrarse con sonidos de golpes que
no eran otra cosa sino los pasos que se transmitían por el trípode a los micrófonos.
Además, mostrando los audios grabados con movimiento a otras personas, hubo varios
casos en que se reportaba mareo. No creo que se tenga que descartar la grabación en
movimiento con estos tipos de técnicas ya que puede que el movimiento si se tiene mejor
control del trayecto.
Todos los efectos se grabaron en el estudio Foley del Centro Ático con excepción de los
sonidos de campanas que se tomaron del banco de sonidos de la BBC. En este punto hubo
diferentes opiniones respecto a la cantidad de efectos que se debía agregar al episodio, ya
que un par de actores consideraban que se debía buscar un tono más realista. Sin embargo,
se estaba produciendo un podcast, y al mirar las referencias sonoras que escogimos como
guías para este proyecto (por lo general otros podcast8), los efectos parecen ser más
sencillos y puntuales, ya que cumplen la función de reforzar la narración sin ser
protagónicos9.
8
Podcast viene de las palabras Pod (personal on demand) y Broadcast (transmisión), se trata de una
serie de contenidos de audio que se encuentran en la red y responden a diferentes formatos como
entrevistas, ficción, periodismo, etc (Uribe & Jauregui, 2020). Normalmente son contenidos
episódicos.
9
El diseño de sonido puede significar de diferente manera dependiendo del contexto… Por
ejemplo: en el campo de audio para radio, el diseño sonoro es tanto la mezcla en términos de
producción de audio y niveles, la música y adicionalmente los elementos sonoros que se agregan. Al
menos para radio, el diseño sonoro tiene una función más amplia que el diseño de sonido para cine
o televisión. (Arablouei, 2020).
22
Aún cuando todos los músicos grabaron sobre una pista de referencia, hubo que hacer
trabajo de edición y ensamble, de tal forma que el conjunto se sintiera cohesionado. Así
mismo, el proceso de montaje de los diálogos se hizo varias veces ya que se buscaba lograr
un buen ritmo en la historia de tal manera que se mantuviera una narrativa interesante de
escuchar.
Se decidió poner a prueba si el resto del proyecto se podía realizar desde la casa, al fin y
al cabo se quería producir una pista binaural que se fuera a escuchar con audífonos. Se
trabajó con una interfaz Universal Audio Apollo X Duo, unos audífonos Sennheiser HD
660s, un computador Macbook Pro, ProTools Studio y Dolby Atmos Production Suite.
Figura 18, [Fotografía], Codificando surround 5.0 a Ambisonics. Foto tomada por autor.
10
As a simple example, consider the creation of a third-order Ambisonics mix from a number of
individual mono sources. Each of those sources must be routed through some sort of 3D panning
device or algorithm which can address the 16-channel Ambisonics bus; and there needs to be a
further decoding algorithm that can map the output of that bus onto whatever speaker array we
happen to have. If we want to audition the results on headphones, yet another step is involved, as
the output must be re-encoded binaurally. (Inglis, 2022)
23
Figura 19, [Fotografía], Dolby Atmos Renderer. Foto tomada por autor.
Dolby Atmos Production Suite, viene con Dolby Atmos Renderer que es un software
creado por Dolby que permite reproducir mezclas hechas en un DAW con Dolby Atmos,
crear Master Files con este mismo formato y gestionar la metadata de un proyecto. (Dolby
Laboratories, 2018).
Se trata de un procesador de audio digital que es a la vez una aplicación stand alone, en
la cual se codifica la información con los algoritmos de Dolby Atmos para monitorear,
crear o reproducir un archivo master. En otras palabras, al trabajar con Dolby Atmos, se
está trabajando con un algoritmo pensado para la producción de audio inmersivo, y Dolby
Atmos Renderer es el motor que permite transformar un audio, en un audio en el espacio a
través de metadata.
La production suite trae consigo una tarjeta de audio virtual (virtual core audio
soundcard) llamada Dolby Atmos Bridge, que actúa como un puente entre un DAW que
contiene el proyecto y el Dolby Atmos Renderer, que está procesando en tiempo real la
información que está recibiendo a la vez que lo traduce en el sistema de monitoreo
disponible (que puede ser binaural con audifonos).
Otra ventaja de trabajar con Dolby Atmos, es que permite el uso de audio basado en
canales del sistema surround sound 5.1, denominado como beds, a la vez que al mismo
tiempo se procesa el audio basado en objetos.
11
The whole point of scene-based and object-based formats is to be agnostic about the replay
format, so in essence, the appropriate collection of scenes or objects needs to be generated and then
decoded in real time for monitoring. (Inglis, 2022)
24
De esta manera se resolvió el monitoreo binaural, el uso de la música surround 5.0 cómo
una cama (bed) y los diálogos como objetos en el espacio al igual que los efectos. En el
caso de los ambientes, se procesó la grabación hecha con ambisonics a un canal 7.1.4, que
ocupaba otra cama en el Dolby Atmos Renderer.
Teniendo en cuenta que una de las motivaciones principales para la creación de la obra
fue crear un entregable al que pudiesen acceder la mayoría de los oyentes, se pensó desde
un principio finalizar el producto en un formato MP3 de dos canales para escucha binaural.
De esta manera cualquier persona con un dispositivo que reproduzca MP3 y tenga
audífonos podría acceder a la pieza, aún cuando no tuviese un dispositivo compatible con
Dolby Atmos.
Para esto, se investigó sobre los formatos de entrega que reciben varias plataformas de
streaming, encontrando que Dolby es un estándar que brinda esta posibilidad, por lo que
esta característica fue otra de las razones por las que se seleccionó este software para
finalizar el proyecto.
Figura 20, [Diagrama], Formatos de entrega con Dolby Atmos. Edgar Rothermitch. 2021.
(https://www.pro-tools-expert.com/production-expert-1/why-your-atmos-mix-will-sound-different-on-apple-
music)
Tal como se observa en la figura 20, MP3 no es un formato compatible con la entrega de
un producto de audio inmersivo. Pese a esto, a través de la aplicación de Dolby Atmos
Renderer se puede crear un Masterfile denominado ADM (Audio Definition Model). Esto
quiere decir que se exporta un archivo que está construido sobre un formato BWF
(Broadcast Wave). En otras palabras, se tiene un archivo que representa cada objeto mono o
estéreo en un formato de audio .WAV asociado con la metadata requerida para que otro
Renderer pueda recrear la información que se tenía en la sesión de Dolby Atmos. (Inglis,
2022).
Lo que se puede hacer entonces, es convertir este Masterfile .WAV con metadata, en un
archivo MP3, que mantendrá la percepción de audio inmersivo, reproduciendo la
espacialización realizada en el Masterfile, aunque perderá la metadata asociada, haciendo
25
que no se pueda procesar con otro renderer. Es importante aclarar que no se puede
convertir en un MP3 con una calidad inferior a los 320 Mbps, ya que se afecta la calidad
sonora, y se puede perder la espacialidad.
Para finalizar este proyecto se hizo un Masterfile binaural que se exportó como formato
ADM, y posteriormente se convirtió en un archivo MP3. Este archivo se puede enviar a
Spotify, Google Podcast o incluso por Whatsapp, logrando así el objetivo inicial de
distribución al consumidor que se planteó como necesidad en la creación del proyecto.
Tal como se planteó en los objetivos, se realizó la investigación sobre audio inmersivo
identificando puntos claves para comprender su origen, evolución, recursos disponibles,
funcionamiento y utilidad para la creación de sonido.
De forma simultánea a la investigación, se experimentó la creación e implementación de
un flujo de trabajo, pensado para la producción de un producto sonoro inmersivo, que en
este caso fue un podcast.
7. Conclusiones
A raíz de la elaboración del proyecto y de los aprendizajes encontrados a lo largo de este
proceso se presentan a continuación las conclusiones más relevantes para la creación de un
producto sonoro en el que se utilizaron varias tecnologías de sonido espaciado.
● Entre menos conversión entre formatos se haga, es más fácil garantizar la calidad
sonora de diferentes grabaciones.
● Los sonidos comunes entre Stems tienen que sonar unificados, sin embargo, la
sonoridad puede cambiar entre diferentes Stems.
● Para garantizar la consistencia de una grabación usando configuraciones de
micrófonos surround, es preferible grabar en bloque. De no ser posible, es mejor
realizar la grabación a lo largo del día sin afectar el montaje.
● Es posible mantener el sonido inmersivo usando un formato MP3, a través de un
archivo ADM.
● De acuerdo a la evolución del audio espaciado, se puede hablar de audio envolvente
y audio inmersivo, dependiendo del momento histórico o de la tecnología que se
esté empleando, se debe usar uno u otro término.
● Se puede decir que siempre que se habla de audio inmersivo, se asume una
experiencia sonora tridimensional.
● Ambisonics es un buen sistema para trabajar con Realidad Virtual, y no tan óptimo
al momento de trabajar con objetos.
● Dolby Atmos renderer permite el trabajo en espacios no convencionales para la
producción de audio inmersivo. Además, permite un flujo de señal completo para
trabajar en un computador (in the box).
8. Referencias
Arablouei, R. (2020). Interview 2: Sound design 101 from Ramtin Arablouei of the podcast
Throughline. https://journalismcourses.org/.
https://journalismcourses.org/wp-content/uploads/2020/11/Interview_2_Sound_design_101
_from_Ramtin_Arablouei_of_the_podcast_Throughline.pdf
Atmos, W. D. (Agosto de 2020). Dolby Atmos for content creators. Obtenido de Dolby
Professional :
https://professional.dolby.com/siteassets/content-creation/dolby-atmos/why-dolby-atmos-w
hite-paper.pdf
Ayalde, M.C. (2018). Ecco 360 Grabación y mezcla en 360° de un EP y su audiovisual
360° [Tesis/Trabajo de grado - Pregrado]. Pontificia Universidad Javeriana. Repositorio
Institucional de la Pontificia Universidad Javeriana.
https://repository.javeriana.edu.co/handle/10554/40235
Dolby Laboratories. (2018). Dolby Atmos Renderer Guide. Dolby Atmos Creator Tutorials.
https://professional.dolby.com/siteassets/content-creation/dolby-atmos/dolby_atmos_render
er_guide.pdf
Domínguez, D. (2019). Aural VR La música como experiencia en ambientes interactivos
360o [Tesis/Trabajo de grado - Pregrado]. Pontificia Universidad Javeriana. Repositorio
Institucional de la Pontificia Universidad Javeriana.
https://repository.javeriana.edu.co/handle/10554/43892
Decibel Peak. (6 de Julio de 2021). Ambisonic vs Binaural | An Introduction To Spatial
Audio. Obtenido de Decibel peak: https://decibelpeak.com/ambisonic-vs-binaural/
Holman, T. (2008). Surround Sound Up and Running. Burlington, Estados Unidos: Focal
Press.
Inglis, S. (2022, 01). An Introduction To Immersive Audio. Sound On Sound. Retrieved
November 24, 2022, from
https://www.soundonsound.com/techniques/introduction-immersive-audio
Paris, O. (5 de Mayo de 2022). SOS Publications Group. Obtenido de Sound on Sound:
https://www.soundonsound.com/techniques/recording-orchestra
28
Robjohns, H. (2001, 11). Surround Sound Explained: Part 4. Sound On Sound. Retrieved
November 24, 2022, from
https://www.soundonsound.com/techniques/surround-sound-explained-part-4#para
Rothermich, E. (2021, December 7). Why Your Atmos Mix Will Sound Different On Apple
Music | Production Expert. Pro Tools Expert. Retrieved November 27, 2022, from
https://www.pro-tools-expert.com/production-expert-1/why-your-atmos-mix-will-sound-dif
ferent-on-apple-music
Rumsey, F. (2001). Spatial Audio. Londres , Inglaterra: Focal Press.
Toole, F. E. (2008). Sound Reproduction The Acoustics and Psychoacoustics of
Loudspeakers and Rooms. Burlington, USA: Focal Press.
Uribe, D., & Jauregui, D. (2020, December 1). ¿Qué es un podcast y por qué son
importantes? RTVC. Retrieved November 21, 2022, from
https://www.rtvc.gov.co/noticia/que-es-un-podcast
White, P. (20 de Marzo de 2000). DAVID GRIESINGER (LEXICON): Creating Reverb
Algorithms For Surround Sound. (P. White, Productor) Obtenido de Sound on Sound:
https://www.soundonsound.com/people/david-griesinger-lexicon-creating-reverb-algorithm
s-surround-sound