Descafeinada-Un Podcast Con Audio Inmersivo - Proyecto de Grado - Santiago de La Paz Cardona Medina

Descafeinada:
Un podcast con audio inmersivo
Santiago de la Paz Cardona Medina
Tutor: Ricardo Escallón
Pontificia Universidad Javeriana
Facultad de Artes
Carrera de Estudios Musicales
Énfasis en Ingeniería de Sonido
Proyecto de Grado
Bogotá, D.C. Diciembre 2 de 2022

2
1. Resumen
Junto con el colectivo de teatro Kundali, quienes escribieron una obra titulada
Descafeinada, se busca producir el episodio piloto de un podcast, usando audio inmersivo.
La obra trata de una historia que se desarrolla en la ciudad de Bogotá, donde se ha cometido
crimen y, a lo largo de varios capítulos, se va desentramando a los personajes involucrados.
La obra está inspirada en los programas de Radioteatro del siglo pasado, a la vez que busca
actualizar el formato a los nuevos medios de escucha.
El objetivo de este proyecto es explorar un camino de posibilidades que brinda crear un
podcast con audio inmersivo y aprender sobre el flujo de trabajo que se debe tener en
cuenta para la producción de un proyecto similar.
El resultado de este trabajo fue la producción de un episodio piloto en formato binaural
de Descafeinada.
Palabras Clave: Audio Inmersivo, HRTF, Binaural, Ambisonics, Podcast, Dolby Atmos,
Audio Envolvente, Surround Sound.
-------------------------------------------------------------
3
Tabla de contenidos:
1. Resumen 2
Tabla de contenidos:
2. Introducción 4
3. Marco Teórico: 6
HRTF ( Head-Related Transfer Function )
Binaural
Para el caso anatómico:
Para el caso de la técnica de microfonía:
Para el caso de la reproducción:
Audio Inmersivo
Audio Basado en Canales (Channel - based)
Audio Basado en Objetos (Object – based)
Audio Basado en Escenas (Ambisonics)
Técnica de microfonía surround INA-5
4. Objetivos: 14
General:
Específicos:
5. Procedimiento 15
Plan general de producción
Proceso de grabación de diálogos
Proceso de creación musical:
Proceso de grabación de ambientes y efectos:
Proceso de post producción:
6. Resultados del proyecto 25
7. Conclusiones 26
8. Referencias 27
4
2. Introducción
A lo largo de la evolución de la humanidad se han creado tanto música como narrativas
ficticias y/o documentales a la par que medios especializados para la transmisión de estas.
Durante el período de tiempo en el que se descubrió que el sonido se puede registrar en

un cilindro de cera hasta la actualidad, se ha investigado sobre métodos de captura, se han
creado diversas técnicas de microfonía, se ha documentado sobre la escucha humana y se
han inventado múltiples formatos de reproducción.
Todos estos desarrollos buscan una misma cosa: conseguir imitar la percepción espacial
que los humanos tienen de forma natural gracias a su sistema auditivo.
Si se realiza una breve línea de tiempo, se puede dar cuenta de cómo estos avances
tecnológicos se han acercado a esa percepción espacial y a la vez han moldeado, para
siempre, la relación que tiene el oyente con las creaciones sonoras.
Desde vinilos, cartuchos de ocho pistas, cassettes, CD, minidisc y MP3, la mayoría de
formatos de audio para consumo tienen algo en común: El estéreo. Este sistema contiene
dos señales de audio discretas, diseñadas para ser reproducidas a través de dos parlantes o
audífonos. Esto hace que un oyente situado entre los dos parlantes escuche un espacio
sonoro en el que pareciera que se puede ubicar las fuentes en posiciones específicas. (Inglis,
2022). Esta ilusión espacial conocida como centro fantasma permite al oyente ubicar un
sonido en un plano (izquierda - derecha), al igual que una percepción de profundidad en ese
espacio.
Sin embargo, el estereo es limitado dado que no resuelve una sensación de altura, ni es
convincente al ubicar sonidos que provienen de atrás del oyente. Por esta razón, tecnologías
como el audio cuadrafónico (Quadraphonic sound), Dolby Stereo (ProLogic) o el surround
5.1 buscaban resolver algunas de estas limitaciones. Desafortunadamente, estas tecnologías
no fueron tan bien acogidas en el uso doméstico por parte del público, como sí lo fueron en
las salas de cine. (Inglis, 2022). Muchas de estas tecnologías resolvieron con éxito la
ubicación de un sonido en un plano horizontal, es decir (izquierda - derecha y adelante -
atrás), logrando así que el sonido envolviera al oyente.
Esta ilusión espacial resultaba impresionante, pero para el promedio de oyentes en casa,
se trataba de una inversión que no se podía hacer. No solo era una tecnología costosa sino
que adaptarla en un espacio podía ser una tarea tediosa. Esto sin contar que con los avances
tecnológicos acelerados, varias de estas tecnologías quedaban obsoletas en cuestión de un
par de años.
Por otro lado, lo que tenían en común el estéreo, el audio cuadrafónico o el surround 5.1
era que todas estas tecnologías consistían de formatos de audio basado en canales, lo que
significa que existía una correlación entre la cantidad de canales y la cantidad parlantes.
Estos últimos debían responder a una disposición específica, en un espacio particular, en
donde todo estuviera correctamente configurado. (Inglis, 2022).
5
Si para esos momentos, muchos de los formatos de sonido requerían de un espacio

específico como se explicaba más arriba, años más tarde, después de la creación del
Walkman, el iPod, los smartphones y las plataformas de streaming, la tendencia general del
oyente común pareciera estar desligada de un lugar específico, ya que se realiza la escucha
a través de audífonos, computadores y/o televisores.
Esto llevó a desarrollar una nueva tecnología de percepción espacial conocida como
audio inmersivo.
En la actualidad (2022), se está explorando todavía las posibilidades creativas que ofrece
esta , desarrollando contenidos con audio inmersivo y, por lo tanto, este proyecto de grado
pretende ser un proceso de aprendizaje para poner a prueba un flujo de trabajo cuyo
resultado sea también inmersivo.
Con el profundo interés de investigar y experimentar de primera mano sobre este nuevo
formato, y además con la invitación por parte de los escritores para usar su creación, a
continuación se encuentra el proceso de producción del episodio piloto de Descafeinada.
6
3. Marco Teórico:
HRTF ( Head-Related Transfer Function )
La distancia entre los oídos se encuentra determinada por la cabeza, que absorbe y
refleja el sonido, generando diferencias de tiempo, amplitud y espectro en frecuencia. Estas
diferencias se perciben entre un oído y el otro, permitiendo la ubicación de una fuente
sonora en el espacio.
La diferencia de tiempo que hay entre lo que se demora una señal en llegar a un oído y
luego al otro es lo que le permite al cerebro identificar el ángulo de incidencia.
El máximo retraso de tiempo que hay entre los oídos está en el orden de los 0.65ms y se
conoce como delay Binaural o diferencia interaural de tiempo. Los humanos son capaces
de resolver la direccionalidad usando este método. Pero no existe una forma obvia de
distinguir entre atrás y adelante o arriba y abajo. (Rumsey, 2001, pág. 22)
A esto se le complementa con las diferencias de amplitud y espectro. Estas diferencias se
dan gracias a factores como el tamaño de la cabeza, el tamaño del oído externo y las
reflexiones en los hombros entre otras cosas. Todas estos factores actúan como barreras
para el sonido (en especial para las frecuencias altas) ya que las absorben o las reflejan,
modificando el espectro y la intensidad con las que alcanzan cada oído.
La suma de todos estos efectos resulta en una función de transferencia única para cada
posición de una fuente y su ángulo de incidencia, incluyendo diferentes elevaciones y
posiciones como atrás o adelante. (Rumsey, 2001, pág. 24)
Ciertas bandas de frecuencias están relacionadas con la ubicación de una fuente en el

espacio. Si bien se habla, por ejemplo, de que las frecuencias bajas (menores a 500 Hz) son
omnidireccionales, y las frecuencias agudas (mayores a 8000 Hz) son muy direccionales;
las mismas bandas de frecuencia pueden relacionarse con una percepción de altura y
posición.
Una región alrededor de los 8000 Hz parece corresponder a un sonido ubicado sobre la
cabeza, mientras que regiones como 300 a 600 Hz y 3000 a 6000 Hz tienen una posición
más frontal. A su vez, regiones como 1200 Hz y 12000 Hz suelen corresponder a un sonido
ubicado detrás del oyente. (Rumsey, 2001, pág. 25)
De esta forma se puede entender que, además de la direccionalidad de las frecuencias y
otras características físicas, las dimensiones de la cabeza actúan como un filtro adicional
que le da al cerebro más información para ubicar la posición de una fuente en el espacio.
A esta función de transferencia propia de la interacción del sonido con la cabeza se le

conoce como HRTF o head-related transfer function, y es única para cada individuo con
sus características anatómicas y fisiológicas.
7
Binaural
Es preciso aclarar que el término binaural puede hacer referencia tanto a una técnica de
microfonía como a una forma de reproducción y, a la vez, es un fenómeno relacionado con
la anatomía.
Para el caso anatómico:
Binaural implica que se involucran dos sistemas auditivos en paralelo (dos

aurículas, dos tímpanos, dos hemisferios cerebrales, etc). La diferencia de percepción
entre estos dos sistemas es lo que genera la sensación de profundidad tridimensional.
Cuando hablamos de binauralidad (o estereofonía) en términos anatómicos, estamos
refiriéndonos a la diferencia (de amplitud, tiempo y/o espectro) que hay en la
percepción de una fuente ubicada en el espacio al llegar a cada oído. En este caso,
hay que considerar la HRTF junto con el delay binaural que permiten este
fenómeno.
Para el caso de la técnica de microfonía:
Se trata de imitar la escucha humana al momento de la captura a través del uso de

dos micrófonos, que harán las partes de los oídos de un oyente. Si bien las técnicas
estereofónicas de microfonía buscaban imitar la escucha humana, no son lo mismo
que las técnicas binaurales.
Para una captura binaural hay que involucrar un modelo de la cabeza humana que
incluya el oído externo y micrófonos ubicados, ó en la parte externa del canal
auditivo, ó en la parte interna de este. (Holman, 2008, pág. 85)
Este modelo de cabeza humana es conocido como Dummy Head y puede
obtenerse comercialmente en varias referencias. El Neumann KU-100 que es el más
conocido, el AKG D99c o el 3Dio FS (gracias a la tendencia de videos ASMR 1).
Figura 1, [Render] Neumann KU 100. Neumann, 2018, (https://es-es.neumann.com/ku-100)
1
ASMR es la sigla de Respuesta Sensorial Meridiana Autónoma, que consiste en una respuesta
física y psicológica ante estímulos auditivos que causan sensación de hormigueo en la piel. En la
actualidad, existen varios videos en plataformas que exploran esta respuesta.
8
Para el caso de la reproducción:
En el caso de la reproducción, se suele requerir de la escucha con audífonos,

donde hay un canal independiente para cada oído, pero al igual que en el caso de las
técnicas de microfonía, es diferente un sonido producido en estéreo a un sonido
producido en binaural.
Estas diferencias se dan gracias a que los algoritmos que codifican las señales son
diferentes. Al momento de trabajar con audio binaural en vez de con audio estéreo,
hay que considerar que si bien ambos sistemas generan una profundidad en la
percepción del sonido, el audio binaural se acerca más a simular la escucha
tridimensional natural humana, donde el sonido rodea al oyente, mientras que el
audio estéreo lo suele hacer en frente de éste.
Para dar un ejemplo de uno de los varios factores que diferencia a los algoritmos
que codifican estos formatos, se considerará la escucha en audífonos de un sonido
producido en estéreo y uno en binaural2.
Una señal codificada en estéreo busca, entre otras cosas, simular el efecto de
precedencia (precedence effect o Haas)3 que se da cuando hay al menos dos fuentes
en el espacio, emitiendo el mismo sonido. Dado que los oídos están expuestos a las
fuentes (ubicadas con frecuencia en frente del oyente), el cerebro recibe dos veces la
misma información. Cuando el sonido de una de las fuentes llega con diferencias de
tiempo, el cerebro da prioridad a la primera en arribar dentro de una ventana de
máximo 50 ms. Esto genera la sensación de que la señal original se encuentra
ubicada en la dirección del primer sonido en llegar. (Rumsey, 2001, pág. 28).
En una codificación estéreo, no se tiene en cuenta la relación con la cabeza del
oyente, sino el tiempo que demora en llegar una señal. En cambio, para el caso de
una señal codificada en binaural, se simula una sola fuente, y cada oído recibe la
misma información modificada por su HRTF y las condiciones acústicas del espacio.
Figura 2, [Diagrama] Sonido Binaural Figura 3, [Diagrama] Efecto de precedencia
2
Para esto hay que tener en cuenta que los drivers de los audífonos están muy cercanos a los oídos,
haciendo que cada uno tuviera una señal independiente.
3
El efecto Haas, se usa también para explicar cómo percibimos las reflexiones en un espacio, es
decir que si en una ventana de 50 ms, una señal llega directo a un oído y las reflexiones de esa señal
llegan un poco después, el cerebro las asumirá como una sola señal ubicada en la dirección de la
primera en arribar.
9
Audio Inmersivo
El audio inmersivo podría definirse como el sonido que se escucha de forma natural con
los oídos, dado que el sistema auditivo está desarrollado para dar un contexto espacial
tridimensional.
Entonces, cuando se habla de audio inmersivo como desarrollo tecnológico, se está
haciendo referencia a todos los formatos de audio que aprovechan el espacio tridimensional
alrededor del oyente.
Es importante diferenciar este nuevo sistema de su predecesor, el audio envolvente o
surround sound. Este sistema, que tuvo su máximo reconocimiento con el formato surround
5.1, ya que había resuelto el posicionamiento del sonido de forma horizontal, creando la
ilusión de que el sonido rodeaba al oyente. Este formato se seguiría actualizando con el
paso del tiempo a 7.1 e incluso Tomlinson Holman (creador de THX), planteó combinar
dos sistemas 5.1, creando el formato 10.2. Este formato, también conocido como
Periphonic sound, colocaba a la altura del suelo un sistema 5.1 completo y a la altura del
techo, otro sistema 5.1, logrando de esta manera resolver el posicionamiento del sonido en
el plano vertical también.
Por eso, hay dos características claves para entender lo que ofrecen los formatos
modernos de audio inmersivo. Uno es que, no solo representa el audio en un plano
horizontal, sino que permite posicionar sonidos sobre el oyente (plano vertical). El otro es
que rompe la relación entre canales y parlantes, de forma que su reproducción es procesada
en tiempo real, independientemente del espacio en que se encuentre el oyente y para los
dispositivos de reproducción disponibles en ese momento. (Inglis, 2022).
Cómo el audio inmersivo se trata de un sistema tridimensional que abarca diferentes
formatos de reproducción, a continuación se hará, con intención de simplificar, una
definición tentativa para aclarar ambos términos:
El audio envolvente es un sistema de reproducción de sonido basado en canales que

están dispuestos alrededor del oyente, de tal manera que éste perciba el sonido
proveniente en dos planos (derecha - izquierda; adelante - atrás).
El audio inmersivo es un sistema de reproducción de sonido que genera una imagen

tridimensional alrededor del oyente, de tal manera que éste perciba el sonido
proveniente en tres planos (derecha - izquierda; adelante - atrás; arriba - abajo).
Según las definiciones anteriores, todos los formatos de audio que agreguen altura se
pueden considerar audio inmersivo. Sin embargo, no todos los formatos basados en canales
lo son. (ver figura 4).
Por lo tanto, hay tres categorías en las que se clasifican todos los formatos de audio:
basado en canales, el basado en objetos y basado en escenas o ambisonics.
10
Figura 4, [Diagrama] Categorías de audio y sistemas. Creación propia.
Audio Basado en Canales (Channel - based)
En este arreglo de reproducción, busca tener una señal independiente para cada canal sin
importar el número de parlantes que hagan parte del arreglo.4 En ese orden de ideas, si se
pretende reproducir un contenido en una sala surround 7.1, hay que hacer una mezcla de
audio con la equivalente cantidad de canales que se va a utilizar. Si, por ejemplo, se quiere
reproducir en una sala de cine o un sistema de teatro en casa, se tendrá que tener una
versión del contenido optimizado para la cantidad de canales que posea un formato de
audio multicanal (5.1, 7.1), y un arreglo de parlantes específico para su correcta
reproducción5 (3/2L, 5/2L). La relación de información entre los canales ubica el sonido en
el espacio, dando la sensación surround.
4
Es diferente hablar de canales a hablar de parlantes, ya que varios parlantes pueden reproducir la
información de un solo canal. En cambio, un canal es una vía por donde va una señal específica y
única. Por ejemplo, cuando se habla de un sistema estéreo de dos canales, significa que hay un canal
con la información de Left y otro con la información de Right, y cada canal puede ir a un arreglo de
uno o más parlantes. Si llegase a faltar el canal L o el R, la información estaría incompleta y no
tendría sentido el sistema.
5
Por ejemplo, en las salas de cine Dolby Surround 7.1, se tienen 8 canales independientes de
información (Left, Center, Right, Left Surround, Right Surround, Back Surround Left, Back
Surround Right y Subwoofer), donde se tiene un arreglo de 4 parlantes para cada canal de Surround
y tres parlantes para cada canal Back Surround.
11
El audio basado en canales es la categoría que ha sido un estándar a través de los años,
en donde el oyente se tiene que sumergir entre varios parlantes para sentir la espacialidad a
su alrededor (o en frente de él si hablamos de estéreo).
Los desarrollos tecnológicos necesarios para lograr tal fin son, en gran parte la historia
de la industria del audio para cine. Formatos como el Dolby Digital, Dolby-encoded
material, Sonny SDDS o DTS son ejemplos de sistemas de audio basados en canales, que
fueron adaptados en las salas de cine alrededor del mundo.
Una desventaja importante al trabajar con audio basado en canales, puede ser un
problema al momento de trabajar en sistemas de audio multicanal, ya que se requeriría de
un lugar ideal de escucha (sweet spot) para percibir de manera correcta dicha inmersividad.
En el caso del cine, esto se resolvió dejando un canal central independiente que irradiara
sonido a toda la sala por igual, de tal manera que la mayor parte del público pudiese
escuchar la información más relevante sin tener que depender de su ubicación en el teatro.
Además, y dado que la mayoría de oyentes no se puede permitir la compra de un arreglo
de monitores para experimentar este efecto espacial, se requiere hacer un downmix que
permita reducir el número de canales requeridos para la reproducción en sistemas de menor
cantidad de canales, muchas veces perdiendo la espacialidad al ajustarse a un formato
estéreo. Esto no es más que un algoritmo que combina los componentes de una señal
multicanal en una menor cantidad. (Toole, 2008, pág. 274).
Figura 5, [Diagrama] Audio basado en canales y downmix a estéreo. Xuejing Sun, 2019,
(https://lab.irt.de/demos/object-based-audio/)
Audio Basado en Objetos (Object – based)
En la actualidad y gracias a todo el desarrollo del audio digital, se ha podido

complementar los archivos de audio con metadata, creando los objetos.
Los objetos generalmente son fuentes monofónicas de audio que han sido grabadas o
sintetizadas y que pueden ser manipuladas posteriormente - en un DAW, por ejemplo – y
ser posicionadas en un espacio 3D alrededor del oyente. (Domínguez, 2019, pág. 6).
Por ejemplo, si dentro de un DAW se tiene un algoritmo que permita convertir el audio
de un canal en un audio con una ubicación espacial, ese audio se vuelve un objeto que
contiene además, información sobre su posición, altura, distancia, tamaño e intensidad.
12
De esta manera, solo se necesita tener los archivos originales y procesarlos con esta
metadata para que se pueda procesar posteriormente con un renderer que traduzca dicha
información, adaptándola al formato de reproducción disponible.
En la actualidad, Dolby Atmos Renderer ha hecho un gran avance en esta materia, ya que
su software permite que todos los equipos compatibles con Dolby Atmos puedan traducir
esa información en sus propios sistemas y capacidades. Por ejemplo: Si un carro tiene un
sistema Atmos, entonces el renderer procesará la metadata posicionando el audio, en un
lugar en el vehículo. De igual forma el renderer codificaría la señal para la escucha binaural
o para un sistema de teatro en casa.
Figura 6, [Diagrama] Audio basado en objetos. Xuejing Sun, 2019,

(https://lab.irt.de/demos/object-based-audio/)
Audio Basado en Escenas (Ambisonics)
Cuando se habla de Ambisonics se está haciendo referencia a un sistema unificado y

fundamentado en fenómenos físicos del sonido. Si bien en la actualidad se está haciendo
más presente el diálogo sobre este sistema, se trata de una innovación que tiene sus
orígenes en los setentas (70 's) bajo los trabajos de Gerzon, Barton y Fellgett. (Rumsey,
2001, pág. 111).
Según Sam Inglis, Ambisonics es un ejemplo de un formato de audio basado en escenas
con una imagen tridimensional completa. Esto gracias a que el concepto base de este
sistema, es capturar el sonido incidente proveniente de todas las direcciones en solo un
punto del espacio. (Robjohns, 2001).
Dado que Ambisonics es un sistema en sí mismo, es necesario explicar por aparte su
captura al igual que los formatos que permiten su codificación.
13
Al momento de capturar un sonido con Ambisonics, se habla de relaciones físicas y de

coherencia entre varios micrófonos montados en una cápsula, dispuestos de tal manera que
se capture el sonido en todas las direcciones. Se diferencian de un micrófono
omnidireccional ya que este produce un solo canal de audio, en cambio una cápsula
Ambisonics, produce una cantidad de canales equivalentes a la cantidad de micrófonos que
contenga + 1. Por lo tanto, existen diferentes cápsulas diseñadas para la captura de este
formato. Por ejemplo, el Sennheiser Ambeo VR o la grabadora Zoom H3 VR, que son
micrófonos Ambisonics de primer orden con una disposición específica de cápsulas, a la
vez que hay micrófonos más complejos como el Zylia Pro Have it all que permite la
captura de Ambisonics de tercer orden.6
Figura 7, [Fotografía] Zylia Pro 3rd order Ambisonics. Zylia, 2018, (https://www.zylia.co/zylia-pro.html)
Técnica de microfonía surround INA-5
Existen muchas configuraciones de microfonía surround. Incluso, Huge Robjohns llegó

a considerar la grabación con Ambisonics, como una de ellas. Al igual que sucede con las
configuraciones de microfonía estéreo, estas pueden ser espaciadas o coincidentes.
INA-5 es una configuración de micrófonos semi coincidente, lo que permite la captura
de una imagen más espaciosa comparada a otras técnicas. La distancia entre los micrófonos
es la suficiente para que estos capturen diferencias de tiempo sin perder mucha definición,
tanto así que el término usado por los inventores de la técnica Hermann and Henkels para
referirse a esta disposición, fue atmosphere cross. La cercanía entre los micrófonos puede
generar alteraciones en la correlación de las frecuencias bajas y, según propone Griesinger7,
este fenómeno es importante para generar la sensación de espacio. Las técnicas
semi-coincidentes serán entonces menos espaciosas. Además, la fuerte dependencia de las
6
Para encontrar más detalles sobre Ambisonics, consultar Anexo 1
7
Dr David Griesinger, se ha dedicado a crear algoritmos realistas para el sonido Surround y ha
trabajado para Lexicon donde ha diseñado procesadores como el Lexicon 960.
14
técnicas semi-coincidentes con el efecto de precedencia hace que sean más dependientes de
un balance atrás-adelante. (Rumsey, 2001, págs. 194 - 196)
La principal razón por la que se usó la técnica INA-5 en vez de otras técnicas TSRS
(True Space Recording System) fue porque INA-5 permite una mejor imagen espacial y no
tiene un frente muy definido. Si se quiere usar esta técnica para generar un centro definido,
tendría que posicionarse muy cerca de una fuente. Esta técnica es óptima si se quiere dar a
entender que todas las fuentes parecieran proceder de alrededor de un frente. Una
configuración de este tipo puede ser más apropiada para una captura general un poco más
atrás del salón. (Rumsey, 2001, págs. 194 - 196).
De INA-5 se deriva el arreglo ASM 5 (adjustable surround microphone), donde el
patrón polar de los micrófonos puede cambiarse por omnidireccionales, cardioides,
bidireccionales y todos los patrones intermedios con el fin de ajustarse a la captura del
sonido en un ambiente acústico. (Robjohns, 2001).
Figura 10, [Diagrama] Configuración de INA-5. Rumsey, F. 2001, Spatial Audio.
4. Objetivos:
General:
● Investigar sobre audio inmersivo
● Explorar la producción de contenido usando tecnologías de audio inmersivo.
Específicos:
● Producir y montar un capítulo piloto en formato binaural.
● Indagar sobre el flujo de señal de audio inmersivo para el trabajo en casa.
● Explorar el flujo de trabajo de un podcast concebido desde el audio inmersivo.
● Realizar la grabación en estudio de la música original con técnicas surround y
ambisonics.
● Realizar la grabación en locación de paisajes sonoros.
15
5. Procedimiento
La idea detrás de Descafeinada tuvo inicio en 2021. A lo largo de ese año se realizaron
los primeros escritos dramatúrgicos de esta obra, cuyos creadores son artistas escénicos de
la Pontificia Universidad Javeriana. A causa del confinamiento y en ausencia de entornos
naturales, se pensó en la posibilidad de envolver al oyente en otro espacio mediante el
sonido. Esta idea requería explorar medios en los que el oyente pudiera sentir las acciones
sucediendo a su alrededor, por lo que hubo que buscar herramientas tecnológicas que
permitieran producir audio inmersivo y cuyo resultado fuesen asequibles para un oyente
común.
Plan general de producción
Para el momento en que inició la producción de este trabajo de grado, ya se tenía

adelantado el trabajo de creación de personajes. Aún hacía falta componer la música,
corregir los guiones, grabar los diálogos, e investigar sobre audio inmersivo y todos sus
aspectos. Estos serían la base para construir el plan de trabajo de la producción del resto del
proyecto.
Se organizó el trabajo en dos frentes: Por un lado, la investigación sobre audio
inmersivo, desde el componente teórico hasta la prueba de los diferentes programas
disponibles para su creación. En paralelo, se haría la producción de uno de los episodios del
podcast.
Se llegó al flujo de trabajo respondiendo a cuatro consideraciones. La primera es sobre
la naturaleza narrativa del proyecto, la segunda sobre la grabación de cada capa de
contenido, la tercera sobre mezcla del proyecto y la última sobre el formato de distribución
al oyente.
Respecto a la naturaleza del proyecto, Descafeinada pretende ser una serie de ficción
episódica cuya estructura no dista de la de un programa de radio con la diferencia de que el
oyente la puede escuchar el contenido on demand. Por lo tanto se está hablando de un
podcast. Tanto la radio como el podcast son medios sonoros que acompañan al oyente
mientras éste suele realizar otra actividad como viajar en bus, cocinar, sacar al perro, etc.
Esto hace que su nivel de atención sea más ocasional, lo que implicaría que si se agregan
muchos detalles, estos no se van a apreciar. Se podría asumir que lo más central en un
contenido para la radio o podcast es, entonces, una narrativa atractiva.
El centro del contenido es aquel elemento que esté conduciendo la historia, mientras que
todo los demás suele estar en capas más externas ayudando a reforzar la narrativa.
Se pensó entonces que, para este proyecto, los diálogos debían estar definidos, claros e
incluso secos (cómo suele suceder en el mundo de la radio hablada). Cada personaje debía
trabajarse por separado, de tal manera que se pudieran posicionar en el espacio, por esto se
pensaron como objetos. Por su parte, la música sería extradiegética y, como su función es
reforzar la historia sin ser protagonista, podía ser más espaciosa y no tan definida. Además
16
no se buscaba ocupar altura con los instrumentos, sino que rodearan al oyente (surround).
En el caso de los ambientes, estos debían brindar contexto del espacio en el que se
encuentran los personajes, por lo tanto se debía trabajar por escenas (ambisonics) y, por
último, los efectos debían ser puntuales y sencillos de tal manera que se pudieran ubicar de
manera específico en el espacio (object).
Para el caso de la mezcla y la postproducción, se debía usar un software que permitiera

trabajar con varias tecnologías como audio inmersivo y audio envolvente a la vez. Además
debía poder re-codificar en tiempo real a formato binaural para monitorear la mezcla con
audífonos.
De manera adicional, el resultado final se debía poder exportar en un master file con el
que el promedio de oyentes pudiera escuchar usando sus audífonos. Este formato debía
funcionar independiente de la plataforma on demand que usarán.
Por lo tanto, y mientras se trabajaba en el ensamble del episodio con los actores, se
empezó a investigar sobre audio inmersivo buscando ampliar el panorama de tecnologías
que estaban disponibles en la actualidad.
Figura 11, [Diagrama] Flujo de trabajo del proyecto de grado, a) producción de podcast; b) Investigación
de sonido inmersivo. Creación propia.
Proceso de grabación de diálogos
Para la grabación de diálogos, se llevó a cabo en el estudio A de Centro Ático que,

gracias a la acústica variable y el tamaño de su liveroom, permitía aislar la voz de cada
actor para una mejor captura sin que sufriera su interpretación. Se usaron los Sennheiser
MD 441 U para el proyecto. Además, se emplearon los preamplificadores SSL XR621 que
hay en este estudio.
Se hicieron varias cabinas con paneles móviles que separaban a cada actor de los demás.
Esto, combinado con la distancia física que los separaba, reducía de manera significativa el
bleeding. Finalmente la disposición de los actores en el espacio fue la siguiente:
17
Figura 12, [Diagrama], Disposición del estudio A. Creación propia.
Dado que no se contaba con un gran presupuesto, no se pudo trabajar con un director de
actores. Ya que los intérpretes de voz son estudiantes de la carrera de artes escénicas con
énfasis en actuación, se decidió que uno de los muchachos fuera el director de los demás.
Por lo tanto se contaba con cuatro actores, que realizaran las voces de todos los
personajes.
Figura 13, [Fotografía], Calentamiento de actores. Foto tomada por el autor.

Proceso de creación musical:
Habiendo obtenido un esqueleto de episodio con los diálogos, se empezó a trabajar en

las composiciones musicales que los acompañan. Para esto, se contactó con el egresado
Camilo Rincón Yanine, quien es maestro en música con énfasis en composición, tanto
comercial como erudita.
Si bien no se trataba de un proyecto que incluyera video, se planteó que el flujo de

trabajo fuera el mismo que se usa para productos audiovisuales. Por lo tanto, se trabajó
18
usando código de tiempo con el fin de mantener una buena sincronía entre la música y las
interpretaciones.
Tomando distancia del proyecto y volviendo a escuchar la historia, se pudo reconocer

que, si bien la música debía ser extradiegética, no debía estar presente en todo el episodio.
Paralelo a esto, había personajes muy caricaturescos al igual que otros personajes con un
mayor peso dramático, razón por la cual se consideró necesario componer un motivo que se
desarrollara a lo largo del episodio para los personajes que conducen la historia y que
eventualmente tendrían desarrollo a través de los episodios posteriores. Había que incluir
también un tema característico para la introducción y para el cierre a modo de cortinillas, de
tal forma que un oyente lo pudiera reconocer, identificando el programa que está
escuchando.
Con esto en mente, se realizaron varias versiones de la música y se probaron varias

instrumentaciones. El piano fue un buen candidato, dado que se tenía la necesidad de
encontrar un instrumento que pudiera ofrecer un rango dinámico amplio al igual que varias
texturas complejas; sin embargo, no se quería que esta sonoridad fuera lo único
característico del sonido de la serie, por lo que se decidió explorar con un dueto de
guitarras. Este experimento daba más intimidad a unos personajes (Juliana y Toñito).
Como se trataban de dos instrumentos independientes, en este caso guitarras, se podían
posicionar en cualquier lugar del espacio. Esta idea nos llevó a incluir un cuarteto de
cuerdas ya que por un lado daba bastante emotividad a las piezas y por el otro, se pensó que
sería interesante para el oyente escuchar un cuarteto a su alrededor, en vez de en frente.
Las piezas que acompañaron este proyecto se compusieron a lo largo de otro mes y
medio, logrando finalizar las partituras a tiempo para hacer varios ensayos con los músicos
antes de la grabación.
En cuanto Camilo terminó de hacer las composiciones, se hizo una maqueta sobre la
cual se grabó a los músicos. Esta sesión tenía una referencia de piano que se grabó en el
estudio 3 de la facultad de artes, junto con instrumentos midi y los diálogos ya montados.
Esta grabación fue una buena oportunidad para hacer pruebas respecto a la
compatibilidad de diferentes configuraciones que se usarían en la grabación con el resto de
músicos. Se realizaron las grabaciones de la maqueta usando el piano Steinway and Sons,
pero la sonoridad más adecuada y la que se usó en la grabación final fue la del piano
Yamaha.
Dado que el montaje para la grabación es complejo, en especial con la configuración de
micrófonos de la técnica INA-5, se tomó la decisión de grabar en bloque. Para el momento
de la grabación, se le colocó a cada músico un micrófono cercano (spot), y el ensamble se
capturó con la técnica surround.
19
Figura 14, [Fotografía], Grabación en estudio 3 del piano. Foto tomada por el Autor.
La técnica INA-5 hace las veces de un room y a la vez da la espacialidad que se buscaba
lograr con la música, es decir, que se sintiera alrededor del oyente. Esta técnica combinada
con los micrófonos cercanos, hacía que se sintieran unidos los instrumentos en el espacio,
sin perder detalle a causa de la distancia entre los micrófonos de INA-5 y los músicos.
La disposición final para la grabación de la música fue la siguiente:
Figura 15, [Diagrama], Disposición de los músicos en el espacio. Creación propia.

20
Sobre una base de contrapeso se armó la técnica multicanal INA 5, que consiste en hacer
una especie de Decca Tree con tres micrófonos cardioides, sumada con un par de
micrófonos también cardioides para los canales left surround y right surround.
Sin embargo, para esta grabación se modificó la técnica usando cuatro micrófonos
Schoeps MK 21 para los canales left, right, left surround y right surround y un Schoeps
MK 4 para center, ya que se buscaba capturar una imagen más difusa del espacio del
estudio 3.
Todos los micrófonos fueron a los preamplificadores de la consola Midas x32, que se
usó como interfaz de audio para grabar en un computador portátil.
Si bien se usó el micrófono Sennheiser Ambeo VR en esta grabación (ubicado a la altura

de los oídos de una persona), lo que se capturó con este micrófono no se usó en el producto
final ya que no se sumaba bien con las otras técnicas.
Figura 16, [Fotografía], Grabación de la música en estudio 3. Foto tomada por el autor.
Proceso de grabación de ambientes y efectos:
Se optó por realizar un viaje cercano en Cundinamarca, y se realizaron las grabaciones

de los ambientes en los municipios de Pandi y Venecia. Ambos son pueblos cercanos al río
Sumapaz. Se hizo una caminata por un afluente del río donde se pudo capturar el sonido de
la naturaleza. Estas grabaciones se realizaron con una grabadora Zoom H3 VR y un trípode
ajustado a la altura del cuello. Se dejaba la grabadora quieta un par de minutos en que se
evitaba emitir ruido, luego se revisaba el material y se seleccionaba que grabaciones iban a
quedar.
Al ser una grabadora diseñada con una técnica Ambisonics, la espacialidad ya estaba
integrada en la captura. Se configuró la Zoom H3 VR para que capturara en formato B con
21
la convención AmbiX, ya que se quería que fuera compatible con el plug-ins soundfield
nt-sf 1 de Rode.
Se experimentó con la grabación en movimiento, que si bien es una experiencia sonora
interesante, puede ser demasiado llamativa para ser un ambiente. Al realizar las grabaciones
en movimiento, había una gran dificultad para manipular la grabadora sin que esta
capturara el ruido. Revisando los audios, era común encontrarse con sonidos de golpes que
no eran otra cosa sino los pasos que se transmitían por el trípode a los micrófonos.
Además, mostrando los audios grabados con movimiento a otras personas, hubo varios
casos en que se reportaba mareo. No creo que se tenga que descartar la grabación en
movimiento con estos tipos de técnicas ya que puede que el movimiento si se tiene mejor
control del trayecto.
Todos los efectos se grabaron en el estudio Foley del Centro Ático con excepción de los
sonidos de campanas que se tomaron del banco de sonidos de la BBC. En este punto hubo
diferentes opiniones respecto a la cantidad de efectos que se debía agregar al episodio, ya
que un par de actores consideraban que se debía buscar un tono más realista. Sin embargo,
se estaba produciendo un podcast, y al mirar las referencias sonoras que escogimos como
guías para este proyecto (por lo general otros podcast8), los efectos parecen ser más
sencillos y puntuales, ya que cumplen la función de reforzar la narración sin ser
protagónicos9.
Figura 17, [Fotografía], Grabación de ambientes. Foto propiedad del autor.
8
Podcast viene de las palabras Pod (personal on demand) y Broadcast (transmisión), se trata de una
serie de contenidos de audio que se encuentran en la red y responden a diferentes formatos como
entrevistas, ficción, periodismo, etc (Uribe & Jauregui, 2020). Normalmente son contenidos
episódicos.
9
El diseño de sonido puede significar de diferente manera dependiendo del contexto… Por
ejemplo: en el campo de audio para radio, el diseño sonoro es tanto la mezcla en términos de
producción de audio y niveles, la música y adicionalmente los elementos sonoros que se agregan. Al
menos para radio, el diseño sonoro tiene una función más amplia que el diseño de sonido para cine
o televisión. (Arablouei, 2020).
22
Proceso de post producción:
Aún cuando todos los músicos grabaron sobre una pista de referencia, hubo que hacer
trabajo de edición y ensamble, de tal forma que el conjunto se sintiera cohesionado. Así
mismo, el proceso de montaje de los diálogos se hizo varias veces ya que se buscaba lograr
un buen ritmo en la historia de tal manera que se mantuviera una narrativa interesante de
escuchar.
Se decidió poner a prueba si el resto del proyecto se podía realizar desde la casa, al fin y
al cabo se quería producir una pista binaural que se fuera a escuchar con audífonos. Se
trabajó con una interfaz Universal Audio Apollo X Duo, unos audífonos Sennheiser HD
660s, un computador Macbook Pro, ProTools Studio y Dolby Atmos Production Suite.
En un principio se empezó a trabajar con la suite de Facebook 360, con la idea de

realizar la mezcla en el sistema ambisonics, dado que este permite hacer un render en
tiempo real para el monitoreo binaural con audífonos. Sin embargo, se decidió cambiar de
sistema para la mezcla, ya que si bien ambisonics es un sistema muy versátil, requiere de
hacer varias etapas de codificación, consumiendo procesamiento del computador, y
dependiendo del algoritmo del software en uso, afectando la sonoridad del resultado.
Se hizo el montaje del episodio una vez más, usando la 360º pan-suite de Audio Ease.
Este software mejoró la sonoridad, pero no tenía la posibilidad de usar de manera correcta
la grabación hecha con la técnica INA-5, sin causar problemas. Además este proceso
requería de una línea más larga de codificaciones y descodificaciones que podrían resultar
problemáticas.10
Figura 18, [Fotografía], Codificando surround 5.0 a Ambisonics. Foto tomada por autor.
10
As a simple example, consider the creation of a third-order Ambisonics mix from a number of
individual mono sources. Each of those sources must be routed through some sort of 3D panning
device or algorithm which can address the 16-channel Ambisonics bus; and there needs to be a
further decoding algorithm that can map the output of that bus onto whatever speaker array we
happen to have. If we want to audition the results on headphones, yet another step is involved, as
the output must be re-encoded binaurally. (Inglis, 2022)
23
La búsqueda de programas para el montaje de audio inmersivo llevó a investigar sobre

Dolby Atmos Production Suite, software con el que se realizó la postproducción del
proyecto.11
Figura 19, [Fotografía], Dolby Atmos Renderer. Foto tomada por autor.
Dolby Atmos Production Suite, viene con Dolby Atmos Renderer que es un software
creado por Dolby que permite reproducir mezclas hechas en un DAW con Dolby Atmos,
crear Master Files con este mismo formato y gestionar la metadata de un proyecto. (Dolby
Laboratories, 2018).
Se trata de un procesador de audio digital que es a la vez una aplicación stand alone, en
la cual se codifica la información con los algoritmos de Dolby Atmos para monitorear,
crear o reproducir un archivo master. En otras palabras, al trabajar con Dolby Atmos, se
está trabajando con un algoritmo pensado para la producción de audio inmersivo, y Dolby
Atmos Renderer es el motor que permite transformar un audio, en un audio en el espacio a
través de metadata.
La production suite trae consigo una tarjeta de audio virtual (virtual core audio
soundcard) llamada Dolby Atmos Bridge, que actúa como un puente entre un DAW que
contiene el proyecto y el Dolby Atmos Renderer, que está procesando en tiempo real la
información que está recibiendo a la vez que lo traduce en el sistema de monitoreo
disponible (que puede ser binaural con audifonos).
Otra ventaja de trabajar con Dolby Atmos, es que permite el uso de audio basado en
canales del sistema surround sound 5.1, denominado como beds, a la vez que al mismo
tiempo se procesa el audio basado en objetos.
11
The whole point of scene-based and object-based formats is to be agnostic about the replay
format, so in essence, the appropriate collection of scenes or objects needs to be generated and then
decoded in real time for monitoring. (Inglis, 2022)
24
De esta manera se resolvió el monitoreo binaural, el uso de la música surround 5.0 cómo
una cama (bed) y los diálogos como objetos en el espacio al igual que los efectos. En el
caso de los ambientes, se procesó la grabación hecha con ambisonics a un canal 7.1.4, que
ocupaba otra cama en el Dolby Atmos Renderer.
Teniendo en cuenta que una de las motivaciones principales para la creación de la obra
fue crear un entregable al que pudiesen acceder la mayoría de los oyentes, se pensó desde
un principio finalizar el producto en un formato MP3 de dos canales para escucha binaural.
De esta manera cualquier persona con un dispositivo que reproduzca MP3 y tenga
audífonos podría acceder a la pieza, aún cuando no tuviese un dispositivo compatible con
Dolby Atmos.
Para esto, se investigó sobre los formatos de entrega que reciben varias plataformas de
streaming, encontrando que Dolby es un estándar que brinda esta posibilidad, por lo que
esta característica fue otra de las razones por las que se seleccionó este software para
finalizar el proyecto.
Figura 20, [Diagrama], Formatos de entrega con Dolby Atmos. Edgar Rothermitch. 2021.
(https://www.pro-tools-expert.com/production-expert-1/why-your-atmos-mix-will-sound-different-on-apple-
music)
Tal como se observa en la figura 20, MP3 no es un formato compatible con la entrega de
un producto de audio inmersivo. Pese a esto, a través de la aplicación de Dolby Atmos
Renderer se puede crear un Masterfile denominado ADM (Audio Definition Model). Esto
quiere decir que se exporta un archivo que está construido sobre un formato BWF
(Broadcast Wave). En otras palabras, se tiene un archivo que representa cada objeto mono o
estéreo en un formato de audio .WAV asociado con la metadata requerida para que otro
Renderer pueda recrear la información que se tenía en la sesión de Dolby Atmos. (Inglis,
2022).
Lo que se puede hacer entonces, es convertir este Masterfile .WAV con metadata, en un
archivo MP3, que mantendrá la percepción de audio inmersivo, reproduciendo la
espacialización realizada en el Masterfile, aunque perderá la metadata asociada, haciendo
25
que no se pueda procesar con otro renderer. Es importante aclarar que no se puede
convertir en un MP3 con una calidad inferior a los 320 Mbps, ya que se afecta la calidad
sonora, y se puede perder la espacialidad.
Para finalizar este proyecto se hizo un Masterfile binaural que se exportó como formato
ADM, y posteriormente se convirtió en un archivo MP3. Este archivo se puede enviar a
Spotify, Google Podcast o incluso por Whatsapp, logrando así el objetivo inicial de
distribución al consumidor que se planteó como necesidad en la creación del proyecto.
6. Resultados del proyecto

Este proyecto se planteó como un medio para investigar y experimentar sobre audio
inmersivo. Para esto se planteó desarrollar un capítulo piloto usando esta tecnología en la
producción del podcast Descafeinada.
Tal como se planteó en los objetivos, se realizó la investigación sobre audio inmersivo
identificando puntos claves para comprender su origen, evolución, recursos disponibles,
funcionamiento y utilidad para la creación de sonido.
De forma simultánea a la investigación, se experimentó la creación e implementación de
un flujo de trabajo, pensado para la producción de un producto sonoro inmersivo, que en
este caso fue un podcast.
Como parte de este proceso, se generaron los siguientes resultados:
● Capítulo piloto finalizado

● Montaje experimental del capítulo en Ambisonics y Dolby Atmos.
● Postproducción del capítulo realizada fuera de estudio, en espacios no
convencionales.
● Se creó un flujo de trabajo para proyectos sonoros tipo podcast concebidos desde
audio inmersivo.
● Composición de música original para el proyecto.
● Grabación de la música original con técnicas surround y Ambisonics
● Grabación en locación de paisajes sonoros.
● Grabación de voces de todos los episodios
26
7. Conclusiones
A raíz de la elaboración del proyecto y de los aprendizajes encontrados a lo largo de este
proceso se presentan a continuación las conclusiones más relevantes para la creación de un
producto sonoro en el que se utilizaron varias tecnologías de sonido espaciado.
● Entre menos conversión entre formatos se haga, es más fácil garantizar la calidad
sonora de diferentes grabaciones.
● Los sonidos comunes entre Stems tienen que sonar unificados, sin embargo, la
sonoridad puede cambiar entre diferentes Stems.
● Para garantizar la consistencia de una grabación usando configuraciones de
micrófonos surround, es preferible grabar en bloque. De no ser posible, es mejor
realizar la grabación a lo largo del día sin afectar el montaje.
● Es posible mantener el sonido inmersivo usando un formato MP3, a través de un
archivo ADM.
● De acuerdo a la evolución del audio espaciado, se puede hablar de audio envolvente
y audio inmersivo, dependiendo del momento histórico o de la tecnología que se
esté empleando, se debe usar uno u otro término.
● Se puede decir que siempre que se habla de audio inmersivo, se asume una
experiencia sonora tridimensional.
● Ambisonics es un buen sistema para trabajar con Realidad Virtual, y no tan óptimo
al momento de trabajar con objetos.
● Dolby Atmos renderer permite el trabajo en espacios no convencionales para la
producción de audio inmersivo. Además, permite un flujo de señal completo para
trabajar en un computador (in the box).
Lo anterior presentado fue el proceso de producción de un podcast inmersivo. El paso a

seguir es investigar cómo un público amplio acoge este producto. De esta manera se puede
saber si es una buena inversión seguir desarrollando podcast u otros productos sonoros con
este sistema.
27
8. Referencias
Arablouei, R. (2020). Interview 2: Sound design 101 from Ramtin Arablouei of the podcast
Throughline. https://journalismcourses.org/.
https://journalismcourses.org/wp-content/uploads/2020/11/Interview_2_Sound_design_101
_from_Ramtin_Arablouei_of_the_podcast_Throughline.pdf
Atmos, W. D. (Agosto de 2020). Dolby Atmos for content creators. Obtenido de Dolby
Professional :
https://professional.dolby.com/siteassets/content-creation/dolby-atmos/why-dolby-atmos-w
hite-paper.pdf
Ayalde, M.C. (2018). Ecco 360 Grabación y mezcla en 360° de un EP y su audiovisual
360° [Tesis/Trabajo de grado - Pregrado]. Pontificia Universidad Javeriana. Repositorio
Institucional de la Pontificia Universidad Javeriana.
https://repository.javeriana.edu.co/handle/10554/40235
Dolby Laboratories. (2018). Dolby Atmos Renderer Guide. Dolby Atmos Creator Tutorials.
https://professional.dolby.com/siteassets/content-creation/dolby-atmos/dolby_atmos_render
er_guide.pdf
Domínguez, D. (2019). Aural VR La música como experiencia en ambientes interactivos
360o [Tesis/Trabajo de grado - Pregrado]. Pontificia Universidad Javeriana. Repositorio
Institucional de la Pontificia Universidad Javeriana.
https://repository.javeriana.edu.co/handle/10554/43892
Decibel Peak. (6 de Julio de 2021). Ambisonic vs Binaural | An Introduction To Spatial
Audio. Obtenido de Decibel peak: https://decibelpeak.com/ambisonic-vs-binaural/
Holman, T. (2008). Surround Sound Up and Running. Burlington, Estados Unidos: Focal
Press.
Inglis, S. (2022, 01). An Introduction To Immersive Audio. Sound On Sound. Retrieved
November 24, 2022, from
https://www.soundonsound.com/techniques/introduction-immersive-audio
Paris, O. (5 de Mayo de 2022). SOS Publications Group. Obtenido de Sound on Sound:
https://www.soundonsound.com/techniques/recording-orchestra
28
Robjohns, H. (2001, 11). Surround Sound Explained: Part 4. Sound On Sound. Retrieved
November 24, 2022, from
https://www.soundonsound.com/techniques/surround-sound-explained-part-4#para
Rothermich, E. (2021, December 7). Why Your Atmos Mix Will Sound Different On Apple
Music | Production Expert. Pro Tools Expert. Retrieved November 27, 2022, from
https://www.pro-tools-expert.com/production-expert-1/why-your-atmos-mix-will-sound-dif
ferent-on-apple-music
Rumsey, F. (2001). Spatial Audio. Londres , Inglaterra: Focal Press.
Toole, F. E. (2008). Sound Reproduction The Acoustics and Psychoacoustics of
Loudspeakers and Rooms. Burlington, USA: Focal Press.
Uribe, D., & Jauregui, D. (2020, December 1). ¿Qué es un podcast y por qué son
importantes? RTVC. Retrieved November 21, 2022, from
https://www.rtvc.gov.co/noticia/que-es-un-podcast
White, P. (20 de Marzo de 2000). DAVID GRIESINGER (LEXICON): Creating Reverb
Algorithms For Surround Sound. (P. White, Productor) Obtenido de Sound on Sound:
https://www.soundonsound.com/people/david-griesinger-lexicon-creating-reverb-algorithm
s-surround-sound

Descafeinada-Un Podcast Con Audio Inmersivo - Proyecto de Grado - Santiago de La Paz Cardona Medina

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Descafeinada-Un Podcast Con Audio Inmersivo - Proyecto de Grado - Santiago de La Paz Cardona Medina

Cargado por

Copyright:

Formatos disponibles

Descafeinada:

Un podcast con audio inmersivo

Santiago de la Paz Cardona Medina

Tutor: Ricardo Escallón

Pontificia Universidad Javeriana

Carrera de Estudios Musicales

Énfasis en Ingeniería de Sonido

Bogotá, D.C. Diciembre 2 de 2022

Durante el período de tiempo en el que se descubrió que el sonido se puede registrar en

Si para esos momentos, muchos de los formatos de sonido requerían de un espacio

Ciertas bandas de frecuencias están relacionadas con la ubicación de una fuente en el

A esta función de transferencia propia de la interacción del sonido con la cabeza se le

Para el caso anatómico:

Binaural implica que se involucran dos sistemas auditivos en paralelo (dos

Para el caso de la técnica de microfonía:

Se trata de imitar la escucha humana al momento de la captura a través del uso de

Figura 1, [Render] Neumann KU 100. Neumann, 2018, (https://es-es.neumann.com/ku-100)

Para el caso de la reproducción:

En el caso de la reproducción, se suele requerir de la escucha con audífonos,

Figura 2, [Diagrama] Sonido Binaural Figura 3, [Diagrama] Efecto de precedencia

El audio envolvente es un sistema de reproducción de sonido basado en canales que

El audio inmersivo es un sistema de reproducción de sonido que genera una imagen

Figura 4, [Diagrama] Categorías de audio y sistemas. Creación propia.

Audio Basado en Canales (Channel - based)

Audio Basado en Objetos (Object – based)

En la actualidad y gracias a todo el desarrollo del audio digital, se ha podido

Figura 6, [Diagrama] Audio basado en objetos. Xuejing Sun, 2019,

Audio Basado en Escenas (Ambisonics)

Cuando se habla de Ambisonics se está haciendo referencia a un sistema unificado y

Al momento de capturar un sonido con Ambisonics, se habla de relaciones físicas y de

Técnica de microfonía surround INA-5

Existen muchas configuraciones de microfonía surround. Incluso, Huge Robjohns llegó

Figura 10, [Diagrama] Configuración de INA-5. Rumsey, F. 2001, Spatial Audio.

Plan general de producción

Para el momento en que inició la producción de este trabajo de grado, ya se tenía

Para el caso de la mezcla y la postproducción, se debía usar un software que permitiera

Para la grabación de diálogos, se llevó a cabo en el estudio A de Centro Ático que,

Figura 12, [Diagrama], Disposición del estudio A. Creación propia.

Figura 13, [Fotografía], Calentamiento de actores. Foto tomada por el autor.

Habiendo obtenido un esqueleto de episodio con los diálogos, se empezó a trabajar en

Si bien no se trataba de un proyecto que incluyera video, se planteó que el flujo de

Tomando distancia del proyecto y volviendo a escuchar la historia, se pudo reconocer

Con esto en mente, se realizaron varias versiones de la música y se probaron varias

La disposición final para la grabación de la música fue la siguiente:

Figura 15, [Diagrama], Disposición de los músicos en el espacio. Creación propia.

Si bien se usó el micrófono Sennheiser Ambeo VR en esta grabación (ubicado a la altura

Proceso de grabación de ambientes y efectos:

Se optó por realizar un viaje cercano en Cundinamarca, y se realizaron las grabaciones

Figura 17, [Fotografía], Grabación de ambientes. Foto propiedad del autor.

Proceso de post producción:

En un principio se empezó a trabajar con la suite de Facebook 360, con la idea de

La búsqueda de programas para el montaje de audio inmersivo llevó a investigar sobre

6. Resultados del proyecto

Como parte de este proceso, se generaron los siguientes resultados:

● Capítulo piloto finalizado

Lo anterior presentado fue el proceso de producción de un podcast inmersivo. El paso a

También podría gustarte