Bmfcig 934 P

Universidad Austral de Chile
Facultad de Ciencias de la Ingeniería

Escuela de Ingeniería Civil Acústica
Profesor Patrocinante:
Ing. Jorge Cárdenas Mansilla
Instituto de Acústica
Profesor Co-Patrocinante:
Dr. José Luis Barros Rojas
Profesor Informante:
Ing. Luis Vidal Vidal.
“POSTPRODUCCIÓN DE AUDIO CON SONIDO

ENVOLVENTE 5.1 Y CODIFICACIÓN PERCEPTUAL”
Tesis para optar al grado de:

Licenciado en Acústica.
Y al Título Profesional de
Ingeniero Acústico.
CÉSAR JONATHAN GUERRA ORTIZ

VALDIVIA – CHILE
2013

AGRADECIMIENTOS
Quisiera agradecer a mi familia hermosa, los Guerra Ortiz y mi Abuelita Eliana que
siempre me han apoyado a traves de estos años.
A mi compañera Eliana, gracias por tu amor, apoyo y ayuda incondicional.
A todas las personas que de una u otra forma aportaron con este trabajo: Jonathan Guerrero,
Luis Saavedra, Luis Vidal, Jorge Cárdenas, Oscar Pilichi y Don Víctor Cumián.
Finalmente agradecer a Dios por sus bendiciones.

INDICE DE CONTENIDOS
1 INTRODUCCION ......................................................................................................... 1
2 OBJETIVOS .................................................................................................................. 2
2.1 OBJETIVO GENERAL ........................................................................................... 2
2.2 OBJETIVOS ESPECIFICOS ................................................................................... 2
3 ANTECEDENTES GENERALES ............................................................................... 3
3.1 ANTECEDENTES HISTORICOS .......................................................................... 3
3.2 LOCALIZACION DE ALTAVOCES EN UN SISTEMA 5.1. ............................... 6
3.3 ACÚSTICA PARA MONITOREO DE SONIDO ENVOLVENTE ....................... 9
3.4 ETAPAS EN LA REALIZACIÓN DE UNA POSTPRODUCCIÓN
DE AUDIO........................................................................................................................ 11
3.4.1 Creación y edición .............................................................................................. 12
3.4.2 Mezcla ................................................................................................................ 13
3.4.3 Codificación ....................................................................................................... 14
3.4.4 Reproducción ...................................................................................................... 14
3.5 FUNDAMENTOS DE MEZCLA MULTICANAL PARA SONIDO
ENVOLVENTE 5.1 .......................................................................................................... 14
3.5.1 Formas de abordar la mezcla .............................................................................. 15
3.5.2 Mezcla y mecánica del paneo ............................................................................. 15
3.6 CODIFICACION PERCEPTUAL DE AUDIO ..................................................... 17
3.6.1 Fenómenos auditivos utilizados en la codificación perceptual de audio ............ 19
3.6.1.1 Bandas Críticas............................................................................................ 19
3.6.1.2 Enmascaramiento simultáneo...................................................................... 19
3.6.1.3 Enmascaramiento temporal.. ....................................................................... 20
3.6.2 Codificación perceptual y códecs ....................................................................... 21
3.7 CODIFICACION DE AUDIO AVANZADA (AAC) ............................................ 22
3.7.1 Historia de la codificación MPEG audio ............................................................ 22
3.7.2 Visión general de la codificación MPEG AAC .................................................. 23
3.7.3 Codificación MPEG-1 Layer 3 ........................................................................... 23
3.7.3.1 Descripción general ..................................................................................... 24
3.7.3.2 Algoritmo .................................................................................................... 25
3.7.4 Codificación MPEG-2 Advanced Audio Coding ............................................... 26
3.7.4.1 Herramientas para mejorar la eficiencia de codificación ............................ 27
3.7.4.2 Herramientas para mejorar la calidad de audio. .......................................... 27
I

3.7.5 Codificación MPEG-4 AAC............................................................................... 28

3.7.6 Perfiles y niveles de codificadores MPEG ......................................................... 29
3.8 AUDIO Y TELEVISIÓN DIGITAL ...................................................................... 30
3.8.1 Televisión Digital y Codificación de audio con sonido envolvente ................... 30
3.8.2 Televisión Digital y audio en Chile .................................................................... 31
3.9 FUNDAMENTOS SOBRE FORMATOS PARA TRANSMISIÓN
DE DATOS CODIFICADOS ............................................................................................ 34
4 MATERIALES Y METODOS ................................................................................... 35
4.1 PREPRODUCCIÓN VIDEO ................................................................................. 35
4.1.1 Equipamiento ...................................................................................................... 35
4.2 POSTPRODUCCIÓN AUDIO CON SONIDO ENVOLVENTE 5.1 .................... 37
4.2.1 Equipamiento ...................................................................................................... 37
4.2.1.1 Aspectos generales del software Pro Tools HD 8. ...................................... 37
4.2.1.2 Aspectos generales de interfaces del sistema Pro Tools HD ...................... 39
4.2.1.2.1 Interface 192 I/O...................................................................................... 39
4.2.1.2.2 Superficie de Control D-command e interface XMON. .......................... 40
4.2.2 Acústica para monitoreo con sonido envolvente 5.1 .......................................... 42
4.2.2.1 Cálculo de tiempo de reverberación y ruido de fondo ................................ 43
4.2.2.2 Instalación de altavoces y calibración de niveles para monitoreo .............. 46
4.2.3 Descripción de la estación de trabajo ................................................................. 46
4.2.3.1 Conexiones del sistema. .............................................................................. 46
4.2.4 Operación de la estación de trabajo .................................................................... 49
4.2.4.1 Postproducción en software Pro Tools 8 HD. ............................................. 49
4.2.4.2 Creación y edición....................................................................................... 50
4.2.4.2.1 Efectos de sonido ..................................................................................... 50
4.2.4.2.2 Diálogos. .................................................................................................. 54
4.2.4.2.3 Música. .................................................................................................... 54
4.2.4.2.4 Ordenamiento de sesión durante la etapa de creación y edición.. ........... 55
4.2.4.3 Pre-mezcla (Pre-Mix) y mezcla final (Re-recording Mix). ......................... 56
4.2.4.3.1 Formato de Bounce.................................................................................. 61
4.3 CODIFICACIÓN ................................................................................................... 61
4.3.1 Aspectos generales software Compressor .......................................................... 61
4.3.2 Codificación mediante software compressor...................................................... 63
4.4 TRANSCODIFICACIÓN Y TRANSMISIÓN ...................................................... 66
4.4.1 Aspectos generales software VLC...................................................................... 67
4.4.2 Transcodificación y transmisión mediante software VLC ................................ 68
II

5 DISCUSIÓN DE RESULTADOS Y CONCLUSIONES ......................................... 75

6 BIBLIOGRAFIA ......................................................................................................... 79
7 ANEXO ......................................................................................................................... 82
7.1 ANEXO 1 ............................................................................................................... 82
7.1.2 Manejo de bajos o Bass Management ................................................................ 82
7.2 ANEXO 2 ............................................................................................................... 83
7.2.1 Norma ISDB-T ................................................................................................... 83
III

RESUMEN
El siguiente documento describe el proceso completo de la postproducción de audio en

sonido envolvente desde su etapa inicial hasta la obtención del archivo multimedia final.
Para ello, se efectúa una revisión bibliográfica correspondiente sobre recomendaciones para
la disposición de los altavoces, acústica para monitoreo de sonido envolvente 5.1, formas
de abordar la mezcla y formatos de codificación basados en la codificación perceptual de
audio.
Posteriormente, se evalúa la acústica de la sala de monitoreo, se realiza la instalación del

equipamiento necesario y se lleva a cabo el proceso de postproducción en DAW (Digital
Audio Workstation) para sonido envolvente.
Una vez finalizada la postproducción, se comprimen los archivos de audio mediante el

formato de codificación MPEG-AAC, y se realiza una transmisión multimedia en tiempo
real a través de Internet. La elección de éste algoritmo, tiene como propósito dar a conocer
el formato de codificación utilizado en el estándar ISDB-T elegido por Chile para televisión
digital y evaluar su comportamiento en la compresión de archivos audiovisuales.
Palabras Claves: Audio, envolvente, postproduccion, codificación, perceptual.
IV

ABSTRACT
This document describes the entire process of surround sound audio post-production, from
initiation to completing the final multimedia file. To do this, the author reviewed relevant
literature on recommendations for speaker layout, acoustics for surround sound monitoring,
sound mixing approaches, and encoding formats based on perceptual audio coding.
Subsequently, the acoustics of the monitoring room are evaluated, the necessary equipment
is installed, and the audio post-production process for surround sound is performed in
DAW (Digital Audio Workstation).
After post-production, audio files are encoded in MPEG-AAC format, and the media is
streamed in real-time over the Internet. The choice of this algorithm aims to raise
awareness of the encoding format used in the ISDB-T standard chosen by Chile for digital
television, and to evaluate its performance in audiovisual file compression
Key Words: Audio, surround, post-production , encoding, perceptual.
V

VI

1 INTRODUCCION
El sonido multicanal tiene una historia que data del año 1930. Muchos han sido los
desarrollos tecnológicos desde entonces y en la actualidad se ha convertido en estándar para
la cinematografía, televisión digital y se puede escoger como alternativa para grabaciones
musicales de estudio.
La producción de sonido envolvente, ya sea para Cine o archivos multimedia, tiene por
objetivo crear un ambiente sonoro de inmersión para el espectador, más allá del típico
sonido monofónico o estéreo. Para esto, se sigue una estructura bien definida bajo
recomendaciones que tienen como finalidad convertir al sonido envolvente en un
complemento de la imagen y no desviar la atención de esta.
Hoy en día, el sonido envolvente puede llegar a los hogares a través de soportes como
DVD, Blu-ray1, SACD (Super Audio Compact Disc) y a través de Televisión Digital por
cable o vía terrestre (televisión digital abierta). Para lograr esto, se han desarrollado
tecnologías de compresión con el objetivo de reducir el tamaño de datos, causando la
menor perdida en la calidad de audio y video. De esta forma, se puede almacenar y/o
transmitir imágenes de alta definición y múltiples pistas de audio para el sonido envolvente,
en un espacio de almacenamiento y/o ancho de banda limitado.
En este trabajo se realizará una postproducción de audio con sonido envolvente desde su
inicio hasta la etapa final de codificación. Además, se presenta el uso del formato de
compresión para audio MPEG-AAC (Advanced Audio Coding), que se basa en la
codificación perceptual de audio.

1
Blu-ray ocupa codificación sin pérdida como Dolby TrueHD.
1

2 OBJETIVOS
2.1 OBJETIVO GENERAL
Realizar la postproducción de audio de una producción audiovisual con formato de sonido

envolvente 5.1.
2.2 OBJETIVOS ESPECIFICOS
1) Determinar y describir las etapas a seguir en la realización de una post-producción de

audio con sonido envolvente para material audiovisual.
2) Describir las formas de abordar una mezcla de audio con sonido envolvente.
3) Describir los formatos de codificación de audio basados en la codificación perceptual
de audio y su utilización en la postproducción de audio con sonido envolvente.
4) Evaluar las condiciones de la sala de mezcla, según recomendaciones internacionales
sobre acústica para monitoreo de sonido envolvente.
5) Producir un archivo multimedia con sonido envolvente, codificando el audio con
AAC (Advanced Audio Coding), como vinculación con los formatos de codificación
de Televisión digital.
6) Evaluar el comportamiento del códec de audio en una transmisión de prueba a través
de Internet.
2

3 ANTECEDENTES GENERALES
3.1 ANTECEDENTES HISTORICOS
El sonido envolvente tiene una historia que data del año 1930 cuando se introdujo por
primera vez la idea del estéreo por los ingenieros de Bell Labs. Para la demostración
describieron un sistema estereofónico de 3 canales, incluyendo sus fundamentos
psicoacústicos y la reconstrucción de la onda de sonido frontal, lo cual es el corazón de los
nuevos desarrollos en el sonido multicanal hoy en día. Estos ingenieros concluyeron que
era conveniente tener un número infinito de altavoces y que los tres altavoces (izquierdo,
central y derecho) eran una aproximación “práctica” que representaba el número infinito
[1].
La idea de agregar surround (sonido envolvente) al estéreo frontal surgió en la industria del
cine pero en el contexto de grabación musical. Fue así, como entre los años 1938 a 1941 los
estudios Disney crearon Fantasound para la película Fantasía. Esta se proyectó junto con
tres canales frontales y dos canales para sonido envolvente, muy cercano al sistema de
sonido envolvente ocupado hoy en día [1].
Durante la segunda guerra mundial se introdujeron nuevos desarrollos tecnológicos que
serian ocupados por la industria del cine. Fue así como a inicios de1950, 20th Century Fox
fundó el mercado convencional de películas, combinando el sistema Cinemascope (sistema
de filmación caracterizado por el uso de imágenes amplias en las tomas de filmación) con
el uso de 4 pistas puestas en los bordes de las cintas magnéticas, dando origen al primer
formato multicanal que fue utilizado en múltiples producciones cinematográficas [1].
Este formato multicanal contaba con tres canales frontales y un canal surround [1]. Sin
embargo, su alto costo puso fin este tipo de grabación para filmes, y los desarrollos de
sistemas para el hogar dominaron por los siguientes 20 años, desde 1955 hasta 1975.
El sonido estéreo llegó al hogar como una simplificación de la práctica en las salas de cine.
La reproducción de dos canales estéreo se masificó con la introducción del LP estéreo, y
otros formatos como Radio FM estéreo, casetes y finalmente el CD siguieron la línea
establecida por el LP [1].
La era Cuadrafónica de finales de los 60’ hasta inicios de los 70’, trató de entregar 4 señales
a través de los dos tracks del LP usando matrices basadas en las relaciones de amplitud y
fase entre canales. Esta iniciativa fracasó por la existencia de tres formatos compitiendo en
el mercado, la resistencia del consumidor a poner más altavoces en sus salas y por último
las distintas percepciones en el uso del formato según los diferentes productores de la
industria del audio.
3

A mediados de 1970 el cine experimenta una reactivación gracias a nuevos desarrollos. El

primero de estos permitió grabar cuatro canales de información en una pista óptica de
sonido que solo tenía espacio para dos. Para esto se ocupo una matriz de amplitud y fase
proveniente de la usada en los sistemas cuadrafónicos, pero actualizada para usarla en los
filmes.
Dolby estéreo fue una mejora fundamental para el sonido óptico de filmes, combinando
frecuencia y rango dinámicos más amplios a través de reducción de ruido. Además a través
de la matriz entregaba 4 canales contenidos en dos pistas.
A finales de la década del 70’ los productores del film Star Wars junto con el personal de
Dolby se percataron que el headroom2 de baja frecuencia en la mayoría de los teatros
existentes, no era suficiente para presentar los efectos de sonido de la “batalla en el
espacio”. Reconfigurando los canales del formato de 70 mm los ingenieros crearon un
nuevo sistema que consistía en tres canales frontales (o de pantalla), un canal para sonido
envolvente (surround) y un canal denominado “baby boom”, el cual emitía sonido de baja
frecuencia para lograr un mayor headroom. Este nuevo sistema, probó ser una buena
técnica pues se requiere mayor energía a frecuencias bajas para sonar a igual nivel que las
frecuencias medias. Seis meses después de Star Wars, se estrenó la película “Encuentros
cercanos del tercer tipo” donde se ocupó por primera vez un sub-woofer dedicado a bajas
frecuencias, con lo cual el sistema se volvió un estándar [1].
Dos años después, la película “Superman” fue el primer filme en separar el canal surround
en dos, seguida por “Apocalipse now”. Ambos filmes ocuparon tres canales frontales, dos
canales traseros de sonido envolvente y el canal para bajas frecuencias, lo más cercano al
5.1 como lo conocemos hoy en día.
En 1987, un subcomité de la Society of Motion Picture and Television Engineers (SMPTE)

se propuso poner sonido digital en los filmes. En una serie de reuniones y documentos
emanados de este comité, el sistema 5.1 emerge como la mínima cantidad de canales que
crearía la sensación de sonido envolvente del nuevo sistema [1].
Así, a finales de la década de los 80 las entidades creadoras de estándares incluyendo AES,
SMPTE, ITU, EBU y MPEG llegaron a converger en la creación de un estándar. Así nació
el sistema 5.1 como el estándar de sonido envolvente, también conocido como 3/2/1, el cual
consiste en 3 canales frontales: izquierdo, central y derecho; 2 canales traseros: izquierdo
surround y derecho surround; y un canal denominado 0.1 dedicado a la reproducción de
efectos de baja frecuencia [2].

2
Headroom en este contexto se refiere a la capacidad de amplificadores y altavoces para
entregar sonido de baja frecuencia antes de exceder su máxima potencia.
4

El audio digital que hasta el momento estaba presente en los discos compactos (CD) se
encontraba codificado en Linear PCM (Pulse code modulation). El espacio disponible
físicamente en la cinta de 35 mm no daba abasto para la magnitud de datos de 6 canales
discretos codificados en Linear PCM que ascendía a un ancho de banda de 4324320 bits/sec
o 4,3 Mbps y esto sin considerar la información extra que debe contener un formato de
audio digital. Por lo tanto, para reducir la tasa de datos sin causar pérdidas aparentes en la
calidad del sonido, se crearon los siguientes formatos de codificación: Dolby SR-D
(Spectral Recording Digital) también conocido como Dolby Digital, Digital Theater
Systems (DTS), y Sony Dynamic Digital Sound (SDDS) [1][2].
Cada uno de estos formatos tiene una forma particular de funcionamiento en la cinta de 35
mm. Por ejemplo Dolby SR-D es grabado en la cinta en bloques de 78 bits x 78 bits entre
cada perforación a lo largo del borde del film. Existen 4 perforaciones por cuadro y 24
cuadros por segundo. Multiplicando 78 x 78 x 4 x 24 nos da 584064 bits/sec, que es
aproximadamente 1/7 de lo requerido solo para el audio, sin contar correcciones de error y
sincronización. Sin embargo, mientras otros medios podrían haber sido utilizados, tales
como usar otras partes del film o usar los samples de sonido en otros medios, los ingenieros
de Dolby Labs eligieron trabajar con este espacio por razones prácticas. La carga de datos
utilizada fue de 320 kbps que es 1/13.5 de la representación en Linear PCM [1].
Para lograr tal reducción de datos sin pérdida aparente en la calidad de audio se utiliza la
codificación perceptual que será tratada más adelante en este documento.
Figura 1. Formatos de audio en filme de 35 mm [2].
5

A principios de la década de 1990 se estandarizó el uso del sonido envolvente 5.1 para la
televisión digital. Esto ocurrió principalmente debido a que el audio puede operar a bajas
tasas de transferencia de bits o bit rate.
La norma de Televisión Digital ATSC en Norteamérica inició sus transmisiones

oficialmente en el año 1998 y se eligió Dolby Digital AC-3 como el método de codificación
de audio, lo que llevó a este códec a convertirse en estándar, primero para el Laser Disc y
luego para el DVD-Video. Posteriormente aparece DTS para Laser disc y DTS y MPEG
para DVD-Video [1].
En Japón el estándar de televisión digital ISDB se desarrolló desde los años 80 y comenzó
sus transmisiones en el año 2000. El método de codificación de audio de este estándar es
AAC (Advanced Audio Codec) de la “familia” MPEG el cual es considerado el estado del
arte en codificación perceptual de audio para sonido multicanal. En nuestro país, la norma
ISDB ha sido elegida para la implementación de la televisión digital terrestre, utilizado el
códec de audio MPEG-4 AAC, el cual es una extensión del MPEG-2 AAC utilizado en
Japón [26].
En la actualidad con la aparición de nuevos formatos de discos como el Blu-ray y el HD-

DVD, los formatos de codificación han evolucionado para entregar audio sin pérdida, lo
más cercano a la calidad obtenida originalmente en el estudio. Así nace por ejemplo el
formato Dolby True HD, que entrega audio a 96 Khz de frecuencia de muestreo a 24 bits,
lo cual ocupa un ancho de banda de hasta 18 mbps [23]. Estos formatos no son material de
estudio para este trabajo, pues no son utilizados en transmisiones por Internet o televisión
digital por el ancho de banda que requieren.
3.2 LOCALIZACION DE ALTAVOCES EN UN SISTEMA 5.1.
En este trabajo, la localización de los altavoces en una sala de mezcla 5.1 proviene de la
recomendación ITU-R BS.775 (1992). En esta configuración los 5 altavoces se colocan en
un plano horizontal alrededor del oyente a una altura aproximada de 1,2 mts (altura de los
oídos), formando una circunferencia. El parlante central se encuentra en el eje medio, el
cual se estableció como 0º. Los altavoces L y R se ubican en las posiciones -30º y +30º
respectivamente con respecto al eje medio. Los altavoces traseros Ls (Izquierdo surround)
y Rs (Derecho surround) se posicionan en ángulos entre -100º y -120º (para Ls) y entre
+100º y +120º (para Rs). Estos ángulos fueron determinados por pruebas de escucha, que
establecieron las posiciones que dan la mayor sensación de sonido envolvente (ver figura 2)
[13] [18].
Con respecto al canal de sub-bajo o LFE (Low Frequency Effects o efectos de baja
frecuencia), la recomendación no determina un lugar específico, sólo depende de las
características de la sala donde este emplazado el arreglo 5.1. También se recomienda que
no todo el contenido esencial de bajas frecuencias este dirigido hacia el canal LFE, sino que
6

sea opcional y sea sólo una especie de refuerzo. Cabe mencionar que la mayoría de los
sistemas Home Theater caseros poseen un manejo de bajos o Bass Management (Ver anexo
1) el cual realiza una suma del contenido de baja frecuencia de los altavoces superiores y lo
envía al sub-bajo sumado con el contenido LFE. Por lo tanto, es recomendable que el
sistema de audio en el estudio posea también este manejo de bajos al preparar material para
consumo casero.
Figura 2. Ubicación de altavoces según recomendación ITU-R BS.775 [18].
Aparte de la disposición de los altavoces según recomendación ITU-R BS.775, existen

otros tipos de configuraciones que son adoptadas en estudios de mayor envergadura. Para
estos casos es posible que se necesite de una calibración diferente, pues los altavoces
frontales deben entregar mayor nivel (ver figura 3 y 4).
7

Figura 3. Disposición de altavoces alternativa para acomodar clientes [22].
Figura 4. Disposición de altavoces en sala de mayor envergadura [22].
8

3.3 ACÚSTICA PARA MONITOREO DE SONIDO ENVOLVENTE
En acústica para monitoreo de sonido envolvente existen recomendaciones que deben ser
tomadas en cuenta a la hora de construir un estudio o preparar una estación de trabajo, para
así obtener una mezcla final de calidad.
Las recomendaciones sugeridas en el libro de Tomlinson Holman, 5.1 Surround Sound: Up

and Running [1], para implementar un estudio de sonido envolvente 5.1 son las siguientes:
– Del organismo International Telecommunication Union (ITU): ITU-R BS.1116

(www.itu.ch) [BS.1116-1 (10/97)] Methods for the subjective assessment of small
impairments in audio systems including multichannel sound systems. Traducido al
español: “Métodos para la evaluación subjetiva de pequeñas deficiencias en sistemas
de audio, incluyendo sistemas de sonido multicanal”.
– Del organismo European Broadcasting Union (EBU): EBU Rec. R22 (www.ebu.ch).
EBU Rec. R22 - 1997. Listening conditions for the assessment of sound programme
material. Traducido al español: “Condiciones de escucha para la evaluación de
material sonoro”.
De las dos recomendaciones anteriores se desprende el documento presentado en Mayo de
1998 en la 104 convención de la AES, por Robert Walker perteneciente a BBC Research
and Development Tadworth UK, que trata el diseño e implementación de una sala destinada
a satisfacer ambos requerimientos: “A controlled-Reflection Listening Room for Multi-
Channel Sound” por Robert Walker, AES Preprint 4645. Traducido al español: “ Sala de
escucha con control de reflexiones para sonido multicanal”.
Un punto importante sobre las recomendaciones ITU y EBU es que son prácticamente
idénticas con solo mínimas diferencias.
Los aspectos más importantes planteados para la sala en estas recomendaciones son la
relación entre las proporciones, la planta, la disposición de los altavoces, tiempo de
reverberación , ruido de fondo y reflexiones tempranas.
Con respecto a las proporciones y el tamaño de la sala, se recomienda tener una planta o
área del piso de 30 a 70 m2 de forma rectangular o trapezoidal. Además para asegurar una
distribución uniforme de los modos normales se deben cumplir las siguientes relaciones
entre las proporciones:
1.1*(w/h) < (l/h) < 4.5*(w/h)-4 (1)
Donde:
l: lenght (largo)
9

w: width (ancho)
h: height (alto)
Adicionalmente, deben ser cumplidas las condiciones:
l/h < 3 (2)
w/h < 3 (3)
Con respecto al tiempo de reverberación, el valor promedio de reverberación, Tm, medido

sobre el rango de frecuencia de 200 Hz a 4 kHz debe ser:
Tm = 0,25(V/V0)1/3 s. (4)
Donde:
V= Volumen de la sala.
V0= Volumen de referencia de 100 m3.
Las tolerancias aplicadas a Tm sobre el rango de frecuencias de 63 Hz a los 8 kHz son

dados en la figura 5. Estas tolerancias medidas a partir del valor ideal Tm son rangos dentro
de los cuales debe estar el tiempo de reverberación real de la sala, con respecto a esto se
realiza el tratamiento acústico para controlarlo. También se aclara en la recomendación que
existen dificultades en medir bajo tiempo de reverberación en frecuencias bajas.
Figura 5. Gráfico de límites de tolerancias de tiempo de reverberación, relativos al valor

promedio Tm [17].
10

Las reflexiones tempranas causadas por las superficies límites en la sala de monitoreo, que
alcancen el área de escucha dentro de los 15 ms después del sonido directo, deben estar
atenuadas en el rango de 1 a 8 kHz en al menos 10 dB relativos al sonido directo.
El ruido de fondo continuo (producido por aire acondicionado, equipamiento interno u otras
fuentes externas), medido en el área de escucha a una altura de 1,2 mts por sobre el suelo,
preferentemente no debe exceder NR 10.
Bajo ninguna circunstancia el ruido de fondo debe exceder NR 15.
El ruido de fondo no debe ser perceptiblemente impulsivo, cíclico o de naturaleza tonal.
3.4 ETAPAS EN LA REALIZACIÓN DE UNA POSTPRODUCCIÓN

DE AUDIO
Ya sea en un estudio de nivel mundial, o una persona trabajando en un home- estudio, el

trabajo de postproducción debe llevar un orden bien establecido, el cual divide en etapas
bien marcadas la postproducción y facilita el trabajo en equipo. Se pueden distinguir cuatro
etapas principales dentro de una producción de audio para material audiovisual, cada una de
las cuales su vez contiene partes bien definidas [29] (ver figura 6):
– Creación y edición: Esta etapa incluye la creación de efectos de sonido (diseño de

sonido), la grabación de diálogos y música.
– Mezcla: pre-mezcla (premix) y mezcla final (re-recording mix).
– Codificación: Es el proceso de codificar el audio dependiendo de su uso posterior.
– Reproducción: Exhibición.
11

Figura 6. Etapas en la postproducción de audio (adaptado de esquema [29]).
3.4.1 Creación y edición
– Efectos de sonido
– Diseño de sonido: Es el proceso de crear, seleccionar y editar sonidos para
cumplir los requerimientos que presenta la imagen. Esto significa tratar los
sonidos con los efectos (plug-ins) disponibles para crear sonidos para cosas que
no existen o son muy difíciles de grabar, como el sonido de una nave espacial o
el choque de un barco contra un iceberg.
– Grabación de efectos de sonido: A menudo los sonidos más realistas provienen
de fuentes originales que pueden ser grabados en locaciones o en el estudio. Las
grabaciones, por ejemplo, de una metralleta, explosiones o una persecución de
autos, requieren un equipo de producción que trabaje en conjunto con el editor
o encargado de grabación de efectos de sonido para producir estos sonidos en la
vida real. Los profesionales a cargo, deben estar preparados en la parte técnica
que implica el proceso de grabación para evitar de esta forma, daños sobre el
equipamiento.
12

– Foley: Los artistas de foley tienen la tarea de grabar una variedad de sonidos
comunes y de bajo nivel, como por ejemplo sonido de pasos o de la ropa al
moverse. Esto debido a que no todos los sonidos de este tipo pueden ser bien
captados grabando la acción real al actuar. Los artistas de foley crean la parte
sutil del sonido haciendo todo más creíble, creando diminutos detalles que otros
no notan, como la diferencia entre una pisada de pie derecho e izquierdo.
– Diálogos.
– Dialogo de producción: Es el dialogo grabado por sonido directo durante la
filmación, en locación o en sound stage (Galpón o sala grande con aislamiento
acústico, para grabar escenas de películas).
– ADR (Automated sound replacement/ recording): Es la grabación de diálogos

que no fueron bien captados por el micrófono o ya estaba planeado grabarlos en
la etapa de ADR. Para lograr esto, el actor realiza una re-lectura del guión en un
estudio de postproducción mirando la imagen para sincronizar la grabación e
imitando la intensidad con que fue grabado originalmente. Con esto se obtiene
una grabación más inteligible y clara que la grabada en terreno o en sound
stage.
– Música.
– Música original o scoring: Es la música compuesta especialmente para la

película, usualmente se ocupan orquestas en las grandes producciones, pero con
los avances y también por motivos de presupuesto, se ha vuelto muy común
ocupar música creada en MIDI o mezclada con pequeñas orquestas.
– Música de fuente (Source Music): Es música previamente creada que es elegida

para la película, como por ejemplo, un tema romántico pop para una escena de
amor. Generalmente, la música es re-masterizada de las cintas originales.
3.4.2 Mezcla
– Pre-mezcla (premix). Debido a la gran cantidad de pistas individuales, la mayoría de

los Films realiza una pre-mezcla de los tres elementos principales de la pelicula:
efectos, diálogos y música. La pre-mezcla produce un archivo multipista con todos
los sonidos sincronizados y balanceados para encajar en la mezcla final.
– Mezcla final (re-recording mixing). Todos los elementos de la película son

combinados, balanceados y paneados para obtener la mezcla final en sonido
envolvente. Para grandes producciones esta tarea se realiza en un re-recording stage
(estudio de mezcla final) también llamado dubbing stage. En esta etapa también se
13

crean mezclas con diálogos, música y efectos separados, estas mezclas son llamadas
stems y son creadas para exhibición en otros idiomas, trailers, transmisiones
televisivas y formatos para ver en el hogar.
3.4.3 Codificación
Esta etapa podría no considerarse como parte de la postproducción de audio en sí, pues se
realiza después de obtener la mezcla final. Sin embargo, en producciones de menor
envergadura, la codificación es realizada también por el ingeniero encargado de la
postproducción de audio.
El formato de codificación elegido dependerá de la forma de exhibición. Por ejemplo, una

codificación para cine y/o DVD lleva formatos como Dolby Digital y DTS. En cambio, si
el material es preparado para televisión digital, se ocupan otros formatos de codificación
como por ejemplo MPEG.
3.4.4 Reproducción
– Exhibición. El sonido es reproducido en el cine o en otro tipo de exhibición,

generalmente con sonido envolvente 5.1 o 7.1 Dolby Surround. Organizaciones de la
industria como la SMPTE y Digital Cinema Initiatives (DCI) proporcionan las
especificaciones técnicas para asegurar una experiencia de alta calidad en las salas de
exhibición. Estas directrices incluyen el nivel de reproducción y las especificaciones
de ecualización en los cines y salas de mezcla final (re-recording stages), así como
los requisitos generales para cine digital, que es la nueva tendencia.
También el material puede ser exhibido a través de televisión en un broadcasting

digital, donde puede ser codificado en AAC con sonido envolvente como en el
estándar ISDB-t.
3.5 FUNDAMENTOS DE MEZCLA MULTICANAL PARA

SONIDO ENVOLVENTE 5.1
Mezclar sonido envolvente en multicanal puede parecer más difícil que mezclar en dos
canales estéreo. Sin embargo, es más fácil debido a que existen más fuentes para “mostrar”
el contenido. Por ejemplo, al realizar la mezcla final en sonido estéreo se trata de obtener la
más completa sonoridad para distinguir todas las partes o instrumentos. Se deben aplicar
compresiones y ecualizaciones en un proceso interactivo para que las interpretaciones se
puedan escuchar y no exista interferencia entre ellas.
En sonido multicanal existen más fuentes o canales operando, por lo tanto una mayor
posibilidad de escuchar múltiples fuentes o señales a la vez. En consecuencia, se puede
14

decir que mezclar sonido multicanal es más fácil de lo que parece, aunque la mecánica de
paneo y ruteo puede resultar más complicada por la cantidad de canales [1].
3.5.1 Formas de abordar la mezcla
La primera decisión respecto a la mezcla, previo a comenzar el paneo de los elementos que
conforman la banda sonora, es la perspectiva con que se desea trabajar: directo/ambiente
(direct/ambient) o directo/sonido alrededor (direct/sound all around). El aproximamiento
directo/ambiente busca producir un campo de sonido que es percibido como “estar allí”,
mostrando un evento ocurrido en frente del auditor, con sonidos ambientales como
reverberación, ambiente y aplausos producidos alrededor (en el caso de videos de música
en vivo) [1].
Un ejemplo de la perspectiva directo/ambiente, es la película “Rescatando al Soldado

Ryan”, donde se reproduce el desembarco en Normandía. Si se pretendiera abordar este
tipo de mezcla, se tendería a pensar que en el caos de una batalla, los sonidos de disparos
provienen de diferentes direcciones. Sin embargo, la mezcla no se aborda de esta manera.
Al escuchar sólo los altavoces surround (Ls, Rs) y silenciar los frontales (L, C, R),
podemos notar que la mayoría del sonido emitido es ambiental, como explosiones lejanas,
silbidos de balas y aviones pasando a lo lejos. Por otro lado, los sonidos “fuertes” como
disparos de armas y explosiones cercanas son provenientes de los altavoces frontales. Esta
perspectiva directo/ambiente de abordar la mezcla es muy común pues radica en que el
sonido surround debe ser un complemento de la imagen y no desviar la atención del
espectador.
El segundo aproximamiento es llamado directo/sonido alrededor (direct/sound all around).

Es decir, el sonido es puesto alrededor del oyente teniendo una perspectiva “en medio de la
banda” (“middle of the band”) y es utilizado generalmente en sonido envolvente para
música (usualmente sin video). Complica algo mas la mezcla, pues los instrumentos
paneados entre los altavoces frontales y traseros están sometidos a inestabilidad en su
imagen y espectralmente suenan “divido en dos”, por esto no es recomendable panear de
esta manera los instrumentos o fuentes primarias [1].
3.5.2 Mezcla y mecánica del paneo
En general la mezcla se realiza de forma normal, controlando los niveles por medio de los
faders de tal manera de evitar saturación y logrando reproducir todo con claridad según los
requerimientos que se deban cumplir. Sin embargo, la existencia del paneo en surround y
sus diferentes parámetros pueden llevar a subidas de nivel no deseadas si se desconoce su
funcionamiento.
15

Existen tres tipos de paneos para mezclas en sonido envolvente. El primero de ellos es el de
consolas de mezcla de formato extendido, el cual consiste en tres potenciómetros: L/C/R
(left-center-right), F/S (front-surround) y LS/RS (left surround-right surround). Este
sistema es relativamente fácil de usar, pues se deben dejar dos potenciómetros fijos y
realizar el paneo en el tercer potenciómetro. Por ejemplo, si deseamos realizar un paneo
desde el altavoz frontal izquierdo (front left) al derecho surround (right surround), debemos
mover el potenciómetro L/C/R hacia la izquierda y el potenciómetro LS/RS hacia RS (right
surround). Posteriormente, realizar el paneo en el potenciómetro F/S desde frontal (F) a
surround (S) cuando la imagen lo requiera [1].
El segundo tipo de paneo se realiza a través de un Joystick de estilo video juegos que
mueve el sonido a través de los altavoces. Con este controlador se puede lograr mejor
movimiento, pero tiene la desventaja de no saber con precisión donde está siendo paneado
el sonido. Además, este tipo de controlador manda la señal simultáneamente a todos los
canales cuando está en el centro, lo que produce que el auditor sienta que el sonido viene
del altavoz que se encuentra más cercano, lo cual no es recomendable [1].
El tercer tipo de paneo es el basado en DAW (Digital Audio Workstation). Este sistema
muestra en pantalla un plano horizontal del arreglo 5.1 (ver figura 7). Mediante un punto
virtual se señala en la imagen el origen del sonido dentro del arreglo surround. Este punto
se puede mover de diferentes maneras, utilizando desde un mouse hasta potenciómetros de
superficies de control para el software de edición, haciéndolo más intuitivo y preciso.
Figura 7. Paneo digital multicanal de Software DAW.
16

Otros controles adicionales a la mecánica del paneo son la divergencia y foco. El control
de divergencia sube progresivamente el volumen en los canales cercanos al canal hacia el
cual esta paneado el sonido (que esta al máximo nivel), con el fin de proveer una fuente de
sonido más “grande”.
El control de foco (focus control) es prácticamente el mismo concepto de la divergencia

pero mejor desarrollado. Por ejemplo, cuando un sonido es paneado al altavoz central y el
control de foco empieza a ser aumentado desde cero, primero el sonido es agregado a los
altavoces izquierdo y derecho, y luego a un nivel más bajo se agrega a los altavoces
surround. Si el sonido es paneado, el foco mantiene la relación de nivel entre altavoces [1].
3.6 CODIFICACION PERCEPTUAL DE AUDIO
Existen muchos métodos para la reducción de bits en audio. Como regla general se puede
decir que los que tienen un monto de reducción menor ocupan métodos basados en formas
de onda, en cambio aquellos que ocupan cantidades altas de reducción emplean
psicoacústica para alcanzar el objetivo de compresión eficiente pero inaudible, lo que es
llamado codificación perceptual de audio [1] [8].
La tarea básica de un sistema de codificación perceptual de audio es comprimir los datos de

audio digital de tal manera que:
– La compresión sea lo más eficiente posible, es decir, los datos comprimidos sean lo
más pequeño posible.
– El audio reconstruido (decodificado) suene exactamente igual (o lo más cercano) al

audio original antes de la compresión.
La codificación perceptual es una técnica de compresión con pérdida, es decir, el archivo

decodificado no es una réplica, en términos de bits, de los datos de audio original. Los
codificadores perceptuales han sido un tópico de investigación desde finales de los años
70`, logrando mayor dinamismo a partir de 1986 [8].
La codificación perceptual de audio hace uso del fenómeno de enmascaramiento, donde los
sonidos con mayor nivel cubren o “enmascaran” los de menor nivel, especialmente si se
encuentran cercanos en frecuencia, lo que es llamado enmascaramiento por frecuencia. Los
sonidos con mayor nivel no solo afectan los de menor nivel que se presentan
simultáneamente, sino también enmascara sonidos que preceden o suceden, esto es llamado
enmascaramiento temporal. Estos fenómenos son ampliamente aprovechados en la
codificación para lograr que en cada banda de frecuencia analizada la información
resultante sea la que el oído tiene mayores probabilidades de detectar.
17

En efecto, la calidad de uno u otro formato de compresión radican en el depuramiento de

las operaciones matemáticas necesarias para lograr el máximo rendimiento de compresión
en cada banda de frecuencia sin alterar perceptiblemente la información audible. Sacando
ventaja de estas características de la audición humana, el audio puede ser codificado de
manera mucho más eficiente y el audio codificado es prácticamente indistinguible de la
señal original para un auditor común [1] [4].
La figura 8 muestra un diagrama de los bloques básicos de un sistema de codificación

perceptual de audio.
Figura 8. Diagrama de bloques de un sistema de codificación/decodificación perceptual de

audio [8].
El sistema consiste en los siguientes bloques [8]:
– Banco de filtros. Un banco de filtros es usado para descomponer la señal de entrada

en componentes espectrales submuestreados (dominio tiempo-frecuencia). Es decir,
los componentes ya transformados al dominio de la frecuencia vuelven a ser
muestreados a una diferente tasa de muestreo para cada sub-banda. Este modulo en
conjunto con el banco de filtros del decodificador forman un sistema de análisis-
síntesis.
– Modelo Perceptual. Basándose tanto en la señal de entrada (dominio del tiempo)

como en la señal de salida del banco de filtros (dominio de la frecuencia), se estima
un umbral de enmascaramiento (dependiente de frecuencia y tiempo) usando reglas
de la psicoacústica. A esto se le llama el modelo perceptual del sistema de
codificación perceptual.
18

– Cuantización y codificación. Los componentes espectrales son cuantizados y

codificados con el objetivo de mantener el ruido (introducido por la cuantización) por
debajo del umbral de enmascaramiento. Dependiendo del algoritmo, este paso es
llevado a cabo de diferentes formas.
– Conformación de la corriente de bits (Encoding of bitstream). Un formateador es

usado para armar la corriente de bits, la cual consiste típicamente en los coeficientes
espectrales codificados e información secundaria, como por ejemplo la información
de asignación de bits.
3.6.1 Fenómenos auditivos utilizados en la codificación perceptual de audio

3.6.1.1 Bandas Críticas. La percepción auditiva de la frecuencia comienza en el oído
interno, en la cóclea, específicamente en la membrana bacilar. Esta membrana vibra en
forma de ondas de flexión, por lo tanto aparecen fenómenos de dispersión y de variación de
la velocidad de propagación de la onda mecánica en función de la frecuencia producto de
un gradiente de rigidez a lo largo de la membrana. Dicho de otra forma, existe una relación
entre la frecuencia y la posición sobre la membrana bacilar que no es lineal. Por lo tanto, el
espectro de frecuencia de este sistema acústico-sináptico es representado por un número
limitado de bandas de frecuencias llamadas bandas criticas [7] [28].
Considerando las bandas criticas, nuestro sistema auditivo puede ser descrito como un
banco de filtros pasabanda. Las respuestas de estos filtros se superponen y los anchos de
banda son del orden de 100 Hz para señales bajo los 500 Hz y de 5000 Hz para frecuencias
más altas. Entre 24 y 31 bandas críticas son usualmente tomadas en cuenta en el rango de
frecuencias audibles. A partir de los 500 Hz el ancho de banda de una banda crítica tiende a
aumentar conforme aumenta la frecuencia [7].
3.6.1.2 Enmascaramiento simultáneo. Se define enmascaramiento, como el

desplazamiento en el umbral de audición de un sonido debido a la presencia de otro. Los
fenómenos de enmascaramiento tienen lugar cuando dos sonidos son simultáneos y
cercanos en frecuencia (ver figura 9).
El enmascaramiento simultáneo se manifiesta en el dominio de la frecuencia, donde una

señal de bajo nivel es hecha inaudible por la presencia de otra señal simultánea de mayor
nivel, si ambas señales están suficientemente cerca en frecuencia. Se cree que este
fenómeno posee su explicación física en la vibración de la membrana bacilar y en los
receptores auditivos situados en la membrana. Para frecuencias altas la membrana vibra
más cerca del comienzo de ella. Para frecuencias bajas vibra hacia su extremo terminal
tendiendo a vibrar como un todo [7] [28].
El umbral de enmascaramiento puede ser medido como el nivel bajo el cual ninguna señal
será audible. Este umbral depende del nivel de presión sonora y de la frecuencia de la señal
19

que enmascara y de las características de ambas señales. La pendiente de la curva del

umbral de enmascaramiento aumenta hacia las bajas frecuencias, esto quiere decir que es
más fácil enmascarar con tonos de frecuencia más alta.
En la práctica, si la señal enmascarada consiste en varias señales distribuidas en el espectro

de frecuencias, un umbral global de enmascaramiento debe ser calculado. Este describirá el
umbral de audibilidad de las distorsiones en función de la frecuencia. El cálculo de este
umbral global se basa en el análisis espectral de la señal y la utilización de una FFT (Fast
Fourier Transform) [7].
Figura 9. Gráfico esquemático de enmascaramiento simultáneo [7].
3.6.1.3 Enmascaramiento temporal. Aparte del enmascaramiento simultáneo en el

dominio de la frecuencia, dos fenómenos de enmascaramiento en función del tiempo juegan
un rol importante en la percepción auditiva humana, el pre-enmascaramiento y el post-
enmascaramiento. Los efectos de enmascaramiento temporal ocurren antes y después que
una señal enmascarante es activada y desactivada. La duración del pre-enmascaramiento
llega a ser de unos 20 mseg, mientras que el post-enmascaramiento es de alrededor de 50 a
200 mseg. Tanto el pre como el post-enmascaramiento son efectivamente explotados en los
algoritmos de codificación (ver figura 10) [7].
20

Figura 10. Gráfico esquemático enmascaramiento temporal [7].
3.6.2 Codificación perceptual y códecs
Cada uno de los códecs, sigla proveniente de codificador/decodificador, ocupa la

psicoacústica de distinta manera mediante diferentes operaciones matemáticas o algoritmos
de compresión. Sin embargo, todos los esquemas de codificación moderna persiguen el
mismo objetivo que es eliminar redundancias en la señal y redistribuir el “paquete” de bits
de la manera más apropiada en el dominio de la frecuencia. Esto se realiza utilizando
mayor cantidad de bits en donde se hace más audible el efecto de la compresión, a expensas
de quitar bits en donde no son tan necesarios [2].
En un principio Dolby Digital, también conocido como AC-3, fue concebido como parte
integrante del film de 35 mm utilizado en el cine, por lo tanto su bit rate máximo está
determinado por la cantidad de bits que pueden almacenarse en el pequeño espacio
disponible entre las inserciones o sprockets. En cambio DTS consta de un código de tiempo
que hace sincronización con un CD-ROM externo que tiene una capacidad y velocidad de
transferencia muy superior. Este esquema permite que el DTS pueda almacenar 5.1 canales
de audio con una relación de compresión de sólo 4:1, muy baja en comparación con la del
AC-3 en el que la compresión es superior al 10:1.
Cabe destacar que para formatos como por ejemplo DVD, se pueden encontrar tasas de
transferencias de bits superiores para Dolby Digital, ya que no se encuentra tan limitado
como en la cinta de 35 mm. Sin embargo, entre el 75 a 80% de un DVD es solo reservado
para la imagen, dejando el restante porcentaje para audio, subtítulos y datos [2][3].
AAC o Advanced Audio Coding, de la “familia” MPEG, fue concebido especialmente para
la era digital y por su extraordinario rendimiento, aparte de ser ocupado en el estándar de
Televisión Digital ISDB-T, es también el códec de audio de elección para Internet,
21

conexiones inalámbricas y de radio difusión digital. También ha sido elegido por Apple
como formato principal para los iPods y para su software iTunes, y es considerado el
reemplazante de su predecesor, el famoso formato de compresión MPEG-1 Layer 3,
llamado comúnmente MP3 [2].
Tabla 1. Comparación de parámetros aceptables por cada estándar [2].
AC-3 DTS AAC

Cantidad de canales 1 a 5.1 1 a 10.1 1 a 48
Frecuencia muestreo 32, 44.1, 48 Khz 8 a 192 Khz 8 a 96 Khz
Profundidad de bits 16, 24 16, 24 16, 24
Ancho de Banda 32 a 640 Kbps 32 a 6144 Kbps Hasta 576 Kbps
Tamaño de frame 1536 samples 512 samples 1024 samples
3.7 CODIFICACION DE AUDIO AVANZADA (AAC)
La codificación de audio avanzada (AAC Advanced Audio Coding) del estandar MPEG es
de especial interés en este trabajo, pues es la codificación que utiliza el sistema de
televisión digital terrestre ISDB-T elegido por Chile como parte del sistema de codificación
MPEG-4.
3.7.1 Historia de la codificación MPEG audio
Los desarrollos en codificación de audio de la familia MPEG se han realizado desde 1988.
La entidad de estandarización ISO/IEC, de la cual forma parte MPEG, también conocido
como Moving Pictures Expert Group, fue establecida en 1988 para especificar codificación
digital de video y audio a bajas tasas de transferencia de datos. La primera fase de
estandarización terminó en 1992 con el códec MPEG-1, el cual tiene su más importante
paradigma en MPEG-1 Layer 3, conocido mundialmente como MP3 [10].
En la segunda etapa de desarrollo el objetivo del grupo MPEG fue definir una extensión
multicanal del MPEG-1 que fuera compatible con los sistemas MPEG-1 ya existentes. Así,
en 1994 nace MPEG-2 BC (las siglas BC se refieren a Backward Compatible, lo que
significa compatible con versiones anteriores). MPEG-2 BC entregaba buena calidad de
audio a tasas de transferencia de datos entre 640-896 kbps para 5 canales de rango
completo [10].
22

Otro esfuerzo comenzado en 1994 por el comité de estandarización del sistema MPEG-2
audio, fue definir un estándar multicanal de mayor calidad. Así nace el estándar “MPEG-2
non-backward-compatible audio standard”, que posteriormente fue renombrado como
MPEG-2 Advanced Audio Coding (MPEG-2 AAC). El objetivo de este desarrollo fue
alcanzar una calidad de audio “indistinguible” de la original a tasas de transferencia de
datos de 384 kbps o menores para cinco canales de rango de frecuencia completos. Las
pruebas llevadas a cabo en 1996 por la BBC de Inglaterra y por la NHK de Japón,
demostraron que MPEG-2 AAC satisface la calidad requerida por la ITU-R (International
Communication Union) a tasas de transferencias de datos de 320 kbps para cinco canales
de rango de frecuencia completa. Esta tasa de transferencia de datos podría ser inclusive
menor según los resultados de la NHK [10].
Luego del MPEG-2 se intentó implementar la codificación MPEG-3 (no confundir con
MP3 que es MPEG-1 Layer 3) que se supone sería para aplicaciones de Televisión de Alta
Definición (HDTV). Sin embargo, al inicio del proyecto se decidió que MPEG-2 tenía
todas las herramientas necesarias para la HDTV, así que el desarrollo del MPEG-3 se
integró a MPEG-2 [8].
A fines del año 1998 es terminada la versión MPEG-4. El desarrollo de esta codificación se
basa en dar nuevas funcionalidades en vez de mejorar la eficiencia de compresión. MPEG-4
como estándar fue pensado para ser usado en terminales móviles, acceso a base de datos,
comunicaciones y nuevas clases de servicios interactivos, facilitando la interacción entre
los mundos de la computación, TV, radio y telecomunicaciones [8].
3.7.2 Visión general de la codificación MPEG AAC
La base de la codificación MPEG-AAC es la codificación MPEG-1, de la cual su modo

operativo más conocido en la parte audio es la capa 3 o layer 3.
3.7.3 Codificación MPEG-1 Layer 3
La siguiente descripción de la codificación MPEG-1 Layer 3 (conocida mundialmente

como MP3), se enfoca en las funciones básicas y los detalles necesarios para entender las
implicancias del proceso de codificación en la calidad del sonido. Por lo tanto, no pretende
ser una completa descripción de cómo construir o programar un codificador MPEG-1 Layer
3. La figura 11 muestra un diagrama de un codificador MPEG-1 Layer 3.
23

Figura 11. Diagrama de bloques Codificador MPEG-1 Layer-3 [8].
3.7.3.1 Descripción general

– Modos operativos. MPEG-1 funciona para señales mono y estéreo. Una técnica
llamada Joint stereo coding (codificación estéreo conjunta) puede ser usada para
realizar una codificación combinada más eficiente de los canales derecho e izquierdo
de una señal estéreo. También permite la codificación mid/side estéreo (mid/side
stereo coding), y para bajas tasas de transferencia de bits, la codificación Intensity
stereo coding. Estas técnicas son usadas dependiendo de la naturaleza de la señal a
codificar, el modo en que el usuario quiera operar y dan origen a diferentes modos
operativos del codificador:
– Single channel
– Dual channel (Dos canales de audio independientes, por ejemplo 2 idiomas)
– Stereo ( no Joint stereo, osea codificación de ambos canales por separado)
– Joint stereo.
– Frecuencias de muestreo. Las frecuencias de muestreo ocupadas por el sistema son 32

KHz, 44.1 KHz y 48 KHz.
– Tasa de transferencia de bits. MPEG Audio no trabaja a una tasa de compresión fija.
La selección de la tasa de transferencia de bits para audio comprimido es, dentro de
ciertos límites, dejada bajo el criterio del implementador o usuario del codificador. El
estándar define un rango desde 32 kbits/s hasta 320 kbits/s. También se pueden
24

ocupar tasas de transferencia de bits variable, las que deben ser soportadas por el
decodificador para no tener problemas al emitir el audio [8].
3.7.3.2 Algoritmo
– Banco de filtros. Consiste en un banco de filtros hibrido en cascada, primero el banco

de filtros polifásico (polyphase filterbank) y adicionalmente la Transformada discreta
de Coseno Modificada (MDCT- Modified Discrete Cosine Transform).
El banco de filtros polifásico realiza la división de la señal de audio en 32 sub-

bandas, las cuales tienen buena resolución en el tiempo y una aceptable resolución en
frecuencia. Sin embargo, la resolución entregada por este filtro no es suficiente, pues
en bajas frecuencias es demasiada ancha y en altas frecuencias demasiado angosta.
Por lo tanto, es necesario ocupar el segundo banco de filtros mediante la MDCT para
realizar una subdivisión de cada sub-banda en 18 sub-bandas más finas, así se
incrementa el potencial para lograr una mayor eficiencia en la codificación de señales
tonales. Otro resultado positivo de una buena resolución en frecuencia es el hecho
que la señal de error puede ser controlada para permitir una búsqueda más fina del
umbral de enmascaramiento [8].
El banco de filtros puede ser conmutado a menor resolución en frecuencia para evitar
pre-ecos. Este problema se produce cuando una señal impulsiva aparece al final de un
bloque de datos precedida de un silencio, lo cual produce errores de cuantización que
son desenmascarados en la decodificación en forma de ruido previo al sonido
impulsivo [7].
– Modelo perceptual. El modelo perceptual es el que mayormente determina la calidad

de una implementación de codificador. Este modelo perceptual ocupa un banco de
filtros basado en análisis mediante transformada de Fourier para pasar al dominio de
la frecuencia y tener una buena resolución espectral, lo que permite calcular los
umbrales de enmascaramiento. La salida del modelo perceptual consiste en valores
para el umbral de enmascaramiento (ruido permitido) de cada partición del
codificador. Si el ruido de cuantización puede ser mantenido por debajo del umbral
de enmascaramiento para cada partición, entonces la compresión resultante debería
ser indistinguible de la señal original.
– Cuantización y codificación. La solución común para la cuantización y codificación

en codificador Layer-3 es un sistema de dos loops de iteración anidados. Los valores
cuantizados son codificados mediante codificación Huffman, el cual es un método de
compresión de datos con método de código de largo variable. Ocupa tablas donde se
asignan frases binarias pequeñas a las frases de código que más se repiten en los datos
a codificar.
25

Además se debe realizar modelado de ruido para mantener el ruido de Cuantización

por debajo del umbral de enmascaramiento. Para esto, antes de la codificación se
determina el tamaño del nivel de Cuantización y factores escala (que determinan el
factor de modelado de ruido para cada banda).
Finalmente el proceso para encontrar la óptima tasa de transferencia de bits basado en

la salida del modelo perceptual, es usualmente realizado por dos loops de iteración
anidados en forma de un sistema análisis- síntesis:
– Bucle de iteración interno (Inner iteration loop, rate loop): Las tablas de
código de codificación Huffman asignan palabras de código (frases de código)
más cortas para valores cuantizados mas pequeños (mas frecuentes). Si el
numero de bits resultante excede el numero de bits disponibles para codificar
cierto bloque de datos, se elige un escalón de cuantización mas grande
conduciendo a menores valores cuantizados. Esta operación es repetida con
diferentes tamaños de escalón de cuantización hasta que la demanda de bit de
la codificación Huffman es lo suficientemente pequeña. Este bucle también es
llamado Rate Loop, porque modifica la tasa de bits general hasta que es lo
suficientemente pequeña.
– Bucle de Iteración externo (Outer iteration loop, Noise control loop): Para
modelar el ruido de cuantización de acuerdo al umbral de enmascaramiento,
factores de escala son aplicados a cada banda. La función de estos factores de
escala es disminuir la amplitud para poder ocupar menos bits para cuantizar.
El sistema empieza con un factor 1.0 por defecto. Si el ruido de cuantización
en una banda dada excede el umbral de enmascaramiento (ruido permitido)
suministrado por el modelo perceptual, el factor de escala para esta banda es
ajustado para reducir el ruido de cuantización. Ya que alcanzar un ruido de
cuantización menor requiere un número mayor de escalones de cuantización y
en consecuencia una más alta tasa de transferencia de bits, el bucle de ajuste
de rate (bucle de iteración interno) debe ser repetido cada vez que un nuevo
factor de escala es ocupado. En otras palabras, el bucle de iteración interno
(rate loop) esta anidado dentro del bucle de iteración externo (Noise control
loop). El Noise control loop es ejecutado hasta que el ruido real (calculado de
la diferencia de los valores espectrales originales menos los valores
espectrales cuantizados) está por debajo del umbral de enmascaramiento para
cada factor de escala.
3.7.4 Codificación MPEG-2 Advanced Audio Coding
AAC sigue el mismo paradigma básico de codificación que Layer-3: un banco de filtros de
alta resolución, cuantización no uniforme, codificación Huffman y bucles de iteración
usando análisis-por síntesis. Además incluye nuevas herramientas de codificación para
26

mejorar la calidad a bajas tasas de transferencia de bits. La figura 12 muestra un diagrama

de un codificador MPEG-2 AAC.
3.7.4.1 Herramientas para mejorar la eficiencia de codificación
– Resolución en frecuencia más alta. AAC aumenta la resolución en frecuencia a 1024

líneas de frecuencia, comparada con 576 de Layer-3
– Predicción. Esta herramienta es ocupada para mejorar la eficiencia de codificación

para sonidos más tonales (como un diapasón).
– Joint Stereo Coding Mejorado. Comparado con el Layer-3, ambos, el mid/side estereo
coding y el intensity stereo coding, son más flexibles, permitiendo su aplicación para
reducción de bits más frecuentemente.
– Codificación Huffman mejorada.
3.7.4.2 Herramientas para mejorar la calidad de audio. Existen herramientas en

AAC que ayudan a mantener la alta calidad para señales más difíciles de codificar. Estas
son:
– Conmutación de bloques mejorada. En vez del banco de filtros híbrido en cascada

ocupado en Layer-3, AAC ocupa un banco de filtros conmutado estándar MDCT
(Modified Discret Cosine Transform). En palabras simples esto quiere decir que el
banco de filtros puede elegir el largo de datos que va a codificar de una vez (dentro de
ciertos parámetros), analizando la naturaleza de la señal.
– Temporal Noise Shaping TNS. Esta técnica realiza modelado de ruido en el dominio
del tiempo realizando un loop abierto de predicción en el dominio de la frecuencia.
Esta técnica ha resultado ser especialmente efectiva sobre la calidad de sonido vocal a
bajas tasas de transferencia de bits.
Con la suma de estas herramientas, AAC alcanza en promedio la misma calidad de audio en
aproximadamente 70% de la tasa de transferencia de bits ocupada por Layer-3.
27

Figura 12. Diagrama de bloques del codificador MPEG 2-AAC [24].
3.7.5 Codificación MPEG-4 AAC
El estándar MPEG-4 audio, también conocido como MPEG-4 parte 3, fue estandarizado en
el documento ISO/IEC 14496-3 publicado en 1999. MPEG-4 absorbe las funcionalidades
de MPEG-1 y 2.
Dentro de la codificación MPEG-4 AAC se agrega una nueva herramienta llamada SBR
(Spectral Band replication) o Replicación de banda espectral la cual es utilizada en MPEG-
28

4 HE-AAC v1 (MPEG-4 de alta eficiencia Version1), también conocido como AAC plus.
Esta herramienta se basa en el hecho de que en la codificación de audio tradicional una
cantidad significativa de información es gastada en codificar las altas frecuencias. Sin
embargo, la importancia psicoacústica de las dos últimas octavas más altas es relativamente
baja.
SBR explota este hecho con el propósito de mejorar la compresión. En vez de transmitir la
parte alta del espectro, SBR la regenera en el decodificador a partir del espectro medio-bajo
de la señal con la ayuda de datos guías de baja tasa de transferencia de datos (ver figura
13). Para regenerar los componentes de alta frecuencia perdidos, SBR opera en el dominio
de la frecuencia ocupando un banco de filtros QMF de análisis por síntesis [5].
Los bloques más importantes del SBR son:
– Reconstrucción de alta frecuencia. Este bloque genera una primera estimación de la
parte alta del espectro, copiando y variando la parte baja del espectro transmitido.
Con el fin de generar la parte alta del espectro que sea cercana al espectro original,
varias herramientas se encuentran disponibles, tales como adición de ruido y adición
de sinusoides perdidas.
– Ajuste de la envolvente. El espectro alto generado por la transposición (del espectro
bajo), necesita ser modelado subsecuentemente con respecto a frecuencia y tiempo
para acercarse lo máximo al espectro original.
Figura 13. Gráficos representativos de la herramienta Spectral band replication [25].
3.7.6 Perfiles y niveles de codificadores MPEG
Dentro de la familia de codificación MPEG se crearon perfiles para definir combinaciones

útiles de herramientas que son dirigidas a ciertas áreas de aplicación. Además, para cada
perfil se definen niveles que describen capacidades específicas del proceso de
decodificación. Por lo tanto, los perfiles y niveles aseguran la interoperabilidad entre
aparatos que están en conformidad a cierta combinación perfil/nivel [5].
29

Entre estos perfiles destaca el uso del perfil de baja complejidad AAC-LC, y dos perfiles
estandarizados con posterioridad a 1999. Estos son: HE-AAC v1 (High Efficiency AAC
versión 1) el cual agrega la herramienta SBR (Spectral Band replication) y HE-AAC v2 que
solo se ocupa para sonido estéreo.
Los perfiles y niveles han sido creados en una forma estrictamente jerárquica, de tal manera
que el perfil HE-AAC v2 contiene al perfil HE-AAC, el cual a su vez contiene el perfil
AAC. También, dentro de cada perfil un nivel más alto contiene los niveles más bajos, por
ejemplo, un decodificador conforme a HE-AAC v2 nivel 5 es capaz de manejar cualquier
combinación de perfil y nivel. En la práctica, los niveles más ocupados son el nivel 2 para
sonido estéreo (teléfonos celulares, receptores de broadcasting) y el nivel 4 para sistemas
multicanales (Televisión Digital) [5].
Para la codificación de audio de sonido envolvente 5.1, para la televisión digital en Brasil y
Chile, son ocupados los perfiles MPEG-4 AAC@L4 (AAC-LC Nivel 4) o MPEG-4 HE-
AAC v1@L4 (AAC de Alta Eficiencia, Versión 1, Nivel 4). En la transmisión de audio
estéreo no se deben usar los niveles 4 [11].
3.8 AUDIO Y TELEVISIÓN DIGITAL
3.8.1 Televisión Digital y Codificación de audio con sonido envolvente
Como se mencionó anteriormente, la codificación de audio utilizada para el sistema de

televisión digital ISDB-T (ver anexo 2) es la codificación AAC. En Japón como parte del
sistema MPEG-2 y en Brasil y Chile como parte del sistema MPEG-4. Estos sistemas
permiten crear contenidos con sonido envolvente, los cuales son transmitidos multiplexados
junto con el video y datos. El receptor en el hogar, ya sea integrado o externo al aparato de
televisión, es capaz de detectar la configuración de audio que está siendo utilizada y
entregar el sonido envolvente en caso de que el usuario posea un sistema de audio 5.1
correctamente configurado. Si posee un sistema estéreo el receptor decodificador realiza un
downmix para entregar sonido estéreo o mono según sea necesario [26] [27].
En nuestro país las capacidades en audio de este nuevo sistema aun no se exponen
abiertamente. Es común que se resalten las cualidades en imagen de la señal HD, pero no la
capacidad del decodificador para entregar sonido envolvente. Además, aun no existe
ningún tipo de publicidad acerca del sonido envolvente por parte de los canales de
televisión que transmiten en HD, lo que hace suponer que aun no entregan contenidos con
este formato de audio. Sin embargo, la norma existe y sus reglas están hechas, solo falta
utilizar los medios a disposición e impulsar una nueva experiencia en sonido.
En Japón, la norma partió en el año 2000 a través del broadcasting digital vía satélite y con
audio 5.1. En Diciembre de 2003 partieron las transmisiones vía terrestre llamadas ISDB-
30

Terrestrial. Ya en el año 2005 más del 95% de los programas eran producidos en televisión
de alta definición. [26]
Mirando hacia el futuro, para esta década, Japón espera transmitir en súper HD y en sistema
de audio 22.2, y para la década del 2020 se espera que el servicio público cuente con esta
tecnología. Para lograr estas metas se realiza una promoción de sonido envolvente una vez
al año (1 de mayo) que es el mes 5 día 1 (5.1), en el cual se hacen eventos para difundir el
sonido envolvente en la comunidad [26].
Actualmente la transmisión de audio a través de ISDB-T en Japón ocupa codificación
MPEG-2 AAC a una tasa de transferencia de datos de 284 kbps y muestreo de 48 Khz para
sonido envolvente 5.1 [26].
3.8.2 Televisión Digital y audio en Chile
SUBTEL (2009) publica en Chile el documento que contiene las especificaciones técnicas
mínimas para receptores de la norma bajo el nombre de: “Recomendaciones sobre:
especificaciones técnicas mínimas para los equipos receptores de televisión digital-
comisión consultiva técnica-Chile”. En este documento se hace referencia constantemente a
documentos publicados por la ABNT (Asociación Brasilera de Normas Técnicas), que a su
vez están basados en los estándares de ARIB (Association of Radio Industries and
Businesses) de Japón. También se menciona que especialistas tanto de Japón como de
Brasil fueron consultados directamente [6].
El punto 2.1.4 detalla la decodificación de audio. Aquí se indica que el receptor debe ser
capaz de decodificar un stream de audio en el estándar MPEG-4 AAC de acuerdo a lo
definido en la norma ABNT NBR 15602-2.
La siguiente tabla extraída del documento SUBTEL (2009) muestra las especificaciones
para cada tipo de aparato y las especificaciones mínimas que debe cumplir en cuanto a
decodificación de audio. Señalándolas como obligatorias (M), optativas(O) y no aplica
(N/A)
31

Tabla 2. Especificaciones para decodificación de audio en norma ISDB-T Chile [6].
Los tipos de equipos receptores señalados en la tabla 2 son los siguientes:

– Full-seg TV Integrado. Corresponde al televisor en su versión digital capaz de
sintonizar señales de televisión digital terrestre transmitidas en formato digital y bajo
la norma ISDB-T con las modificaciones introducidas por Brasil. Se denomina
también receptor de tipo “full-seg” haciendo alusión a la capacidad de captar el
segmento digital completo del canal de 6 Mhz, con excepción del segmento destinado
a las transmisiones móviles. Todo dispositivo del tipo “full-seg” deberá decodificar
todos los formatos de video y audio validos de acuerdo a la definición de la norma.
– Full-seg STB (Set top box). Dispositivo externo que permite sintonizar las señales de
televisión digital terrestre transmitidas en formato digital y bajo la norma ISDB-T con
las modificaciones introducidas por Brasil, para ser vistas en aparatos de televisión
y/o monitores digitales de alta definición que no poseen sintonizador digital para
dicho formato de televisión digital abierta.
32

– Full-seg STB down converter. Dispositivo externo que permite sintonizar señales de
televisión digital terrestres en televisores analógicos convencionales. Debe realizar un
“down convertion” para pasar de formato digital HD a formato NTSC de televisores
convencionales.
– One-seg. Dispositivo orientado a la recepción de la porción de la señal de televisión
digital llamada “one-seg”, destinada por la norma a la transmisión para aparatos
móviles. Bajo esta clasificación se encuentran los teléfonos celulares con sintonizador
de televisión, pequeños televisores portátiles, televisores de bolsillo, televisores para
automóviles y otros dispositivos de similares características.
Con respecto a los equipos decodificadores para el stream de audio y los equipos ya
existentes se declara lo siguiente en el documento [6]:
“Los miembros de ARCATEL y ANATEL estiman que, para aquellos receptores que
tengan una salida digital de audio envolvente tipo 5.1 o surround (óptica o coaxial), se exija
que estos recodifiquen o tengan la opción de recodificar, el audio de norma AAC nativa de
la norma de TV digital hacia audio AC-3, o bien DTS, ambos de mucha más amplia
difusión en el mercado y especialmente en los hogares que ya cuentan con este tipo de
sistemas de sonido. Se recuerda que Australia, precisamente para atacar este problema,
alteró la codificación de audio nativa de su norma y agrego la codificación AC-3 lo cual
significo una modificación mayor a la norma que en ningún caso se estima recomendable.
Es también de opinión de ARCATEL y ANATEL que es importante tener presente que los
sistemas de audio complementarios tendrán una importancia creciente debido a la tendencia
hacia el uso de televisores de pantalla plana. Este tipo de televisores cuentan con espacios
cada vez más reducidos para incorporar parlantes de calidad aceptable y es previsible que
pronto pasaran a depender exclusivamente de sistemas de audio externos.
El coordinador de la Comisión destaca que, de acuerdo a lo consultado a los especialistas
de los fabricantes, la “recodificación” indicada no está hoy disponible en los equipos
receptores. Es de esperar que los equipos de “home theater” comiencen a soportar estos
otros nuevos formatos de audio digital y no necesariamente que los equipos receptores de
televisión soporten todos los formatos de audio legados de dichos equipos.” [6]
Como se desprende del documento, no se recomienda variar la codificación AAC de audio
nativa de la norma y también se da a conocer la tendencia a depender de equipos de audio
externos del tipo “home theater”, lo cual confirma la hipótesis de que en el futuro la
mayoría de los programas podrían ser transmitidos con sonido envolvente.
33

3.9 FORMATOS PARA TRANSMISIÓN DE DATOS

CODIFICADOS
Los datos codificados bajo compresores codificadores como la familia MPEG necesitan de
ciertas formas de encapsulamiento dentro de formatos contenedores para ser transmitidos.
Existen codecs de audio como, los vistos anteriormente, AAC, AC-3 y DTS; y códecs de
video como MPEG-1, MPEG-2, MPEG-4, Vorbis y DivX. Cuando el códec actúa sobre el
archivo crea un conjunto de datos codificados también llamados stream. Estos stream para
ser transformados nuevamente a su forma original deben ser decodificados por el mismo
códec en el hardware o software decodificador.
Un formato contenedor almacena una o más stream (archivos de audio y/o video ya
codificados por códecs). Muy a menudo el formato contenedor contiene una stream de
audio y una de video. Las streams contenidas pueden ser codificadas por diferentes códecs.
Pero existen incompatibilidades, es decir no cualquier códec puede ir en cualquier formato
de contenedor. Algunos formatos de encapsulamiento o contenedor son los siguientes: AVI,
Ogg, MOV, ASF, MP4 [32].
Los formatos MPEG suelen llevar a confusión, por ejemplo, el contenedor MPEG-4 que
suele ser llamado MP4, puede contener video codificado por el códec MPEG-4 y contener a
su vez audio codificado por el códec MPEG-4 AAC. El formato contenedor MPEG,
también es llamado MPEG system.
Cuando reproducimos material audiovisual MPEG desde un DVD, el stream MPEG
contiene a su vez varias stream, llamadas Elementary Stream (ES). Estas stream pueden ser
de audio, video, subtítulos, entre otros, que se encuentran mezcladas en un solo Program
Stream (PS). Si exploramos los archivos del DVD, a través de un computador,
encontraremos archivos con extensión .VOB que son realmente archivos MPEG-PS o
archivos MPEG Program Stream. Estos archivos PS no están diseñados para ser
transmitidos por una red de datos como un broadcasting digital.
Para realizar una transmisión ya sea a través de una red o en televisión digital se ocupa el
formato llamado Transport Stream o TS, que fue creado para transmitir contenedores
MPEG. Este archivo con capacidad para ser transmitido a través de una red de datos se
denomina MPEG-TS o MPEG Transport Stream [32].
En este trabajo se ocupa el software VLC, para realizar una transcodificación (transformar a
formato transport stream) del material codificado y realizar una transmisión en tiempo real
a través de Internet. Este software es un programa gratuito que puede ser descargado de la
pagina web http://www.videolan.org/.
34

4 MATERIALES Y METODOS
4.1 PREPRODUCCIÓN VIDEO
En este trabajo, previo a la postproducción de audio, se realiza la edición de un capítulo

piloto de la animación “Altair y la Luz del Poder” de la productora de animación Altair
Films.
En una producción audiovisual la edición de video no es realizada por el encargado de

postproducción de audio. Sin embargo, para los propósitos de este trabajo, se debe editar el
capitulo piloto para obtener un video de menor duración sobre el cual poder trabajar. Para
esto se analizaron y compararon trailers de otras producciones audiovisuales en busca de
patrones comunes que pudieran servir como referencia para realizar la edición de manera
correcta.
4.1.1 Equipamiento
Para realizar la edición del trailer a partir del video piloto se ocuparon los siguientes
materiales:
– Computador Apple Macintosh Macbook Pro, sistema operativo Mac OS X Versión

10.6.8, procesador 2,4 Ghz Intel Core 2 Duo, memoria 4 GB 1067 MHz DDR3,
tarjeta de video Nvidia GeForce 320M Vram 256 MB.
– Software Final Cut Pro 3.
Final Cut es el software de edición creado por Apple Macintosh para ser ocupado en
sistemas operativos Mac OS.
El flujo de trabajo de Final Cut resulta relativamente simple cuando se realiza una edición
ya que el software presenta 4 ventanas principales que son llamadas Browser, Viewer,
Canvas y Timeline (Ver figura 14).
Browser es la ventana donde se buscan los archivos a editar. Estos archivos pueden ser
formatos de imagen, películas y audio. La ventana Browser trabaja en conjunto con la
ventana Viewer, donde son arrastrados los elementos desde el Browser para ser
visualizados y realizar su edición mediante un sistema de marcas in/out. Por ejemplo, si se
arrastra un video de 5 minutos al Viewer desde el Browser y se desea seleccionar solo
desde el minuto 2 al minuto 3, se ocupan los marcadores in/out en el Viewer para marcar la
entrada in en el minuto 2 y la salida out en el minuto 3. Luego de esto se arrastra el
fragmento de video o audio seleccionado desde las marcas de edición in/out hacia la
ventana Timeline.
35

La ventana Timeline es donde se visualiza el proyecto editado a través de múltiples pistas

de audio y video, de manera similar a un software de edición de audio. Esta ventana trabaja
en conjunto con la ventana Canvas donde se visualiza el trabajo de edición ya realizado.
Cualquier ajuste que se deba aplicar a la edición se realiza en la ventana Timeline y se
visualiza en la ventana Canvas.
Figura 14. Final Cut Pro 3. En la parte superior de izquierda a derecha la ventana Browser,
Viewer y Canvas; y en la parte inferior la ventana Timeline.
Luego de realizar la edición en Final Cut se obtiene un archivo de video de 2 minutos y 40

segundos en resolución 720 x 480 sin compresión. Además, se agregan voces y música
original del capítulo piloto para obtener una guía y así facilitar el trabajo de postproducción
de audio. Este audio solo es de referencia, por lo tanto es eliminado en la etapa de
postproducción.
36

4.2 POSTPRODUCCIÓN AUDIO CON SONIDO ENVOLVENTE 5.1
4.2.1 Equipamiento
El equipamiento utilizado fue el siguiente:
– Software Pro Tools 8 HD 2.

– Computador Mac Pro 4.1. Quad Core Intel Xeon. Procesador 2,66 Ghz. 4 núcleos, 10
Gb RAM, 1,5 Tera byte de HD, sistema operativo Mac OSX.
– Interface Xmon.
– Interface I/O 192.
– Superficie de control D-Command.
– Patch bay Tascam. (Pachera)
– Sistema de monitoreo 5.1. Consistente en 5 monitores Yamaha HS80 y un sub-bajo
Yamaha HS10W.
– Pedestales para monitores.
– Sonómetro (Para calibración del sistema).
4.2.1.1 Aspectos generales del software Pro Tools HD 8. Pro Tools es un

software de edición de audio y MIDI, también conocido como DAW (Digital Audio
Workstation). Es un sistema de edición no lineal, lo que quiere decir que a diferencia de la
grabación en cinta, es un sistema que graba en disco duro y se puede acceder
aleatoriamente a cualquier parte de la grabación sin la necesidad de rebobinar o adelantar.
Los sistemas no lineales tienen varias ventajas, pueden reorganizar con facilidad o repetir
partes de una grabación en distinto orden o varias veces. Además, esta reorganización es no
destructiva, es decir, el material grabado originalmente no se altera [30].
Pro Tools funciona de manera clásica mostrando en pantalla ventanas de edición donde se
crean tracks o canales para cada una de los sonidos a editar. Cada track lleva su propio
Fader, insert, sends y puede ser automatizado de forma independiente (ver figura 15).
37

Figura 15. Software Pro Tools HD
Una de las principales características del software es que utiliza tarjetas DSP dedicadas.
Estas tarjetas se encargan del procesamiento requerido por los plug-ins del tipo TDM (Time
división multiplexing). El sistema también ocupa el procesador de la CPU cuando se
utilizan plug-ins del tipo RTAS (Real Time Audio Suite). Además, dentro de una misma
sesión se pueden ocupar tanto plug-ins TDM como RTAS. El uso de memoria originado
por la cantidad de pistas y uso de plug-ins se puede monitorear a través de la opción system
usage (ver figura 16).
El sistema HD 2, que se encuentra en el estudio de postproducción del Instituto de Acústica

de la Universidad Austral de Chile, posee las tarjetas DSP dedicadas HD Accel y HD Core,
las cuales son insertadas en los puertos PCI del computador Host. El uso de estas tarjetas
junto con los recursos de procesamiento del computador host proporciona un rendimiento
sólido, baja latencia y un gran número de pistas.
38

Figura 16. Ventana System usage de Pro Tools HD.
4.2.1.2 Aspectos generales de interfaces del sistema Pro Tools HD. Además
del uso de tarjetas dedicadas DSP para su funcionamiento, Pro Tools HD necesita una
interface que sirva de entrada y salida para el sistema. El sistema utilizado para este trabajo
consta de una Interface de entrada/salida denominada 192 I/O, una superficie de control D-
command y una interface XMON que gestiona las entradas y salidas para la superficie de
control (ver capítulo 4.2.3.1 para detalles sobre conexiones).
4.2.1.2.1 Interface 192 I/O. Digidesign 192 I/O es una interface de audio digital de 16
canales diseñada para ser usada con Pro Tools HD. Posee conversores de señal A/D y D/A
de 24 bits, admite frecuencias de muestreos de hasta 192 Khz, rango dinámico superior y
un umbral de ruido bajo (ver figura 17)[33]
Figura 17. Interface 192 I/O. Vista frontal y posterior.
39

Sus principales características son:

– 16 canales discretos de entrada y salida. Los cuales pueden incluir:
– 8 canales de conversores A/D y D/A de 24 bits para entrada y salida analógica a
frecuencias de muestreo de 44.1 Khz, 48 Khz, 88.2 Khz, 96 Khz, 176,4 Khz y
192 Khz
– 10 canales de E/S AES/EBU compatibles con 24 bits.
– 16 canales de E/S óptica, a través de dos pares de conectores lightpipe (ADAT),
que pueden conmutarse a 2 canales de E/S óptica S/PDIF.
– 2 E/S S/PDIF capaces de admitir 24 bits compatibles con frecuencias de
muestreo de hasta 96 Khz.
– Conversión de frecuencia de muestreo en tiempo real en entradas de 8 canales de

AES/EBU.
– Entrada y salida de reloj de palabras para sincronización con dispositivos externos.
– Compatibilidad de uso simultaneo de hasta 8 unidades 192 I/O, lo que ofrece un
máximo de 96 canales de E/S a 96 Khz.
– Posibilidad de añadir tarjetas opcionales para ampliar las opciones de E/S analógica o
digital.
4.2.1.2.2 Superficie de Control D-command e interface XMON. La superficie

de control D-command (ver figura 18) provee herramientas táctiles (faders, controles de
rotación y botones) que funcionan de manera virtual sobre el software Pro Tools que la
convierten en una poderosa opción para controlar y configurar el ambiente de mezclas y
edición.
Figura 18. Superficie de control D-command.
40

El sistema D-command ofrece control sobre la mayoría de las tareas de grabación, edición
y mezcla. Además de un versátil sistema de monitoreo entregado a través de la Interface
XMON, la cual es controlada remotamente por la superficie de control (ver figura 19).
Las principales características de la superficie de control son:

– Faders motorizados sensibles al tacto de 100 mm.
– Controles de rotación multifunción sensibles al tacto.
– Controles dedicados para asignación y activación de entradas, salidas, insert y
envíos.
– Display flexible para paneo, insert, send, plug-in y control de previos de micrófono.
– Secciones de control dedicadas para plug-ins de Eq y dinámica.
– Controles dedicados para todos los canales, incluyendo grabación, modos de
monitoreo, mute, solo y selección de canal.
– Controles dedicados para automatización.
– Modo de Fader ajustable para mapeos de canal y parámetros.
– Controles de navegación y de transporte ( play, pause, stop, etc).
Las principales características del sistema de monitoreo son:

– Monitoreo en sala de control hasta 6 canales, desde mono hasta sonido envolvente
5.1.
– 2 canales para señales de retorno, incluyendo 4 posibles salidas.
– Micrófono para talk-back integrado.
– Modo Standalone para monitoreo sin Pro Tools.
41

Figura 19. Interface XMON.
Para más detalles sobre conexión de la superficie de control D-command y la interface

XMON, ver capítulo 4.2.3.1.
4.2.2 Acústica para monitoreo con sonido envolvente 5.1
De acuerdo a las características que se necesitan para realizar el monitoreo de sonido

envolvente 5.1 se elige, dentro de las salas disponibles, la que más se acerque a los
requerimientos de la recomendación ITU-R BS.1116.
La sala que cumple con los requerimientos de planta mínima y proporciones es la sala de
músicos del estudio de postproducción del instituto de Ingeniería Acústica. Cuyas
dimensiones son las siguientes: Largo de 7,7 mts, ancho de 5 mts y alto de 2,6 mts.
La sala cuenta con un área de piso o planta de 38,5 mts cuadrados, la cual cumple con el
requerimiento mínimo de planta de 30 mts cuadrados. También las relaciones:
1.1*(w/h) < (l/h) < 4.5*(w/h)-4 (1)
l/h<3 (2)
w/h<3 (3)
son cumplidas. Donde w es ancho, l es largo y h es altura de la sala.
Una vez elegida la sala se procede a evaluarla para verificar sus características en tiempo de
reverberación y ruido de fondo.
42

4.2.2.1 Cálculo de tiempo de reverberación y ruido de fondo. Para el cálculo

del tiempo de reverberación y ruido de fondo fueron ocupados los siguientes materiales:
– Sonómetro CESVA SC310

– Fuente omnidireccional.
– Amplificador de audio (para fuente omnidireccional).
– Reproductor de CD.
– CD con ruido Rosa.
– Huincha de medir.
El cálculo del tiempo de reverberación se realiza de acuerdo a norma ISO-354. Se utilizan 4

puntos de medición con dos posiciones de fuente y se registran dos mediciones por cada
punto, lo cual nos da un total de 16 mediciones cumpliendo ampliamente con los
requerimientos mínimos del estándar. Para reproducir el ruido rosa se utiliza un reproductor
de CD conectado al amplificador que envía la señal de potencia hacia la fuente
omnidireccional.
El sonómetro CESVA SC310 cuenta con un módulo especial para medir tiempo de
reverberación, lo cual facilita la toma de los datos (ver figura 20).
El registro de tiempo de reverberación consiste en comenzar la función de toma de datos en
el sonómetro en el punto respectivo, el cual establece primero el ruido de fondo en el
recinto. Posteriormente se comienza la reproducción de ruido rosa hasta alcanzar una
relación señal ruido para todas las bandas de al menos 60 dB. Una vez alcanzada dicha
relación en el sonómetro se procede a interrumpir el ruido (presionando el botón de pause
en el reproductor de CD) y el sonómetro calcula automáticamente el tiempo de
reverberación.
Una vez registrados todos los datos necesarios se descargan hacia el computador mediante
el software Capture Studio. Este software permite exportar los datos al formato Excel para
ser analizados posteriormente.
43

Figura 20. Sonómetro CESVA y fuente omnidireccional en sala de músicos del estudio de
grabación y postproducción.
Al analizar los resultados obtenidos para el tiempo de reverberación, se debe calcular el

valor de tiempo de reverberación promedio Tm a partir del cual calculamos los límites de
tolerancia:
Tm = 0,25(V/V0)1/3 s. (4)
Donde:
V= Volumen de la sala= 100,1 m3.
V0= Volumen de referencia de 100 m3.
Reemplazando los valores medidos para el estudio de grabación se obtuvo un valor de
Tm=0,250083305 s.
En el grafico de la figura 21 se puede apreciar los límites de tolerancia relacionados al

valor promedio Tm comparados con el tiempo de reverberación medido en la sala de
músicos. Se pueden observar diferencias en el tiempo de reverberación por debajo de los
3000 Hz, que se acentúan bajo los 1000 Hz. Estas diferencias entre lo “medido” y lo
“recomendado” afectan la calidad del monitoreo, pues las frecuencias con alto tiempo de
reverberación se perciben con mayor intensidad. Esto lleva al operador a disminuir estas
frecuencias mediante ecualización de forma errónea.
Por otra parte, para la medición de ruido de fondo se registraron 5 mediciones en distintos
puntos, utilizando como referencia los puntos ocupados para medir tiempo de
44

reverberación. En el gráfico de la figura 22 se puede ver que el ruido de fondo cumple con
NR 20, lo cual excede ligeramente lo propuesto en la recomendación.
Figura 21. Tiempo de reverberación medido sala de músicos, comparado con las curvas
tolerancias para tiempo de reverberación propuestas en recomendación ITU-R BS.1116.
Figura 22. Ruido de fondo medido sala de músicos y curvas NR.
45

4.2.2.2 Instalación de altavoces y calibración de niveles para monitoreo. Los

altavoces se instalan según recomendación ITU-R BS.775 (ver punto 3.2) en un radio de 2
mts alrededor del operario (distancia mínima recomendada). La distancia desde los
altavoces frontales a la pared más cercana es más de 1 metro y la distancia desde los
altavoces surround a las paredes laterales es de poco menos de 1 metro, siendo 1 metro la
distancia mínima recomendada entre altavoz y la pared más cercana.
Los pedestales para los altavoces se ajustan a una altura de 1,2 mts posicionándolos en los
ángulos de instalación correspondientes. El altavoz central se establece como eje medio en
0º. Los altavoces L y R se ubican en las posiciones -30º y +30º respectivamente con
respecto al eje medio y los altavoces surround Ls y Rs en ángulos -120º (para Ls) y + 120º
(para Rs). Una vez montado el sistema para monitoreo 5.1 según la recomendación, se
procede a calibrar los niveles.
Siguiendo las recomendaciones establecidas por la ITU en conjunto con la EBU, se genera
un nivel de alineación digital de -18 dBFs para una señal de ruido rosa. Para trabajar en
cine en salas pequeñas, este nivel de ruido rosa debe producir 80 dBC para los altavoces
frontales y 78 dBC para los altavoces surround. El sub-bajo debe ser calibrado con un RTA
(Real Time Analizer), si este no está disponible se deben hacer aproximaciones con el
sonómetro. Se recomienda que el sub-bajo produzca un nivel de 90 dBC aproximadamente,
dependiendo del nivel al que fueron calibrados los altavoces. [13]
El nivel de -18 dBFS se generó con el generador de tonos de Pro Tools. En la superficie de
control se ajusto el nivel de salida a -18 dBFS. Luego se envía el sonido generado a cada
uno de los altavoces por separado. En cada uno se ajusta el trim (volumen de salida) hasta
obtener la lectura adecuada en el sonómetro. El sonómetro se localiza en el lugar donde el
operador del sistema se sienta a realizar la mezcla. Esto es en el centro imaginario de la
circunferencia de 2 mts de radio creada por los altavoces. Con esto se asegura un correcto
nivel de salida en cada altavoz.
4.2.3 Descripción de la estación de trabajo
4.2.3.1 Conexiones del sistema. El sistema Pro Tools HD 2 consta de una tarjeta
HD Core y una tarjeta HD Accel, las cuales van conectadas entre sí al interior del
computador mediante un cable TDM FlexCable. Estas tarjetas van instaladas en el
computador Mac Pro en los puertos PCI. La interface 192 I/O se conecta a la tarjeta HD del
puerto PCI mediante un cable llamado Digilink (ver figura 23).
La superficie de control D-command se conecta mediante dos cables de red Ethernet hacia
un switch, el cual se conecta mediante un cable de red al puerto Ethernet del computador.
La interface XMON se conecta a D-command mediante un cable DB15 XMON Control.
Las conexiones entre XMON y 192 I/O se realizan según las necesidades del usuario.
46

En este trabajo se conectan las salidas análogas de 192 I/O hacia la pachera inferior (Patch
bay Tascam) la cual a su vez envía esta señal a las entradas análogas de XMON. Las
conexiones entre interfaces y pachera se realizan mediante cables DigiSnake, que consisten
en un conector DB25 hacia cables TRS (Plug balanceado).
Las salidas principales de XMON van conectadas a la pachera superior mediante un cable
DigiSnake. Para trabajar en formato de sonido envolvente 5.1 las salidas análogas desde la
pachera (provenientes de XMON) serán 6 señales que irán a 5 monitores Yamaha HS80 y
el sub-bajo Yamaha HS10W.
Figura 23. Esquema de conexión sistema Pro Tools HD 2
47

Figura 24. Salida Frontal Cables TRS hacia altavoces.
Figura 25. Fotografía del sistema completo.
48

4.2.4 Operación de la estación de trabajo
4.2.4.1 Postproducción en software Pro Tools 8 HD. El trabajo de

postproducción comienza con la creación de sesión en el software Protools. Para esto se
ejecuta el software dentro del sistema operativo Mac OSX y en el menú File se elige la
opción New Session. Se abre una ventana de dialogo donde se eligen el tipo de archivo de
audio, profundidad de bits, frecuencia de muestreo y configuración de entrada/salida. Esta
configuración también se puede realizar en la ventana Quick Start que aparece al iniciar Pro
Tools (ver figura 26). Para la sesión de este trabajo se eligen los siguientes parámetros:
– Tipo de archivo de audio: WAV

– Profundidad de bits: 24 bits
– Frecuencia de muestreo: 48 Khz
– Configuración de entrada/salida: 5.1 Film Mix
Figura 26. Dialogo Quick Start para configuración de sesión en Pro Tools.
Dentro de la sesión se puede cambiar la configuración de entrada/salida desde el menú

Setup eligiendo la opción I/O. Además, es posible elegir mediante una cuadricula que
muestra las salidas análogas, el altavoz al cual será enviada la señal (Ver figura 27).
49

Figura 27. Configuración de entrada/salida del Menú Setup I/O de Pro Tools.
Una vez configurada la sesión, se importa el video trailer obtenido en Final Cut 3 mediante
el menú File/Import/Video. En la ventana Video Import Options se debe activar la casilla
Import audio from File para importar también el audio de referencia (creado en Final Cut)
que acompaña al video.
4.2.4.2 Creación y edición
4.2.4.2.1 Efectos de sonido
– Diseño de sonido. Para realizar el diseño de sonido se crea una sesión en Pro Tools
aparte de la creada para la postproducción principal. En esta sesión se realiza una
mezcla de sonido para crear sonidos que no existen en la realidad, como por ejemplo,
sonidos de vehículos voladores y armas láser que aparece en el trailer creado para
este trabajo.
50

Para los motores de los vehículos voladores se ocupa el sonido de un microbus. Este
sonido se acelera alterando su naturaleza tonal mediante plug-ins, luego se mezcla
con el sonido de una secadora y con tonos puros cercanos en frecuencia, para de esta
forma, dar la sensación de un motor futurista.
Una vez obtenido el sonido deseado se exporta como un archivo WAV, el que
posteriormente es modificado en la sesión principal para generar el sonido de efecto
doppler que produce un vehiculo pasando a gran velocidad escuchado desde un punto
fijo. En el minuto 1:29 del trailer realizado para este trabajo se puede apreciar el
efecto diseñado para los vehículos voladores (ver figura 28).
Figura 28. Imagen capturada de trailer “Altair la luz del poder”. 01:29 minuto, diseño de
sonido para vehículos voladores.
Alguno de los plug-in que se ocupan en el diseño de sonido de éste trailer son del tipo
Audiosuite. Este plug-in no puede ser ocupado como insert, sino que se aplica a una
región (forma de onda disponible en un track) y se monitorea mediante el menú
preview hasta obtener el resultado deseado. Para aplicar este efecto sobre la región se
selecciona el menú Process, el cual realiza la transformación mediante el plug-in
obteniendo una nueva región. Los plugins ocupados para el diseño de sonido son los
siguientes [30]:
– Time shift. Este plug-in fue ocupado especialmente para acelerar sonidos sin
variar su tono (ver figura 29). Los principales parámetros de este plug-in son:
– Mode. En este parámetro se puede elegir entre polyphonic, monophonic,

rhytmic y varispeed. Cada uno de estos modos se elige según la
naturaleza del sonido a modificar. Polyphonic se usa para sonidos
51

complejos como música compuesta por varios instrumentos. Monophonic

se usa para sonidos mono como una voz. Rhytmic se utiliza para material
como percusiones y varispeed se usa para cambios de pitch y tiempo en la
variación de la velocidad de un efecto de sonido.
– Time. La sección time presenta varios parámetros, uno de los mas

intuitivos es el control de rotación virtual en el cual se puede ajustar la
velocidad del audio que se está procesando. Este control se ocupa
específicamente para acelerar el sonido de motor de microbus usado para
los transportes.
Figura 29. Plug-in Time Shift.
– Vari Fi. Este plug-in provee un efecto de cambio de pitch similar al que se
produce en una tornamesa al detener un disco o al acelerarlo desde cero (ver
figura 30). En este trabajo es usado para simular el efecto Doppler del sonido de
los motores al pasar a gran velocidad.
52

Figura 30. Plug-in Var Fi.
Los principales parámetros de este plug-in son:
– Slow down. Este parámetro activado aplica un cambio de pitch

disminuyendo la velocidad del audio hasta cero. Mantiene la duración del
archivo de audio original.
– Speed up. Este parámetro activado produce un cambio de pitch
aumentando la velocidad desde cero del archivo de audio. En este trabajo
se ocupa para simular encendido de motor.
– Signal generator. Es ocupado para generar señales de varios tipos que son
utilizadas para la calibración de interfaces u otros elementos del estudio (ver
figura 31). En este caso, se ocupa para generar dos señales cercanas en
frecuencia a las que se les incorpora reverberación. El sonido obtenido se
mezcla con el sonido de motor para agregarle una característica más tonal al
sonido final. Cabe destacar que este plug-in, además de funcionar en
Audiosuite, puede ser ocupado como insert para realizar calibración de salidas y
altavoces.
Figura 31. Plug-in Signal Generator.
Los principales parámetros de este plug-in son:
53

– Frequency. En este parámetro se elige la frecuencia a generar en Hertz.

Los valores varían desde 20 Hz a 20 Khz en una sesión de 44.1 Khz. En
sesiones a 192 Khz se pueden generar valores hasta los 96 Khz.
– Level. Selecciona el nivel de amplitud de la señal desde -95 dB hasta un
máximo de 0 dB.
– Signal. Este botón selecciona la forma de onda, que puede variar entre
seno, cuadrada, diente de sierra, triangular, ruido blanco o ruido rosa.
– Peak. Genera la señal al máximo nivel posible sin “clipear”.
– RMS. Genera señales a niveles RMS (Root mean Square), o el valor
efectivo del promedio del nivel de la señal.
– Reverse. Este plug-in es ocupado para crear una versión en reversa del audio
seleccionado reemplazándolo. Es ocupado normalmente en el diseño de sonido
y a veces como efecto para crear música (ver figura 32).
Figura 32. Plug in reverse.
– Grabación de efectos de sonido: No fue necesario grabar efectos de sonido. Para los
efectos de sonido como el clima (tormentas y viento) y explosiones, se mezclaron
sonidos provenientes de bancos de sonido.
– Foley: Para foley se mezclaron sonidos de bancos de sonido. No fue necesaria la
grabación de estos efectos.
4.2.4.2.2 Diálogos. El diálogo previamente grabado se seleccionó y se sincronizó con la

imagen donde fuera requerido. Según las necesidades del guión se agregó efecto a la Voz
del personaje Octavia para simular que está hablando a través de un casco. Se agrego
flanger a la voz del personaje Brujo, y se agregó reverberación a la voz del personaje
Kebana. Se agregó compresor en las voces que fuera necesario para evitar grandes
variaciones de nivel.
4.2.4.2.3 Música. La música original es sincronizada y editada para encajar en el tráiler.

Además se le agrego reverberación 5.1, que se aprecia en los altavoces surround.
54

4.2.4.2.4 Ordenamiento de sesión durante la etapa de creación y edición. En la

etapa de creación y edición se agregan todos los archivos de audio necesarios para realizar
la postproducción, como resultado de esto, el número de pistas o tracks incrementa
considerablemente. Por lo tanto, es fundamental llevar un orden mediante marcadores de
posición y colores en los tracks, que faciliten el posicionamiento en cualquier parte de la
sesión.
El ordenamiento es de dos tipos, uno con respecto a la línea de tiempo y el otro con
respecto al tipo de track. En el ordenamiento con respecto a la línea de tiempo se ocupan
los marcadores o memory locations. En la ventana de edición para agregar un marcador se
elige un tiempo específico, luego en la línea de tiempo superior se selecciona la opción
markers. Así se puede acceder a cualquier parte específica en la línea de tiempo (ver figura
33).
El ordenamiento con respecto al tipo de pista consiste en agrupar los tracks por tipo
(efectos de clima, efectos de vehículos motorizados, voces, entre otros), darles un nombre
como grupo y colorear ese grupo con un color característico (ver figura 34). Con esta ayuda
visual, se puede elegir rápidamente un track dentro de la sesión para editarlo.
Combinando ambos métodos se puede acceder a un lugar específico de la sesión

optimizando el tiempo de trabajo.
Figura 33. Marcadores o memory locations.
55

Figura 34. Colores en los grupos de tracks (ventana mixer).
4.2.4.3 Pre-mezcla (Pre-Mix) y mezcla final (Re-recording Mix). Para este

trabajo se realiza la pre-mezcla y mezcla final de acuerdo a la perspectiva directo/ambiente
(ver capitulo 3.5.1). En la etapa de premezcla se realiza automatización de paneo,
ecualización y regulación individual de niveles.
El paneo es uno de los procesos que le dan “sentido” a la mezcla. Esto quiere decir que
dentro de los requerimientos de imagen se debe ajustar el paneo de tal manera que “el todo”
tenga un sentido y el sonido envolvente sea un complemento de la imagen. Dentro de la
perspectiva elegida se evita enviar demasiada información de sonido a los altavoces
surround si no es estrictamente necesario. Los controles dentro del paneo surround de Pro
Tools son (ver figura 35):
– LFE (Fader)
– Posicion: front, rear, center % y f/r.
– Divergencia: front, rear y f/r
El Fader LFE controla el nivel enviado hacia el altavoz de sub-bajos. Es necesario para
efectos como explosiones y sonidos de truenos, también puede ser usado en otros sonidos
para darles algo de “profundidad”. No es necesario usarlo en sonidos como voces.
56

Figura 35. Control de paneo surround en Pro Tools
Los controles de posición front, rear y f/r son de utilidad para la automatización de paneos.
Esta automatización es fundamental para lograr movimientos que acompañen la imagen.
Por lo general se usa para elementos “móviles” como los vehículos voladores que se
mueven a gran velocidad en el trailer de animación editado para este trabajo.
En la figura 36 se muestra la automatización de paneo que se realiza para un vehículo

volador que aparece a gran velocidad desde la posición surround derecha hacia la posición
frontal entre los altavoces central y derecho. Para lograr esto se configuran primero los
controles de posición. El control de posición rear se pone en 100 a la derecha y el control
de posición front se ajusta para quedar entre altavoz central y derecho. El control de
posición f/r será el que se mueva y logre la automatización. Su posición inicial es -100
(todo hacia la posición surround o rear). Se arranca el modo de automatización y en el
momento requerido el control posición f/r se mueve hasta 100 (en dirección hacia los
frontales o front). En el paneo surround se ve como el punto verde de posición sigue la
línea trazada desde la posición surround hacia la frontal.
57

Figura 36. Automatización realizada desde altavoz trasero izquierdo hacia lo posición
central-derecho.
El control center % controla la cantidad de nivel que se envía al altavoz central. Si la voz se
encuentra paneada hacia el altavoz central como en la figura 35, al disminuir este control, la
voz empieza a bajar de nivel en el altavoz central y aparece paulatinamente en los altavoces
derecho e izquierdo frontales. Sin embargo, no desaparece del todo en el altavoz central.
Por otro lado, si la voz se encuentra paneada hacia el altavoz derecho o izquierdo frontales
este control no afecta.
Un buen uso para el control center % es en una automatización de paneo de izquierda a
derecha frontal. Mediante este control se disminuye la cantidad de información enviada al
altavoz central, de esta forma se evita que la salida de este altavoz se sobrecargue si ya
contiene muchos elementos. Es decir, el sonido se mueve de izquierda a derecha pasando
por el altavoz central sólo marcando un pequeño nivel en éste. Si el paneo fuese desde el
altavoz trasero izquierdo al trasero derecho o viceversa este control no influye.
Los controles de divergencia front, rear y f/r se ocupan para copiar sonidos en canales
aledaños de la siguiente forma:
58

– Si el sonido se encuentra paneado hacia el altavoz izquierdo: El control de

divergencia f/r copia el sonido en el altavoz trasero izquierdo. El control divergencia
front copia en los altavoces central y derecho frontal. El control divergencia rear no
produce cambios.
– Si el sonido de encuentra paneado hacia el altavoz trasero izquierdo: El control de

divergencia f/r copia el sonido en el altavoz frontal izquierdo. El control divergencia
rear copia el sonido en el altavoz trasero derecho. El control de divergencia front no
produce cambios.
– Si el sonido se encuentra paneado hacia el altavoz central: El control de divergencia

front copia el sonido en los altavoces derecho e izquierdo frontales. El control de
divergencia f/r copia el sonido en altavoces derecho e izquierdo traseros. El control
divergencia rear no realiza cambios.
Cabe aclarar que el sonido con los controles de divergencia comienza a aparecer
paulatinamente a medida que el control de divergencia respectivo se mueve. Es decir, el
sonido no aparece en altavoces aledaños inmediatamente al mismo nivel.
En el paneo de voces se ocupa el altavoz central como salida principal. Sin embargo, en la
mayoría de los casos, también se ocupan los altavoces derecho e izquierdo frontales como
complemento al altavoz central, para darle más “presencia”. Para esto, en la ventana de
paneo surround, se ocupa el control de divergencia.
En la figura 35 se muestra el control de paneo surround para la voz del personaje Octavia.
Mediante un punto verde que se mueve a través del espacio cuadriculado se muestra
visualmente hacia donde esta paneado el sonido. En este caso se tiene el sonido paneado
hacia el altavoz central con el control de divergencia front disminuido a 62 (lo cual también
lo asigna a los altavoces derecho e izquierdo frontal en menor nivel), esto se muestra
visualmente en el control de paneo surround como un trapezoide con su lado más pequeño
hacia los altavoces frontales.
Además del ajuste de paneos, también se ocupa la técnica de agregar una reverberación 5.1
para dar una mayor sensación surround. Para esto se crea un track auxiliar (aux input) al
cual se le agrega un plug-in de reverberación 5.1 para ser ocupado en voces, música o
efectos. Con este método se puede asignar reverberación con sonido envolvente a cualquier
track a través de envío (send), midiendo la cantidad de envío de señal mediante un Fader en
el dialogo send (ver figura 37).
59

Figura 37. Plug-in (izquierda) y Track Auxiliar (derecha) para reverberación 5.1.
Luego de realizar todos los paneos y automatizaciones de paneo, además del ajuste de nivel
individual, se pasa a la etapa de mezcla final (re-recording mix). En esta etapa se realizan
los ajustes finales al total de la mezcla, cuidando los niveles de salida y poniendo atención
en cada detalle.
Para esta etapa se ocuparon los canales llamados VCA Masters de Pro Tools a los cuales se
les asigna los grupos creados anteriormente: Voces, LuzFX (efectos de sonido de la “ luz
del poder”), naturaleza (efectos de sonido de viento, tormenta, caída de agua, entre otros),
motores y disp. y exp. (disparos y explosiones). Estos canales VCA pueden ser
automatizados y no varían la automatización individual de los canales de los grupos, ni las
relaciones de nivel entre ellos. Esto permite tener un control total sobre la mezcla sin
afectar, por ejemplo, la relación entre los envíos de efectos.
Una vez terminada la mezcla final se consulta al profesor patrocinante, quien discrimina si
está correcta o necesita modificaciones. Esta tarea en circunstancia laboral es realizada por
el director de la producción audiovisual. Al recibir la aprobación del trabajo se procede a
exportar la mezcla final.
60

4.2.4.3.1 Formato de Bounce. Para exportar la mezcla final se debe ir al menú File y
luego al menú “Bounce to disk”. Se abre una ventana de diálogo donde se elige el formato
de los archivos de salida y la forma en que se quiere exportar. En el caso de este trabajo se
exportan seis archivos mono en formato WAV, frecuencia de muestreo 48 Khz y
profundidad de 24 bits. Cada uno de estos archivos representa los canales izquierdo,
derecho, central, izquierdo surround, derecho surround y sub-bajo. Al nombre de los
archivos elegidos por el usuario se le agrega automáticamente un distintivo (L, C, R, Lf, Ls
y Rs) para saber a cual canal corresponde. Los archivos exportados son los siguientes:
– Bounce Final.L.wav
– Bounce Final.R.wav
– Bounce Final.C.wav
– Bounce Final.Lf.wav
– Bounce Final.Ls.wav
– Bounce Final.Rs.wav
Estos corresponden respectivamente a izquierdo frontal, derecho frontal, central, sub-bajo,
izquierdo surround y derecho surround.
4.3 CODIFICACIÓN
La etapa de codificación es una de las más importantes, pues crea el producto final,
realizando compresión tanto en audio como video. Si esta etapa no es realizada
correctamente puede dañar la calidad del trabajo previo.
El equipamiento utilizado en esta etapa es el siguiente:
– Computador portátil Apple Macintosh Macbook Pro, sistema operativo Mac OS X

Versión 10.6.8, procesador 2,4 Ghz Intel Core 2 Duo, memoria 4 GB, tarjeta de video
Nvidia GeForce 320M Vram 256 MB.
– Software Compressor de la suite Final Cut Pro
4.3.1 Aspectos generales software Compressor
El software Compressor es un programa que pertenece a la suite de Final Cut y es

exclusivamente usado en la codificación de audio y video, no es un programa de edición.
61

En él se cargan archivos de video y/o audio finalizados en su etapa de postproducción.

Consta de cuatro ventanas principales [34] (ver figura 38):
– Ventana Lote. La primera vez que se abre Compressor, se muestra la ventana Lote.
La cual permite importar archivos multimedia de origen para comprimir. Ademas,
permite añadir ajustes y destinos, dar nombre al lote y seleccionar dónde se desea
guardar el trabajo luego de la compresión. En esta ventana se colocan todos los
archivos multimedia de origen, como parte de los preparativos para la codificación o
transcodificación, entendiéndose por transcodificación la acción de pasar de un
formato de codificación a otro.
– Ventana Ajustes. Esta ventana permite gestionar de forma centralizada los ajustes
personalizados y también los ajustes de Apple que trae por defecto. Esta ventana se
utiliza junto con la ventana del Inspector para crear y modificar ajustes, decidir
exactamente qué ajustes desea utilizar para codificar o transcodificar el archivo de
origen y seleccionar el formato de salida al que desea convertir el archivo codificado.
– Ventana Inspector. En esta ventana se elige el codificador y también se ajustan los

controles de codificación comunes (para crear y modificar ajustes y destinos).
También aquí se puede acceder a una pestaña de resumen completa con todos los
detalles de cada ajuste e información acerca de los archivos multimedia de origen,
atributos de audio y video y datos de subtítulos opcionales.
– Ventana de vista previa. Esta ventana está formada por una pantalla dividida en dos
partes: en el lado izquierdo se muestra el archivo de video de origen seleccionado con
su formato original y en el lado derecho se muestra el aspecto que presentará el
archivo de video de salida. Esto permite comparar la versión original y codificada, y
configurar los ajustes en función a las necesidades del proyecto. Además, se puede
utilizar las opciones de esta ventana para recortar el fotograma y cambiar las
proporciones.
– Ventana Historial. Se encuentra en la parte inferior de la ventana “Vista Previa”

donde se ven las tareas de codificación que se están realizando y las ya realizadas.
También se puede acceder a los archivos finales ya codificados.
62

Figura 38. Software Compressor para codificación de audio y video.
Para más información sobre el funcionamiento del software ver capítulo 4.3.2 sobre
codificación.
4.3.2 Codificación mediante software compressor
Las posibilidades de codificación para video y/o audio ofrecidas por el software
Compressor son múltiples. Para realizar una adecuada compresión de video se debe tener
conocimiento de la resolución a la que se trabaja y el frame rate (cuadros por segundo) que
se usa. Además, se deben conocer las características de cada compresor y las opciones
sobre limitación de la tasa de transferencia de datos, que en el caso de streaming, son muy
importantes, no así para subir un video a la web. Con respecto al audio, dentro del
codificador elegido se encuentran múltiples opciones tanto para elegir un perfil específico
del codificador como para tratar la tasa de transferencia de datos.
En el software Compressor lo primero que se debe agregar es el audio con sonido

envolvente en la opción “Añadir sonido surround” (ver figura 39).
63

Figura 39. Menú software Compressor.
Al seleccionar esta opción se abre una ventana que permite agregar sonido envolvente (ver
figura 40). Se pueden agregar hasta 7 archivos de audio, es decir la posibilidad de trabajar
con sonido 6.1. Sin embargo, en este trabajo se cuenta con 6 archivos para sonido 5.1, por
lo tanto el altavoz central surround se deja sin archivo, lo que no influye ni causa errores.
También en esta misma ventana se agrega el archivo de video en el dialogo “Añadir Video”
que debe tener la misma duración de los archivos de audio.
El video agregado se obtuvo de la sesión de Final Cut creada para editar el trailer de este
trabajo, cuya duración es de 2:42 minutos. Este video se exporto sin compresión y sin
audio, pues es utilizado para crear el archivo multimedia final. Posee un tamaño
aproximado de 6 Gigabytes.
64

Figura 40. Ventana para agregar sonido surround y video.
Luego de agregar los 6 archivos de audio y el archivo de video, se procede a configurar las
opciones de codificación. El video se codifica con MPEG-4 video, y el audio con MPEG-4
AAC LC (320 kbps). La única forma de agregar sonido surround al video es ocupando el
encapsulamiento MOV (ver figura 41) por lo tanto el archivo multimedia queda en formato
Quicktime (QT). Este encapsulamiento no influye en el resultado final, pues posteriormente
se realiza una transcodificación en el software VLC que cambia el formato de
encapsulamiento a MPEG-TS que es el ocupado en este trabajo para transmisión o
streaming).
65

Figura 41. Ventana de configuración Inspector de sofware Compressor.
Luego de configurar todos los parámetros necesarios, se procede a dar inicio al proceso de
codificación mediante la opción “enviar” en la ventana Lote. Este proceso puede ser
monitoreado en la ventana historial. Al finalizar la codificación se obtiene un archivo
multimedia de video y audio con sonido envolvente.
4.4 TRANSCODIFICACIÓN Y TRANSMISIÓN
El equipamiento utilizado es el siguiente:
– Software VLC.
– Computador PC, sistema operativo Windows 7 ultimate 32 bits, Intel Pentium 4, 2.4
Ghz, memoria 2 GB, tarjeta de video AMD2 256 MB.
– Computador portátil Apple Macintosh Macbook Pro, sistema operativo Mac OS X

Versión 10.6.8, procesador 2,4 Ghz Intel Core 2 Duo, memoria 4 GB, tarjeta de video
Nvidia GeForce 320M Vram 256 MB.
66

– Conexión Telsur de 6 MB de bajada, 0.5 MB de subida (conexión computador Mac

en Valdivia).
– Conexión VTR de 6 MB de bajada, 0.5 MB de subida (conexión computador PC en
Viña del Mar).
– Interface Presonus Firestudio (usada como tarjeta de salida 5.1)
– Home theater Creative Inspire 5200 5.1
– Altavoz sub-bajo KRK modelo RP10.
4.4.1 Aspectos generales software VLC
VLC es un software libre y de código abierto que funciona como reproductor multimedia
(ver figura 42). Es capaz de reproducir la mayoría de los formatos de audio y video, soporta
múltiples protocolos de streaming y cuenta con la capacidad de transcodificar archivos
multimedia para transformarlos, por ejemplo, a formato de transport stream.
Figura 42. Reproductor multimedia VLC en Mac OSX.
VLC presenta las típicas características de un reproductor multimedia para reproducción de

audio y video. Sin embargo, es mucho más estable en la reproducción y además cuenta con
la mayoría de codecs para todos los formatos, sin tener que agregar paquetes de codecs
extras. Por lo tanto reproduce sin problemas material codificado para sonido envolvente
con diferentes codecs como Dolby, DTS o AAC.
La característica más importante para ocuparlo en la realización de este trabajo es su

capacidad de transcodificar y emitir a red. Cuenta con un asistente de emisión y
67

exportación, el cual nos permite transcodificar un archivo multimedia, prepararlo para

streaming y transmitirlo con diferentes protocolos, o simplemente guardarlo en un formato
mas comprimido.
4.4.2 Transcodificación y transmisión mediante software VLC
La transcodificación del archivo se realiza aplicándose sólo al formato de encapsulamiento,

el cual cambia la extensión .MOV a .TS ( transport stream) que es el formato adecuado para
transmisión . Los formatos MPEG-4 video y AAC para el audio 5.1 no se modifican.
Es posible que las transmisiones o streaming se puedan realizar en otro tipo de

encapsulamiento en VLC. Sin embargo, para este trabajo se ocupa el encapsulamiento
MPEG y formatos AAC para codificación de audio y MPEG-4 para video, que son los
utilizados en la televisión digital ISDB.
Para realizar la transcodificación se debe abrir “asistente de emisión/transcodificación” de

VLC (ver figura 43). En este asistente se elige el archivo multimedia que hemos obtenido
desde el software Compressor (Video MPEG-4 Audio AAC-HE 5.1 en contenedor .MOV)
y se eligen los parámetros de transcodificación.
Figura 43. Asistente de emisión/transcodificación de software VLC.
68

Al abrir el asistente de emisión/transcodificaciónn se omite la opción de transcodificación

de audio y video (ver figura 44), pues se desea mantener los formatos de codificación de
audio y video que posee el archivo multimedia. En la ventana siguiente se elige la opción
MPEG-TS (MPEG Transport Stream), el cual es el formato contenedor para realizar
streaming (ver figura 45). Luego de esto se elige un nombre para guardar el archivo y VLC
realiza la transcodificación. De este proceso se obtiene un archivo llamado “Trailer
Final.ts”. Este archivo mantiene las compresiones de video y audio obtenidas en el software
Compressor, pero su formato de encapsulamiento es MPEG Transport Stream.
Figura 44. Ventana de transcodificación del asistente de emisión/transcodificación de

VLC.
69

Figura 45. Ventana de elección del formato contenedor o de encapsulamiento en software

VLC.
Este archivo fue enviado por Internet para ser transmitido desde la ciudad de Viña del Mar
mediante el software VLC a través de Internet en tiempo real y recibir la transmisión como
cliente en el mismo software en Valdivia.
Una vez instalado el software VLC en el Computador PC en Viña del Mar se debió realizar
ajustes en la conexión para funcionar como emisor de la transmisión. Para esto se habilitó
un puerto especifico en el router de acceso a Internet (ver figura 46). Se ingresó a la
configuración del router a través de un navegador web mediante la dirección IP de acceso
local, luego en la ventana Virtual Server se configuró el puerto que se necesita para un
tráfico específico desde o hacia Internet. El puerto 11345 fue elegido para transmitir.
70

Figura 46. Configuración de puertos en router Dlink en ventana Virtual Server.
Luego de realizar la configuración del puerto específico en el router se ejecuta el software

VLC y se abre la ventana de salida de emisión (ver figura 47). En esta ventana se elige la
opción de protocolo de transmisión. El protocolo elegido HTTP es el más estable y
compatible para este propósito. También se especificó el puerto de salida (11345) y el
formato de encapsulamiento que posee el video.
71

Figura 47. Ventana de salida de emisión de software VLC (en Windows).
Luego de ingresar todos los parámetros se comienza con la transmisión (ver figura 48).
Cabe destacar que quien realiza la transmisión solo ve una línea de tiempo en el software
pero no escucha ni ve el archivo multimedia que se está emitiendo.
Figura 48. Software VLC realizando streaming del archivo multimedia.
72

Una vez que el software VLC se encuentra funcionando como servidor de transmisión se
puede acceder al streaming de video desde otro computador a través de la red. En este caso
se accedió a la transmisión a través del software VLC instalado en el Laptop Macbook Pro.
Para poder monitorear el sonido envolvente se conecta el Laptop a una interface Presonus
Firestudio de conexión Firewire. Se conectaron altavoces de sistema home theater Creative
y un sub-bajo KRK para aumentar la respuesta en frecuencias bajas del sistema (ver figura
49).
Figura 49. Esquema de conexión de equipamiento para recibir y monitorear con sonido
envolvente el streaming recibido a través de VLC.
En el software VLC se elige el menú “abrir red” (ver figura 50). En esta ventana se anotan
los parámetros para lograr abrir la transmisión que está siendo emitida. En este caso los
datos a ingresar fueron los siguientes:
http://200.104.172.115:11345
Donde http es el protocolo de transmisión, 200.104.172.115 es la dirección IP externa del
computador que está transmitiendo y 11345 el puerto por donde se transmite.
73

Con esto se logró ver el archivo multimedia con sonido envolvente transmitido desde Viña
del Mar con una calidad aceptable (algo pixelada) en la imagen e intacta calidad de audio
(ver figura 51).
Figura 50. Ventana de apertura de red (transmisión o streaming) de software VLC.
Figura 51. Transmisión recibida por protocolo http a través de software VLC.
74

5 DISCUSION DE RESULTADOS Y CONCLUSIONES
– La postproducción de audio con sonido envolvente, es un proceso complejo que

requiere planificación y orden, debido a la cantidad de elementos y tareas que son
necesarias para su desarrollo. Es por esto que de acuerdo a las necesidades y
envergadura de un proyecto, se definen etapas que facilitan el trabajo en equipo,
evitando pérdidas de tiempo que pueden afectar la calidad del producto final.
Las etapas identificadas en la realización de una postproducción son divididas a su

vez, en sub-etapas o tareas, las cuales pueden ser realizadas de forma sucesiva y/o
simultanea, por personas especializadas en las diferentes áreas de trabajo (diseño de
sonido, grabación de diálogo, creación musical, entre otros).
Las etapas en la realización de la postproducción de este trabajo fueron adaptadas
sobre la base del sistema planteado por Meyer Sound. Esta forma de dividir el trabajo
fue de gran utilidad. Sin embargo, como se mencionó anteriormente cada proyecto
tiene sus propias necesidades y en el caso particular de este trabajo, se debió realizar
tareas y etapas de forma simultánea debido a que la postproducción fue realizada sólo
por una persona. Por ejemplo, al diseñar un sonido e incorporarlo a la sesión de Pro
tools se automatizó el paneo y se reguló su nivel, abarcando etapas de creación,
edición y pre-mezcla.
– Para abordar la mezcla en este trabajo fue elegida la perspectiva directo/ambiente, la

cual es comúnmente usada en producciones audiovisuales. Esto facilitó la revisión de
material audiovisual abordado con esta perspectiva antes de comenzar el trabajo de
postproducción. Una de las técnicas para la revisión del material fue silenciar
altavoces del arreglo para escuchar y analizar el comportamiento de los demás. Por
ejemplo, silenciar los altavoces frontales y escuchar el tipo de sonidos que es enviado
a los altavoces surround.
Una vez asumido el concepto de perspectiva directo/ambiente se realizó la mezcla en
Pro Tools. La postproducción en su etapa final fue evaluada por el profesor
patrocinante, quien en conjunto con el alumno tesista realizaron los últimos ajustes
antes de considerar que el trabajo estaba terminado. Los ajustes finales consistieron
en cambiar un efecto de sonido que sonaba con saturación y ajustar niveles que
interferían con la inteligibilidad de las voces en algunos pasajes.
– La codificación perceptual de audio basada en la psicoacústica ha logrado que las
tecnologías de compresión puedan disminuir en altas tasas el tamaño de datos de un
archivo de audio, sin causar pérdidas aparentes en la calidad. El formato AAC
ocupado en este trabajo resulto ser óptimo en la compresión, logrando que el archivo
multimedia final mantuviera su calidad de audio.
75

– La elección de la sala para monitorear sonido envolvente en este trabajo, se basó en

criterios de dimensiones mínimas recomendadas según ITU-R BS.1116 y EBU Rec.
R22. Además se midió tiempo de reverberación y ruido de fondo para determinar el
comportamiento de la sala en comparación con los parámetros propuestos en la
recomendación.
Al evaluar tiempo de reverberación se puede observar que por debajo de la frecuencia
de 3000 Hz (ver figura 21) la sala no cumple los requerimientos de la recomendación.
Por debajo de los 1000 Hz la diferencia entre la reverberación medida y la permitida
se pronuncia aún mas, alcanzando diferencias desde 0,2 a 0,3 segundos
aproximadamente. Estas diferencias no provocaron problemas significativos para
realizar el trabajo de postproducción. Sin embargo, una eventual evaluación auditiva
realizada por un Ingeniero experimentado en una sala acorde a la recomendación,
debería presentar problemas de ecualización en las frecuencias que sobrepasan el
tiempo de reverberación recomendado.
Frente a esta disyuntiva en cuanto a la subjetividad en la evaluación auditiva, se
presentó el material audiovisual de esta tesis en el Cine Club de la Universidad
Austral de Chile, dentro del marco del Seminario de Mezcla y diseño de sonido para
proyectos audiovisuales dictado en Octubre de 2012. La evaluación del público
presente, incluido ingenieros acústicos, con respecto a la calidad de la mezcla fue
positiva. Sin embargo no se tiene información con respecto al cumplimiento de
estándares internacionales de acústica y equipamiento electroacústico para esta sala.
Por lo tanto, se concluye de esta experiencia que la influencia del acondicionamiento

acústico de una sala sobre el trabajo de postproducción obtenido dependen por una
parte, de la subjetividad del oyente y de las condiciones en que se evalúa el trabajo.
Sin embargo, es recomendables regirse de acuerdo a recomendaciones establecidas
para asegurar la obtención de un trabajo de postproducción de calidad profesional que
obtenga buenas críticas en diferentes condiciones de exhibición.
Al evaluar el ruido de fondo se excede un NR 15, que según la recomendación no

debe ser sobrepasado. Se puede apreciar que sobre los 3000 Hz es donde se excede
este criterio (ver figura 22). Este hecho es provocado por equipos adosados a la pared
colindante a la sala sin ningún tipo de tratamiento para vibraciones. Por lo tanto la
pared actúa como radiador de esas vibraciones. Si embargo, dados los niveles con los
que se trabaja en la postproducción, la influencia del ruido de fondo no fue
significativa.
– La codificación del material final obtenido de la postproducción es importante, ya que

en este proceso el audio es degradado (comprimido). Por lo tanto conocer los ajustes
del codificador es indispensable. De lo anterior se concluye que al trabajar en
postproducción de audio para producciones audiovisuales, se debe estar capacitado
76

para realizar una correcta codificación tanto en formatos de audio y video si es

necesario.
El software Compressor presenta múltiples opciones para realizar la codificación del

archivo. Entre ellas podemos destacar ajustes de generación que influyen en la
calidad dependiendo del tiempo, es decir, mientras más rápido se realice el proceso,
menor calidad se obtiene. Otra alternativa que aparece al activar los ajustes
avanzados, es la estrategia de codificación que permite elegir entre velocidad de bits
constante o variable. Este parámetro entrega variabilidad de velocidad de
transferencia de bits dependiendo de las características del material codificado.
El archivo multimedia obtenido en primera instancia poseía las siguientes

características en cuanto a codificación de audio:
– Formato Codificador: MPEG-4 AAC LC
– Canales: 5.1 (6 canales)
– Ajustes de generación: Calidad óptima (generación más lenta)
– Estrategia de codificación: Velocidad media
– Velocidad de bits: 320 Kbps (velocidad de transferencia de bits o bit rate)
Este archivo multimedia fue monitoreado en un sistema home theater doméstico para
revisar su calidad, además de esto se escuchó en un sistema configurado en modo
estéreo. El downmix a dos pistas (derecha e izquierda) es realizado automáticamente
por el software que se esté ocupando para reproducir, siempre que cuente con el
decodificador correspondiente. El resultado al escuchar el material en sonido
envolvente y estéreo fue satisfactorio.
– El primer archivo multimedia obtenido de la codificación, no logró una transmisión

fluida a través de Internet. Por esta razón en las siguientes pruebas El material se
debió degradar en la imagen hasta llegar a un tamaño de 10 megabytes. Se tomó la
decisión de no degradar más el video y probar esta configuración. El resultado
obtenido fué una transmisión relativamente fluida, con algunas interrupciones
provocadas por la suma de variables (routers, conexión inalámbrica, tráfico de
Internet, ancho de banda disponible entre otros) que influyen en un streaming de estas
características.
Un tópico de investigación que se desprende de esta experiencia, es calcular cuántos

clientes logran ver un video en streaming con sonido envolvente cuando se cuenta
con un servidor dedicado. Es decir, calcular la velocidad de subida, capacidad del
computador que transmite y calidad de la transmisión versus cantidad de usuarios
77

conectados. También se puede investigar sobre formatos óptimos para realizar un

streaming a través de Internet, ya que en este trabajo la elección de formatos se limitó
a los ocupados en la norma de televisión digital ISDB-T.
La transmisión de prueba realizada no es una transmisión en HD, pues las limitantes

de las conexiones a Internet, como los routers y demás variables, impiden transmitir
en tiempo real un video con estas características. También se puede agregar que en
una transmisión de televisión digital terrestre, se cuenta con un ancho de banda fijo
que es capaz de transportar el material codificado a través del aire hasta el receptor
conectado a la televisión entregando sin problemas sonido envolvente e imagen con
resoluciones de hasta 1920 x 1080 pixeles (full HD).
78

6 BIBLIOGRAFIA
1. Holman, Tomlinson, 5.1 Surround Sound: Up and Running, Focal Press, Boston
Oxford (2000).
2. Mayo, Andrés (2007), Historia, presente y futuro de la codificación multicanal, La

columna de Andrés Mayo. Extraído el 20 de Julio del 2009 de la World Wide Web:
http://www.andresmayo.com/data/
3. Mayo, Andrés (2007), Como preparar el audio para un DVD, La columna de Andrés
Mayo. Extraído el 20 de Julio del 2009 de la World Wide Web:
4. Mayo, Andrés (2007), Precisiones sobre el funcionamiento de Dolby Digital, La

columna de Andrés Mayo. Extraído el 20 de Julio del 2009 de la World Wide Web:
5. Herre, Jürgen y Dietz, Martin (2008), MPEG-4 High-Efficiency AAC Coding, IEEE
Signal Processing Magazine, Vol 25, páginas 137-142. Extraído el 18 de Diciembre
del 2009 de la World Wide Web: http://www.ieee.org/portal/site
6. SUBTEL (2009), Recomendaciones sobre especificaciones técnicas mínimas para los

equipos receptores de TV digital- Comisión consultiva técnica - Chile. Extraído el 15
de Diciembre del 2009:
http://www.subtel.cl/prontus_tvd/site/artic/20090914/pags/20090914093202.html
7. Aguilar, Juan (2003), Codificación perceptual del audio digital: una introducción,
trabajo presentado como parte del curso Control Digital dictado por profesor Dr.
Francisco Watkins.
8. Brandenburg, Karlheinz (1999), MP3 and AAC explained, AES 17th International
Conference on High Quality Audio Coding 1999.
9. Gaston, Leslie y Sanders, Richard (2008), Evaluation of HE-AAC, AC-3, and E-AC-
3 Codecs, Journal of the Audio Engineering Society, Vol 56, Nº 3, páginas 140-155.
10. Bosi, M., Branderburg, K., Quackenbush, S., Fielder, L., Akagiri, K., Fuchs, H.,
Dietz, M., Herre, J., Davidson, G., Oikawa, Y. (1997), ISO/IEC MPEG-2 Advanced
Audio Coding, Journal of the Audio Engineering Society, Vol 45, Nº 10, páginas
789-814.
11. ABNT Associacao Brasileira de Normas Técnicas (2007), ABNT NBR 15602-2
Televisión digital terrestre-Codificacion de video, audio y multiplexación Parte 2:
Codificación de Audio.
79

12. Dae-Young Jang, Jeong-il Seo, Taejin Lee, Jin-Woo Hong y Kyeongok Kang (2002),
Implementation of Multi-channel AAC encoger for high quality audio Broadcasting,
IEEE Xplore, descargado el 18 de Diciembre de 2009 de la World Wide Web:
http://www.ieee.org/portal/site
13. Torrealba Mahuad, Ramón Alejandro (2008), Montaje y aplicación de un sistema
multicanal 5.1 para producción musical, Tesis Ingeniería Acústica, Facultad de
Ciencias de la Ingeniería, Universidad Austral de Chile.
14. Fortune Bayer, Jorge (2007), Montaje, Operación y Resultados de un Estudio de
Grabación, Mezcla y Masterización digital de bajo costo, Tesis de Ingeniería
Acústica, Facultad de Ciencias de la Ingeniería, Universidad Austral de Chile.
15. Vidal López, Alejandra Lorena (2008), Estudio teórico de la norma técnica Europea
DVB-T y su posible adopción en Chile. Tesis Ingeniería civil Electrónica, Facultad
de Ciencias de la Ingeniería, Universidad Austral de Chile.
16. ISO 354 (1985), Measurement of sound Absorption in a reverberation room.
17. ITU-R BS.1116-1 (1997), Methods for the subjective assessment of small
impairments in audio Systems including multichannel sound systems.
18. ITU-R BS.775 (1992), Multichannel stereophonic sound system with and without
accompanying picture.
19. EBU Rec. R22 (1997), Listening conditions for the assessment of sound programme
material.
20. Walker, Robert (1998), A controlled-reflection Listening room for Multi-Channel
Sound, Presentado en “The 104th Convention AES 1998 Amsterdam”.
21. DIBEG (Digital Broadcasting Expert Group) (2010), Transmisión de televisión
digital terrestre ISDB-T.
22. Dolby Laboratories, Inc. (2000), 5.1 Channel Production guidelines.
23. Dolby Laboratories, Inc. (2012), Dolb TrueHD Lossless Audio Performance.
24. ISO/IEC 13818-7 (2004), Information technology- Generic coding of moving
pictures and associated audio information- Part 7: Advanced Audio Coding (AAC).
25. Meltzer, Stefan y Moser Gerald, (2006), MPEG-4 HE-AAC V2 audio coding for
todays media world.
80

Asistencia a conferencias y exposiciones

26. AES 1st. Latin American Conference Surround Sound Buenos Aires Argentina
19, 20 y 21 Agosto 2007:
“The history and future of surround sound”, Tomlinson Holman (TMH Labs, USA)
“Multichannel sound for broadcasting, now and the future” Kimio Hamasaki (NHK
Japón).
27. Conferencia AES Chile 2009, realizada en Santiago los días 5,6 y 7 de Noviembre:
“Audio production for digital Broadcasting”, Kimio Hamasaki (NHK Japón).
“Sound for future Broadcasting”, Kimio Hamasaki (NHK Japón)
“Demostración de sistema de audio multicanal 22.2”; Kimio Hamasaki (NHK Japón)
“Conceptos de Mezcla y Mastering en surround 5.1”, Andrés Mayo (AES Argentina)
Páginas Web
28. Apuntes Neuroanatomía UFRO, Oído Interno, Consultada en Junio de 2010 :
http://www.med.ufro.cl/Recursos/neuroanatomia/archivos/fono_oido_archivos/Page3
42.htm
29. Meyer Sound, Movie Sound Explained: From set to Screen, Consultada en Abril de
2012: http://meyersound.com/news/2011/exp_process/#diagram_anchor
Manuales
30. Digidesign, Pro Tools Reference Guide.
31. Digidesign, Digirack Plug-ins Guide.
32. De Lattre, A., Bilien, J., Daoud, A., Stenac, C., Cellerier, A. y Saman, J.P. (2005),
Videolan How to streaming.
33. Digidesign, 192 I/O setup Guide.
34. Apple, Manual de Usuario Compressor.
81

7 ANEXOS
7.1 ANEXO 1
7.1.2 Manejo de bajos o Bass Management
El Bass Management es un sistema electrónico por el cual las señales comprendidas debajo
de la frecuencia de corte inferior de cada canal principal son enviadas sumadas al altavoz
sub-bajo junto con el contenido de LFE.
La figura x muestra un diagrama de bloques del funcionamiento del manejo de bajos. Los
filtros pasa altos en cada canal se complementan con un filtro pasabajos en la cadena de
alimentacion del sub-bajo. La señal proveniente del canal LFE amplificada en +10 dB es
sumada a la resultante de los filtros pasabajos aplicados a cada canal principal.
Figura 52. Diagrama de bloques de sistema Bass Management.
La razón principal de porque se debería ocupar un sistema de Bass Management en un

estudio de postproducción 5.1 es porque aun teniendo un sistema capaz de reproducir hasta
20 Hz en todos los canales, la suma acústica de graves en la sala de control daría un
resultado muy diferente a la suma eléctrica producida en el Home theater del espectador en
su hogar.
82

Otro problema derivado del uso de canales de frecuencia completa es que cada canal tendrá
diferente respuesta en el punto de escucha debido a las diferentes funciones de transferencia
de cada altavoz que reproduce frecuencias bajas.
Todas estas características sumadas a la respuesta de la sala pueden llevar a la paradoja de

que el sistema hogareño pueda en ciertos casos tener mejor respuesta en frecuencias graves
que el mismo estudio de postproducción, debido a que cuenta con un sistema de bass
Management incorporado.
Por lo tanto si se va a preparar material para consumo hogareño es indispensable contar con
un sistema de Bass Management [3].
7.2 ANEXO 2
7.2.1 Norma ISDB-T
Chile eligió la norma ISDB para su sistema de transmisión de televisión digital terrestre.
El estándar de televisión digital japonés, Integrated Services Digital Broadcasting (ISDB),
fue establecido por la Association of Radio Industries and Businesses de Japón (ARIB) y es
promovido en el mundo por el Digital Broadcasting Experts Group (DiBEG). La
investigación y desarrollo para ISDB comenzó en los años 1980 y el estándar propiamente
tal fue forjado en los años 1990. El estándar ISDB en sus documentos especifica la
distribución de video digital por satélite (ISDB-S), cable (ISDB-C) y terrestre (ISDB-T),
este último incluyendo terminales móviles (como por ejemplo celulares). ISDB fue
diseñado en torno al estándar de codificación de audio y video MPEG-2 (norma ISO/IEC
13812), y contiene especificaciones para transmisión de televisión de resolución estándar,
en modo multiplexado, y de alta definición (HDTV). [15]
La ISDB-T toma en consideración la conformidad entre la transmisión televisiva y de

sonido. Con segmentos completos apoya la transmisión de televisión digital terrestre. Puede
suministrar transmisión de datos que consisten en texto, diagramas, imágenes fijas e
imágenes de video para aparatos portátiles, así como imagen y sonido de alta calidad. En
contraste con transmisión digital por satélite, tiene la capacidad de ofrecer información de
interés local detallada. Más aun, tiene un gran potencial para difundir a terminales móviles
de multimedia, tales como radios para autos, celulares y receptores móviles de bolsillo.[21]
Los requerimientos considerados durante el desarrollo de la ISDB-T fueron los siguientes:
– Ser capaz de proveer una variedad de servicios de video, sonido y datos.
– Ser robusto ante cualquier interferencia multitrayectoria y perdida de intensidad
durante la recepción portátil o móvil.
83

– Tener receptores separados dedicados a la recepción, sonido y datos, así como

receptores completamente integrados.
– Ser flexible para acomodar diferentes configuraciones de servicios y asegurar
flexibilidad en el uso de capacidad de transmisión.
– Abarcar un área suficientemente amplia para asegurar la satisfacción de
requerimientos futuros
– Acomodar redes de frecuencia única (SFN)
– Usar frecuencias vacantes efectivamente
– Ser compatible con servicios análogos existentes y otros servicios digitales
Para satisfacer todos los requerimientos, la ISDBT-T ha utilizado una serie de herramientas
únicas tales como el sistema de modulación de OFDM asociado con la segmentación de
bandas, que le da al sistema una gran flexibilidad y la posibilidad de transmisión jerárquica,
tiempo, intercalación que contribuye a alcanzar la robustez requerida por la recepción
móvil y portátil dándole además una poderosa robustez al sistema contra ruidos impulsivos
y Control de Configuración de Multiplexación y Transmisión (TMCC) que permite un
cambio dinámico de los parámetros de transmisión para ajustar el sistema para un
rendimiento optimizado dependiendo del tipo de transmisión (televisor de alta definición,
recepción móvil, etc.)[21].
Las transmisiones y características que ofrece la ISDB-T son las siguientes:
– Transmisión de programas de televisión en HD (High definition).
– Transmisión de múltiples programas de televisión en SD (Standar definition). Estos
programas se transmiten en vez de un solo programa en HD.
– Guía de programas electrónica.
– Transmisión de datos tales como pronóstico climático o información del tráfico en las
calles.
– Acceso a Internet mediante los receptores de ISDB-T.
– Recepción móvil de HDTV, como por ejemplo receptores que se instalan en
automóviles.
– One-seg service: Servicios de televisión de receptores portátiles o de mano. Tales
como celulares.
– La posibilidad de transmitir sonido de alta calidad en formatos mono, estéreo y
multicanal.
84

Bmfcig 934 P

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Bmfcig 934 P

Cargado por

Copyright:

Formatos disponibles

Universidad Austral de Chile

Facultad de Ciencias de la Ingeniería

“POSTPRODUCCIÓN DE AUDIO CON SONIDO

Tesis para optar al grado de:

CÉSAR JONATHAN GUERRA ORTIZ

A mi compañera Eliana, gracias por tu amor, apoyo y ayuda incondicional.

Finalmente agradecer a Dios por sus bendiciones.

3.7.5 Codificación MPEG-4 AAC............................................................................... 28

5 DISCUSIÓN DE RESULTADOS Y CONCLUSIONES ......................................... 75

El siguiente documento describe el proceso completo de la postproducción de audio en

Posteriormente, se evalúa la acústica de la sala de monitoreo, se realiza la instalación del

Una vez finalizada la postproducción, se comprimen los archivos de audio mediante el

Palabras Claves: Audio, envolvente, postproduccion, codificación, perceptual.

Key Words: Audio, surround, post-production , encoding, perceptual.

2.1 OBJETIVO GENERAL

Realizar la postproducción de audio de una producción audiovisual con formato de sonido

2.2 OBJETIVOS ESPECIFICOS

1) Determinar y describir las etapas a seguir en la realización de una post-producción de

3.1 ANTECEDENTES HISTORICOS

A mediados de 1970 el cine experimenta una reactivación gracias a nuevos desarrollos. El

En 1987, un subcomité de la Society of Motion Picture and Television Engineers (SMPTE)

Figura 1. Formatos de audio en filme de 35 mm [2].

La norma de Televisión Digital ATSC en Norteamérica inició sus transmisiones

En la actualidad con la aparición de nuevos formatos de discos como el Blu-ray y el HD-

3.2 LOCALIZACION DE ALTAVOCES EN UN SISTEMA 5.1.

Figura 2. Ubicación de altavoces según recomendación ITU-R BS.775 [18].

Aparte de la disposición de los altavoces según recomendación ITU-R BS.775, existen

Figura 3. Disposición de altavoces alternativa para acomodar clientes [22].

Figura 4. Disposición de altavoces en sala de mayor envergadura [22].

3.3 ACÚSTICA PARA MONITOREO DE SONIDO ENVOLVENTE

Las recomendaciones sugeridas en el libro de Tomlinson Holman, 5.1 Surround Sound: Up

– Del organismo International Telecommunication Union (ITU): ITU-R BS.1116

Adicionalmente, deben ser cumplidas las condiciones:

l/h < 3 (2)

w/h < 3 (3)

Con respecto al tiempo de reverberación, el valor promedio de reverberación, Tm, medido

Las tolerancias aplicadas a Tm sobre el rango de frecuencias de 63 Hz a los 8 kHz son

Figura 5. Gráfico de límites de tolerancias de tiempo de reverberación, relativos al valor

3.4 ETAPAS EN LA REALIZACIÓN DE UNA POSTPRODUCCIÓN

Ya sea en un estudio de nivel mundial, o una persona trabajando en un home- estudio, el

– Creación y edición: Esta etapa incluye la creación de efectos de sonido (diseño de

Figura 6. Etapas en la postproducción de audio (adaptado de esquema [29]).

3.4.1 Creación y edición

– ADR (Automated sound replacement/ recording): Es la grabación de diálogos

– Música original o scoring: Es la música compuesta especialmente para la

– Música de fuente (Source Music): Es música previamente creada que es elegida

– Pre-mezcla (premix). Debido a la gran cantidad de pistas individuales, la mayoría de

– Mezcla final (re-recording mixing). Todos los elementos de la película son

El formato de codificación elegido dependerá de la forma de exhibición. Por ejemplo, una

– Exhibición. El sonido es reproducido en el cine o en otro tipo de exhibición,

También el material puede ser exhibido a través de televisión en un broadcasting

3.5 FUNDAMENTOS DE MEZCLA MULTICANAL PARA

3.5.1 Formas de abordar la mezcla

Un ejemplo de la perspectiva directo/ambiente, es la película “Rescatando al Soldado

El segundo aproximamiento es llamado directo/sonido alrededor (direct/sound all around).

3.5.2 Mezcla y mecánica del paneo

Figura 7. Paneo digital multicanal de Software DAW.

El control de foco (focus control) es prácticamente el mismo concepto de la divergencia

3.6 CODIFICACION PERCEPTUAL DE AUDIO

La tarea básica de un sistema de codificación perceptual de audio es comprimir los datos de

– El audio reconstruido (decodificado) suene exactamente igual (o lo más cercano) al

La codificación perceptual es una técnica de compresión con pérdida, es decir, el archivo

En efecto, la calidad de uno u otro formato de compresión radican en el depuramiento de