Está en la página 1de 14

Lic.

en Música y Tecnología - Escuela Universitaria de Artes


Universidad Nacional de Quilmes

2021

Plan de Tesis

“Separación de fuentes en grabaciones de

batería mediante aprendizaje automático”

Autor: Iñaki Goyeneche. E-mail: igoyeneche.98@gmail.com

Director: Lic. Juan Mariano Ramos

Co-director: Dr. Pablo E. Riera

Fecha de presentación:
Resumen

La presente tesis tiene como fin el desarrollo de una herramienta innovadora para
la separación de fuentes en grabaciones de batería, accesible para la comunidad
artística, a partir de la utilización de aprendizaje automático. La investigación se
basa principalmente en la adaptación del modelo Demucs, diseñado para la
separación de fuentes en canciones. El mismo no es capaz, inicialmente, de
individualizar los distintos cuerpos de una batería, pero su arquitectura admite la
posibilidad de realizar esta adaptación a partir del entrenamiento con una base de
datos apropiada.

Introducción

El acelerado desarrollo de tecnologías aplicadas a la música y el sonido ha


desplazado una gran proporción de la producción hacia el dominio digital, lo cual
generó una democratización de las herramientas necesarias para el desarrollo de
producciones musicales. El surgimiento y la expansión de los home-studios marcó
un antes y un después en el enfoque y la forma en la que se desarrollan la
producción y la grabación.

Sin embargo, las grabaciones de cuerpos de batería, en particular, suelen


representar un problema en las producciones semiprofesionales debido a los
requerimientos técnicos, especialmente respecto a la cantidad de
preamplificadores y micrófonos requeridos.

Las grabaciones monoaurales, es decir, aquellas realizadas a partir de la toma de un


solo micrófono, no suelen utilizarse profesionalmente debido a la dificultad de la
espacialización y el procesamiento individual de los cuerpos. Sin embargo, resulta
una práctica habitual en contextos de bajos recursos técnicos o materiales, tales
como: grabaciones con teléfonos móviles, en home studios, producciones de
estudiantes, de músicos aficionados en general y con fines de colaboración virtual

Página 1 de 13
(una práctica cada vez más frecuente). Se propone la investigación en la separación
de fuentes en grabaciones de percusión monoaurales, a partir de la utilización de
un sistema de aprendizaje automático, para desarrollar una nueva herramienta
accesible para la comunidad artística y semiprofesional.

La investigación se basará principalmente en la arquitectura del proyecto de código


abierto Demucs (A. Defossez, N. Usunier, L. Bottou y F. Bach) [1], diseñado por
investigadores de Facebook para la separación de canciones en pistas de voz, bajo,
batería (en un solo bloque) y otros. Demucs no es capaz, inicialmente, de
individualizar los distintos cuerpos de una batería, pero su arquitectura admite la
posibilidad de realizar esta adaptación si se cuenta con un conjunto de datos
apropiado para su entrenamiento. Esta descomposición permitirá que,
posteriormente, el usuario pueda aplicar un proceso de mezcla distinto a cada
fuente, permitiendo reducir los costos y la complejidad de la grabación de baterías
en pos de la democratización de las oportunidades de desarrollo musical.

Objetivos

a. Objetivo general

El objetivo general de la tesis propuesta es el desarrollo de una herramienta de


software basada en aprendizaje automático1, que permita separar las fuentes
presentes en una grabación de batería. Para esto se realizará una implementación y
entrenamiento del modelo de aprendizaje automático para la separación de fuentes,
Demucs, pero específicamente aplicado a la diferenciación de cuerpos de batería.
La herramienta propuesta busca obtener, a partir de una grabación de batería, las
pistas individuales que contengan sus distintas fuentes como un redoblante,
bombo, platillo y toms. La finalidad principal es prestar una asistencia moderna e

1
El aprendizaje automático es una rama de la inteligencia artificial, cuyo objetivo es el desarrollo de
programas capaces de “aprender” a través de la experiencia reiterada en la realización de una tarea
específica (entrenamiento), de forma que su performance mejore paulatinamente con este proceso.

Página 2 de 13
inclusiva al problema que con frecuencia conlleva la grabación de baterías en
contextos de bajos recursos técnicos o materiales, tales como: grabaciones
realizadas con teléfonos móviles, en home studios, por estudiantes, músicos
aficionados en general, y las cada vez más relevantes colaboraciones virtuales.

b. Objetivos específicos

1. Analizar los modelos de aprendizaje automático preexistentes dedicados a la


separación de fuentes en mezclas polifónicas y de separación de cuerpos
percusivos.
2. Generar una base de datos dedicada al entrenamiento del modelo. Para esto
se realizarán programaciones de baterías con sintetizadores y samplers a
partir de las cuales se estructurará una base de datos funcional para la
separación de cuerpos de baterías.
3. Implementar y entrenar el modelo Demucs, especializado en la separación de
las fuentes en grabaciones exclusivamente de batería. Teniendo en cuenta
posibles aportes de otros sistemas analizados en 1.
4. Estudiar el rendimiento del sistema. De ser posible, se buscará caracterizarlo
utilizando métodos estándar de calificación como MOS (Puntuación media de
opinión) o SDR (Relación señal - distorsión).
5. Evaluar la implementación de posibles modificaciones al modelo original, en
pos de mejorar su respuesta para la aplicación específica planteada.
6. Documentar y producir material bibliográfico para difusión de avances
parciales y resultados de la investigación.

El trabajo será la continuación de los avances obtenidos en la investigación


“Desarrollo de una herramienta para la separación de fuentes en grabaciones
monoaurales de cuerpos de batería mediante aprendizaje automático”, realizada
para la Beca de Formación en Docencia e Investigación otorgada por la Escuela de

Página 3 de 13
Artes, en el marco del proyecto de investigación “Desarrollos Tecnológicos
Aplicados a las Artes”.

Justificación

La presente investigación contempla diversas aplicaciones, principalmente en


complementación con software de procesamiento de audio, donde la
discriminación de las fuentes permitiría, no solo aplicar procesos y reubicar
espacialmente cada uno de los cuerpos de una batería, sino también utilizar los
audios como triggers de samples (drum replacement2), una práctica muy recurrente
en la mezcla y la producción musical a través de programas como Drumagog3. Se
propone particularmente para utilizar en contextos de bajos recursos,
colaboraciones virtuales y otros casos donde no se cuente con la posibilidad de
realizar registros multicanal profesionales o bien donde se requiera realizar
retoques post-mezcla de grabaciones previas. También podría utilizarse con fines
de postproducción y reparación, al permitir realizar modificaciones sobre
grabaciones preexistentes, para aplicar distintos procesos a las fuentes y hacer
correcciones en el balance o la espacialización de las mismas, o para la utilización
de elementos específicos en una nueva producción artística. En otro sentido,
también sería aplicable en el desarrollo de juegos con fines educativos, donde,
mediante la práctica con una batería acústica capturada con un dispositivo móvil, el
programa logre determinar la precisión temporal y dinámica en la ejecución de los
cuerpos.

Concretamente, este plan propone desarrollar un modelo a partir de la


implementación y entrenamiento de Demucs , un método de aprendizaje
automático profundo con redes neuronales convolucionales que opera
directamente sobre la forma de onda, en contraposición a la mayoría de los

2
https://en.wikipedia.org/wiki/Drum_replacement
3
https://www.drumagog.com/

Página 4 de 13
modelos presentes en el estado del arte que se basan en el procesamiento de
espectrogramas.

Demucs es de código abierto, y provee instrucciones para el entrenamiento del


modelo. Originalmente, utiliza el banco de datos MusDB, el cual se ha constituido
en el estándar de facto en el campo. MusDB, como Demucs, también es de libre
acceso4, y está diseñado para entrenar y probar sistemas de diferenciación de
fuentes en grabaciones polifónicas de obras o canciones bajo una clasificación que
comprende: Voces, Percusión, Bajo y Otros. De allí que esta sea la clasificación
utilizada por la mayoría de los modelos y sistemas disponibles. Debido a estas
categorías pre-establecidas, su utilización no es pertinente para el proyecto que se
propone, por lo que será necesaria la creación de una base de datos propia,
orientada a la diferenciación de fuentes en grabaciones de batería. Sin embargo, la
propia estructura interna de MusDB servirá como base para la creación del banco
de datos propio, por ser directamente compatible con Demucs.

Por estas razones, y por poseer resultados superiores a las demás alternativas, se ha
escogido Demucs como base principal para este proyecto. Otros modelos y
enfoques disponibles se discuten en el apartado siguiente, Estado del Arte, y su
funcionamiento será tenido en cuenta para realizar potenciales aportes a la
implementación propuesta.

Estado del arte

La separación de fuentes musicales hace referencia al proceso de aislar, en


diferentes pistas de audio, los instrumentos que han sido grabados individualmente
y mezclados conjuntamente para formar la mezcla final de una producción musical.
La utilización de programas de aprendizaje automático es la principal herramienta
para lograr dicho discernimiento. Si bien existen modelos basados en la

4
https://sigsep.github.io/datasets/musdb.html

Página 5 de 13
factorización de matrices no negativas (NMF) [13], la mayoría se basan en la
utilización de redes neuronales.

Una red neuronal es un modelo de aprendizaje automático que consiste, a grandes


rasgos, en una gran cantidad de unidades de cómputo llamadas neuronas
conectadas entre ellas en la forma de un grafo5 dirigido. Cada neurona computa una
suma ponderada de los valores de salida de las neuronas conectadas a sus aristas
que finalmente resulta en una predicción acerca del valor recibido. El hecho de que
una red neuronal “aprenda” se verá reflejado en que los pesos de la suma
ponderada, también llamados parámetros, se adecúen a los valores de los datos que
reciben como entrada.

Los modelos basados en redes neuronales suelen partir del análisis de


espectrogramas, como observamos en el modelo Spleeter, de la empresa Deezer [11]
o en el propuesto por P. Chadna [9], en el cual se basa el modelo desarrollado por
los argentinos L. Pepino y L. Bender [7] (Universidad Nacional de Tres de Febrero).
Habitualmente realizan un proceso de “enmascaramiento” de distintas porciones
del espectro, cuyos parámetros se ajustan en función del entrenamiento del
modelo. Este enmascaramiento, en principio, selecciona las partes relevantes de
información espectral correspondientes a cada una de las fuentes buscadas y
finalmente se construye una nueva forma de onda a la que se le han removido los
elementos sobrantes. Open Unmix [6] y MMDenseLSTM [8] son otros ejemplos de
arquitecturas que trabajan sobre los espectrogramas de los audios. La desventaja
principal de este método es que en ciertos tipos de sonidos, particularmente en
aquellos de carácter impulsivo (de amplio espectro), resulta difícil diferenciar los
distintos elementos solo en base a su contenido espectral; ya que tienden a ocupar
una gran porción del espectro y solaparse entre sí, haciendo inefectiva la
imposición de cualquier tipo de máscara.

5
Conjunto de objetos llamados vértices unidos por enlaces llamados aristas.

Página 6 de 13
No obstante, también existen modelos de reciente desarrollo que operan
directamente sobre la forma de onda, es decir, sin recurrir a un espectrograma. Uno
de los principales es Demucs, desarrollado por investigadores de Facebook [1], el
cual está inspirado en el proyecto Conv-Tasnet [14], un modelo originalmente
desarrollado para la separación de voces individuales en contextos caóticos que
trabaja en el dominio de la forma de onda y cuya adaptación para la separación de
fuentes musicales supera significativamente al resto de los modelos existentes en la
evaluación de Relación Señal-Ruido (SDR). Otro de los modelos que operan sobre la
forma de onda es la adaptación de Wave-U-Net propuesta en [5].

Demucs es uno de los principales (y más recientes) modelos que trabajan


directamente en la forma de onda. Para lograr esto, el modelo se basa en una
arquitectura de aprendizaje profundo o Deep Learning, una rama del aprendizaje
automático que busca aprender representaciones de los datos a partir de muestras
crudas de estos y para ello utiliza las llamadas redes neuronales profundas, que
cuentan con gran cantidad de capas ocultas y a su vez cada una con gran cantidad
de parámetros.

Los experimentos basados en el banco de datos MusDB muestran que el modelo


reporta resultados superadores en comparación con otros métodos del estado del
arte6. A pesar de que el algoritmo de Conv-Tasnet lo sobrepasa en los índices de
Relación Señal-Distorsión (SDR), la evaluación humana Puntuación de Opinión
Media (MOS) devela que Demucs obtiene resultados auditivos de mayor calidad,
debido a la menor presencia de artefactos. A su vez, los autores de Demucs aclaran
que en experiencias con bancos de datos más extensos, la diferencia es poco
significativa. Tanto Demucs, como Conv-Tasnet, lideran las mediciones de SDR en
comparación con los modelos existentes. Estos dos modelos destacan del resto
particularmente en la definición en los ataques de los sonidos generados, lo cual

6
https://ai.honu.io/papers/demucs/index.html

Página 7 de 13
puede explicar el elevado SDR en la separación de los stems de batería que poseen
ambos. Por esta razón se estima que la utilización de un modelo de separación de
fuentes que opere directamente en la forma de onda como Demucs sea efectivo en
la generación de un modelo que separe cuerpos de batería.

Todos los modelos mencionados parten de bancos de datos previamente


configurados para realizar la separación de fuentes, constituyendo en esencia,
sistemas de aprendizaje supervisado. En ellos, los bancos de datos utilizados para el
entrenamiento de los modelos contienen tanto las pistas individuales, como las
mezclas estereofónicas que ellas conforman. De manera muy general, el
entrenamiento se basa en proveer en la entrada de la red neuronal las mezclas
finales, y asignar a la salida las pistas individuales que las componen, la red neuronal
ajusta progresivamente una serie de parámetros internos, de forma que “aprende”.
Prácticamente la totalidad de los métodos existentes clasifican y separan el material
sonoro en las siguientes cuatro categorías: Voces, Percusión7, Bajo y Otros; ya que
los proyectos suelen orientarse al tratamiento de obras de música popular. Para
este proceso de entrenamiento se suele utilizar el banco de datos MusDB, el cual es
el estándar actual para la puesta en marcha y comparación de los diversos modelos
desarrollados.

Además de los proyectos de carácter abierto anteriormente mencionados, también


existen implementaciones comerciales de amplia difusión. El software de
postproducción Izotope RX88 también utiliza redes neuronales para realizar tareas
de reparación, re-balance, entre muchas otras aplicaciones de postproducción.
Otros ejemplos disponibles son los software Xtrax Stems9 y Phonicmind10.

7
La pista Percusión contiene todo el material percusivo detectado en una pista única.
8
https://www.izotope.com/en/products/rx.html
9
https://audionamix.com/xtrax-stems/
10
https://phonicmind.com/

Página 8 de 13
Cuando abordamos con mayor especificidad el desarrollo de tecnologías capaces de
diferenciar las fuentes presentes en audios que contengan sonidos percusivos,
resulta destacable el método descrito por C. Dittmar [2]. Éste se basa en un proceso
de dos etapas: primero se realiza una detección y transcripción de tipo “partitura”
automática en tiempo real [3], y luego, a partir de esta información se realiza la
separación de las fuentes de cuerpos percusivos [4]. Para ambas etapas se utiliza
una técnica llamada deconvolución del factor de matrices no negativas (NMFD), una
extensión del algoritmo NMF. Sin embargo también existen implementaciones que
utilizan redes neuronales convolucionales para la etapa de transcripción de los
elementos percusivos [12].

El uso de NMFD para la separación de cuerpos percusivos fue primeramente


planteado por P. Smaragdis [10] y, a partir de este estudio inicial, C. Dittmar y M.
Müller [4] propusieron un nuevo modelo que incorpora la mencionada utilización
de información adicional de partitura para mejorar la eficiencia de la separación. El
algoritmo parte, como otros mencionados, del espectrograma de una grabación. La
información de fase no es utilizada para realizar la discriminación de las fuentes,
pese a ser un factor importante en la definición de las transientes, algo de especial
relevancia en los ataques de sonidos de carácter impulsivo como los cuerpos de
batería. Esto produce artefactos audibles durante los ataques. Dittmar (2018)
sostiene en [2] que la reconstrucción de fase podría solucionar la aparición de estos
artefactos, pero también puede introducir problemas en el decaimiento de la
envolvente dinámica. Afirma que la reconstrucción de fase es un tema central para
futuras mejoras a su modelo, pero que en gran medida no está claro cómo abordar
el problema. Finalmente, hace referencia a los métodos de aprendizaje profundo
que trabajan directamente en la forma de onda, sosteniendo que su adecuada
aplicación en un modelo de separación de fuentes percusivas puede abrir una
forma de superar las limitaciones presentes. En consecuencia, en el presente
trabajo se propone la utilización de Demucs como una nueva alternativa para la

Página 9 de 13
separación de fuentes de batería a partir del entrenamiento del modelo con una
base de datos desarrollada para tal propósito.

Metodología

Se realizará un estudio en profundidad de los modelos propuestos en la separación


de fuentes mencionados anteriormente en el apartado 4 (Estado del Arte), tanto
respecto al aislamiento de fuentes en contexto de mezclas polifónicas de
producciones musicales, como a la separación de fuentes en grabaciones de batería.

Para la investigación se desarrollará un banco de datos en base a la estructura de


MusDB, la cual clasifica cuatro tipos de fuentes: Voces, Percusión, Bajo y Otros,
teniendo en cuenta que esta última es el descarte de las otras tres categorías. En
principio, se respetará la estructuración cuaternaria de MusDB. El banco de datos
propuesto clasificará -a priori-, los cuerpos de batería según la siguiente
diferenciación: Bombo, Redoblante, Platillos y Toms. En caso de que los resultados
del entrenamiento resulten adecuados, se explorará la posibilidad de expandir el
criterio de clasificación a una mayor cantidad de fuentes.

Para crear dicho banco de datos, se programarán baterías a partir de sintetizadores


y samplers como EzDrummer11 u otros. El entrenamiento se llevará a cabo en
función de estas programaciones que formarán la base de datos, luego de ser
ordenada y codificada la información.

Se utilizará como base el modelo Demucs siguiendo, a priori, las instrucciones


provistas por sus desarrolladores, con el objetivo de hacer una aplicación específica
del mismo en el aislamiento de fuentes en grabaciones de cuerpos de batería.

A su vez, para la evaluación de los resultados obtenidos se prevé utilizar el paquete


Museval12 para Python, que provee una serie de funciones para obtener

11
https://www.toontrack.com/product/ezdrummer-2/
12
https://pypi.org/project/museval/

Página 10 de 13
caracterizaciones como la relación señal a distorsión (SDR). Museval está
específicamente diseñado para evaluar los resultados de la separación de fuentes
basadas en el banco de datos MusDB (aunque soporta otros). También se buscará
realizar una evaluación MOS, que hace referencia a la puntuación de opinión media
(evaluación humana de la calidad de la experiencia).

A posteriori se evaluará la posibilidad de implementar modificaciones al modelo


original para optimizar su funcionamiento en relación al campo concreto de
estudio.

Finalmente se documentará y producirá material bibliográfico para difusión de los


avances parciales y resultados de la investigación. Se buscará participar en eventos
académicos como jornadas y congresos, en la medida que el contexto nacional lo
permita.

Cronograma de trabajo

Etapa Período Descripción

Preproducción 1 mes Estudiar de la bibliografía existente sobre la temática a


tratar y analizar los algoritmos de los modelos propuestos.

Producción 3 meses Desarrollo de la base de datos para el entrenamiento con


programaciones de baterías.
Desarrollo del modelo y evaluación de la implementación de
modificaciones a partir del estudio de los algoritmos
existentes.

Postproducción 2 mes Continuación de la ampliación de la base de datos.


Evaluación y ajustes: realizar mediciones y comparar
respecto a los modelos del estado del arte.
Documentar y publicar resultados.

Página 11 de 13
Bibliografía

[1] A. Defossez, N. Usunier, L. Bottou, F. Bach (2019). “Demucs: Deep extractor for
music sources with extra unlabeled data remixed”.
[2] C. Dittmar (2018). “Source Separation and Restoration of Drum Sounds in Music
Recordings”.
[3] C. Dittmar, D. Gartner (2014). “Real-time transcription and separation of drum
recordings based on nmf decomposition”. Proc. of the 17th International Conference
on Digital Audio Effects (DAFX), 2014.
[4] C. Dittmar, M. Müller (2016). “Reverse engineering the Amen break –
score-informed separation and restoration applied to drum recordings”. IEEE/ACM
Transactions on Audio, Speech, and Language.
[5] D. Stoller, S. Ewert, Simon Dixon (2018). “Wave-u-net: A multi-scale neural
network for end-to-end audio source separation”.
[6] F. R. Stöter, S. Uhlich, A. Liutkus, Y. Mitsufuji (2019). “Open-unmix - a reference
implementation for music source separation”. Journal of Open Source Software,
2019.
[7] L. Pepino, L. Bender (2018). “Separación de fuentes musicales mediante redes
neuronales convolucionales con múltiples decodificadores”. UNTREF IV Jornadas
JAAS 2018.
[8] N. Takahashi, N. Goswami, Yuki Mitsufuji (2018). “Mmdenselstm: An efficient
combination of convolutional and recurrent neural networks for audio source
separation”.
[9] P. Chadna, M. Miron, J. Janer, E. Gómez (2017). “Monaural Audio Source
Separation using Deep Convolutional Neural Networks”. 13th International
conference on latent variable analysis and signal separation (LVA ICA2017),
Grenoble, 2017.

Página 12 de 13
[10] P. Smaragdis (2004). “Non-negative matrix factor deconvolution; extraction of
multiple sound sources from monophonic inputs”. In Proceedings of the
International Conference on Independent Components.
[11] R. Hennequin, A. Khlif, F. Voituret, M. Moussallam (2019). “Spleeter: A fast and
state-of-the art music source separation tool with pre-trained models”. Proc.
International Society for Music Information Retrieval Conference, 2019.
[12] R. Vogl, M. Dorfer, G. Widmer, and P. Knees (2017). “Drum transcription via joint
beat and drum modeling using convolutional recurrent neural networks”. 18th
International Conference on Music Information Retrieval, 2017
[13] T. Virtanen, J.F Gemmeke, B. Raj, P. Smaragdis (2015), “Compositional Models for
Audio Processing: Uncovering the structure of sound mixtures”, IEEE Signal
Processing Magazine, 2015.
[14] Y. Luo, N. Mesgarani (2019). “Conv-tasnet: Surpassing ideal time–frequency
magnitude masking for speech separation”. IEEE/ACM Transactions on Audio,
Speech, and Language Processing, 2019.

Página 13 de 13

También podría gustarte