Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Plan de Tesis Iñaki Goyeneche
Plan de Tesis Iñaki Goyeneche
2021
Plan de Tesis
Fecha de presentación:
Resumen
La presente tesis tiene como fin el desarrollo de una herramienta innovadora para
la separación de fuentes en grabaciones de batería, accesible para la comunidad
artística, a partir de la utilización de aprendizaje automático. La investigación se
basa principalmente en la adaptación del modelo Demucs, diseñado para la
separación de fuentes en canciones. El mismo no es capaz, inicialmente, de
individualizar los distintos cuerpos de una batería, pero su arquitectura admite la
posibilidad de realizar esta adaptación a partir del entrenamiento con una base de
datos apropiada.
Introducción
Página 1 de 13
(una práctica cada vez más frecuente). Se propone la investigación en la separación
de fuentes en grabaciones de percusión monoaurales, a partir de la utilización de
un sistema de aprendizaje automático, para desarrollar una nueva herramienta
accesible para la comunidad artística y semiprofesional.
Objetivos
a. Objetivo general
1
El aprendizaje automático es una rama de la inteligencia artificial, cuyo objetivo es el desarrollo de
programas capaces de “aprender” a través de la experiencia reiterada en la realización de una tarea
específica (entrenamiento), de forma que su performance mejore paulatinamente con este proceso.
Página 2 de 13
inclusiva al problema que con frecuencia conlleva la grabación de baterías en
contextos de bajos recursos técnicos o materiales, tales como: grabaciones
realizadas con teléfonos móviles, en home studios, por estudiantes, músicos
aficionados en general, y las cada vez más relevantes colaboraciones virtuales.
b. Objetivos específicos
Página 3 de 13
Artes, en el marco del proyecto de investigación “Desarrollos Tecnológicos
Aplicados a las Artes”.
Justificación
2
https://en.wikipedia.org/wiki/Drum_replacement
3
https://www.drumagog.com/
Página 4 de 13
modelos presentes en el estado del arte que se basan en el procesamiento de
espectrogramas.
Por estas razones, y por poseer resultados superiores a las demás alternativas, se ha
escogido Demucs como base principal para este proyecto. Otros modelos y
enfoques disponibles se discuten en el apartado siguiente, Estado del Arte, y su
funcionamiento será tenido en cuenta para realizar potenciales aportes a la
implementación propuesta.
4
https://sigsep.github.io/datasets/musdb.html
Página 5 de 13
factorización de matrices no negativas (NMF) [13], la mayoría se basan en la
utilización de redes neuronales.
5
Conjunto de objetos llamados vértices unidos por enlaces llamados aristas.
Página 6 de 13
No obstante, también existen modelos de reciente desarrollo que operan
directamente sobre la forma de onda, es decir, sin recurrir a un espectrograma. Uno
de los principales es Demucs, desarrollado por investigadores de Facebook [1], el
cual está inspirado en el proyecto Conv-Tasnet [14], un modelo originalmente
desarrollado para la separación de voces individuales en contextos caóticos que
trabaja en el dominio de la forma de onda y cuya adaptación para la separación de
fuentes musicales supera significativamente al resto de los modelos existentes en la
evaluación de Relación Señal-Ruido (SDR). Otro de los modelos que operan sobre la
forma de onda es la adaptación de Wave-U-Net propuesta en [5].
6
https://ai.honu.io/papers/demucs/index.html
Página 7 de 13
puede explicar el elevado SDR en la separación de los stems de batería que poseen
ambos. Por esta razón se estima que la utilización de un modelo de separación de
fuentes que opere directamente en la forma de onda como Demucs sea efectivo en
la generación de un modelo que separe cuerpos de batería.
7
La pista Percusión contiene todo el material percusivo detectado en una pista única.
8
https://www.izotope.com/en/products/rx.html
9
https://audionamix.com/xtrax-stems/
10
https://phonicmind.com/
Página 8 de 13
Cuando abordamos con mayor especificidad el desarrollo de tecnologías capaces de
diferenciar las fuentes presentes en audios que contengan sonidos percusivos,
resulta destacable el método descrito por C. Dittmar [2]. Éste se basa en un proceso
de dos etapas: primero se realiza una detección y transcripción de tipo “partitura”
automática en tiempo real [3], y luego, a partir de esta información se realiza la
separación de las fuentes de cuerpos percusivos [4]. Para ambas etapas se utiliza
una técnica llamada deconvolución del factor de matrices no negativas (NMFD), una
extensión del algoritmo NMF. Sin embargo también existen implementaciones que
utilizan redes neuronales convolucionales para la etapa de transcripción de los
elementos percusivos [12].
Página 9 de 13
separación de fuentes de batería a partir del entrenamiento del modelo con una
base de datos desarrollada para tal propósito.
Metodología
11
https://www.toontrack.com/product/ezdrummer-2/
12
https://pypi.org/project/museval/
Página 10 de 13
caracterizaciones como la relación señal a distorsión (SDR). Museval está
específicamente diseñado para evaluar los resultados de la separación de fuentes
basadas en el banco de datos MusDB (aunque soporta otros). También se buscará
realizar una evaluación MOS, que hace referencia a la puntuación de opinión media
(evaluación humana de la calidad de la experiencia).
Cronograma de trabajo
Página 11 de 13
Bibliografía
[1] A. Defossez, N. Usunier, L. Bottou, F. Bach (2019). “Demucs: Deep extractor for
music sources with extra unlabeled data remixed”.
[2] C. Dittmar (2018). “Source Separation and Restoration of Drum Sounds in Music
Recordings”.
[3] C. Dittmar, D. Gartner (2014). “Real-time transcription and separation of drum
recordings based on nmf decomposition”. Proc. of the 17th International Conference
on Digital Audio Effects (DAFX), 2014.
[4] C. Dittmar, M. Müller (2016). “Reverse engineering the Amen break –
score-informed separation and restoration applied to drum recordings”. IEEE/ACM
Transactions on Audio, Speech, and Language.
[5] D. Stoller, S. Ewert, Simon Dixon (2018). “Wave-u-net: A multi-scale neural
network for end-to-end audio source separation”.
[6] F. R. Stöter, S. Uhlich, A. Liutkus, Y. Mitsufuji (2019). “Open-unmix - a reference
implementation for music source separation”. Journal of Open Source Software,
2019.
[7] L. Pepino, L. Bender (2018). “Separación de fuentes musicales mediante redes
neuronales convolucionales con múltiples decodificadores”. UNTREF IV Jornadas
JAAS 2018.
[8] N. Takahashi, N. Goswami, Yuki Mitsufuji (2018). “Mmdenselstm: An efficient
combination of convolutional and recurrent neural networks for audio source
separation”.
[9] P. Chadna, M. Miron, J. Janer, E. Gómez (2017). “Monaural Audio Source
Separation using Deep Convolutional Neural Networks”. 13th International
conference on latent variable analysis and signal separation (LVA ICA2017),
Grenoble, 2017.
Página 12 de 13
[10] P. Smaragdis (2004). “Non-negative matrix factor deconvolution; extraction of
multiple sound sources from monophonic inputs”. In Proceedings of the
International Conference on Independent Components.
[11] R. Hennequin, A. Khlif, F. Voituret, M. Moussallam (2019). “Spleeter: A fast and
state-of-the art music source separation tool with pre-trained models”. Proc.
International Society for Music Information Retrieval Conference, 2019.
[12] R. Vogl, M. Dorfer, G. Widmer, and P. Knees (2017). “Drum transcription via joint
beat and drum modeling using convolutional recurrent neural networks”. 18th
International Conference on Music Information Retrieval, 2017
[13] T. Virtanen, J.F Gemmeke, B. Raj, P. Smaragdis (2015), “Compositional Models for
Audio Processing: Uncovering the structure of sound mixtures”, IEEE Signal
Processing Magazine, 2015.
[14] Y. Luo, N. Mesgarani (2019). “Conv-tasnet: Surpassing ideal time–frequency
magnitude masking for speech separation”. IEEE/ACM Transactions on Audio,
Speech, and Language Processing, 2019.
Página 13 de 13