Documentos de Académico
Documentos de Profesional
Documentos de Cultura
NACIONAL
INGENIERÍA EN COMUNICACIONES Y
ELECTRÓNICA
Electroacústica y Transductores
AUDIO DIGITAL
Profesor:
Ing. Ricardo Andrés Francisco
Pérez.
EQUIPO 5 GRUPO
1
CONTENIDO
➢ 5. INTRODUCCIÓN ........................................................(3)
➢ 5.3 MINIDISCO…………….…………….………..….….(13)
2
INTRODUCCIÓN
TEMA 5 - AUDIO DIGITAL
El sonido digital es toda aquella señal sonora, normalmente analógica, que se reproduce,
guarda y edita en términos numéricos discretos. La señal analógica se codifica a través del
sistema binario.
En el sistema binario cualquier valor puede ser representado en términos de 1 y 0. Todas las
vibraciones producidas por el aire son transformadas en señales eléctricas y éstas en
combinaciones de 1 y 0. Esta codificación se produce utilizando un convertidor de señal
conocido como sampler.
VENTAJAS
Durabilidad
Los archivos de sonido digital son más duraderos. No se deterioran con el paso del tiempo,
siempre y cuando estén almacenados correctamente en el soporte adecuado.
Respecto a dicho soporte adecuado, conviene señalar que el desgaste de los medios físicos
de almacenamiento digital (CD, DVD, disco duro, tarjeta de memoria, etc.) es insignificante
comparado con el de las cintas magnéticas o los discos de vinilo.
¿Cómo afecta esto al sonido digital?
Reproducción: Puede reproducirse indefinidamente; no pierde calidad con el uso porque no
sufre ningún desgaste o deterioro físico.
Copia: Por otro lado, puede copiarse un número ilimitado de veces sin que se produzcan
alteraciones en la información, puesto que un 1 y un 0 siempre serán lo que son; es decir, y
al contrario de lo que sucede en el sonido analógico, nunca podrán tomar valores como
0,00012 ó 0,8923.
Reconstrucción: Las posibles pequeñas pérdidas de información (atenuación de la señal,
datos, etc.) pueden ser prevenidas y corregidas con más facilidad mediante la utilización de
programas específicos de regeneración de señales.
Versatilidad
3
Los archivos de sonido digital se pueden utilizar en diferentes tipos de dispositivos: PC,
tablets, teléfonos móviles, reproductores mp3, lectores de CD/DVD, etc..
Su edición es más flexible y potente que con medios analógicos. Hay una gran variedad de
software y dispositivos dedicados a la edición, mejora, adición de efectos, etc.
Contenido extra
“Auto-información”. Los archivos de sonido digital contienen mucha información sobre el
propio archivo (o, al menos, tienen la capacidad para ello). Es lo que se conoce como
“metadatos”, un conjunto de información acerca del sistema de grabación, frecuencia, bitrate
y codificación empleados, fecha de creación y modificación; pero también permite incluir
datos sobre el álbum, año, compositor, intérprete, título del tema, etc.
DESVENTAJAS
Doble conversión
En el capítulo 2 dedicado al sonido digital “La digitalización del sonido” veíamos que eran
necesarias dos conversiones: una primera para su digitalización (conversión A/D) y,
posteriormente, otra (conversión D/A) cuando lo vayamos a reproducir.
Cada una de esas conversiones implica una pequeña pérdida de información con respecto a
la anterior, aunque se empleen niveles óptimos en los parámetros del proceso y los filtros
apropiados, tal y como se ha explicado en el susodicho título.
Ruido
El ruido es inherente a toda señal analógica. Pero puede acentuarse si no se emplea el nivel
de cuantificación adecuado. Un valor inadecuado generará una relación señal/ruido baja; es
decir, que el valor “asignado” al ruido es mayor que el de la fuente de origen y la señal
principal (la que nos interesa) resultará confusa.
Algunas veces, incluso, el ruido debe ser compensado mediante la adición de un ruido
específico llamado “dither” (mediante el proceso denominado “Dithering“) antes del proceso
de cuantificación y, de este modo, se evita que el ruido de cuantificación se manifieste a
modo de distorsión.
Distorsión
La distorsión hace referencia a la fidelidad respecto a la forma de la onda original. Cuanto
mayor sea la diferencia entre ambas, mayor será la distorsión.
Si el nivel de distorsión es elevado, la forma de la curva generada por la onda del sonido
digitalizado al ser reproducido diferirá mucho de la original, lo que se traduce en un escucha
de mala calidad y en la que puede llegar a ser irreconocible la señal original.
5
1.- Muestreo de la señal analógica.
2.- Cuantización de la propia señal
3.- Codificación del resultado de la cuantización, en código binario.
Muestreo
Para convertir una señal analógica en digital, el primer paso consiste en realizar un
muestreo (sampling) de ésta, o lo que es igual, tomar diferentes muestras de tensiones o
voltajes en diferentes puntos de la onda senoidal. La frecuencia a la que se realiza el muestreo
se denomina razón, tasa o también frecuencia de muestreo y se mide en kilohertz (kHz). En el
caso de una grabación digital de audio, a mayor cantidad de muestras tomadas, mayor calidad
y fidelidad tendrá la señal digital resultante
Durante el proceso de muestreo se asignan valores numéricos equivalentes a la tensión o
voltaje existente en diferentes puntos de la sinusoide, con la finalidad de realizar a continuación
el proceso de cuantización
Las tasas o frecuencias de muestreo más utilizadas para audio digital son las siguientes:
6
1. Cuando una señal digital es atenuada o experimenta perturbaciones leves, puede ser
reconstruida y amplificada mediante sistemas de regeneración de señales.
2. Cuenta con sistemas de detección y corrección de errores, que se utilizan cuando la
señal llega al receptor; entonces comprueban (uso de redundancia) la señal, primero
para detectar algún error, y, algunos sistemas, pueden luego corregir alguno o todos
los errores detectados previamente.
3. Facilidad para el procesamiento de la señal. Cualquier operación es fácilmente
realizable a través de cualquier software de edición o procesamiento de señal.
4. La señal digital permite la multigeneración infinita sin pérdidas de calidad.
5. Es posible aplicar técnicas de compresión de datos sin pérdidas o técnicas de
compresión con pérdidas basados en la codificación perceptual mucho más eficientes
que con señales analógicas.
7
• Un disco de 120 mm de diámetro u 80 mm (los minidiscos)
• Un grosor de 1,2 mm (este puede variar entre 1,1 y 1,5) para almacenar información digital:
hasta 650 MB de datos informáticos (lo que equivale aproximadamente a 300.000 páginas
escritas) o 74 minutos de datos de audio
• Una densidad de 16 000 TPI (tracks per inch: pistas por pulgada)
• Posee un orificio circular de 15 mm de diámetro que permite centrarlo correctamente en el
reproductor de CD.
• Tiene una velocidad de la exploración: 1.2–1.4 m/s, equivale aproximadamente a entre 500
rpm (revoluciones por minuto) y 200 rpm, en modo de lectura CLV (Constant Linear Velocity:
'Velocidad Lineal Constante').
Estructura
La composición de los materiales de los discos, aunque pueden variar, siguen un mismo
patrón: los discos tienen una fina placa de policarbonato con un grosor de 300.2 mm,
recubierta con una película metálica, en general una capa reflectante de aluminio (antes oro,
después plata y otro metales) que sirve para obtener mayor longevidad de los datos y
posteriormente sobre ella se extiende un recubrimiento de plástico o una capa protectora
(barniz) que protege la superficie de metal, creando de esta manera una superficie que
favorece la protección de los datos, estos se graban en una sola cara.
En el mercado, sobre el disco fabricado se le suele poner una etiqueta o bien se le pinta con
el fin de personalizarlo. Los métodos comunes de impresión CD son serigrafía y offset
printing. La grabación de los datos en un CD se inicia en el centro del disco y terminan en el
exterior.
La capa reflectante contiene pequeños baches. De esta manera, cuando el láser atraviesa el
sustrato de policarbonato, la luz se refleja en la superficie reflectante. Sin embargo, lo que
permite que se codifique la información es el acercamiento del láser a un bache.
Esta información se almacena en 22188 pistas grabadas en distintas canaletas (aunque en
realidad es una sola pista que se acerca en espiral hacia el centro).
8
Estructura lógica de un CD
El Libro naranja establece que un CD-R, ya sea un CD de audio o bien un CD-ROM, está
constituido por tres áreas que forman el área de información:
La zona de entrada (a veces llamada LIA) contiene
únicamente información que describe el contenido del
disco en la tabla de contenidos (TOC). La zona de
entrada se extiende a partir de un radio de 23 mm
partiendo desde el borde a un radio de 25 mm. Este
tamaño se vuelve obligatorio debido a la necesidad de
almacenar información en un máximo de 99 pistas
aproximadamente. La zona de entrada permite que el
reproductor/unidad de CD siga los hoyos en espiral
para sincronizarse con los datos situados en la zona
de programa.
La Zona de programa es la sección del disco que
contiene los datos. Comienza a 25 mm del centro, extendiéndose a un radio de 58 mm
Puede contener el equivalente a 76 minutos de datos de audio. La zona de programa puede
a su vez contener hasta 99 pistas (o sesiones), cada una de una duración mínima de 4
segundos.
La Zona de salida (o LOA) no contiene datos (silencio en un CD de audio) y marca la
finalización de un CD. Comienza a un radio de 58 mm y debe poseer un ancho mínimo de
0,5 mm (de radio). La zona de salida debe, de esta manera, contener al menos 6750
sectores o 90 segundos de silencio a la velocidad mínima (1x).
Además de las zonas descritas anteriormente, un CD-R contiene un PCA (Área de calibrado
de potencia) y un PMA (Área de memoria del programa). Juntos constituyen el SUA (Área
del usuario del sistema).
Codificación de la información
9
Capacidades
Los CD estándares están disponibles en distintos tamaños y capacidades, así tenemos la
siguiente variedad de discos:
• 120 mm (diámetro) con una duración de 90–100 minutos de audio y 800-875 MB de datos
(no se encuentran en el mercado hoy en día).
Tipos de CD
1.- CD-DA: “Compact Disc Digital Audio”, con la capacidad de almacenar alrededor de 74
minutos de audio o 99 pistas de audio digitalizado a 16 bits con una velocidad de muestreo
de 44,100 muestras por segundo en un disco.
10
2.-VCD: “Video Compact Disc” o Disco Compacto de Video o VCD, conteniendo los
estándares para la compresión de datos utilizada para proyectar grandes cantidades de
audio y video en una computadora doméstica. Como se define en el documento, es una
adaptación particular del CD-ROM XA, que está diseñado para datos de video MPEG-1.
3.-PHOTO CD: fue desarrollado por Kodak y Philips. Estos discos pueden ser leídos por
reproductores especiales para discos PhotoCD, así como por algunos los lectores de disco
que soporten el formato CD-ROM/XA y multisesión. Está diseñado específicamente para el
almacenamiento de imágenes.
4.- EL CD-R: "Compact Disc-Recordable" ó disco compacto grabable. Este es el CD normal
antes de ser grabado, es decir, está en blanco. En él existe la posibilidad de grabar música,
videos, programas, imágenes, etc. Los productos CD-R puede ser escritos sólo una vez, de
manera similar a los WORM (Write Once Read Many, Escribir una Vez Leer Muchas).
Las capacidades comerciales son las siguientes: 540 Megabytes (MB), 650 MB, 700 MB y
870 MB. Siendo la que actualmente se utiliza a mayor escala la de 700 MB.
Las velocidades de giro que soportan son 24X, 32X, 48X, 52X y hasta 56X, siendo 52X la
que actualmente se utiliza a mayor escala.
5.- EL CD-ROM: "Compact Disc Read Only Memory" ó disco compacto para solo lectura de
memoria de datos. Es un CD-R, pero ya grabado ó "quemado"; en este caso pasa a ser
ROM porque su uso es básicamente para extraer datos, más no para seguir guardando.
Hay excepciones en el CD-ROM, es posible la utilización de una característica llamada
multisesión, que permite seguir guardando datos, ejemplo de ello es el programa
Ashampoo® Burning Studio 6, que permite seguir grabando en un CD-ROM.
6.- El CD-RW: "Compact Disc Re-Writable" ó disco compacto describible. Este formato
permite la escritura, lectura y borrados constantes, menor a la velocidad de los CD
convencionales. La capacidad más comercial es de 700 MB y su velocidad de giro que
soporta es de 4X y 10X.
7.- EL MINI CD: "mini Compact Disc-Recordable" ó minidisco compacto. La diferencia radica
en que el diámetro no es de 120mm sino de solamente 80mm y la capacidad es de 200 MB.
Se utilizan principalmente para promocionar algunos demos de música ó para guardar
controladores (archivos que permiten el correcto funcionamiento de un dispositivo en la
computadora).
8.- EL MINI CD-RW: "mini Compact Disc ReWritable" ó minidisco compacto reescribible. La
diferencia radica en que el diámetro no es de 120 mm. sino de solamente 80 mm. y la
capacidad es de 210 MB. Permite la escritura, lectura y borrados constantes, a una
velocidad menor a la de los CD convencionales.
9.- DVD: es una tecnología de disco óptico que permite almacenar 4.7 gigabytes de
capacidad de almacenamiento en un disco de lado simple y una capa, lo que es suficiente
para una película de 133 minutos. Los DVDs pueden ser de uno o dos lados y pueden
contener dos capas de cada lado; un disco de doble capa y dos lados puede almacenar
hasta 17 gigabytes de video, audio u otra información, lo cual es significativamente superior
a los .65 gigabytes (650 MB) que puede almacenar un CD-ROM.
Los DVD para video utilizan el estándar MPEG-2 para el almacenamiento y compresión de
datos, en el cual se supera en 4 veces la resolución de MPEG-1 y se puede entregar a una
11
velocidad de 60 campos entrelazados por segundo, en donde 2 campos constituyen un
cuadro de imagen. MPEG-1 puede entregar 30 cuadros no entrelazados por segundo.
10.- BLU-RAY: Blu-ray disc también conocido como Blu-ray o BD, es un formato de disco
óptico de nueva generación de 12 cm de diámetro (igual que el CD y el DVD) para vídeo de
gran definición y almacenamiento de datos de alta densidad de 5 veces mejor que el DVD.
Su capacidad de almacenamiento llega a 25 GB por capa, aunque Sony y Panasonic han
desarrollado un nuevo índice de evaluación (i-MLSE) que permitiría ampliar un 33% la
cantidad de datos almacenados, desde 25 a 33,4 GB por capa. Aunque otros apuntan que el
sucesor del DVD no será un disco óptico, sino la tarjeta de memoria.
Estándares
Existen numerosos estándares que describen la manera en la que debe almacenarse la
información en un disco compacto según el uso que se le dará. Estos estándares están
referenciados en documentos llamados libros y cada uno tiene un color asignado:
• Libro rojo: representa el estándar CEI IEC 908 para los discos compactos de audio digital
(también conocidos como CD-DA) Este libro define el soporte, proceso de grabación y
diseño del reproductor adecuado para soportar CD-Audio.
• Libro amarillo: describe el estándar ISO 10149:1989 asi como el formato físico de los CD de
datos (CD-ROM, Disco compacto - Memoria de solo lectura). Incluye dos modos: CD-ROM
Modo 1, utilizado para almacenar datos con corrección de errores (ECC, Código de
corrección de errores) y permite evitar la pérdida de datos por degradación del disco; y CD-
ROM
Modo 2, utilizado para almacenar datos gráficos, de video y de audio comprimidos. Para
poder leer este tipo de CD-ROM, una unidad debe ser compatible con Modo 2.para los CD-
ROM (discos de sólo lectura).
12
En cuanto a las desventajas, es posible destacar:
➢ La información que posee depende de un medio físico que fácilmente puede extraviarse al
portador.
➢ Por una falta de previsión, muchos informáticos suelen generar aplicaciones que guardan en
el CD y que dependen de un sólo sistema operativo (archivos ejecutables de extensión .exe,
que se ejecutan en ciertas versiones de Windows). En este sentido, es conveniente
programar las aplicaciones en programas navegadores, que son multiplataformas.
➢ Si bien el costo ha disminuido mucho en estos últimos años, distribuido en grandes números
de receptores su valor puede ser muy significativo en comparación con aplicaciones
disponibles en Internet.
➢ Una vez que se ha grabado la información y se ha entregado a los receptores, ésta no
puede corregirse ni completarse de ningún modo.
En la actualidad, debido al auge de la computación en la nube (cloud computing), el
streaming y las memorias USB, el disco compacto ha perdido popularidad.
1.- Etiqueta (label): superficie superior, que contiene impresa la información básica
del disco (marca, tipo, valor máximo de transmisión y capacidad).
El proceso de grabación comienza con la fuente, que puede ser un micrófono, o una
fuente externa analógica (sintonizador de radio, tornamesa, etc.). Esta señal analógica
entra a un ADC (Analog-Digital Converter, convertidor analógico-digital), donde se
transforma en una señal digital (16 bits medidos a una frecuencia de 44.1 kHz). Esta
señal alimenta al compresor ATRAC. Si la fuente externa tiene salidas digitales
(reproductores de CD, MD o DAT), la señal pasa directamente al módulo ATRAC
14
donde se codifican (en el caso de señales provenientes de máquinas DAT, puede ser
necesario adaptar el muestreo de la señal antes de ingresarla al compresor).
Los datos codificados pasan a un buffer y se almacenan allí hasta que el mecanismo
grabador los extrae bit a bit y genera la marca magnética correspondiente en el disco.
El proceso de lectura tiene las mismas etapas de la grabación, pero en sentido inverso.
Los datos leídos del disco se almacenan en un buffer, y de allí pasan al módulo ATRAC
donde se decodifican. La señal digital resultante puede salir mediante conexiones
ópticas a otros dispositivos, y también pasa a un DAC (Digital-Analog Converter,
convertidor analógico-digital) para transformarse en el sonido original.
Ventajas
El sistema Minidisc graba audio en forma digital, utilizando los mismos niveles de alta
calidad del disco compacto: 16 bits medidos a una frecuencia de 44.1 kHz.
15
La durabilidad de un minidisco es bastante larga. Es posible volver a grabar miles y
miles de veces sobre el mismo disco sin que ello implique alguna merma en la calidad
de la grabación, como ocurre en los sistemas que usan cintas.
Una grabación hecha en MD puede conservarse inalterable durante muchos años; al
respecto se estima que puede ser más de 30 años, aunque a la larga sólo el tiempo lo
dirá.
Una de las mayores ventajas que tiene el sistema, es la capacidad de edición rápida y
conveniente de una grabación. Es posible rotular tanto el disco como los temas (incluso
en plena grabación), y casi todas las máquinas permiten borrar, combinar, mover, y
dividir los temas grabados en el minidisco.
16
Principio de grabación:
Como su nombre lo indica, la grabación se realiza de forma digital en lugar de analógica. La
grabación y conversión a casete DAT tiene mayor, igual o menor tasa de muestreo que para
la producción de un CD (48, 44,1 o 32 kHz de frecuencia de muestreo y 16 bits
de cuantificación).
La investigación derivó en dos tecnologías:
• S-DAT (DAT de Cabeza Estacionaria)
• R-DAT (DAT de Cabeza Rotatoria).
Teóricamente, los dos formatos DAT (R-DAT y S-DAT), como el DCC, permiten la replicación
o multigeneración ilimitada. Sin embargo, Sony y Phillips introdujeron un sistema antipiratería
(de gestión de copias): el SCMS (Serial Copy Management System) que permitió a los
consumidores realizar una única copia en cinta digital de audio desde otro soporte comercial.
R-DAT
El R-DAT (DAT de cabeza rotatoria) se basa en el funcionamiento de los vídeos domésticos.
Durante la grabación, se mueve tanto la cabeza cilíndrica (montada sobre un tambor que gira)
como la cinta. La velocidad relativa cabezal-cinta es muy baja (8,15; 4,075 y 12,255 mm/s).
S-DAT
En el S-DAT (DAT de cabeza estacionaria), durante la grabación, sólo se mueve la cinta, la
cabeza permanece fija, por ello, la velocidad relativa cabeza cinta es más alta que en la del R-
DAT que se mueven tanto cabeza como cinta.
Las velocidades de reproducción o grabación del S-DAT son: 47’6, 43’7, 31’7 y 23’8 mm/s,
mientras que las del R-DAT son: 8’15 4’ 075 y 12’255 mm/s.).
17
Figura 7: Principio de grabación de una cinta magnética de audio. En esta grabación lineal la
velocidad de escritura es igual a la velocidad de la cinta.
Cassette compacto digital (DCC)
El casete compacto digital, o Digital Compact Cassette en inglés (DCC), es un formato de cinta
magnética de audio, de casete compacto, con base de oxido cromo, que se utiliza como
soporte para la grabación magnética digital y en la reproducción de sonido. Físicamente la
diferencia de este Cassette digital a un Cassette analógico es que no disponían de agujeros
por ambos lados ya que todos los reproductores/grabadores incluían la función de auto-
reverse, por lo que estos no eran necesarios.
El DCC fue un formato desarrollado por Philips, comercializado a partir de 1992. El objetivo de
Philips al lanzar el DCC era reemplazar al casete analógico (CC), que esta misma empresa
había lanzado al mercado en 1963.
Formato DCC
18
El casete del formato de DCC comparte características físicas del casete de audio
convencional:
• Tamaño cartucho: 100 x 65 x 12 mm
• Longitud de cinta: 60,35m (capacidad de 60 minutos aprox).
• Anchura de la cinta: 3,81 mm
Los DCC eran grabados con una frecuencia de muestreo de 44,1 kHz y una resolución de 16
bits, aunque también se admitían las frecuencias de muestreo de 32 y 48 kHz. En función
del teorema de Nyquist, si se utilizaba la frecuencia de muestreo más baja (32 kHz), la
respuesta en frecuencia bajaba hasta los 16.000 Hz (16x2=32).
La velocidad de transmisión de datos del DCC era de 1,54 Mbps, superior a la del CD que es
de 1,4 Mbps.
El DCC es un sistema de grabación multipista con cabezal estacionario ya que lo único que se
mueve es la cinta. La velocidad de desplazamiento de la cinta es de 4,75 mm/s como los
Casetes Compactos analógicos y los dos formatos DAT antes mencionados.
El DCC utiliza el algoritmo de compresión de datos PASC (Precision Adaptive Sub-band
Coding, Codificación Adaptativa de precisión por Sub-bandas) desarrollado por Philips que
divide cada una de las 16 pistas de audio en dos subandas, con lo que analiza un total de 32
sub-bandas. El PASC como el ATRAC de Sony también elimina los sonidos que no puede
percibir el ser humano. Sin embargo, el PASC ofrece mejor "calidad" que el ATRAC pues
realiza una compresión de 4:1, mientras que la compresión ATRAC del MiniDisc era de 5:1.
19
espacio menor, siendo posible una reconstrucción exacta de los datos originales. Es decir, la
compresión sin pérdidas engloba a aquellas técnicas que garanticen generar un duplicado
exacto del flujo de datos de entrada después de un ciclo de compresión / expansión.
FLAC
FLAC (sigla en idioma inglés de Free Lossless Audio Codec, Codec de Audio Libre Sin
Pérdidas) es un códec de audio que permite que el audio digital sea comprimido sin pérdidas
de tal manera que el tamaño del archivo de audio se reduce sin que se pierda ningún tipo de
información. El audio digital comprimido por el algoritmo de FLAC típicamente se puede
reducir de 50 a 60% de su tamaño original, y se descomprime en una copia idéntica de los
datos de audio originales.
Algoritmo de compresión con pérdida
Algoritmo de compresión con pérdida se refiere a cualquier procedimiento de codificación
que tenga como objetivo representar cierta cantidad de información utilizando una menor
cantidad de la misma, siendo imposible una reconstrucción exacta de los datos originales.
Vorbis
Vorbis es un códec de audio digital general con pérdidas, libre, desarrollado por la Fundación
Xiph.Org, que utiliza el formato de archivo de audio o contenedor Ogg.
Ogg Vorbis forma parte del proyecto Ogg y fue llamado Ogg Vorbis o tan solo ogg por ser el
códec más comúnmente encontrado en el contenedor Ogg.
DEMUCS: separación de fuentes de música en el dominio de forma de onda
Proporcionamos una implementación de Demucs y Conv-Tasnet para la separación de
fuentes de música en el conjunto de datos MusDB. Pueden separar la batería, el bajo y las
voces del resto con resultados de vanguardia, superando los métodos previos basados en
formas de onda o espectrogramas. La arquitectura y los resultados obtenidos se detallan en
nuestro documento Music Source Separation en el dominio de forma de onda.
Demucs se basa en la arquitectura convolucional U-Net inspirada en Wave-U-Net y SING,
con GLU, un BiLSTM entre el codificador y el decodificador, inicialización específica de
pesos y convoluciones transpuestas en el decodificador. Conv-Tasnet es un modelo de
separación desarrollado para el habla que predice una máscara en una representación lineal
sobrecompleta aprendida utilizando un modelo puramente convolucional con paso de 1 y
bloques convolucionales dilatados. Reutilizamos el código del repositorio kaituoxu / Conv-
TasNet y agregamos soporte para múltiples canales de audio. Cuando se entrena solo en
MusDB, Conv-Tasnet logra un SDR más alto que Demucs (5.7 vs 5.6). Sin embargo, el audio
que genera tiene artefactos significativos medidos por evaluaciones humanas (MOS es 3.2
para Demucs, 2.9 para Conv-Tasnet). Cuando se entrena con datos de entrenamiento
adicionales, Demucs y Conv-Tasnet obtienen el mismo SDR. Consulte la sección 6 de
nuestro artículo para obtener más detalles o escuche nuestras muestras de audio.
20
21