Está en la página 1de 13

Traducido del inglés al español - www.onlinedoctranslator.

com

Guía de formación RVC v2

- Configuración de entrenamiento

Asegúrese de que suconjunto de datos está preparado utilizando aislamientos o audio de la mejor calidad que
puedas encontrar.UVR con modelos vocales de Kim (más recientemente Voc FT) oMDX B en MVSEP funcionará
mejor, en general, para aislar las voces. Entonces puedes usar herramientas como La puerta de ruido de Audacity
para eliminar el silencio si es necesario, o Adobe Audition si sabes cómo usarlo (me han dicho que funciona bien).

Si no eresformación local , abra esta colab de capacitación y ejecute las primeras celdas para instalar. (Si está
entrenando localmente, su conjunto de datos debe estar en una carpeta en algún lugar con todos los archivos)

https://colab.research.google.com/drive/1TU-kkQWVf-PLO_hSa2QCMZS1XF5xVHqs?usp=sharing

Si utiliza Colab, debe asegurarse de cargar su conjunto de datos como un zip en la carpeta /dataset/
de su Google Drive (tendrá quecrea esta carpeta primero ofc) y luego importe el conjunto de datos
ejecutando esta celda con el nombre adecuado establecido.

Si todo salió bien, se leerá "¡Conjunto de datos cargado correctamente!". en el texto de salida.
Luego, debajo del panel de archivos a la izquierda, busque la nueva carpeta que creó (no el archivo zip) y
haga clic derecho para copiar la ruta:

Ahora puedes iniciar la GUI e ir a la pestaña Entrenamiento en la parte superior.

En la primera opción, establezca su nombre para el modelo.

Normalmente mantengo el resto de estas configuraciones igual (generalmente, la versión 2 es mucho más rápida en el

entrenamiento y es la preferida ahora)

TúPuede que tengas que reducir el número de hilos. si esto se hace localmente (es decir, no en
Colab). El mío estaba configurado en '20' y tuve que configurarlo en 4 para evitar BSOD. Si
quiere estar seguro, un valor de 1 o 2 no tardará mucho más que un valor más alto, ya que esto
sólo se aplica al paso de procesamiento inicial.
En el primer campo, para 'Ruta a la carpeta de entrenamiento', pegue la ruta del conjunto de datos copiada de la
colab. Luego presione "procesar datos". Espere hasta que se complete por completo (la consola de texto de colab dirá
"finalizar preproceso" cuando termine)

(En raras ocasiones, es posible que vea un error de conexión, aunque haya sido exitosa. Intente
recargar la página e intente nuevamente para verificar nuevamente).

crepé (específicamente mangio-crepe, que es la implementación anterior, y en mi opinión la mejor) es la


mejor opción acordada para la capacitaciónalta calidad conjuntos de datos. Las longitudes de salto más
bajas serán más precisas en el tono y, por lo tanto, llevará más tiempo entrenarlas, pero personalmente no
noto ninguna diferencia importante entre 128 y 64 trenes. Depende de su criterio; su conjunto de datos
debe configurarse de modo que esté libre de cualquier ruido importante si
opte por tamaños de salto más bajos, porque aumenta el riesgo de que se centren en los datos
incorrectos en su conjunto de datos cuando tiene una mayor precisión de tono, por razones obvias.

Sin embargo, debes saber dos cosas:

Editar: solíamos recomendar la recolección para conjuntos de datos de menor calidad, pero es muy
probable que'El método rmvpe' es mejor que el mangio-crepe y la cosecha.para entrenamiento (al
menos mejor que la cosecha), incluso en conjuntos de datos de alta calidad. Esta característica acaba de
agregarse, así que pruébela y vea.

Dicho esto, este es el texto antiguo:


- Mangio-Crepe (ESPECÍFICAMENTEMANGIO-CREPENO EL OTRO QUE NO ESTÁ PROBADO) y la
cosecha sonambas opciones decentes. He notado que si su conjunto de datos no es de muy
alta calidad o es más "ruidoso", la cosecha puede ser mejor que el mangio-crepe, ya que el
mangio-crepe es más sensible a los datos, por lo que tiene una mejor precisión de tono. Se
desconoce si entrenar mangio-crepe con un tamaño de salto alto para obtener menos
precisión (como 256) ayuda a que los conjuntos de datos más pobres suenen decentes, peroEn
teoria Supongo que ese es el caso.
- No uses pm o dio para entrenamiento. Dio suena terrible y grave, y pm suena
granulado.

Básicamente:

SI LA CALIDAD DE SU CONJUNTO DE DATOS ES EXCELENTE, MAYORMENTE LIBRE DE RUIDO:Utilice Mangio-


Crepe, pero el entrenamiento rmvpe es nuevo y parece prometedor según las primeras pruebas. SI LA CALIDAD
DE SU CONJUNTO DE DATOS NO ES EXCELENTE:Use rmvpe, o coseche si de alguna manera tiene problemas, o
mangio-crepe(?) de lúpulo de mayor tamaño (es decir, 256)

Establezca su valor y presione Extracción de funciones. Espere hasta que la consola de texto de colab mencione que
ha finalizado la extracción de funciones (todas las funciones listas), similar al preproceso final.

El tamaño del lote es la cantidad de datos que procesa a la vez (opción de velocidad, no una cuestión de
calidad). Esto depende de la VRAM de la GPU. Entonces, para un RTX 2070, por ejemplo, con 8 GB de
VRAM, se utiliza el tamaño de lote 8.
En la GPU de una colaboración, 20 es el valor que la gente me dice que esseguroevitar errores, pero también me
dijeron que es mejorquédate con una potencia de 2 (entonces 2, 4, 8,dieciséis, 32). Entonces uso 16 en colab.
NO UTILICE EL ENTRENAMIENTO DE UN CLIC , tiene errores. Continúe en 'Guardar solo el archivo ckpt más
reciente para reducir el uso del disco'siempre. Consulte otros consejos aquí también si es necesario. Establece
una cantidad decente de épocas para cubrirte como 600. Antes de comenzar, lee la sección de continuación de
entrenamiento para descubrir cómo probarás el modelo mientras entrena y cómo saber cuándo estás
sobreentrenando. Una vez que haya entrenado su índice de características (segundo botón grande), puede
presionar "Entrenar modelo" para comenzar a entrenar, pero antes de eso, repasemos algunas características
importantes:

Entrenamiento, continuación.

- Modelo de prueba durante el entrenamiento.(esto es importante)

Si está habilitada, la opción guarda el modelo como un pequeño archivo .pth en la ruta /weights/ para
cada frecuencia de guardado (por ejemplo, Kendrick_e10, Kendrick_e20 para una configuración de
frecuencia de guardado '10'). Para obtener una vista previa precisa (temprana), genere el índice de
característicasantes capacitación; Por supuesto, debe asegurarse de seguir los dos primeros pasos
(procesamiento de datos + extracción de características) antes de entrenar el índice. También puede
generar el índice de características posteriormente si olvidó hacerlo. Tener esta opción activada le permite
probar el modelo en cada iteración de época si es necesario, o usar una iteración anterior si entrenó
demasiado.
- ¿Qué recuento de época establezco? / Cómo saber si hay 'sobreentrenamiento'

Utilice los registros de TensorBoard para identificar cuándo el modelo comienza a sobreentrenarse. Vaya a la pantalla

de TensorBoard en colab. Si entrena localmente, use elLaunch_Tensorboard.bat archivo en la carpeta de correcciones

RVC (probablemente esto no funcione; intenteesta guía de instalación de TensorBoard ) Haga clic en la pestaña

escalares y busquegramo /total en la parte superior. Eso significagramo /total, con

un g.No d/total.

(la opción V2 en la pestaña de entrenamiento alcanza el mejor punto mucho más rápido que la V1)

Una vez que encuentre el recuento de pasos ideal, haga cálculos básicos para calcular el recuento de época ideal.
Por ejemplo, digamos que 10.000 pasos es el punto donde comienza el sobreentrenamiento. Digamos que
entrenaste demasiado a 20.000 pasos y tu modelo tiene 600 épocas actualmente. Dado que 600 épocas son 20k
pasos, eso significa, 10k/20k = 50%. 50% de 600 = son ~300 épocas, aproximadamente; entonces ese es el valor
de época ideal en ese escenario.

Alternativamente, puede encontrar la marca de tiempo del mejor valor en TensorBoard y luego verificar el
archivo train.log del modelo en la carpeta /logs/ para encontrar la marca de tiempo coincidente para encontrar
exactamente qué época.

Menos épocas generalmente significan que el modelo será menos preciso, en lugar de
necesariamente "sonar peor" para el entrenamiento v2. Sin embargo, si su conjunto de datos no es de
tan alta calidad o carece de muchos datos, es posible que desee experimentar más adelante y ver qué
modelo de época guardado tiene el mejor equilibrio entre precisión y buen sonido. En
En algunos casos más raros, menos épocas pueden sonar mejor para tus oídos. Es prueba
y error hacer un buen modelo en esta fase. Si quieres estar seguro, elegiría un modelo
"ligeramente poco entrenado".

(Opción de suavizado máximo en el lado izquierdo hacia afuera Por cierto, y recuerda presionar Actualizar para actualizarlo cuando sea necesario)

También puedes buscar tu modelo específico por nombre si es necesario.

Si ve que comienza el sobreentrenamiento y está seguro de ello, presione el botón "detener entrenamiento". Ahora
puedes probar tu modelo de época de entrenamiento máximo (por ejemplo,
Kendrickv2_e300_s69420) durante 300 épocas.) Si está satisfecho con cómo suena ahora, cambie el
nombre del último archivo en colab en la carpeta /weights/ (que se encuentra dentro del panel de
archivos de colab), al nombre sin _e100_s1337 (para que Kendrickv2_e300_s4000 convertirse en
Kendrickv2.pth). Si no es así, puedes continuar el entrenamiento donde lo dejaste.

Debo enfatizar que debes editar el nombre desde el panel de archivos de colab. No puede cambiar el
nombre del archivo de la unidad; de lo contrario, el siguiente paso no funcionará.

Entonces puedes ejecutar esta celda:

Su modelo zip terminado ahora estará listo en /RVC_Backup/Finished/ como un archivo zip, listo para
compartir.
Tenga en cuenta que le solicitamos que cargue esto en huggingface.co para evitar
solicitudes de eliminación falsas si desea publicar esto en AI HUB discord en
# modelos de voz. Se sabe que Google Drive realiza eliminaciones falsas, aunque es 100 %
legal compartir modelos de voz.

Para más información consulte: https://discord.com/channels/


1089076875999072296/1089329140483764265/11218 59324424224818

- Continúe entrenando un modelo donde lo dejó.


Para usuarios de colab: Si su sesión caduca (eso significa que Colab se desconecta por completo), debe ejecutar los
pasos del instalador nuevamente y luego continuar normalmente, iniciando su servidor GUI nuevamente.

Durante un reentrenamiento, para continuar donde lo dejó, utilice elmismo nombre exacto (con las mismas mayúsculas) y
frecuencia de muestreo (el valor predeterminado es 40 kHz si no se modifica). Utilice la misma configuración que tenía antes
para el tamaño del lote, la versión, etc., haga que coincidan.
HacernoVuelva a procesar los archivos y no rehaga la extracción de funciones nuevamente. Básicamente, evite
presionar "procesar datos" o realizar "extracción de tono" nuevamente, porque no quiere que se rehaga el
análisis de tono que ya hizo.
Sólo mantén eldos últimos archivos .pth en la carpeta /logs/ del modelo, según su fecha de modificación. Si hay
un archivo "G_23333" y "D_23333" en la carpeta de registros de su modelo, representa el último punto de control,
si marcó 'Guardar solo el último ckpt' (lo cual recomiendo hacer anteriormente en esta guía). Si eso no estaba
activado, por algún motivo, elimine todos los archivos .pth de la carpeta que no sean los más recientes para
evitar imprecisiones.

Ahora puede comenzar a entrenar nuevamente presionando 'entrenar modelo', con el mismo tamaño de lote y configuración
que antes. Si el entrenamiento comienza desde el principio nuevamente (en la época 1 en lugar de en la última época guardada
antes de que se detuviera el entrenamiento), use inmediatamente CTRL+C o el botón Detener si está en colab para cerrar el
servidor GUI, detenerlo e intentar iniciar el GUI de nuevo.

- (Para formadores locales) Evite fallos o problemas de extracción de funciones

Al entrenaren la zona, hay un problema durante la extracción de funciones, donde las personas intentarán ejecutar la
extracción de funciones con el número máximo de subprocesos (opción superior derecha de la pestaña de capacitación) y lo
encontrarán, ya sea que tarde horas o que aparezca en pantalla azul. Establecería el valor del número de hilos en la parte
superior derecha de la pestaña de capacitación enun máximo de 5, o elija un valor de2solo para estar seguro (el paso previo al
proceso no tomará mucho tiempo). Mi máximo predeterminado es 20 (localmente) y esto no funciona. El enhebrado aún no se
decide automáticamente, pero esta es la parte que lleva muy poco tiempo, por lo que está bien mantenerse en el lado seguro y
bajar.

Consejos para la creación de conjuntos de datos

- Aislar instrumentales/ruido.
Primero, encuentre el material fuente sobre el que desea entrenar un modelo de voz. Este será el conjunto de
datosentrenas tu modelo. Preferiblemente, obtenga esto en la más alta calidad posible (se prefiere .flac a mp3 o
extracciones de YouTube, porque .flac tiene una calidad sin pérdidas, pero aún se podrán utilizar materiales de
menor calidad, pero no se recomienda). Lo ideal es que tengas acapellas oficiales reales, pero son
extremadamente difíciles de conseguir para la mayoría de la música.

Para aislar las voces de la música necesitarás utilizar uno de los siguientes:
- UltimateVocalRemover (Se puede ejecutar localmente en buenas PC o dentro de las
páginas de RVC Google Colab al final). 438 es el mejor modelo "general", el modelo Voc FT
a veces aísla las voces no vocales pero puede sonar mejor en general (usted
puede ejecutarlo y luego el modelo UVR-Denoise para solucionar esto). 438 es uno de los modelos
VIP, puedes encontrar el código VIP en el patreon de UVR de forma gratuita.
- Pequeño vídeo explicativo de UVR :https://youtu.be/ITNeuOarHHw
- MVSEP.com (aplicación web totalmente gratuita, pero la cola puede ser larga. Me han dicho
que MDX B es la mejor opción general para el aislamiento vocal aquí, pero yo no la he
usado).
- Vocalremover.org o X-minus.pro; Estas no son opciones de tan alta calidad, pero harán el
trabajo rápidamente. Vocalremover.org no tiene opción para eliminar la reverberación y IIRC
X-minus.pro tampoco. Le aconsejaría que no cree conjuntos de datos de modelos de voz
utilizando estos sitios debido a que son de menor calidad.

- Eliminación de reverberación / eco

Esnecesario para eliminar la reverberación/eco del conjunto de datos para obtener mejores resultados. Lo ideal
es tener la menor cantidad posible en primer lugar, y aislar la reverberación obviamente puede reducir la calidad
de la voz. Pero si necesita hacer esto, en MDX-Net puede encontrar Reverb HQ, que exportará el audio reversible
como la opción "Ningún otro". Muchas veces esto no es suficiente. Si eso no hizo nada (o simplemente no hizo lo
suficiente), puede intentar procesar la salida vocal a través de los modelos de arquitectura VR en UVR para
eliminar el eco y la reverberación que quedan usando De-Echo-DeReverb. Si eso aún no fuera suficiente, de
alguna manera puedes usar el modelo normal De-Echo en la salida, que es el modelo de eliminación de eco más
agresivo de todos.

También hay uncolaboración para los modelos VR Arch si no desea ejecutar o no puede ejecutar UVR localmente. Sin
embargo, no tengo idea de cómo usarlo.buena suerte. Sin una buena GPU en su PC, UVR seguirá ejecutándose
localmente en la mayoría de los casos, pero será bastante lento, si está de acuerdo con eso. Pero si tiene un conjunto
de datos extenso, prepárese para ejecutarlo durante la noche...

- Puerta de ruido para eliminar el silencio.


Me gusta bloquear el ruido de mis cosas en Audacity para eliminar el ruido en los períodos "silenciosos" del
audio. Descargue Audacity:
https://www.audacityteam.org/download/

Normalmente -40 dB es un buen umbral para esto.


Adobe Audition probablemente tenga herramientas más avanzadas para hacer esto automáticamente (no sé cómo usarlo),
pero este es un buen ajuste preestablecido para comenzar para las personas que usan la mezcla básica de Audacity. Si se
corta a mitad de la frase, rehágalo con la opción hacia arriba para Hold ms.

- Aislar armonías de fondo / duplicación vocal.


En la mayoría de los casos, son demasiado difíciles de aislar para fines de conjuntos de datos sin que
parezcan de mala calidad. Pero si quieres intentarlo de todos modos, los mejores modelos UVR para hacerlo
serían 5HP Karaoke (modelo VR Architecture) o Karaoke 2 (MDX-Net). ¿Se supone (?) que el 6HP es un 5HP más
agresivo, creo? No sé. YMMV, así que prueba las otras opciones de karaoke a menos que literalmente no
funcione pase lo que pase.

- ¿Necesito cortar mi audio en pedazos?


Técnicamente, la respuesta es no, al menos para RVC. Puede tener un archivo enorme de 10 minutos como
único archivo en su conjunto de datos y RVC lo cortará correctamente si sigue las instrucciones de esta guía, de
mi prueba. RVC corta en ~4 bits, así que asegúrese de que sus muestras tengan al menos 4 segundos de
longitud por razones de coherencia (o combine las muestras más cortas en un archivo largo). Si quieres estar
seguro, puedes dividirlo en intervalos de 1 minuto (la función de etiquetas de intervalo regular en Audacity es
excelente para eso).
EDITAR: Acabo de descubrir que alguien tuvo problemas porque su wav único de 1 hora y 30 minutos no se
procesó correctamente (? Podría haber sido un problema por su parte). Paramuy largo conjuntos de datos,
puede ser un problema si no los divide. Menos de 30 minutos, no hay problema.

- ¿Cuánto audio necesito *realmente* para el conjunto de datos?


En realidad, no tanto. Obviamente, más es mejor, pero no veo mucho sentido en entrenar un modelo con
más de una hora de datos. Puede salirse con algunos modelos de conjuntos de datos REALMENTE
limitados en RVC v2, pero cuantos menos datos tenga, más "adivinanzas" tendrá que hacer la IA sobre
cómo se supone que debe sonar su voz en ciertos tonos. Un rango razonable de alta calidad sería de 10 a
45 minutos.
Aquí hay un ejemplo de mi modelo JID de 10 segundos rapeando:
https://cdn.discordapp.com/attachments/945486970883285045/1114502593503305798/JID_BOB_Ve
rse.mp3

Suena bien porque le di 10 segundos de rap como conjunto de datos, ¿verdad?

Pero suena mucho menos preciso al intentar cantar: https://cdn.discordapp.com/attachments/


945486970883285045/1114502868813238342/jid_is_balling.mp3

La recomendación de los desarrolladores de RVC esal menos10 minutos Busque modelos de alta calidad que
puedan manejar una variedad de tonos y alturas, pero recuerde: Calidad > Cantidad.
Éste es un ejemplo de unModelo de 5 minutos entrenado en clips de alta calidad. .

Yeste es un modelo entrenado en 7 segundos de sonidos de Minecraft Villager. De alguna manera funciona.

- Descargar más modelos en UVR

Vaya a la llave inglesa y luego al "Centro de descargas" para encontrar la pestaña donde puede encontrar los
modelos que menciono en la guía y que aún no se han descargado.
- Guía general

Guía de portada de RVC v2 AI (por kalomaze)

- Guía de reparación de TensorBoard

Instalación de TensorBoard localmente para RVC (sin errores)

—————————————————————————————————

¡Considera suscribirte a mi Patreon!

Beneficios incluidos:
- Soporte técnico completo para coberturas de IA en general, incluida la mezcla y cómo entrenar tus
propios modelos, con cualquier nivel, pero se le da prioridad al último nivel.
https://patreon.com/kalomaze

¡Su apoyo será gratamente apreciado!

También podría gustarte