Documentos de Académico
Documentos de Profesional
Documentos de Cultura
com
- Configuración de entrenamiento
Asegúrese de que suconjunto de datos está preparado utilizando aislamientos o audio de la mejor calidad que
puedas encontrar.UVR con modelos vocales de Kim (más recientemente Voc FT) oMDX B en MVSEP funcionará
mejor, en general, para aislar las voces. Entonces puedes usar herramientas como La puerta de ruido de Audacity
para eliminar el silencio si es necesario, o Adobe Audition si sabes cómo usarlo (me han dicho que funciona bien).
Si no eresformación local , abra esta colab de capacitación y ejecute las primeras celdas para instalar. (Si está
entrenando localmente, su conjunto de datos debe estar en una carpeta en algún lugar con todos los archivos)
https://colab.research.google.com/drive/1TU-kkQWVf-PLO_hSa2QCMZS1XF5xVHqs?usp=sharing
Si utiliza Colab, debe asegurarse de cargar su conjunto de datos como un zip en la carpeta /dataset/
de su Google Drive (tendrá quecrea esta carpeta primero ofc) y luego importe el conjunto de datos
ejecutando esta celda con el nombre adecuado establecido.
Si todo salió bien, se leerá "¡Conjunto de datos cargado correctamente!". en el texto de salida.
Luego, debajo del panel de archivos a la izquierda, busque la nueva carpeta que creó (no el archivo zip) y
haga clic derecho para copiar la ruta:
Normalmente mantengo el resto de estas configuraciones igual (generalmente, la versión 2 es mucho más rápida en el
TúPuede que tengas que reducir el número de hilos. si esto se hace localmente (es decir, no en
Colab). El mío estaba configurado en '20' y tuve que configurarlo en 4 para evitar BSOD. Si
quiere estar seguro, un valor de 1 o 2 no tardará mucho más que un valor más alto, ya que esto
sólo se aplica al paso de procesamiento inicial.
En el primer campo, para 'Ruta a la carpeta de entrenamiento', pegue la ruta del conjunto de datos copiada de la
colab. Luego presione "procesar datos". Espere hasta que se complete por completo (la consola de texto de colab dirá
"finalizar preproceso" cuando termine)
(En raras ocasiones, es posible que vea un error de conexión, aunque haya sido exitosa. Intente
recargar la página e intente nuevamente para verificar nuevamente).
Editar: solíamos recomendar la recolección para conjuntos de datos de menor calidad, pero es muy
probable que'El método rmvpe' es mejor que el mangio-crepe y la cosecha.para entrenamiento (al
menos mejor que la cosecha), incluso en conjuntos de datos de alta calidad. Esta característica acaba de
agregarse, así que pruébela y vea.
Básicamente:
Establezca su valor y presione Extracción de funciones. Espere hasta que la consola de texto de colab mencione que
ha finalizado la extracción de funciones (todas las funciones listas), similar al preproceso final.
El tamaño del lote es la cantidad de datos que procesa a la vez (opción de velocidad, no una cuestión de
calidad). Esto depende de la VRAM de la GPU. Entonces, para un RTX 2070, por ejemplo, con 8 GB de
VRAM, se utiliza el tamaño de lote 8.
En la GPU de una colaboración, 20 es el valor que la gente me dice que esseguroevitar errores, pero también me
dijeron que es mejorquédate con una potencia de 2 (entonces 2, 4, 8,dieciséis, 32). Entonces uso 16 en colab.
NO UTILICE EL ENTRENAMIENTO DE UN CLIC , tiene errores. Continúe en 'Guardar solo el archivo ckpt más
reciente para reducir el uso del disco'siempre. Consulte otros consejos aquí también si es necesario. Establece
una cantidad decente de épocas para cubrirte como 600. Antes de comenzar, lee la sección de continuación de
entrenamiento para descubrir cómo probarás el modelo mientras entrena y cómo saber cuándo estás
sobreentrenando. Una vez que haya entrenado su índice de características (segundo botón grande), puede
presionar "Entrenar modelo" para comenzar a entrenar, pero antes de eso, repasemos algunas características
importantes:
Entrenamiento, continuación.
Si está habilitada, la opción guarda el modelo como un pequeño archivo .pth en la ruta /weights/ para
cada frecuencia de guardado (por ejemplo, Kendrick_e10, Kendrick_e20 para una configuración de
frecuencia de guardado '10'). Para obtener una vista previa precisa (temprana), genere el índice de
característicasantes capacitación; Por supuesto, debe asegurarse de seguir los dos primeros pasos
(procesamiento de datos + extracción de características) antes de entrenar el índice. También puede
generar el índice de características posteriormente si olvidó hacerlo. Tener esta opción activada le permite
probar el modelo en cada iteración de época si es necesario, o usar una iteración anterior si entrenó
demasiado.
- ¿Qué recuento de época establezco? / Cómo saber si hay 'sobreentrenamiento'
Utilice los registros de TensorBoard para identificar cuándo el modelo comienza a sobreentrenarse. Vaya a la pantalla
RVC (probablemente esto no funcione; intenteesta guía de instalación de TensorBoard ) Haga clic en la pestaña
un g.No d/total.
(la opción V2 en la pestaña de entrenamiento alcanza el mejor punto mucho más rápido que la V1)
Una vez que encuentre el recuento de pasos ideal, haga cálculos básicos para calcular el recuento de época ideal.
Por ejemplo, digamos que 10.000 pasos es el punto donde comienza el sobreentrenamiento. Digamos que
entrenaste demasiado a 20.000 pasos y tu modelo tiene 600 épocas actualmente. Dado que 600 épocas son 20k
pasos, eso significa, 10k/20k = 50%. 50% de 600 = son ~300 épocas, aproximadamente; entonces ese es el valor
de época ideal en ese escenario.
Alternativamente, puede encontrar la marca de tiempo del mejor valor en TensorBoard y luego verificar el
archivo train.log del modelo en la carpeta /logs/ para encontrar la marca de tiempo coincidente para encontrar
exactamente qué época.
Menos épocas generalmente significan que el modelo será menos preciso, en lugar de
necesariamente "sonar peor" para el entrenamiento v2. Sin embargo, si su conjunto de datos no es de
tan alta calidad o carece de muchos datos, es posible que desee experimentar más adelante y ver qué
modelo de época guardado tiene el mejor equilibrio entre precisión y buen sonido. En
En algunos casos más raros, menos épocas pueden sonar mejor para tus oídos. Es prueba
y error hacer un buen modelo en esta fase. Si quieres estar seguro, elegiría un modelo
"ligeramente poco entrenado".
(Opción de suavizado máximo en el lado izquierdo hacia afuera Por cierto, y recuerda presionar Actualizar para actualizarlo cuando sea necesario)
Si ve que comienza el sobreentrenamiento y está seguro de ello, presione el botón "detener entrenamiento". Ahora
puedes probar tu modelo de época de entrenamiento máximo (por ejemplo,
Kendrickv2_e300_s69420) durante 300 épocas.) Si está satisfecho con cómo suena ahora, cambie el
nombre del último archivo en colab en la carpeta /weights/ (que se encuentra dentro del panel de
archivos de colab), al nombre sin _e100_s1337 (para que Kendrickv2_e300_s4000 convertirse en
Kendrickv2.pth). Si no es así, puedes continuar el entrenamiento donde lo dejaste.
Debo enfatizar que debes editar el nombre desde el panel de archivos de colab. No puede cambiar el
nombre del archivo de la unidad; de lo contrario, el siguiente paso no funcionará.
Su modelo zip terminado ahora estará listo en /RVC_Backup/Finished/ como un archivo zip, listo para
compartir.
Tenga en cuenta que le solicitamos que cargue esto en huggingface.co para evitar
solicitudes de eliminación falsas si desea publicar esto en AI HUB discord en
# modelos de voz. Se sabe que Google Drive realiza eliminaciones falsas, aunque es 100 %
legal compartir modelos de voz.
Durante un reentrenamiento, para continuar donde lo dejó, utilice elmismo nombre exacto (con las mismas mayúsculas) y
frecuencia de muestreo (el valor predeterminado es 40 kHz si no se modifica). Utilice la misma configuración que tenía antes
para el tamaño del lote, la versión, etc., haga que coincidan.
HacernoVuelva a procesar los archivos y no rehaga la extracción de funciones nuevamente. Básicamente, evite
presionar "procesar datos" o realizar "extracción de tono" nuevamente, porque no quiere que se rehaga el
análisis de tono que ya hizo.
Sólo mantén eldos últimos archivos .pth en la carpeta /logs/ del modelo, según su fecha de modificación. Si hay
un archivo "G_23333" y "D_23333" en la carpeta de registros de su modelo, representa el último punto de control,
si marcó 'Guardar solo el último ckpt' (lo cual recomiendo hacer anteriormente en esta guía). Si eso no estaba
activado, por algún motivo, elimine todos los archivos .pth de la carpeta que no sean los más recientes para
evitar imprecisiones.
Ahora puede comenzar a entrenar nuevamente presionando 'entrenar modelo', con el mismo tamaño de lote y configuración
que antes. Si el entrenamiento comienza desde el principio nuevamente (en la época 1 en lugar de en la última época guardada
antes de que se detuviera el entrenamiento), use inmediatamente CTRL+C o el botón Detener si está en colab para cerrar el
servidor GUI, detenerlo e intentar iniciar el GUI de nuevo.
Al entrenaren la zona, hay un problema durante la extracción de funciones, donde las personas intentarán ejecutar la
extracción de funciones con el número máximo de subprocesos (opción superior derecha de la pestaña de capacitación) y lo
encontrarán, ya sea que tarde horas o que aparezca en pantalla azul. Establecería el valor del número de hilos en la parte
superior derecha de la pestaña de capacitación enun máximo de 5, o elija un valor de2solo para estar seguro (el paso previo al
proceso no tomará mucho tiempo). Mi máximo predeterminado es 20 (localmente) y esto no funciona. El enhebrado aún no se
decide automáticamente, pero esta es la parte que lleva muy poco tiempo, por lo que está bien mantenerse en el lado seguro y
bajar.
- Aislar instrumentales/ruido.
Primero, encuentre el material fuente sobre el que desea entrenar un modelo de voz. Este será el conjunto de
datosentrenas tu modelo. Preferiblemente, obtenga esto en la más alta calidad posible (se prefiere .flac a mp3 o
extracciones de YouTube, porque .flac tiene una calidad sin pérdidas, pero aún se podrán utilizar materiales de
menor calidad, pero no se recomienda). Lo ideal es que tengas acapellas oficiales reales, pero son
extremadamente difíciles de conseguir para la mayoría de la música.
Para aislar las voces de la música necesitarás utilizar uno de los siguientes:
- UltimateVocalRemover (Se puede ejecutar localmente en buenas PC o dentro de las
páginas de RVC Google Colab al final). 438 es el mejor modelo "general", el modelo Voc FT
a veces aísla las voces no vocales pero puede sonar mejor en general (usted
puede ejecutarlo y luego el modelo UVR-Denoise para solucionar esto). 438 es uno de los modelos
VIP, puedes encontrar el código VIP en el patreon de UVR de forma gratuita.
- Pequeño vídeo explicativo de UVR :https://youtu.be/ITNeuOarHHw
- MVSEP.com (aplicación web totalmente gratuita, pero la cola puede ser larga. Me han dicho
que MDX B es la mejor opción general para el aislamiento vocal aquí, pero yo no la he
usado).
- Vocalremover.org o X-minus.pro; Estas no son opciones de tan alta calidad, pero harán el
trabajo rápidamente. Vocalremover.org no tiene opción para eliminar la reverberación y IIRC
X-minus.pro tampoco. Le aconsejaría que no cree conjuntos de datos de modelos de voz
utilizando estos sitios debido a que son de menor calidad.
Esnecesario para eliminar la reverberación/eco del conjunto de datos para obtener mejores resultados. Lo ideal
es tener la menor cantidad posible en primer lugar, y aislar la reverberación obviamente puede reducir la calidad
de la voz. Pero si necesita hacer esto, en MDX-Net puede encontrar Reverb HQ, que exportará el audio reversible
como la opción "Ningún otro". Muchas veces esto no es suficiente. Si eso no hizo nada (o simplemente no hizo lo
suficiente), puede intentar procesar la salida vocal a través de los modelos de arquitectura VR en UVR para
eliminar el eco y la reverberación que quedan usando De-Echo-DeReverb. Si eso aún no fuera suficiente, de
alguna manera puedes usar el modelo normal De-Echo en la salida, que es el modelo de eliminación de eco más
agresivo de todos.
También hay uncolaboración para los modelos VR Arch si no desea ejecutar o no puede ejecutar UVR localmente. Sin
embargo, no tengo idea de cómo usarlo.buena suerte. Sin una buena GPU en su PC, UVR seguirá ejecutándose
localmente en la mayoría de los casos, pero será bastante lento, si está de acuerdo con eso. Pero si tiene un conjunto
de datos extenso, prepárese para ejecutarlo durante la noche...
La recomendación de los desarrolladores de RVC esal menos10 minutos Busque modelos de alta calidad que
puedan manejar una variedad de tonos y alturas, pero recuerde: Calidad > Cantidad.
Éste es un ejemplo de unModelo de 5 minutos entrenado en clips de alta calidad. .
Yeste es un modelo entrenado en 7 segundos de sonidos de Minecraft Villager. De alguna manera funciona.
Vaya a la llave inglesa y luego al "Centro de descargas" para encontrar la pestaña donde puede encontrar los
modelos que menciono en la guía y que aún no se han descargado.
- Guía general
—————————————————————————————————
Beneficios incluidos:
- Soporte técnico completo para coberturas de IA en general, incluida la mezcla y cómo entrenar tus
propios modelos, con cualquier nivel, pero se le da prioridad al último nivel.
https://patreon.com/kalomaze