Auswahl des richtigen Target Sample Rate
Die Target Sample Rate bestimmt die Anzahl der Samples pro Sekunde, die in den Audiodaten verwendet werden.
Ein höherer Wert führt in der Regel zu einer besseren Audioqualität, erfordert aber auch mehr Rechenleistung. RVC bietet zwei Optionen: 40k und 48k. Für die meisten Anwendungen ist der Standardwert von 40k ausreichend. Wenn Sie jedoch eine besonders hohe Audioqualität benötigen, können Sie 48k wählen. Bedenken Sie jedoch, dass dies die Trainingszeit verlängern kann.
Aktivieren oder Deaktivieren von Pitch Guidance
Die Option „Whether the model has pitch guidance“ bestimmt, ob das Modell Pitch-Informationen verwenden soll.
Pitch Guidance kann die Qualität der konvertierten Stimme verbessern, insbesondere wenn es darum geht, die Tonhöhe und Melodie der Zielstimme beizubehalten. Wenn Sie diese Option aktivieren, verwendet RVC einen Algorithmus, um die Tonhöhe der Eingabeaudio zu analysieren und die Ausgabe entsprechend anzupassen. In einigen Fällen kann Pitch Guidance jedoch auch zu Artefakten oder Verzerrungen führen. Experimentieren Sie mit dieser Option, um herauszufinden, was für Ihre spezifischen Audiodaten am besten funktioniert.
Anpassen der Anzahl der CPU-Prozesse
Die „Number of CPU processes used for pitch extraction and data processing“ bestimmt, wie viele CPU-Kerne für die Vorverarbeitung der Audiodaten verwendet werden. Eine höhere Anzahl von CPU-Prozessen kann die Trainingsgeschwindigkeit erhöhen, aber auch Ihren Computer verlangsamen. Wenn Sie einen Computer mit vielen CPU-Kernen haben, können Sie diesen Wert erhöhen, um den Trainingsprozess zu beschleunigen. Es empfiehlt sich jedoch, den Standardwert beizubehalten, um eine Überlastung des Systems zu vermeiden.
Auswahl des passenden Pitch Extraction Algorithm
Der Pitch Extraction Algorithm bestimmt, wie RVC die Tonhöhe der Eingabeaudio extrahiert. RVC bietet eine Vielzahl von Algorithmen, jeder mit seinen eigenen Vor- und Nachteilen:
- PM (Faster extraction but lower-quality speech): PM ist ein schneller Algorithmus, der jedoch eine geringere Audioqualität liefert.
- DIO (Improved speech but slower extraction): DIO ist ein Algorithmus, der eine verbesserte Audioqualität liefert, aber langsamer ist.
- Harvest (Better quality but slower extraction): Harvest bietet bessere Qualität, ist aber langsamer in der Extraktion.
- RMVPE hat sich in diesem Zusammenhang als eine gute Option herausgestellt.
Festlegen der Save Frequency
Die „Save frequency“ bestimmt, in welchen Intervallen das Modell als Checkpoint gespeichert wird. Checkpoints sind nützlich, um den Trainingsprozess zu unterbrechen und später fortzusetzen oder um verschiedene Versionen des Modells zu vergleichen. Eine höhere Save Frequency führt zu mehr Checkpoints, verbraucht aber auch mehr Speicherplatz. Eine niedrigere Save Frequency führt zu weniger Checkpoints, kann aber dazu führen, dass Sie Fortschritte verlieren, wenn der Trainingsprozess unerwartet abbricht.
Optimieren der Total Training Epochs
Die „Total training epochs“ bestimmt, wie oft das Modell die gesamten Trainingsdaten durchläuft. Eine höhere Anzahl von Epochen führt in der Regel zu besseren Ergebnissen, erfordert aber auch mehr Trainingszeit. Die optimale Anzahl von Epochen hängt von der Komplexität der Daten ab. Für eine 10-sekündige Videodatei können 50 Epochen ausreichend sein.