Klonen des GitHub-Repositorys
Der erste Schritt zur Installation der Stable Audio Tools besteht darin, das GitHub-Repository zu klonen. Öffnen Sie dazu Ihre Kommandozeile (z. B. Terminal unter Linux oder macOS, Eingabeaufforderung oder PowerShell unter Windows) und navigieren Sie zu dem Verzeichnis, in dem Sie das Projekt speichern möchten. Geben Sie dann folgenden Befehl ein:
git clone https://github.com/Stability-AI/stable-audio-tools.git
Dieser Befehl lädt das gesamte Projekt auf Ihren Computer herunter.
Falls Sie das Projekt bereits heruntergeladen haben, wird Ihnen dies angezeigt.
Erstellen einer Conda-Umgebung
Um sicherzustellen, dass die Stable Audio Tools korrekt funktionieren und keine Konflikte mit anderen Projekten entstehen, empfiehlt es sich, eine separate Conda-Umgebung zu erstellen. Conda ist ein Paketmanager, der es Ihnen ermöglicht, verschiedene Python-Umgebungen mit unterschiedlichen Abhängigkeiten zu verwalten.
Um eine neue Conda-Umgebung zu erstellen, geben Sie folgenden Befehl in Ihre Kommandozeile ein:
conda create -n stable-audio python=3.10
Dieser Befehl erstellt eine neue Umgebung namens 'stable-audio' mit Python 3.10.
Sie können den Namen der Umgebung und die Python-Version nach Bedarf anpassen. Nach der Erstellung müssen Sie die Umgebung aktivieren:
conda activate stable-audio
Ihre Kommandozeile zeigt nun an, dass Sie sich in der 'stable-audio'-Umgebung befinden. Das ist wichtig, da alle nachfolgenden Schritte in dieser Umgebung ausgeführt werden müssen.
Installation von PyTorch und Torchvision
Die Stable Audio Tools benötigen PyTorch, ein beliebtes Framework für maschinelles Lernen, sowie Torchvision, eine Bibliothek für Bildverarbeitung. Um diese zu installieren, geben Sie folgenden Befehl ein:
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
Dieser Befehl installiert die neuesten Versionen von PyTorch und Torchvision, die mit CUDA 12.1 kompatibel sind.
CUDA ist eine parallele Rechenplattform und API, die von NVIDIA erstellt wurde. Es ermöglicht die Nutzung von NVIDIA-Grafikprozessoren (GPUs) für rechenintensive Aufgaben wie maschinelles Lernen. Die Angabe von CUDA ist wichtig, wenn Sie eine NVIDIA-Grafikkarte verwenden, da dies die Leistung der Stable Audio Tools erheblich verbessern kann. Nach Abschluss der Installation können Sie die Stable Audio Tools installieren.
Installation der Stable Audio Tools
Nachdem Sie die Conda-Umgebung erstellt und PyTorch installiert haben, können Sie die Stable Audio Tools selbst installieren. Navigieren Sie in Ihrer Kommandozeile zu dem Verzeichnis, in dem Sie das GitHub-Repository geklont haben. Geben Sie dann folgenden Befehl ein:
pip install stable-audio-tools
Dieser Befehl installiert die Stable Audio Tools und alle erforderlichen Abhängigkeiten. Abhängig von Ihrer Internetverbindung und der Leistung Ihres Computers kann dies einige Minuten dauern.
Starten der Stable Audio Tools
Nachdem die Installation abgeschlossen ist, können Sie die Stable Audio Tools starten. Navigieren Sie in Ihrer Kommandozeile zum Basisverzeichnis des geklonten GitHub-Repositorys. Geben Sie dann folgenden Befehl ein, wobei Sie die Pfade zu Ihren heruntergeladenen Modelldateien anpassen müssen:
python run_gradio.py --ckpt-path "./ckpt/model.ckpt" --model-config "./ckpt/model_config.json"
Dieser Befehl startet die Web-UI der Stable Audio Tools in Ihrem Standard-Webbrowser.
Die IP-Adresse und der Port, unter denen die Web-UI erreichbar ist, werden in der Kommandozeile angezeigt. Sie können diese Adresse einfach in Ihren Browser kopieren, um die Web-UI zu öffnen.
Hugging Face-Zugang beantragen
Ein wichtiger Schritt vor der Nutzung der Stable Audio Tools ist die Beantragung des Zugangs zum Modell auf Hugging Face.
Hugging Face ist eine Plattform für maschinelles Lernen, auf der Sie verschiedene Modelle herunterladen und nutzen können. Um die Stable Audio Tools nutzen zu können, müssen Sie ein Formular ausfüllen, in dem Sie bestätigen, dass Sie die Tools verantwortungsvoll und im Einklang mit den Nutzungsbedingungen verwenden werden. Nach dem Ausfüllen des Formulars erhalten Sie Zugriff auf das Modell und können es herunterladen.
Herunterladen der Modelle von Hugging Face
Nachdem Sie Zugriff auf das Modell auf Hugging Face erhalten haben, können Sie die erforderlichen Modelldateien herunterladen. Gehen Sie dazu auf die Seite des Stable Audio Open 1.0-Modells auf Hugging Face und klicken Sie auf den Reiter 'Files and versions'. Laden Sie die Datei 'model.ckpt' (oder 'model.safetensors') und die Datei 'model_config.json' herunter. Diese Dateien werden für den Betrieb der Stable Audio Tools benötigt.