Chuẩn bị phần cứng và phần mềm
Trước khi bắt đầu cài đặt Stable Audio Tools, bạn cần đảm bảo rằng máy tính của mình đáp ứng các yêu cầu tối thiểu sau:
- Hệ điều hành: Windows, macOS hoặc Linux
- Bộ xử lý: CPU Intel hoặc AMD
- Bộ nhớ: RAM 8GB trở lên (khuyến nghị 16GB)
- Card đồ họa: NVIDIA GeForce hoặc AMD Radeon (khuyến nghị NVIDIA với CUDA)
- Ổ cứng: Dung lượng trống ít nhất 20GB
- Phần mềm: Python 3.8 trở lên, Git, Conda (khuyến nghị)
Sau khi đã chuẩn bị đầy đủ, bạn có thể bắt đầu quá trình cài đặt sound effect Stable Audio AI.
Tải xuống Stable Audio Tools từ GitHub
Đầu tiên, bạn cần tải xuống mã nguồn của Stable Audio Tools từ kho lưu trữ GitHub chính thức. Bạn có thể sử dụng Git để sao chép kho lưu trữ này về máy tính của mình bằng lệnh sau:
git clone https://github.com/Stability-AI/stable-audio-tools.git
Lệnh này sẽ tạo ra một thư mục có tên stable-audio-tools
trên máy tính của bạn, chứa tất cả các tệp cần thiết để chạy mô hình sound effects AI này.
Tạo môi trường ảo Conda
Để đảm bảo rằng Stable Audio Tools hoạt động một cách ổn định và không xung đột với các phần mềm khác trên máy tính của bạn, bạn nên tạo một môi trường ảo Conda riêng biệt. Bạn có thể tạo môi trường ảo này bằng lệnh sau:
conda create -n stable-audio python=3.10
Lệnh này sẽ tạo ra một môi trường ảo có tên stable-audio
với Python phiên bản 3.10. Sau khi tạo xong, bạn cần kích hoạt môi trường ảo này bằng lệnh:
conda activate stable-audio
Việc tạo một Conda virtual environment rất quan trọng cho sự an toàn của hệ thống.

Cài đặt PyTorch và TorchVision
Sau khi đã kích hoạt môi trường ảo, bạn cần cài đặt PyTorch và TorchVision, Hai thư viện quan trọng cho việc chạy các mô hình AI. Bạn có thể cài đặt chúng bằng lệnh sau:
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
Lưu ý: Lệnh này sẽ cài đặt PyTorch và TorchVision với CUDA phiên bản 12.1. Nếu bạn không có card đồ họa NVIDIA hoặc muốn sử dụng CPU, bạn có thể bỏ qua --index-url https://download.pytorch.org/whl/cu121
.
Cài đặt các thư viện cần thiết
Tiếp theo, bạn cần cài đặt các thư viện Python khác mà Stable Audio Tools yêu cầu. Bạn có thể cài đặt chúng bằng lệnh sau:
pip install .
Lệnh này sẽ đọc tệp setup.py
trong thư mục stable-audio-tools
và cài đặt tất cả các thư viện cần thiết.

Tải xuống mô hình AI từ Hugging Face
Để Stable Audio Tools có thể tạo ra các hiệu ứng âm thanh, bạn cần tải xuống các mô hình AI đã được huấn luyện trước từ Hugging Face. Bạn có thể tải xuống các mô hình này từ trang web chính thức của Stability AI trên Hugging Face.
Tuy nhiên, trước khi có thể tải xuống, bạn cần phải chấp nhận các điều khoản sử dụng và điền vào một mẫu đơn đăng ký trên trang web của Hugging Face. Việc này nhằm đảm bảo rằng bạn sẽ sử dụng các mô hình AI này một cách có trách nhiệm và không vi phạm các quy định pháp luật.
Sau khi đã điền vào mẫu đơn và được chấp thuận, bạn có thể tải xuống các tệp .ckpt
và model_config.json
từ trang web của Hugging Face. Đây là các tệp quan trọng chứa thông tin về mô hình AI và cấu hình của nó.
Chạy Stable Audio Tools
Sau khi đã tải xuống và cài đặt tất cả các thành phần cần thiết, bạn có thể chạy Stable Audio Tools bằng lệnh sau:
python run_gradio.py --ckpt-path "./ckpt/model.ckpt" --model-config "./ckpt/model_config.json"
Lưu ý: Bạn cần thay thế ./ckpt/model.ckpt
và ./ckpt/model_config.json
bằng đường dẫn thực tế đến các tệp mà bạn đã tải xuống từ Hugging Face.
Sau khi chạy lệnh này, Stable Audio Tools sẽ khởi động một máy chủ web cục bộ và hiển thị một giao diện người dùng trên trình duyệt của bạn. Bạn có thể sử dụng giao diện này để tạo ra các hiệu ứng âm thanh bằng cách nhập mô tả văn bản và điều chỉnh các tham số khác nhau.