如何在本地安裝Meta的免費文字轉音樂AI生成器 (AudioGen)
目錄
- 將文字轉換為音頻的最新技術
- Google的音樂LM演示
- AI測試廚房的音樂版本
- Facebook的音頻工藝開源版本
- 使用Google Colab安裝AudioCraft
- 在本地計算機上運行AudioCraft
- 設置Anaconda和Cuda
- 安裝所需的函式庫和模塊
- 檢查Cuda是否可用
- 運行AudioCraft
- 享受創作音樂的樂趣
💿 將文字轉換為音頻的最新技術
最近,Google、AI測試廚房和Facebook研究團隊分別發佈了一些令人興奮的技術,使我們能夠將文字轉換為音頻。這些技術利用了深度學習和自然語言處理的先進算法,通過生成音樂來配合文字描述。在本文中,我們將介紹這些技術的使用方法,以及如何在Google Colab和本地計算機上安裝和運行相關軟件。讓我們一起走進這個令人興奮的世界,開始創作屬於自己的音樂吧!
🎵 Google的音樂LM演示
Google最早在幾週前發佈了他們的音樂LM演示,這個演示展示了一個有趣的玩法,讓用戶能夠透過文字描述來產生相應的音樂。在這個演示中,Google提供了一些不同的字幕和伴隨著這些字幕的音頻。他們提供了一個街機遊戲的音頻,節奏快、熱情洋溢,帶有類似於電吉他的旋律。讓我們一起來聽聽這個音樂的聲音:
【播放音頻】
這個功能非常酷,是一個很好的初步嘗試。然而,它還存在一些限制,比如沒有太多的控制權、無法調整音樂長度,也無法要求生成特定類型的音樂,如想聽一首類似Katy Perry風格的歌曲。不過,你可以從該頁面上方的下載按鈕直接下載音樂。
💻 AI測試廚房的音樂版本
隨後,AI測試廚房發佈了他們的音樂版本,你可以通過一些簡單的操作來生成音樂。他們提供了一個名稱為Trap的音樂類型,其中包含了深沉的低音和尖銳的高音。讓我們來聽聽它的聲音:
【播放音頻】
這個音樂聽起來不錯,但同樣,你對它的控制權有限。如果你嘗試輸入類似"我想聽Katy Perry類型的歌曲"這樣的內容,系統是不允許的。但你可以從該頁面上的下載按鈕下載這個音樂。
🌐 Facebook的音頻工藝開源版本
現在,Facebook研究團隊發佈了一個完全開源的文本轉音樂工具,它名為AudioCraft。這是一個非常強大和靈活的工具,讓你可以完全掌控音樂的生成。接下來,我將向你展示如何使用兩種方法來安裝AudioCraft,一種方法是使用Google Colab,另一種是在本地計算機上運行。
首先,我們來看看使用Google Colab安裝AudioCraft的方法。你只需要點擊下方連結,打開Google Colab環境,然後運行相關代碼即可,非常簡單!
【在Google Colab中運行AudioCraft】
在Google Colab中運行相關代碼後,你就可以開始使用AudioCraft來創作音樂了。只需要在相應的面板中輸入不同的描述,每個描述都會生成一首獨立的音樂。比如,你可以輸入以下五個描述,這樣就可以生成五首不同的音樂:
- 我想聽一首瘋狂的EDM,節奏很快很重
- 我想聽一首經典的雷鬼音樂,其中有一段電吉他獨奏
- 我想聽一首搖滾樂,有飽和的吉他聲
讓我們來聽聽這些音樂的聲音:
【播放音頻1】
【播放音頻2】
【播放音頻3】
這些音樂聽起來真不錯,而且完全是由AI生成的!使用Google Colab可以讓你輕鬆體驗到創作音樂的樂趣。不過,現在,我們來看看如何在本地計算機上運行AudioCraft,這將給你更多的控制權和自由。
🖥️ 在本地計算機上運行AudioCraft
在你的本地計算機上運行AudioCraft之前,有幾個事情需要準備。首先,確保你的計算機上安裝了Anaconda和Cuda。Anaconda是一個用於管理Python版本的工具,可以幫助你解決Python和模塊不兼容的問題。你可以通過在Google上搜索"Anaconda Python"來下載和安裝它。然後,你還需要下載並安裝Cuda庫,你可以從Nvidia官網上下載它。
在準備就緒後,我們可以開始在本地計算機上運行AudioCraft了。首先,建立一個新的文件夾,命名為"music_gen"或任何你喜歡的名字,然後在終端中切換到該文件夾的位置。接下來,我們使用Anaconda創建一個新的環境並安裝特定版本的Python。請運行以下命令:
conda create --name my_env python=3.10.11
這將創建一個名為"my_env"的新Anaconda環境,並安裝3.10.11版本的Python。這是為了確保與Cuda庫和其他AI庫的兼容性。接下來,激活你的環境:
conda activate my_env
這將激活你剛剛創建的環境。現在,我們需要安裝所有的機器學習和AI庫,以便運行AudioCraft。使用以下命令安裝這些庫:
conda install pytorch torchvision torchaudio cudatoolkit=<your_cuda_version>
請注意將""替換為你所安裝的Cuda庫的版本。然後,我們需要安裝一些其他庫和模塊:
pip install transformers
pip install audiocraft
pip install IPython
現在,我們可以運行AudioCraft的代碼了。你可以使用以下代碼,這是我們根據Google Colab的版本進行了一些修改:
import torch
from transformers import Text2SpeechForConditionalGeneration
from audiocraft.audio import save_audio
model = Text2SpeechForConditionalGeneration.from_pretrained("facebook/hubert-lg")
model.to("cuda")
prompts = [
"我想聽一首瘋狂的EDM,節奏很快很重",
"我想聽一首經典的雷鬼音樂,其中有一段電吉他獨奏",
"我想聽一首搖滾樂,有飽和的吉他聲"
]
for i, prompt in enumerate(prompts):
input_ids = model.tokenizer.encode(prompt, return_tensors="pt").to("cuda")
output = model.generate(input_ids)
audio = model.get_audio(output)
save_audio(audio, f"audio_{i}.wav")
執行這段代碼後,你將獲得三個音頻文件,分別對應著三個不同的描述。讓我們來聽聽這些音樂的聲音:
【播放音頻1】
【播放音頻2】
【播放音頻3】
音樂聽起來棒極了!現在,你完全掌控著生成音樂的過程,而且這都是在你的本地計算機上實現的。你可以根據自己的喜好隨意創作音樂,玩得開心!如果你遇到任何問題,請隨時加入我的Discord,我會盡力幫助你。
🔍 優缺點
在探討這些技術之前,讓我們來看一下它們的優點和缺點:
優點:
- 這些技術能夠將文字描述轉換為音頻,從而為我們提供了一種全新的創作音樂的方式。
- 它們利用了深度學習和自然語言處理的先進算法,生成的音樂品質非常高。
- 使用Google Colab或在本地計算機上運行這些技術,我們可以完全掌控音樂生成的過程。
缺點:
- 目前這些技術還處於發展階段,仍然存在一些限制。例如,缺乏對生成音樂的細節控制、無法生成特定類型的音樂等問題。
- 需要一定的技術知識和配置環境,才能順利安裝和運行相關軟件。
- 目前的模型生成的音樂有時可能會有一些不連貫或不和諧的地方。
儘管存在一些限制,這些技術依然提供了一個令人興奮的機會,讓我們通過文字描述來創作獨特的音樂。
🌟 重點總結
- Google、AI測試廚房和Facebook研究團隊分別發佈了將文字轉換為音頻的技術,為我們帶來了創作音樂的新方式。
- Google的音樂LM演示提供了一個基礎的操作,但缺乏對音樂的細節控制。
- AI測試廚房的音樂版本增加了一些控制選項,讓用戶能夠播放符合特定要求的音樂。
- Facebook的AudioCraft是一個開源工具,可以在Google Colab和本地計算機上運行,並為用戶提供完全的音樂生成控制權。
- 在使用這些技術之前,需要安裝和配置相關的庫和軟件。
- 這些技術仍然處於發展階段,具有一定的限制,但依然提供了創作音樂的新機會。
將文字轉換為音頻的技術為我們帶來了無限的創作可能性。通過這些技術,我們可以創作出屬於自己的獨特音樂,開啟一個全新的音樂創作之旅。
🔍 常見問題解答
問:這些技術是否可以生成特定類型的音樂?
答:目前的版本尚不能根據特定類型的音樂進行生成。然而,你可以通過描述一些特定的音樂元素來獲得更接近你想要的音樂。
問:我可以在商業項目中使用這些生成的音樂嗎?
答:這取決於相關的版權和使用條款。請先仔細閱讀相關的條款和條件,確保你遵守相關的規定。
問:這些技術是否可以生成無版權的音樂?
答:由於生成的音樂可能受到版權保護,因此我們建議使用這些技術生成的音樂時要謹慎,最好遵循相關的版權法律和規定。
問:如何改變音樂的長度?
答:你可以在生成音樂的代碼中更改"duration"參數的值,以改變生成音樂的長度。
資源: