工具分享#
MusicGen是一款基於 Transformer 模型的 AI 音樂生成器,可以將文字描述轉化為 12 秒的音頻。
特點#
使用 Meta 的 encodec 音頻分詞器將音頻數據分解成較小的部分,然後預測音樂片段的下一個部分,類似於語言模型預測短語中的下一個字母。它可以同時處理文字和音樂提示,具有快速高效的單階段處理能力。
部署#
-
安裝項目
pip install 'torch>=2.0' git clone https://github.com/facebookresearch/audiocraft.git cd audiocraft pip install -e . # or if you cloned the repo locally
-
下載預訓練模型
small: 300M 模型,僅支持文字轉音樂
medium: 1.5B 模型,僅支持文字轉音樂
melody: 1.5B 模型,支持文字轉音樂和文字 + 旋律轉音樂
large: 3.3B 模型,僅支持文字轉音樂
-
運行 MusicGen
python app.py
平台#
官方 demo
在線測試
声明#
本文僅作為工具分享記錄。
本文與HBlog保持同步。