工具分享#
MusicGen一款基于 Transformer 模型的 AI 音乐生成器,可以将文本描述转化为 12 秒的音频。
特点#
使用 Meta 的 encodec 音频分词器将音频数据分解成较小的部分,然后预测音乐片段的下一个部分,类似于语言模型预测短语中的下一个字母。它可以同时处理文本和音乐提示,具有快速高效的单阶段处理能力。
部署#
-
安装项目
pip install 'torch>=2.0' git clone https://github.com/facebookresearch/audiocraft.git cd audiocraft pip install -e . # or if you cloned the repo locally
-
下载预训练模型
small: 300M model, text to music only
medium: 1.5B model, text to music only
melody: 1.5B model, text to music and text+melody to music (文本加指定的旋律)
large: 3.3B model, text to music only
-
运行 MusicGen
python app.py
平台#
官方 demo
在线测试
声明#
本文仅作为工具分享记录。
本文与HBlog保持同步。