MusicGen-音乐生成器

2023年6月25日#AI #Text2Music #META1052

AI が生成した要約

MusicGenは、Transformerモデルを使用したAI音楽生成器であり、テキストの説明を12秒のオーディオに変換することができます。Metaのencodecオーディオトークン化器を使用して、オーディオデータをより小さな部分に分解し、音楽の断片の次の部分を予測します。テキストと音楽のヒントを同時に処理できる高速で効率的な単一ステージの処理能力を持っています。MusicGenを実行するためには、プロジェクトをインストールし、予めトレーニングされたモデルをダウンロードして、app.pyを実行します。この記事は、ツールの共有記録としてのみ提供されています。

工具分享#

MusicGen一款基于 Transformer 模型的 AI 音乐生成器，可以将文本描述转化为 12 秒的音频。

特点#

使用 Meta 的 encodec 音频分词器将音频数据分解成较小的部分，然后预测音乐片段的下一个部分，类似于语言模型预测短语中的下一个字母。它可以同时处理文本和音乐提示，具有快速高效的单阶段处理能力。

部署#

安装项目

pip install 'torch>=2.0'
git clone https://github.com/facebookresearch/audiocraft.git
cd audiocraft
pip install -e .  # or if you cloned the repo locally

下载预训练模型

small: 300M model, text to music only

medium: 1.5B model, text to music only

melody: 1.5B model, text to music and text+melody to music (文本加指定的旋律)

large: 3.3B model, text to music only

运行 MusicGen
```
python app.py
```

平台#

官方 demo
在线测试

声明#

本文仅作为工具分享记录。

本文与HBlog保持同步。