ツールの共有#
MusicGenは、Transformer モデルに基づく AI 音楽生成器であり、テキストの説明を 12 秒のオーディオに変換することができます。
特徴#
Meta の encodec オーディオトークナイザーを使用して、オーディオデータをより小さな部分に分解し、次の音楽の断片を予測します。これは、言語モデルがフレーズの次の文字を予測するのと同様です。テキストと音楽のヒントを同時に処理し、高速かつ効率的な単一ステージの処理能力を持っています。
デプロイ#
-
プロジェクトのインストール
pip install 'torch>=2.0' git clone https://github.com/facebookresearch/audiocraft.git cd audiocraft pip install -e . # or if you cloned the repo locally
-
事前訓練済みモデルのダウンロード
small: 300M モデル、テキストから音楽のみ
medium: 1.5B モデル、テキストから音楽のみ
melody: 1.5B モデル、テキストから音楽およびテキスト + 旋律から音楽への変換
large: 3.3B モデル、テキストから音楽のみ
-
MusicGen の実行
python app.py
プラットフォーム#
公式デモ
オンラインテスト
免責事項#
この記事は、ツールの共有記録としてのみ提供されています。
この記事はHBlogと同期しています。