序文#
この記事では、VITS-fast-fine-tuning について簡単に紹介します。
VITS-fast-fine-tuning は、希望するキャラクターの音声を素早くクローンするための VITS のファインチューニングトレーニングライブラリです。
本文#
1. VITS-fast-fine-tuning とは#
音声のキャラクターを素早くクローンすることができるものです。
2. VITS-fast-fine-tuning の機能#
-
モデルに含まれる任意の 2 つのキャラクターの声の変換が可能です。
-
カスタムキャラクターの声を日本語、英語、中国語の TTS で行うことができます。
-
多様な微調整方法をサポートしています:
- 10 以上の短いオーディオからキャラクターの声をクローンする
- 3 分以上の長いオーディオからキャラクターの声をクローンする(単一の話者のみを含むオーディオのみ)
- 3 分以上のビデオからキャラクターの声をクローンする(単一の話者のみを含むビデオのみ)
- bilibili のビデオリンクを入力してキャラクターの声をクローンする
3. VITS-fast-fine-tuning の使用とトレーニング#
カスタムキャラクターの微調整#
-
データの作成
-
Google Colabを使用してオンラインでトレーニング
-
またはローカルでトレーニングし、チュートリアルを参照してください。Cuda 関連の依存関係が必要で、プロジェクトのコードと事前トレーニングモデルをダウンロードする必要があり、手間がかかりますが、Colab を使用して簡単にトレーニングできます。
使用と推論#
-
微調整済みのモデルと設定ファイルをダウンロードする
-
最新のリリースパッケージをダウンロードする(Github ページの右側にあります);
-
ダウンロードしたモデルと設定ファイルを
inference
フォルダに配置し、ファイル名をそれぞれG_latest.pth
とfinetune_speaker.json
にする; -
準備が整ったら、ファイル構造は次のようになります:
inference
├───inference.exe
├───...
├───finetune_speaker.json
└───G_latest.pth
-
inference.exe
を実行すると、ブラウザが自動的にポップアップウィンドウが表示されます。パスには中国語の文字やスペースが含まれていないことに注意してください。 -
注意:声の変換機能を使用するには、
ffmpeg
をインストールする必要があります。
4. 結論#
このプロジェクトは、カスタムキャラクターの音声の微調整の難易度を低くし、微調整済みのモデルに対して直接呼び出し可能なパッケージを提供しており、非常に使いやすいです。
最後に#
参考記事:
免責事項#
この記事は個人の学習記録として作成されています。
この記事はHBlogと同期しています。