banner
hughie

hughie

热爱技术的小菜鸟, 记录一下所学所感

VITS-fast-fine-tuning-カスタムロールの音声のクローンを高速調整

序文#

​ この記事では、VITS-fast-fine-tuning について簡単に紹介します。

​ VITS-fast-fine-tuning は、希望するキャラクターの音声を素早くクローンするための VITS のファインチューニングトレーニングライブラリです。


本文#

1. VITS-fast-fine-tuning とは#

音声のキャラクターを素早くクローンすることができるものです。

2. VITS-fast-fine-tuning の機能#

  • モデルに含まれる任意の 2 つのキャラクターの声の変換が可能です。

  • カスタムキャラクターの声を日本語、英語、中国語の TTS で行うことができます。

  • 多様な微調整方法をサポートしています:

    • 10 以上の短いオーディオからキャラクターの声をクローンする
    • 3 分以上の長いオーディオからキャラクターの声をクローンする(単一の話者のみを含むオーディオのみ)
    • 3 分以上のビデオからキャラクターの声をクローンする(単一の話者のみを含むビデオのみ)
    • bilibili のビデオリンクを入力してキャラクターの声をクローンする

3. VITS-fast-fine-tuning の使用とトレーニング#

カスタムキャラクターの微調整#

  • データの作成

  • Google Colabを使用してオンラインでトレーニング

  • またはローカルでトレーニングし、チュートリアルを参照してください。Cuda 関連の依存関係が必要で、プロジェクトのコードと事前トレーニングモデルをダウンロードする必要があり、手間がかかりますが、Colab を使用して簡単にトレーニングできます。

使用と推論#

  1. 微調整済みのモデルと設定ファイルをダウンロードする

  2. 最新のリリースパッケージをダウンロードする(Github ページの右側にあります);

  3. ダウンロードしたモデルと設定ファイルを inferenceフォルダに配置し、ファイル名をそれぞれ G_latest.pthfinetune_speaker.jsonにする;

  4. 準備が整ったら、ファイル構造は次のようになります:

inference
├───inference.exe
├───...
├───finetune_speaker.json
└───G_latest.pth
  1. inference.exeを実行すると、ブラウザが自動的にポップアップウィンドウが表示されます。パスには中国語の文字やスペースが含まれていないことに注意してください。

  2. 注意:声の変換機能を使用するには、ffmpegをインストールする必要があります。

4. 結論#

このプロジェクトは、カスタムキャラクターの音声の微調整の難易度を低くし、微調整済みのモデルに対して直接呼び出し可能なパッケージを提供しており、非常に使いやすいです。


最後に#

参考記事:

公式プロジェクト


免責事項#

この記事は個人の学習記録として作成されています。

この記事はHBlogと同期しています。

読み込み中...
文章は、創作者によって署名され、ブロックチェーンに安全に保存されています。