hughie

热爱技术的小菜鸟, 记录一下所学所感

VITS-fast-fine-tuning-カスタムロールの音声のクローンを高速調整

2023年9月3日#AI #VITS #TTS1301

AI 翻訳

この記事はAIを通じて中国語から日本語に翻訳されました。原文を表示

AI が生成した要約

VITS-fast-fine-tuning是一个VITS的微调训练库，可以快速克隆出想要的角色声音。它支持声线转换和对自定义角色声线进行中日英三语TTS。使用Google Colab在线训练或本地训练，然后下载微调好的模型和config文件。运行inference.exe即可使用。该项目降低了微调自定义角色声音的难度，非常易用。

序文#

この記事では、VITS-fast-fine-tuning について簡単に紹介します。

VITS-fast-fine-tuning は、希望するキャラクターの音声を素早くクローンするための VITS のファインチューニングトレーニングライブラリです。

本文#

1. VITS-fast-fine-tuning とは#

音声のキャラクターを素早くクローンすることができるものです。

2. VITS-fast-fine-tuning の機能#

モデルに含まれる任意の 2 つのキャラクターの声の変換が可能です。
カスタムキャラクターの声を日本語、英語、中国語の TTS で行うことができます。
多様な微調整方法をサポートしています：
- 10 以上の短いオーディオからキャラクターの声をクローンする
- 3 分以上の長いオーディオからキャラクターの声をクローンする（単一の話者のみを含むオーディオのみ）
- 3 分以上のビデオからキャラクターの声をクローンする（単一の話者のみを含むビデオのみ）
- bilibili のビデオリンクを入力してキャラクターの声をクローンする

3. VITS-fast-fine-tuning の使用とトレーニング#

カスタムキャラクターの微調整#

データの作成
Google Colabを使用してオンラインでトレーニング
またはローカルでトレーニングし、チュートリアルを参照してください。Cuda 関連の依存関係が必要で、プロジェクトのコードと事前トレーニングモデルをダウンロードする必要があり、手間がかかりますが、Colab を使用して簡単にトレーニングできます。

使用と推論#

微調整済みのモデルと設定ファイルをダウンロードする
最新のリリースパッケージをダウンロードする（Github ページの右側にあります）；
ダウンロードしたモデルと設定ファイルを inferenceフォルダに配置し、ファイル名をそれぞれ G_latest.pth と finetune_speaker.jsonにする；
準備が整ったら、ファイル構造は次のようになります:

inference.exeを実行すると、ブラウザが自動的にポップアップウィンドウが表示されます。パスには中国語の文字やスペースが含まれていないことに注意してください。
注意：声の変換機能を使用するには、ffmpegをインストールする必要があります。

4. 結論#

このプロジェクトは、カスタムキャラクターの音声の微調整の難易度を低くし、微調整済みのモデルに対して直接呼び出し可能なパッケージを提供しており、非常に使いやすいです。

最後に#

参考記事：

公式プロジェクト

免責事項#

この記事は個人の学習記録として作成されています。

この記事はHBlogと同期しています。

文章は、創作者によって署名され、ブロックチェーンに安全に保存されています。

Blockchain ID
#54641-35
所有者
0xa869a52bc01f2de7f9e32f6b0f3cd8ee85e31d2e
取引ハッシュ
作成 0x44c6a43c...846c7defef 最後更新 0x44c6a43c...846c7defef
IPFS アドレス
ipfs://bafkreih5vgtbstzyga64j3pcp7bgyxpgccjxngob6tfmjx2ussavquueyq