序文#
この記事では、vits_chinese について簡単に紹介します。
vits_chinese は、BERT と VITS を使用して TTS を行い、いくつかの自然言語の特徴を取り入れることで、高品質なテキストから音声への変換を実現し、リアルタイム出力もサポートしています。
本文#
一、VITS とは何ですか#
VITS は、変分推論と対抗的トレーニングプロセスを使用した音声合成モデルであり、現在の 2 段階の TTS システムよりも自然な音声を生成することができます。このモデルは、入力テキストから異なるリズムを持つ音声を合成するために、ランダムな長さの予測器を使用し、確率モデリングとランダムな長さの予測器を通じて自然な一対多の関係を表現します。入力テキストは、異なる音調とリズムで発音することができます。
以下は、vits のトレーニングプロセスのフローチャートです:
以下は、vits の推論プロセスです:
一方、vits_chinese は、vits をモデルフレームワークとして使用し、内部の基本コンポーネントとして BERT を採用しており、より自然な休止、少ない音声エラー、高品質な音声を実現しています。
二、vits_chinese の機能#
- BERT を使用して自然な休止を取得し、自然な音声を実現します。
- 自然な音声からの損失を推論し、音声エラーを減らします。
- VITS のフレームワークを使用して、高品質な音声を提供します。
三、vits_chinese の使用とトレーニング#
demoでオンラインで体験することができます。
自分でトレーニングやテストを行う場合は、まずプロジェクトをインストールする必要があります:
pip install -r requirements.txt
cd monotonic_align
python setup.py build_ext --inplace
事前トレーニング済みモデルは、huggingface プロジェクトまたはこちらのリンクからダウンロードできます。
推論は、python vits_infer.py --config ./configs/bert_vits.json --model vits_bert_model.pth
を実行してください。
トレーニングには、baker データをダウンロードし、波形のサンプリングレートを 16kHz に変更し、波形を./data/waves
に配置し、000001-010000.txt
を./data
に配置し、python vits_prepare.py -c ./configs/bert_vits.json
とpython train.py -c configs/bert_vits.json -m bert_vits
を実行してトレーニングを行います。
カスタムトレーニングデータを使用する場合は、データをプロジェクトの要件に合わせて整理するだけです。
四、まとめ#
効果は、コーパスデータセットのカバレッジに完全に依存します。このプロジェクトは完全な TTS プロジェクトではありません。
プロジェクトには 1 つの女性の声しかありません。より多くのオプションを使用するには、自分でコーパスを収集する必要がありますが、全体的な効果は非常に良好です。
最後に#
参考文献:
免責事項#
この記事は個人の学習記録として提供されています。
この記事はhblogと同期しています。