前言#
本文簡單記錄介紹一下 VITS-fast-fine-tuning。
VITS-fast-fine-tuning 是一個 VITS 的微調訓練庫,可以快速克隆出想要的角色聲音。
正文#
一、什麼是 VITS-fast-fine-tuning#
快速克隆音頻中角色的聲音。
二、VITS-fast-fine-tuning 功能#
- 在模型所包含的任意兩個角色之間進行聲線轉換;
- 對自定義角色聲線進行中日英三語 TTS。
- 支持多種方式微調:
- 從 10 條以上的短音頻克隆角色聲音
- 從 3 分鐘以上的長音頻克隆角色聲音(單個音頻只能包含單說話人)
- 從 3 分鐘以上的視頻克隆角色聲音(單個視頻只能包含單說話人)
- 通過輸入 bilibili 視頻鏈接克隆角色聲音
三、VITS-fast-fine-tuning 使用與訓練#
微調自定義角色#
- 制作數據
- 使用Google Colab在線訓練
- 或者本地訓練,查看教程,需要 Cuda 相關依賴,下載項目代碼和預訓練模型,比較繁瑣,直接用 Colab 訓練簡單
使用與推理#
- 下載微調好的模型和 config 文件
- 下載最新的 Release 包(在 Github 頁面的右側);
- 把下載的模型和 config 文件放在
inference
文件夾下,其文件名分別為G_latest.pth
和finetune_speaker.json
; - 一切準備就緒後,文件結構應該如下所示:
inference
├───inference.exe
├───...
├───finetune_speaker.json
└───G_latest.pth
-
運行
inference.exe
,瀏覽器會自動彈出視窗,注意其所在路徑不能有中文字符或者空格; -
請注意,聲線轉換功能需要安裝
ffmpeg
才能正常使用。
四、總結#
項目降低了微調自定義角色聲音的難度,對於微調好的模型也提供了打包好的程序直接調用,非常易用。
最後#
參考文章:
声明#
本文僅作為個人學習記錄。
本文與HBlog保持同步。