banner
hughie

hughie

热爱技术的小菜鸟, 记录一下所学所感

VITS-fast-fine-tuning-快速微調-快速微調自訂角色的聲音

前言#

本文簡單記錄介紹一下 VITS-fast-fine-tuning。

VITS-fast-fine-tuning 是一個 VITS 的微調訓練庫,可以快速克隆出想要的角色聲音。


正文#

一、什麼是 VITS-fast-fine-tuning#

快速克隆音頻中角色的聲音。

二、VITS-fast-fine-tuning 功能#

  • 在模型所包含的任意兩個角色之間進行聲線轉換;
  • 對自定義角色聲線進行中日英三語 TTS。
  • 支持多種方式微調:
    • 從 10 條以上的短音頻克隆角色聲音
    • 從 3 分鐘以上的長音頻克隆角色聲音(單個音頻只能包含單說話人)
    • 從 3 分鐘以上的視頻克隆角色聲音(單個視頻只能包含單說話人)
    • 通過輸入 bilibili 視頻鏈接克隆角色聲音

三、VITS-fast-fine-tuning 使用與訓練#

微調自定義角色#

  • 制作數據
  • 使用Google Colab在線訓練
  • 或者本地訓練,查看教程,需要 Cuda 相關依賴,下載項目代碼和預訓練模型,比較繁瑣,直接用 Colab 訓練簡單

使用與推理#

  1. 下載微調好的模型和 config 文件
  2. 下載最新的 Release 包(在 Github 頁面的右側);
  3. 把下載的模型和 config 文件放在 inference文件夾下,其文件名分別為 G_latest.pthfinetune_speaker.json
  4. 一切準備就緒後,文件結構應該如下所示:
inference
├───inference.exe
├───...
├───finetune_speaker.json
└───G_latest.pth
  1. 運行 inference.exe,瀏覽器會自動彈出視窗,注意其所在路徑不能有中文字符或者空格;

  2. 請注意,聲線轉換功能需要安裝ffmpeg才能正常使用。

四、總結#

項目降低了微調自定義角色聲音的難度,對於微調好的模型也提供了打包好的程序直接調用,非常易用。


最後#

參考文章:

官方項目


声明#

本文僅作為個人學習記錄。

本文與HBlog保持同步。

載入中......
此文章數據所有權由區塊鏈加密技術和智能合約保障僅歸創作者所有。