hughie

热爱技术的小菜鸟, 记录一下所学所感

VITS-fast-fine-tuning-快速微調-快速微調自訂角色的聲音

2023年9月3日#AI #VITS #TTS1293

AI 翻譯

這篇文章透過AI由簡體中文翻譯成繁體中文。查看原文

AI 生成的摘要

VITS-fast-fine-tuning是一个VITS的微调训练库，可以快速克隆出想要的角色声音。它可以在模型所包含的任意两个角色之间进行声线转换，并支持对自定义角色声线进行中日英三语TTS。使用VITS-fast-fine-tuning需要进行微调自定义角色的训练，并使用下载的模型和config文件进行推理。该项目降低了微调自定义角色声音的难度，并提供了打包好的程序供直接调用。

前言#

本文簡單記錄介紹一下 VITS-fast-fine-tuning。

VITS-fast-fine-tuning 是一個 VITS 的微調訓練庫，可以快速克隆出想要的角色聲音。

正文#

一、什麼是 VITS-fast-fine-tuning#

快速克隆音頻中角色的聲音。

二、VITS-fast-fine-tuning 功能#

在模型所包含的任意兩個角色之間進行聲線轉換；
對自定義角色聲線進行中日英三語 TTS。
支持多種方式微調：
- 從 10 條以上的短音頻克隆角色聲音
- 從 3 分鐘以上的長音頻克隆角色聲音（單個音頻只能包含單說話人）
- 從 3 分鐘以上的視頻克隆角色聲音（單個視頻只能包含單說話人）
- 通過輸入 bilibili 視頻鏈接克隆角色聲音

三、VITS-fast-fine-tuning 使用與訓練#

微調自定義角色#

制作數據
使用Google Colab在線訓練
或者本地訓練，查看教程，需要 Cuda 相關依賴，下載項目代碼和預訓練模型，比較繁瑣，直接用 Colab 訓練簡單

使用與推理#

下載微調好的模型和 config 文件
下載最新的 Release 包（在 Github 頁面的右側）；
把下載的模型和 config 文件放在 inference文件夾下，其文件名分別為 G_latest.pth 和 finetune_speaker.json；
一切準備就緒後，文件結構應該如下所示:

inference
├───inference.exe
├───...
├───finetune_speaker.json
└───G_latest.pth

運行 inference.exe，瀏覽器會自動彈出視窗，注意其所在路徑不能有中文字符或者空格；
請注意，聲線轉換功能需要安裝ffmpeg才能正常使用。

四、總結#

項目降低了微調自定義角色聲音的難度，對於微調好的模型也提供了打包好的程序直接調用，非常易用。

最後#

參考文章：

声明#

本文僅作為個人學習記錄。

本文與HBlog保持同步。

此文章數據所有權由區塊鏈加密技術和智能合約保障僅歸創作者所有。

區塊鏈編號
#54641-35
擁有者
0xa869a52bc01f2de7f9e32f6b0f3cd8ee85e31d2e
交易雜湊值
創作 0x44c6a43c...846c7defef 最後更新 0x44c6a43c...846c7defef
IPFS 位址
ipfs://bafkreih5vgtbstzyga64j3pcp7bgyxpgccjxngob6tfmjx2ussavquueyq