banner
hughie

hughie

热爱技术的小菜鸟, 记录一下所学所感

VITS-fast-fine-tuning-快速克隆自定义角色的声音

前言#

​ 本文简单记录介绍一下 VITS-fast-fine-tuning。

​ VITS-fast-fine-tuning 是一个 VITS 的微调训练库,可以快速克隆出想要的角色声音。


正文#

一、什么是 VITS-fast-fine-tuning#

快速克隆音频中角色的声音。

二、VITS-fast-fine-tuning 功能#

  • 在模型所包含的任意两个角色之间进行声线转换;

  • 对自定义角色声线进行中日英三语 TTS。

  • 支持多种方式微调:

    • 从 10 条以上的短音频克隆角色声音
    • 从 3 分钟以上的长音频克隆角色声音(单个音频只能包含单说话人)
    • 从 3 分钟以上的视频克隆角色声音(单个视频只能包含单说话人)
    • 通过输入 bilibili 视频链接克隆角色声音

三、VITS-fast-fine-tuning 使用与训练#

微调自定义角色#

  • 制作数据

  • 使用Google Colab在线训练

  • 或者本地训练,查看教程, 需要 Cuda 相关依赖,下载项目代码和预训练模型,比较麻烦,直接用 Colab 训练简单

使用与推理#

  1. 下载微调好的模型和 config 文件

  2. 下载最新的 Release 包(在 Github 页面的右侧);

  3. 把下载的模型和 config 文件放在 inference文件夹下,其文件名分别为 G_latest.pthfinetune_speaker.json

  4. 一切准备就绪后,文件结构应该如下所示:

inference
├───inference.exe
├───...
├───finetune_speaker.json
└───G_latest.pth
  1. 运行 inference.exe, 浏览器会自动弹出窗口,注意其所在路径不能有中文字符或者空格;

  2. 请注意,声线转换功能需要安装ffmpeg才能正常使用。

四、总结#

项目降低了微调自定义角色声音的难度,对于微调好的模型也提供了打包好的程序直接调用,非常易用。


最后#

参考文章:

官方项目


声明#

本文仅作为个人学习记录。

本文与HBlog保持同步。

加载中...
此文章数据所有权由区块链加密技术和智能合约保障仅归创作者所有。