请问 whisper 和 sovits 推荐的 vec 788l12 相比有哪些优劣呢

#3
by b1ncer - opened

sovits 4.1 的底模很难找。。看到您这里有,想试试看,顺便问问差异。。

本仓库的预训练模型使用的encoder是whisper-medium,无音量增强

相比vec768l12

优势

  • whisper作为一个多语言asr模型,语义还原更为准确(咬字更准)
  • whisper提取特征时可以过滤部分特定噪音

劣势

  • whisper音色泄漏情况接近hubertsoft,不适合过多说话人的场景
  • whisper的总体抗噪能力不如vec768l12
  • 对一些非语音部分会产生错误的识别(如吸气声)
  • 罕见的对部分音频无法提取特征
  • 不支持实时变声

总结下来就是可用,也有突出的优点,但总体是不如vec768l12的
在sovits这个项目里whisper的定位差不多是cnhubert替代,cnhubert在sovits中音色泄漏问题太过严重,追求准确的咬字能力whisper较好一些

十分感谢您的悉心解答!

另外有一个细节想请教一下,音色泄漏问题表现是什么呢?是多说话人会音色趋同吗?如果只炼单说话人,是不是就不需要有音色泄漏的问题

十分感谢您的悉心解答!

另外有一个细节想请教一下,音色泄漏问题表现是什么呢?是多说话人会音色趋同吗?如果只炼单说话人,是不是就不需要有音色泄漏的问题

音色泄漏意思是输出的音频相比目标音色更接近于输入的音色,单说话人可以最大程度上减少音色泄漏造成的影响,但不代表不存在音色泄漏的问题

其他encoder的预训练模型可以看一下https://huggingface.co/ms903

Kakaru changed discussion status to closed

Sign up or log in to comment