Kakaru/sovits-whisper-pretrain · 请问 whisper 和 sovits 推荐的 vec 788l12 相比有哪些优劣呢

b1ncer

Jul 5, 2023

sovits 4.1 的底模很难找。。看到您这里有，想试试看，顺便问问差异。。

Kakaru

Owner Jul 6, 2023

•

本仓库的预训练模型使用的encoder是whisper-medium，无音量增强

相比vec768l12

优势

劣势

总结下来就是可用，也有突出的优点，但总体是不如vec768l12的
在sovits这个项目里whisper的定位差不多是cnhubert替代，cnhubert在sovits中音色泄漏问题太过严重，追求准确的咬字能力whisper较好一些

b1ncer

Jul 6, 2023

十分感谢您的悉心解答！

另外有一个细节想请教一下，音色泄漏问题表现是什么呢？是多说话人会音色趋同吗？如果只炼单说话人，是不是就不需要有音色泄漏的问题

Kakaru

Owner Jul 6, 2023

十分感谢您的悉心解答！

另外有一个细节想请教一下，音色泄漏问题表现是什么呢？是多说话人会音色趋同吗？如果只炼单说话人，是不是就不需要有音色泄漏的问题

音色泄漏意思是输出的音频相比目标音色更接近于输入的音色，单说话人可以最大程度上减少音色泄漏造成的影响，但不代表不存在音色泄漏的问题

其他encoder的预训练模型可以看一下https://huggingface.co/ms903

Kakaru changed discussion status to closed Jul 6, 2023