About

This is a basic zero-shot voice conversion model trained with VITS + contentvec

See:

Speaker Similarity

Computed with eval.py with Resemblyzer

Original QuickVC (trained on VCTK)       Average: 0.667 Min: 0.477
New model                                Average: 0.880 Min: 0.712

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support