MOSS VoiceGenerator — GRPO LoRA (Rank 8)

Overview

Base model: OpenMOSS-Team/MOSS-VoiceGenerator (Qwen3-1.7B backbone)
Method: GRPO (Group Relative Policy Optimization)
LoRA rank: 8, alpha: 16
Training: 500 steps, batch=8, G=4, lr=5e-5
Rewards: Speaker similarity (ECAPA-TDNN, w=0.6) + CLAP emotion (w=0.4) + WER penalty

Results (500 steps)

Metric	Step 1-100	Step 401-500	Improvement
Speaker Sim	0.378	0.450	+19%
CLAP	0.183	0.231	+26%
WER	0.225	0.135	-40%

Eval (1 sample per condition)

Model	Mean Sim	Success Rate
Baseline	0.264	56/75
GRPO r8	0.355	75/75

Usage

from transformers import AutoModel
from peft import PeftModel

model = AutoModel.from_pretrained("OpenMOSS-Team/MOSS-VoiceGenerator", trust_remote_code=True)
model.language_model = PeftModel.from_pretrained(model.language_model, "laion/voicenet-1.7B-wip", subfolder="grpo-r8-500steps")

Downloads last month: -; Downloads are not tracked for this model. How to track

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support