CosyVoice3 Multilingual Multispeaker TTS Model (v3_ep49)

CosyVoice3 기반 다국어/다화자 TTS 모델입니다. 한국어, 영어, 일본어, 중국어 4개 언어를 지원하며, 2명의 화자 음성이 포함되어 있습니다.

📋 Model Information

항목	내용
Base Model	CosyVoice3 (Fun-CosyVoice3-0.5B)
Training Epochs	49 epochs
Training Date	2026년 3월
Model Size	6.6GB
Languages	Korean (ko), English (en), Japanese (ja), Chinese (zh)

👥 Speakers

Speaker ID	이름	설명
`nalnani`	날나니	여성 한국어 화자, 밝고 자연스러운 음성
`hwangjunhee`	황준희	남성 한국어 화자, 차분하고 안정적인 음성

Speaker Details

학습 데이터: 각 화자 약 1~2시간 분량의 고품질 녹음 데이터
지원 언어: 모든 화자가 ko/en/ja/zh 4개 언어 지원
음성 특성: Instruct 기반으로 감정, 속도, 톤 조절 가능

📁 Model Files

├── llm.pt                    # LLM weights (1.9GB)
├── flow.pt                   # Flow Matching weights (1.3GB)
├── hift.pt                   # HiFiGAN vocoder (80MB)
├── speech_tokenizer_v3.onnx  # Speech tokenizer (925MB)
├── campplus.onnx             # Speaker embedding extractor (27MB)
├── spk2info.pt               # Speaker embeddings (3KB)
├── cosyvoice3.yaml           # Model config
├── CosyVoice-BlankEN/        # Qwen2 tokenizer
└── vllm/                     # vLLM-optimized LLM

🚀 Usage

With CosyVoice3 API Server

# Clone the server repo
git clone https://github.com/GoodGangLabs/cosyvoice3-instruct-multilanguage-multispeaker-server.git

# Download model from HuggingFace
huggingface-cli download gglabs/cosyvoice3-multilingual-multispeaker-v3_ep49 --local-dir ./models/v3_ep49

# Run with Docker
docker-compose up -d

# Test TTS
curl -X POST http://localhost:8090/tts \
  -H "Content-Type: application/json" \
  -d '{"text": "안녕하세요", "language": "ko", "spk_id": "nalnani"}'

Direct Python Usage

from cosyvoice.cli.cosyvoice import CosyVoice3

# Load model
model = CosyVoice3("./models/v3_ep49", load_vllm=True)

# Generate speech
for result in model.inference_instruct2(
    "안녕하세요, 반갑습니다.",
    "한국어로 자연스럽게 말해주세요.",
    "nalnani"
):
    # result contains audio waveform
    pass

⚡ Performance

vLLM + TensorRT 최적화 시 성능:

Text Length	Latency
Short (5자)	~0.5s
Medium (20자)	~0.9s
Long (50자)	~1.5s

🔧 Training

Training Configuration

Base: Fun-CosyVoice3-0.5B (Alibaba)
Fine-tuning: SFT (Supervised Fine-Tuning)
Epochs: 49
Learning Rate: 1e-5
Hardware: NVIDIA H100 80GB

Data Preparation

한국어 음성 데이터 수집 및 전사
음성-텍스트 정렬 (Forced Alignment)
노이즈 제거 및 정규화
Multi-language 확장 (번역 + Cross-lingual transfer)

📜 License

Apache 2.0

🔗 Links

API Server: GitHub
Base Model: CosyVoice
Organization: GoodGang Labs

📧 Contact

GoodGang Labs - https://goodganglabs.com

Downloads last month: 49