BatiSay-ko-base

한국어 fine-tuned Whisper Large v3 Turbo — Apache 2.0.

CER (KsponSpeech eval_clean 3000 sample)

Model	CER
OpenAI Whisper Large v3 (raw)	17.03%
batisay-ko-base	8.68%
Return Zero (홍보)	5.91-6.18%

파일

ggml-batisay-ko-base.bin         1.6 GB  (F32, 최고 quality)
ggml-batisay-ko-base-q5_0.bin    547 MB  (Q5, balanced) recommended
ggml-batisay-ko-base-q4_0.bin    452 MB  (Q4, Mac 8GB)
model.safetensors                1.6 GB  (transformers)

사용 — whisper.cpp / BatiFlow App

WhisperModel(
  name: "BatiSay-ko-base",
  url: "https://huggingface.co/batiai/batisay-ko-base/resolve/main/ggml-batisay-ko-base-q5_0.bin"
)

사용 — Python

from transformers import WhisperForConditionalGeneration, WhisperProcessor
model = WhisperForConditionalGeneration.from_pretrained('batiai/batisay-ko-base')
processor = WhisperProcessor.from_pretrained('batiai/batisay-ko-base', language='Korean', task='transcribe')

학습

Base: openai/whisper-large-v3-turbo (809M params)
Data: KsponSpeech 1000h + Zeroth-Korean 50h
Epoch: 3, LR 1e-5 linear, 2 GPU DDP (A6000 48GB)
Train time: 35.8h
학습 시점: 2026-05-28

라이센스

Apache 2.0 (BatiAI Open Tier 1)

향후

batisay-ko-large (V10): 5-6% CER, 2026-06-11 출시 예정
batisay-ko-base-v11: 7-7.5% CER, V11 데이터 강화, 2026-06-13 출시 예정

Downloads last month: 180

Safetensors

Model size

0.8B params

Tensor type

BF16

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for batiai/batisay-ko-base

Base model

openai/whisper-large-v3

Finetuned

openai/whisper-large-v3-turbo

Finetuned

(539)

this model