Configuration Parsing Warning:In adapter_config.json: "peft.task_type" must be a string

Whisper Large-v3 Japanese Filler LoRA Adapter

日本語音声からフィラー（「あの」「まあ」「えー」等の言い淀み）を取りこぼさずに文字起こしするための LoRA アダプタ。OpenAI Whisper Large-v3 の Decoder 層に rank=16 の LoRA を適用して fine-tune したもの。

性能 (held-out 9.2 分、initial_prompt なし)

指標	Base Whisper	This LoRA	改善
Char WER	8.61%	5.59%	-35% 相対
FIR (Filler Inclusion Rate)	13.3%	48.9%	3.7倍
filler recall	6/45	22/45	+16

WhisperD 論文 (arXiv 2505.21551) で FIR 0.04→0.70 を達成したアプローチを 50 分の訓練データで再現した形。

使い方

1. Python + PEFT + transformers

import torch
from transformers import WhisperForConditionalGeneration, WhisperProcessor
from peft import PeftModel

processor = WhisperProcessor.from_pretrained(
    "openai/whisper-large-v3", language="japanese", task="transcribe"
)
base = WhisperForConditionalGeneration.from_pretrained(
    "openai/whisper-large-v3", dtype=torch.float16
)
model = PeftModel.from_pretrained(base, "Coidemo/whisper-large-v3-filler-lora")
# 推論用にマージしたい場合:
merged = model.merge_and_unload()

2. MLX 版で使う場合 (Apple Silicon 推奨)

マージ + MLX 変換済みモデルが Coidemo/whisper-large-v3-filler-mlx で公開されている。

import mlx_whisper

result = mlx_whisper.transcribe(
    "video.mp4",
    path_or_hf_repo="Coidemo/whisper-large-v3-filler-mlx",
    language="ja",
)

訓練設定

Base model: openai/whisper-large-v3
LoRA: rank=16, alpha=32, dropout=0.05
Target modules: Decoder の self-attention / cross-attention の Q/K/V/O projection
Frozen: Encoder 全体 (話者過適合を抑制)
Dataset: 日本語ポッドキャスト 1 話者約 50 分 (124 train chunks / 21 eval chunks、29 秒平均)
Training: 10 epochs、batch 2 × grad accum 8 = 実効 batch 16、learning rate 1e-4、warmup ratio 0.1
Hardware: Apple M4 Max 128GB、17 分で完走

訓練データのトランスクリプトは手動修正済み (509 segments 編集、20 skip、1228 保持)。

制限事項

話者特化: 訓練話者 (podcaster「けんすう」氏) のフィラーパターン (「あの」支配的) に過適合。他話者では効果減少
「えっと」「えーっと」系フィラーは訓練話者が使わないため、訓練データに現れず改善なし
日本語以外では効果なし
hallucination 懸念: 訓練データに類似した音響パターンで「まあまあまあ…」等のループが稀に発生する。TextffCut の core.mlx_whisper_refine.transcribe_refined で境界重複 dedup + hallucination retry を実装済み

ライセンス

MIT License — 継承元: openai/whisper-large-v3

引用

このモデルを使用する際は、以下のベース Whisper 論文を引用してください:

@article{radford2022whisper,
  title={Robust Speech Recognition via Large-Scale Weak Supervision},
  author={Radford, Alec and Kim, Jong Wook and Xu, Tao and Brockman, Greg and McLeavey, Christine and Sutskever, Ilya},
  journal={arXiv preprint arXiv:2212.04356},
  year={2022}
}

Downloads last month: 7

Model tree for Coidemo/whisper-large-v3-filler-lora

Base model

openai/whisper-large-v3

Adapter

(212)

this model

Papers for Coidemo/whisper-large-v3-filler-lora

WhisperD: Dementia Speech Recognition and Filler Word Detection with Whisper

Paper • 2505.21551 • Published May 25, 2025

Robust Speech Recognition via Large-Scale Weak Supervision

Paper • 2212.04356 • Published Dec 6, 2022 • 54

Coidemo
/

whisper-large-v3-filler-lora