WhisperD: Dementia Speech Recognition and Filler Word Detection with Whisper
Paper • 2505.21551 • Published
How to use Coidemo/whisper-large-v3-filler-lora with PEFT:
Task type is invalid.
Configuration Parsing Warning:In adapter_config.json: "peft.task_type" must be a string
日本語音声からフィラー(「あの」「まあ」「えー」等の言い淀み)を取りこぼさずに文字起こしするための LoRA アダプタ。OpenAI Whisper Large-v3 の Decoder 層に rank=16 の LoRA を適用して fine-tune したもの。
| 指標 | Base Whisper | This LoRA | 改善 |
|---|---|---|---|
| Char WER | 8.61% | 5.59% | -35% 相対 |
| FIR (Filler Inclusion Rate) | 13.3% | 48.9% | 3.7倍 |
| filler recall | 6/45 | 22/45 | +16 |
WhisperD 論文 (arXiv 2505.21551) で FIR 0.04→0.70 を達成したアプローチを 50 分の訓練データで再現した形。
import torch
from transformers import WhisperForConditionalGeneration, WhisperProcessor
from peft import PeftModel
processor = WhisperProcessor.from_pretrained(
"openai/whisper-large-v3", language="japanese", task="transcribe"
)
base = WhisperForConditionalGeneration.from_pretrained(
"openai/whisper-large-v3", dtype=torch.float16
)
model = PeftModel.from_pretrained(base, "Coidemo/whisper-large-v3-filler-lora")
# 推論用にマージしたい場合:
merged = model.merge_and_unload()
マージ + MLX 変換済みモデルが Coidemo/whisper-large-v3-filler-mlx で公開されている。
import mlx_whisper
result = mlx_whisper.transcribe(
"video.mp4",
path_or_hf_repo="Coidemo/whisper-large-v3-filler-mlx",
language="ja",
)
openai/whisper-large-v3訓練データのトランスクリプトは手動修正済み (509 segments 編集、20 skip、1228 保持)。
core.mlx_whisper_refine.transcribe_refined で境界重複 dedup + hallucination retry を実装済みMIT License — 継承元: openai/whisper-large-v3
Coidemo/whisper-large-v3-filler-mlxこのモデルを使用する際は、以下のベース Whisper 論文を引用してください:
@article{radford2022whisper,
title={Robust Speech Recognition via Large-Scale Weak Supervision},
author={Radford, Alec and Kim, Jong Wook and Xu, Tao and Brockman, Greg and McLeavey, Christine and Sutskever, Ilya},
journal={arXiv preprint arXiv:2212.04356},
year={2022}
}
Base model
openai/whisper-large-v3