litagin
/

anime-whisper

@@ -12,7 +12,7 @@ pipeline_tag: automatic-speech-recognition
 # Anime Whisper 🥰🎤📝
-**Anime Whisper** は、特に日本語のアニメ調演技セリフドメインに特化した日本語音声認識モデルです。
 このモデルは [kotoba-whisper-v2.0](https://huggingface.co/kotoba-tech/kotoba-whisper-v2.0) をベースモデルとして、約5,300時間373万ファイルのアニメ調の音声・台本データセット [Galgame_Speech_ASR_16kHz](https://huggingface.co/datasets/litagin/Galgame_Speech_ASR_16kHz) でファインチューニングしたものです。
 特にアニメ演技音声ドメインに特化していますが、それ以外の音声でも、他のモデルにはない特徴や高い性能を持っています。
@@ -26,7 +26,8 @@ Anime Whisperは、他モデルに比べて一般的に次のような傾向が
 - 他のモデルでスキップされがちな言い淀みや、笑い声や叫びや吐息などの非言語発話も忠実に書き起こす
 - 「。、!?…」の句読点が音声のリズムや感情に合わせて適切に付き、セリフ台本として違和感がない自然な文体で書き起こされる
 - アニメ調な演技セリフに対しては特に精度が高い
-- 他モデルでは書き起こしが不可能なNSFW音声（喘ぎ声やチュパ音等）もきちんとした文体で書き起こされる
 ## 使い方例 🚀
@@ -52,12 +53,12 @@ print(result["text"])
 ## 評価 📊
-**詳しい観察レポートや評価コードは[GitHubリポジトリ](https://github.com/litagin02/anime-whisper)で公開予定です。**
 ### CER (Character Error Rate, 文字誤り率)
 - 「学習データと同じアニメ調セリフのドメインではあるが、学習データには含まれていない、個人的に所持している5本ノベルゲーム（合計約75kファイル）」で評価
-- OpenAIのWhisper系は繰り返しのハルシネーションがよく起こるので、それを抑止する`no_repeat_ngram_size=5`のパラメータで生成した
 - CERは適切な正規化を行った結果に対するCER
 ![figs/cer_ngram5.png](figs/cer_ngram5.png)
@@ -83,7 +84,6 @@ print(result["text"])
 ## バイアス等 🚨
 - 人名等の固有名詞が学習データのビジュアルノベルに存在する場合、その登場人物名の漢字で書き起こされることが多い
-- 一部卑語の書き起こしに伏せ字「○」が含まれることがある
 - [データセットの正規化](https://huggingface.co/datasets/litagin/Galgame_Speech_ASR_16kHz#modifications) により、以下のものは出力結果にほぼ現れない:
     - 母音や長音符の連続: `ああああーーーー`
     - 同じ感嘆符の連続: `こらーっ!!!!` `なにそれ!?!?!?!?`
@@ -91,12 +91,13 @@ print(result["text"])
 - 数字とアルファベットと感嘆符は半角で書き起こされる
 - 一部特定の単語が通常とは異なる書き起こしになることがある（例: `からだ` → `身体` 等や、その他固有名詞等）
 - 文末の「。」はほぼ常に省略される
 ## 例 👀
-すべて上記CERと同じ、**学習元には入っていない**ノベルゲームのセリフです。パラメータはopenai/whisper系のハルシネーションを抑制するため`no_repeat_ngram_size=5`としています。
-基本的にwhisper-large-v3程度の性能が出るのに加え、他モデルとの差が顕著な例（特に非言語発話や感情的な音声等）のみいくつか抜粋しています。
 | **正解テキスト** | **Anime Whisper** | whisper-large-v3 | kotoba-whisper-v2.0 | reazonspeech-nemo |
 | --- | --- | --- | --- | --- |

 # Anime Whisper 🥰🎤📝
+**Anime Whisper** は、特に日本語のアニメ調演技セリフのドメインに特化した日本語音声認識モデルです。
 このモデルは [kotoba-whisper-v2.0](https://huggingface.co/kotoba-tech/kotoba-whisper-v2.0) をベースモデルとして、約5,300時間373万ファイルのアニメ調の音声・台本データセット [Galgame_Speech_ASR_16kHz](https://huggingface.co/datasets/litagin/Galgame_Speech_ASR_16kHz) でファインチューニングしたものです。
 特にアニメ演技音声ドメインに特化していますが、それ以外の音声でも、他のモデルにはない特徴や高い性能を持っています。
 - 他のモデルでスキップされがちな言い淀みや、笑い声や叫びや吐息などの非言語発話も忠実に書き起こす
 - 「。、!?…」の句読点が音声のリズムや感情に合わせて適切に付き、セリフ台本として違和感がない自然な文体で書き起こされる
 - アニメ調な演技セリフに対しては特に精度が高い
+- [kotoba-whisper](https://huggingface.co/kotoba-tech/kotoba-whisper-v2.0) ([whisper-large-v3](https://huggingface.co/openai/whisper-large-v3)の蒸留モデル) ベースなので軽量で高速
+- 他モデルでは書き起こしがほぼ不可能なNSFW音声（喘ぎ声やチュパ音等）もきちんとした文体で文字起こし可能
 ## 使い方例 🚀
 ## 評価 📊
+**詳しい評価・観察レポートや評価コードは[GitHubリポジトリ](https://github.com/litagin02/anime-whisper)で公開予定です。**
 ### CER (Character Error Rate, 文字誤り率)
 - 「学習データと同じアニメ調セリフのドメインではあるが、学習データには含まれていない、個人的に所持している5本ノベルゲーム（合計約75kファイル）」で評価
+- OpenAIのWhisper系は繰り返しのハルシネーション抑止のため`no_repeat_ngram_size=5`のパラメータで生成
 - CERは適切な正規化を行った結果に対するCER
 ![figs/cer_ngram5.png](figs/cer_ngram5.png)
 ## バイアス等 🚨
 - 人名等の固有名詞が学習データのビジュアルノベルに存在する場合、その登場人物名の漢字で書き起こされることが多い
 - [データセットの正規化](https://huggingface.co/datasets/litagin/Galgame_Speech_ASR_16kHz#modifications) により、以下のものは出力結果にほぼ現れない:
     - 母音や長音符の連続: `ああああーーーー`
     - 同じ感嘆符の連続: `こらーっ!!!!` `なにそれ!?!?!?!?`
 - 数字とアルファベットと感嘆符は半角で書き起こされる
 - 一部特定の単語が通常とは異なる書き起こしになることがある（例: `からだ` → `身体` 等や、その他固有名詞等）
 - 文末の「。」はほぼ常に省略される
+- 一部卑語の書き起こしに伏せ字「○」が含まれることがある
 ## 例 👀
+上記評価と同じ、**学習元には入っていない**ノベルゲームのセリフの書き起こし比較です（同様に`no_repeat_ngram_size=5`での生成）。
+だいたいwhisper-large-v3程度の性能が出て、以下では他モデルとの差が顕著な例（特に非言語発話や感情的な音声等）のみいくつか抜粋しています。
 | **正解テキスト** | **Anime Whisper** | whisper-large-v3 | kotoba-whisper-v2.0 | reazonspeech-nemo |
 | --- | --- | --- | --- | --- |