litagin commited on
Commit
1a0a0ea
·
verified ·
1 Parent(s): 97b9473

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +16 -16
README.md CHANGED
@@ -126,22 +126,8 @@ print(result["text"])
126
  | キミは……。あっ、はっ……。最初から……あんっ、あっ、容赦がないな | 君はぁ…はぁっ、はぁっ…最初から…あんっ、あっ、容赦がないなぁ… | 君は……最初から容赦がないな | 君は最初からあんあ容赦がないな | 君は最初からうっうん容赦がないなあ。 |
127
  | 望んでるわけ……。のっ、のっ、のっ……望んでるんです。世界が終わればいいって……強く、強くっ。はぁっ、はぁっ | 望んでるわけ…の、の、の…望んでるんです…世界が終わればいいって、強く、強く…はぁっ | 望んでるわけ…望んでるんです…世界が終わればいいって…強く…強く… | 望んでるわけ…ののぞんでるんです世界が終わればいいって強く強く | ん?望んでるんです。世界が終わればいいって強く強く。 |
128
 
129
- ## 学習手順 📚
130
-
131
- **詳しい学習手順やハイパーパラメータや学習コードはそのうち[GitHub](https://github.com/litagin02/anime-whisper)で公開予定です。**
132
 
133
- - 全データのうち1番最後のtarファイルをtestデータとして残し、それ以外の3,735,363ファイルで学習
134
- - まずはベースモデルからEncoderを凍結してDecoderのみで数エポックを学習
135
- - その後Encoderの凍結を解除し、全体で数エポックを学習
136
- - 学習打ち切り後に、「ある時点から別の時点までのモデルの平均(マージ)」を取る操作で性能向上を試み、Optunaを使ってベンチマークデータに対するCERで最適化し、その結果を最終モデルとした
137
-
138
- ### 環境 🖥
139
-
140
- - 自腹で[vast.ai](https://vast.ai/)で H100 NVL (VRAM 96GB) を借りて合計3週間弱、試行錯誤しながら学習をした(当初はベースモデルをwhisper-large-v3-turboにしていたので、その分も含まれる)
141
- - 実際にこのモデルに使われた学習時間は、H100 NVL * 11.2日 程度(ただし後半の方はおそらく過学習によりテストデータに対する性能が悪かったため、最終マージには用いなかった)
142
-
143
-
144
- ## NSFW例 🫣
145
 
146
  成人向けの表現が含まれるため、閲覧にはご注意ください。
147
 
@@ -191,4 +177,18 @@ print(result["text"])
191
  | はぷっ、ちゅぷ、んん……はやく、おっきくして……ちんぽ……れろっ、ちゅ、ぴちゅ、ちゅぱっ……はやく勃起ちんぽちょうだい、勃起ちんぽ私にちょうだい | じゅぷっ、じゅぼっ!早くおっきくしてっ、ちんぽっ!んじゅるるるるるっ!はやくっ、はやく勃起ちんぽちょうらいっ、勃起ち○ぽあたしにちょうだいっ! | 早く起きこして!チンポン!早く、早くポッキチンポンちょうだい! ポッキチンパン私にちょうだい!! | 早く大きくしてチンポン早くポッキ全部全部私にちょうだい | 早くおっきい子して。チープ!ん?早く早くボケ全部ちょうだい。ボケ全部私にちょうだい! |
192
  | そっ、それじゃ……。あっ、はっ……がっ、がんばるぞ。ンッ!ああああっ!あっ、わっ、ボクも……んちっ、んむっ、んむっ、んんっ、むむっ。 | そ、それじゃあ…はぁ、はぁ、が、頑張るぞ…んっ、あっ、あっ、も、ボクも…れろ、ちゅ、ちゅぱ、ちゅるるっ | それじゃあ、頑張るぞ! | それじゃあ頑張るぞ | そそれじゃあううがんばるぞ。 |
193
 
194
- </details>
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
126
  | キミは……。あっ、はっ……。最初から……あんっ、あっ、容赦がないな | 君はぁ…はぁっ、はぁっ…最初から…あんっ、あっ、容赦がないなぁ… | 君は……最初から容赦がないな | 君は最初からあんあ容赦がないな | 君は最初からうっうん容赦がないなあ。 |
127
  | 望んでるわけ……。のっ、のっ、のっ……望んでるんです。世界が終わればいいって……強く、強くっ。はぁっ、はぁっ | 望んでるわけ…の、の、の…望んでるんです…世界が終わればいいって、強く、強く…はぁっ | 望んでるわけ…望んでるんです…世界が終わればいいって…強く…強く… | 望んでるわけ…ののぞんでるんです世界が終わればいいって強く強く | ん?望んでるんです。世界が終わればいいって強く強く。 |
128
 
 
 
 
129
 
130
+ ### NSFW例 🫣
 
 
 
 
 
 
 
 
 
 
 
131
 
132
  成人向けの表現が含まれるため、閲覧にはご注意ください。
133
 
 
177
  | はぷっ、ちゅぷ、んん……はやく、おっきくして……ちんぽ……れろっ、ちゅ、ぴちゅ、ちゅぱっ……はやく勃起ちんぽちょうだい、勃起ちんぽ私にちょうだい | じゅぷっ、じゅぼっ!早くおっきくしてっ、ちんぽっ!んじゅるるるるるっ!はやくっ、はやく勃起ちんぽちょうらいっ、勃起ち○ぽあたしにちょうだいっ! | 早く起きこして!チンポン!早く、早くポッキチンポンちょうだい! ポッキチンパン私にちょうだい!! | 早く大きくしてチンポン早くポッキ全部全部私にちょうだい | 早くおっきい子して。チープ!ん?早く早くボケ全部ちょうだい。ボケ全部私にちょうだい! |
178
  | そっ、それじゃ……。あっ、はっ……がっ、がんばるぞ。ンッ!ああああっ!あっ、わっ、ボクも……んちっ、んむっ、んむっ、んんっ、むむっ。 | そ、それじゃあ…はぁ、はぁ、が、頑張るぞ…んっ、あっ、あっ、も、ボクも…れろ、ちゅ、ちゅぱ、ちゅるるっ | それじゃあ、頑張るぞ! | それじゃあ頑張るぞ | そそれじゃあううがんばるぞ。 |
179
 
180
+ </details>
181
+
182
+ ## 学習手順 📚
183
+
184
+ **詳しい学習手順やハイパーパラメータや学習コードはそのうち[GitHub](https://github.com/litagin02/anime-whisper)で公開予定です。**
185
+
186
+ - 全データのうち1番最後のtarファイルをtestデータとして残し、それ以外の3,735,363ファイルで学習
187
+ - まずはベースモデルからEncoderを凍結してDecoderのみで数エポックを学習
188
+ - その後Encoderの凍結を解除し、全体で数エポックを学習
189
+ - 学習打ち切り後に、「ある時点から別の時点までのモデルの平均(マージ)」を取る操作で性能向上を試み、Optunaを使ってベンチマークデータに対するCERで最適化し、その結果を最終モデルとした
190
+
191
+ ### 環境 🖥
192
+
193
+ - 自腹で[vast.ai](https://vast.ai/)で H100 NVL (VRAM 96GB) を借りて合計3週間弱、試行錯誤しながら学習をした(当初はベースモデルをwhisper-large-v3-turboにしていたので、その分も含まれる)
194
+ - 実際にこのモデルに使われた学習時間は、H100 NVL * 11.2日 程度(ただし後半の方はおそらく過学習によりテストデータに対する性能が悪かったため、最終マージには用いなかった)