Update README.md
Browse files
README.md
CHANGED
@@ -126,22 +126,8 @@ print(result["text"])
|
|
126 |
| キミは……。あっ、はっ……。最初から……あんっ、あっ、容赦がないな | 君はぁ…はぁっ、はぁっ…最初から…あんっ、あっ、容赦がないなぁ… | 君は……最初から容赦がないな | 君は最初からあんあ容赦がないな | 君は最初からうっうん容赦がないなあ。 |
|
127 |
| 望んでるわけ……。のっ、のっ、のっ……望んでるんです。世界が終わればいいって……強く、強くっ。はぁっ、はぁっ | 望んでるわけ…の、の、の…望んでるんです…世界が終わればいいって、強く、強く…はぁっ | 望んでるわけ…望んでるんです…世界が終わればいいって…強く…強く… | 望んでるわけ…ののぞんでるんです世界が終わればいいって強く強く | ん?望んでるんです。世界が終わればいいって強く強く。 |
|
128 |
|
129 |
-
## 学習手順 📚
|
130 |
-
|
131 |
-
**詳しい学習手順やハイパーパラメータや学習コードはそのうち[GitHub](https://github.com/litagin02/anime-whisper)で公開予定です。**
|
132 |
|
133 |
-
|
134 |
-
- まずはベースモデルからEncoderを凍結してDecoderのみで数エポックを学習
|
135 |
-
- その後Encoderの凍結を解除し、全体で数エポックを学習
|
136 |
-
- 学習打ち切り後に、「ある時点から別の時点までのモデルの平均(マージ)」を取る操作で性能向上を試み、Optunaを使ってベンチマークデータに対するCERで最適化し、その結果を最終モデルとした
|
137 |
-
|
138 |
-
### 環境 🖥
|
139 |
-
|
140 |
-
- 自腹で[vast.ai](https://vast.ai/)で H100 NVL (VRAM 96GB) を借りて合計3週間弱、試行錯誤しながら学習をした(当初はベースモデルをwhisper-large-v3-turboにしていたので、その分も含まれる)
|
141 |
-
- 実際にこのモデルに使われた学習時間は、H100 NVL * 11.2日 程度(ただし後半の方はおそらく過学習によりテストデータに対する性能が悪かったため、最終マージには用いなかった)
|
142 |
-
|
143 |
-
|
144 |
-
## NSFW例 🫣
|
145 |
|
146 |
成人向けの表現が含まれるため、閲覧にはご注意ください。
|
147 |
|
@@ -191,4 +177,18 @@ print(result["text"])
|
|
191 |
| はぷっ、ちゅぷ、んん……はやく、おっきくして……ちんぽ……れろっ、ちゅ、ぴちゅ、ちゅぱっ……はやく勃起ちんぽちょうだい、勃起ちんぽ私にちょうだい | じゅぷっ、じゅぼっ!早くおっきくしてっ、ちんぽっ!んじゅるるるるるっ!はやくっ、はやく勃起ちんぽちょうらいっ、勃起ち○ぽあたしにちょうだいっ! | 早く起きこして!チンポン!早く、早くポッキチンポンちょうだい! ポッキチンパン私にちょうだい!! | 早く大きくしてチンポン早くポッキ全部全部私にちょうだい | 早くおっきい子して。チープ!ん?早く早くボケ全部ちょうだい。ボケ全部私にちょうだい! |
|
192 |
| そっ、それじゃ……。あっ、はっ……がっ、がんばるぞ。ンッ!ああああっ!あっ、わっ、ボクも……んちっ、んむっ、んむっ、んんっ、むむっ。 | そ、それじゃあ…はぁ、はぁ、が、頑張るぞ…んっ、あっ、あっ、も、ボクも…れろ、ちゅ、ちゅぱ、ちゅるるっ | それじゃあ、頑張るぞ! | それじゃあ頑張るぞ | そそれじゃあううがんばるぞ。 |
|
193 |
|
194 |
-
</details>
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
126 |
| キミは……。あっ、はっ……。最初から……あんっ、あっ、容赦がないな | 君はぁ…はぁっ、はぁっ…最初から…あんっ、あっ、容赦がないなぁ… | 君は……最初から容赦がないな | 君は最初からあんあ容赦がないな | 君は最初からうっうん容赦がないなあ。 |
|
127 |
| 望んでるわけ……。のっ、のっ、のっ……望んでるんです。世界が終わればいいって……強く、強くっ。はぁっ、はぁっ | 望んでるわけ…の、の、の…望んでるんです…世界が終わればいいって、強く、強く…はぁっ | 望んでるわけ…望んでるんです…世界が終わればいいって…強く…強く… | 望んでるわけ…ののぞんでるんです世界が終わればいいって強く強く | ん?望んでるんです。世界が終わればいいって強く強く。 |
|
128 |
|
|
|
|
|
|
|
129 |
|
130 |
+
### NSFW例 🫣
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
131 |
|
132 |
成人向けの表現が含まれるため、閲覧にはご注意ください。
|
133 |
|
|
|
177 |
| はぷっ、ちゅぷ、んん……はやく、おっきくして……ちんぽ……れろっ、ちゅ、ぴちゅ、ちゅぱっ……はやく勃起ちんぽちょうだい、勃起ちんぽ私にちょうだい | じゅぷっ、じゅぼっ!早くおっきくしてっ、ちんぽっ!んじゅるるるるるっ!はやくっ、はやく勃起ちんぽちょうらいっ、勃起ち○ぽあたしにちょうだいっ! | 早く起きこして!チンポン!早く、早くポッキチンポンちょうだい! ポッキチンパン私にちょうだい!! | 早く大きくしてチンポン早くポッキ全部全部私にちょうだい | 早くおっきい子して。チープ!ん?早く早くボケ全部ちょうだい。ボケ全部私にちょうだい! |
|
178 |
| そっ、それじゃ……。あっ、はっ……がっ、がんばるぞ。ンッ!ああああっ!あっ、わっ、ボクも……んちっ、んむっ、んむっ、んんっ、むむっ。 | そ、それじゃあ…はぁ、はぁ、が、頑張るぞ…んっ、あっ、あっ、も、ボクも…れろ、ちゅ、ちゅぱ、ちゅるるっ | それじゃあ、頑張るぞ! | それじゃあ頑張るぞ | そそれじゃあううがんばるぞ。 |
|
179 |
|
180 |
+
</details>
|
181 |
+
|
182 |
+
## 学習手順 📚
|
183 |
+
|
184 |
+
**詳しい学習手順やハイパーパラメータや学習コードはそのうち[GitHub](https://github.com/litagin02/anime-whisper)で公開予定です。**
|
185 |
+
|
186 |
+
- 全データのうち1番最後のtarファイルをtestデータとして残し、それ以外の3,735,363ファイルで学習
|
187 |
+
- まずはベースモデルからEncoderを凍結してDecoderのみで数エポックを学習
|
188 |
+
- その後Encoderの凍結を解除し、全体で数エポックを学習
|
189 |
+
- 学習打ち切り後に、「ある時点から別の時点までのモデルの平均(マージ)」を取る操作で性能向上を試み、Optunaを使ってベンチマークデータに対するCERで最適化し、その結果を最終モデルとした
|
190 |
+
|
191 |
+
### 環境 🖥
|
192 |
+
|
193 |
+
- 自腹で[vast.ai](https://vast.ai/)で H100 NVL (VRAM 96GB) を借りて合計3週間弱、試行錯誤しながら学習をした(当初はベースモデルをwhisper-large-v3-turboにしていたので、その分も含まれる)
|
194 |
+
- 実際にこのモデルに使われた学習時間は、H100 NVL * 11.2日 程度(ただし後半の方はおそらく過学習によりテストデータに対する性能が悪かったため、最終マージには用いなかった)
|