Add corpus size
Browse files
README.md
CHANGED
@@ -16,7 +16,7 @@ datasets:
|
|
16 |
|
17 |
This is a [ByT5 (a tokenizer-free extension of the Text-to-Text Transfer Transformer)](https://github.com/google-research/byt5/) model pretrained on Japanese corpus.
|
18 |
|
19 |
-
|
20 |
|
21 |
* [Wikipedia](https://ja.wikipedia.org)の日本語ダンプデータ (2020年7月6日時点のもの)
|
22 |
* [OSCAR](https://oscar-corpus.com)の日本語コーパス
|
|
|
16 |
|
17 |
This is a [ByT5 (a tokenizer-free extension of the Text-to-Text Transfer Transformer)](https://github.com/google-research/byt5/) model pretrained on Japanese corpus.
|
18 |
|
19 |
+
次の日本語コーパス(約100GB)を用いて事前学習を行ったByT5 (a tokenizer-free extension of the Text-to-Text Transfer Transformer) モデルです。
|
20 |
|
21 |
* [Wikipedia](https://ja.wikipedia.org)の日本語ダンプデータ (2020年7月6日時点のもの)
|
22 |
* [OSCAR](https://oscar-corpus.com)の日本語コーパス
|