sonoisa commited on
Commit
b07675b
1 Parent(s): 2edc403

Add corpus size

Browse files
Files changed (1) hide show
  1. README.md +1 -1
README.md CHANGED
@@ -16,7 +16,7 @@ datasets:
16
 
17
  This is a [ByT5 (a tokenizer-free extension of the Text-to-Text Transfer Transformer)](https://github.com/google-research/byt5/) model pretrained on Japanese corpus.
18
 
19
- 次の日本語コーパスを用いて事前学習を行ったByT5 (a tokenizer-free extension of the Text-to-Text Transfer Transformer) モデルです。
20
 
21
  * [Wikipedia](https://ja.wikipedia.org)の日本語ダンプデータ (2020年7月6日時点のもの)
22
  * [OSCAR](https://oscar-corpus.com)の日本語コーパス
 
16
 
17
  This is a [ByT5 (a tokenizer-free extension of the Text-to-Text Transfer Transformer)](https://github.com/google-research/byt5/) model pretrained on Japanese corpus.
18
 
19
+ 次の日本語コーパス(約100GB)を用いて事前学習を行ったByT5 (a tokenizer-free extension of the Text-to-Text Transfer Transformer) モデルです。
20
 
21
  * [Wikipedia](https://ja.wikipedia.org)の日本語ダンプデータ (2020年7月6日時点のもの)
22
  * [OSCAR](https://oscar-corpus.com)の日本語コーパス