--- language: "ja" tags: - "t5" - "text2text-generation" - "seq2seq" license: "cc-by-sa-3.0" datasets: - "wikipedia" - "oscar" --- # 日本語T5事前学習済みモデル(公開準備中) This is a T5 (Text-to-Text Transfer Transformer) model pretrained on Japanese corpus. 次の日本語コーパスを用いて事前学習を行ったT5 (Text-to-Text Transfer Transformer) モデルです。 * [Wikipedia](https://ja.wikipedia.org/)の日本語ダンプデータ (2020年7月6日時点のもの) * [OSCAR](https://oscar-corpus.com)の日本語コーパス このモデルは事前学習のみを行なったものであり、特定のタスクに利用するにはファインチューニングする必要があります。 # ベンチマーク livedoor newsコーパスを用いたニュース記事のジャンル予測タスクの精度は次の通りです。 日本語T5 (t5-base-japanese, パラメータ数は220M) | label | precision | recall | f1-score | support | | ----------- | ----------- | ------- | -------- | ------- | | 0 | 0.96 | 0.94 | 0.95 | 130 | | 1 | 0.98 | 0.99 | 0.99 | 121 | | 2 | 0.96 | 0.96 | 0.96 | 123 | | 3 | 0.86 | 0.91 | 0.89 | 82 | | 4 | 0.96 | 0.97 | 0.97 | 129 | | 5 | 0.96 | 0.96 | 0.96 | 141 | | 6 | 0.98 | 0.98 | 0.98 | 127 | | 7 | 1.00 | 0.99 | 1.00 | 127 | | 8 | 0.99 | 0.97 | 0.98 | 120 | | accuracy | | | 0.97 | 1100 | | macro avg | 0.96 | 0.96 | 0.96 | 1100 | | weighted avg | 0.97 | 0.97 | 0.97 | 1100 | 比較対象: 多言語T5 (google/mt5-small, パラメータ数は300M) | label | precision | recall | f1-score | support | | ----------- | ----------- | ------- | -------- | ------- | | 0 | 0.91 | 0.88 | 0.90 | 130 | | 1 | 0.84 | 0.93 | 0.89 | 121 | | 2 | 0.93 | 0.80 | 0.86 | 123 | | 3 | 0.82 | 0.74 | 0.78 | 82 | | 4 | 0.90 | 0.95 | 0.92 | 129 | | 5 | 0.89 | 0.89 | 0.89 | 141 | | 6 | 0.97 | 0.98 | 0.97 | 127 | | 7 | 0.95 | 0.98 | 0.97 | 127 | | 8 | 0.93 | 0.95 | 0.94 | 120 | | accuracy | | | 0.91 | 1100 | | macro avg | 0.91 | 0.90 | 0.90 | 1100 | | weighted avg | 0.91 | 0.91 | 0.91 | 1100 | ## ライセンス [CC-BY SA 3.0](https://creativecommons.org/licenses/by-sa/3.0/deed.ja)