t5-base-japanese / README.md
sonoisa's picture
Add benchmark scores
d993552
|
raw
history blame
No virus
2.82 kB
metadata
language: ja
tags:
  - t5
  - text2text-generation
  - seq2seq
license: cc-by-sa-3.0
datasets:
  - wikipedia
  - oscar

日本語T5事前学習済みモデル(公開準備中)

This is a T5 (Text-to-Text Transfer Transformer) model pretrained on Japanese corpus.

次の日本語コーパスを用いて事前学習を行ったT5 (Text-to-Text Transfer Transformer) モデルです。

  • Wikipediaの日本語ダンプデータ (2020年7月6日時点のもの)
  • OSCARの日本語コーパス

このモデルは事前学習のみを行なったものであり、特定のタスクに利用するにはファインチューニングする必要があります。

ベンチマーク

livedoor newsコーパスを用いたニュース記事のジャンル予測タスクの精度は次の通りです。

日本語T5 (t5-base-japanese, パラメータ数は220M)

label precision recall f1-score support
0 0.96 0.94 0.95 130
1 0.98 0.99 0.99 121
2 0.96 0.96 0.96 123
3 0.86 0.91 0.89 82
4 0.96 0.97 0.97 129
5 0.96 0.96 0.96 141
6 0.98 0.98 0.98 127
7 1.00 0.99 1.00 127
8 0.99 0.97 0.98 120
accuracy 0.97 1100
macro avg 0.96 0.96 0.96 1100
weighted avg 0.97 0.97 0.97 1100

比較対象: 多言語T5 (google/mt5-small, パラメータ数は300M)

label precision recall f1-score support
0 0.91 0.88 0.90 130
1 0.84 0.93 0.89 121
2 0.93 0.80 0.86 123
3 0.82 0.74 0.78 82
4 0.90 0.95 0.92 129
5 0.89 0.89 0.89 141
6 0.97 0.98 0.97 127
7 0.95 0.98 0.97 127
8 0.93 0.95 0.94 120
accuracy 0.91 1100
macro avg 0.91 0.90 0.90 1100
weighted avg 0.91 0.91 0.91 1100

ライセンス

CC-BY SA 3.0