t5-base-japanese / README.md
sonoisa's picture
Update disclaimer
49c95a6
|
raw
history blame
4.28 kB
metadata
language: ja
tags:
  - t5
  - text2text-generation
  - seq2seq
license: cc-by-sa-3.0
datasets:
  - wikipedia
  - oscar
  - cc100

日本語T5事前学習済みモデル(公開準備中)

This is a T5 (Text-to-Text Transfer Transformer) model pretrained on Japanese corpus.

次の日本語コーパスを用いて事前学習を行ったT5 (Text-to-Text Transfer Transformer) モデルです。

  • Wikipediaの日本語ダンプデータ (2020年7月6日時点のもの)
  • OSCARの日本語コーパス
  • CC-100の日本語コーパス

このモデルは事前学習のみを行なったものであり、特定のタスクに利用するにはファインチューニングする必要があります。
本モデルにも、大規模コーパスを用いた言語モデルにつきまとう、学習データの内容の偏りに由来する偏った(倫理的ではなかったり、有害だったり、バイアスがあったりする)出力結果になる問題が潜在的にあります。 この問題が発生しうることを想定した上で、被害が発生しない用途にのみ利用するよう気をつけてください。

転移学習のサンプルコード

https://github.com/sonoisa/t5-japanese

ベンチマーク

livedoorニュースコーパスを用いたニュース記事のジャンル予測タスクの精度は次の通りです。

日本語T5 (t5-base-japanese, パラメータ数は222M)

label precision recall f1-score support
0 0.96 0.94 0.95 130
1 0.98 0.99 0.99 121
2 0.96 0.96 0.96 123
3 0.86 0.91 0.89 82
4 0.96 0.97 0.97 129
5 0.96 0.96 0.96 141
6 0.98 0.98 0.98 127
7 1.00 0.99 1.00 127
8 0.99 0.97 0.98 120
accuracy 0.97 1100
macro avg 0.96 0.96 0.96 1100
weighted avg 0.97 0.97 0.97 1100

比較対象: 多言語T5 (google/mt5-small, パラメータ数は300M)

label precision recall f1-score support
0 0.91 0.88 0.90 130
1 0.84 0.93 0.89 121
2 0.93 0.80 0.86 123
3 0.82 0.74 0.78 82
4 0.90 0.95 0.92 129
5 0.89 0.89 0.89 141
6 0.97 0.98 0.97 127
7 0.95 0.98 0.97 127
8 0.93 0.95 0.94 120
accuracy 0.91 1100
macro avg 0.91 0.90 0.90 1100
weighted avg 0.91 0.91 0.91 1100

免責事項

本モデルの作者は本モデルを作成するにあたって、その内容、機能等について細心の注意を払っておりますが、モデルの出力が正確であるかどうか、安全なものであるか等について保証をするものではなく、何らの責任を負うものではありません。 本モデルの利用により、万一、利用者に何らかの不都合や損害が発生したとしても、作者や作者の所属組織は何らの責任を負うものではありません。利用者には作者が責任を負わないことを明確にする義務があります。

ライセンス

CC-BY SA 3.0

Common Crawlの利用規約も守るようご注意ください。