File size: 4,364 Bytes
46b7a78
 
 
 
 
 
 
 
 
 
bd1add4
46b7a78
 
d4bdd31
5853429
 
 
d4bdd31
5853429
0d96dd5
5853429
bd1add4
5853429
d4bdd31
0d96dd5
 
d4bdd31
d993552
9dcf8c2
1e688fa
 
 
 
d993552
 
0d96dd5
d993552
c66f9c5
d993552
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
c66f9c5
d993552
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
0d96dd5
 
d75ab66
0d96dd5
 
5853429
 
0d96dd5
bd1add4
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
---
language: "ja"
tags:
- "t5"
- "text2text-generation"
- "seq2seq"
license: "cc-by-sa-3.0"
datasets:
- "wikipedia"
- "oscar"
- "cc100"
---

# 日本語T5事前学習済みモデル(公開準備中)

This is a T5 (Text-to-Text Transfer Transformer) model pretrained on Japanese corpus.

次の日本語コーパスを用いて事前学習を行ったT5 (Text-to-Text Transfer Transformer) モデルです。  

* [Wikipedia](https://ja.wikipedia.org)の日本語ダンプデータ (2020年7月6日時点のもの)
* [OSCAR](https://oscar-corpus.com)の日本語コーパス
* [CC-100](http://data.statmt.org/cc-100/)の日本語コーパス

このモデルは事前学習のみを行なったものであり、特定のタスクに利用するにはファインチューニングする必要があります。  
本モデルにも、大規模コーパスを用いた言語モデルにつきまとう、学習データの内容の偏りに由来する偏った(倫理的ではなかったり、有害だったり、バイアスがあったりする)出力結果になる問題が潜在的にあります。
この問題が発生しうることを想定した上で、被害が発生しない用途にのみ利用するよう気をつけてください。


# 転移学習のサンプルコード

https://github.com/sonoisa/t5-japanese


# ベンチマーク

livedoorニュースコーパスを用いたニュース記事のジャンル予測タスクの精度は次の通りです。

日本語T5 ([t5-base-japanese](https://huggingface.co/sonoisa/t5-base-japanese), パラメータ数は222M)

| label       |  precision  |  recall | f1-score | support |
| ----------- | ----------- | ------- | -------- | ------- |
|           0 |      0.96   |   0.94  |    0.95  |     130 |
|           1 |      0.98   |   0.99  |    0.99  |     121 |
|           2 |      0.96   |   0.96  |    0.96  |     123 |
|           3 |      0.86   |   0.91  |    0.89  |      82 |
|           4 |      0.96   |   0.97  |    0.97  |     129 |
|           5 |      0.96   |   0.96  |    0.96  |     141 |
|           6 |      0.98   |   0.98  |    0.98  |     127 |
|           7 |      1.00   |   0.99  |    1.00  |     127 |
|           8 |      0.99   |   0.97  |    0.98  |     120 |
|   accuracy  |             |         |    0.97  |    1100 |
|  macro avg  |      0.96   |   0.96  |    0.96  |    1100 |
| weighted avg |     0.97   |   0.97  |    0.97  |    1100 |


比較対象: 多言語T5 ([google/mt5-small](https://huggingface.co/google/mt5-small), パラメータ数は300M)

| label       |  precision  |  recall | f1-score | support |
| ----------- | ----------- | ------- | -------- | ------- |
|           0 |      0.91   |   0.88  |    0.90  |     130 |
|           1 |      0.84   |   0.93  |    0.89  |     121 |
|           2 |      0.93   |   0.80  |    0.86  |     123 |
|           3 |      0.82   |   0.74  |    0.78  |      82 |
|           4 |      0.90   |   0.95  |    0.92  |     129 |
|           5 |      0.89   |   0.89  |    0.89  |     141 |
|           6 |      0.97   |   0.98  |    0.97  |     127 |
|           7 |      0.95   |   0.98  |    0.97  |     127 |
|           8 |      0.93   |   0.95  |    0.94  |     120 |
|   accuracy  |             |         |    0.91  |    1100 |
|  macro avg  |      0.91   |   0.90  |    0.90  |    1100 |
| weighted avg |     0.91   |   0.91  |    0.91  |    1100 |


## 免責事項

本モデルの作者は本モデルを作成するにあたって、その内容、機能等について細心の注意を払っておりますが、モデルの出力が正確であるかどうか、安全なものであるか等について保証をするものではなく、何らの責任を負うものではありません。本モデルの利用により、万一、利用者に何らかの不都合や損害が発生したとしても、モデルやデータセットの作者や作者の所属組織は何らの責任を負うものではありません。利用者には本モデルやデータセットの作者や所属組織が責任を負わないことを明確にする義務があります。


## ライセンス

[CC-BY SA 3.0](https://creativecommons.org/licenses/by-sa/3.0/deed.ja)

[Common Crawlの利用規約](http://commoncrawl.org/terms-of-use/)も守るようご注意ください。