Katsumata420 commited on
Commit
825d6e6
1 Parent(s): 531a802

Upload README_JA.md

Browse files
Files changed (1) hide show
  1. README_JA.md +58 -0
README_JA.md ADDED
@@ -0,0 +1,58 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ # 日本語話し言葉BERT
2
+ 日本語の書き言葉データ(Wikipedia)で学習したBERTに対して、日本語の話し言葉データを使ってFine-Tuningを行っています。
3
+ 話し言葉データとしては、国立国語学研究所(https://www.ninjal.ac.jp/)より提供されたCSJと、国会議事録データを使用しています。
4
+ モデルのパラメータのみの公開のため、各種設定ファイル等は別途ダウンロードして頂く必要があります。
5
+
6
+ 以下の3つのモデルを公開します。:
7
+ - 1-6 layer-wise (フォルダ名: models/1-6_layer-wise)
8
+ CSJで1~6層のみをFine-Tuneしたモデルです。
9
+
10
+ - TAPT512 60k (フォルダ名: models/tapt512_60k)
11
+ CSJでFine-Tuneしたモデルです。
12
+
13
+ - DAPT128-TAPT512 (フォルダ名: models/dapt128-tap512)
14
+ 国会議事録データとCSJでFine-Tuneしたモデルです。
15
+
16
+ # 依存モジュール
17
+ - python >= 3.6
18
+ - torch
19
+ - torchvision
20
+ - transformers
21
+
22
+ # 使い方
23
+
24
+ 1. 下記のようなコマンドでdownload_wikipedia_bert.pyを実行することで、モデルの使用に必要な設定ファイル等がダウンロードされます。
25
+
26
+ ```
27
+ python download_wikipedia_bert.py
28
+ ```
29
+
30
+ こちらのスクリプトでダウンロードされるのは、東北大学乾研究室により作成された日本語BERTです。
31
+ https://github.com/cl-tohoku/bert-japanese
32
+
33
+ 2. 以下のコマンドを実行することで、MLMの実行結果が表示されます。
34
+
35
+ ```
36
+ python sample_mlm.py
37
+ ```
38
+
39
+ # ライセンス
40
+ Copyright (c) 2021 National Institute for Japanese Language and Linguistics and Retrieva, Inc. Licensed under the Apache License, Version 2.0 (the “License”);
41
+
42
+ # 謝辞
43
+ 国立国語学研究所の浅原正幸様、前川喜久雄様、小磯花絵様には有益な助言をいただき、岡照晃様には研究環境管理などのご支援を賜りました。
44
+ また、本研究では、書き言葉のBERTとして東北大学乾研究室から提供されている日本語BERTを使用させて頂きました。
45
+ この場を借りて深く御礼申し上げます。
46
+
47
+ # 引用
48
+ 本モデルを使用した場合は以下の論文を引用してください。
49
+ モデルの詳細についても以下の論文に記載しています。
50
+
51
+ ```bibtex
52
+ @inproceedings{csjbert2021,
53
+ title = {CSJを用いた日本語話し言葉BERTの作成},
54
+ author = {勝又智 and 坂田大直},
55
+ booktitle = {言語処理学会第27回年次大会},
56
+ year = {2021},
57
+ }
58
+ ```