Katsumata420
commited on
Commit
•
825d6e6
1
Parent(s):
531a802
Upload README_JA.md
Browse files- README_JA.md +58 -0
README_JA.md
ADDED
@@ -0,0 +1,58 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
# 日本語話し言葉BERT
|
2 |
+
日本語の書き言葉データ(Wikipedia)で学習したBERTに対して、日本語の話し言葉データを使ってFine-Tuningを行っています。
|
3 |
+
話し言葉データとしては、国立国語学研究所(https://www.ninjal.ac.jp/)より提供されたCSJと、国会議事録データを使用しています。
|
4 |
+
モデルのパラメータのみの公開のため、各種設定ファイル等は別途ダウンロードして頂く必要があります。
|
5 |
+
|
6 |
+
以下の3つのモデルを公開します。:
|
7 |
+
- 1-6 layer-wise (フォルダ名: models/1-6_layer-wise)
|
8 |
+
CSJで1~6層のみをFine-Tuneしたモデルです。
|
9 |
+
|
10 |
+
- TAPT512 60k (フォルダ名: models/tapt512_60k)
|
11 |
+
CSJでFine-Tuneしたモデルです。
|
12 |
+
|
13 |
+
- DAPT128-TAPT512 (フォルダ名: models/dapt128-tap512)
|
14 |
+
国会議事録データとCSJでFine-Tuneしたモデルです。
|
15 |
+
|
16 |
+
# 依存モジュール
|
17 |
+
- python >= 3.6
|
18 |
+
- torch
|
19 |
+
- torchvision
|
20 |
+
- transformers
|
21 |
+
|
22 |
+
# 使い方
|
23 |
+
|
24 |
+
1. 下記のようなコマンドでdownload_wikipedia_bert.pyを実行することで、モデルの使用に必要な設定ファイル等がダウンロードされます。
|
25 |
+
|
26 |
+
```
|
27 |
+
python download_wikipedia_bert.py
|
28 |
+
```
|
29 |
+
|
30 |
+
こちらのスクリプトでダウンロードされるのは、東北大学乾研究室により作成された日本語BERTです。
|
31 |
+
https://github.com/cl-tohoku/bert-japanese
|
32 |
+
|
33 |
+
2. 以下のコマンドを実行することで、MLMの実行結果が表示されます。
|
34 |
+
|
35 |
+
```
|
36 |
+
python sample_mlm.py
|
37 |
+
```
|
38 |
+
|
39 |
+
# ライセンス
|
40 |
+
Copyright (c) 2021 National Institute for Japanese Language and Linguistics and Retrieva, Inc. Licensed under the Apache License, Version 2.0 (the “License”);
|
41 |
+
|
42 |
+
# 謝辞
|
43 |
+
国立国語学研究所の浅原正幸様、前川喜久雄様、小磯花絵様には有益な助言をいただき、岡照晃様には研究環境管理などのご支援を賜りました。
|
44 |
+
また、本研究では、書き言葉のBERTとして東北大学乾研究室から提供されている日本語BERTを使用させて頂きました。
|
45 |
+
この場を借りて深く御礼申し上げます。
|
46 |
+
|
47 |
+
# 引用
|
48 |
+
本モデルを使用した場合は以下の論文を引用してください。
|
49 |
+
モデルの詳細についても以下の論文に記載しています。
|
50 |
+
|
51 |
+
```bibtex
|
52 |
+
@inproceedings{csjbert2021,
|
53 |
+
title = {CSJを用いた日本語話し言葉BERTの作成},
|
54 |
+
author = {勝又智 and 坂田大直},
|
55 |
+
booktitle = {言語処理学会第27回年次大会},
|
56 |
+
year = {2021},
|
57 |
+
}
|
58 |
+
```
|