|
# 日本語話し言葉BERT |
|
日本語の書き言葉データ(Wikipedia)で学習したBERTに対して、日本語の話し言葉データを使ってFine-Tuningを行っています。 |
|
話し言葉データとしては、国立国語学研究所(https://www.ninjal.ac.jp/)より提供されたCSJと、国会議事録データを使用しています。 |
|
モデルのパラメータのみの公開のため、各種設定ファイル等は別途ダウンロードして頂く必要があります。 |
|
|
|
以下の3つのモデルを公開します。: |
|
- 1-6 layer-wise (フォルダ名: models/1-6_layer-wise) |
|
CSJで1~6層のみをFine-Tuneしたモデルです。 |
|
|
|
- TAPT512 60k (フォルダ名: models/tapt512_60k) |
|
CSJでFine-Tuneしたモデルです。 |
|
|
|
- DAPT128-TAPT512 (フォルダ名: models/dapt128-tap512) |
|
国会議事録データとCSJでFine-Tuneしたモデルです。 |
|
|
|
# 依存モジュール |
|
- python >= 3.6 |
|
- torch |
|
- torchvision |
|
- transformers |
|
|
|
# 使い方 |
|
|
|
1. 下記のようなコマンドでdownload_wikipedia_bert.pyを実行することで、モデルの使用に必要な設定ファイル等がダウンロードされます。 |
|
|
|
``` |
|
python download_wikipedia_bert.py |
|
``` |
|
|
|
こちらのスクリプトでダウンロードされるのは、東北大学乾研究室により作成された日本語BERTです。 |
|
https://github.com/cl-tohoku/bert-japanese |
|
|
|
2. 以下のコマンドを実行することで、MLMの実行結果が表示されます。 |
|
|
|
``` |
|
python sample_mlm.py |
|
``` |
|
|
|
# ライセンス |
|
Copyright (c) 2021 National Institute for Japanese Language and Linguistics and Retrieva, Inc. Licensed under the Apache License, Version 2.0 (the “License”); |
|
|
|
# 謝辞 |
|
国立国語学研究所の浅原正幸様、前川喜久雄様、小磯花絵様には有益な助言をいただき、岡照晃様には研究環境管理などのご支援を賜りました。 |
|
また、本研究では、書き言葉のBERTとして東北大学乾研究室から提供されている日本語BERTを使用させて頂きました。 |
|
この場を借りて深く御礼申し上げます。 |
|
|
|
# 引用 |
|
本モデルを使用した場合は以下の論文を引用してください。 |
|
モデルの詳細についても以下の論文に記載しています。 |
|
|
|
```bibtex |
|
@inproceedings{csjbert2021, |
|
title = {CSJを用いた日本語話し言葉BERTの作成}, |
|
author = {勝又智 and 坂田大直}, |
|
booktitle = {言語処理学会第27回年次大会}, |
|
year = {2021}, |
|
} |
|
``` |
|
|