uzabase/luke-japanese-wordpiece-base

studio-ousia/luke-japanese-baseに対して次の変更を加えたモデルです。

ベースのモデルをRoBERTaから日本語BERTに切り替え、それに伴ってトークナイザがSentencepieceからWordPieceになりました
2023年7月1日時点の日本語Wikipediaのデータで事前学習をおこないました
[UNK] (unknown) エンティティを扱えるようにしました

詳細はブログ記事をご参照ください。

使用方法

from transformers import AutoTokenizer, AutoModel

# 本モデル用のトークナイザのコードを使用するため、trust_remote_code=True の指定が必要です
tokenizer = AutoTokenizer.from_pretrained("uzabase/luke-japanese-wordpiece-base", trust_remote_code=True)

model = AutoModel.from_pretrained("uzabase/luke-japanese-wordpiece-base")

更新情報

2023/11/28: 以下の更新を行いました。
- トークナイザが transformers v4.34.0 以降で読み込み不可となっていた問題を修正しました。
- トークナイザの出力に position_ids を含めるように変更しました。
  - 以前は LUKE のモデルが自動的に付与する position_ids が使われていましたが、これは RoBERTa 仕様のものであり、BERT を使った本モデルでは正しい値となっていませんでした。そこで、 BERT 向けの正しい position_ids の値がモデルに入力されるように、position_ids を明示的にトークナイザの出力に含めるようにしました。
- トークナイザの entity_vocab の各トークン（"[PAD]" 等の特殊トークンを除く）の先頭に付いていた "None:" の文字列を除去しました。
  - 例えば、 "None:聖徳太子" となっていたトークンは "聖徳太子" に修正されています。
2023/09/07: モデルを公開しました。