singletongue's picture
Update tokenizer
2601e53
metadata
license: apache-2.0
language:
  - ja
tags:
  - luke
  - named entity recognition

studio-ousia/luke-japanese-baseに対して次の変更を加えたモデルです。

  • ベースのモデルをRoBERTaから日本語BERTに切り替え、それに伴ってトークナイザがSentencepieceからWordPieceになりました
  • 2023年7月1日時点の日本語Wikipediaのデータで事前学習をおこないました
  • [UNK] (unknown) エンティティを扱えるようにしました

詳細はブログ記事をご参照ください。

使用方法

from transformers import AutoTokenizer, AutoModel

# 本モデル用のトークナイザのコードを使用するため、trust_remote_code=True の指定が必要です
tokenizer = AutoTokenizer.from_pretrained("uzabase/luke-japanese-wordpiece-base", trust_remote_code=True)

model = AutoModel.from_pretrained("uzabase/luke-japanese-wordpiece-base")

更新情報

  • 2023/11/28: 以下の更新を行いました。
    • トークナイザが transformers v4.34.0 以降で読み込み不可となっていた問題を修正しました。
    • トークナイザの出力に position_ids を含めるように変更しました。
      • 以前は LUKE のモデルが 自動的に付与 する position_ids が使われていましたが、これは RoBERTa 仕様のものであり、BERT を使った本モデルでは正しい値となっていませんでした。そこで、 BERT 向けの正しい position_ids の値がモデルに入力されるように、position_ids を明示的にトークナイザの出力に含めるようにしました。
    • トークナイザの entity_vocab の各トークン("[PAD]" 等の特殊トークンを除く)の先頭に付いていた "None:" の文字列を除去しました。
      • 例えば、 "None:聖徳太子" となっていたトークンは "聖徳太子" に修正されています。
  • 2023/09/07: モデルを公開しました。