--- license: apache-2.0 language: - ja tags: - luke - named entity recognition --- [studio-ousia/luke-japanese-base](https://huggingface.co/studio-ousia/luke-japanese-base)に対して次の変更を加えたモデルです。 - ベースのモデルをRoBERTaから日本語BERTに切り替え、それに伴ってトークナイザがSentencepieceからWordPieceになりました - 2023年7月1日時点の日本語Wikipediaのデータで事前学習をおこないました - `[UNK]` (unknown) エンティティを扱えるようにしました 詳細は[ブログ記事](https://tech.uzabase.com/entry/2023/09/07/172958)をご参照ください。 ## 使用方法 ```python from transformers import AutoTokenizer, AutoModel # 本モデル用のトークナイザのコードを使用するため、trust_remote_code=True の指定が必要です tokenizer = AutoTokenizer.from_pretrained("uzabase/luke-japanese-wordpiece-base", trust_remote_code=True) model = AutoModel.from_pretrained("uzabase/luke-japanese-wordpiece-base") ``` ## 更新情報 - **2023/11/28:** 以下の更新を行いました。 - トークナイザが transformers v4.34.0 以降で読み込み不可となっていた問題を修正しました。 - トークナイザの出力に `position_ids` を含めるように変更しました。 - 以前は LUKE のモデルが [自動的に付与](https://github.com/huggingface/transformers/blob/v4.35.2/src/transformers/models/luke/modeling_luke.py#L424) する `position_ids` が使われていましたが、これは RoBERTa 仕様のものであり、BERT を使った本モデルでは正しい値となっていませんでした。そこで、 BERT 向けの正しい `position_ids` の値がモデルに入力されるように、`position_ids` を明示的にトークナイザの出力に含めるようにしました。 - トークナイザの `entity_vocab` の各トークン(`"[PAD]"` 等の特殊トークンを除く)の先頭に付いていた `"None:"` の文字列を除去しました。 - 例えば、 `"None:聖徳太子"` となっていたトークンは `"聖徳太子"` に修正されています。 - **2023/09/07:** モデルを公開しました。