recruit-jp/japanese-typo-detector-roberta-base

モデルの概要

日本語の文章を入力すると各文字ごとに誤字脱字である確率を出力します

各ラベルの意味は以下の通りです

id	label	meaning
0	OK	誤字なし
1	deletion	1文字の抜け
2	insertion_a	余分な1文字の挿入
3	insertion_b	直前の文字列と一致する２文字以上の余分な文字の挿入
4	kanji-conversion_a	同一の読みを持つ漢字の入れ替え（誤変換）
5	kanji-conversion_b	近い読みを持つ漢字の入れ替え（誤変換）
6	substitution	1文字の入れ替え
7	transposition	隣接する２文字間の転置
8	others	その他の入力誤り

誤り種類の詳細については学習データセットの元論文をご参照ください
- 日本語 Wikipedia の編集履歴に基づく入力誤りデータセットと訂正システムの改良
その他、モデルの詳細については当社ブログ記事をご参照ください
- 誤字脱字検出モデルをHugging Face Hubに公開しました (Recruit Data Blog)

学習データ

京都大学大学院情報学研究科知能情報学コース言語メディア研究室 (https://nlp.ist.i.kyoto-u.ac.jp/ )が公開している日本語Wikipedia入力誤りデータセット (v2)のtrainセットを利用しています

モデルの使い方

サンプルコード

from transformers import AutoTokenizer,AutoModelForTokenClassification
import torch
import numpy as np

model_name = 'recruit-jp/japanese-typo-detector-roberta-base'

tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForTokenClassification.from_pretrained(model_name)

device = "cuda:0" if torch.cuda.is_available() else "cpu"
model = model.to(device)

in_text = "これは日本語の誤植を検出する真相学習モデルです。"

test_inputs = tokenizer(in_text, return_tensors='pt').get('input_ids')
test_outputs = model(test_inputs.to(torch.device(device)))

for chara, logit in zip(list(in_text), test_outputs.logits.squeeze().tolist()[1:-1]):
    err_type_ind = np.argmax(logit)
    err_name = model.config.id2label[err_type_ind]
    err_desc = f"Detected!(err_index={err_type_ind}, err_name={err_name})" if err_type_ind > 0 else f""
    print(f"{chara} : {err_desc}")

サンプルコードの出力例

こ : 
れ : 
は : 
日 : 
本 : 
語 : 
の : 
誤 : 
植 : 
を : 
検 : 
出 : 
す : 
る : 
真 : Detected!(err_index=4, err_name=kanji-conversion_a)
相 : Detected!(err_index=4, err_name=kanji-conversion_a)
学 : 
習 : 
モ : 
デ : 
ル : 
で : 
す : 
。 :

開発者

Keisuke Kiryu

ライセンス

本モデルは京都大学大学院情報学研究科知能情報学コース言語メディア研究室 (https://nlp.ist.i.kyoto-u.ac.jp/ )が公開しているRoBERTaの事前学習モデル(ku-nlp/roberta-base-japanese-char-wwm)をFine-Tuningしたものです。
本モデルは事前学習モデルのライセンス"CC-BY-SA 4.0"を継承します。

免責事項

㈱リクルートは、本モデル利用による成果に関し、正確性、有用性、確実性、違法性の確認及び何らの保証および補償を行わないものとし、また、モデル利用によって利用者に生じた損害および第三者との間における紛争について㈱リクルートは一切責任を負いません。

recruit-jp
/

japanese-typo-detector-roberta-base

recruit-jp/japanese-typo-detector-roberta-base

モデルの概要

学習データ

モデルの使い方

開発者

ライセンス

免責事項

Model tree for recruit-jp/japanese-typo-detector-roberta-base