keisuke-kiryu
commited on
Commit
•
4cfa24d
1
Parent(s):
4d4990e
Update README.md
Browse files
README.md
CHANGED
@@ -10,7 +10,7 @@ widget:
|
|
10 |
# recruit-jp/japanese-typo-detector-roberta-base
|
11 |
|
12 |
## モデルの概要
|
13 |
-
-
|
14 |
- 各ラベルの意味は以下の通りです
|
15 |
|id|label|meaning|
|
16 |
|--|--|--|
|
@@ -25,6 +25,9 @@ widget:
|
|
25 |
|8 | others | その他の入力誤り
|
26 |
- 誤り種類の詳細については学習データセットの元論文をご参照ください
|
27 |
- [日本語 Wikipedia の編集履歴に基づく 入力誤りデータセットと訂正システムの改良](https://www.anlp.jp/proceedings/annual_meeting/2021/pdf_dir/E8-3.pdf)
|
|
|
|
|
|
|
28 |
|
29 |
## 学習データ
|
30 |
* 京都大学大学院情報学研究科知能情報学コース言語メディア研究室 (https://nlp.ist.i.kyoto-u.ac.jp/ )が公開している[日本語Wikipedia入力誤りデータセット (v2)](https://nlp.ist.i.kyoto-u.ac.jp/?%E6%97%A5%E6%9C%AC%E8%AA%9EWikipedia%E5%85%A5%E5%8A%9B%E8%AA%A4%E3%82%8A%E3%83%87%E3%83%BC%E3%82%BF%E3%82%BB%E3%83%83%E3%83%88)のtrainセットを利用しています
|
|
|
10 |
# recruit-jp/japanese-typo-detector-roberta-base
|
11 |
|
12 |
## モデルの概要
|
13 |
+
- 日本語の文章を入力すると各文字ごとに誤字脱字である確率を出力します
|
14 |
- 各ラベルの意味は以下の通りです
|
15 |
|id|label|meaning|
|
16 |
|--|--|--|
|
|
|
25 |
|8 | others | その他の入力誤り
|
26 |
- 誤り種類の詳細については学習データセットの元論文をご参照ください
|
27 |
- [日本語 Wikipedia の編集履歴に基づく 入力誤りデータセットと訂正システムの改良](https://www.anlp.jp/proceedings/annual_meeting/2021/pdf_dir/E8-3.pdf)
|
28 |
+
|
29 |
+
- その他、モデルの詳細については当社ブログ記事をご参照ください
|
30 |
+
- [誤字脱字検出モデルをHugging Face Hubに公開しました (Recruit Data Blog)](https://blog.recruit.co.jp/data/articles/typo-detector/)
|
31 |
|
32 |
## 学習データ
|
33 |
* 京都大学大学院情報学研究科知能情報学コース言語メディア研究室 (https://nlp.ist.i.kyoto-u.ac.jp/ )が公開している[日本語Wikipedia入力誤りデータセット (v2)](https://nlp.ist.i.kyoto-u.ac.jp/?%E6%97%A5%E6%9C%AC%E8%AA%9EWikipedia%E5%85%A5%E5%8A%9B%E8%AA%A4%E3%82%8A%E3%83%87%E3%83%BC%E3%82%BF%E3%82%BB%E3%83%83%E3%83%88)のtrainセットを利用しています
|