Roy029 commited on
Commit
b6e94fe
1 Parent(s): 851d9c3

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +11 -1
README.md CHANGED
@@ -8,9 +8,19 @@ license: apache-2.0
8
 
9
  ## Model Description
10
 
11
- mC4から抽出した有害テキストに、SentencePieceのユニグラムモードを適用して構築した有害語彙モデル
12
 
13
  ## 圧縮率の算出方法
14
 
15
  圧縮率 = 1 - (トークン数/元々のテキスト文字列長)
16
 
 
 
 
 
 
 
 
 
 
 
 
8
 
9
  ## Model Description
10
 
11
+ SentencePieceのユニグラムモードを適用して構築した有害語彙モデル
12
 
13
  ## 圧縮率の算出方法
14
 
15
  圧縮率 = 1 - (トークン数/元々のテキスト文字列長)
16
 
17
+ ## 発表
18
+
19
+ ```
20
+ @InProceedings{jwu:nlp2023,
21
+ author = {梶浦 照乃, 山内 璃乃, 小柳 響子, 東出 紗也夏, 倉光 君郎},
22
+ title = {トークナイザーの圧縮率を用いた有害コンテンツの判定法}, booktitle = {言語処理学会第30回年次大会 (NLP2024)},
23
+ year = {2024},
24
+ }
25
+ ```
26
+