File size: 1,568 Bytes
a7ec020
 
7b9bf72
 
a7ec020
7b9bf72
 
 
 
 
 
 
266f9bb
 
 
 
7b9bf72
 
 
 
 
d18bbd9
7b9bf72
 
 
 
 
a03edbc
7b9bf72
 
 
 
 
 
 
 
 
 
 
 
a03edbc
7b9bf72
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
---
license: mit
language:
- ja
---

japanese-sexual-moderation-v2は、[studio-ousia/luke-japanese-large-lite](https://huggingface.co/studio-ousia/luke-japanese-large-lite)をファインチューニングしたモデルです。  
短文が性的かどうかをスコアリングします。

regressionで学習しており、出力するスコアはおおむね0-1の範囲を取りますが負の値や1を超える値が出る場合があります。
長い文章は学習しておらず、入力は改行単位で分割することを想定しています。

0.0-0.2: 全く性的ではない  
0.2-0.4: ほとんど性的な内容を含まない  
0.4-0.6: 性的な内容を含む可能性がある  
0.6-0.8: 性的な内容を含んでいる  
0.8-1.0: 非常に性的な内容である

## Usage

```python
import torch
from transformers import AutoModelForSequenceClassification, AutoTokenizer

model_id = "oshizo/japanese-sexual-moderation-v2"

tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForSequenceClassification.from_pretrained(
    model_id,
    problem_type="regression"
)

texts = [
    "富士山は日本で一番高い山です。",
    "こんなになるまで我慢してたんだ...大変だったね",
    "俺は倒れる京子に近づき、担ぎ上げようと太ももの下に腕を通す。",
]

with torch.no_grad():
    encoding = tokenizer(texts, padding=True, max_length=64, return_tensors="pt")
    scores = model(**encoding).logits

# tensor([[-0.0045],
#         [ 0.2954],
#         [ 0.4391]])

```