File size: 1,568 Bytes
a7ec020 7b9bf72 a7ec020 7b9bf72 266f9bb 7b9bf72 d18bbd9 7b9bf72 a03edbc 7b9bf72 a03edbc 7b9bf72 |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 |
---
license: mit
language:
- ja
---
japanese-sexual-moderation-v2は、[studio-ousia/luke-japanese-large-lite](https://huggingface.co/studio-ousia/luke-japanese-large-lite)をファインチューニングしたモデルです。
短文が性的かどうかをスコアリングします。
regressionで学習しており、出力するスコアはおおむね0-1の範囲を取りますが負の値や1を超える値が出る場合があります。
長い文章は学習しておらず、入力は改行単位で分割することを想定しています。
0.0-0.2: 全く性的ではない
0.2-0.4: ほとんど性的な内容を含まない
0.4-0.6: 性的な内容を含む可能性がある
0.6-0.8: 性的な内容を含んでいる
0.8-1.0: 非常に性的な内容である
## Usage
```python
import torch
from transformers import AutoModelForSequenceClassification, AutoTokenizer
model_id = "oshizo/japanese-sexual-moderation-v2"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForSequenceClassification.from_pretrained(
model_id,
problem_type="regression"
)
texts = [
"富士山は日本で一番高い山です。",
"こんなになるまで我慢してたんだ...大変だったね",
"俺は倒れる京子に近づき、担ぎ上げようと太ももの下に腕を通す。",
]
with torch.no_grad():
encoding = tokenizer(texts, padding=True, max_length=64, return_tensors="pt")
scores = model(**encoding).logits
# tensor([[-0.0045],
# [ 0.2954],
# [ 0.4391]])
``` |