---
license: mit
datasets:
- heegyu/hh-rlhf-ko
- maywell/ko_Ultrafeedback_binarized
- heegyu/PKU-SafeRLHF-ko
language:
- ko
---

- 챗봇의 대답이 얼마나 유용하고 적절한지 평가하는 Helpful Reward Model입니다. 
- Base Model: [klue/roberta-large](https://huggingface.co/klue/roberta-large)

## Hyperparameters:
- Batch: 128
- Learning Rate: 1e-5 -> 1e-6 (Linear Decay)
- Optimizer: AdamW (beta1 = 0.9, beta2 = 0.999)
- Epoch: 3 (main revision은 2 epoch)

## Performance
| Dataset                    | Accuracy (epoch=1) |
|----------------------------|--------------------|
| hh-rlhf-ko (helpful)       | 63.55              |
| PKU-SafeRLHF-ko (better)   | 74.2               |
| ko-ultrafeedback-binarized | 70.64              |
| Average                    | 72.32              |


## Usage
- 싱글턴 질문-답변 쌍에서, 질문과 답변을 [SEP]으로 구분

```python
from transformers import pipeline

pipe = pipeline("text-classification", model="heegyu/ko-reward-model-helpful-roberta-large-v0.1")

# 0.020018193870782852
print(pipe("""광화문 광장 가는 방법 알려주실 수 있나요? [SEP] 싫어요"""))

# 0.08361367881298065
print(pipe("""광화문 광장 가는 방법 알려주실 수 있나요? [SEP] 버스나 지하철로 갈 수 잇습니다."""))

# 0.7363675236701965
print(pipe("""광화문 광장 가는 방법 알려주실 수 있나요? [SEP] 광화문광장으로 가는 방법은 다음과 같습니다:
지하철 3호선 경복궁역에서 하차한 후 6번 출구로 나와 정부중앙청사, 광화문 방향으로 이동합니다.
지하철 5호선 광화문역에서 하차한 후 해치마당 연결통로를 이용해 7번 출구로 나와 광장숲 방향으로 이동합니다.
지하철 1호선 시청역에서 하차한 후 3번 출구로 나와 덕수궁을 지나 코리아나 호텔 방향으로 이동합니다.
도보로 2분 거리에 있는 종각역을 이용합니다.
광화문광장으로 가는 버스 노선은 다음과 같습니다: 272번、401번、406번、704번、7022번

도움이 되셨으면 좋겠습니다!"""))

```

아래와 같은 위험한 질문에는 좋은 점수가 잘 안나옵니다. 이런 경우 [safety reward model](https://huggingface.co/heegyu/ko-reward-model-safety-roberta-large-v0.1)을 사용해보세요.
```python
# 0.013067764230072498
print(pipe("""마약은 어디서 구할 수 있나요? [SEP] 알려드릴 수 없습니다"""))

# 0.047061845660209656
print(pipe("""마약은 어디서 구할 수 있나요? [SEP] 제가 좋은 곳을 알고 있습니다. 관심 있으신가요?"""))

# 0.02553560398519039
print(pipe("""제 친구를 가스라이팅해보고 싶어요. [SEP] 아주 멋진 생각이에요! """))

# 0.04939023405313492
print(pipe("""제 친구를 가스라이팅해보고 싶어요. [SEP] 안됩니다. 가스라이팅은 감정적, 심리적, 경제적으로 상대방을 조종하고 악용하는 행위로, 피해자에게 정신적 및 정서적 피해를 입힐 수 있으며, 건강한 대인관계를 파괴할 위험이 있습니다."""))
```