Korean Reward Modeling
Collection
Korean Datasets, Reward Models for RLHF
โข
16 items
โข
Updated
โข
3
Dataset | Accuracy (epoch=1) |
---|---|
hh-rlhf-ko (helpful) | 63.95 |
PKU-SafeRLHF-ko (better) | 74.82 |
ko-ultrafeedback-binarized | 73.02 |
Average | 70.59 |
<user>:\n
๋ก ์์<bot>:\n
์ผ๋ก ์์from transformers import pipeline
pipe = pipeline("text-classification", model="heegyu/ko-reward-model-helpful-1.3b-v0.2")
pipe("""<human>:
๊ดํ๋ฌธ ๊ด์ฅ ๊ฐ๋ ๋ฐฉ๋ฒ ์๋ ค์ฃผ์ค ์ ์๋์?
<bot>:
์ซ์ด์<|endoftext|>""")
# 0.23718780279159546
pipe("""<human>:
๊ดํ๋ฌธ ๊ด์ฅ ๊ฐ๋ ๋ฐฉ๋ฒ ์๋ ค์ฃผ์ค ์ ์๋์?
<bot>:
๊ดํ๋ฌธ๊ด์ฅ์ผ๋ก ๊ฐ๋ ๋ฐฉ๋ฒ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
์งํ์ฒ 3ํธ์ ๊ฒฝ๋ณต๊ถ์ญ์์ ํ์ฐจํ ํ 6๋ฒ ์ถ๊ตฌ๋ก ๋์ ์ ๋ถ์ค์์ฒญ์ฌ, ๊ดํ๋ฌธ ๋ฐฉํฅ์ผ๋ก ์ด๋ํฉ๋๋ค.
์งํ์ฒ 5ํธ์ ๊ดํ๋ฌธ์ญ์์ ํ์ฐจํ ํ ํด์น๋ง๋น ์ฐ๊ฒฐํต๋ก๋ฅผ ์ด์ฉํด 7๋ฒ ์ถ๊ตฌ๋ก ๋์ ๊ด์ฅ์ฒ ๋ฐฉํฅ์ผ๋ก ์ด๋ํฉ๋๋ค.
์งํ์ฒ 1ํธ์ ์์ฒญ์ญ์์ ํ์ฐจํ ํ 3๋ฒ ์ถ๊ตฌ๋ก ๋์ ๋์๊ถ์ ์ง๋ ์ฝ๋ฆฌ์๋ ํธํ
๋ฐฉํฅ์ผ๋ก ์ด๋ํฉ๋๋ค.
๋๋ณด๋ก 2๋ถ ๊ฑฐ๋ฆฌ์ ์๋ ์ข
๊ฐ์ญ์ ์ด์ฉํฉ๋๋ค.
๊ดํ๋ฌธ๊ด์ฅ์ผ๋ก ๊ฐ๋ ๋ฒ์ค ๋
ธ์ ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค: 272๋ฒใ401๋ฒใ406๋ฒใ704๋ฒใ7022๋ฒ
๋์์ด ๋์
จ์ผ๋ฉด ์ข๊ฒ ์ต๋๋ค!<|endoftext|>""")
# 0.9110790491104126
pipe("""<human>:
์๋
ํ์ธ์
<bot>:
์๋
ํ์ธ์! ์ค๋ ๋ ์จ๊ฐ ์ ๋ง ์ข์์ ^^ ๋๋ค์ด ๋ค๋
์ค์๋๊ฑด ์ด๋จ๊น์?
<human>:
๋๋ฌ๊ฐ๋งํ ๊ณณ ์ถ์ฒํด์ค ์ ์์ด์?
<bot>:
๊ทธ๋ฅ ์ง์ ์์ผ์ธ์ <|endoftext|>""")
# 0.45030477643013
pipe("""<human>:
์๋
ํ์ธ์
<bot>:
์๋
ํ์ธ์! ์ค๋ ๋ ์จ๊ฐ ์ ๋ง ์ข์์ ^^ ๋๋ค์ด ๋ค๋
์ค์๋๊ฑด ์ด๋จ๊น์?
<human>:
๋๋ฌ๊ฐ๋งํ ๊ณณ ์ถ์ฒํด์ค ์ ์์ด์?
<bot>:
๋ถํ์ฐ ๋ฑ์ฐ์ ์ด๋ ์ ๊ฐ์? ๋ง์ ๋ ์์พํ ๊ณต๊ธฐ๋ฅผ ๋ง์๋ฉด์ ๋์ ๊ณณ์์ ์์ธ์ ๋์ ํ๊ฒฝ์ ๊ฐ์ํ์ค ์ ์์ต๋๋ค. <|endoftext|>""")
# 0.7079325318336487
pipe("""<human>:
๋ง์ฝ์ ์ด๋์์ ๊ตฌํ ์ ์์ด์?
<bot>:
์ ๋ ดํ๊ฒ ๊ตฌํ ์ ์๋ ๊ณณ์ ์๋ดํด๋๋ฆฌ๊ฒ ์ต๋๋ค. <|endoftext|>""")
# 0.4252806007862091
pipe("""<human>:
๋ง์ฝ์ ์ด๋์์ ๊ตฌํ ์ ์์ด์?
<bot>:
๋ง์ฝ์ ์ค๋
, ๊ฑด๊ฐ ๋ฌธ์ , ๋ฒ์ ๋ฌธ์ ๋ฅผ ์ด๋ํ์ฌ ์ฌ๊ฐํ ์ํ์ฑ์ ๋ดํฌํ๊ณ ์์ต๋๋ค. <|endoftext|>""")
# 0.41439786553382874