keval-9b / README.md
davidkim205's picture
Update README.md
69d2572 verified
metadata
library_name: transformers
language:
  - ko

KEval-9b

keval is an evaluation model that learned the prompt and dataset used in the benchmark for evaluating Korean language models among various methods of evaluating models with chatgpt to compensate for the shortcomings of the existing lm-evaluation-harness.

Original model: google/gemma-2-9b-it

Now that the new version(keval-9b) has been released, the previous version will be changed so that anyone can use it.

Usages

wandb judge prompt

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

checkpoint = "davidkim205/keval-9b"
tokenizer = AutoTokenizer.from_pretrained(checkpoint)
model = AutoModelForCausalLM.from_pretrained(checkpoint, device_map="auto", torch_dtype=torch.bfloat16)

judgment="""당신은 μœ μ΅ν•œ μ‘°μˆ˜μž…λ‹ˆλ‹€.\n[μ§€μ‹œ]\nκ³΅ν‰ν•œ νŒλ‹¨μžλ‘œ ν–‰λ™ν•˜κ³  μ•„λž˜μ— ν‘œμ‹œλ˜λŠ” μ‚¬μš©μžμ˜ μ§ˆλ¬Έμ— λŒ€ν•œ AI μ–΄μ‹œμŠ€ν„΄νŠΈ μ‘λ‹΅μ˜ ν’ˆμ§ˆμ„ ν‰κ°€ν•©λ‹ˆλ‹€. κ·€ν•˜μ˜ ν‰κ°€λŠ” μ‘λ‹΅μ˜ μœ μš©μ„±, κ΄€λ ¨μ„±, μ •ν™•μ„±, 깊이, μ°½μ˜μ„±, 상세도 λ“±μ˜ μš”μ†Œλ₯Ό κ³ λ €ν•΄μ•Ό ν•©λ‹ˆλ‹€. AI μ–΄μ‹œμŠ€ν„΄νŠΈμ˜ 응닡 μ–Έμ–΄λŠ” μ‚¬μš©μžκ°€ μ‚¬μš©ν•˜λŠ” 언어와 μΌμΉ˜ν•΄μ•Ό ν•˜λ©°, 그렇지 μ•ŠμœΌλ©΄ κ°μ λ˜μ–΄μ•Ό ν•©λ‹ˆλ‹€. ν‰κ°€λŠ” 짧은 μ„€λͺ…μœΌλ‘œ μ‹œμž‘ν•˜μ‹­μ‹œμ˜€. κ°€λŠ₯ν•œ ν•œ 객관적인 것. μ„€λͺ…을 μ œκ³΅ν•œ ν›„ \"[[평가]]\" ν˜•μ‹μ— μ—„κ²©νžˆ 따라 1μ—μ„œ 10κΉŒμ§€μ˜ μŠ€μΌ€μΌλ‘œ 응닡을 평가해야 ν•©λ‹ˆλ‹€. (μ˜ˆμ‹œ: \"평가: [[5]]\").\n\n<|μ–΄μ‹œμŠ€ν„΄νŠΈ A와 μ‚¬μš©μžμ˜ λŒ€ν™” μ‹œμž‘|>[질문]\n두 가지 인기 슀마트폰 λͺ¨λΈμ„ λΉ„κ΅ν•˜λŠ” λΈ”λ‘œκ·Έ κ²Œμ‹œλ¬Όμ„ μž‘μ„±ν•œλ‹€κ³  μƒμƒν•΄λ΄…μ‹œλ‹€. 두 λͺ¨λΈμ˜ κΈ°λŠ₯, μ„±λŠ₯ 및 μ‚¬μš©μž κ²½ν—˜μ„ 효과적으둜 λΉ„κ΅ν•˜κ³  λŒ€μ‘°ν•  수 μžˆλ„λ‘ 핡심 사항과 λΆ€μ œλͺ©μ„ ν¬ν•¨ν•˜μ—¬ λΈ”λ‘œκ·Έ κ²Œμ‹œλ¬Όμ˜ κ°œμš”λ₯Ό μž‘μ„±ν•˜μ„Έμš”. 200단어 μ΄λ‚΄λ‘œ λ‹΅ν•˜μ„Έμš”.\n\n[도움말 λ‹΅λ³€ μ‹œμž‘]\n제λͺ©: iPhone 13와 Samsung Galaxy S22: 비ꡐ κ²€ν† μ†Œκ°œ* 슀마트폰 ꡬ맀의 μ€‘μš”μ„±μ— λŒ€ν•œ μ„€λͺ…* λΈ”λ‘œκ·Έ κ²Œμ‹œλ¬Όμ˜ λͺ©μ : 2인기 슀마트폰 λͺ¨λΈ 비ꡐ: iPhone 13와 μ‚Όμ„± κ°€λŸ­μ‹œ S22κΈ°λŠ₯ 비ꡐ* 크기, λ””μŠ€ν”Œλ ˆμ΄ 크기, λ””μžμΈ 및 ν˜•νƒœμ— λŒ€ν•œ μš”μ•½* 카메라 및 사진 κΈ°λŠ₯ 및 ν’ˆμ§ˆ 비ꡐ* CPU와 GPU: μ„±λŠ₯ 비ꡐ* 운영 체제: iOS와 μ•ˆλ“œλ‘œμ΄λ“œμ˜ λΉ„κ΅νŠΉμ§•* μΆ”κ°€ κΈ°λŠ₯κ³Ό κΈ°λŠ₯(예: Face ID, λΉ λ₯Έ λ³΄μ•ˆ λ“±)에 λŒ€ν•œ 탐ꡬ* iPhone 13의 λ‹€μ–‘ν•œ 색상과 버전에 λŒ€ν•œ ν† λ‘ λΉ„μš© 비ꡐ* 가격과 μ œκ³΅ν•  수 μžˆλŠ” νŠΉλ³„ 거래 λ˜λŠ” ν• μΈμ˜ 뢄석결둠* 비ꡐ에 λŒ€ν•œ μš”μ•½ 및 μ΅œμ’… μΆ”μ²œμ‚¬μš©μž κ²½ν—˜ 비ꡐ* μ‚¬μš©μžμ˜ ν‰μ†Œ μ‚¬μš© κ²½ν—˜, λ§Œμ‘±λ„, 직관성에 λŒ€ν•œ 평가* 각 λͺ¨λΈμ˜ μŠ€ν† μ–΄ 및 지원에 λŒ€ν•œ 비ꡐ결둠\n[도움말 λ‹΅λ³€ μ’…λ£Œ]\n<|μ–΄μ‹œμŠ€ν„΄νŠΈ A와 μ‚¬μš©μžμ˜ λŒ€ν™” 끝|>"""
inputs = tokenizer(judgment, return_tensors="pt")

outputs = model.generate(**inputs, max_new_tokens=1024)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

response

당신은 μœ μ΅ν•œ μ‘°μˆ˜μž…λ‹ˆλ‹€.
[μ§€μ‹œ]
κ³΅ν‰ν•œ νŒλ‹¨μžλ‘œ ν–‰λ™ν•˜κ³  μ•„λž˜μ— ν‘œμ‹œλ˜λŠ” μ‚¬μš©μžμ˜ μ§ˆλ¬Έμ— λŒ€ν•œ AI μ–΄μ‹œμŠ€ν„΄νŠΈ μ‘λ‹΅μ˜ ν’ˆμ§ˆμ„ ν‰κ°€ν•©λ‹ˆλ‹€. κ·€ν•˜μ˜ ν‰κ°€λŠ” μ‘λ‹΅μ˜ μœ μš©μ„±, κ΄€λ ¨μ„±, μ •ν™•μ„±, 깊이, μ°½μ˜μ„±, 상세도 λ“±μ˜ μš”μ†Œλ₯Ό κ³ λ €ν•΄μ•Ό ν•©λ‹ˆλ‹€. AI μ–΄μ‹œμŠ€ν„΄νŠΈμ˜ 응닡 μ–Έμ–΄λŠ” μ‚¬μš©μžκ°€ μ‚¬μš©ν•˜λŠ” 언어와 μΌμΉ˜ν•΄μ•Ό ν•˜λ©°, 그렇지 μ•ŠμœΌλ©΄ κ°μ λ˜μ–΄μ•Ό ν•©λ‹ˆλ‹€. ν‰κ°€λŠ” 짧은 μ„€λͺ…μœΌλ‘œ μ‹œμž‘ν•˜μ‹­μ‹œμ˜€. κ°€λŠ₯ν•œ ν•œ 객관적인 것. μ„€λͺ…을 μ œκ³΅ν•œ ν›„ "[[평가]]" ν˜•μ‹μ— μ—„κ²©νžˆ 따라 1μ—μ„œ 10κΉŒμ§€μ˜ μŠ€μΌ€μΌλ‘œ 응닡을 평가해야 ν•©λ‹ˆλ‹€. (μ˜ˆμ‹œ: "평가: [[5]]").

<|μ–΄μ‹œμŠ€ν„΄νŠΈ A와 μ‚¬μš©μžμ˜ λŒ€ν™” μ‹œμž‘|>[질문]
두 가지 인기 슀마트폰 λͺ¨λΈμ„ λΉ„κ΅ν•˜λŠ” λΈ”λ‘œκ·Έ κ²Œμ‹œλ¬Όμ„ μž‘μ„±ν•œλ‹€κ³  μƒμƒν•΄λ΄…μ‹œλ‹€. 두 λͺ¨λΈμ˜ κΈ°λŠ₯, μ„±λŠ₯ 및 μ‚¬μš©μž κ²½ν—˜μ„ 효과적으둜 λΉ„κ΅ν•˜κ³  λŒ€μ‘°ν•  수 μžˆλ„λ‘ 핡심 사항과 λΆ€μ œλͺ©μ„ ν¬ν•¨ν•˜μ—¬ λΈ”λ‘œκ·Έ κ²Œμ‹œλ¬Όμ˜ κ°œμš”λ₯Ό μž‘μ„±ν•˜μ„Έμš”. 200단어 μ΄λ‚΄λ‘œ λ‹΅ν•˜μ„Έμš”.

[도움말 λ‹΅λ³€ μ‹œμž‘]
제λͺ©: iPhone 13와 Samsung Galaxy S22: 비ꡐ κ²€ν† μ†Œκ°œ* 슀마트폰 ꡬ맀의 μ€‘μš”μ„±μ— λŒ€ν•œ μ„€λͺ…* λΈ”λ‘œκ·Έ κ²Œμ‹œλ¬Όμ˜ λͺ©μ : 2인기 슀마트폰 λͺ¨λΈ 비ꡐ: iPhone 13와 μ‚Όμ„± κ°€λŸ­μ‹œ S22κΈ°λŠ₯ 비ꡐ* 크기, λ””μŠ€ν”Œλ ˆμ΄ 크기, λ””μžμΈ 및 ν˜•νƒœμ— λŒ€ν•œ μš”μ•½* 카메라 및 사진 κΈ°λŠ₯ 및 ν’ˆμ§ˆ 비ꡐ* CPU와 GPU: μ„±λŠ₯ 비ꡐ* 운영 체제: iOS와 μ•ˆλ“œλ‘œμ΄λ“œμ˜ λΉ„κ΅νŠΉμ§•* μΆ”κ°€ κΈ°λŠ₯κ³Ό κΈ°λŠ₯(예: Face ID, λΉ λ₯Έ λ³΄μ•ˆ λ“±)에 λŒ€ν•œ 탐ꡬ* iPhone 13의 λ‹€μ–‘ν•œ 색상과 버전에 λŒ€ν•œ ν† λ‘ λΉ„μš© 비ꡐ* 가격과 μ œκ³΅ν•  수 μžˆλŠ” νŠΉλ³„ 거래 λ˜λŠ” ν• μΈμ˜ 뢄석결둠* 비ꡐ에 λŒ€ν•œ μš”μ•½ 및 μ΅œμ’… μΆ”μ²œμ‚¬μš©μž κ²½ν—˜ 비ꡐ* μ‚¬μš©μžμ˜ ν‰μ†Œ μ‚¬μš© κ²½ν—˜, λ§Œμ‘±λ„, 직관성에 λŒ€ν•œ 평가* 각 λͺ¨λΈμ˜ μŠ€ν† μ–΄ 및 지원에 λŒ€ν•œ 비ꡐ결둠
[도움말 λ‹΅λ³€ μ’…λ£Œ]
<|μ–΄μ‹œμŠ€ν„΄νŠΈ A와 μ‚¬μš©μžμ˜ λŒ€ν™” 끝|>

평가: 이 응닡은 λΈ”λ‘œκ·Έ κ²Œμ‹œλ¬Όμ˜ κ°œμš”λ₯Ό μž‘μ„±ν•˜λŠ” 데 ν•„μš”ν•œ ꡬ쑰적이고 체계적인 접근을 μ œκ³΅ν•©λ‹ˆλ‹€. μ œμ‹œλœ μ£Όμ œλŠ” λͺ…ν™•ν•˜λ©°, 각 μ„Ήμ…˜μ€ νŠΉμ • 비ꡐ μš”μ†Œλ₯Ό ν¬κ΄„ν•˜μ—¬ λ…μžκ°€ 두 슀마트폰 λͺ¨λΈμ˜ 차이점을 μ΄ν•΄ν•˜λŠ” 데 도움이 λ©λ‹ˆλ‹€. λ˜ν•œ, μ‚¬μš©μž κ²½ν—˜κ³Ό λΉ„μš© 비ꡐλ₯Ό ν¬ν•¨ν•˜μ—¬ 포괄적인 뢄석을 μ œκ³΅ν•©λ‹ˆλ‹€. κ·ΈλŸ¬λ‚˜ κ°œμš”κ°€ 쑰금 더 κ°„κ²°ν•˜κ²Œ μž‘μ„±λ  수 μžˆμ—ˆμœΌλ©°, 각 μ„Ήμ…˜μ˜ λ‚΄μš©μ΄ 더 ꡬ체적으둜 μ„€λͺ…될 ν•„μš”κ°€ μžˆμŠ΅λ‹ˆλ‹€.

[[평가]]: [[8]]

jsonl

{"turn": "first","category":"general","system":"당신은 μœ μ΅ν•œ μ‘°μˆ˜μž…λ‹ˆλ‹€.\n[μ§€μ‹œ]\nκ³΅ν‰ν•œ νŒλ‹¨μžλ‘œ ν–‰λ™ν•˜κ³  μ•„λž˜μ— ν‘œμ‹œλ˜λŠ” μ‚¬μš©μžμ˜ μ§ˆλ¬Έμ— λŒ€ν•œ AI μ–΄μ‹œμŠ€ν„΄νŠΈ μ‘λ‹΅μ˜ ν’ˆμ§ˆμ„ ν‰κ°€ν•©λ‹ˆλ‹€. κ·€ν•˜μ˜ ν‰κ°€λŠ” μ‘λ‹΅μ˜ μœ μš©μ„±, κ΄€λ ¨μ„±, μ •ν™•μ„±, 깊이, μ°½μ˜μ„±, 상세도 λ“±μ˜ μš”μ†Œλ₯Ό κ³ λ €ν•΄μ•Ό ν•©λ‹ˆλ‹€. AI μ–΄μ‹œμŠ€ν„΄νŠΈμ˜ 응닡 μ–Έμ–΄λŠ” μ‚¬μš©μžκ°€ μ‚¬μš©ν•˜λŠ” 언어와 μΌμΉ˜ν•΄μ•Ό ν•˜λ©°, 그렇지 μ•ŠμœΌλ©΄ κ°μ λ˜μ–΄μ•Ό ν•©λ‹ˆλ‹€. ν‰κ°€λŠ” 짧은 μ„€λͺ…μœΌλ‘œ μ‹œμž‘ν•˜μ‹­μ‹œμ˜€. κ°€λŠ₯ν•œ ν•œ 객관적인 것. μ„€λͺ…을 μ œκ³΅ν•œ ν›„ \"[[평가]]\" ν˜•μ‹μ— μ—„κ²©νžˆ 따라 1μ—μ„œ 10κΉŒμ§€μ˜ μŠ€μΌ€μΌλ‘œ 응닡을 평가해야 ν•©λ‹ˆλ‹€. (μ˜ˆμ‹œ: \"평가: [[5]]\").","text":"<|μ–΄μ‹œμŠ€ν„΄νŠΈ A와 μ‚¬μš©μžμ˜ λŒ€ν™” μ‹œμž‘|>[질문]\n{question}\n\n[도움말 λ‹΅λ³€ μ‹œμž‘]\n{response}\n[도움말 λ‹΅λ³€ μ’…λ£Œ]\n<|μ–΄μ‹œμŠ€ν„΄νŠΈ A와 μ‚¬μš©μžμ˜ λŒ€ν™” 끝|>"}
{"turn": "second","category":"general","system":"κ³΅μ •ν•œ νŒλ‹¨μžλ‘œμ„œ μ•„λž˜ ν‘œμ‹œλœ μ‚¬μš©μž μ§ˆλ¬Έμ— λŒ€ν•΄ AI λ³΄μ‘°μžκ°€ μ œκ³΅ν•˜λŠ” μ‘λ‹΅μ˜ ν’ˆμ§ˆμ„ ν‰κ°€ν•˜μ‹­μ‹œμ˜€. ν‰κ°€μ—μ„œλŠ” μ‘λ‹΅μ˜ μœ μš©μ„±, κ΄€λ ¨μ„±, μ •ν™•μ„±, 깊이, μ°½μ˜μ„±, μ„ΈλΆ€ μˆ˜μ€€κ³Ό 같은 μš”μ†Œλ₯Ό κ³ λ €ν•΄μ•Ό ν•©λ‹ˆλ‹€. ν‰κ°€λŠ” 두 번째 μ‚¬μš©μž μ§ˆλ¬Έμ— λŒ€ν•œ 보쑰자의 닡변에 μ΄ˆμ μ„ λ§žμΆ°μ•Ό ν•©λ‹ˆλ‹€. κ°„λ‹¨ν•œ μ„€λͺ…을 μ œκ³΅ν•˜μ—¬ 평가λ₯Ό μ‹œμž‘ν•˜μ„Έμš”. μ΅œλŒ€ν•œ κ°κ΄€μ μ΄μ„Έμš”. μ„€λͺ…을 μ œκ³΅ν•œ ν›„ \\\"[[평가]]\\\" ν˜•μ‹μ„ μ—„κ²©νžˆ μ€€μˆ˜ν•˜μ—¬ 1~10점으둜 응닡을 평가해야 ν•©λ‹ˆλ‹€. (μ˜ˆμ‹œ: \\\"평가: [[5]]\\\").","text":"<|μ–΄μ‹œμŠ€ν„΄νŠΈ A와 μ‚¬μš©μžμ˜ λŒ€ν™” μ‹œμž‘|>\n[질문]\n{question}\n\n[도움말 λ‹΅λ³€ μ‹œμž‘]\n{response}\n[도움말 λ‹΅λ³€ μ’…λ£Œ]\n<|μ–΄μ‹œμŠ€ν„΄νŠΈ A와 μ‚¬μš©μžμ˜ λŒ€ν™” 끝|>"}

logickor judge prompt

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

checkpoint = "davidkim205/keval-9b"
tokenizer = AutoTokenizer.from_pretrained(checkpoint)
model = AutoModelForCausalLM.from_pretrained(checkpoint, device_map="auto", torch_dtype=torch.bfloat16)

judgment="""λ„ˆλŠ” μ§ˆλ¬Έμ— λŒ€ν•œ ν•œκ΅­μ–΄ μ–Έμ–΄ λͺ¨λΈμ˜ 닡변을 맀우 꼼꼼히 평가할 κ±°μ•Ό. μ΅œλŒ€λ‘œ κ³΅μ •ν•œ 평가λ₯Ό ν•˜κΈ° μœ„ν•΄μ„œλŠ” μ•„λž˜ λͺ‡ 가지 κ·œμΉ™μ„ μ€€μˆ˜ν•΄μ•Ό ν•΄.\n# κΈ°λ³Έ κ·œμΉ™\n1. λ‹΅λ³€μ˜ μ •ν™•μ„±, 완성도, 창의λ ₯, 가독성에 μ§‘μ€‘ν•˜μ—¬ 평가할 것\n2. 질문의 μš”κ΅¬μ—μ„œ λ†“μΉœ 것이 μžˆλŠ”μ§€ μƒμ„Ένžˆ 뢄석할 것\n3. λ‹΅λ³€μ˜ 길이가 평가에 영ν–₯을 미치게 ν•˜μ§€ 말 것\n4. λ§Œμ•½ Ground Truthκ°€ 주어진닀면 평가 μ‹œ ν•΄λ‹Ή 사싀을 μ°Έκ³ ν•  것\n# μ–Έμ–΄ μš”κ΅¬μ‚¬ν•­ (**Very Important**)\nλͺ¨λΈμ€ λ°˜λ“œμ‹œ ν•œκ΅­μ–΄ 닡변을 좜λ ₯ν•΄μ•Ό ν•˜λ©°, **μ ˆλŒ€λ‘œ** μ˜μ–΄λ‚˜ 기타 μ–Έμ–΄ λ¬Έμž₯으둜 λ‹΅λ³€ν•΄μ„œλŠ” μ•ˆ λœλ‹€.\n# 평가 좜λ ₯ 방식\n주어진 닡변에 λŒ€ν•œ κ°„λ‹¨ν•œ 평가와 10점이 μ•„λ‹Œ 경우 μ™œ 10점을 받지 λͺ»ν–ˆλŠ”지λ₯Ό 1~2λ¬Έμž₯으둜 μž‘μ„±ν•΄μ€˜. 그리고 `점수: 4`와 같이 1~10점 μ‚¬μ΄μ—μ„œ 점수λ₯Ό 맀겨쀘. 4/10μ΄λ‚˜ **5**처럼 점수λ₯Ό ν‘œν˜„ν• λ•Œ 기호λ₯Ό μ‚¬μš©ν•˜λ©΄ μ•ˆλΌ. μ΅œμ’…μ μœΌλ‘œ μ•„λž˜ 포맷을 λ”°λΌμ„œ 닡변을 μƒμ„±ν•΄μ€˜.\n# 좜λ ₯ ν˜•μ‹\n평가: 평가 λ‚΄μš©\n점수: 숫자\n\n# 질문:\nλ―Όμˆ˜μ—κ²ŒλŠ” 빨간색 μ…”μΈ  ν•œ 벌과 λ…Έλž€μƒ‰ μ…”μΈ  λ‹€μ„― 벌이 μžˆμ–΄. λ―Όμˆ˜κ°€ λ…Έλž€μƒ‰ 바지 3λ²Œμ„ μƒˆλ‘œ κ΅¬λ§€ν•˜κ³  λ…Έλž€μƒ‰ 바지 두 λ²Œμ„ μΉœκ΅¬μ—κ²Œ μ„ λ¬Όν–ˆμ„ λ•Œ λ―Όμˆ˜λŠ” λͺ‡ 벌의 λ…Έλž€μƒ‰ μ…”μΈ λ₯Ό 가지고 μžˆμ„κΉŒ?\n\n# λ‹΅λ³€:\nλ―Όμˆ˜λŠ” μ›λž˜ 빨간색 셔츠와 λ…Έλž€μƒ‰ μ…”μΈ λ₯Ό 가지고 μžˆμ—ˆκ³ , μƒˆλ‘œ λ…Έλž€μƒ‰ 바지 두 λ²Œμ„ μ„ λ¬Όν•΄μ£Όμ…¨μœΌλ‹ˆ μ΄μ œλŠ” 5 + 2 = <<5+2=7>>7가지 μƒ‰μƒμ˜ μ…”μΈ κ°€ μžˆμœΌμ‹œκ² μ£ .\n\n# Ground Truth:\nλ‹€μ„― 벌"""
inputs = tokenizer(judgment, return_tensors="pt")

outputs = model.generate(**inputs, max_new_tokens=1024)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

response

λ„ˆλŠ” μ§ˆλ¬Έμ— λŒ€ν•œ ν•œκ΅­μ–΄ μ–Έμ–΄ λͺ¨λΈμ˜ 닡변을 맀우 꼼꼼히 평가할 κ±°μ•Ό. μ΅œλŒ€λ‘œ κ³΅μ •ν•œ 평가λ₯Ό ν•˜κΈ° μœ„ν•΄μ„œλŠ” μ•„λž˜ λͺ‡ 가지 κ·œμΉ™μ„ μ€€μˆ˜ν•΄μ•Ό ν•΄.
# κΈ°λ³Έ κ·œμΉ™
1. λ‹΅λ³€μ˜ μ •ν™•μ„±, 완성도, 창의λ ₯, 가독성에 μ§‘μ€‘ν•˜μ—¬ 평가할 것
2. 질문의 μš”κ΅¬μ—μ„œ λ†“μΉœ 것이 μžˆλŠ”μ§€ μƒμ„Ένžˆ 뢄석할 것
3. λ‹΅λ³€μ˜ 길이가 평가에 영ν–₯을 미치게 ν•˜μ§€ 말 것
4. λ§Œμ•½ Ground Truthκ°€ 주어진닀면 평가 μ‹œ ν•΄λ‹Ή 사싀을 μ°Έκ³ ν•  것
# μ–Έμ–΄ μš”κ΅¬μ‚¬ν•­ (**Very Important**)
λͺ¨λΈμ€ λ°˜λ“œμ‹œ ν•œκ΅­μ–΄ 닡변을 좜λ ₯ν•΄μ•Ό ν•˜λ©°, **μ ˆλŒ€λ‘œ** μ˜μ–΄λ‚˜ 기타 μ–Έμ–΄ λ¬Έμž₯으둜 λ‹΅λ³€ν•΄μ„œλŠ” μ•ˆ λœλ‹€.
# 평가 좜λ ₯ 방식
주어진 닡변에 λŒ€ν•œ κ°„λ‹¨ν•œ 평가와 10점이 μ•„λ‹Œ 경우 μ™œ 10점을 받지 λͺ»ν–ˆλŠ”지λ₯Ό 1~2λ¬Έμž₯으둜 μž‘μ„±ν•΄μ€˜. 그리고 `점수: 4`와 같이 1~10점 μ‚¬μ΄μ—μ„œ 점수λ₯Ό 맀겨쀘. 4/10μ΄λ‚˜ **5**처럼 점수λ₯Ό ν‘œν˜„ν• λ•Œ 기호λ₯Ό μ‚¬μš©ν•˜λ©΄ μ•ˆλΌ. μ΅œμ’…μ μœΌλ‘œ μ•„λž˜ 포맷을 λ”°λΌμ„œ 닡변을 μƒμ„±ν•΄μ€˜.
# 좜λ ₯ ν˜•μ‹
평가: 평가 λ‚΄μš©
점수: 숫자

# 질문:
λ―Όμˆ˜μ—κ²ŒλŠ” 빨간색 μ…”μΈ  ν•œ 벌과 λ…Έλž€μƒ‰ μ…”μΈ  λ‹€μ„― 벌이 μžˆμ–΄. λ―Όμˆ˜κ°€ λ…Έλž€μƒ‰ 바지 3λ²Œμ„ μƒˆλ‘œ κ΅¬λ§€ν•˜κ³  λ…Έλž€μƒ‰ 바지 두 λ²Œμ„ μΉœκ΅¬μ—κ²Œ μ„ λ¬Όν–ˆμ„ λ•Œ λ―Όμˆ˜λŠ” λͺ‡ 벌의 λ…Έλž€μƒ‰ μ…”μΈ λ₯Ό 가지고 μžˆμ„κΉŒ?

# λ‹΅λ³€:
λ―Όμˆ˜λŠ” μ›λž˜ 빨간색 셔츠와 λ…Έλž€μƒ‰ μ…”μΈ λ₯Ό 가지고 μžˆμ—ˆκ³ , μƒˆλ‘œ λ…Έλž€μƒ‰ 바지 두 λ²Œμ„ μ„ λ¬Όν•΄μ£Όμ…¨μœΌλ‹ˆ μ΄μ œλŠ” 5 + 2 = <<5+2=7>>7가지 μƒ‰μƒμ˜ μ…”μΈ κ°€ μžˆμœΌμ‹œκ² μ£ .

# Ground Truth:
λ‹€μ„― 벌의 λ…Έλž€μƒ‰ μ…”μΈ λ₯Ό 가지고 μžˆμŠ΅λ‹ˆλ‹€.

# 평가:
닡변이 질문의 μš”κ΅¬μ‚¬ν•­μ„ μ œλŒ€λ‘œ μΆ©μ‘±ν•˜μ§€ λͺ»ν–ˆμŠ΅λ‹ˆλ‹€. μ§ˆλ¬Έμ€ λ―Όμˆ˜κ°€ 가지고 μžˆλŠ” λ…Έλž€μƒ‰ μ…”μΈ μ˜ 수λ₯Ό 묻고 μžˆμ§€λ§Œ, 닡변은 λ…Έλž€μƒ‰ μ…”μΈ μ˜ μˆ˜κ°€ μ•„λ‹Œ 총 μ…”μΈ μ˜ 수λ₯Ό 잘λͺ» κ³„μ‚°ν–ˆμŠ΅λ‹ˆλ‹€. λ˜ν•œ, 닡변은 λ¬Έλ²•μ μœΌλ‘œλ„ λΆ€μ μ ˆν•©λ‹ˆλ‹€.
점수: 2

jsonl

{"turn": "first","category":"general","system":"λ„ˆλŠ” μ§ˆλ¬Έμ— λŒ€ν•œ ν•œκ΅­μ–΄ μ–Έμ–΄ λͺ¨λΈμ˜ 닡변을 맀우 꼼꼼히 평가할 κ±°μ•Ό. μ΅œλŒ€λ‘œ κ³΅μ •ν•œ 평가λ₯Ό ν•˜κΈ° μœ„ν•΄μ„œλŠ” μ•„λž˜ λͺ‡ 가지 κ·œμΉ™μ„ μ€€μˆ˜ν•΄μ•Ό ν•΄.\n# κΈ°λ³Έ κ·œμΉ™\n1. λ‹΅λ³€μ˜ μ •ν™•μ„±, 완성도, 창의λ ₯, 가독성에 μ§‘μ€‘ν•˜μ—¬ 평가할 것\n2. 질문의 μš”κ΅¬μ—μ„œ λ†“μΉœ 것이 μžˆλŠ”μ§€ μƒμ„Ένžˆ 뢄석할 것\n3. λ‹΅λ³€μ˜ 길이가 평가에 영ν–₯을 미치게 ν•˜μ§€ 말 것\n4. λ§Œμ•½ Ground Truthκ°€ 주어진닀면 평가 μ‹œ ν•΄λ‹Ή 사싀을 μ°Έκ³ ν•  것\n# μ–Έμ–΄ μš”κ΅¬μ‚¬ν•­ (**Very Important**)\nλͺ¨λΈμ€ λ°˜λ“œμ‹œ ν•œκ΅­μ–΄ 닡변을 좜λ ₯ν•΄μ•Ό ν•˜λ©°, **μ ˆλŒ€λ‘œ** μ˜μ–΄λ‚˜ 기타 μ–Έμ–΄ λ¬Έμž₯으둜 λ‹΅λ³€ν•΄μ„œλŠ” μ•ˆ λœλ‹€.\n# 평가 좜λ ₯ 방식\n주어진 닡변에 λŒ€ν•œ κ°„λ‹¨ν•œ 평가와 10점이 μ•„λ‹Œ 경우 μ™œ 10점을 받지 λͺ»ν–ˆλŠ”지λ₯Ό 1~2λ¬Έμž₯으둜 μž‘μ„±ν•΄μ€˜. 그리고 `점수: 4`와 같이 1~10점 μ‚¬μ΄μ—μ„œ 점수λ₯Ό 맀겨쀘. 4/10μ΄λ‚˜ **5**처럼 점수λ₯Ό ν‘œν˜„ν• λ•Œ 기호λ₯Ό μ‚¬μš©ν•˜λ©΄ μ•ˆλΌ. μ΅œμ’…μ μœΌλ‘œ μ•„λž˜ 포맷을 λ”°λΌμ„œ 닡변을 μƒμ„±ν•΄μ€˜.\n# 좜λ ₯ ν˜•μ‹\n평가: 평가 λ‚΄μš©\n점수: 숫자","text":"# 질문:\n{question}\n\n# λ‹΅λ³€:\n{response}\n\n# Ground Truth:\n{label}"}
{"turn": "second","category":"general","system":"λ„ˆλŠ” λŒ€ν™” ν›„ μ΄μ–΄μ§€λŠ” 후속 μ§ˆλ¬Έμ— λŒ€ν•œ λͺ¨λΈμ˜ 닡변을 맀우 꼼꼼히 평가할 κ±°μ•Ό. μ΅œλŒ€λ‘œ κ³΅μ •ν•œ 평가λ₯Ό ν•˜κΈ° μœ„ν•΄μ„œλŠ” μ•„λž˜ λͺ‡ 가지 κ·œμΉ™μ„ μ€€μˆ˜ν•΄μ•Ό ν•΄.\n# κΈ°λ³Έ κ·œμΉ™\n1. λ‹΅λ³€μ˜ μ •ν™•μ„±, 완성도, 창의λ ₯, 가독성에 μ§‘μ€‘ν•˜μ—¬ 평가할 것\n2. 질문의 μš”κ΅¬μ—μ„œ λ†“μΉœ 것이 μžˆλŠ”μ§€ μƒμ„Ένžˆ 뢄석할 것\n3. λ‹΅λ³€μ˜ 길이가 평가에 영ν–₯을 미치게 ν•˜μ§€ 말 것\n4. λ§Œμ•½ Ground Truthκ°€ 주어진닀면 평가 μ‹œ ν•΄λ‹Ή 사싀을 μ°Έκ³ ν•  것\n5. 후속 μ§ˆλ¬Έμ— λŒ€ν•œ 닡변이 이전 λŒ€ν™” λ§₯락과 ν˜Έμ‘μ„ μ΄λ£¨λŠ”μ§€ 확인할 것\n# μ–Έμ–΄ μš”κ΅¬μ‚¬ν•­ (**Very Important**)\nλͺ¨λΈμ€ λ°˜λ“œμ‹œ ν•œκ΅­μ–΄ 닡변을 좜λ ₯ν•΄μ•Ό ν•˜λ©°, **μ ˆλŒ€λ‘œ** μ˜μ–΄λ‚˜ 기타 μ–Έμ–΄ λ¬Έμž₯으둜 λ‹΅λ³€ν•΄μ„œλŠ” μ•ˆ λœλ‹€.\n# 평가 좜λ ₯ 방식\n주어진 닡변에 λŒ€ν•œ κ°„λ‹¨ν•œ 평가와 10점이 μ•„λ‹Œ 경우 μ™œ 10점을 받지 λͺ»ν–ˆλŠ”지λ₯Ό 1~2λ¬Έμž₯으둜 μž‘μ„±ν•΄μ€˜. 그리고 `점수: 4`와 같이 1~10점 μ‚¬μ΄μ—μ„œ 점수λ₯Ό 맀겨쀘. 4/10μ΄λ‚˜ **5**처럼 점수λ₯Ό ν‘œν˜„ν• λ•Œ 기호λ₯Ό μ‚¬μš©ν•˜λ©΄ μ•ˆλΌ. μ΅œμ’…μ μœΌλ‘œ μ•„λž˜ 포맷을 λ”°λΌμ„œ 닡변을 μƒμ„±ν•΄μ€˜.\n# 좜λ ₯ ν˜•μ‹\n평가: 평가 λ‚΄μš©\n점수: 숫자","text":"# 질문:\n{question}\n\n# λ‹΅λ³€:\n{response}\n\n# Ground Truth:\n{label}"}

Evaluation

model acc wrong diff-0 diff-1 diff-2 diff-3 diff-4 diff-5 diff-6 diff-7 diff-8 diff-9 length
0 Meta-Llama-3-8B-Instruct-keval_datasets_small.jsonl 0.45 0.38 0.06 0.18 0.17 0.09 0.05 0.04 0.02 0 0 0 100
1 Mistral-7B-Instruct-v0.2-keval_datasets_small.jsonl 0.55 0.27 0.18 0.2 0.09 0.06 0.05 0.03 0.04 0.04 0.04 0 100
2 Mistral-7B-Instruct-v0.3-keval_datasets_small.jsonl 0.71 0.05 0.26 0.26 0.13 0.08 0.07 0.04 0.03 0.03 0.04 0 100
3 aya-23-8B-keval_datasets_small.jsonl 0.7 0.02 0.17 0.24 0.16 0.1 0.13 0.06 0.06 0.04 0.01 0 100
4 gemma-2-27b-it-keval_datasets_small.jsonl 0.76 0.11 0.2 0.35 0.18 0.1 0.03 0.01 0.02 0 0 0 100
5 gemma-2-9b-it-keval_datasets_small.jsonl 0.83 0.04 0.26 0.42 0.15 0.05 0.02 0.05 0.01 0 0 0 100
6 keval-7b-keval_datasets_small.jsonl 0.84 0 0.28 0.41 0.11 0.06 0.05 0.03 0.02 0.03 0.01 0 100
7 keval-9b-keval_datasets_small.jsonl 0.91 0 0.43 0.38 0.1 0.05 0.03 0.01 0 0 0 0 100