Create README.md
Browse files
README.md
ADDED
@@ -0,0 +1,105 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
---
|
2 |
+
license: gemma
|
3 |
+
datasets:
|
4 |
+
- Magpie-Align/Magpie-Pro-MT-300K-v0.1
|
5 |
+
- Magpie-Align/Magpie-Qwen2-Pro-300K-Filtered
|
6 |
+
- iknow-lab/qarv-instruct-ko-mt-deduped
|
7 |
+
- jojo0217/korean_safe_conversation
|
8 |
+
- heegyu/HRC
|
9 |
+
- heegyu/orca-math-korean-preference-cleaned
|
10 |
+
- iknow-lab/ko-evol-writing-wiki
|
11 |
+
- CarrotAI/ko-instruction-dataset
|
12 |
+
- maywell/kiqu_samples
|
13 |
+
- HAERAE-HUB/K2-Feedback
|
14 |
+
language:
|
15 |
+
- ko
|
16 |
+
- en
|
17 |
+
- zh
|
18 |
+
---
|
19 |
+
|
20 |
+
<img src="mandoo.webp" />
|
21 |
+
|
22 |
+
Mandoo is a LM assistant supporting English, Chinese and Korean.
|
23 |
+
|
24 |
+
### Example
|
25 |
+
```python
|
26 |
+
from transformers import pipeline
|
27 |
+
|
28 |
+
pipe = pipeline("text-generation", model="heegyu/mandoo-9b-2407", device_map="auto", torch_dtype="auto")
|
29 |
+
|
30 |
+
messages = [
|
31 |
+
{"role": "user", "content": "I want to start saving some money by growing my own food. Can I do this during the winter with an indoor garden?"},
|
32 |
+
]
|
33 |
+
pipe(messages, max_new_tokens=128, do_sample=True)
|
34 |
+
```
|
35 |
+
|
36 |
+
# Benchmark Result
|
37 |
+
Every generation was sampled with temperature=1.0, top_p=0.9, top_k=50
|
38 |
+
|
39 |
+
## Korean
|
40 |
+
| Model | 싱글턴 |
|
41 |
+
|---|---|
|
42 |
+
| gemma-2-9b-it | 7.45 |
|
43 |
+
| **mandoo-9b-2407-sft** | 6.50 |
|
44 |
+
|
45 |
+
I used sampling with temperature=0.7, max_new_tokens=2048 for generation.
|
46 |
+
|
47 |
+
|
48 |
+
```
|
49 |
+
# mandoo-9b-2407-sft
|
50 |
+
카테고리: 추론(Reasoning), 싱글 점수 평균: 6.86, 멀티 점수 평균: 3.86
|
51 |
+
카테고리: 수학(Math), 싱글 점수 평균: 5.14, 멀티 점수 평균: 3.71
|
52 |
+
카테고리: 글쓰기(Writing), 싱글 점수 평균: 7.29, 멀티 점수 평균: 7.00
|
53 |
+
카테고리: 코딩(Coding), 싱글 점수 평균: 8.29, 멀티 점수 평균: 8.14
|
54 |
+
카테고리: 이해(Understanding), 싱글 점수 평균: 9.29, 멀티 점수 평균: 8.57
|
55 |
+
카테고리: 문법(Grammar), 싱글 점수 평균: 6.43, 멀티 점수 평균: 3.43
|
56 |
+
전체 싱글 점수 평균: 7.21
|
57 |
+
전체 멀티 점수 평균: 5.79
|
58 |
+
전체 점수: 6.50
|
59 |
+
|
60 |
+
# gemma-2-9b-it
|
61 |
+
카테고리: 추론(Reasoning), 싱글 점수 평균: 9.43, 멀티 점수 평균: 6.71
|
62 |
+
카테고리: 수학(Math), 싱글 점수 평균: 6.14, 멀티 점수 평균: 8.57
|
63 |
+
카테고리: 글쓰기(Writing), 싱글 점수 평균: 8.71, 멀티 점수 평균: 8.86
|
64 |
+
카테고리: 코딩(Coding), 싱글 점수 평균: 7.43, 멀티 점수 평균: 6.86
|
65 |
+
카테고리: 이해(Understanding), 싱글 점수 평균: 8.29, 멀티 점수 평균: 8.29
|
66 |
+
카테고리: 문법(Grammar), 싱글 점수 평균: 6.29, 멀티 점수 평균: 3.86
|
67 |
+
전체 싱글 점수 평균: 7.71
|
68 |
+
전체 멀티 점수 평균: 7.19
|
69 |
+
전체 점수: 7.45
|
70 |
+
```
|
71 |
+
|
72 |
+
## English
|
73 |
+
### AlpacaEval
|
74 |
+
```
|
75 |
+
length_controlled_winrate win_rate standard_error n_total avg_length
|
76 |
+
gpt-4o-2024-05-13 57.46 51.33 1.47 805 1873
|
77 |
+
gpt-4-turbo-2024-04-09 55.02 46.12 1.47 805 1802
|
78 |
+
gpt4_1106_preview 50.00 50.00 0.00 805 2049
|
79 |
+
claude-3-opus-20240229 40.51 29.11 1.39 805 1388
|
80 |
+
claude-3-sonnet-20240229 34.87 25.56 1.34 805 1420
|
81 |
+
Meta-Llama-3-70B-Instruct 34.42 33.18 1.39 805 1919
|
82 |
+
gemini-pro 24.38 18.18 1.16 805 1456
|
83 |
+
Mixtral-8x7B-Instruct-v0.1 23.69 18.26 1.19 805 1465
|
84 |
+
Meta-Llama-3-8B-Instruct 22.92 22.57 1.26 805 1899
|
85 |
+
**heegyu/mandoo-9b-2407-sft** <--- 19.82 18.18 1.13 805 1847
|
86 |
+
Mistral-7B-Instruct-v0.2 17.11 14.72 1.08 805 1676
|
87 |
+
alpaca-7b 5.88 2.59 0.49 805 396
|
88 |
+
```
|
89 |
+
|
90 |
+
### IFEval
|
91 |
+
| Model | 싱글턴 |
|
92 |
+
|---|---|
|
93 |
+
| gemma-2-9b-it | 76.95 |
|
94 |
+
| **mandoo-9b-2407-sft** | 59.19 |
|
95 |
+
|
96 |
+
```
|
97 |
+
Strict Accuracy Scores: Avg 0.59191279139
|
98 |
+
prompt-level: 0.5471349353049908
|
99 |
+
instruction-level: 0.6366906474820144
|
100 |
+
|
101 |
+
Loose Accuracy Scores:
|
102 |
+
prompt-level: 0.589648798521257
|
103 |
+
instruction-level: 0.6774580335731415
|
104 |
+
```
|
105 |
+
|