heegyu commited on
Commit
94bd148
·
verified ·
1 Parent(s): 8932028

Create README.md

Browse files
Files changed (1) hide show
  1. README.md +105 -0
README.md ADDED
@@ -0,0 +1,105 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ license: gemma
3
+ datasets:
4
+ - Magpie-Align/Magpie-Pro-MT-300K-v0.1
5
+ - Magpie-Align/Magpie-Qwen2-Pro-300K-Filtered
6
+ - iknow-lab/qarv-instruct-ko-mt-deduped
7
+ - jojo0217/korean_safe_conversation
8
+ - heegyu/HRC
9
+ - heegyu/orca-math-korean-preference-cleaned
10
+ - iknow-lab/ko-evol-writing-wiki
11
+ - CarrotAI/ko-instruction-dataset
12
+ - maywell/kiqu_samples
13
+ - HAERAE-HUB/K2-Feedback
14
+ language:
15
+ - ko
16
+ - en
17
+ - zh
18
+ ---
19
+
20
+ <img src="mandoo.webp" />
21
+
22
+ Mandoo is a LM assistant supporting English, Chinese and Korean.
23
+
24
+ ### Example
25
+ ```python
26
+ from transformers import pipeline
27
+
28
+ pipe = pipeline("text-generation", model="heegyu/mandoo-9b-2407", device_map="auto", torch_dtype="auto")
29
+
30
+ messages = [
31
+ {"role": "user", "content": "I want to start saving some money by growing my own food. Can I do this during the winter with an indoor garden?"},
32
+ ]
33
+ pipe(messages, max_new_tokens=128, do_sample=True)
34
+ ```
35
+
36
+ # Benchmark Result
37
+ Every generation was sampled with temperature=1.0, top_p=0.9, top_k=50
38
+
39
+ ## Korean
40
+ | Model | 싱글턴 |
41
+ |---|---|
42
+ | gemma-2-9b-it | 7.45 |
43
+ | **mandoo-9b-2407-sft** | 6.50 |
44
+
45
+ I used sampling with temperature=0.7, max_new_tokens=2048 for generation.
46
+
47
+
48
+ ```
49
+ # mandoo-9b-2407-sft
50
+ 카테고리: 추론(Reasoning), 싱글 점수 평균: 6.86, 멀티 점수 평균: 3.86
51
+ 카테고리: 수학(Math), 싱글 점수 평균: 5.14, 멀티 점수 평균: 3.71
52
+ 카테고리: 글쓰기(Writing), 싱글 점수 평균: 7.29, 멀티 점수 평균: 7.00
53
+ 카테고리: 코딩(Coding), 싱글 점수 평균: 8.29, 멀티 점수 평균: 8.14
54
+ 카테고리: 이해(Understanding), 싱글 점수 평균: 9.29, 멀티 점수 평균: 8.57
55
+ 카테고리: 문법(Grammar), 싱글 점수 평균: 6.43, 멀티 점수 평균: 3.43
56
+ 전체 싱글 점수 평균: 7.21
57
+ 전체 멀티 점수 평균: 5.79
58
+ 전체 점수: 6.50
59
+
60
+ # gemma-2-9b-it
61
+ 카테고리: 추론(Reasoning), 싱글 점수 평균: 9.43, 멀티 점수 평균: 6.71
62
+ 카테고리: 수학(Math), 싱글 점수 평균: 6.14, 멀티 점수 평균: 8.57
63
+ 카테고리: 글쓰기(Writing), 싱글 점수 평균: 8.71, 멀티 점수 평균: 8.86
64
+ 카테고리: 코딩(Coding), 싱글 점수 평균: 7.43, 멀티 점수 평균: 6.86
65
+ 카테고리: 이해(Understanding), 싱글 점수 평균: 8.29, 멀티 점수 평균: 8.29
66
+ 카테고리: 문법(Grammar), 싱글 점수 평균: 6.29, 멀티 점수 평균: 3.86
67
+ 전체 싱글 점수 평균: 7.71
68
+ 전체 멀티 점수 평균: 7.19
69
+ 전체 점수: 7.45
70
+ ```
71
+
72
+ ## English
73
+ ### AlpacaEval
74
+ ```
75
+ length_controlled_winrate win_rate standard_error n_total avg_length
76
+ gpt-4o-2024-05-13 57.46 51.33 1.47 805 1873
77
+ gpt-4-turbo-2024-04-09 55.02 46.12 1.47 805 1802
78
+ gpt4_1106_preview 50.00 50.00 0.00 805 2049
79
+ claude-3-opus-20240229 40.51 29.11 1.39 805 1388
80
+ claude-3-sonnet-20240229 34.87 25.56 1.34 805 1420
81
+ Meta-Llama-3-70B-Instruct 34.42 33.18 1.39 805 1919
82
+ gemini-pro 24.38 18.18 1.16 805 1456
83
+ Mixtral-8x7B-Instruct-v0.1 23.69 18.26 1.19 805 1465
84
+ Meta-Llama-3-8B-Instruct 22.92 22.57 1.26 805 1899
85
+ **heegyu/mandoo-9b-2407-sft** <--- 19.82 18.18 1.13 805 1847
86
+ Mistral-7B-Instruct-v0.2 17.11 14.72 1.08 805 1676
87
+ alpaca-7b 5.88 2.59 0.49 805 396
88
+ ```
89
+
90
+ ### IFEval
91
+ | Model | 싱글턴 |
92
+ |---|---|
93
+ | gemma-2-9b-it | 76.95 |
94
+ | **mandoo-9b-2407-sft** | 59.19 |
95
+
96
+ ```
97
+ Strict Accuracy Scores: Avg 0.59191279139
98
+ prompt-level: 0.5471349353049908
99
+ instruction-level: 0.6366906474820144
100
+
101
+ Loose Accuracy Scores:
102
+ prompt-level: 0.589648798521257
103
+ instruction-level: 0.6774580335731415
104
+ ```
105
+