FuseAI
/

FuseChat-Llama-3.1-8B-Instruct

Model card Files Files and versions Community

AALF commited on Nov 21, 2024

Commit

f7f7602

·

verified ·

1 Parent(s): f740497

Update README.md

Files changed (1) hide show

README.md +20 -2

README.md CHANGED Viewed

@@ -5,7 +5,7 @@ base_model:
 ---
 A preview version of FuseChat-3.0, under testing...
-Training configs:
 ```yaml
 # Model arguments
 model_name_or_path: AALF/FuseChat-Llama-3.1-8B-SFT
@@ -48,4 +48,22 @@ save_total_limit: 20
 seed: 42
 warmup_ratio: 0.1
 save_only_model: true
-```

 ---
 A preview version of FuseChat-3.0, under testing...
+## Training configs:
 ```yaml
 # Model arguments
 model_name_or_path: AALF/FuseChat-Llama-3.1-8B-SFT
 seed: 42
 warmup_ratio: 0.1
 save_only_model: true
+```
+## Evaluation Results
+| Datasets                        | Llama3.1-8B-Instruct | FuseChat-Llama-3.1-8B-SFT | FuseChat-Llama-3.1-8B-Instruct |
+|---------------------------------|----------------------|---------------------------|--------------------------------|
+| AlpacaEval-2 (LC/WR)            | 28.3/28.7             | 41.3/37.7                  | 65.4/63.3                       |
+| Arena-Hard (WR/SC)              | 28.1/23.8             | 38.7/29                    | 58.2/46.4                       |
+| MT-Bench                        | 8.38                  | 8.54                       | 9                              |
+| AlignBench v1.1                 | 4.61                  | 6.25                       | 6.69                           |
+| LiveBench 0831                  | 27.6                  | 30.2                       | 32                             |
+| GSM8K                           | 85.9                  | 87                         | 88                             |
+| MATH                            | 50.7                  | 54.7                       | 55.2                           |
+| AMC 23                          | 25                    | 30                         | 37.5                           |
+| MMLU-Pro                        | 50                    | 47.8                       | 49.2                           |
+| MMLU-redux                      | 67.2                  | 68.4                       | 69.2                           |
+| GPQA-Diamond                    | 33.8                  | 37.9                       | 34.9                           |
+| HumanEval                       | 69.5                  | 69.5                       | 71.3                           |
+| MBPP                            | 75.4                  | 71.4                       | 72                             |
+| LiveCodeBench 2408-2411 (all/esay) | 12.3/40.5          | 12.6/39                    | 13.1/43.2                       |