mlabonne
/

Marcoro14-7B-slerp

@@ -21,13 +21,13 @@ Marcoro14-7B-slerp is the second best-performing 7B LLM on the Open LLM Leaderbo
 I also evaluated it using Nous' benchmark suite and obtained the following results:
-|          Model          |agieval|gpt4all|truthfulqa|bigbench|Average|
 |-------------------------|------:|------:|---------:|-------:|------:|
 |Marcoro14-7B-slerp       |  44.66|  76.24|     64.15|   45.64|  57.67|
 |OpenHermes-2.5-Mistral-7B|  43.07|  73.12|     53.04|   40.96|  52.57|
 |Change                   |  +1.59|  +3.12|    +11.11|   +4.68|   +5.1|
-### AGIEVAL
 |             Task             |Version| Metric |Value|   |Stderr|
 |------------------------------|------:|--------|----:|---|-----:|
 |agieval_aqua_rat              |      0|acc     |26.38|±  |  2.77|
@@ -46,6 +46,7 @@ I also evaluated it using Nous' benchmark suite and obtained the following resul
 |                              |       |acc_norm|45.63|±  |  3.48|
 |agieval_sat_math              |      0|acc     |33.18|±  |  3.18|
 |                              |       |acc_norm|30.45|±  |  3.11|
 Average: 44.66%
 ### GPT4ALL
@@ -63,16 +64,18 @@ Average: 44.66%
 |piqa         |      0|acc     |82.59|±  |  0.88|
 |             |       |acc_norm|84.39|±  |  0.85|
 |winogrande   |      0|acc     |78.53|±  |  1.15|
 Average: 76.24%
-### TRUTHFULQA
 |    Task     |Version|Metric|Value|   |Stderr|
 |-------------|------:|------|----:|---|-----:|
 |truthfulqa_mc|      1|mc1   |46.88|±  |  1.75|
 |             |       |mc2   |64.15|±  |  1.52|
 Average: 64.15%
-### BIGBENCH
 |                      Task                      |Version|       Metric        |Value|   |Stderr|
 |------------------------------------------------|------:|---------------------|----:|---|-----:|
 |bigbench_causal_judgement                       |      0|multiple_choice_grade|56.32|±  |  3.61|
@@ -94,6 +97,7 @@ Average: 64.15%
 |bigbench_tracking_shuffled_objects_five_objects |      0|multiple_choice_grade|23.44|±  |  1.20|
 |bigbench_tracking_shuffled_objects_seven_objects|      0|multiple_choice_grade|18.51|±  |  0.93|
 |bigbench_tracking_shuffled_objects_three_objects|      0|multiple_choice_grade|52.33|±  |  2.89|
 Average: 45.64%
 Average score: 57.67%

 I also evaluated it using Nous' benchmark suite and obtained the following results:
+|          Model          |AGIEval|GPT4ALL|TruthfulQA|Bigbench|Average|
 |-------------------------|------:|------:|---------:|-------:|------:|
 |Marcoro14-7B-slerp       |  44.66|  76.24|     64.15|   45.64|  57.67|
 |OpenHermes-2.5-Mistral-7B|  43.07|  73.12|     53.04|   40.96|  52.57|
 |Change                   |  +1.59|  +3.12|    +11.11|   +4.68|   +5.1|
+### AGIEval
 |             Task             |Version| Metric |Value|   |Stderr|
 |------------------------------|------:|--------|----:|---|-----:|
 |agieval_aqua_rat              |      0|acc     |26.38|±  |  2.77|
 |                              |       |acc_norm|45.63|±  |  3.48|
 |agieval_sat_math              |      0|acc     |33.18|±  |  3.18|
 |                              |       |acc_norm|30.45|±  |  3.11|
 Average: 44.66%
 ### GPT4ALL
 |piqa         |      0|acc     |82.59|±  |  0.88|
 |             |       |acc_norm|84.39|±  |  0.85|
 |winogrande   |      0|acc     |78.53|±  |  1.15|
 Average: 76.24%
+### TruthfulQA
 |    Task     |Version|Metric|Value|   |Stderr|
 |-------------|------:|------|----:|---|-----:|
 |truthfulqa_mc|      1|mc1   |46.88|±  |  1.75|
 |             |       |mc2   |64.15|±  |  1.52|
 Average: 64.15%
+### Bigbench
 |                      Task                      |Version|       Metric        |Value|   |Stderr|
 |------------------------------------------------|------:|---------------------|----:|---|-----:|
 |bigbench_causal_judgement                       |      0|multiple_choice_grade|56.32|±  |  3.61|
 |bigbench_tracking_shuffled_objects_five_objects |      0|multiple_choice_grade|23.44|±  |  1.20|
 |bigbench_tracking_shuffled_objects_seven_objects|      0|multiple_choice_grade|18.51|±  |  0.93|
 |bigbench_tracking_shuffled_objects_three_objects|      0|multiple_choice_grade|52.33|±  |  2.89|
 Average: 45.64%
 Average score: 57.67%