abideen
/

gemma-7b-openhermes

 # Nous Benchmark
+Agieval
+| Task                                      | Version | Metric | Value |   | StdErr |
+|-------------------------------------------|---------|--------|-------|---|---------|
+| agieval\_aqua\_rat                        | 0       | acc    | 24.80 | _ | 2.72    |
+| agieval\_aqua\_rat                        | 0       | acc\_norm | 24.80 | _ | 2.72    |
+| agieval\_logiqa\_en                      | 0       | acc    | 20.89 | _ | 1.59    |
+| agieval\_logiqa\_en                      | 0       | acc\_norm | 23.35 | _ | 1.66    |
+| agieval\_lsat\_ar                        | 0       | acc    | 21.74 | _ | 2.73    |
+| agieval\_lsat\_ar                        | 0       | acc\_norm | 20.43 | _ | 2.66    |
+| agieval\_lsat\_lr                        | 0       | acc    | 15.49 | _ | 1.60    |
+| agieval\_lsat\_lr                        | 0       | acc\_norm | 20.59 | _ | 1.79    |
+| agieval\_lsat\_rc                        | 0       | acc    | 17.10 | _ | 2.30    |
+| agieval\_lsat\_rc                        | 0       | acc\_norm | 17.84 | _ | 2.34    |
+| agieval\_sat\_en                         | 0       | acc    | 29.61 | _ | 3.19    |
+| agieval\_sat\_en                         | 0       | acc\_norm | 29.61 | _ | 3.19    |
+| agieval\_sat\_en\_without\_passage       | 0       | acc    | 26.21 | _ | 3.07    |
+| agieval\_sat\_en\_without\_passage       | 0       | acc\_norm | 24.76 | _ | 3.01    |
+| agieval\_sat\_math                        | 0       | acc    | 22.73 | _ | 2.83    |
+| agieval\_sat\_math                        | 0       | acc\_norm | 22.73 | _ | 2.83    |
+Average: 22.29
+GPT4ALL
+| Task          | Version | Metric     | Value   |   | StdErr      |
+|---------------|---------|------------|---------|---|-------------|
+| arc_challenge | 0       | acc        | 20.14   | _ | 1.17        |
+| arc_challenge | 0       | acc_norm   | 22.87   | _ | 1.23        |
+| arc_easy      | 0       | acc        | 32.37   | _ | 0.96        |
+| arc_easy      | 0       | acc_norm   | 31.61   | _ | 0.95        |
+| boolq         | 1       | acc        | 45.78   | _ | 0.87        |
+| hellaswag     | 0       | acc        | 32.03   | _ | 0.47        |
+| hellaswag     | 0       | acc_norm   | 35.18   | _ | 0.48        |
+| openbookqa    | 0       | acc        | 17.8    | _ | 1.71        |
+| openbookqa    | 0       | acc_norm   | 29.8    | _ | 2.05        |
+| piqa          | 0       | acc        | 54.46   | _ | 1.16        |
+| piqa          | 0       | acc_norm   | 54.57   | _ | 1.16        |
+| winogrande    | 0       | acc        | 48.30   | _ | 1.40        |
+Average: 32.00
+TruthfulQA
+| Task                             | Version | Metric | Value | Std Err |
+|----------------------------------|---------|--------|--------|----------|
+| truthfulqa\_mc                   | 1       | mc1    | 30.11  | 1.61    |
+| truthfulqa\_mc                   | 1       | mc2    | 47.69  | 1.61    |
+Average: 38.90
+# Openllm Benchmark
+|    Task     |Version| Metric |Value|   |Stderr|
+|-------------|------:|--------|----:|---|-----:|
+|arc_challenge|      0|acc     |48.12|±  |  1.46|
+|             |       |acc_norm|51.27|±  |  1.46|
+|hellaswag    |      0|acc     |55.4 |±  |  0.49|
+|             |       |acc_norm|71.92|±  |  0.42|
+|gsm8k        |      0|acc     |29.87|±  |  1.2 |
+|winogrande   |      0|acc     |68.19|±  |  1.3 |
+|mmlu         |      0|acc     |53.62  |±|  0.6 |
+Average: 73.5%
+### TruthfulQA
+|    Task     |Version|Metric|Value|   |Stderr|
+|-------------|------:|------|----:|---|-----:|
+|truthfulqa_mc|      1|mc1   |30.23|±  |  1.60|
+|             |       |mc2   |47.17|±  |  1.63|
 ### Training hyperparameters