RedHatAI
/

granite-3.1-8b-base-FP8-dynamic

@@ -159,23 +159,70 @@ evalplus.evaluate \
 ### Accuracy
-#### OpenLLM Leaderboard V1 evaluation scores
-| Metric                                  | ibm-granite/granite-3.1-8b-base             | neuralmagic/granite-3.1-8b-base-FP8-dynamic |
-|-----------------------------------------|:---------------------------------:|:-------------------------------------------:|
-| ARC-Challenge (Acc-Norm, 25-shot)       | 64.68                             | 64.16                                      |
-| GSM8K (Strict-Match, 5-shot)            | 60.88                             | 58.45                                       |
-| HellaSwag (Acc-Norm, 10-shot)           | 83.52                             | 83.46                                       |
-| MMLU (Acc, 5-shot)                      | 63.33                             | 63.35                                        |
-| TruthfulQA (MC2, 0-shot)                | 51.33                             | 51.56                                       |
-| Winogrande (Acc, 5-shot)                | 80.90                             | 80.66                                        |
-| **Average Score**                       | **67.44**                         | **66.94**                                   |
-| **Recovery**                            | **100.00**                        | **99.26**                                   |
-#### HumanEval pass@1 scores
-| Metric                                  | ibm-granite/granite-3.1-8b-base             | neuralmagic/granite-3.1-8b-base-FP8-dynamic |
-|-----------------------------------------|:---------------------------------:|:-------------------------------------------:|
-| HumanEval Pass@1                        | 44.10                            | 44.8                                      |

 ### Accuracy
+<table>
+  <thead>
+    <tr>
+      <th>Category</th>
+      <th>Metric</th>
+      <th>ibm-granite/granite-3.1-8b-base</th>
+      <th>neuralmagic/granite-3.1-8b-base-FP8-dynamic</th>
+      <th>Recovery (%)</th>
+    </tr>
+  </thead>
+  <tbody>
+    <tr>
+      <td rowspan="7"><b>OpenLLM Leaderboard V1</b></td>
+      <td>ARC-Challenge (Acc-Norm, 25-shot)</td>
+      <td>64.68</td>
+      <td>64.16</td>
+      <td>99.20</td>
+    </tr>
+    <tr>
+      <td>GSM8K (Strict-Match, 5-shot)</td>
+      <td>60.88</td>
+      <td>58.45</td>
+      <td>95.99</td>
+    </tr>
+    <tr>
+      <td>HellaSwag (Acc-Norm, 10-shot)</td>
+      <td>83.52</td>
+      <td>83.46</td>
+      <td>99.93</td>
+    </tr>
+    <tr>
+      <td>MMLU (Acc, 5-shot)</td>
+      <td>63.33</td>
+      <td>63.35</td>
+      <td>100.03</td>
+    </tr>
+    <tr>
+      <td>TruthfulQA (MC2, 0-shot)</td>
+      <td>51.33</td>
+      <td>51.56</td>
+      <td>100.45</td>
+    </tr>
+    <tr>
+      <td>Winogrande (Acc, 5-shot)</td>
+      <td>80.90</td>
+      <td>80.66</td>
+      <td>99.70</td>
+    </tr>
+    <tr>
+      <td><b>Average Score</b></td>
+      <td><b>67.44</b></td>
+      <td><b>66.94</b></td>
+      <td><b>99.26</b></td>
+    </tr>
+    <tr>
+      <td rowspan="2"><b>HumanEval</b></td>
+      <td>HumanEval Pass@1</td>
+      <td>44.10</td>
+      <td>44.80</td>
+      <td><b>101.59</b></td>
+    </tr>
+  </tbody>
+</table>