add scores (#1)

Browse files

- add scores (5a0835aa8b06429472dd5971641cce9645a6f3aa)

Co-authored-by: William de Vazelhes <wdevazelhes@users.noreply.huggingface.co>

Files changed (1) hide show

README.md +79 -64

README.md CHANGED Viewed

@@ -128,125 +128,140 @@ Falcon3-7B is trained on 256 H100 nodes (world size 2048).
 |                    |            | during the training                   |
 # Evaluation
 <table border="1" style="width: 100%; text-align: center; border-collapse: collapse;">
     <colgroup>
-        <col style="width: 10%;">
-        <col style="width: 10%;">
-        <col style="width: 7%;">
-        <col style="width: 7%;">
-        <col style="width: 7%;">
-        <col style="background-color: rgba(80, 15, 213, 0.5); width: 7%;">
     </colgroup>
     <thead>
         <tr>
             <th>Category</th>
             <th>Benchmark</th>
-            <th>Llama3.1-8B</th>
-            <th>Qwen2-7B</th>
-            <th>Qwen2.5-7B</th>
-            <th>Falcon3-7B-Base</th>
         </tr>
     </thead>
     <tbody>
         <tr>
             <td rowspan="3">General</td>
             <td>MMLU (5-shot)</td>
-            <td>65.2</td>
-            <td>70.4</td>
-            <td>74.2</td>
-            <td>67.5</td>
         </tr>
         <tr>
             <td>MMLU-PRO (5-shot)</td>
-            <td>32.7</td>
-            <td>42.1</td>
-            <td>43.5</td>
-            <td>39.2</td>
         </tr>
         <tr>
             <td>IFEval</td>
-            <td>12.0</td>
-            <td>30.6</td>
-            <td>33.9</td>
-            <td>34.3</td>
         </tr>
         <tr>
             <td rowspan="2">Math</td>
             <td>GSM8K (5-shot)</td>
-            <td>49.4</td>
-            <td>77.9</td>
-            <td>82.9</td>
-            <td>76.2</td>
         </tr>
         <tr>
-            <td>MATH(4-shot)</td>
-            <td>4.1</td>
-            <td>17.5</td>
-            <td>15.5</td>
-            <td>18.0</td>
         </tr>
         <tr>
             <td rowspan="4">Reasoning</td>
             <td>Arc Challenge (25-shot)</td>
-            <td>53.4</td>
-            <td>57.4</td>
-            <td>59.0</td>
-            <td>59.6</td>
         </tr>
         <tr>
             <td>GPQA (0-shot)</td>
-            <td>31.0</td>
-            <td>31.9</td>
-            <td>33.0</td>
-            <td>35.5</td>
         </tr>
         <tr>
             <td>MUSR (0-shot)</td>
-            <td>38.0</td>
-            <td>44.1</td>
-            <td>44.2</td>
-            <td>47.3</td>
         </tr>
         <tr>
             <td>BBH (3-shot)</td>
-            <td>46.5</td>
-            <td>53.3</td>
-            <td>54.0</td>
-            <td>51.0</td>
         </tr>
         <tr>
             <td rowspan="4">CommonSense Understanding</td>
             <td>PIQA (0-shot)</td>
-            <td>80.3</td>
-            <td>79.8</td>
-            <td>78.7</td>
-            <td>77.7</td>
         </tr>
         <tr>
             <td>SciQ (0-shot)</td>
-            <td>96.3</td>
-            <td>95.9</td>
-            <td>96.6</td>
-            <td>95.3</td>
         </tr>
         <tr>
             <td>Winogrande (0-shot)</td>
-            <td>74.0</td>
-            <td>72.1</td>
-            <td>72.9</td>
-            <td>71.0</td>
         </tr>
         <tr>
             <td>OpenbookQA (0-shot)</td>
-            <td>33.4</td>
-            <td>35.2</td>
-            <td>33.6</td>
-            <td>31.4</td>
         </tr>
     </tbody>
 </table>
 # Citation

 |                    |            | during the training                   |
 # Evaluation
 <table border="1" style="width: 100%; text-align: center; border-collapse: collapse;">
     <colgroup>
+        <col style="width: 15%;">
+        <col style="width: 15%;">
+        <col style="width: 14%;">
+        <col style="width: 14%;">
+        <col style="width: 14%;">
+        <col style="width: 14%;">
+        <col style="background-color: rgba(80, 15, 213, 0.5); width: 14%;">
     </colgroup>
     <thead>
         <tr>
             <th>Category</th>
             <th>Benchmark</th>
+            <th>meta-llama/Llama-3.2-1B</th>
+            <th>Qwen/Qwen2.5-1.5B</th>
+            <th>HuggingFaceTB/SmolLM2-1.7B</th>
+            <th>google/gemma-2-2b</th>
+            <th>Falcon3-1B-Base</th>
         </tr>
     </thead>
     <tbody>
         <tr>
             <td rowspan="3">General</td>
             <td>MMLU (5-shot)</td>
+            <td>31.1</td>
+            <td>61</td>
+            <td>50.2</td>
+            <td>53.1</td>
+            <td>42.5</td>
         </tr>
         <tr>
             <td>MMLU-PRO (5-shot)</td>
+            <td>11.7</td>
+            <td>28.5</td>
+            <td>21.4</td>
+            <td>22.1</td>
+            <td>16.2</td>
         </tr>
         <tr>
             <td>IFEval</td>
+            <td>14.9</td>
+            <td>26.1</td>
+            <td>24.2</td>
+            <td>20.4</td>
+            <td>25.3</td>
         </tr>
         <tr>
             <td rowspan="2">Math</td>
             <td>GSM8K (5-shot)</td>
+            <td>6.6</td>
+            <td>62.3</td>
+            <td>31.1</td>
+            <td>25.6</td>
+            <td>34.3</td>
         </tr>
         <tr>
+            <td>MATH (4-shot)</td>
+            <td>0.3</td>
+            <td>6.8</td>
+            <td>1.5</td>
+            <td>2.6</td>
+            <td>2.2</td>
         </tr>
         <tr>
             <td rowspan="4">Reasoning</td>
             <td>Arc Challenge (25-shot)</td>
+            <td>40.2</td>
+            <td>54.8</td>
+            <td>54.1</td>
+            <td>53.7</td>
+            <td>48.2</td>
         </tr>
         <tr>
             <td>GPQA (0-shot)</td>
+            <td>24.3</td>
+            <td>28.2</td>
+            <td>28.9</td>
+            <td>25.5</td>
+            <td>28.1</td>
         </tr>
         <tr>
             <td>MUSR (0-shot)</td>
+            <td>34.5</td>
+            <td>35.5</td>
+            <td>34.8</td>
+            <td>42.8</td>
+            <td>41.9</td>
         </tr>
         <tr>
             <td>BBH (3-shot)</td>
+            <td>31.2</td>
+            <td>41.1</td>
+            <td>34.3</td>
+            <td>36.8</td>
+            <td>36.1</td>
         </tr>
         <tr>
             <td rowspan="4">CommonSense Understanding</td>
             <td>PIQA (0-shot)</td>
+            <td>74.6</td>
+            <td>76</td>
+            <td>77.5</td>
+            <td>79.2</td>
+            <td>74.5</td>
         </tr>
         <tr>
             <td>SciQ (0-shot)</td>
+            <td>88.5</td>
+            <td>93.1</td>
+            <td>90.8</td>
+            <td>95.7</td>
+            <td>91.1</td>
         </tr>
         <tr>
             <td>Winogrande (0-shot)</td>
+            <td>60.4</td>
+            <td>63</td>
+            <td>66.1</td>
+            <td>68.6</td>
+            <td>61.2</td>
         </tr>
         <tr>
             <td>OpenbookQA (0-shot)</td>
+            <td>37.4</td>
+            <td>40.4</td>
+            <td>44</td>
+            <td>41.8</td>
+            <td>41</td>
         </tr>
     </tbody>
 </table>
 # Citation