OpenLLM-Ro
/

RoLlama3.1-8b-Instruct-DPO

Safetensors

Romanian

llama

Eval Results

Model card Files Files and versions Community

mihaimasala commited on Oct 10

Commit

82e7308

•

1 Parent(s): f3657e4

Update README.md

Browse files

Files changed (1) hide show

README.md +46 -46

README.md CHANGED Viewed

@@ -35,7 +35,7 @@ model-index:
           metrics:
             - name: Average accuracy
               type: accuracy
-              value: 52.73
         - task:
             type: text-generation
           dataset:
@@ -62,7 +62,7 @@ model-index:
           metrics:
             - name: Average accuracy
               type: accuracy
-              value: 65.84
         - task:
             type: text-generation
           dataset:
@@ -89,7 +89,7 @@ model-index:
           metrics:
             - name: Average accuracy
               type: accuracy
-              value: 47.81
         - task:
             type: text-generation
           dataset:
@@ -98,7 +98,7 @@ model-index:
           metrics:
             - name: Average macro-f1
               type: macro-f1
-              value: 0.00
         - task:
             type: text-generation
           dataset:
@@ -107,7 +107,7 @@ model-index:
           metrics:
             - name: Average macro-f1
               type: macro-f1
-              value: 0.00
         - task:
             type: text-generation
           dataset:
@@ -134,7 +134,7 @@ model-index:
           metrics:
             - name: Average bleu
               type: bleu
-              value: 0.00
         - task:
             type: text-generation
           dataset:
@@ -143,7 +143,7 @@ model-index:
           metrics:
             - name: Average bleu
               type: bleu
-              value: 0.00
         - task:
             type: text-generation
           dataset:
@@ -170,7 +170,7 @@ model-index:
           metrics:
             - name: Average exact_match
               type: exact_match
-              value: 0.00
         - task:
             type: text-generation
           dataset:
@@ -179,7 +179,7 @@ model-index:
           metrics:
             - name: Average f1
               type: f1
-              value: 0.00
         - task:
             type: text-generation
           dataset:
@@ -206,7 +206,7 @@ model-index:
           metrics:
             - name: Average spearman
               type: spearman
-              value: 0.00
         - task:
             type: text-generation
           dataset:
@@ -215,7 +215,7 @@ model-index:
           metrics:
             - name: Average pearson
               type: pearson
-              value: 0.00
         - task:
             type: text-generation
           dataset:
@@ -299,7 +299,7 @@ model-index:
               value: 64.40
             - name: 1-shot
               type: accuracy
-              value: 66.14
             - name: 3-shot
               type: accuracy
               value: 65.75
@@ -350,16 +350,16 @@ model-index:
           metrics:
             - name: 0-shot
               type: macro-f1
-              value: 0.00
             - name: 1-shot
               type: macro-f1
-              value: 0.00
             - name: 3-shot
               type: macro-f1
-              value: 0.00
             - name: 5-shot
               type: macro-f1
-              value: 0.00
         - task:
             type: text-generation
           dataset:
@@ -368,16 +368,16 @@ model-index:
           metrics:
             - name: 0-shot
               type: macro-f1
-              value: 0.00
             - name: 1-shot
               type: macro-f1
-              value: 0.00
             - name: 3-shot
               type: macro-f1
-              value: 0.00
             - name: 5-shot
               type: macro-f1
-              value: 0.00
         - task:
             type: text-generation
           dataset:
@@ -386,16 +386,16 @@ model-index:
           metrics:
             - name: 0-shot
               type: bleu
-              value: 0.00
             - name: 1-shot
               type: bleu
-              value: 0.00
             - name: 3-shot
               type: bleu
-              value: 0.00
             - name: 5-shot
               type: bleu
-              value: 0.00
         - task:
             type: text-generation
           dataset:
@@ -404,16 +404,16 @@ model-index:
           metrics:
             - name: 0-shot
               type: bleu
-              value: 0.00
             - name: 1-shot
               type: bleu
-              value: 0.00
             - name: 3-shot
               type: bleu
-              value: 0.00
             - name: 5-shot
               type: bleu
-              value: 0.00
         - task:
             type: text-generation
           dataset:
@@ -422,16 +422,16 @@ model-index:
           metrics:
             - name: 0-shot
               type: exact_match
-              value: 0.00
             - name: 1-shot
               type: exact_match
-              value: 0.00
             - name: 3-shot
               type: exact_match
-              value: 0.00
             - name: 5-shot
               type: exact_match
-              value: 0.00
         - task:
             type: text-generation
           dataset:
@@ -440,16 +440,16 @@ model-index:
           metrics:
             - name: 0-shot
               type: f1
-              value: 0.00
             - name: 1-shot
               type: f1
-              value: 0.00
             - name: 3-shot
               type: f1
-              value: 0.00
             - name: 5-shot
               type: f1
-              value: 0.00
         - task:
             type: text-generation
           dataset:
@@ -458,13 +458,13 @@ model-index:
           metrics:
             - name: 0-shot
               type: spearman
-              value: 0.00
             - name: 1-shot
               type: spearman
-              value: 0.00
             - name: 3-shot
               type: spearman
-              value: 0.00
         - task:
             type: text-generation
           dataset:
@@ -473,13 +473,13 @@ model-index:
           metrics:
             - name: 0-shot
               type: pearson
-              value: 0.00
             - name: 1-shot
               type: pearson
-              value: 0.00
             - name: 3-shot
               type: pearson
-              value: 0.00
 ---
@@ -611,13 +611,13 @@ print(tokenizer.decode(outputs[0]))
 <td><center><strong>RO-EN<br>(Bleu)</strong></center>
 </tr>
 <tr>
-<td>Llama-3.1-8B-Instruct</td><td><center><strong>95.74</strong></center></td><td><center>59.49</center></td><td><center><strong>98.57</strong></center></td><td><center>82.41</center></td><td><center>19.01</center></td><td><center><strong>27.77</strong></center></td><td><center><strong>29.02</strong></center></td><td><center>39.80</center></td>
 </tr>
 <tr>
 <td>RoLlama3.1-8b-Instruct-2024-10-09</td><td><center>94.56</center></td><td><center><strong>60.10</strong></center></td><td><center>95.12</center></td><td><center><strong>87.53</strong></center></td><td><center><strong>21.88</strong></center></td><td><center>23.99</center></td><td><center>28.27</center></td><td><center><strong>40.44</strong></center></td>
 </tr>
 <tr>
-<td><em>RoLlama3.1-8b-Instruct-DPO-2024-10-09</em></td><td><center><em>-</em></center></td><td><center><em>-</em></center></td><td><center><em>-</em></center></td><td><center><em>-</em></center></td><td><center><em>-</em></center></td><td><center><em>-</em></center></td><td><center><em>-</em></center></td><td><center><em>-</em></center></td>
 </tr>
 </tbody>
 </table>
@@ -652,10 +652,10 @@ print(tokenizer.decode(outputs[0]))
 <td>Llama-3.1-8B-Instruct</td><td><center><strong>44.96</strong></center></td><td><center><strong>64.45</strong></center></td><td><center><strong>69.50</strong></center></td><td><center><strong>84.31</strong></center></td><td><center>72.11</center></td><td><center>71.64</center></td><td><center>84.59</center></td><td><center>84.96</center></td>
 </tr>
 <tr>
-<td>RoLlama3.1-8b-Instruct-2024-10-09</td><td><center>13.59</center></td><td><center>23.56</center></td><td><center>49.41</center></td><td><center>62.93</center></td><td><center><strong>75.89</strong></center></td><td><center><strong>76.00</strong></center></td><td><center><strong>86.86</strong></center></td><td><center><strong>87.05</strong></center></td>
 </tr>
 <tr>
-<td><em>RoLlama3.1-8b-Instruct-DPO-2024-10-09</em></td><td><center><em>-</em></center></td><td><center><em>-</em></center></td><td><center><em>-</em></center></td><td><center><em>-</em></center></td><td><center><em>-</em></center></td><td><center><em>-</em></center></td><td><center><em>-</em></center></td><td><center><em>-</em></center></td>
 </tr>
 </tbody>
 </table>

           metrics:
             - name: Average accuracy
               type: accuracy
+              value: 52.74
         - task:
             type: text-generation
           dataset:
           metrics:
             - name: Average accuracy
               type: accuracy
+              value: 65.87
         - task:
             type: text-generation
           dataset:
           metrics:
             - name: Average accuracy
               type: accuracy
+              value: 47.82
         - task:
             type: text-generation
           dataset:
           metrics:
             - name: Average macro-f1
               type: macro-f1
+              value: 96.10
         - task:
             type: text-generation
           dataset:
           metrics:
             - name: Average macro-f1
               type: macro-f1
+              value: 55.37
         - task:
             type: text-generation
           dataset:
           metrics:
             - name: Average bleu
               type: bleu
+              value: 21.29
         - task:
             type: text-generation
           dataset:
           metrics:
             - name: Average bleu
               type: bleu
+              value: 21.86
         - task:
             type: text-generation
           dataset:
           metrics:
             - name: Average exact_match
               type: exact_match
+              value: 21.58
         - task:
             type: text-generation
           dataset:
           metrics:
             - name: Average f1
               type: f1
+              value: 36.54
         - task:
             type: text-generation
           dataset:
           metrics:
             - name: Average spearman
               type: spearman
+              value: 78.01
         - task:
             type: text-generation
           dataset:
           metrics:
             - name: Average pearson
               type: pearson
+              value: 77.98
         - task:
             type: text-generation
           dataset:
               value: 64.40
             - name: 1-shot
               type: accuracy
+              value: 66.22
             - name: 3-shot
               type: accuracy
               value: 65.75
           metrics:
             - name: 0-shot
               type: macro-f1
+              value: 93.11
             - name: 1-shot
               type: macro-f1
+              value: 96.06
             - name: 3-shot
               type: macro-f1
+              value: 97.53
             - name: 5-shot
               type: macro-f1
+              value: 97.70
         - task:
             type: text-generation
           dataset:
           metrics:
             - name: 0-shot
               type: macro-f1
+              value: 65.61
             - name: 1-shot
               type: macro-f1
+              value: 55.73
             - name: 3-shot
               type: macro-f1
+              value: 46.33
             - name: 5-shot
               type: macro-f1
+              value: 53.82
         - task:
             type: text-generation
           dataset:
           metrics:
             - name: 0-shot
               type: bleu
+              value: 6.89
             - name: 1-shot
               type: bleu
+              value: 26.62
             - name: 3-shot
               type: bleu
+              value: 25.70
             - name: 5-shot
               type: bleu
+              value: 25.94
         - task:
             type: text-generation
           dataset:
           metrics:
             - name: 0-shot
               type: bleu
+              value: 2.16
             - name: 1-shot
               type: bleu
+              value: 16.65
             - name: 3-shot
               type: bleu
+              value: 33.41
             - name: 5-shot
               type: bleu
+              value: 35.22
         - task:
             type: text-generation
           dataset:
           metrics:
             - name: 0-shot
               type: exact_match
+              value: 8.99
             - name: 1-shot
               type: exact_match
+              value: 35.88
             - name: 3-shot
               type: exact_match
+              value: 31.26
             - name: 5-shot
               type: exact_match
+              value: 10.17
         - task:
             type: text-generation
           dataset:
           metrics:
             - name: 0-shot
               type: f1
+              value: 20.00
             - name: 1-shot
               type: f1
+              value: 59.41
             - name: 3-shot
               type: f1
+              value: 48.41
             - name: 5-shot
               type: f1
+              value: 18.33
         - task:
             type: text-generation
           dataset:
           metrics:
             - name: 0-shot
               type: spearman
+              value: 78.10
             - name: 1-shot
               type: spearman
+              value: 77.81
             - name: 3-shot
               type: spearman
+              value: 78.11
         - task:
             type: text-generation
           dataset:
           metrics:
             - name: 0-shot
               type: pearson
+              value: 78.30
             - name: 1-shot
               type: pearson
+              value: 77.58
             - name: 3-shot
               type: pearson
+              value: 78.06
 ---
 <td><center><strong>RO-EN<br>(Bleu)</strong></center>
 </tr>
 <tr>
+<td>Llama-3.1-8B-Instruct</td><td><center>95.74</center></td><td><center>59.49</center></td><td><center><strong>98.57</strong></center></td><td><center>82.41</center></td><td><center>19.01</center></td><td><center><strong>27.77</strong></center></td><td><center><strong>29.02</strong></center></td><td><center>39.80</center></td>
 </tr>
 <tr>
 <td>RoLlama3.1-8b-Instruct-2024-10-09</td><td><center>94.56</center></td><td><center><strong>60.10</strong></center></td><td><center>95.12</center></td><td><center><strong>87.53</strong></center></td><td><center><strong>21.88</strong></center></td><td><center>23.99</center></td><td><center>28.27</center></td><td><center><strong>40.44</strong></center></td>
 </tr>
 <tr>
+<td><em>RoLlama3.1-8b-Instruct-DPO-2024-10-09</em></td><td><center><em><strong>96.10</strong></em></center></td><td><center><em>55.37</em></center></td><td><center><em>-</em></center></td><td><center><em>-</em></center></td><td><center><em>21.29</em></center></td><td><center><em>21.86</em></center></td><td><center><em>-</em></center></td><td><center><em>-</em></center></td>
 </tr>
 </tbody>
 </table>
 <td>Llama-3.1-8B-Instruct</td><td><center><strong>44.96</strong></center></td><td><center><strong>64.45</strong></center></td><td><center><strong>69.50</strong></center></td><td><center><strong>84.31</strong></center></td><td><center>72.11</center></td><td><center>71.64</center></td><td><center>84.59</center></td><td><center>84.96</center></td>
 </tr>
 <tr>
+<td>RoLlama3.1-8b-Instruct-2024-10-09</td><td><center>13.59</center></td><td><center>23.56</center></td><td><center>49.41</center></td><td><center>62.93</center></td><td><center>75.89</center></td><td><center>76.00</center></td><td><center><strong>86.86</strong></center></td><td><center><strong>87.05</strong></center></td>
 </tr>
 <tr>
+<td><em>RoLlama3.1-8b-Instruct-DPO-2024-10-09</em></td><td><center><em>21.58</em></center></td><td><center><em>36.54</em></center></td><td><center><em>-</em></center></td><td><center><em>-</em></center></td><td><center><em><strong>78.01</strong></em></center></td><td><center><em><strong>77.98</strong></em></center></td><td><center><em>-</em></center></td><td><center><em>-</em></center></td>
 </tr>
 </tbody>
 </table>