Add evaluation results on the default config and test split of xsum

Beep boop, I am a bot from Hugging Face's automatic model evaluator 👋!\
Your model has been evaluated on the default config and test split of the [xsum](https://huggingface.co/datasets/xsum) dataset by

@zuzannad1
, using the predictions stored [here](https://huggingface.co/datasets/autoevaluate/autoeval-eval-xsum-default-7c65dc-60294145404).\
Accept this pull request to see the results displayed on the [Hub leaderboard](https://huggingface.co/spaces/autoevaluate/leaderboards?dataset=xsum).\
Evaluate your model on more datasets [here](https://huggingface.co/spaces/autoevaluate/model-evaluator?dataset=xsum).

Files changed (1) hide show

README.md +54 -48

README.md CHANGED Viewed

@@ -14,29 +14,29 @@ model-index:
       config: samsum
       split: train
     metrics:
-    - name: ROUGE-1
-      type: rouge
       value: 21.8096
       verified: true
-    - name: ROUGE-2
-      type: rouge
       value: 4.2525
       verified: true
-    - name: ROUGE-L
-      type: rouge
       value: 17.4469
       verified: true
-    - name: ROUGE-LSUM
-      type: rouge
       value: 18.8907
       verified: true
-    - name: loss
-      type: loss
       value: 3.0317161083221436
       verified: true
-    - name: gen_len
-      type: gen_len
       value: 20.3122
       verified: true
   - task:
       type: summarization
@@ -47,30 +47,36 @@ model-index:
       config: default
       split: test
     metrics:
-    - name: ROUGE-1
-      type: rouge
-      value: 46.8623
-      verified: true
-    - name: ROUGE-2
-      type: rouge
-      value: 24.4533
-      verified: true
-    - name: ROUGE-L
-      type: rouge
-      value: 39.0548
-      verified: true
-    - name: ROUGE-LSUM
-      type: rouge
-      value: 39.0994
-      verified: true
-    - name: loss
-      type: loss
-      value: 1.5717021226882935
-      verified: true
-    - name: gen_len
-      type: gen_len
-      value: 22.8821
-      verified: true
   - task:
       type: summarization
       name: Summarization
@@ -80,29 +86,29 @@ model-index:
       config: 3.0.0
       split: test
     metrics:
-    - name: ROUGE-1
-      type: rouge
       value: 22.2062
       verified: true
-    - name: ROUGE-2
-      type: rouge
       value: 7.6701
       verified: true
-    - name: ROUGE-L
-      type: rouge
       value: 15.4046
       verified: true
-    - name: ROUGE-LSUM
-      type: rouge
       value: 19.2182
       verified: true
-    - name: loss
-      type: loss
       value: 2.681241273880005
       verified: true
-    - name: gen_len
-      type: gen_len
       value: 25.0234
       verified: true
 ---

       config: samsum
       split: train
     metrics:
+    - type: rouge
       value: 21.8096
+      name: ROUGE-1
       verified: true
+    - type: rouge
       value: 4.2525
+      name: ROUGE-2
       verified: true
+    - type: rouge
       value: 17.4469
+      name: ROUGE-L
       verified: true
+    - type: rouge
       value: 18.8907
+      name: ROUGE-LSUM
       verified: true
+    - type: loss
       value: 3.0317161083221436
+      name: loss
       verified: true
+    - type: gen_len
       value: 20.3122
+      name: gen_len
       verified: true
   - task:
       type: summarization
       config: default
       split: test
     metrics:
+    - type: rouge
+      value: 46.7782
+      name: ROUGE-1
+      verified: true
+      verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiYzk4Njc5YTQyZDJhNWNmMWNiMDdmOGY3NGZkOTE5ODYxZWI1YzllYzVhZDBmZTdhMTUzYzBhYjg4NDExMDI0OCIsInZlcnNpb24iOjF9.FB6f5FsSE8JuwyPUC1usCF0GXFx4y7YnxNkkhu0xyuv1vG-8y2plnJqSfF30Jae1Bpb_6IGqtnCisuvC9_d_AA
+    - type: rouge
+      value: 24.3976
+      name: ROUGE-2
+      verified: true
+      verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiYjg4ZTg0ZjRmNGFiMTY0MjVlNjBkOGI4NzhkYjE3M2YyMDhjOWY1MTVmMzBjMmQ4Y2ViNWQ3NGU0OGQzMmJhYiIsInZlcnNpb24iOjF9.DELSboK4-QhPB_JJvX9tBZDCMc73F-n7yqKUesEiAd7rMjPAc8RLJcO_1SBxLVc0w1Pxt84Z0V-Fz8Ee-LGwDg
+    - type: rouge
+      value: 38.9758
+      name: ROUGE-L
+      verified: true
+      verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiNzQzNWY4Y2YxZTZjOGM3YzdmNTYxMTc0ZDJmZjNjNzEyZTdlMzYzZTMyYTcyZDgwZGZiZjNmZWQ4MzA3Y2UwMiIsInZlcnNpb24iOjF9.tMfwcvdN558uEuSa9aUXDR06q0jPKy-6s3f1h8LkO9lc7JV5oy9SSnsDXQNALIyzh3FhmyScegEcXr0LLIwUBA
+    - type: rouge
+      value: 39.0386
+      name: ROUGE-LSUM
+      verified: true
+      verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiNTA3YjI3MWVmOWJjZDk1YzkyMDJlYzk0MjQyYzQ1MjZhMjI2YWQ3Y2Y2ZGZiNGJjOWFhOWU2NDNkMzQxMWQzZSIsInZlcnNpb24iOjF9._XvQukx6SpEEjOHf3ivplJ8YW5_Q7oj8mc1uu5YIJaXyK9yuf9HW1DhXFxYdUm_K_cAtSRa5PPCGeKkDJfTvDQ
+    - type: loss
+      value: 1.5713257789611816
+      name: loss
+      verified: true
+      verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiODhhNDFkMjdhNmI0MDc4NWFkYjkzZTc2OGM5MTY4NGMwZDE0NWZhMTBmZmY5ZGMyMWU5NTY3MjFjZWZkZTdmYiIsInZlcnNpb24iOjF9.PJcC1UpQpfSz44f8mQN5gp5ZFbEbDtRPLzK5RoPjTirRJ4cDPxX88yLI3rDiUMZRdXitEaWqQpLkFqu-5g75Bw
+    - type: gen_len
+      value: 23.089
+      name: gen_len
+      verified: true
+      verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiOGNlMDZmNjRjNWM1YTg0M2FmNDg4ZGE2OGMzYjc4MmE3MTk3YTQzNzM3ZmJmZmJhNDVlMGZlYWNiOGJmYmFlMSIsInZlcnNpb24iOjF9.w-ce3jWHW2dzLFaJe2R9hAiCvIdX-SIcrCe5ADTCDyBQwLrHOJf8-xFYLt9oE9EAlXJsbrhjlCMJbzFChNQTBg
   - task:
       type: summarization
       name: Summarization
       config: 3.0.0
       split: test
     metrics:
+    - type: rouge
       value: 22.2062
+      name: ROUGE-1
       verified: true
+    - type: rouge
       value: 7.6701
+      name: ROUGE-2
       verified: true
+    - type: rouge
       value: 15.4046
+      name: ROUGE-L
       verified: true
+    - type: rouge
       value: 19.2182
+      name: ROUGE-LSUM
       verified: true
+    - type: loss
       value: 2.681241273880005
+      name: loss
       verified: true
+    - type: gen_len
       value: 25.0234
+      name: gen_len
       verified: true
 ---