Add verifyToken field to verify evaluation results are produced by Hugging Face's automatic model evaluator (#16)

Browse files

- Add verifyToken field to verify evaluation results are produced by Hugging Face's automatic model evaluator (a49eb2814974e826b5f803631562a3e0b0a3e074)

Co-authored-by: Evaluation Bot <autoevaluator@users.noreply.huggingface.co>

Files changed (1) hide show

README.md +38 -26

README.md CHANGED Viewed

@@ -1,10 +1,10 @@
 ---
 language: en
-inference: false
 tags:
 - text-generation
 - opt
-license: other
 commercial: false
 model-index:
 - name: inverse-scaling/opt-6.7b_eval
@@ -18,14 +18,16 @@ model-index:
       config: inverse-scaling--NeQA
       split: train
     metrics:
-    - name: Accuracy
-      type: accuracy
       value: 0.54
       verified: true
-    - name: Loss
-      type: loss
       value: 0.740270353704691
       verified: true
   - task:
       type: zero-shot-classification
       name: Zero-Shot Text Classification
@@ -35,14 +37,16 @@ model-index:
       config: inverse-scaling--quote-repetition
       split: train
     metrics:
-    - name: Accuracy
-      type: accuracy
       value: 0.86
       verified: true
-    - name: Loss
-      type: loss
       value: 0.22016974209290055
       verified: true
   - task:
       type: zero-shot-classification
       name: Zero-Shot Text Classification
@@ -52,14 +56,16 @@ model-index:
       config: inverse-scaling--redefine-math
       split: train
     metrics:
-    - name: Accuracy
-      type: accuracy
       value: 0.6733333333333333
       verified: true
-    - name: Loss
-      type: loss
       value: 0.638882334422734
       verified: true
   - task:
       type: zero-shot-classification
       name: Zero-Shot Text Classification
@@ -69,14 +75,16 @@ model-index:
       config: inverse-scaling--hindsight-neglect-10shot
       split: train
     metrics:
-    - name: Accuracy
-      type: accuracy
       value: 0.4666666666666667
       verified: true
-    - name: Loss
-      type: loss
       value: 0.7550815605928027
       verified: true
   - task:
       type: zero-shot-classification
       name: Zero-Shot Text Classification
@@ -86,14 +94,16 @@ model-index:
       config: mathemakitten--winobias_antistereotype_test_cot_v3
       split: test
     metrics:
-    - name: Accuracy
-      type: accuracy
       value: 0.3737864077669903
       verified: true
-    - name: Loss
-      type: loss
       value: 1.2823651640752816
       verified: true
   - task:
       type: zero-shot-classification
       name: Zero-Shot Text Classification
@@ -103,14 +113,16 @@ model-index:
       config: mathemakitten--winobias_antistereotype_test_v5
       split: test
     metrics:
-    - name: Accuracy
-      type: accuracy
       value: 0.3859223300970874
       verified: true
-    - name: Loss
-      type: loss
       value: 1.295986159347468
       verified: true
 ---
 # OPT : Open Pre-trained Transformer Language Models

 ---
 language: en
+license: other
 tags:
 - text-generation
 - opt
+inference: false
 commercial: false
 model-index:
 - name: inverse-scaling/opt-6.7b_eval
       config: inverse-scaling--NeQA
       split: train
     metrics:
+    - type: accuracy
       value: 0.54
+      name: Accuracy
       verified: true
+      verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiOWE0ZjA1NDg0YjYzNTZhYjIwZDRhNDcxYjNiYTQ1YTY2YWQ1YTUzZmIyMTlmYTljMGJiNjAyNzc0YTNiYWFhNCIsInZlcnNpb24iOjF9.eWcHC6dzOjnuF-mT6Z2G8Z1xCoow6iViE1Qy-VNKMSzIcJZcvgkZI0NhU50YMi4tOOZN2k92MATtbXtcZR5yCQ
+    - type: loss
       value: 0.740270353704691
+      name: Loss
       verified: true
+      verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiNTY1M2ZlYTYzMjZhNTVmZjgyMWJiYmYxZGM2NjQxYjdlZDI3ZmZmODAxMTI5N2RmMjMyNzYzMWUxZTViNjM5YSIsInZlcnNpb24iOjF9.G3DqNVlNLP5uAmzOKa9hsxBBiSWXbrDesp3hIlQomYe2YsbWbYF0WssbFi7DXEu5hmj6yCN2E-olbEjzwZ2eBQ
   - task:
       type: zero-shot-classification
       name: Zero-Shot Text Classification
       config: inverse-scaling--quote-repetition
       split: train
     metrics:
+    - type: accuracy
       value: 0.86
+      name: Accuracy
       verified: true
+      verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiMzA0ZjJlZGUwOGNhNmE3MmMzMDY1YTM4ZjYzNDUwYjk1MTU2MmVhMGQzYjI3YzI0ZGMzMWFkODIyZWE5Mjk2ZCIsInZlcnNpb24iOjF9.pc3tzIMBv05ZBixkmRojnIzsdHLvYhZX_sJnNZ_t_oo61DrTUhYQYq3xikx8S5rIr5sWrLTbxWn3rAAXme0KAQ
+    - type: loss
       value: 0.22016974209290055
+      name: Loss
       verified: true
+      verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiOWE5Njk4OWQ5Mzg3ODljMWM3MzhiNjBhNTk5ZGJjMDU3ZTJlZDZjZjBjYzdkMmMxZTJlMTJkMjg1OTA5ZWQxNSIsInZlcnNpb24iOjF9.NubehOGlzEURMYuTkvqzXmf1ENadam7uZ62YA1nv1DjAivd8VySmpLl-QnnZLcDbhduMZbRp4lMQbWG9Z26LAg
   - task:
       type: zero-shot-classification
       name: Zero-Shot Text Classification
       config: inverse-scaling--redefine-math
       split: train
     metrics:
+    - type: accuracy
       value: 0.6733333333333333
+      name: Accuracy
       verified: true
+      verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiZTAyYjAwMzgyMDc2MmU1NDM0MmMyOWUyYzc3YTYxNzkyYzk2ZGZiMTk5NjlkODUwNDQ1NzFlMTU0Y2Y0ZGZlYSIsInZlcnNpb24iOjF9.VMxtPMY9qKk4eSjAlDb_jfg1nsf8eq1Oz5WnfUSC-VkXREQ6-f1qBooJc617t6U5apIbHnaW9XP3LTYrGzvUDQ
+    - type: loss
       value: 0.638882334422734
+      name: Loss
       verified: true
+      verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiNDYwNWVmZGM5ZmM2MmY0Y2IzYzNhOTNkZmU2YTA2MWZlZTU1ZGI2OTM1YzJiNjViNzMwMjA0Y2Q0ODBlYTgzOSIsInZlcnNpb24iOjF9.YJujmeEYbf4ZOJ0w_Q24d7t5ksKST35aweNJSk6UYuCiV6uSIJhJUz_w8iFwo9ykM-EOXamL87dftlkyawgtBw
   - task:
       type: zero-shot-classification
       name: Zero-Shot Text Classification
       config: inverse-scaling--hindsight-neglect-10shot
       split: train
     metrics:
+    - type: accuracy
       value: 0.4666666666666667
+      name: Accuracy
       verified: true
+      verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiYjVlMzdkYTUxZmI1ZDBmMDdjM2VhMjA1ZTg0MGYzMzU0NzFlN2JmNDY2NDc0MmVlMjI3MDg1Y2Q5MDRhYWU1ZCIsInZlcnNpb24iOjF9.Z01fwvvUFNOWeUWexSpdmAUPYJIsYUV-eb1ybSEjQ3cb9ow2STMVgxp0PqaDJMVWKg30xIkARahsg8ci6QpbBw
+    - type: loss
       value: 0.7550815605928027
+      name: Loss
       verified: true
+      verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiZWQyNmYwZjdkMTM1YjIxYzEwMmUwMWVlZTRjODQwYWExNDQ2MTgzYzA0ZTlkODcxYWIxMzdmNWE0NDdmNzcxYiIsInZlcnNpb24iOjF9.TtX2cKfatVMFX09l6DiuKFEa1vlDJUBPohSLmdQGh8QCTf-DrylUqARU8Ni5cSiSlidFF4n4IWIL0vQ941n6DQ
   - task:
       type: zero-shot-classification
       name: Zero-Shot Text Classification
       config: mathemakitten--winobias_antistereotype_test_cot_v3
       split: test
     metrics:
+    - type: accuracy
       value: 0.3737864077669903
+      name: Accuracy
       verified: true
+      verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiOTliMzU1NGIxMTUxYTM4NzVlYzI4YzljMDYyOWM1ZDdkMWMyNjIwOWQ4OGNhZWE3ZTljZGI0ZTA2ZWU3MjVmMiIsInZlcnNpb24iOjF9.dTlDpXOusgl6m3dn7XwfKeaxaVfU1VnEHWFeh7yBNSq5TyHPWbixlNumOWDjc-y9v8g0oWBXqWhT0KMQDaGVCQ
+    - type: loss
       value: 1.2823651640752816
+      name: Loss
       verified: true
+      verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiMTRjZmU4YWNkNGEwMjNlMGEyYjA1ZjhjOGE3OTZiZTJlYjMyMjViMTYyYWQ1YTdlMmM1ZjU5NTFhOWU3NzM1OCIsInZlcnNpb24iOjF9.yGmOME0MrX0moaU5c2WYf8H7CFfSGsPuQ2qp9MCi_es5RQRWoCHeCcR5oLQ4RATmVpYdzocPxqrbeZfqxVIOAQ
   - task:
       type: zero-shot-classification
       name: Zero-Shot Text Classification
       config: mathemakitten--winobias_antistereotype_test_v5
       split: test
     metrics:
+    - type: accuracy
       value: 0.3859223300970874
+      name: Accuracy
       verified: true
+      verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiNzZlZjIzNDM0Mzk5MmRlMTFlOWVlZjY3MDFmY2NhZjlkYWNmMWQ2MjdhOTg3YTg0OTI1YjY5YmYxMTc4YjYyOCIsInZlcnNpb24iOjF9.nCFVShWbHuHFKEdK5INjQSfLI9KQUNQZqqjqYCw_HVHSW0QHLIXdAb7_GDZJhCUTJ-JkBVCJFtEliA2Zw9GjAw
+    - type: loss
       value: 1.295986159347468
+      name: Loss
       verified: true
+      verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiYWE3ZjhmYzM3NjRhMjc3OGU5NWQzY2Q1NzA2ZDBjN2Q1YmZkYzdiMDBhMmY1ZDM5NmU2YzQ2ZGZmZmYyMzg5NiIsInZlcnNpb24iOjF9.2UzIpqw83YQdGOqTKKP7ywqpNdgCDkR36lhkbja6qFsKyQctcg4vZgLXfMSfufWf1G_9iXqY8r-JiZadMdK3Dg
 ---
 # OPT : Open Pre-trained Transformer Language Models