LLM360
/

CrystalChat

@@ -27,152 +27,151 @@ datasets:
 - nickrosh/Evol-Instruct-Code-80k-v1
 - open-phi/textbooks
 - open-phi/programming_books_llama
 model-index:
 - name: CrystalChat
   results:
   - task:
-      type: text-generation             # Required. Example: automatic-speech-recognition
     dataset:
-      type: openai_humanneval          # Required. Example: common_voice. Use dataset id from https://hf.co/datasets
-      name: OpenAI HumanEval          # Required. A pretty name for the dataset. Example: Common Voice (French)
     metrics:
-      - name: pass@1 (t=0.01)
-        type: pass@1         # Required. Example: wer. Use metric id from https://hf.co/metrics
-        value: 31.707       # Required. Example: 41.148
-      - name: pass@10 (t=0.8)
-        type: pass@10
-        value: 65.755
   - task:
-      type: text-generation             # Required. Example: automatic-speech-recognition
     dataset:
-      type: mbpp          # Required. Example: common_voice. Use dataset id from https://hf.co/datasets
-      name: Mostly Basic Python Problems (mbpp)          # Required. A pretty name for the dataset. Example: Common Voice (French)
     metrics:
-      - name: pass@1 (t=0.01)
-        type: pass@1         # Required. Example: wer. Use metric id from https://hf.co/metrics
-        value: 39.4      # Required. Example: 41.148
-      - name: pass@10 (t=0.8)
-        type: pass@10
-        value: 59.895
   - task:
-      type: multiple-choice             # Required. Example: automatic-speech-recognition
     dataset:
-      type: race          # Required. Example: common_voice. Use dataset id from https://hf.co/datasets
-      name: RACE          # Required. A pretty name for the dataset. Example: Common Voice (French)
     metrics:
-      - name: accuracy
-        type: accuracy         # Required. Example: wer. Use metric id from https://hf.co/metrics
-        value: 41.148       # Required. Example: 41.148
   - task:
-      type: multiple-choice             # Required. Example: automatic-speech-recognition
     dataset:
-      type: mmlu          # Required. Example: common_voice. Use dataset id from https://hf.co/datasets
-      name: Measuring Massive Multitask Language Understanding (MMLU)          # Required. A pretty name for the dataset. Example: Common Voice (French)
     metrics:
-      - name: accuracy
-        type: accuracy         # Required. Example: wer. Use metric id from https://hf.co/metrics
-        value: 52.789       # Required. Example: 41.148
   - task:
-      type: multiple-choice             # Required. Example: automatic-speech-recognition
     dataset:
-      type: truthful_qa          # Required. Example: common_voice. Use dataset id from https://hf.co/datasets
-      name: Truthful QA          # Required. A pretty name for the dataset. Example: Common Voice (French)
     metrics:
-      - name: accuracy
-        type: accuracy         # Required. Example: wer. Use metric id from https://hf.co/metrics
-        value: 47.29       # Required. Example: 41.148
   - task:
-      type: multiple-choice             # Required. Example: automatic-speech-recognition
     dataset:
-      type:  winogrande         # Required. Example: common_voice. Use dataset id from https://hf.co/datasets
-      name:  Winogrande         # Required. A pretty name for the dataset. Example: Common Voice (French)
     metrics:
-      - name: accuracy (5 shot)
-        type: accuracy         # Required. Example: wer. Use metric id from https://hf.co/metrics
-        value: 70.639       # Required. Example: 41.148
-      - name: accuracy (0 shot)
-        type: accuracy         # Required. Example: wer. Use metric id from https://hf.co/metrics
-        value: 68.114       # Required. Example: 41.148
   - task:
-      type: multiple-choice             # Required. Example: automatic-speech-recognition
     dataset:
-      type:  copa         # Required. Example: common_voice. Use dataset id from https://hf.co/datasets
-      name:  COPA        # Required. A pretty name for the dataset. Example: Common Voice (French)
     metrics:
-      - name: accuracy
-        type: accuracy         # Required. Example: wer. Use metric id from https://hf.co/metrics
-        value: 85       # Required. Example: 41.148
   - task:
-      type: text-classification             # Required. Example: automatic-speech-recognition
     dataset:
-      type: boolq          # Required. Example: common_voice. Use dataset id from https://hf.co/datasets
-      name: Boolq         # Required. A pretty name for the dataset. Example: Common Voice (French)
     metrics:
-      - name: accuracy
-        type: accuracy         # Required. Example: wer. Use metric id from https://hf.co/metrics
-        value: 82.783      # Required. Example: 41.148
   - task:
-      type: question-answering             # Required. Example: automatic-speech-recognition
     dataset:
-      type: openbookqa          # Required. Example: common_voice. Use dataset id from https://hf.co/datasets
-      name: Openbook QA         # Required. A pretty name for the dataset. Example: Common Voice (French)
     metrics:
-      - name: accuracy
-        type: accuracy         # Required. Example: wer. Use metric id from https://hf.co/metrics
-        value: 42      # Required. Example: 41.148
   - task:
-      type: multiple-choice             # Required. Example: automatic-speech-recognition
     dataset:
-      type: hellaSwag	          # Required. Example: common_voice. Use dataset id from https://hf.co/datasets
-      name: HellaSwag	          # Required. A pretty name for the dataset. Example: Common Voice (French)
     metrics:
-      - name: accuracy (10-shot)
-        type: accuracy         # Required. Example: wer. Use metric id from https://hf.co/metrics
-        value: 76.12       # Required. Example: 41.148
-      - name: accuracy (0-shot)
-        type: accuracy         # Required. Example: wer. Use metric id from https://hf.co/metrics
-        value: 73.312       # Required. Example: 41.148
   - task:
-      type: question-answering             # Required. Example: automatic-speech-recognition
     dataset:
-      type: piqa	          # Required. Example: common_voice. Use dataset id from https://hf.co/datasets
-      name: PIQA	          # Required. A pretty name for the dataset. Example: Common Voice (French)
     metrics:
-      - name: accuracy
-        type: accuracy         # Required. Example: wer. Use metric id from https://hf.co/metrics
-        value: 77.856       # Required. Example: 41.148
   - task:
-      type: question-answering             # Required. Example: automatic-speech-recognition
     dataset:
-      type: ai2_arc	          # Required. Example: common_voice. Use dataset id from https://hf.co/datasets
-      name: ARC (Easy)	          # Required. A pretty name for the dataset. Example: Common Voice (French)
     metrics:
-      - name: accuracy
-        type: accuracy         # Required. Example: wer. Use metric id from https://hf.co/metrics
-        value: 70.328       # Required. Example: 41.148
   - task:
-      type: question-answering             # Required. Example: automatic-speech-recognition
     dataset:
-      type: ai2_arc	          # Required. Example: common_voice. Use dataset id from https://hf.co/datasets
-      name: ARC (Challenge)	          # Required. A pretty name for the dataset. Example: Common Voice (French)
     metrics:
-      - name: accuracy (25-shot)
-        type: accuracy         # Required. Example: wer. Use metric id from https://hf.co/metrics
-        value: 51.706       # Required. Example: 41.148
-      - name: accuracy (0-shot)
-        type: accuracy         # Required. Example: wer. Use metric id from https://hf.co/metrics
-        value: 44.625       # Required. Example: 41.148
   - task:
-      type: text-generation             # Required. Example: automatic-speech-recognition
     dataset:
-      type: gsm8k          # Required. Example: common_voice. Use dataset id from https://hf.co/datasets
-      name: GSM8K (Grade School Math 8K)          # Required. A pretty name for the dataset. Example: Common Voice (French)
     metrics:
-      - name: Accuracy (5 shot)
-        type: accuracy         # Required. Example: wer. Use metric id from https://hf.co/metrics
-        value: 28.052       # Required. Example: 41.148
 ---
 # CrystalChat

 - nickrosh/Evol-Instruct-Code-80k-v1
 - open-phi/textbooks
 - open-phi/programming_books_llama
+- LLM360/CrystalCoderDatasets
 model-index:
 - name: CrystalChat
   results:
   - task:
+      type: text-generation
     dataset:
+      type: openai_humanneval
+      name: OpenAI HumanEval
     metrics:
+    - name: pass@1 (t=0.01)
+      type: pass@1
+      value: 31.707
+    - name: pass@10 (t=0.8)
+      type: pass@10
+      value: 65.755
   - task:
+      type: text-generation
     dataset:
+      type: mbpp
+      name: Mostly Basic Python Problems (mbpp)
     metrics:
+    - name: pass@1 (t=0.01)
+      type: pass@1
+      value: 39.4
+    - name: pass@10 (t=0.8)
+      type: pass@10
+      value: 59.895
   - task:
+      type: multiple-choice
     dataset:
+      type: race
+      name: RACE
     metrics:
+    - name: accuracy
+      type: accuracy
+      value: 41.148
   - task:
+      type: multiple-choice
     dataset:
+      type: mmlu
+      name: Measuring Massive Multitask Language Understanding (MMLU)
     metrics:
+    - name: accuracy
+      type: accuracy
+      value: 52.789
   - task:
+      type: multiple-choice
     dataset:
+      type: truthful_qa
+      name: Truthful QA
     metrics:
+    - name: accuracy
+      type: accuracy
+      value: 47.29
   - task:
+      type: multiple-choice
     dataset:
+      type: winogrande
+      name: Winogrande
     metrics:
+    - name: accuracy (5 shot)
+      type: accuracy
+      value: 70.639
+    - name: accuracy (0 shot)
+      type: accuracy
+      value: 68.114
   - task:
+      type: multiple-choice
     dataset:
+      type: copa
+      name: COPA
     metrics:
+    - name: accuracy
+      type: accuracy
+      value: 85
   - task:
+      type: text-classification
     dataset:
+      type: boolq
+      name: Boolq
     metrics:
+    - name: accuracy
+      type: accuracy
+      value: 82.783
   - task:
+      type: question-answering
     dataset:
+      type: openbookqa
+      name: Openbook QA
     metrics:
+    - name: accuracy
+      type: accuracy
+      value: 42
   - task:
+      type: multiple-choice
     dataset:
+      type: hellaSwag
+      name: HellaSwag
     metrics:
+    - name: accuracy (10-shot)
+      type: accuracy
+      value: 76.12
+    - name: accuracy (0-shot)
+      type: accuracy
+      value: 73.312
   - task:
+      type: question-answering
     dataset:
+      type: piqa
+      name: PIQA
     metrics:
+    - name: accuracy
+      type: accuracy
+      value: 77.856
   - task:
+      type: question-answering
     dataset:
+      type: ai2_arc
+      name: ARC (Easy)
     metrics:
+    - name: accuracy
+      type: accuracy
+      value: 70.328
   - task:
+      type: question-answering
     dataset:
+      type: ai2_arc
+      name: ARC (Challenge)
     metrics:
+    - name: accuracy (25-shot)
+      type: accuracy
+      value: 51.706
+    - name: accuracy (0-shot)
+      type: accuracy
+      value: 44.625
   - task:
+      type: text-generation
     dataset:
+      type: gsm8k
+      name: GSM8K (Grade School Math 8K)
     metrics:
+    - name: Accuracy (5 shot)
+      type: accuracy
+      value: 28.052
 ---
 # CrystalChat