nabeelshan
/

rlhf-gpt2-pipeline

Text Generation

reinforcement-learning

instruction-tuning

Model card Files Files and versions

nabeelshan commited on Sep 24

Commit

341dcc6

·

verified ·

1 Parent(s): 577cf9f

Update README.md

Files changed (1) hide show

README.md +52 -5

README.md CHANGED Viewed

@@ -17,12 +17,59 @@ tags:
 - instruction-tuning
 model-index:
-- name: sft_full_final
-  results: []
-- name: reward_model_final
-  results: []
 - name: ppo_aligned_final
-  results: []
 ---
 # RLHF-Aligned GPT-2 Pipeline Models

 - instruction-tuning
 model-index:
 - name: ppo_aligned_final
+  results:
+  - task:
+      type: text-generation
+    dataset:
+      type: Dahoas/synthetic-instruct-gptj-pairwise
+      name: Dahoas/synthetic-instruct-gptj-pairwise
+      split: evaluation
+    metrics:
+    - type: average_reward
+      value: 2.37
+      name: Average Reward Score
+    - type: rouge
+      value: 0.337
+      name: ROUGE-1
+    - type: rouge
+      value: 0.139
+      name: ROUGE-2
+    - type: rouge
+      value: 0.252
+      name: ROUGE-L
+- name: reward_model_final
+  results:
+  - task:
+      type: text-classification
+    dataset:
+      type: Dahoas/synthetic-instruct-gptj-pairwise
+      name: Dahoas/synthetic-instruct-gptj-pairwise
+      split: evaluation
+    metrics:
+    - type: accuracy
+      value: 0.98
+      name: Preference Accuracy
+- name: sft_full_final
+  results:
+  - task:
+      type: text-generation
+    dataset:
+      type: Dahoas/synthetic-instruct-gptj-pairwise
+      name: Dahoas/synthetic-instruct-gptj-pairwise
+      split: evaluation
+    metrics:
+    - type: rouge
+      value: 0.353
+      name: ROUGE-1
+    - type: rouge
+      value: 0.149
+      name: ROUGE-2
+    - type: rouge
+      value: 0.262
+      name: ROUGE-L
 ---
 # RLHF-Aligned GPT-2 Pipeline Models