Minbyul
/

selfbiorag-7b-dpo-full-wo-live_qa-ep3

@@ -1,9 +1,15 @@
 ---
 base_model: dmis-lab/selfbiorag_7b
 tags:
 - trl
 - dpo
 - generated_from_trainer
 model-index:
 - name: selfbiorag-7b-dpo-full-wo-live_qa-ep3
   results: []
@@ -14,17 +20,17 @@ should probably proofread and complete it, then remove this comment. -->
 # selfbiorag-7b-dpo-full-wo-live_qa-ep3
-This model is a fine-tuned version of [dmis-lab/selfbiorag_7b](https://huggingface.co/dmis-lab/selfbiorag_7b) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.6502
-- Rewards/chosen: 0.1544
-- Rewards/rejected: 0.0500
 - Rewards/accuracies: 0.7273
-- Rewards/margins: 0.1043
-- Logps/rejected: -152.4127
-- Logps/chosen: -129.2778
-- Logits/rejected: -1.6898
-- Logits/chosen: -1.9159
 ## Model description

 ---
 base_model: dmis-lab/selfbiorag_7b
 tags:
+- alignment-handbook
 - trl
 - dpo
 - generated_from_trainer
+- trl
+- dpo
+- generated_from_trainer
+datasets:
+- HuggingFaceH4/ultrafeedback_binarized
 model-index:
 - name: selfbiorag-7b-dpo-full-wo-live_qa-ep3
   results: []
 # selfbiorag-7b-dpo-full-wo-live_qa-ep3
+This model is a fine-tuned version of [dmis-lab/selfbiorag_7b](https://huggingface.co/dmis-lab/selfbiorag_7b) on the HuggingFaceH4/ultrafeedback_binarized dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.6503
+- Rewards/chosen: 0.1533
+- Rewards/rejected: 0.0496
 - Rewards/accuracies: 0.7273
+- Rewards/margins: 0.1037
+- Logps/rejected: -152.4542
+- Logps/chosen: -129.3861
+- Logits/rejected: -1.6930
+- Logits/chosen: -1.9168
 ## Model description

all_results.json CHANGED Viewed

@@ -1,5 +1,18 @@
 {
     "epoch": 1.0,
     "train_loss": 0.6286900518214809,
     "train_runtime": 6365.7753,
     "train_samples": 28906,

 {
     "epoch": 1.0,
+    "eval_logits/chosen": -1.9167659282684326,
+    "eval_logits/rejected": -1.693016767501831,
+    "eval_logps/chosen": -129.38612365722656,
+    "eval_logps/rejected": -152.45419311523438,
+    "eval_loss": 0.6502523422241211,
+    "eval_rewards/accuracies": 0.7272727489471436,
+    "eval_rewards/chosen": 0.15327082574367523,
+    "eval_rewards/margins": 0.10365187376737595,
+    "eval_rewards/rejected": 0.04961895942687988,
+    "eval_runtime": 64.2131,
+    "eval_samples": 674,
+    "eval_samples_per_second": 10.496,
+    "eval_steps_per_second": 0.343,
     "train_loss": 0.6286900518214809,
     "train_runtime": 6365.7753,
     "train_samples": 28906,

config.json CHANGED Viewed

@@ -23,6 +23,6 @@
   "tie_word_embeddings": false,
   "torch_dtype": "bfloat16",
   "transformers_version": "4.39.0.dev0",
-  "use_cache": false,
   "vocab_size": 32016
 }

   "tie_word_embeddings": false,
   "torch_dtype": "bfloat16",
   "transformers_version": "4.39.0.dev0",
+  "use_cache": true,
   "vocab_size": 32016
 }

eval_results.json CHANGED Viewed

@@ -1,16 +1,16 @@
 {
-    "epoch": 3.0,
-    "eval_logits/chosen": -1.999770164489746,
-    "eval_logits/rejected": -1.969599723815918,
-    "eval_logps/chosen": -251.5510711669922,
-    "eval_logps/rejected": -106.80218505859375,
-    "eval_loss": 0.42463189363479614,
-    "eval_rewards/accuracies": 0.989130437374115,
-    "eval_rewards/chosen": 0.5567559599876404,
-    "eval_rewards/margins": 0.6965265870094299,
-    "eval_rewards/rejected": -0.13977064192295074,
-    "eval_runtime": 38.2309,
-    "eval_samples": 1445,
-    "eval_samples_per_second": 37.797,
-    "eval_steps_per_second": 0.602
 }

 {
+    "epoch": 1.0,
+    "eval_logits/chosen": -1.9167659282684326,
+    "eval_logits/rejected": -1.693016767501831,
+    "eval_logps/chosen": -129.38612365722656,
+    "eval_logps/rejected": -152.45419311523438,
+    "eval_loss": 0.6502523422241211,
+    "eval_rewards/accuracies": 0.7272727489471436,
+    "eval_rewards/chosen": 0.15327082574367523,
+    "eval_rewards/margins": 0.10365187376737595,
+    "eval_rewards/rejected": 0.04961895942687988,
+    "eval_runtime": 64.2131,
+    "eval_samples": 674,
+    "eval_samples_per_second": 10.496,
+    "eval_steps_per_second": 0.343
 }