jamesoneill12
/

outputs-dpo

@@ -1,9 +1,15 @@
 ---
 base_model: dynamofl/dynamo-1.6B-v0.4-mosaic
 tags:
 - trl
 - dpo
 - generated_from_trainer
 model-index:
 - name: outputs-dpo
   results: []
@@ -14,7 +20,17 @@ should probably proofread and complete it, then remove this comment. -->
 # outputs-dpo
-This model is a fine-tuned version of [dynamofl/dynamo-1.6B-v0.4-mosaic](https://huggingface.co/dynamofl/dynamo-1.6B-v0.4-mosaic) on the None dataset.
 ## Model description

 ---
 base_model: dynamofl/dynamo-1.6B-v0.4-mosaic
 tags:
+- alignment-handbook
 - trl
 - dpo
 - generated_from_trainer
+- trl
+- dpo
+- generated_from_trainer
+datasets:
+- snorkelai/Snorkel-Mistral-PairRM-DPO-Dataset
 model-index:
 - name: outputs-dpo
   results: []
 # outputs-dpo
+This model is a fine-tuned version of [dynamofl/dynamo-1.6B-v0.4-mosaic](https://huggingface.co/dynamofl/dynamo-1.6B-v0.4-mosaic) on the snorkelai/Snorkel-Mistral-PairRM-DPO-Dataset dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.5811
+- Rewards/chosen: -0.5596
+- Rewards/rejected: -0.9329
+- Rewards/accuracies: 0.7964
+- Rewards/margins: 0.3733
+- Logps/rejected: -549.6418
+- Logps/chosen: -503.2280
+- Logits/rejected: 15.4763
+- Logits/chosen: 15.8957
 ## Model description

all_results.json CHANGED Viewed

@@ -1,5 +1,18 @@
 {
     "epoch": 9.95,
     "train_loss": 0.6235497470890603,
     "train_runtime": 23319.902,
     "train_samples": 19766,

 {
     "epoch": 9.95,
+    "eval_logits/chosen": 15.895672798156738,
+    "eval_logits/rejected": 15.476293563842773,
+    "eval_logps/chosen": -503.22802734375,
+    "eval_logps/rejected": -549.6417846679688,
+    "eval_loss": 0.581115186214447,
+    "eval_rewards/accuracies": 0.796407163143158,
+    "eval_rewards/chosen": -0.5595874786376953,
+    "eval_rewards/margins": 0.3732680380344391,
+    "eval_rewards/rejected": -0.932855486869812,
+    "eval_runtime": 55.3448,
+    "eval_samples": 994,
+    "eval_samples_per_second": 18.069,
+    "eval_steps_per_second": 3.017,
     "train_loss": 0.6235497470890603,
     "train_runtime": 23319.902,
     "train_samples": 19766,

config.json CHANGED Viewed

@@ -25,6 +25,6 @@
   "torch_dtype": "bfloat16",
   "transformers_version": "4.37.0",
   "unsloth_version": "2024.3",
-  "use_cache": false,
   "vocab_size": 161024
 }

   "torch_dtype": "bfloat16",
   "transformers_version": "4.37.0",
   "unsloth_version": "2024.3",
+  "use_cache": true,
   "vocab_size": 161024
 }

eval_results.json ADDED Viewed

+{
+    "epoch": 9.95,
+    "eval_logits/chosen": 15.895672798156738,
+    "eval_logits/rejected": 15.476293563842773,
+    "eval_logps/chosen": -503.22802734375,
+    "eval_logps/rejected": -549.6417846679688,
+    "eval_loss": 0.581115186214447,
+    "eval_rewards/accuracies": 0.796407163143158,
+    "eval_rewards/chosen": -0.5595874786376953,
+    "eval_rewards/margins": 0.3732680380344391,
+    "eval_rewards/rejected": -0.932855486869812,
+    "eval_runtime": 55.3448,
+    "eval_samples": 994,
+    "eval_samples_per_second": 18.069,
+    "eval_steps_per_second": 3.017
+}