End of training

Files changed (5) hide show

README.md CHANGED Viewed

@@ -2,9 +2,15 @@
 license: apache-2.0
 base_model: alignment-handbook/zephyr-7b-sft-full
 tags:
 - trl
 - dpo
 - generated_from_trainer
 model-index:
 - name: zephyr-7b-dpo-full
   results: []
@@ -15,17 +21,17 @@ should probably proofread and complete it, then remove this comment. -->
 # zephyr-7b-dpo-full
-This model is a fine-tuned version of [alignment-handbook/zephyr-7b-sft-full](https://huggingface.co/alignment-handbook/zephyr-7b-sft-full) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.5000
-- Rewards/chosen: -2.3681
-- Rewards/rejected: -3.4811
 - Rewards/accuracies: 0.7695
-- Rewards/margins: 1.1129
-- Logps/rejected: -610.7911
-- Logps/chosen: -499.4172
-- Logits/rejected: -0.0390
-- Logits/chosen: -0.5081
 ## Model description

 license: apache-2.0
 base_model: alignment-handbook/zephyr-7b-sft-full
 tags:
+- alignment-handbook
 - trl
 - dpo
 - generated_from_trainer
+- trl
+- dpo
+- generated_from_trainer
+datasets:
+- HuggingFaceH4/ultrafeedback_binarized
 model-index:
 - name: zephyr-7b-dpo-full
   results: []
 # zephyr-7b-dpo-full
+This model is a fine-tuned version of [alignment-handbook/zephyr-7b-sft-full](https://huggingface.co/alignment-handbook/zephyr-7b-sft-full) on the HuggingFaceH4/ultrafeedback_binarized dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.4983
+- Rewards/chosen: -2.4880
+- Rewards/rejected: -3.6063
 - Rewards/accuracies: 0.7695
+- Rewards/margins: 1.1182
+- Logps/rejected: -623.3074
+- Logps/chosen: -511.4043
+- Logits/rejected: 0.0233
+- Logits/chosen: -0.4369
 ## Model description

all_results.json CHANGED Viewed

@@ -1,5 +1,18 @@
 {
     "epoch": 1.0,
     "train_loss": 0.535196884905444,
     "train_runtime": 3527.4214,
     "train_samples": 61135,

 {
     "epoch": 1.0,
+    "eval_logits/chosen": -0.43692123889923096,
+    "eval_logits/rejected": 0.023339029401540756,
+    "eval_logps/chosen": -511.4042663574219,
+    "eval_logps/rejected": -623.3074340820312,
+    "eval_loss": 0.49832019209861755,
+    "eval_rewards/accuracies": 0.76953125,
+    "eval_rewards/chosen": -2.488020420074463,
+    "eval_rewards/margins": 1.118230938911438,
+    "eval_rewards/rejected": -3.6062512397766113,
+    "eval_runtime": 42.6828,
+    "eval_samples": 2000,
+    "eval_samples_per_second": 46.857,
+    "eval_steps_per_second": 0.75,
     "train_loss": 0.535196884905444,
     "train_runtime": 3527.4214,
     "train_samples": 61135,

config.json CHANGED Viewed

@@ -21,6 +21,6 @@
   "tie_word_embeddings": false,
   "torch_dtype": "bfloat16",
   "transformers_version": "4.38.2",
-  "use_cache": false,
   "vocab_size": 32000
 }

   "tie_word_embeddings": false,
   "torch_dtype": "bfloat16",
   "transformers_version": "4.38.2",
+  "use_cache": true,
   "vocab_size": 32000
 }

eval_results.json ADDED Viewed

+{
+    "epoch": 1.0,
+    "eval_logits/chosen": -0.43692123889923096,
+    "eval_logits/rejected": 0.023339029401540756,
+    "eval_logps/chosen": -511.4042663574219,
+    "eval_logps/rejected": -623.3074340820312,
+    "eval_loss": 0.49832019209861755,
+    "eval_rewards/accuracies": 0.76953125,
+    "eval_rewards/chosen": -2.488020420074463,
+    "eval_rewards/margins": 1.118230938911438,
+    "eval_rewards/rejected": -3.6062512397766113,
+    "eval_runtime": 42.6828,
+    "eval_samples": 2000,
+    "eval_samples_per_second": 46.857,
+    "eval_steps_per_second": 0.75
+}

runs/Mar11_14-59-16_node-0/events.out.tfevents.1710198135.node-0.16413.1 ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:2f15a68e2eaadb637b18dc932a4db90560c6ba856003edcf2c46c44666d1381c
+size 828