jikaixuan
/

zephyr-7b

@@ -2,10 +2,13 @@
 license: apache-2.0
 library_name: peft
 tags:
 - trl
 - dpo
 - generated_from_trainer
 base_model: mistralai/Mistral-7B-v0.1
 model-index:
 - name: zephyr-7b
   results: []
@@ -16,19 +19,19 @@ should probably proofread and complete it, then remove this comment. -->
 # zephyr-7b
-This model is a fine-tuned version of [mistralai/Mistral-7B-v0.1](https://huggingface.co/mistralai/Mistral-7B-v0.1) on the None dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.6928
-- Rewards/chosen: -0.0288
-- Rewards/rejected: -0.1012
-- Rewards/accuracies: 0.3492
-- Rewards/margins: 0.0723
-- Logps/rejected: -85.5160
-- Logps/chosen: -71.7842
-- Logits/rejected: -2.1139
-- Logits/chosen: -2.1428
-- Use Label: 13461.3809
-- Pred Label: 5226.6191
 ## Model description

 license: apache-2.0
 library_name: peft
 tags:
+- alignment-handbook
 - trl
 - dpo
 - generated_from_trainer
 base_model: mistralai/Mistral-7B-v0.1
+datasets:
+- HuggingFaceH4/ultrafeedback_binarized
 model-index:
 - name: zephyr-7b
   results: []
 # zephyr-7b
+This model is a fine-tuned version of [alignment-handbook/zephyr-7b-sft-qlora](https://huggingface.co/alignment-handbook/zephyr-7b-sft-qlora) on the HuggingFaceH4/ultrafeedback_binarized dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.6928
+- Rewards/chosen: -0.0289
+- Rewards/rejected: -0.1011
+- Rewards/accuracies: 0.3532
+- Rewards/margins: 0.0722
+- Logps/rejected: -85.5050
+- Logps/chosen: -71.7912
+- Logits/rejected: -2.1148
+- Logits/chosen: -2.1436
+- Use Label: 14417.4287
+- Pred Label: 5654.5713
 ## Model description

all_results.json CHANGED Viewed

@@ -1,5 +1,20 @@
 {
     "epoch": 1.0,
     "train_loss": 0.692275420283772,
     "train_runtime": 20019.5915,
     "train_samples": 61135,

 {
     "epoch": 1.0,
+    "eval_logits/chosen": -2.1435508728027344,
+    "eval_logits/rejected": -2.114776372909546,
+    "eval_logps/chosen": -71.79116821289062,
+    "eval_logps/rejected": -85.50504302978516,
+    "eval_loss": 0.6928141117095947,
+    "eval_pred_label": 5654.5712890625,
+    "eval_rewards/accuracies": 0.3531745970249176,
+    "eval_rewards/chosen": -0.02890622988343239,
+    "eval_rewards/margins": 0.07216347008943558,
+    "eval_rewards/rejected": -0.10106971114873886,
+    "eval_runtime": 245.7902,
+    "eval_samples": 2000,
+    "eval_samples_per_second": 8.137,
+    "eval_steps_per_second": 0.256,
+    "eval_use_label": 14417.4287109375,
     "train_loss": 0.692275420283772,
     "train_runtime": 20019.5915,
     "train_samples": 61135,

eval_results.json CHANGED Viewed

@@ -1,18 +1,18 @@
 {
     "epoch": 1.0,
-    "eval_logits/chosen": -1.9401931762695312,
-    "eval_logits/rejected": -1.9123154878616333,
-    "eval_logps/chosen": -77.5232162475586,
-    "eval_logps/rejected": -95.19373321533203,
-    "eval_loss": 0.6917868852615356,
-    "eval_pred_label": 4738.58740234375,
-    "eval_rewards/accuracies": 0.3591269850730896,
-    "eval_rewards/chosen": -0.0862266793847084,
-    "eval_rewards/margins": 0.11172995716333389,
-    "eval_rewards/rejected": -0.19795666635036469,
-    "eval_runtime": 247.3331,
     "eval_samples": 2000,
-    "eval_samples_per_second": 8.086,
-    "eval_steps_per_second": 0.255,
-    "eval_use_label": 15333.4130859375
 }

 {
     "epoch": 1.0,
+    "eval_logits/chosen": -2.1435508728027344,
+    "eval_logits/rejected": -2.114776372909546,
+    "eval_logps/chosen": -71.79116821289062,
+    "eval_logps/rejected": -85.50504302978516,
+    "eval_loss": 0.6928141117095947,
+    "eval_pred_label": 5654.5712890625,
+    "eval_rewards/accuracies": 0.3531745970249176,
+    "eval_rewards/chosen": -0.02890622988343239,
+    "eval_rewards/margins": 0.07216347008943558,
+    "eval_rewards/rejected": -0.10106971114873886,
+    "eval_runtime": 245.7902,
     "eval_samples": 2000,
+    "eval_samples_per_second": 8.137,
+    "eval_steps_per_second": 0.256,
+    "eval_use_label": 14417.4287109375
 }