Model save

Browse files

Files changed (12) hide show

README.md +4 -4
all_results.json +6 -6
config.json +2 -2
generation_config.json +1 -1
model-00001-of-00003.safetensors +1 -1
model-00002-of-00003.safetensors +1 -1
model-00003-of-00003.safetensors +1 -1
runs/Jun05_23-14-01_n136-112-146/events.out.tfevents.1717600971.n136-112-146.144950.0 +2 -2
tokenizer.json +1 -0
train_results.json +6 -6
trainer_state.json +195 -237
training_args.bin +2 -2

README.md CHANGED Viewed

@@ -13,7 +13,7 @@ should probably proofread and complete it, then remove this comment. -->
 # zephyr-7b-dpo-full
-This model was trained from scratch on the None dataset.
 ## Model description
@@ -32,7 +32,7 @@ More information needed
 ### Training hyperparameters
 The following hyperparameters were used during training:
-- learning_rate: 5e-07
 - train_batch_size: 8
 - eval_batch_size: 8
 - seed: 42
@@ -52,7 +52,7 @@ The following hyperparameters were used during training:
 ### Framework versions
-- Transformers 4.41.1
 - Pytorch 2.1.2+cu118
-- Datasets 2.16.1
 - Tokenizers 0.19.1

 # zephyr-7b-dpo-full
+This model was trained from scratch on an unknown dataset.
 ## Model description
 ### Training hyperparameters
 The following hyperparameters were used during training:
+- learning_rate: 5e-08
 - train_batch_size: 8
 - eval_batch_size: 8
 - seed: 42
 ### Framework versions
+- Transformers 4.40.2
 - Pytorch 2.1.2+cu118
+- Datasets 2.19.1
 - Tokenizers 0.19.1

all_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 1.0,
     "total_flos": 0.0,
-    "train_loss": 0.4268451908656529,
-    "train_runtime": 5571.7779,
-    "train_samples": 44755,
-    "train_samples_per_second": 8.032,
-    "train_steps_per_second": 0.031
 }

 {
+    "epoch": 0.9984,
     "total_flos": 0.0,
+    "train_loss": 0.3884877807054764,
+    "train_runtime": 4677.6403,
+    "train_samples": 39942,
+    "train_samples_per_second": 8.539,
+    "train_steps_per_second": 0.033
 }

config.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "_name_or_path": "/mnt/bn/xuruijie-llm/checkpoints/new_world/v1-ultral",
   "architectures": [
     "MistralForCausalLM"
   ],
@@ -20,7 +20,7 @@
   "sliding_window": 4096,
   "tie_word_embeddings": false,
   "torch_dtype": "bfloat16",
-  "transformers_version": "4.38.2",
   "use_cache": false,
   "vocab_size": 32002
 }

 {
+  "_name_or_path": "/mnt/bn/xuruijie-llm/checkpoints/new_world/v1-distill-round2-0.5-lr58",
   "architectures": [
     "MistralForCausalLM"
   ],
   "sliding_window": 4096,
   "tie_word_embeddings": false,
   "torch_dtype": "bfloat16",
+  "transformers_version": "4.40.2",
   "use_cache": false,
   "vocab_size": 32002
 }

generation_config.json CHANGED Viewed

@@ -2,5 +2,5 @@
   "_from_model_config": true,
   "bos_token_id": 1,
   "eos_token_id": 32000,
-  "transformers_version": "4.41.1"
 }

   "_from_model_config": true,
   "bos_token_id": 1,
   "eos_token_id": 32000,
+  "transformers_version": "4.40.2"
 }

model-00001-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ee8452a398b257c4a92a8643d9b1dfe39769d290e7c90c76b86b619836911c45
 size 4943178720

 version https://git-lfs.github.com/spec/v1
+oid sha256:9dba7919b04fd1d70e11a29220f5eaf634bb315409f9a94f7a263955001973c6
 size 4943178720

model-00002-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ee6a898b9636aed352abe6efb776fc9d203259465cf8a6ffff1063f02fa01257
 size 4999819336

 version https://git-lfs.github.com/spec/v1
+oid sha256:a84b4be1c4d4aad2ce051a91acda1c33720055694a806a6fb36a24f1b682e2c3
 size 4999819336

model-00003-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f22fcd73a88b87f23b169dac783932266e459f67992280e6211fdc500dbf6a1d
 size 4540532728

 version https://git-lfs.github.com/spec/v1
+oid sha256:509b7c42a2681737189e49583a27d65db54dd70bda3ef6f8890b6b3e93dca2ff
 size 4540532728

runs/Jun05_23-14-01_n136-112-146/events.out.tfevents.1717600971.n136-112-146.144950.0 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6883c7dfa3a2614d7aa81b49faaa4c0dffd0e073132fd7768695d7d2f356efa9
-size 12459

 version https://git-lfs.github.com/spec/v1
+oid sha256:144d2d387ee490ada89e7fd4e62d2de93031ca38ce217daf8e837f480121d7d9
+size 16229

tokenizer.json CHANGED Viewed

@@ -152,6 +152,7 @@
     "end_of_word_suffix": null,
     "fuse_unk": true,
     "byte_fallback": true,
     "vocab": {
       "<unk>": 0,
       "<s>": 1,

     "end_of_word_suffix": null,
     "fuse_unk": true,
     "byte_fallback": true,
+    "ignore_merges": false,
     "vocab": {
       "<unk>": 0,
       "<s>": 1,

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 1.0,
     "total_flos": 0.0,
-    "train_loss": 0.4268451908656529,
-    "train_runtime": 5571.7779,
-    "train_samples": 44755,
-    "train_samples_per_second": 8.032,
-    "train_steps_per_second": 0.031
 }

 {
+    "epoch": 0.9984,
     "total_flos": 0.0,
+    "train_loss": 0.3884877807054764,
+    "train_runtime": 4677.6403,
+    "train_samples": 39942,
+    "train_samples_per_second": 8.539,
+    "train_steps_per_second": 0.033
 }

trainer_state.json CHANGED Viewed

@@ -1,21 +1,21 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.0,
   "eval_steps": 500,
-  "global_step": 175,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.005714285714285714,
-      "grad_norm": 1251.908438964567,
-      "learning_rate": 2.7777777777777774e-08,
-      "logits/chosen": -4.099947929382324,
-      "logits/rejected": -4.528928756713867,
-      "logps/chosen": -297.4884033203125,
-      "logps/rejected": -227.07449340820312,
       "loss": 0.6931,
       "rewards/accuracies": 0.0,
       "rewards/chosen": 0.0,
@@ -24,287 +24,245 @@
       "step": 1
     },
     {
-      "epoch": 0.05714285714285714,
-      "grad_norm": 1007.5595895273253,
-      "learning_rate": 2.7777777777777776e-07,
-      "logits/chosen": -4.256350040435791,
-      "logits/rejected": -4.503963947296143,
-      "logps/chosen": -316.07769775390625,
-      "logps/rejected": -254.57467651367188,
-      "loss": 0.6613,
-      "rewards/accuracies": 0.5034722089767456,
-      "rewards/chosen": 0.2096220850944519,
-      "rewards/margins": 0.15642070770263672,
-      "rewards/rejected": 0.0532013401389122,
       "step": 10
     },
     {
-      "epoch": 0.11428571428571428,
-      "grad_norm": 675.3841086149566,
-      "learning_rate": 4.997998237821233e-07,
-      "logits/chosen": -4.360010623931885,
-      "logits/rejected": -4.628513813018799,
-      "logps/chosen": -298.9122009277344,
-      "logps/rejected": -249.00918579101562,
-      "loss": 0.4212,
-      "rewards/accuracies": 0.800000011920929,
-      "rewards/chosen": 3.4100475311279297,
-      "rewards/margins": 2.592763900756836,
-      "rewards/rejected": 0.8172838091850281,
       "step": 20
     },
     {
-      "epoch": 0.17142857142857143,
-      "grad_norm": 675.1555265980924,
-      "learning_rate": 4.928272579403969e-07,
-      "logits/chosen": -4.373316287994385,
-      "logits/rejected": -4.6160383224487305,
-      "logps/chosen": -303.8053894042969,
-      "logps/rejected": -266.44818115234375,
-      "loss": 0.4762,
-      "rewards/accuracies": 0.824999988079071,
-      "rewards/chosen": 4.110724449157715,
-      "rewards/margins": 6.506677150726318,
-      "rewards/rejected": -2.3959527015686035,
       "step": 30
     },
     {
-      "epoch": 0.22857142857142856,
-      "grad_norm": 600.7834437052495,
-      "learning_rate": 4.7616414547743854e-07,
-      "logits/chosen": -4.35813045501709,
-      "logits/rejected": -4.55276346206665,
-      "logps/chosen": -289.32257080078125,
-      "logps/rejected": -250.25341796875,
-      "loss": 0.5303,
-      "rewards/accuracies": 0.8343750238418579,
-      "rewards/chosen": 3.9142494201660156,
-      "rewards/margins": 7.811418056488037,
-      "rewards/rejected": -3.897169589996338,
       "step": 40
     },
     {
-      "epoch": 0.2857142857142857,
-      "grad_norm": 788.2365830395779,
-      "learning_rate": 4.5047546391491e-07,
-      "logits/chosen": -4.276906967163086,
-      "logits/rejected": -4.5039567947387695,
-      "logps/chosen": -297.9548034667969,
-      "logps/rejected": -260.8029479980469,
-      "loss": 0.4673,
-      "rewards/accuracies": 0.8531249761581421,
-      "rewards/chosen": 4.0600905418396,
-      "rewards/margins": 7.4909186363220215,
-      "rewards/rejected": -3.430828094482422,
       "step": 50
     },
     {
-      "epoch": 0.34285714285714286,
-      "grad_norm": 715.3302112367288,
-      "learning_rate": 4.167863756189767e-07,
-      "logits/chosen": -4.322784900665283,
-      "logits/rejected": -4.564073085784912,
-      "logps/chosen": -293.1005554199219,
-      "logps/rejected": -254.21835327148438,
-      "loss": 0.4621,
-      "rewards/accuracies": 0.893750011920929,
-      "rewards/chosen": 5.134177207946777,
-      "rewards/margins": 7.875572204589844,
-      "rewards/rejected": -2.741394519805908,
       "step": 60
     },
     {
-      "epoch": 0.4,
-      "grad_norm": 633.4373267135044,
-      "learning_rate": 3.764413164801049e-07,
-      "logits/chosen": -4.282719612121582,
-      "logits/rejected": -4.559357643127441,
-      "logps/chosen": -287.670166015625,
-      "logps/rejected": -240.59359741210938,
-      "loss": 0.3978,
-      "rewards/accuracies": 0.8812500238418579,
-      "rewards/chosen": 4.107884407043457,
-      "rewards/margins": 7.409787654876709,
-      "rewards/rejected": -3.301903247833252,
       "step": 70
     },
     {
-      "epoch": 0.45714285714285713,
-      "grad_norm": 585.2050073161457,
-      "learning_rate": 3.3105034329273217e-07,
-      "logits/chosen": -4.1827239990234375,
-      "logits/rejected": -4.454409599304199,
-      "logps/chosen": -294.9931640625,
-      "logps/rejected": -253.04092407226562,
-      "loss": 0.4435,
-      "rewards/accuracies": 0.828125,
-      "rewards/chosen": 4.6706342697143555,
-      "rewards/margins": 7.3439764976501465,
-      "rewards/rejected": -2.67334246635437,
       "step": 80
     },
     {
-      "epoch": 0.5142857142857142,
-      "grad_norm": 744.3685065355755,
-      "learning_rate": 2.8242488095860204e-07,
-      "logits/chosen": -4.200292110443115,
-      "logits/rejected": -4.432915210723877,
-      "logps/chosen": -289.46466064453125,
-      "logps/rejected": -249.84048461914062,
-      "loss": 0.4059,
-      "rewards/accuracies": 0.8656250238418579,
-      "rewards/chosen": 5.276065349578857,
-      "rewards/margins": 7.3948163986206055,
-      "rewards/rejected": -2.118751287460327,
       "step": 90
     },
     {
-      "epoch": 0.5714285714285714,
-      "grad_norm": 671.6213883992457,
-      "learning_rate": 2.3250543366050071e-07,
-      "logits/chosen": -4.27265739440918,
-      "logits/rejected": -4.471877098083496,
-      "logps/chosen": -299.2139892578125,
-      "logps/rejected": -262.4172668457031,
-      "loss": 0.3587,
-      "rewards/accuracies": 0.8812500238418579,
-      "rewards/chosen": 5.20701265335083,
-      "rewards/margins": 7.200909614562988,
-      "rewards/rejected": -1.9938958883285522,
       "step": 100
     },
     {
-      "epoch": 0.6285714285714286,
-      "grad_norm": 731.7704645558294,
-      "learning_rate": 1.8328414484826743e-07,
-      "logits/chosen": -4.198658466339111,
-      "logits/rejected": -4.5151848793029785,
-      "logps/chosen": -299.356689453125,
-      "logps/rejected": -248.8483428955078,
-      "loss": 0.3809,
-      "rewards/accuracies": 0.893750011920929,
-      "rewards/chosen": 5.6889519691467285,
-      "rewards/margins": 7.738437652587891,
-      "rewards/rejected": -2.049485683441162,
       "step": 110
     },
     {
-      "epoch": 0.6857142857142857,
-      "grad_norm": 763.5659705732334,
-      "learning_rate": 1.3672529644823003e-07,
-      "logits/chosen": -4.348945140838623,
-      "logits/rejected": -4.604073524475098,
-      "logps/chosen": -269.67547607421875,
-      "logps/rejected": -229.8912811279297,
-      "loss": 0.3889,
       "rewards/accuracies": 0.8656250238418579,
-      "rewards/chosen": 4.305537700653076,
-      "rewards/margins": 6.874751091003418,
-      "rewards/rejected": -2.569213390350342,
       "step": 120
     },
     {
-      "epoch": 0.7428571428571429,
-      "grad_norm": 609.1110882142142,
-      "learning_rate": 9.468691994696146e-08,
-      "logits/chosen": -4.341274261474609,
-      "logits/rejected": -4.5989298820495605,
-      "logps/chosen": -275.35833740234375,
-      "logps/rejected": -245.8115692138672,
-      "loss": 0.3699,
-      "rewards/accuracies": 0.871874988079071,
-      "rewards/chosen": 4.084762096405029,
-      "rewards/margins": 6.567566871643066,
-      "rewards/rejected": -2.4828040599823,
       "step": 130
     },
     {
-      "epoch": 0.8,
-      "grad_norm": 833.6810153426302,
-      "learning_rate": 5.884664762850466e-08,
-      "logits/chosen": -4.367494106292725,
-      "logits/rejected": -4.598031044006348,
-      "logps/chosen": -273.83099365234375,
-      "logps/rejected": -237.6991729736328,
-      "loss": 0.381,
-      "rewards/accuracies": 0.8656250238418579,
-      "rewards/chosen": 4.479451656341553,
-      "rewards/margins": 6.597804069519043,
-      "rewards/rejected": -2.118351697921753,
       "step": 140
     },
     {
-      "epoch": 0.8571428571428571,
-      "grad_norm": 677.0337306190108,
-      "learning_rate": 3.063476303172388e-08,
-      "logits/chosen": -4.267864227294922,
-      "logits/rejected": -4.488691806793213,
-      "logps/chosen": -288.9342041015625,
-      "logps/rejected": -247.3463592529297,
-      "loss": 0.392,
-      "rewards/accuracies": 0.8843749761581421,
-      "rewards/chosen": 5.401379585266113,
-      "rewards/margins": 7.644896030426025,
-      "rewards/rejected": -2.2435173988342285,
       "step": 150
     },
     {
-      "epoch": 0.9142857142857143,
-      "grad_norm": 601.5321276048043,
-      "learning_rate": 1.1177122393998372e-08,
-      "logits/chosen": -4.331192970275879,
-      "logits/rejected": -4.530573844909668,
-      "logps/chosen": -277.52020263671875,
-      "logps/rejected": -243.84323120117188,
-      "loss": 0.363,
-      "rewards/accuracies": 0.8687499761581421,
-      "rewards/chosen": 4.819538593292236,
-      "rewards/margins": 6.703360080718994,
-      "rewards/rejected": -1.8838220834732056,
-      "step": 160
-    },
-    {
-      "epoch": 0.9714285714285714,
-      "grad_norm": 771.9761619985129,
-      "learning_rate": 1.2502249244298879e-09,
-      "logits/chosen": -4.293517112731934,
-      "logits/rejected": -4.548079013824463,
-      "logps/chosen": -295.1907653808594,
-      "logps/rejected": -248.191650390625,
-      "loss": 0.3693,
-      "rewards/accuracies": 0.8843749761581421,
-      "rewards/chosen": 4.456015586853027,
-      "rewards/margins": 6.605706214904785,
-      "rewards/rejected": -2.1496901512145996,
-      "step": 170
-    },
-    {
-      "epoch": 1.0,
-      "step": 175,
       "total_flos": 0.0,
-      "train_loss": 0.4268451908656529,
-      "train_runtime": 5571.7779,
-      "train_samples_per_second": 8.032,
-      "train_steps_per_second": 0.031
     }
   ],
   "logging_steps": 10,
-  "max_steps": 175,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 100,
-  "stateful_callbacks": {
-    "TrainerControl": {
-      "args": {
-        "should_epoch_stop": false,
-        "should_evaluate": false,
-        "should_log": false,
-        "should_save": true,
-        "should_training_stop": false
-      },
-      "attributes": {}
-    }
-  },
   "total_flos": 0.0,
   "train_batch_size": 8,
   "trial_name": null,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.9984,
   "eval_steps": 500,
+  "global_step": 156,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.0064,
+      "grad_norm": 1341.8773394764246,
+      "learning_rate": 3.125e-09,
+      "logits/chosen": -3.9499800205230713,
+      "logits/rejected": -4.237819194793701,
+      "logps/chosen": -300.693115234375,
+      "logps/rejected": -249.96307373046875,
       "loss": 0.6931,
       "rewards/accuracies": 0.0,
       "rewards/chosen": 0.0,
       "step": 1
     },
     {
+      "epoch": 0.064,
+      "grad_norm": 1342.2810836893796,
+      "learning_rate": 3.125e-08,
+      "logits/chosen": -4.129705905914307,
+      "logits/rejected": -4.352028846740723,
+      "logps/chosen": -351.5079650878906,
+      "logps/rejected": -308.8138427734375,
+      "loss": 0.7326,
+      "rewards/accuracies": 0.3680555522441864,
+      "rewards/chosen": -0.04078766331076622,
+      "rewards/margins": -0.11378024518489838,
+      "rewards/rejected": 0.07299260050058365,
       "step": 10
     },
     {
+      "epoch": 0.128,
+      "grad_norm": 1252.3965895279962,
+      "learning_rate": 4.9899357349880975e-08,
+      "logits/chosen": -4.194980144500732,
+      "logits/rejected": -4.382790565490723,
+      "logps/chosen": -334.9039001464844,
+      "logps/rejected": -293.8416748046875,
+      "loss": 0.683,
+      "rewards/accuracies": 0.581250011920929,
+      "rewards/chosen": 0.22410114109516144,
+      "rewards/margins": 0.11712154000997543,
+      "rewards/rejected": 0.10697959363460541,
       "step": 20
     },
     {
+      "epoch": 0.192,
+      "grad_norm": 904.3776918610464,
+      "learning_rate": 4.877641290737884e-08,
+      "logits/chosen": -4.230466365814209,
+      "logits/rejected": -4.363996505737305,
+      "logps/chosen": -327.71453857421875,
+      "logps/rejected": -295.3287658691406,
+      "loss": 0.5498,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": 0.9708820581436157,
+      "rewards/margins": 0.5084127187728882,
+      "rewards/rejected": 0.46246927976608276,
       "step": 30
     },
     {
+      "epoch": 0.256,
+      "grad_norm": 894.6327423356746,
+      "learning_rate": 4.646121984004665e-08,
+      "logits/chosen": -4.1493096351623535,
+      "logits/rejected": -4.351648807525635,
+      "logps/chosen": -330.09368896484375,
+      "logps/rejected": -288.2974853515625,
+      "loss": 0.4125,
+      "rewards/accuracies": 0.8218749761581421,
+      "rewards/chosen": 1.9414455890655518,
+      "rewards/margins": 1.1434320211410522,
+      "rewards/rejected": 0.7980135083198547,
       "step": 40
     },
     {
+      "epoch": 0.32,
+      "grad_norm": 706.4309708182283,
+      "learning_rate": 4.3069871595684784e-08,
+      "logits/chosen": -4.244365215301514,
+      "logits/rejected": -4.423664093017578,
+      "logps/chosen": -329.6412353515625,
+      "logps/rejected": -291.22528076171875,
+      "loss": 0.3694,
+      "rewards/accuracies": 0.840624988079071,
+      "rewards/chosen": 2.6057987213134766,
+      "rewards/margins": 1.537340521812439,
+      "rewards/rejected": 1.068458080291748,
       "step": 50
     },
     {
+      "epoch": 0.384,
+      "grad_norm": 679.6447682422123,
+      "learning_rate": 3.8772424536302564e-08,
+      "logits/chosen": -4.262530326843262,
+      "logits/rejected": -4.4340620040893555,
+      "logps/chosen": -320.7197570800781,
+      "logps/rejected": -291.15264892578125,
+      "loss": 0.3459,
+      "rewards/accuracies": 0.8343750238418579,
+      "rewards/chosen": 3.022132158279419,
+      "rewards/margins": 1.8344866037368774,
+      "rewards/rejected": 1.187645673751831,
       "step": 60
     },
     {
+      "epoch": 0.448,
+      "grad_norm": 600.9568341116722,
+      "learning_rate": 3.378437060203357e-08,
+      "logits/chosen": -4.188047885894775,
+      "logits/rejected": -4.377224445343018,
+      "logps/chosen": -320.23345947265625,
+      "logps/rejected": -288.5027770996094,
+      "loss": 0.3189,
+      "rewards/accuracies": 0.8187500238418579,
+      "rewards/chosen": 3.3037331104278564,
+      "rewards/margins": 2.1254096031188965,
+      "rewards/rejected": 1.1783230304718018,
       "step": 70
     },
     {
+      "epoch": 0.512,
+      "grad_norm": 654.7049863576665,
+      "learning_rate": 2.8355831645441387e-08,
+      "logits/chosen": -4.0522565841674805,
+      "logits/rejected": -4.341280937194824,
+      "logps/chosen": -345.8344421386719,
+      "logps/rejected": -307.4328918457031,
+      "loss": 0.3105,
+      "rewards/accuracies": 0.8999999761581421,
+      "rewards/chosen": 3.7246456146240234,
+      "rewards/margins": 2.5337729454040527,
+      "rewards/rejected": 1.1908724308013916,
       "step": 80
     },
     {
+      "epoch": 0.576,
+      "grad_norm": 638.1282144295093,
+      "learning_rate": 2.2759017277414164e-08,
+      "logits/chosen": -4.180428504943848,
+      "logits/rejected": -4.390549659729004,
+      "logps/chosen": -332.82275390625,
+      "logps/rejected": -295.1810607910156,
+      "loss": 0.3099,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": 3.2552542686462402,
+      "rewards/margins": 2.3172354698181152,
+      "rewards/rejected": 0.9380186796188354,
       "step": 90
     },
     {
+      "epoch": 0.64,
+      "grad_norm": 680.3285346474286,
+      "learning_rate": 1.7274575140626317e-08,
+      "logits/chosen": -4.167009353637695,
+      "logits/rejected": -4.386021614074707,
+      "logps/chosen": -330.049560546875,
+      "logps/rejected": -285.8011169433594,
+      "loss": 0.3123,
+      "rewards/accuracies": 0.8843749761581421,
+      "rewards/chosen": 3.6218514442443848,
+      "rewards/margins": 2.723836898803711,
+      "rewards/rejected": 0.8980148434638977,
       "step": 100
     },
     {
+      "epoch": 0.704,
+      "grad_norm": 616.2712616857408,
+      "learning_rate": 1.217751806485235e-08,
+      "logits/chosen": -4.145500183105469,
+      "logits/rejected": -4.386542320251465,
+      "logps/chosen": -311.7583923339844,
+      "logps/rejected": -276.3233947753906,
+      "loss": 0.3022,
+      "rewards/accuracies": 0.8843749761581421,
+      "rewards/chosen": 3.584909439086914,
+      "rewards/margins": 2.6118006706237793,
+      "rewards/rejected": 0.9731090664863586,
       "step": 110
     },
     {
+      "epoch": 0.768,
+      "grad_norm": 649.1888991009114,
+      "learning_rate": 7.723433775328384e-09,
+      "logits/chosen": -4.141805171966553,
+      "logits/rejected": -4.35054874420166,
+      "logps/chosen": -325.5559997558594,
+      "logps/rejected": -280.5980529785156,
+      "loss": 0.3033,
       "rewards/accuracies": 0.8656250238418579,
+      "rewards/chosen": 3.6838138103485107,
+      "rewards/margins": 2.6417319774627686,
+      "rewards/rejected": 1.0420820713043213,
       "step": 120
     },
     {
+      "epoch": 0.832,
+      "grad_norm": 747.4298760038148,
+      "learning_rate": 4.135668656967433e-09,
+      "logits/chosen": -4.228358268737793,
+      "logits/rejected": -4.38976526260376,
+      "logps/chosen": -331.02642822265625,
+      "logps/rejected": -286.7439880371094,
+      "loss": 0.3064,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": 3.7264277935028076,
+      "rewards/margins": 2.6530587673187256,
+      "rewards/rejected": 1.073369026184082,
       "step": 130
     },
     {
+      "epoch": 0.896,
+      "grad_norm": 697.5841535989922,
+      "learning_rate": 1.5941282340065698e-09,
+      "logits/chosen": -4.18213415145874,
+      "logits/rejected": -4.3970947265625,
+      "logps/chosen": -332.56500244140625,
+      "logps/rejected": -303.63543701171875,
+      "loss": 0.3069,
+      "rewards/accuracies": 0.856249988079071,
+      "rewards/chosen": 3.5617058277130127,
+      "rewards/margins": 2.6050186157226562,
+      "rewards/rejected": 0.9566874504089355,
       "step": 140
     },
     {
+      "epoch": 0.96,
+      "grad_norm": 567.1610784183449,
+      "learning_rate": 2.262559558016325e-10,
+      "logits/chosen": -4.118973731994629,
+      "logits/rejected": -4.348026752471924,
+      "logps/chosen": -339.0107116699219,
+      "logps/rejected": -295.09564208984375,
+      "loss": 0.3078,
+      "rewards/accuracies": 0.8656250238418579,
+      "rewards/chosen": 3.7477049827575684,
+      "rewards/margins": 2.61022686958313,
+      "rewards/rejected": 1.1374781131744385,
       "step": 150
     },
     {
+      "epoch": 0.9984,
+      "step": 156,
       "total_flos": 0.0,
+      "train_loss": 0.3884877807054764,
+      "train_runtime": 4677.6403,
+      "train_samples_per_second": 8.539,
+      "train_steps_per_second": 0.033
     }
   ],
   "logging_steps": 10,
+  "max_steps": 156,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 100,
   "total_flos": 0.0,
   "train_batch_size": 8,
   "trial_name": null,

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b92372e760a727f6582979303a96b389cee04d00a2f4a6c534c36c4b19bfdc3f
-size 6264

 version https://git-lfs.github.com/spec/v1
+oid sha256:44368936e8a5f160f38c764acd78a1ed87cb99f1b31bc5a44994e052788c660a
+size 6392