Model save

Browse files

Files changed (9) hide show

README.md +1 -1
all_results.json +5 -5
model-00001-of-00003.safetensors +1 -1
model-00002-of-00003.safetensors +1 -1
model-00003-of-00003.safetensors +1 -1
runs/Jun11_20-45-25_n136-100-194/events.out.tfevents.1718110156.n136-100-194.3719830.0 +2 -2
train_results.json +5 -5
trainer_state.json +195 -255
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -32,7 +32,7 @@ More information needed
 ### Training hyperparameters
 The following hyperparameters were used during training:
-- learning_rate: 5e-07
 - train_batch_size: 8
 - eval_batch_size: 8
 - seed: 42

 ### Training hyperparameters
 The following hyperparameters were used during training:
+- learning_rate: 1e-08
 - train_batch_size: 8
 - eval_batch_size: 8
 - seed: 42

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 1.0,
-    "train_loss": 0.9975380127246564,
-    "train_runtime": 5482.1546,
-    "train_samples": 49998,
-    "train_samples_per_second": 9.12,
-    "train_steps_per_second": 0.036
 }

 {
     "epoch": 1.0,
+    "train_loss": 0.6950656716028849,
+    "train_runtime": 4446.5407,
+    "train_samples": 38445,
+    "train_samples_per_second": 8.646,
+    "train_steps_per_second": 0.034
 }

model-00001-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:47640a0478f2bcb7154d26393dc9ccd914f431fd8d23c33ec72d35f3d2adafe7
 size 4943178720

 version https://git-lfs.github.com/spec/v1
+oid sha256:babd17a2e7814d83995456444b46a193dadee60ab7f7c1b37c860038f0952005
 size 4943178720

model-00002-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:52f69274e88b49d66a73ddb87507cd1bc38954b506db2290b371231064d4f84e
 size 4999819336

 version https://git-lfs.github.com/spec/v1
+oid sha256:8a43edf0b9ec78db80fffc7ca6e3f6c0a1fe224c9898b090a4e4a3b7f5961b44
 size 4999819336

model-00003-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dd5168e074183b468a8f1504e1ee15cf17cb86551434001e60a29c90de0ac2d5
 size 4540532728

 version https://git-lfs.github.com/spec/v1
+oid sha256:4f79f70bd9e954c826d33d1d7340ad20c07ac0dc88ee52022ef706382edcab32
 size 4540532728

runs/Jun11_20-45-25_n136-100-194/events.out.tfevents.1718110156.n136-100-194.3719830.0 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:45ea4bec15ae790b1bcd703b701c8e94489e7b95a34a4b10b5b14cf736f95e55
-size 12315

 version https://git-lfs.github.com/spec/v1
+oid sha256:f85dfc6691a9f5ae892c7f4e4c4e0864a2e976e39837a0e7496c60ad0f111a48
+size 16085

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 1.0,
-    "train_loss": 0.9975380127246564,
-    "train_runtime": 5482.1546,
-    "train_samples": 49998,
-    "train_samples_per_second": 9.12,
-    "train_steps_per_second": 0.036
 }

 {
     "epoch": 1.0,
+    "train_loss": 0.6950656716028849,
+    "train_runtime": 4446.5407,
+    "train_samples": 38445,
+    "train_samples_per_second": 8.646,
+    "train_steps_per_second": 0.034
 }

trainer_state.json CHANGED Viewed

@@ -1,22 +1,22 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.9974424552429667,
   "eval_steps": 500,
-  "global_step": 195,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.01,
-      "grad_norm": 1310.024749740419,
-      "learning_rate": 2.5e-08,
-      "logits/chosen": -5.0504608154296875,
-      "logits/rejected": -5.35328483581543,
-      "logps/chosen": -242.7239990234375,
-      "logps/rejected": -185.90835571289062,
-      "loss": 0.6893,
       "rewards/accuracies": 0.0,
       "rewards/chosen": 0.0,
       "rewards/margins": 0.0,
@@ -24,302 +24,242 @@
       "step": 1
     },
     {
-      "epoch": 0.05,
-      "grad_norm": 1343.8700325036616,
-      "learning_rate": 2.5e-07,
-      "logits/chosen": -4.959235191345215,
-      "logits/rejected": -5.051504135131836,
-      "logps/chosen": -226.43630981445312,
-      "logps/rejected": -216.47547912597656,
-      "loss": 0.7205,
-      "rewards/accuracies": 0.4479166567325592,
-      "rewards/chosen": 0.07974544167518616,
-      "rewards/margins": 0.013408761471509933,
-      "rewards/rejected": 0.06633666902780533,
       "step": 10
     },
     {
-      "epoch": 0.1,
-      "grad_norm": 1443.7667771719773,
-      "learning_rate": 5e-07,
-      "logits/chosen": -4.906929969787598,
-      "logits/rejected": -5.0118937492370605,
-      "logps/chosen": -240.65188598632812,
-      "logps/rejected": -220.84378051757812,
-      "loss": 0.6926,
-      "rewards/accuracies": 0.612500011920929,
-      "rewards/chosen": 0.7429171204566956,
-      "rewards/margins": 1.1278517246246338,
-      "rewards/rejected": -0.38493460416793823,
       "step": 20
     },
     {
-      "epoch": 0.15,
-      "grad_norm": 1641.6770420153719,
-      "learning_rate": 4.959823971496574e-07,
-      "logits/chosen": -4.913812637329102,
-      "logits/rejected": -5.012935638427734,
-      "logps/chosen": -238.8269805908203,
-      "logps/rejected": -228.05404663085938,
-      "loss": 0.8116,
-      "rewards/accuracies": 0.6343749761581421,
-      "rewards/chosen": 1.8061437606811523,
-      "rewards/margins": 4.523256301879883,
-      "rewards/rejected": -2.7171127796173096,
       "step": 30
     },
     {
-      "epoch": 0.2,
-      "grad_norm": 1382.4291689510926,
-      "learning_rate": 4.840587176599343e-07,
-      "logits/chosen": -4.964416980743408,
-      "logits/rejected": -5.0027852058410645,
-      "logps/chosen": -249.1742706298828,
-      "logps/rejected": -235.87576293945312,
-      "loss": 0.9983,
-      "rewards/accuracies": 0.5531250238418579,
-      "rewards/chosen": 1.3685696125030518,
-      "rewards/margins": 4.053561210632324,
-      "rewards/rejected": -2.6849913597106934,
       "step": 40
     },
     {
-      "epoch": 0.26,
-      "grad_norm": 1428.1508779981239,
-      "learning_rate": 4.646121984004665e-07,
-      "logits/chosen": -4.990395545959473,
-      "logits/rejected": -5.134562015533447,
-      "logps/chosen": -251.7528076171875,
-      "logps/rejected": -226.17306518554688,
-      "loss": 0.9987,
-      "rewards/accuracies": 0.6468750238418579,
-      "rewards/chosen": 2.2698659896850586,
-      "rewards/margins": 5.616934299468994,
-      "rewards/rejected": -3.3470687866210938,
       "step": 50
     },
     {
-      "epoch": 0.31,
-      "grad_norm": 1429.7364912941882,
-      "learning_rate": 4.3826786650090273e-07,
-      "logits/chosen": -5.023388385772705,
-      "logits/rejected": -5.144254684448242,
-      "logps/chosen": -250.6563720703125,
-      "logps/rejected": -241.12484741210938,
-      "loss": 0.993,
-      "rewards/accuracies": 0.5843750238418579,
-      "rewards/chosen": 1.217611312866211,
-      "rewards/margins": 6.1895647048950195,
-      "rewards/rejected": -4.97195291519165,
       "step": 60
     },
     {
-      "epoch": 0.36,
-      "grad_norm": 1385.9054301583744,
-      "learning_rate": 4.058724504646834e-07,
-      "logits/chosen": -4.992190361022949,
-      "logits/rejected": -5.075345039367676,
-      "logps/chosen": -256.97406005859375,
-      "logps/rejected": -242.94003295898438,
-      "loss": 1.1539,
-      "rewards/accuracies": 0.606249988079071,
-      "rewards/chosen": 2.1734097003936768,
-      "rewards/margins": 5.453003883361816,
-      "rewards/rejected": -3.2795944213867188,
       "step": 70
     },
     {
-      "epoch": 0.41,
-      "grad_norm": 1267.3737422156325,
-      "learning_rate": 3.6846716561824967e-07,
-      "logits/chosen": -5.066686630249023,
-      "logits/rejected": -5.165375709533691,
-      "logps/chosen": -246.781982421875,
-      "logps/rejected": -232.3020477294922,
-      "loss": 1.1127,
-      "rewards/accuracies": 0.5562499761581421,
-      "rewards/chosen": 2.182149887084961,
-      "rewards/margins": 6.110042095184326,
-      "rewards/rejected": -3.927891492843628,
       "step": 80
     },
     {
-      "epoch": 0.46,
-      "grad_norm": 1414.9882610729042,
-      "learning_rate": 3.272542485937368e-07,
-      "logits/chosen": -5.056512355804443,
-      "logits/rejected": -5.19997501373291,
-      "logps/chosen": -236.23886108398438,
-      "logps/rejected": -219.4969940185547,
-      "loss": 1.1651,
-      "rewards/accuracies": 0.59375,
-      "rewards/chosen": 2.3071811199188232,
-      "rewards/margins": 4.593169212341309,
-      "rewards/rejected": -2.2859878540039062,
       "step": 90
     },
     {
-      "epoch": 0.51,
-      "grad_norm": 1730.7459110414102,
-      "learning_rate": 2.8355831645441387e-07,
-      "logits/chosen": -5.051321506500244,
-      "logits/rejected": -5.197503089904785,
-      "logps/chosen": -245.94680786132812,
-      "logps/rejected": -224.7979278564453,
-      "loss": 1.1049,
-      "rewards/accuracies": 0.643750011920929,
-      "rewards/chosen": 2.0447471141815186,
-      "rewards/margins": 3.989384412765503,
-      "rewards/rejected": -1.9446370601654053,
       "step": 100
     },
     {
-      "epoch": 0.56,
-      "grad_norm": 1376.721155787266,
-      "learning_rate": 2.3878379241237134e-07,
-      "logits/chosen": -5.05279541015625,
-      "logits/rejected": -5.2380499839782715,
-      "logps/chosen": -231.46408081054688,
-      "logps/rejected": -221.2686309814453,
-      "loss": 1.0653,
-      "rewards/accuracies": 0.637499988079071,
-      "rewards/chosen": 2.9433412551879883,
-      "rewards/margins": 7.433489799499512,
-      "rewards/rejected": -4.490148544311523,
       "step": 110
     },
     {
-      "epoch": 0.61,
-      "grad_norm": 1298.5481767381427,
-      "learning_rate": 1.9436976651092142e-07,
-      "logits/chosen": -4.989577293395996,
-      "logits/rejected": -5.143449306488037,
-      "logps/chosen": -250.3534698486328,
-      "logps/rejected": -237.04074096679688,
-      "loss": 1.0694,
-      "rewards/accuracies": 0.6343749761581421,
-      "rewards/chosen": 2.3243861198425293,
-      "rewards/margins": 8.470600128173828,
-      "rewards/rejected": -6.146214485168457,
       "step": 120
     },
     {
-      "epoch": 0.66,
-      "grad_norm": 1456.9702892975145,
-      "learning_rate": 1.517437420865191e-07,
-      "logits/chosen": -5.036610126495361,
-      "logits/rejected": -5.181552886962891,
-      "logps/chosen": -234.2519073486328,
-      "logps/rejected": -226.05050659179688,
-      "loss": 1.1374,
-      "rewards/accuracies": 0.612500011920929,
-      "rewards/chosen": 2.612969160079956,
-      "rewards/margins": 6.129396915435791,
-      "rewards/rejected": -3.516427516937256,
       "step": 130
     },
     {
-      "epoch": 0.72,
-      "grad_norm": 1414.11944634508,
-      "learning_rate": 1.1227575463697439e-07,
-      "logits/chosen": -5.011117458343506,
-      "logits/rejected": -5.0677995681762695,
-      "logps/chosen": -246.2405242919922,
-      "logps/rejected": -240.97647094726562,
-      "loss": 1.0012,
-      "rewards/accuracies": 0.6625000238418579,
-      "rewards/chosen": 2.1312901973724365,
-      "rewards/margins": 6.49268102645874,
-      "rewards/rejected": -4.361390590667725,
       "step": 140
     },
     {
-      "epoch": 0.77,
-      "grad_norm": 1391.6252979817953,
-      "learning_rate": 7.723433775328384e-08,
-      "logits/chosen": -5.031737327575684,
-      "logits/rejected": -5.141982078552246,
-      "logps/chosen": -247.31640625,
-      "logps/rejected": -245.01284790039062,
-      "loss": 1.0468,
-      "rewards/accuracies": 0.6625000238418579,
-      "rewards/chosen": 3.413778781890869,
-      "rewards/margins": 8.60617446899414,
-      "rewards/rejected": -5.19239616394043,
       "step": 150
     },
-    {
-      "epoch": 0.82,
-      "grad_norm": 1305.4800329449993,
-      "learning_rate": 4.774575140626316e-08,
-      "logits/chosen": -4.959289073944092,
-      "logits/rejected": -5.040767192840576,
-      "logps/chosen": -253.7027587890625,
-      "logps/rejected": -250.91659545898438,
-      "loss": 0.9992,
-      "rewards/accuracies": 0.6781250238418579,
-      "rewards/chosen": 3.046278476715088,
-      "rewards/margins": 8.344175338745117,
-      "rewards/rejected": -5.297896862030029,
-      "step": 160
-    },
-    {
-      "epoch": 0.87,
-      "grad_norm": 1228.1104796269808,
-      "learning_rate": 2.475778302439524e-08,
-      "logits/chosen": -5.096159934997559,
-      "logits/rejected": -5.178959369659424,
-      "logps/chosen": -251.2628631591797,
-      "logps/rejected": -233.06857299804688,
-      "loss": 1.0057,
-      "rewards/accuracies": 0.5843750238418579,
-      "rewards/chosen": 2.824694871902466,
-      "rewards/margins": 6.200740814208984,
-      "rewards/rejected": -3.3760459423065186,
-      "step": 170
-    },
-    {
-      "epoch": 0.92,
-      "grad_norm": 1348.827014256151,
-      "learning_rate": 9.009284826036689e-09,
-      "logits/chosen": -4.995651721954346,
-      "logits/rejected": -5.102165222167969,
-      "logps/chosen": -237.61990356445312,
-      "logps/rejected": -232.7886962890625,
-      "loss": 0.9321,
-      "rewards/accuracies": 0.659375011920929,
-      "rewards/chosen": 2.423119068145752,
-      "rewards/margins": 4.8792009353637695,
-      "rewards/rejected": -2.4560813903808594,
-      "step": 180
-    },
-    {
-      "epoch": 0.97,
-      "grad_norm": 1117.1672982866971,
-      "learning_rate": 1.0064265011902328e-09,
-      "logits/chosen": -5.071808815002441,
-      "logits/rejected": -5.110179901123047,
-      "logps/chosen": -236.14224243164062,
-      "logps/rejected": -233.5693359375,
-      "loss": 0.9891,
-      "rewards/accuracies": 0.640625,
-      "rewards/chosen": 1.8652112483978271,
-      "rewards/margins": 5.820201873779297,
-      "rewards/rejected": -3.9549899101257324,
-      "step": 190
-    },
     {
       "epoch": 1.0,
-      "step": 195,
       "total_flos": 0.0,
-      "train_loss": 0.9975380127246564,
-      "train_runtime": 5482.1546,
-      "train_samples_per_second": 9.12,
-      "train_steps_per_second": 0.036
     }
   ],
   "logging_steps": 10,
-  "max_steps": 195,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 100,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.9983361064891847,
   "eval_steps": 500,
+  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.01,
+      "grad_norm": 1142.1729750161728,
+      "learning_rate": 6.666666666666666e-10,
+      "logits/chosen": -4.106247425079346,
+      "logits/rejected": -4.200438499450684,
+      "logps/chosen": -382.81439208984375,
+      "logps/rejected": -357.65960693359375,
+      "loss": 0.685,
       "rewards/accuracies": 0.0,
       "rewards/chosen": 0.0,
       "rewards/margins": 0.0,
       "step": 1
     },
     {
+      "epoch": 0.07,
+      "grad_norm": 1162.0154294843069,
+      "learning_rate": 6.666666666666667e-09,
+      "logits/chosen": -4.2175726890563965,
+      "logits/rejected": -4.321321487426758,
+      "logps/chosen": -334.61383056640625,
+      "logps/rejected": -313.4597473144531,
+      "loss": 0.7288,
+      "rewards/accuracies": 0.4756944477558136,
+      "rewards/chosen": -0.016012493520975113,
+      "rewards/margins": 0.006440857890993357,
+      "rewards/rejected": -0.022453350946307182,
       "step": 10
     },
     {
+      "epoch": 0.13,
+      "grad_norm": 1254.20259356522,
+      "learning_rate": 9.966191788709716e-09,
+      "logits/chosen": -4.266871452331543,
+      "logits/rejected": -4.419375896453857,
+      "logps/chosen": -313.91156005859375,
+      "logps/rejected": -288.8208923339844,
+      "loss": 0.7239,
+      "rewards/accuracies": 0.512499988079071,
+      "rewards/chosen": 0.0004551798047032207,
+      "rewards/margins": 0.007867029868066311,
+      "rewards/rejected": -0.0074118501506745815,
       "step": 20
     },
     {
+      "epoch": 0.2,
+      "grad_norm": 1168.2123312853032,
+      "learning_rate": 9.698463103929542e-09,
+      "logits/chosen": -4.302128791809082,
+      "logits/rejected": -4.365870475769043,
+      "logps/chosen": -308.2377014160156,
+      "logps/rejected": -285.6295471191406,
+      "loss": 0.7344,
+      "rewards/accuracies": 0.5249999761581421,
+      "rewards/chosen": 0.019400831311941147,
+      "rewards/margins": 0.019786948338150978,
+      "rewards/rejected": -0.0003861159202642739,
       "step": 30
     },
     {
+      "epoch": 0.27,
+      "grad_norm": 1099.047513823573,
+      "learning_rate": 9.177439057064682e-09,
+      "logits/chosen": -4.187483310699463,
+      "logits/rejected": -4.270766735076904,
+      "logps/chosen": -332.38433837890625,
+      "logps/rejected": -307.4942321777344,
+      "loss": 0.7115,
+      "rewards/accuracies": 0.5406249761581421,
+      "rewards/chosen": 0.0541040301322937,
+      "rewards/margins": 0.07320869714021683,
+      "rewards/rejected": -0.01910465955734253,
       "step": 40
     },
     {
+      "epoch": 0.33,
+      "grad_norm": 1141.2520247434832,
+      "learning_rate": 8.431208189343668e-09,
+      "logits/chosen": -4.198305606842041,
+      "logits/rejected": -4.367269992828369,
+      "logps/chosen": -333.6199645996094,
+      "logps/rejected": -308.95989990234375,
+      "loss": 0.7163,
+      "rewards/accuracies": 0.4906249940395355,
+      "rewards/chosen": 0.06264184415340424,
+      "rewards/margins": -0.024443484842777252,
+      "rewards/rejected": 0.08708532154560089,
       "step": 50
     },
     {
+      "epoch": 0.4,
+      "grad_norm": 1099.3679350302498,
+      "learning_rate": 7.500000000000001e-09,
+      "logits/chosen": -4.187924385070801,
+      "logits/rejected": -4.2703022956848145,
+      "logps/chosen": -323.7719421386719,
+      "logps/rejected": -308.23748779296875,
+      "loss": 0.7118,
+      "rewards/accuracies": 0.515625,
+      "rewards/chosen": 0.11530591547489166,
+      "rewards/margins": 0.03647974878549576,
+      "rewards/rejected": 0.07882615178823471,
       "step": 60
     },
     {
+      "epoch": 0.47,
+      "grad_norm": 1096.6613245075011,
+      "learning_rate": 6.434016163555451e-09,
+      "logits/chosen": -4.1484785079956055,
+      "logits/rejected": -4.303661346435547,
+      "logps/chosen": -344.68658447265625,
+      "logps/rejected": -314.47064208984375,
+      "loss": 0.6973,
+      "rewards/accuracies": 0.5625,
+      "rewards/chosen": 0.1820925623178482,
+      "rewards/margins": 0.10691970586776733,
+      "rewards/rejected": 0.07517284899950027,
       "step": 70
     },
     {
+      "epoch": 0.53,
+      "grad_norm": 1050.1170453783911,
+      "learning_rate": 5.290724144552379e-09,
+      "logits/chosen": -4.223504543304443,
+      "logits/rejected": -4.3897480964660645,
+      "logps/chosen": -334.43511962890625,
+      "logps/rejected": -305.484375,
+      "loss": 0.6912,
+      "rewards/accuracies": 0.559374988079071,
+      "rewards/chosen": 0.20204909145832062,
+      "rewards/margins": 0.08096315711736679,
+      "rewards/rejected": 0.12108592689037323,
       "step": 80
     },
     {
+      "epoch": 0.6,
+      "grad_norm": 1080.8957995779926,
+      "learning_rate": 4.131759111665349e-09,
+      "logits/chosen": -4.228762626647949,
+      "logits/rejected": -4.349400997161865,
+      "logps/chosen": -327.1580810546875,
+      "logps/rejected": -307.87689208984375,
+      "loss": 0.674,
+      "rewards/accuracies": 0.550000011920929,
+      "rewards/chosen": 0.24468111991882324,
+      "rewards/margins": 0.05739554762840271,
+      "rewards/rejected": 0.18728554248809814,
       "step": 90
     },
     {
+      "epoch": 0.67,
+      "grad_norm": 1086.0982504773885,
+      "learning_rate": 3.0196011698042157e-09,
+      "logits/chosen": -4.210589408874512,
+      "logits/rejected": -4.420603275299072,
+      "logps/chosen": -320.5531311035156,
+      "logps/rejected": -289.7651062011719,
+      "loss": 0.6799,
+      "rewards/accuracies": 0.578125,
+      "rewards/chosen": 0.2572989761829376,
+      "rewards/margins": 0.10579316318035126,
+      "rewards/rejected": 0.15150579810142517,
       "step": 100
     },
     {
+      "epoch": 0.73,
+      "grad_norm": 1114.0041176823654,
+      "learning_rate": 2.0142070414860704e-09,
+      "logits/chosen": -4.225996971130371,
+      "logits/rejected": -4.2789506912231445,
+      "logps/chosen": -314.6085205078125,
+      "logps/rejected": -303.3541564941406,
+      "loss": 0.6851,
+      "rewards/accuracies": 0.546875,
+      "rewards/chosen": 0.27688390016555786,
+      "rewards/margins": 0.041596584022045135,
+      "rewards/rejected": 0.23528733849525452,
       "step": 110
     },
     {
+      "epoch": 0.8,
+      "grad_norm": 1097.8240578626694,
+      "learning_rate": 1.1697777844051105e-09,
+      "logits/chosen": -4.1503801345825195,
+      "logits/rejected": -4.306635856628418,
+      "logps/chosen": -338.7808837890625,
+      "logps/rejected": -313.2768249511719,
+      "loss": 0.6758,
+      "rewards/accuracies": 0.5874999761581421,
+      "rewards/chosen": 0.3373282849788666,
+      "rewards/margins": 0.1483292281627655,
+      "rewards/rejected": 0.18899908661842346,
       "step": 120
     },
     {
+      "epoch": 0.87,
+      "grad_norm": 1113.3294478605874,
+      "learning_rate": 5.318367983829391e-10,
+      "logits/chosen": -4.178295135498047,
+      "logits/rejected": -4.3724284172058105,
+      "logps/chosen": -323.9390563964844,
+      "logps/rejected": -304.91119384765625,
+      "loss": 0.6643,
+      "rewards/accuracies": 0.574999988079071,
+      "rewards/chosen": 0.340619832277298,
+      "rewards/margins": 0.12920674681663513,
+      "rewards/rejected": 0.21141307055950165,
       "step": 130
     },
     {
+      "epoch": 0.93,
+      "grad_norm": 1112.5811910392042,
+      "learning_rate": 1.3477564710088098e-10,
+      "logits/chosen": -4.293918609619141,
+      "logits/rejected": -4.359633445739746,
+      "logps/chosen": -307.56317138671875,
+      "logps/rejected": -297.0579833984375,
+      "loss": 0.6697,
+      "rewards/accuracies": 0.596875011920929,
+      "rewards/chosen": 0.34358957409858704,
+      "rewards/margins": 0.11470258235931396,
+      "rewards/rejected": 0.22888696193695068,
       "step": 140
     },
     {
+      "epoch": 1.0,
+      "grad_norm": 1082.9191655386894,
+      "learning_rate": 0.0,
+      "logits/chosen": -4.258730411529541,
+      "logits/rejected": -4.332475185394287,
+      "logps/chosen": -312.3280029296875,
+      "logps/rejected": -300.03082275390625,
+      "loss": 0.6661,
+      "rewards/accuracies": 0.574999988079071,
+      "rewards/chosen": 0.3249002993106842,
+      "rewards/margins": 0.10186745971441269,
+      "rewards/rejected": 0.2230328619480133,
       "step": 150
     },
     {
       "epoch": 1.0,
+      "step": 150,
       "total_flos": 0.0,
+      "train_loss": 0.6950656716028849,
+      "train_runtime": 4446.5407,
+      "train_samples_per_second": 8.646,
+      "train_steps_per_second": 0.034
     }
   ],
   "logging_steps": 10,
+  "max_steps": 150,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 100,

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:85d84aecf33b97eca429c3cb0dfe5821c88742011a5722789d687f715f23c666
 size 6264

 version https://git-lfs.github.com/spec/v1
+oid sha256:16edf0d5fed8efa4c443f7dad2dc6604d5b4bc312040d7965f4bee8ee9215478
 size 6264