Model save

Browse files

Files changed (10) hide show

README.md +2 -2
all_results.json +5 -5
generation_config.json +1 -1
model-00001-of-00003.safetensors +1 -1
model-00002-of-00003.safetensors +1 -1
model-00003-of-00003.safetensors +1 -1
runs/Jun14_02-05-29_n136-100-194/events.out.tfevents.1718302064.n136-100-194.643461.0 +2 -2
train_results.json +5 -5
trainer_state.json +240 -195
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -32,7 +32,7 @@ More information needed
 ### Training hyperparameters
 The following hyperparameters were used during training:
-- learning_rate: 1e-08
 - train_batch_size: 8
 - eval_batch_size: 8
 - seed: 42
@@ -52,7 +52,7 @@ The following hyperparameters were used during training:
 ### Framework versions
-- Transformers 4.38.2
 - Pytorch 2.1.2+cu118
 - Datasets 2.16.1
 - Tokenizers 0.15.2

 ### Training hyperparameters
 The following hyperparameters were used during training:
+- learning_rate: 3e-07
 - train_batch_size: 8
 - eval_batch_size: 8
 - seed: 42
 ### Framework versions
+- Transformers 4.39.3
 - Pytorch 2.1.2+cu118
 - Datasets 2.16.1
 - Tokenizers 0.15.2

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 1.0,
-    "train_loss": 0.6950656716028849,
-    "train_runtime": 4446.5407,
-    "train_samples": 38445,
-    "train_samples_per_second": 8.646,
-    "train_steps_per_second": 0.034
 }

 {
     "epoch": 1.0,
+    "train_loss": 1.3861158726707337,
+    "train_runtime": 5367.071,
+    "train_samples": 48530,
+    "train_samples_per_second": 9.042,
+    "train_steps_per_second": 0.035
 }

generation_config.json CHANGED Viewed

@@ -2,5 +2,5 @@
   "_from_model_config": true,
   "bos_token_id": 1,
   "eos_token_id": 32000,
-  "transformers_version": "4.38.2"
 }

   "_from_model_config": true,
   "bos_token_id": 1,
   "eos_token_id": 32000,
+  "transformers_version": "4.39.3"
 }

model-00001-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:babd17a2e7814d83995456444b46a193dadee60ab7f7c1b37c860038f0952005
 size 4943178720

 version https://git-lfs.github.com/spec/v1
+oid sha256:8b368d145612a34ed994ad48082d9b257146213f25c1ebd309358d2894fc8166
 size 4943178720

model-00002-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8a43edf0b9ec78db80fffc7ca6e3f6c0a1fe224c9898b090a4e4a3b7f5961b44
 size 4999819336

 version https://git-lfs.github.com/spec/v1
+oid sha256:9b56652344c4b8a4db7f423c746179279fd145c51c280f7981952f11f7b406de
 size 4999819336

model-00003-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4f79f70bd9e954c826d33d1d7340ad20c07ac0dc88ee52022ef706382edcab32
 size 4540532728

 version https://git-lfs.github.com/spec/v1
+oid sha256:76a444457bdcf58fff4f2801fa8105c617087ad5220718bb0eb8c51ce71f1022
 size 4540532728

runs/Jun14_02-05-29_n136-100-194/events.out.tfevents.1718302064.n136-100-194.643461.0 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:60cbc7fd1e3658854d1f653d4a0e4675dbfaeb7af36c3221d341e6ce9a941072
-size 12339

 version https://git-lfs.github.com/spec/v1
+oid sha256:51b1aeb1055493e96a48a15605d2fe768213e463fe5c236032745b917039c655
+size 18173

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 1.0,
-    "train_loss": 0.6950656716028849,
-    "train_runtime": 4446.5407,
-    "train_samples": 38445,
-    "train_samples_per_second": 8.646,
-    "train_steps_per_second": 0.034
 }

 {
     "epoch": 1.0,
+    "train_loss": 1.3861158726707337,
+    "train_runtime": 5367.071,
+    "train_samples": 48530,
+    "train_samples_per_second": 9.042,
+    "train_steps_per_second": 0.035
 }

trainer_state.json CHANGED Viewed

@@ -1,22 +1,22 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.9983361064891847,
   "eval_steps": 500,
-  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.01,
-      "grad_norm": 1142.1729750161728,
-      "learning_rate": 6.666666666666666e-10,
-      "logits/chosen": -4.106247425079346,
-      "logits/rejected": -4.200438499450684,
-      "logps/chosen": -382.81439208984375,
-      "logps/rejected": -357.65960693359375,
-      "loss": 0.685,
       "rewards/accuracies": 0.0,
       "rewards/chosen": 0.0,
       "rewards/margins": 0.0,
@@ -24,242 +24,287 @@
       "step": 1
     },
     {
-      "epoch": 0.07,
-      "grad_norm": 1162.0154294843069,
-      "learning_rate": 6.666666666666667e-09,
-      "logits/chosen": -4.2175726890563965,
-      "logits/rejected": -4.321321487426758,
-      "logps/chosen": -334.61383056640625,
-      "logps/rejected": -313.4597473144531,
-      "loss": 0.7288,
-      "rewards/accuracies": 0.4756944477558136,
-      "rewards/chosen": -0.016012493520975113,
-      "rewards/margins": 0.006440857890993357,
-      "rewards/rejected": -0.022453350946307182,
       "step": 10
     },
     {
-      "epoch": 0.13,
-      "grad_norm": 1254.20259356522,
-      "learning_rate": 9.966191788709716e-09,
-      "logits/chosen": -4.266871452331543,
-      "logits/rejected": -4.419375896453857,
-      "logps/chosen": -313.91156005859375,
-      "logps/rejected": -288.8208923339844,
-      "loss": 0.7239,
-      "rewards/accuracies": 0.512499988079071,
-      "rewards/chosen": 0.0004551798047032207,
-      "rewards/margins": 0.007867029868066311,
-      "rewards/rejected": -0.0074118501506745815,
       "step": 20
     },
     {
-      "epoch": 0.2,
-      "grad_norm": 1168.2123312853032,
-      "learning_rate": 9.698463103929542e-09,
-      "logits/chosen": -4.302128791809082,
-      "logits/rejected": -4.365870475769043,
-      "logps/chosen": -308.2377014160156,
-      "logps/rejected": -285.6295471191406,
-      "loss": 0.7344,
-      "rewards/accuracies": 0.5249999761581421,
-      "rewards/chosen": 0.019400831311941147,
-      "rewards/margins": 0.019786948338150978,
-      "rewards/rejected": -0.0003861159202642739,
       "step": 30
     },
     {
-      "epoch": 0.27,
-      "grad_norm": 1099.047513823573,
-      "learning_rate": 9.177439057064682e-09,
-      "logits/chosen": -4.187483310699463,
-      "logits/rejected": -4.270766735076904,
-      "logps/chosen": -332.38433837890625,
-      "logps/rejected": -307.4942321777344,
-      "loss": 0.7115,
-      "rewards/accuracies": 0.5406249761581421,
-      "rewards/chosen": 0.0541040301322937,
-      "rewards/margins": 0.07320869714021683,
-      "rewards/rejected": -0.01910465955734253,
       "step": 40
     },
     {
-      "epoch": 0.33,
-      "grad_norm": 1141.2520247434832,
-      "learning_rate": 8.431208189343668e-09,
-      "logits/chosen": -4.198305606842041,
-      "logits/rejected": -4.367269992828369,
-      "logps/chosen": -333.6199645996094,
-      "logps/rejected": -308.95989990234375,
-      "loss": 0.7163,
-      "rewards/accuracies": 0.4906249940395355,
-      "rewards/chosen": 0.06264184415340424,
-      "rewards/margins": -0.024443484842777252,
-      "rewards/rejected": 0.08708532154560089,
       "step": 50
     },
     {
-      "epoch": 0.4,
-      "grad_norm": 1099.3679350302498,
-      "learning_rate": 7.500000000000001e-09,
-      "logits/chosen": -4.187924385070801,
-      "logits/rejected": -4.2703022956848145,
-      "logps/chosen": -323.7719421386719,
-      "logps/rejected": -308.23748779296875,
-      "loss": 0.7118,
-      "rewards/accuracies": 0.515625,
-      "rewards/chosen": 0.11530591547489166,
-      "rewards/margins": 0.03647974878549576,
-      "rewards/rejected": 0.07882615178823471,
       "step": 60
     },
     {
-      "epoch": 0.47,
-      "grad_norm": 1096.6613245075011,
-      "learning_rate": 6.434016163555451e-09,
-      "logits/chosen": -4.1484785079956055,
-      "logits/rejected": -4.303661346435547,
-      "logps/chosen": -344.68658447265625,
-      "logps/rejected": -314.47064208984375,
-      "loss": 0.6973,
-      "rewards/accuracies": 0.5625,
-      "rewards/chosen": 0.1820925623178482,
-      "rewards/margins": 0.10691970586776733,
-      "rewards/rejected": 0.07517284899950027,
       "step": 70
     },
     {
-      "epoch": 0.53,
-      "grad_norm": 1050.1170453783911,
-      "learning_rate": 5.290724144552379e-09,
-      "logits/chosen": -4.223504543304443,
-      "logits/rejected": -4.3897480964660645,
-      "logps/chosen": -334.43511962890625,
-      "logps/rejected": -305.484375,
-      "loss": 0.6912,
-      "rewards/accuracies": 0.559374988079071,
-      "rewards/chosen": 0.20204909145832062,
-      "rewards/margins": 0.08096315711736679,
-      "rewards/rejected": 0.12108592689037323,
       "step": 80
     },
     {
-      "epoch": 0.6,
-      "grad_norm": 1080.8957995779926,
-      "learning_rate": 4.131759111665349e-09,
-      "logits/chosen": -4.228762626647949,
-      "logits/rejected": -4.349400997161865,
-      "logps/chosen": -327.1580810546875,
-      "logps/rejected": -307.87689208984375,
-      "loss": 0.674,
-      "rewards/accuracies": 0.550000011920929,
-      "rewards/chosen": 0.24468111991882324,
-      "rewards/margins": 0.05739554762840271,
-      "rewards/rejected": 0.18728554248809814,
       "step": 90
     },
     {
-      "epoch": 0.67,
-      "grad_norm": 1086.0982504773885,
-      "learning_rate": 3.0196011698042157e-09,
-      "logits/chosen": -4.210589408874512,
-      "logits/rejected": -4.420603275299072,
-      "logps/chosen": -320.5531311035156,
-      "logps/rejected": -289.7651062011719,
-      "loss": 0.6799,
-      "rewards/accuracies": 0.578125,
-      "rewards/chosen": 0.2572989761829376,
-      "rewards/margins": 0.10579316318035126,
-      "rewards/rejected": 0.15150579810142517,
       "step": 100
     },
     {
-      "epoch": 0.73,
-      "grad_norm": 1114.0041176823654,
-      "learning_rate": 2.0142070414860704e-09,
-      "logits/chosen": -4.225996971130371,
-      "logits/rejected": -4.2789506912231445,
-      "logps/chosen": -314.6085205078125,
-      "logps/rejected": -303.3541564941406,
-      "loss": 0.6851,
-      "rewards/accuracies": 0.546875,
-      "rewards/chosen": 0.27688390016555786,
-      "rewards/margins": 0.041596584022045135,
-      "rewards/rejected": 0.23528733849525452,
       "step": 110
     },
     {
-      "epoch": 0.8,
-      "grad_norm": 1097.8240578626694,
-      "learning_rate": 1.1697777844051105e-09,
-      "logits/chosen": -4.1503801345825195,
-      "logits/rejected": -4.306635856628418,
-      "logps/chosen": -338.7808837890625,
-      "logps/rejected": -313.2768249511719,
-      "loss": 0.6758,
-      "rewards/accuracies": 0.5874999761581421,
-      "rewards/chosen": 0.3373282849788666,
-      "rewards/margins": 0.1483292281627655,
-      "rewards/rejected": 0.18899908661842346,
       "step": 120
     },
     {
-      "epoch": 0.87,
-      "grad_norm": 1113.3294478605874,
-      "learning_rate": 5.318367983829391e-10,
-      "logits/chosen": -4.178295135498047,
-      "logits/rejected": -4.3724284172058105,
-      "logps/chosen": -323.9390563964844,
-      "logps/rejected": -304.91119384765625,
-      "loss": 0.6643,
-      "rewards/accuracies": 0.574999988079071,
-      "rewards/chosen": 0.340619832277298,
-      "rewards/margins": 0.12920674681663513,
-      "rewards/rejected": 0.21141307055950165,
       "step": 130
     },
     {
-      "epoch": 0.93,
-      "grad_norm": 1112.5811910392042,
-      "learning_rate": 1.3477564710088098e-10,
-      "logits/chosen": -4.293918609619141,
-      "logits/rejected": -4.359633445739746,
-      "logps/chosen": -307.56317138671875,
-      "logps/rejected": -297.0579833984375,
-      "loss": 0.6697,
-      "rewards/accuracies": 0.596875011920929,
-      "rewards/chosen": 0.34358957409858704,
-      "rewards/margins": 0.11470258235931396,
-      "rewards/rejected": 0.22888696193695068,
       "step": 140
     },
     {
-      "epoch": 1.0,
-      "grad_norm": 1082.9191655386894,
-      "learning_rate": 0.0,
-      "logits/chosen": -4.258730411529541,
-      "logits/rejected": -4.332475185394287,
-      "logps/chosen": -312.3280029296875,
-      "logps/rejected": -300.03082275390625,
-      "loss": 0.6661,
-      "rewards/accuracies": 0.574999988079071,
-      "rewards/chosen": 0.3249002993106842,
-      "rewards/margins": 0.10186745971441269,
-      "rewards/rejected": 0.2230328619480133,
       "step": 150
     },
     {
       "epoch": 1.0,
-      "step": 150,
       "total_flos": 0.0,
-      "train_loss": 0.6950656716028849,
-      "train_runtime": 4446.5407,
-      "train_samples_per_second": 8.646,
-      "train_steps_per_second": 0.034
     }
   ],
   "logging_steps": 10,
-  "max_steps": 150,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 100,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.9960474308300395,
   "eval_steps": 500,
+  "global_step": 189,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.01,
+      "grad_norm": 41.432535799844544,
+      "learning_rate": 1.5789473684210525e-08,
+      "logits/chosen": -2.270329713821411,
+      "logits/rejected": -2.2495758533477783,
+      "logps/chosen": -1.0721262693405151,
+      "logps/rejected": -0.9967758059501648,
+      "loss": 1.8459,
       "rewards/accuracies": 0.0,
       "rewards/chosen": 0.0,
       "rewards/margins": 0.0,
       "step": 1
     },
     {
+      "epoch": 0.05,
+      "grad_norm": 38.0481408472616,
+      "learning_rate": 1.5789473684210525e-07,
+      "logits/chosen": -2.3005785942077637,
+      "logits/rejected": -2.236785888671875,
+      "logps/chosen": -1.0405129194259644,
+      "logps/rejected": -1.0305094718933105,
+      "loss": 1.8036,
+      "rewards/accuracies": 0.4618055522441864,
+      "rewards/chosen": -0.0005758580518886447,
+      "rewards/margins": -0.0005768582923337817,
+      "rewards/rejected": 1.000240445137024e-06,
       "step": 10
     },
     {
+      "epoch": 0.11,
+      "grad_norm": 39.11632822940491,
+      "learning_rate": 2.9997438756870786e-07,
+      "logits/chosen": -2.323885917663574,
+      "logits/rejected": -2.296593189239502,
+      "logps/chosen": -1.053823709487915,
+      "logps/rejected": -1.0721189975738525,
+      "loss": 1.7888,
+      "rewards/accuracies": 0.690625011920929,
+      "rewards/chosen": -0.0061118630692362785,
+      "rewards/margins": 0.008750928565859795,
+      "rewards/rejected": -0.014862793497741222,
       "step": 20
     },
     {
+      "epoch": 0.16,
+      "grad_norm": 34.61655659817795,
+      "learning_rate": 2.9691146514020486e-07,
+      "logits/chosen": -2.4537835121154785,
+      "logits/rejected": -2.406308889389038,
+      "logps/chosen": -1.035614013671875,
+      "logps/rejected": -1.090877890586853,
+      "loss": 1.7604,
+      "rewards/accuracies": 0.778124988079071,
+      "rewards/chosen": -0.04775990918278694,
+      "rewards/margins": 0.049577243626117706,
+      "rewards/rejected": -0.09733714908361435,
       "step": 30
     },
     {
+      "epoch": 0.21,
+      "grad_norm": 39.56505728726439,
+      "learning_rate": 2.888456489672334e-07,
+      "logits/chosen": -2.672393321990967,
+      "logits/rejected": -2.6184394359588623,
+      "logps/chosen": -1.121576189994812,
+      "logps/rejected": -1.1622512340545654,
+      "loss": 1.7281,
+      "rewards/accuracies": 0.746874988079071,
+      "rewards/chosen": -0.1657789945602417,
+      "rewards/margins": 0.10218825191259384,
+      "rewards/rejected": -0.26796722412109375,
       "step": 40
     },
     {
+      "epoch": 0.26,
+      "grad_norm": 41.60011182654463,
+      "learning_rate": 2.7605161074568387e-07,
+      "logits/chosen": -2.921407461166382,
+      "logits/rejected": -2.891125202178955,
+      "logps/chosen": -1.28288733959198,
+      "logps/rejected": -1.3418314456939697,
+      "loss": 1.7131,
+      "rewards/accuracies": 0.768750011920929,
+      "rewards/chosen": -0.4241597056388855,
+      "rewards/margins": 0.17930208146572113,
+      "rewards/rejected": -0.603461742401123,
       "step": 50
     },
     {
+      "epoch": 0.32,
+      "grad_norm": 51.7670369092107,
+      "learning_rate": 2.5896503610243364e-07,
+      "logits/chosen": -3.184028148651123,
+      "logits/rejected": -3.152650833129883,
+      "logps/chosen": -1.467505693435669,
+      "logps/rejected": -1.6431095600128174,
+      "loss": 1.6172,
+      "rewards/accuracies": 0.7718750238418579,
+      "rewards/chosen": -0.7787442207336426,
+      "rewards/margins": 0.3277961313724518,
+      "rewards/rejected": -1.106540322303772,
       "step": 60
     },
     {
+      "epoch": 0.37,
+      "grad_norm": 73.28833563129433,
+      "learning_rate": 2.3816778784387096e-07,
+      "logits/chosen": -3.472806930541992,
+      "logits/rejected": -3.4669137001037598,
+      "logps/chosen": -1.7310292720794678,
+      "logps/rejected": -1.9755589962005615,
+      "loss": 1.552,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -1.4173996448516846,
+      "rewards/margins": 0.45889949798583984,
+      "rewards/rejected": -1.8762991428375244,
       "step": 70
     },
     {
+      "epoch": 0.42,
+      "grad_norm": 95.75717630614442,
+      "learning_rate": 2.1436809131589132e-07,
+      "logits/chosen": -3.7732110023498535,
+      "logits/rejected": -3.794734477996826,
+      "logps/chosen": -2.3010740280151367,
+      "logps/rejected": -2.5936408042907715,
+      "loss": 1.4579,
+      "rewards/accuracies": 0.7093750238418579,
+      "rewards/chosen": -2.5355091094970703,
+      "rewards/margins": 0.5785154700279236,
+      "rewards/rejected": -3.1140246391296387,
       "step": 80
     },
     {
+      "epoch": 0.47,
+      "grad_norm": 108.99770590059093,
+      "learning_rate": 1.8837641663916534e-07,
+      "logits/chosen": -4.047728061676025,
+      "logits/rejected": -4.063739776611328,
+      "logps/chosen": -2.8391122817993164,
+      "logps/rejected": -3.388620376586914,
+      "loss": 1.3563,
+      "rewards/accuracies": 0.734375,
+      "rewards/chosen": -3.563304901123047,
+      "rewards/margins": 1.0540244579315186,
+      "rewards/rejected": -4.617329120635986,
       "step": 90
     },
     {
+      "epoch": 0.53,
+      "grad_norm": 91.4347139330851,
+      "learning_rate": 1.610778791212311e-07,
+      "logits/chosen": -4.239941596984863,
+      "logits/rejected": -4.29507303237915,
+      "logps/chosen": -2.653388738632202,
+      "logps/rejected": -3.2629570960998535,
+      "loss": 1.3233,
+      "rewards/accuracies": 0.778124988079071,
+      "rewards/chosen": -3.28294038772583,
+      "rewards/margins": 1.1777704954147339,
+      "rewards/rejected": -4.4607110023498535,
       "step": 100
     },
     {
+      "epoch": 0.58,
+      "grad_norm": 131.69525214561466,
+      "learning_rate": 1.3340209771627488e-07,
+      "logits/chosen": -4.439741611480713,
+      "logits/rejected": -4.547017574310303,
+      "logps/chosen": -2.945267915725708,
+      "logps/rejected": -3.710526943206787,
+      "loss": 1.2097,
+      "rewards/accuracies": 0.778124988079071,
+      "rewards/chosen": -3.7780189514160156,
+      "rewards/margins": 1.5611803531646729,
+      "rewards/rejected": -5.339199542999268,
       "step": 110
     },
     {
+      "epoch": 0.63,
+      "grad_norm": 119.65234559570642,
+      "learning_rate": 1.0629153796660131e-07,
+      "logits/chosen": -4.577895164489746,
+      "logits/rejected": -4.687996864318848,
+      "logps/chosen": -3.094693899154663,
+      "logps/rejected": -3.9398090839385986,
+      "loss": 1.1282,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": -4.051518440246582,
+      "rewards/margins": 1.6234314441680908,
+      "rewards/rejected": -5.674950122833252,
       "step": 120
     },
     {
+      "epoch": 0.69,
+      "grad_norm": 129.7843781353164,
+      "learning_rate": 8.066941746895304e-08,
+      "logits/chosen": -4.77476167678833,
+      "logits/rejected": -4.9267988204956055,
+      "logps/chosen": -3.1812126636505127,
+      "logps/rejected": -4.0755157470703125,
+      "loss": 1.1661,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -4.220904350280762,
+      "rewards/margins": 1.8181953430175781,
+      "rewards/rejected": -6.03909969329834,
       "step": 130
     },
     {
+      "epoch": 0.74,
+      "grad_norm": 105.67370924537627,
+      "learning_rate": 5.7408266806531073e-08,
+      "logits/chosen": -4.906655311584473,
+      "logits/rejected": -5.071400165557861,
+      "logps/chosen": -3.282118320465088,
+      "logps/rejected": -4.2006425857543945,
+      "loss": 1.1872,
+      "rewards/accuracies": 0.778124988079071,
+      "rewards/chosen": -4.442627906799316,
+      "rewards/margins": 1.8388820886611938,
+      "rewards/rejected": -6.281510353088379,
       "step": 140
     },
     {
+      "epoch": 0.79,
+      "grad_norm": 108.86520544080616,
+      "learning_rate": 3.730021656646899e-08,
+      "logits/chosen": -5.13236141204834,
+      "logits/rejected": -5.272187232971191,
+      "logps/chosen": -3.555389881134033,
+      "logps/rejected": -4.640769958496094,
+      "loss": 1.1411,
+      "rewards/accuracies": 0.7718750238418579,
+      "rewards/chosen": -5.0327253341674805,
+      "rewards/margins": 2.142836332321167,
+      "rewards/rejected": -7.175561428070068,
       "step": 150
     },
+    {
+      "epoch": 0.84,
+      "grad_norm": 104.57387509776791,
+      "learning_rate": 2.103002228274413e-08,
+      "logits/chosen": -4.998870372772217,
+      "logits/rejected": -5.1569671630859375,
+      "logps/chosen": -3.4073867797851562,
+      "logps/rejected": -4.47383975982666,
+      "loss": 1.1059,
+      "rewards/accuracies": 0.7718750238418579,
+      "rewards/chosen": -4.684414386749268,
+      "rewards/margins": 2.137641429901123,
+      "rewards/rejected": -6.822054862976074,
+      "step": 160
+    },
+    {
+      "epoch": 0.9,
+      "grad_norm": 109.01559488214998,
+      "learning_rate": 9.151745907741537e-09,
+      "logits/chosen": -5.156809329986572,
+      "logits/rejected": -5.336338520050049,
+      "logps/chosen": -3.476139545440674,
+      "logps/rejected": -4.648383617401123,
+      "loss": 1.113,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -4.8243327140808105,
+      "rewards/margins": 2.336613178253174,
+      "rewards/rejected": -7.160945892333984,
+      "step": 170
+    },
+    {
+      "epoch": 0.95,
+      "grad_norm": 149.6092511595762,
+      "learning_rate": 2.069887896989614e-09,
+      "logits/chosen": -5.088743209838867,
+      "logits/rejected": -5.213286399841309,
+      "logps/chosen": -3.5473315715789795,
+      "logps/rejected": -4.448221206665039,
+      "loss": 1.113,
+      "rewards/accuracies": 0.753125011920929,
+      "rewards/chosen": -5.046046733856201,
+      "rewards/margins": 1.7532546520233154,
+      "rewards/rejected": -6.799302101135254,
+      "step": 180
+    },
     {
       "epoch": 1.0,
+      "step": 189,
       "total_flos": 0.0,
+      "train_loss": 1.3861158726707337,
+      "train_runtime": 5367.071,
+      "train_samples_per_second": 9.042,
+      "train_steps_per_second": 0.035
     }
   ],
   "logging_steps": 10,
+  "max_steps": 189,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 100,

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e370280be22422145d741eb20d38b32314505f586945952ee65047093ae07be1
 size 6264

 version https://git-lfs.github.com/spec/v1
+oid sha256:d677e274df19d2bbf6b42de6cc0260c9ddcb86589cf3edab1fca386d8bd8d657
 size 6264