inflaton commited on Jun 6

Commit

c6eea0c

•

1 Parent(s): 472b12c

Training in progress, step 6000

Browse files

Files changed (39) hide show

model.safetensors +1 -1
run-3/checkpoint-4000/model.safetensors +1 -1
run-3/checkpoint-4000/optimizer.pt +1 -1
run-3/checkpoint-4000/rng_state.pth +1 -1
run-3/checkpoint-4000/scheduler.pt +1 -1
run-3/checkpoint-4000/training_args.bin +1 -1
run-3/checkpoint-4500/model.safetensors +1 -1
run-3/checkpoint-4500/optimizer.pt +1 -1
run-3/checkpoint-4500/rng_state.pth +1 -1
run-3/checkpoint-4500/scheduler.pt +1 -1
run-3/checkpoint-4500/training_args.bin +1 -1
run-3/checkpoint-5000/model.safetensors +1 -1
run-3/checkpoint-5000/optimizer.pt +1 -1
run-3/checkpoint-5000/rng_state.pth +1 -1
run-3/checkpoint-5000/scheduler.pt +1 -1
run-3/checkpoint-5000/training_args.bin +1 -1
run-3/checkpoint-5500/model.safetensors +1 -1
run-3/checkpoint-5500/optimizer.pt +1 -1
run-3/checkpoint-5500/rng_state.pth +1 -1
run-3/checkpoint-5500/scheduler.pt +1 -1
run-3/checkpoint-5500/training_args.bin +1 -1
run-3/checkpoint-6000/model.safetensors +1 -1
run-3/checkpoint-6000/optimizer.pt +1 -1
run-3/checkpoint-6000/rng_state.pth +1 -1
run-3/checkpoint-6000/scheduler.pt +1 -1
run-3/checkpoint-6000/trainer_state.json +78 -78
run-3/checkpoint-6000/training_args.bin +1 -1
run-3/checkpoint-6500/model.safetensors +1 -1
run-3/checkpoint-6500/optimizer.pt +1 -1
run-3/checkpoint-6500/rng_state.pth +1 -1
run-3/checkpoint-6500/scheduler.pt +1 -1
run-3/checkpoint-6500/trainer_state.json +81 -81
run-3/checkpoint-6500/training_args.bin +1 -1
run-3/checkpoint-7000/model.safetensors +1 -1
run-3/checkpoint-7000/optimizer.pt +1 -1
run-3/checkpoint-7000/rng_state.pth +1 -1
run-3/checkpoint-7000/scheduler.pt +1 -1
run-3/checkpoint-7000/trainer_state.json +89 -89
run-3/checkpoint-7000/training_args.bin +1 -1

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:db0c754a09ef5d8f060aae9b2d0f9bdc0b4a43e371f56b329e9aad51b41edeb0
 size 1340618660

 version https://git-lfs.github.com/spec/v1
+oid sha256:357873f897ac28dcafef3fa3fa53be07c2ae1ce0ee7c067b30c199d7205c8456
 size 1340618660

run-3/checkpoint-4000/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8cb85d6c5dfd037550de5a993624ddda492b4b3ed10e4e6eff7bdc98dd3ae2ec
 size 1340618660

 version https://git-lfs.github.com/spec/v1
+oid sha256:cf482efd461a8b92fa2ced7f16699a274ac312a962d4bb81259d9b23caa7fbe1
 size 1340618660

run-3/checkpoint-4000/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6c2bcb3a195fffa158e8cf1058e5ef39756e488fc9278c1a900317f083c30276
 size 2681472237

 version https://git-lfs.github.com/spec/v1
+oid sha256:d2a7bf7ff3c0c0791b258d882964741d4dddac21bd018d264c509ef22e57d0aa
 size 2681472237

run-3/checkpoint-4000/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3e07840293faa26982fb60ecf67927902569af932812ea428cf0afa3a38536eb
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:2d65eeaf2dd6e25acaa89c7669e032118233a7db49d07f0c99cc6439d496417b
 size 14244

run-3/checkpoint-4000/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:677637e2929bbbe4f92d799cf4a43bf0dab61205c194ca2d4f5d8fe36706666e
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:5b70e2b4949e2d396aca261edad5501b5c6cf802168746c892b94d2ef7d820e0
 size 1064

run-3/checkpoint-4000/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:004dbac8124de382164fc08dbd1e3ccce3b5d6b42a0c23f879a1925c177310cf
 size 5048

 version https://git-lfs.github.com/spec/v1
+oid sha256:1507950b2d37b737502f824dab70976a7fa7a07f6887612e84989d3ab0cc54db
 size 5048

run-3/checkpoint-4500/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a354e2701ba50b5ecb3a56a0ca351f8d42eb2b55c650361302caa2c3c5b81365
 size 1340618660

 version https://git-lfs.github.com/spec/v1
+oid sha256:382a8f46eadf767ed8da97df16ca3df66a409ff23b26af6a2745ff907ca25530
 size 1340618660

run-3/checkpoint-4500/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fce0e3a6a7b2934519b9a2af8341c9fe9cc64f7e764ade4fb3be7293e87e7eb1
 size 2681472237

 version https://git-lfs.github.com/spec/v1
+oid sha256:16b738c555c50c08e23cb5e22cf2b09d6275281380346d11079a373548a519e1
 size 2681472237

run-3/checkpoint-4500/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:37fcbed10402ef9ac2d1810bd54915d476a128b155f3eeec1b8589cff633331f
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:53e9fb867ae884a58402e7b3b9a9f22e8f411dc167b418dee588d4b62db82684
 size 14244

run-3/checkpoint-4500/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6d3e8b59116a58d61a6641c90b7c3897245289dacd44c20ed7921faaa48acb38
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:836e3991ee1cc34d19f43898c3076c25b8a0367ad6a1217c062230a80dc79d0d
 size 1064

run-3/checkpoint-4500/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:004dbac8124de382164fc08dbd1e3ccce3b5d6b42a0c23f879a1925c177310cf
 size 5048

 version https://git-lfs.github.com/spec/v1
+oid sha256:1507950b2d37b737502f824dab70976a7fa7a07f6887612e84989d3ab0cc54db
 size 5048

run-3/checkpoint-5000/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ab21c214eb2cd60372040c71f173bf312ede2736be1e2387ff13e5dc7836b6eb
 size 1340618660

 version https://git-lfs.github.com/spec/v1
+oid sha256:6f656c5e41f4db468459396594f52951edf346944c022c6a51fe91022d752880
 size 1340618660

run-3/checkpoint-5000/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:94ab4dc6647e9e4eff8d9f2d9c74119275c92ae0a357c2099779b0bf6c2a6049
 size 2681472237

 version https://git-lfs.github.com/spec/v1
+oid sha256:9960712477ff26f5f82209fef0cfa0fdc1268e06a394b9a86f091b6cc09276c5
 size 2681472237

run-3/checkpoint-5000/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8c21edb04148a5d8b9d464c6921aa11e6d9df39bf78ac062cee9e3c3142b3ceb
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:7464ebba6819e0c68b094da2227ebd7b7e48fa501069e61ff0c479a55d431d86
 size 14244

run-3/checkpoint-5000/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2087477951553f5262693d17ac22e0696624ba770a2c9796b9ec7ca0335b51bf
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:dd000ad96d274229ffdddadc85494aa58efe28c1a588aed7e940403a55b33a50
 size 1064

run-3/checkpoint-5000/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:004dbac8124de382164fc08dbd1e3ccce3b5d6b42a0c23f879a1925c177310cf
 size 5048

 version https://git-lfs.github.com/spec/v1
+oid sha256:1507950b2d37b737502f824dab70976a7fa7a07f6887612e84989d3ab0cc54db
 size 5048

run-3/checkpoint-5500/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:99c37f6b70d79d8cbf9bc2c478b922e5501693ff444b0fe4687ea02434cd0cd4
 size 1340618660

 version https://git-lfs.github.com/spec/v1
+oid sha256:59133785062b3f02adc682bde548abd9a14813e20e605e69c971f9e1cf743b44
 size 1340618660

run-3/checkpoint-5500/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f42f74147407307478da180f49426713f01c781ff49b66ea33a31455343fa6a3
 size 2681472237

 version https://git-lfs.github.com/spec/v1
+oid sha256:823a91a9a9f45cb34713826bb763fe820bfb642a342d0db495d61a7afa005c82
 size 2681472237

run-3/checkpoint-5500/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:faf66ed3277d116b58c8085fc54f45583cc9a5800fea6c2965c28353e94c4527
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:c4c5967a58f1402443b33894cea74c9f032e86a1e8454f41569028ccf79a7622
 size 14244

run-3/checkpoint-5500/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5e1f63da3db24bdeb91b8e242b4bd5d6aa10d806849b0c8bb8a9422156f22406
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:328f66a371abac671a66cc9d36cee10be25fd4d036bad87dd50b1a40a8805410
 size 1064

run-3/checkpoint-5500/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:004dbac8124de382164fc08dbd1e3ccce3b5d6b42a0c23f879a1925c177310cf
 size 5048

 version https://git-lfs.github.com/spec/v1
+oid sha256:1507950b2d37b737502f824dab70976a7fa7a07f6887612e84989d3ab0cc54db
 size 5048

run-3/checkpoint-6000/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8bdc3b431ef3ff736397876b609a72442bb798c06e5844cd1db0945018726869
 size 1340618660

 version https://git-lfs.github.com/spec/v1
+oid sha256:357873f897ac28dcafef3fa3fa53be07c2ae1ce0ee7c067b30c199d7205c8456
 size 1340618660

run-3/checkpoint-6000/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:367a2864fe7dec2c0ae5746d69fbd714600342dbbb5d8ea5ffbeed56360b9299
 size 2681472237

 version https://git-lfs.github.com/spec/v1
+oid sha256:3ff50c71b14db9ed2dc9ab3c5630a214d2f8cd30274ef8942b8db0726ea1613c
 size 2681472237

run-3/checkpoint-6000/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ed173a391c403110e59e52f654ba7ec0f0798cdb67f2bdaa89351e70f329acec
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:88211143abc4ea5f4e151fd815af9be01e8a86ec8565449bd20ccf3f1d4ddcb6
 size 14244

run-3/checkpoint-6000/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d86f30ce0718f85afdd26864a6e946e0c132a304a354f2c44a2a7c087ffa4087
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:5974e9076a3f51360e8ba5d82f806d211f25caaf2ff1e16f0a4a3a32639e126a
 size 1064

run-3/checkpoint-6000/trainer_state.json CHANGED Viewed

@@ -10,158 +10,158 @@
   "log_history": [
     {
       "epoch": 0.6702412868632708,
-      "grad_norm": 13.834343910217285,
-      "learning_rate": 1.8689758651553552e-05,
-      "loss": 0.5491,
       "step": 500
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.762319803237915,
-      "eval_loss": 0.4773792326450348,
-      "eval_runtime": 8.5342,
-      "eval_samples_per_second": 349.533,
-      "eval_steps_per_second": 21.912,
       "step": 746
     },
     {
       "epoch": 1.3404825737265416,
-      "grad_norm": 12.70506477355957,
-      "learning_rate": 1.7347103576010912e-05,
-      "loss": 0.4116,
       "step": 1000
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.7696949243545532,
-      "eval_loss": 0.5922191739082336,
-      "eval_runtime": 8.5618,
-      "eval_samples_per_second": 348.409,
-      "eval_steps_per_second": 21.841,
       "step": 1492
     },
     {
       "epoch": 2.0107238605898123,
-      "grad_norm": 100.83161163330078,
-      "learning_rate": 1.6004448500468272e-05,
-      "loss": 0.2993,
       "step": 1500
     },
     {
       "epoch": 2.680965147453083,
-      "grad_norm": 251.75213623046875,
-      "learning_rate": 1.4661793424925633e-05,
-      "loss": 0.1136,
       "step": 2000
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.7676835656166077,
-      "eval_loss": 0.9344700574874878,
-      "eval_runtime": 8.6072,
-      "eval_samples_per_second": 346.57,
-      "eval_steps_per_second": 21.726,
       "step": 2238
     },
     {
       "epoch": 3.351206434316354,
-      "grad_norm": 17.935895919799805,
-      "learning_rate": 1.3319138349382991e-05,
-      "loss": 0.1,
       "step": 2500
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.777405321598053,
-      "eval_loss": 1.230825662612915,
-      "eval_runtime": 8.5403,
-      "eval_samples_per_second": 349.285,
-      "eval_steps_per_second": 21.896,
       "step": 2984
     },
     {
       "epoch": 4.021447721179625,
-      "grad_norm": 0.8948413729667664,
-      "learning_rate": 1.1976483273840351e-05,
-      "loss": 0.0715,
       "step": 3000
     },
     {
       "epoch": 4.6916890080428955,
-      "grad_norm": 0.7082040309906006,
-      "learning_rate": 1.063382819829771e-05,
-      "loss": 0.0294,
       "step": 3500
     },
     {
       "epoch": 5.0,
-      "eval_accuracy": 0.7763996124267578,
-      "eval_loss": 1.194653034210205,
-      "eval_runtime": 8.5079,
-      "eval_samples_per_second": 350.617,
-      "eval_steps_per_second": 21.98,
       "step": 3730
     },
     {
       "epoch": 5.361930294906166,
-      "grad_norm": 0.04226335510611534,
-      "learning_rate": 9.29117312275507e-06,
-      "loss": 0.025,
       "step": 4000
     },
     {
       "epoch": 6.0,
-      "eval_accuracy": 0.7713711261749268,
-      "eval_loss": 1.458601713180542,
-      "eval_runtime": 8.5492,
-      "eval_samples_per_second": 348.92,
-      "eval_steps_per_second": 21.873,
       "step": 4476
     },
     {
       "epoch": 6.032171581769437,
-      "grad_norm": 1.8958851099014282,
-      "learning_rate": 7.94851804721243e-06,
-      "loss": 0.0138,
       "step": 4500
     },
     {
       "epoch": 6.702412868632708,
-      "grad_norm": 0.009470508433878422,
-      "learning_rate": 6.60586297166979e-06,
-      "loss": 0.0098,
       "step": 5000
     },
     {
       "epoch": 7.0,
-      "eval_accuracy": 0.7660073637962341,
-      "eval_loss": 1.4296730756759644,
-      "eval_runtime": 8.5064,
-      "eval_samples_per_second": 350.675,
-      "eval_steps_per_second": 21.983,
       "step": 5222
     },
     {
       "epoch": 7.372654155495979,
-      "grad_norm": 0.5303798317909241,
-      "learning_rate": 5.26320789612715e-06,
-      "loss": 0.0083,
       "step": 5500
     },
     {
       "epoch": 8.0,
-      "eval_accuracy": 0.7720415592193604,
-      "eval_loss": 1.5305761098861694,
-      "eval_runtime": 8.614,
-      "eval_samples_per_second": 346.297,
-      "eval_steps_per_second": 21.709,
       "step": 5968
     },
     {
       "epoch": 8.04289544235925,
-      "grad_norm": 0.8904930949211121,
-      "learning_rate": 3.920552820584509e-06,
-      "loss": 0.0044,
       "step": 6000
     }
   ],
@@ -170,11 +170,11 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 500,
-  "total_flos": 1.4223015603234576e+16,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": {
-    "learning_rate": 2.0032413727096193e-05,
     "per_device_train_batch_size": 16
   }
 }

   "log_history": [
     {
       "epoch": 0.6702412868632708,
+      "grad_norm": 5.694277763366699,
+      "learning_rate": 2.542005392773407e-05,
+      "loss": 0.557,
       "step": 500
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.7254441976547241,
+      "eval_loss": 0.5171247720718384,
+      "eval_runtime": 8.773,
+      "eval_samples_per_second": 340.02,
+      "eval_steps_per_second": 21.315,
       "step": 746
     },
     {
       "epoch": 1.3404825737265416,
+      "grad_norm": 8.974740028381348,
+      "learning_rate": 2.359390062832789e-05,
+      "loss": 0.4156,
       "step": 1000
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.7596379518508911,
+      "eval_loss": 0.6025224924087524,
+      "eval_runtime": 8.8883,
+      "eval_samples_per_second": 335.609,
+      "eval_steps_per_second": 21.039,
       "step": 1492
     },
     {
       "epoch": 2.0107238605898123,
+      "grad_norm": 7.7003068923950195,
+      "learning_rate": 2.1767747328921705e-05,
+      "loss": 0.2948,
       "step": 1500
     },
     {
       "epoch": 2.680965147453083,
+      "grad_norm": 20.24570655822754,
+      "learning_rate": 1.9941594029515523e-05,
+      "loss": 0.1262,
       "step": 2000
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.7703654170036316,
+      "eval_loss": 0.822274386882782,
+      "eval_runtime": 8.8709,
+      "eval_samples_per_second": 336.267,
+      "eval_steps_per_second": 21.08,
       "step": 2238
     },
     {
       "epoch": 3.351206434316354,
+      "grad_norm": 0.9093023538589478,
+      "learning_rate": 1.8115440730109338e-05,
+      "loss": 0.1012,
       "step": 2500
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.7683539986610413,
+      "eval_loss": 1.2840174436569214,
+      "eval_runtime": 8.9163,
+      "eval_samples_per_second": 334.557,
+      "eval_steps_per_second": 20.973,
       "step": 2984
     },
     {
       "epoch": 4.021447721179625,
+      "grad_norm": 29.010135650634766,
+      "learning_rate": 1.6289287430703153e-05,
+      "loss": 0.0675,
       "step": 3000
     },
     {
       "epoch": 4.6916890080428955,
+      "grad_norm": 5.461940288543701,
+      "learning_rate": 1.4463134131296973e-05,
+      "loss": 0.0379,
       "step": 3500
     },
     {
       "epoch": 5.0,
+      "eval_accuracy": 0.7700302004814148,
+      "eval_loss": 1.4166399240493774,
+      "eval_runtime": 8.8683,
+      "eval_samples_per_second": 336.367,
+      "eval_steps_per_second": 21.086,
       "step": 3730
     },
     {
       "epoch": 5.361930294906166,
+      "grad_norm": 0.004815839231014252,
+      "learning_rate": 1.2636980831890788e-05,
+      "loss": 0.034,
       "step": 4000
     },
     {
       "epoch": 6.0,
+      "eval_accuracy": 0.7720415592193604,
+      "eval_loss": 1.576446533203125,
+      "eval_runtime": 8.9004,
+      "eval_samples_per_second": 335.152,
+      "eval_steps_per_second": 21.01,
       "step": 4476
     },
     {
       "epoch": 6.032171581769437,
+      "grad_norm": 0.29464954137802124,
+      "learning_rate": 1.0810827532484605e-05,
+      "loss": 0.0175,
       "step": 4500
     },
     {
       "epoch": 6.702412868632708,
+      "grad_norm": 0.010658634826540947,
+      "learning_rate": 8.984674233078421e-06,
+      "loss": 0.0101,
       "step": 5000
     },
     {
       "epoch": 7.0,
+      "eval_accuracy": 0.7753939032554626,
+      "eval_loss": 1.5760776996612549,
+      "eval_runtime": 8.8735,
+      "eval_samples_per_second": 336.169,
+      "eval_steps_per_second": 21.074,
       "step": 5222
     },
     {
       "epoch": 7.372654155495979,
+      "grad_norm": 32.647804260253906,
+      "learning_rate": 7.158520933672239e-06,
+      "loss": 0.0101,
       "step": 5500
     },
     {
       "epoch": 8.0,
+      "eval_accuracy": 0.7733824849128723,
+      "eval_loss": 1.5171312093734741,
+      "eval_runtime": 8.9008,
+      "eval_samples_per_second": 335.137,
+      "eval_steps_per_second": 21.009,
       "step": 5968
     },
     {
       "epoch": 8.04289544235925,
+      "grad_norm": 0.006861701142042875,
+      "learning_rate": 5.332367634266056e-06,
+      "loss": 0.0064,
       "step": 6000
     }
   ],
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 500,
+  "total_flos": 1.425589883589798e+16,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": {
+    "learning_rate": 2.7246207227140256e-05,
     "per_device_train_batch_size": 16
   }
 }

run-3/checkpoint-6000/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:004dbac8124de382164fc08dbd1e3ccce3b5d6b42a0c23f879a1925c177310cf
 size 5048

 version https://git-lfs.github.com/spec/v1
+oid sha256:1507950b2d37b737502f824dab70976a7fa7a07f6887612e84989d3ab0cc54db
 size 5048

run-3/checkpoint-6500/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:69c288cc5cc6770f23016de36e1ae0c3bc3769e0d0c7be6c0b8ebaf8de955fba
 size 1340618660

 version https://git-lfs.github.com/spec/v1
+oid sha256:31ec2188671ef60fb5d11cf43ed926a0f8ad799f26919a5a8a6693b9245fc4e5
 size 1340618660

run-3/checkpoint-6500/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:86a0e1b745d47c260fc50d564c4b9c1eef56f536944fcc44e5a2a47551b6684b
 size 2681472237

 version https://git-lfs.github.com/spec/v1
+oid sha256:2f6b8b3b7ccb46348a8b4d934977929d9fd3ca1af1cd003a247aa822c1bfb929
 size 2681472237

run-3/checkpoint-6500/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7a549425085619aa35f5dbdda83584f7d7cf88c514830ff63d3b892a419b0845
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:f5b81d476f21a8f359e4d3f42b921b67967019e455d484e4de9d785117a493ca
 size 14244

run-3/checkpoint-6500/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c68b2737fdedfb089499582882cc05d926adc001a7f35e0cd75dc0c145373fb9
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:773f880e1ac6dc3230d622b85e4abbcadb78c0f0a15af651b1285dedb6e9a315
 size 1064

run-3/checkpoint-6500/trainer_state.json CHANGED Viewed

@@ -10,165 +10,165 @@
   "log_history": [
     {
       "epoch": 0.6702412868632708,
-      "grad_norm": 13.834343910217285,
-      "learning_rate": 1.8689758651553552e-05,
-      "loss": 0.5491,
       "step": 500
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.762319803237915,
-      "eval_loss": 0.4773792326450348,
-      "eval_runtime": 8.5342,
-      "eval_samples_per_second": 349.533,
-      "eval_steps_per_second": 21.912,
       "step": 746
     },
     {
       "epoch": 1.3404825737265416,
-      "grad_norm": 12.70506477355957,
-      "learning_rate": 1.7347103576010912e-05,
-      "loss": 0.4116,
       "step": 1000
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.7696949243545532,
-      "eval_loss": 0.5922191739082336,
-      "eval_runtime": 8.5618,
-      "eval_samples_per_second": 348.409,
-      "eval_steps_per_second": 21.841,
       "step": 1492
     },
     {
       "epoch": 2.0107238605898123,
-      "grad_norm": 100.83161163330078,
-      "learning_rate": 1.6004448500468272e-05,
-      "loss": 0.2993,
       "step": 1500
     },
     {
       "epoch": 2.680965147453083,
-      "grad_norm": 251.75213623046875,
-      "learning_rate": 1.4661793424925633e-05,
-      "loss": 0.1136,
       "step": 2000
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.7676835656166077,
-      "eval_loss": 0.9344700574874878,
-      "eval_runtime": 8.6072,
-      "eval_samples_per_second": 346.57,
-      "eval_steps_per_second": 21.726,
       "step": 2238
     },
     {
       "epoch": 3.351206434316354,
-      "grad_norm": 17.935895919799805,
-      "learning_rate": 1.3319138349382991e-05,
-      "loss": 0.1,
       "step": 2500
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.777405321598053,
-      "eval_loss": 1.230825662612915,
-      "eval_runtime": 8.5403,
-      "eval_samples_per_second": 349.285,
-      "eval_steps_per_second": 21.896,
       "step": 2984
     },
     {
       "epoch": 4.021447721179625,
-      "grad_norm": 0.8948413729667664,
-      "learning_rate": 1.1976483273840351e-05,
-      "loss": 0.0715,
       "step": 3000
     },
     {
       "epoch": 4.6916890080428955,
-      "grad_norm": 0.7082040309906006,
-      "learning_rate": 1.063382819829771e-05,
-      "loss": 0.0294,
       "step": 3500
     },
     {
       "epoch": 5.0,
-      "eval_accuracy": 0.7763996124267578,
-      "eval_loss": 1.194653034210205,
-      "eval_runtime": 8.5079,
-      "eval_samples_per_second": 350.617,
-      "eval_steps_per_second": 21.98,
       "step": 3730
     },
     {
       "epoch": 5.361930294906166,
-      "grad_norm": 0.04226335510611534,
-      "learning_rate": 9.29117312275507e-06,
-      "loss": 0.025,
       "step": 4000
     },
     {
       "epoch": 6.0,
-      "eval_accuracy": 0.7713711261749268,
-      "eval_loss": 1.458601713180542,
-      "eval_runtime": 8.5492,
-      "eval_samples_per_second": 348.92,
-      "eval_steps_per_second": 21.873,
       "step": 4476
     },
     {
       "epoch": 6.032171581769437,
-      "grad_norm": 1.8958851099014282,
-      "learning_rate": 7.94851804721243e-06,
-      "loss": 0.0138,
       "step": 4500
     },
     {
       "epoch": 6.702412868632708,
-      "grad_norm": 0.009470508433878422,
-      "learning_rate": 6.60586297166979e-06,
-      "loss": 0.0098,
       "step": 5000
     },
     {
       "epoch": 7.0,
-      "eval_accuracy": 0.7660073637962341,
-      "eval_loss": 1.4296730756759644,
-      "eval_runtime": 8.5064,
-      "eval_samples_per_second": 350.675,
-      "eval_steps_per_second": 21.983,
       "step": 5222
     },
     {
       "epoch": 7.372654155495979,
-      "grad_norm": 0.5303798317909241,
-      "learning_rate": 5.26320789612715e-06,
-      "loss": 0.0083,
       "step": 5500
     },
     {
       "epoch": 8.0,
-      "eval_accuracy": 0.7720415592193604,
-      "eval_loss": 1.5305761098861694,
-      "eval_runtime": 8.614,
-      "eval_samples_per_second": 346.297,
-      "eval_steps_per_second": 21.709,
       "step": 5968
     },
     {
       "epoch": 8.04289544235925,
-      "grad_norm": 0.8904930949211121,
-      "learning_rate": 3.920552820584509e-06,
-      "loss": 0.0044,
       "step": 6000
     },
     {
       "epoch": 8.71313672922252,
-      "grad_norm": 15.417210578918457,
-      "learning_rate": 2.5778977450418694e-06,
-      "loss": 0.0032,
       "step": 6500
     }
   ],
@@ -177,11 +177,11 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 500,
-  "total_flos": 1.540790408249352e+16,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": {
-    "learning_rate": 2.0032413727096193e-05,
     "per_device_train_batch_size": 16
   }
 }

   "log_history": [
     {
       "epoch": 0.6702412868632708,
+      "grad_norm": 5.694277763366699,
+      "learning_rate": 2.542005392773407e-05,
+      "loss": 0.557,
       "step": 500
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.7254441976547241,
+      "eval_loss": 0.5171247720718384,
+      "eval_runtime": 8.773,
+      "eval_samples_per_second": 340.02,
+      "eval_steps_per_second": 21.315,
       "step": 746
     },
     {
       "epoch": 1.3404825737265416,
+      "grad_norm": 8.974740028381348,
+      "learning_rate": 2.359390062832789e-05,
+      "loss": 0.4156,
       "step": 1000
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.7596379518508911,
+      "eval_loss": 0.6025224924087524,
+      "eval_runtime": 8.8883,
+      "eval_samples_per_second": 335.609,
+      "eval_steps_per_second": 21.039,
       "step": 1492
     },
     {
       "epoch": 2.0107238605898123,
+      "grad_norm": 7.7003068923950195,
+      "learning_rate": 2.1767747328921705e-05,
+      "loss": 0.2948,
       "step": 1500
     },
     {
       "epoch": 2.680965147453083,
+      "grad_norm": 20.24570655822754,
+      "learning_rate": 1.9941594029515523e-05,
+      "loss": 0.1262,
       "step": 2000
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.7703654170036316,
+      "eval_loss": 0.822274386882782,
+      "eval_runtime": 8.8709,
+      "eval_samples_per_second": 336.267,
+      "eval_steps_per_second": 21.08,
       "step": 2238
     },
     {
       "epoch": 3.351206434316354,
+      "grad_norm": 0.9093023538589478,
+      "learning_rate": 1.8115440730109338e-05,
+      "loss": 0.1012,
       "step": 2500
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.7683539986610413,
+      "eval_loss": 1.2840174436569214,
+      "eval_runtime": 8.9163,
+      "eval_samples_per_second": 334.557,
+      "eval_steps_per_second": 20.973,
       "step": 2984
     },
     {
       "epoch": 4.021447721179625,
+      "grad_norm": 29.010135650634766,
+      "learning_rate": 1.6289287430703153e-05,
+      "loss": 0.0675,
       "step": 3000
     },
     {
       "epoch": 4.6916890080428955,
+      "grad_norm": 5.461940288543701,
+      "learning_rate": 1.4463134131296973e-05,
+      "loss": 0.0379,
       "step": 3500
     },
     {
       "epoch": 5.0,
+      "eval_accuracy": 0.7700302004814148,
+      "eval_loss": 1.4166399240493774,
+      "eval_runtime": 8.8683,
+      "eval_samples_per_second": 336.367,
+      "eval_steps_per_second": 21.086,
       "step": 3730
     },
     {
       "epoch": 5.361930294906166,
+      "grad_norm": 0.004815839231014252,
+      "learning_rate": 1.2636980831890788e-05,
+      "loss": 0.034,
       "step": 4000
     },
     {
       "epoch": 6.0,
+      "eval_accuracy": 0.7720415592193604,
+      "eval_loss": 1.576446533203125,
+      "eval_runtime": 8.9004,
+      "eval_samples_per_second": 335.152,
+      "eval_steps_per_second": 21.01,
       "step": 4476
     },
     {
       "epoch": 6.032171581769437,
+      "grad_norm": 0.29464954137802124,
+      "learning_rate": 1.0810827532484605e-05,
+      "loss": 0.0175,
       "step": 4500
     },
     {
       "epoch": 6.702412868632708,
+      "grad_norm": 0.010658634826540947,
+      "learning_rate": 8.984674233078421e-06,
+      "loss": 0.0101,
       "step": 5000
     },
     {
       "epoch": 7.0,
+      "eval_accuracy": 0.7753939032554626,
+      "eval_loss": 1.5760776996612549,
+      "eval_runtime": 8.8735,
+      "eval_samples_per_second": 336.169,
+      "eval_steps_per_second": 21.074,
       "step": 5222
     },
     {
       "epoch": 7.372654155495979,
+      "grad_norm": 32.647804260253906,
+      "learning_rate": 7.158520933672239e-06,
+      "loss": 0.0101,
       "step": 5500
     },
     {
       "epoch": 8.0,
+      "eval_accuracy": 0.7733824849128723,
+      "eval_loss": 1.5171312093734741,
+      "eval_runtime": 8.9008,
+      "eval_samples_per_second": 335.137,
+      "eval_steps_per_second": 21.009,
       "step": 5968
     },
     {
       "epoch": 8.04289544235925,
+      "grad_norm": 0.006861701142042875,
+      "learning_rate": 5.332367634266056e-06,
+      "loss": 0.0064,
       "step": 6000
     },
     {
       "epoch": 8.71313672922252,
+      "grad_norm": 1.2482685633585788e-05,
+      "learning_rate": 3.5062143348598724e-06,
+      "loss": 0.0028,
       "step": 6500
     }
   ],
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 500,
+  "total_flos": 1.5455057465941884e+16,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": {
+    "learning_rate": 2.7246207227140256e-05,
     "per_device_train_batch_size": 16
   }
 }

run-3/checkpoint-6500/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:004dbac8124de382164fc08dbd1e3ccce3b5d6b42a0c23f879a1925c177310cf
 size 5048

 version https://git-lfs.github.com/spec/v1
+oid sha256:1507950b2d37b737502f824dab70976a7fa7a07f6887612e84989d3ab0cc54db
 size 5048

run-3/checkpoint-7000/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ede137ed9f75602fcd765b9df81724cd345e4e8fba7631f5459f47d1e14017b4
 size 1340618660

 version https://git-lfs.github.com/spec/v1
+oid sha256:3c4a8a041c3286f74682e35df552e9fc99c021008e7d2b87738f3fd82618c362
 size 1340618660

run-3/checkpoint-7000/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:139a24ccc36cc750e5d554d1c29a253bda9deec8cdd5d9d1183530c461b598b5
 size 2681472237

 version https://git-lfs.github.com/spec/v1
+oid sha256:8cde3998752916ce1a2e2a136402465ce51c3e96c07515ddae0b4246d99415b6
 size 2681472237

run-3/checkpoint-7000/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eb8d864237da7cff0983198840347a22501258be6388b7177076e08d5c5f5afb
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:2d9034b167dd57fcb13ab131f7a6b12c7467166bd3b6746d19284f0b0fe4a597
 size 14244

run-3/checkpoint-7000/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:79fc7cffde8849d794c3ffd19c096c010d6994fc14914d10c2a72faedff0abcd
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:089dd2cbb01d7d635a13cc85346cf219731871b043661ac60d6bbf8e6d664db2
 size 1064

run-3/checkpoint-7000/trainer_state.json CHANGED Viewed

@@ -10,181 +10,181 @@
   "log_history": [
     {
       "epoch": 0.6702412868632708,
-      "grad_norm": 13.834343910217285,
-      "learning_rate": 1.8689758651553552e-05,
-      "loss": 0.5491,
       "step": 500
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.762319803237915,
-      "eval_loss": 0.4773792326450348,
-      "eval_runtime": 8.5342,
-      "eval_samples_per_second": 349.533,
-      "eval_steps_per_second": 21.912,
       "step": 746
     },
     {
       "epoch": 1.3404825737265416,
-      "grad_norm": 12.70506477355957,
-      "learning_rate": 1.7347103576010912e-05,
-      "loss": 0.4116,
       "step": 1000
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.7696949243545532,
-      "eval_loss": 0.5922191739082336,
-      "eval_runtime": 8.5618,
-      "eval_samples_per_second": 348.409,
-      "eval_steps_per_second": 21.841,
       "step": 1492
     },
     {
       "epoch": 2.0107238605898123,
-      "grad_norm": 100.83161163330078,
-      "learning_rate": 1.6004448500468272e-05,
-      "loss": 0.2993,
       "step": 1500
     },
     {
       "epoch": 2.680965147453083,
-      "grad_norm": 251.75213623046875,
-      "learning_rate": 1.4661793424925633e-05,
-      "loss": 0.1136,
       "step": 2000
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.7676835656166077,
-      "eval_loss": 0.9344700574874878,
-      "eval_runtime": 8.6072,
-      "eval_samples_per_second": 346.57,
-      "eval_steps_per_second": 21.726,
       "step": 2238
     },
     {
       "epoch": 3.351206434316354,
-      "grad_norm": 17.935895919799805,
-      "learning_rate": 1.3319138349382991e-05,
-      "loss": 0.1,
       "step": 2500
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.777405321598053,
-      "eval_loss": 1.230825662612915,
-      "eval_runtime": 8.5403,
-      "eval_samples_per_second": 349.285,
-      "eval_steps_per_second": 21.896,
       "step": 2984
     },
     {
       "epoch": 4.021447721179625,
-      "grad_norm": 0.8948413729667664,
-      "learning_rate": 1.1976483273840351e-05,
-      "loss": 0.0715,
       "step": 3000
     },
     {
       "epoch": 4.6916890080428955,
-      "grad_norm": 0.7082040309906006,
-      "learning_rate": 1.063382819829771e-05,
-      "loss": 0.0294,
       "step": 3500
     },
     {
       "epoch": 5.0,
-      "eval_accuracy": 0.7763996124267578,
-      "eval_loss": 1.194653034210205,
-      "eval_runtime": 8.5079,
-      "eval_samples_per_second": 350.617,
-      "eval_steps_per_second": 21.98,
       "step": 3730
     },
     {
       "epoch": 5.361930294906166,
-      "grad_norm": 0.04226335510611534,
-      "learning_rate": 9.29117312275507e-06,
-      "loss": 0.025,
       "step": 4000
     },
     {
       "epoch": 6.0,
-      "eval_accuracy": 0.7713711261749268,
-      "eval_loss": 1.458601713180542,
-      "eval_runtime": 8.5492,
-      "eval_samples_per_second": 348.92,
-      "eval_steps_per_second": 21.873,
       "step": 4476
     },
     {
       "epoch": 6.032171581769437,
-      "grad_norm": 1.8958851099014282,
-      "learning_rate": 7.94851804721243e-06,
-      "loss": 0.0138,
       "step": 4500
     },
     {
       "epoch": 6.702412868632708,
-      "grad_norm": 0.009470508433878422,
-      "learning_rate": 6.60586297166979e-06,
-      "loss": 0.0098,
       "step": 5000
     },
     {
       "epoch": 7.0,
-      "eval_accuracy": 0.7660073637962341,
-      "eval_loss": 1.4296730756759644,
-      "eval_runtime": 8.5064,
-      "eval_samples_per_second": 350.675,
-      "eval_steps_per_second": 21.983,
       "step": 5222
     },
     {
       "epoch": 7.372654155495979,
-      "grad_norm": 0.5303798317909241,
-      "learning_rate": 5.26320789612715e-06,
-      "loss": 0.0083,
       "step": 5500
     },
     {
       "epoch": 8.0,
-      "eval_accuracy": 0.7720415592193604,
-      "eval_loss": 1.5305761098861694,
-      "eval_runtime": 8.614,
-      "eval_samples_per_second": 346.297,
-      "eval_steps_per_second": 21.709,
       "step": 5968
     },
     {
       "epoch": 8.04289544235925,
-      "grad_norm": 0.8904930949211121,
-      "learning_rate": 3.920552820584509e-06,
-      "loss": 0.0044,
       "step": 6000
     },
     {
       "epoch": 8.71313672922252,
-      "grad_norm": 15.417210578918457,
-      "learning_rate": 2.5778977450418694e-06,
-      "loss": 0.0032,
       "step": 6500
     },
     {
       "epoch": 9.0,
-      "eval_accuracy": 0.7740529775619507,
-      "eval_loss": 1.7053203582763672,
-      "eval_runtime": 8.5011,
-      "eval_samples_per_second": 350.897,
-      "eval_steps_per_second": 21.997,
       "step": 6714
     },
     {
       "epoch": 9.383378016085791,
-      "grad_norm": 7.497359911212698e-05,
-      "learning_rate": 1.235242669499229e-06,
-      "loss": 0.0028,
       "step": 7000
     }
   ],
@@ -193,11 +193,11 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 500,
-  "total_flos": 1.659103427531646e+16,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": {
-    "learning_rate": 2.0032413727096193e-05,
     "per_device_train_batch_size": 16
   }
 }

   "log_history": [
     {
       "epoch": 0.6702412868632708,
+      "grad_norm": 5.694277763366699,
+      "learning_rate": 2.542005392773407e-05,
+      "loss": 0.557,
       "step": 500
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.7254441976547241,
+      "eval_loss": 0.5171247720718384,
+      "eval_runtime": 8.773,
+      "eval_samples_per_second": 340.02,
+      "eval_steps_per_second": 21.315,
       "step": 746
     },
     {
       "epoch": 1.3404825737265416,
+      "grad_norm": 8.974740028381348,
+      "learning_rate": 2.359390062832789e-05,
+      "loss": 0.4156,
       "step": 1000
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.7596379518508911,
+      "eval_loss": 0.6025224924087524,
+      "eval_runtime": 8.8883,
+      "eval_samples_per_second": 335.609,
+      "eval_steps_per_second": 21.039,
       "step": 1492
     },
     {
       "epoch": 2.0107238605898123,
+      "grad_norm": 7.7003068923950195,
+      "learning_rate": 2.1767747328921705e-05,
+      "loss": 0.2948,
       "step": 1500
     },
     {
       "epoch": 2.680965147453083,
+      "grad_norm": 20.24570655822754,
+      "learning_rate": 1.9941594029515523e-05,
+      "loss": 0.1262,
       "step": 2000
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.7703654170036316,
+      "eval_loss": 0.822274386882782,
+      "eval_runtime": 8.8709,
+      "eval_samples_per_second": 336.267,
+      "eval_steps_per_second": 21.08,
       "step": 2238
     },
     {
       "epoch": 3.351206434316354,
+      "grad_norm": 0.9093023538589478,
+      "learning_rate": 1.8115440730109338e-05,
+      "loss": 0.1012,
       "step": 2500
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.7683539986610413,
+      "eval_loss": 1.2840174436569214,
+      "eval_runtime": 8.9163,
+      "eval_samples_per_second": 334.557,
+      "eval_steps_per_second": 20.973,
       "step": 2984
     },
     {
       "epoch": 4.021447721179625,
+      "grad_norm": 29.010135650634766,
+      "learning_rate": 1.6289287430703153e-05,
+      "loss": 0.0675,
       "step": 3000
     },
     {
       "epoch": 4.6916890080428955,
+      "grad_norm": 5.461940288543701,
+      "learning_rate": 1.4463134131296973e-05,
+      "loss": 0.0379,
       "step": 3500
     },
     {
       "epoch": 5.0,
+      "eval_accuracy": 0.7700302004814148,
+      "eval_loss": 1.4166399240493774,
+      "eval_runtime": 8.8683,
+      "eval_samples_per_second": 336.367,
+      "eval_steps_per_second": 21.086,
       "step": 3730
     },
     {
       "epoch": 5.361930294906166,
+      "grad_norm": 0.004815839231014252,
+      "learning_rate": 1.2636980831890788e-05,
+      "loss": 0.034,
       "step": 4000
     },
     {
       "epoch": 6.0,
+      "eval_accuracy": 0.7720415592193604,
+      "eval_loss": 1.576446533203125,
+      "eval_runtime": 8.9004,
+      "eval_samples_per_second": 335.152,
+      "eval_steps_per_second": 21.01,
       "step": 4476
     },
     {
       "epoch": 6.032171581769437,
+      "grad_norm": 0.29464954137802124,
+      "learning_rate": 1.0810827532484605e-05,
+      "loss": 0.0175,
       "step": 4500
     },
     {
       "epoch": 6.702412868632708,
+      "grad_norm": 0.010658634826540947,
+      "learning_rate": 8.984674233078421e-06,
+      "loss": 0.0101,
       "step": 5000
     },
     {
       "epoch": 7.0,
+      "eval_accuracy": 0.7753939032554626,
+      "eval_loss": 1.5760776996612549,
+      "eval_runtime": 8.8735,
+      "eval_samples_per_second": 336.169,
+      "eval_steps_per_second": 21.074,
       "step": 5222
     },
     {
       "epoch": 7.372654155495979,
+      "grad_norm": 32.647804260253906,
+      "learning_rate": 7.158520933672239e-06,
+      "loss": 0.0101,
       "step": 5500
     },
     {
       "epoch": 8.0,
+      "eval_accuracy": 0.7733824849128723,
+      "eval_loss": 1.5171312093734741,
+      "eval_runtime": 8.9008,
+      "eval_samples_per_second": 335.137,
+      "eval_steps_per_second": 21.009,
       "step": 5968
     },
     {
       "epoch": 8.04289544235925,
+      "grad_norm": 0.006861701142042875,
+      "learning_rate": 5.332367634266056e-06,
+      "loss": 0.0064,
       "step": 6000
     },
     {
       "epoch": 8.71313672922252,
+      "grad_norm": 1.2482685633585788e-05,
+      "learning_rate": 3.5062143348598724e-06,
+      "loss": 0.0028,
       "step": 6500
     },
     {
       "epoch": 9.0,
+      "eval_accuracy": 0.7717063426971436,
+      "eval_loss": 1.7022887468338013,
+      "eval_runtime": 8.8529,
+      "eval_samples_per_second": 336.951,
+      "eval_steps_per_second": 21.123,
       "step": 6714
     },
     {
       "epoch": 9.383378016085791,
+      "grad_norm": 0.0012023162562400103,
+      "learning_rate": 1.6800610354536887e-06,
+      "loss": 0.0055,
       "step": 7000
     }
   ],
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 500,
+  "total_flos": 1.6633284114604788e+16,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": {
+    "learning_rate": 2.7246207227140256e-05,
     "per_device_train_batch_size": 16
   }
 }

run-3/checkpoint-7000/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:004dbac8124de382164fc08dbd1e3ccce3b5d6b42a0c23f879a1925c177310cf
 size 5048

 version https://git-lfs.github.com/spec/v1
+oid sha256:1507950b2d37b737502f824dab70976a7fa7a07f6887612e84989d3ab0cc54db
 size 5048