inflaton commited on Jun 6

Commit

472b12c

•

1 Parent(s): b8f963c

Training in progress, step 3000

Browse files

Files changed (32) hide show

model.safetensors +1 -1
run-3/checkpoint-1500/model.safetensors +1 -1
run-3/checkpoint-1500/optimizer.pt +1 -1
run-3/checkpoint-1500/rng_state.pth +1 -1
run-3/checkpoint-1500/scheduler.pt +1 -1
run-3/checkpoint-1500/training_args.bin +1 -1
run-3/checkpoint-2000/model.safetensors +1 -1
run-3/checkpoint-2000/optimizer.pt +1 -1
run-3/checkpoint-2000/rng_state.pth +1 -1
run-3/checkpoint-2000/scheduler.pt +1 -1
run-3/checkpoint-2000/training_args.bin +1 -1
run-3/checkpoint-2500/model.safetensors +1 -1
run-3/checkpoint-2500/optimizer.pt +1 -1
run-3/checkpoint-2500/rng_state.pth +1 -1
run-3/checkpoint-2500/scheduler.pt +1 -1
run-3/checkpoint-2500/training_args.bin +1 -1
run-3/checkpoint-3000/model.safetensors +1 -1
run-3/checkpoint-3000/optimizer.pt +1 -1
run-3/checkpoint-3000/rng_state.pth +1 -1
run-3/checkpoint-3000/scheduler.pt +1 -1
run-3/checkpoint-3000/trainer_state.json +54 -90
run-3/checkpoint-3000/training_args.bin +1 -1
run-3/checkpoint-3500/model.safetensors +1 -1
run-3/checkpoint-3500/optimizer.pt +1 -1
run-3/checkpoint-3500/rng_state.pth +1 -1
run-3/checkpoint-3500/scheduler.pt +1 -1
run-3/checkpoint-3500/trainer_state.json +58 -103
run-3/checkpoint-3500/training_args.bin +1 -1
run-3/checkpoint-4000/trainer_state.json +51 -51
run-3/checkpoint-4500/trainer_state.json +59 -59
run-3/checkpoint-5000/trainer_state.json +62 -62
run-3/checkpoint-5500/trainer_state.json +70 -70

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:29808a477e6dfe819802c452b4eb8059a040db301b42679e25eb9cd4177ce709
 size 1340618660

 version https://git-lfs.github.com/spec/v1
+oid sha256:db0c754a09ef5d8f060aae9b2d0f9bdc0b4a43e371f56b329e9aad51b41edeb0
 size 1340618660

run-3/checkpoint-1500/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c81a9f4242b6291e55b39407144fcc903a35dde7595a8f838278f2c3657269c2
 size 1340618660

 version https://git-lfs.github.com/spec/v1
+oid sha256:7887ff6fdcfcb9a94904c2ad7372830450b6301ec1dbce3f92b065eba06941a4
 size 1340618660

run-3/checkpoint-1500/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:088951e1efcae1165260a06a5f79972a7473991f6a84cbe38dfde9bbc32ab8ce
 size 2681472237

 version https://git-lfs.github.com/spec/v1
+oid sha256:a3c8c491aa2ef552b9b8f4452d20894cb90a050098ec0977ebc929d7c381bb39
 size 2681472237

run-3/checkpoint-1500/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bdad94d4629168a2bf6ebe9809c6aa9b7f4c7bb49624257aed0f70092ede3df7
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:3b6599d5d79187827e050787339b527eef0d6c77ccebbad27127fd9a8877fcbb
 size 14244

run-3/checkpoint-1500/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c4a08d061763b774416959da40fe22321436bf84b743529ed3e16bd678714ed4
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:3cbcf7ad6996437855c9692400a0f0ae25c519dcf1952481151980bbd0b8b052
 size 1064

run-3/checkpoint-1500/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e7873f643bbe0bcde81dd97f76bd7f35cc2bc225794540a61053f0708234413f
 size 5048

 version https://git-lfs.github.com/spec/v1
+oid sha256:1507950b2d37b737502f824dab70976a7fa7a07f6887612e84989d3ab0cc54db
 size 5048

run-3/checkpoint-2000/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8d7e639e12fa05ab793737459f1a86157dfb76d767f1d5eb19931edb98017649
 size 1340618660

 version https://git-lfs.github.com/spec/v1
+oid sha256:d310e5f6a293ba94a6494ee07c9f37f5230a179f3e90988a6d2186344d88439c
 size 1340618660

run-3/checkpoint-2000/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:72206922f1b9081896184e0e81442f186f632d854eaa2a989a764da3289fafd7
 size 2681472237

 version https://git-lfs.github.com/spec/v1
+oid sha256:258a4b43c754deffeca3aa94a6396e56b25a16cf6cf5e2da88d49e5fd6572574
 size 2681472237

run-3/checkpoint-2000/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:28b3bc1d93c8e5d77d91605f4094eab1adea91fbfc16b782d04a37130f913871
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:025eebcb042d7b5cf8c379a84ed4c03984839f35c20062f1c7126a35ed7e9a3f
 size 14244

run-3/checkpoint-2000/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8c5bf5016802e656b127c6e2dfcd024ab9f999b8198f48afb1fbc97e7f70a98a
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:5326b95a612a9d55b41f1e7997ba3abf5d10b502b886d90e00f8d84768789c20
 size 1064

run-3/checkpoint-2000/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e7873f643bbe0bcde81dd97f76bd7f35cc2bc225794540a61053f0708234413f
 size 5048

 version https://git-lfs.github.com/spec/v1
+oid sha256:1507950b2d37b737502f824dab70976a7fa7a07f6887612e84989d3ab0cc54db
 size 5048

run-3/checkpoint-2500/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f888cc9b2d239afd1f796ecf442889dcb89847e1551d533f970a04b47784e205
 size 1340618660

 version https://git-lfs.github.com/spec/v1
+oid sha256:c6aad66fef9c4a0979cc830ad430deca460b6d6d0fa6bf46b919be0daaa1b2f2
 size 1340618660

run-3/checkpoint-2500/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:833200cadeb92b311e1e85963436525c1884e05d9f5dd523bc334344740d456a
 size 2681472237

 version https://git-lfs.github.com/spec/v1
+oid sha256:93abc2c4970fa10d9ee4cf65fe85e56a27bac9d889b457729ea8dfc99bd14b1b
 size 2681472237

run-3/checkpoint-2500/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e901d2a4b6b7576bd2641f76be3ac251aed1d25d8496953ff1ca82ba6468b670
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:89585a93d0d1163797229c71d3b2b10076d6e8ddc0ecb610145c0b5486d9ef45
 size 14244

run-3/checkpoint-2500/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7420d9f04f235d5ca197b6ebe7418b52a8bf4c738ae163581d29c15a251463e0
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:781508431d34282ee15a4090d0bfb23ab89ba75cf1da881018817bf023ddb210
 size 1064

run-3/checkpoint-2500/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e7873f643bbe0bcde81dd97f76bd7f35cc2bc225794540a61053f0708234413f
 size 5048

 version https://git-lfs.github.com/spec/v1
+oid sha256:1507950b2d37b737502f824dab70976a7fa7a07f6887612e84989d3ab0cc54db
 size 5048

run-3/checkpoint-3000/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a80e1edfa34ca6c9f099aeb1b12228bd8f4731ff771d848cc487600202c82666
 size 1340618660

 version https://git-lfs.github.com/spec/v1
+oid sha256:db0c754a09ef5d8f060aae9b2d0f9bdc0b4a43e371f56b329e9aad51b41edeb0
 size 1340618660

run-3/checkpoint-3000/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:af1ed3f623429f004ff11ec563af27a5c9e0edc66b8bb942ad852c8b20892568
 size 2681472237

 version https://git-lfs.github.com/spec/v1
+oid sha256:d64a422180a34fc6f488ee7a791a05a66c2c8deac159f561c7cd2c6d1193147e
 size 2681472237

run-3/checkpoint-3000/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4fda71fd5f2516582f65b43df160d9b94f0e4b0fc28d9135bb5b0ac484f494d5
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:73ddd981a153c8372979053534b577e7b34ff4a45e4a8f39b8176414035e6ee1
 size 14244

run-3/checkpoint-3000/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f283f1f579c8656f5cf2b68f582eabd3dd9ab3ae1c7e0a2e5b7311b18f0970c5
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:92458ac9f1c9b1daeec2b10312e11502ad473746484a7e588e99ff151678a289
 size 1064

run-3/checkpoint-3000/trainer_state.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 8.04289544235925,
   "eval_steps": 500,
   "global_step": 3000,
   "is_hyper_param_search": true,
@@ -9,130 +9,94 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 1.0,
-      "eval_accuracy": 0.7727120518684387,
-      "eval_loss": 0.46057018637657166,
-      "eval_runtime": 8.9113,
-      "eval_samples_per_second": 334.743,
-      "eval_steps_per_second": 20.985,
-      "step": 373
-    },
-    {
-      "epoch": 1.3404825737265416,
-      "grad_norm": 8.923430442810059,
-      "learning_rate": 2.587666867882196e-05,
-      "loss": 0.4651,
       "step": 500
     },
     {
-      "epoch": 2.0,
-      "eval_accuracy": 0.7770700454711914,
-      "eval_loss": 0.5375419855117798,
-      "eval_runtime": 9.0162,
-      "eval_samples_per_second": 330.848,
-      "eval_steps_per_second": 20.74,
       "step": 746
     },
     {
-      "epoch": 2.680965147453083,
-      "grad_norm": 30.215883255004883,
-      "learning_rate": 2.187099241275045e-05,
-      "loss": 0.176,
       "step": 1000
     },
     {
-      "epoch": 3.0,
-      "eval_accuracy": 0.7777405381202698,
-      "eval_loss": 0.948959469795227,
-      "eval_runtime": 9.007,
-      "eval_samples_per_second": 331.187,
-      "eval_steps_per_second": 20.762,
-      "step": 1119
-    },
-    {
-      "epoch": 4.0,
-      "eval_accuracy": 0.7760643362998962,
-      "eval_loss": 1.1204984188079834,
-      "eval_runtime": 9.0575,
-      "eval_samples_per_second": 329.342,
-      "eval_steps_per_second": 20.646,
       "step": 1492
     },
     {
-      "epoch": 4.021447721179625,
-      "grad_norm": 0.16835728287696838,
-      "learning_rate": 1.7865316146678937e-05,
-      "loss": 0.0608,
       "step": 1500
     },
     {
-      "epoch": 5.0,
-      "eval_accuracy": 0.7787462472915649,
-      "eval_loss": 1.4213643074035645,
-      "eval_runtime": 9.0611,
-      "eval_samples_per_second": 329.211,
-      "eval_steps_per_second": 20.638,
-      "step": 1865
-    },
-    {
-      "epoch": 5.361930294906166,
-      "grad_norm": 0.16181084513664246,
-      "learning_rate": 1.3859639880607426e-05,
-      "loss": 0.0242,
       "step": 2000
     },
     {
-      "epoch": 6.0,
-      "eval_accuracy": 0.7784109711647034,
-      "eval_loss": 1.251684308052063,
-      "eval_runtime": 9.0244,
-      "eval_samples_per_second": 330.548,
-      "eval_steps_per_second": 20.722,
       "step": 2238
     },
     {
-      "epoch": 6.702412868632708,
-      "grad_norm": 2.160583734512329,
-      "learning_rate": 9.853963614535916e-06,
-      "loss": 0.0136,
       "step": 2500
     },
     {
-      "epoch": 7.0,
-      "eval_accuracy": 0.7753939032554626,
-      "eval_loss": 1.3670138120651245,
-      "eval_runtime": 9.0134,
-      "eval_samples_per_second": 330.951,
-      "eval_steps_per_second": 20.747,
-      "step": 2611
-    },
-    {
-      "epoch": 8.0,
-      "eval_accuracy": 0.7794166803359985,
-      "eval_loss": 1.4973613023757935,
-      "eval_runtime": 9.0776,
-      "eval_samples_per_second": 328.611,
-      "eval_steps_per_second": 20.6,
       "step": 2984
     },
     {
-      "epoch": 8.04289544235925,
-      "grad_norm": 1.054295301437378,
-      "learning_rate": 5.848287348464405e-06,
-      "loss": 0.0045,
       "step": 3000
     }
   ],
   "logging_steps": 500,
-  "max_steps": 3730,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 500,
-  "total_flos": 1.5221292738223464e+16,
-  "train_batch_size": 32,
   "trial_name": null,
   "trial_params": {
-    "learning_rate": 2.988234494489347e-05,
-    "per_device_train_batch_size": 32
   }
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 4.021447721179625,
   "eval_steps": 500,
   "global_step": 3000,
   "is_hyper_param_search": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.6702412868632708,
+      "grad_norm": 5.694277763366699,
+      "learning_rate": 2.542005392773407e-05,
+      "loss": 0.557,
       "step": 500
     },
     {
+      "epoch": 1.0,
+      "eval_accuracy": 0.7254441976547241,
+      "eval_loss": 0.5171247720718384,
+      "eval_runtime": 8.773,
+      "eval_samples_per_second": 340.02,
+      "eval_steps_per_second": 21.315,
       "step": 746
     },
     {
+      "epoch": 1.3404825737265416,
+      "grad_norm": 8.974740028381348,
+      "learning_rate": 2.359390062832789e-05,
+      "loss": 0.4156,
       "step": 1000
     },
     {
+      "epoch": 2.0,
+      "eval_accuracy": 0.7596379518508911,
+      "eval_loss": 0.6025224924087524,
+      "eval_runtime": 8.8883,
+      "eval_samples_per_second": 335.609,
+      "eval_steps_per_second": 21.039,
       "step": 1492
     },
     {
+      "epoch": 2.0107238605898123,
+      "grad_norm": 7.7003068923950195,
+      "learning_rate": 2.1767747328921705e-05,
+      "loss": 0.2948,
       "step": 1500
     },
     {
+      "epoch": 2.680965147453083,
+      "grad_norm": 20.24570655822754,
+      "learning_rate": 1.9941594029515523e-05,
+      "loss": 0.1262,
       "step": 2000
     },
     {
+      "epoch": 3.0,
+      "eval_accuracy": 0.7703654170036316,
+      "eval_loss": 0.822274386882782,
+      "eval_runtime": 8.8709,
+      "eval_samples_per_second": 336.267,
+      "eval_steps_per_second": 21.08,
       "step": 2238
     },
     {
+      "epoch": 3.351206434316354,
+      "grad_norm": 0.9093023538589478,
+      "learning_rate": 1.8115440730109338e-05,
+      "loss": 0.1012,
       "step": 2500
     },
     {
+      "epoch": 4.0,
+      "eval_accuracy": 0.7683539986610413,
+      "eval_loss": 1.2840174436569214,
+      "eval_runtime": 8.9163,
+      "eval_samples_per_second": 334.557,
+      "eval_steps_per_second": 20.973,
       "step": 2984
     },
     {
+      "epoch": 4.021447721179625,
+      "grad_norm": 29.010135650634766,
+      "learning_rate": 1.6289287430703153e-05,
+      "loss": 0.0675,
       "step": 3000
     }
   ],
   "logging_steps": 500,
+  "max_steps": 7460,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 500,
+  "total_flos": 7128413561883960.0,
+  "train_batch_size": 16,
   "trial_name": null,
   "trial_params": {
+    "learning_rate": 2.7246207227140256e-05,
+    "per_device_train_batch_size": 16
   }
 }

run-3/checkpoint-3000/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e7873f643bbe0bcde81dd97f76bd7f35cc2bc225794540a61053f0708234413f
 size 5048

 version https://git-lfs.github.com/spec/v1
+oid sha256:1507950b2d37b737502f824dab70976a7fa7a07f6887612e84989d3ab0cc54db
 size 5048

run-3/checkpoint-3500/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:19572f5d46152241f93d2ce9ea0af917f6d4e31d54467419b231809c5c78820d
 size 1340618660

 version https://git-lfs.github.com/spec/v1
+oid sha256:0b104e6a883139119bcd3c466a3f74b4b4faf1a438ba998995cf93b7459f5d75
 size 1340618660

run-3/checkpoint-3500/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:be76882b15fffb0814989424f9f49c8a80185c15fd13bbaa0448e30d2530166f
 size 2681472237

 version https://git-lfs.github.com/spec/v1
+oid sha256:47f7e34c32e17e68460af4e7f96b7d506989170dd403e106c7ed6a0cdfa9fd8b
 size 2681472237

run-3/checkpoint-3500/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:28276f7287b26243a28773084d3832b67115e4dc44e251cd9263cf32052e7f9a
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:b201aaa78b3795e16af7b9e8fadd8b4d82077458bbcb41c4bc25b6dd164e54e8
 size 14244

run-3/checkpoint-3500/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bf0b5d61230faf94be94de245eb52273abc7e93e8c0e9e2a11b6190fb32d452f
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:c9f0108c0583a35063a374236b28c567f1d23932beaba0aaf428c8f8200ce6e1
 size 1064

run-3/checkpoint-3500/trainer_state.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 9.383378016085791,
   "eval_steps": 500,
   "global_step": 3500,
   "is_hyper_param_search": true,
@@ -9,146 +9,101 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 1.0,
-      "eval_accuracy": 0.7727120518684387,
-      "eval_loss": 0.46057018637657166,
-      "eval_runtime": 8.9113,
-      "eval_samples_per_second": 334.743,
-      "eval_steps_per_second": 20.985,
-      "step": 373
-    },
-    {
-      "epoch": 1.3404825737265416,
-      "grad_norm": 8.923430442810059,
-      "learning_rate": 2.587666867882196e-05,
-      "loss": 0.4651,
       "step": 500
     },
     {
-      "epoch": 2.0,
-      "eval_accuracy": 0.7770700454711914,
-      "eval_loss": 0.5375419855117798,
-      "eval_runtime": 9.0162,
-      "eval_samples_per_second": 330.848,
-      "eval_steps_per_second": 20.74,
       "step": 746
     },
     {
-      "epoch": 2.680965147453083,
-      "grad_norm": 30.215883255004883,
-      "learning_rate": 2.187099241275045e-05,
-      "loss": 0.176,
       "step": 1000
     },
     {
-      "epoch": 3.0,
-      "eval_accuracy": 0.7777405381202698,
-      "eval_loss": 0.948959469795227,
-      "eval_runtime": 9.007,
-      "eval_samples_per_second": 331.187,
-      "eval_steps_per_second": 20.762,
-      "step": 1119
-    },
-    {
-      "epoch": 4.0,
-      "eval_accuracy": 0.7760643362998962,
-      "eval_loss": 1.1204984188079834,
-      "eval_runtime": 9.0575,
-      "eval_samples_per_second": 329.342,
-      "eval_steps_per_second": 20.646,
       "step": 1492
     },
     {
-      "epoch": 4.021447721179625,
-      "grad_norm": 0.16835728287696838,
-      "learning_rate": 1.7865316146678937e-05,
-      "loss": 0.0608,
       "step": 1500
     },
     {
-      "epoch": 5.0,
-      "eval_accuracy": 0.7787462472915649,
-      "eval_loss": 1.4213643074035645,
-      "eval_runtime": 9.0611,
-      "eval_samples_per_second": 329.211,
-      "eval_steps_per_second": 20.638,
-      "step": 1865
-    },
-    {
-      "epoch": 5.361930294906166,
-      "grad_norm": 0.16181084513664246,
-      "learning_rate": 1.3859639880607426e-05,
-      "loss": 0.0242,
       "step": 2000
     },
     {
-      "epoch": 6.0,
-      "eval_accuracy": 0.7784109711647034,
-      "eval_loss": 1.251684308052063,
-      "eval_runtime": 9.0244,
-      "eval_samples_per_second": 330.548,
-      "eval_steps_per_second": 20.722,
       "step": 2238
     },
     {
-      "epoch": 6.702412868632708,
-      "grad_norm": 2.160583734512329,
-      "learning_rate": 9.853963614535916e-06,
-      "loss": 0.0136,
       "step": 2500
     },
     {
-      "epoch": 7.0,
-      "eval_accuracy": 0.7753939032554626,
-      "eval_loss": 1.3670138120651245,
-      "eval_runtime": 9.0134,
-      "eval_samples_per_second": 330.951,
-      "eval_steps_per_second": 20.747,
-      "step": 2611
-    },
-    {
-      "epoch": 8.0,
-      "eval_accuracy": 0.7794166803359985,
-      "eval_loss": 1.4973613023757935,
-      "eval_runtime": 9.0776,
-      "eval_samples_per_second": 328.611,
-      "eval_steps_per_second": 20.6,
       "step": 2984
     },
     {
-      "epoch": 8.04289544235925,
-      "grad_norm": 1.054295301437378,
-      "learning_rate": 5.848287348464405e-06,
-      "loss": 0.0045,
       "step": 3000
     },
     {
-      "epoch": 9.0,
-      "eval_accuracy": 0.7797519564628601,
-      "eval_loss": 1.4273899793624878,
-      "eval_runtime": 9.0355,
-      "eval_samples_per_second": 330.142,
-      "eval_steps_per_second": 20.696,
-      "step": 3357
-    },
-    {
-      "epoch": 9.383378016085791,
-      "grad_norm": 0.03208499401807785,
-      "learning_rate": 1.8426110823928949e-06,
-      "loss": 0.0039,
       "step": 3500
     }
   ],
   "logging_steps": 500,
-  "max_steps": 3730,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 500,
-  "total_flos": 1.774860924913164e+16,
-  "train_batch_size": 32,
   "trial_name": null,
   "trial_params": {
-    "learning_rate": 2.988234494489347e-05,
-    "per_device_train_batch_size": 32
   }
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 4.6916890080428955,
   "eval_steps": 500,
   "global_step": 3500,
   "is_hyper_param_search": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.6702412868632708,
+      "grad_norm": 5.694277763366699,
+      "learning_rate": 2.542005392773407e-05,
+      "loss": 0.557,
       "step": 500
     },
     {
+      "epoch": 1.0,
+      "eval_accuracy": 0.7254441976547241,
+      "eval_loss": 0.5171247720718384,
+      "eval_runtime": 8.773,
+      "eval_samples_per_second": 340.02,
+      "eval_steps_per_second": 21.315,
       "step": 746
     },
     {
+      "epoch": 1.3404825737265416,
+      "grad_norm": 8.974740028381348,
+      "learning_rate": 2.359390062832789e-05,
+      "loss": 0.4156,
       "step": 1000
     },
     {
+      "epoch": 2.0,
+      "eval_accuracy": 0.7596379518508911,
+      "eval_loss": 0.6025224924087524,
+      "eval_runtime": 8.8883,
+      "eval_samples_per_second": 335.609,
+      "eval_steps_per_second": 21.039,
       "step": 1492
     },
     {
+      "epoch": 2.0107238605898123,
+      "grad_norm": 7.7003068923950195,
+      "learning_rate": 2.1767747328921705e-05,
+      "loss": 0.2948,
       "step": 1500
     },
     {
+      "epoch": 2.680965147453083,
+      "grad_norm": 20.24570655822754,
+      "learning_rate": 1.9941594029515523e-05,
+      "loss": 0.1262,
       "step": 2000
     },
     {
+      "epoch": 3.0,
+      "eval_accuracy": 0.7703654170036316,
+      "eval_loss": 0.822274386882782,
+      "eval_runtime": 8.8709,
+      "eval_samples_per_second": 336.267,
+      "eval_steps_per_second": 21.08,
       "step": 2238
     },
     {
+      "epoch": 3.351206434316354,
+      "grad_norm": 0.9093023538589478,
+      "learning_rate": 1.8115440730109338e-05,
+      "loss": 0.1012,
       "step": 2500
     },
     {
+      "epoch": 4.0,
+      "eval_accuracy": 0.7683539986610413,
+      "eval_loss": 1.2840174436569214,
+      "eval_runtime": 8.9163,
+      "eval_samples_per_second": 334.557,
+      "eval_steps_per_second": 20.973,
       "step": 2984
     },
     {
+      "epoch": 4.021447721179625,
+      "grad_norm": 29.010135650634766,
+      "learning_rate": 1.6289287430703153e-05,
+      "loss": 0.0675,
       "step": 3000
     },
     {
+      "epoch": 4.6916890080428955,
+      "grad_norm": 5.461940288543701,
+      "learning_rate": 1.4463134131296973e-05,
+      "loss": 0.0379,
       "step": 3500
     }
   ],
   "logging_steps": 500,
+  "max_steps": 7460,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 500,
+  "total_flos": 8321747640587064.0,
+  "train_batch_size": 16,
   "trial_name": null,
   "trial_params": {
+    "learning_rate": 2.7246207227140256e-05,
+    "per_device_train_batch_size": 16
   }
 }

run-3/checkpoint-3500/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e7873f643bbe0bcde81dd97f76bd7f35cc2bc225794540a61053f0708234413f
 size 5048

 version https://git-lfs.github.com/spec/v1
+oid sha256:1507950b2d37b737502f824dab70976a7fa7a07f6887612e84989d3ab0cc54db
 size 5048

run-3/checkpoint-4000/trainer_state.json CHANGED Viewed

@@ -10,103 +10,103 @@
   "log_history": [
     {
       "epoch": 0.6702412868632708,
-      "grad_norm": 13.834343910217285,
-      "learning_rate": 1.8689758651553552e-05,
-      "loss": 0.5491,
       "step": 500
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.762319803237915,
-      "eval_loss": 0.4773792326450348,
-      "eval_runtime": 8.5342,
-      "eval_samples_per_second": 349.533,
-      "eval_steps_per_second": 21.912,
       "step": 746
     },
     {
       "epoch": 1.3404825737265416,
-      "grad_norm": 12.70506477355957,
-      "learning_rate": 1.7347103576010912e-05,
-      "loss": 0.4116,
       "step": 1000
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.7696949243545532,
-      "eval_loss": 0.5922191739082336,
-      "eval_runtime": 8.5618,
-      "eval_samples_per_second": 348.409,
-      "eval_steps_per_second": 21.841,
       "step": 1492
     },
     {
       "epoch": 2.0107238605898123,
-      "grad_norm": 100.83161163330078,
-      "learning_rate": 1.6004448500468272e-05,
-      "loss": 0.2993,
       "step": 1500
     },
     {
       "epoch": 2.680965147453083,
-      "grad_norm": 251.75213623046875,
-      "learning_rate": 1.4661793424925633e-05,
-      "loss": 0.1136,
       "step": 2000
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.7676835656166077,
-      "eval_loss": 0.9344700574874878,
-      "eval_runtime": 8.6072,
-      "eval_samples_per_second": 346.57,
-      "eval_steps_per_second": 21.726,
       "step": 2238
     },
     {
       "epoch": 3.351206434316354,
-      "grad_norm": 17.935895919799805,
-      "learning_rate": 1.3319138349382991e-05,
-      "loss": 0.1,
       "step": 2500
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.777405321598053,
-      "eval_loss": 1.230825662612915,
-      "eval_runtime": 8.5403,
-      "eval_samples_per_second": 349.285,
-      "eval_steps_per_second": 21.896,
       "step": 2984
     },
     {
       "epoch": 4.021447721179625,
-      "grad_norm": 0.8948413729667664,
-      "learning_rate": 1.1976483273840351e-05,
-      "loss": 0.0715,
       "step": 3000
     },
     {
       "epoch": 4.6916890080428955,
-      "grad_norm": 0.7082040309906006,
-      "learning_rate": 1.063382819829771e-05,
-      "loss": 0.0294,
       "step": 3500
     },
     {
       "epoch": 5.0,
-      "eval_accuracy": 0.7763996124267578,
-      "eval_loss": 1.194653034210205,
-      "eval_runtime": 8.5079,
-      "eval_samples_per_second": 350.617,
-      "eval_steps_per_second": 21.98,
       "step": 3730
     },
     {
       "epoch": 5.361930294906166,
-      "grad_norm": 0.04226335510611534,
-      "learning_rate": 9.29117312275507e-06,
-      "loss": 0.025,
       "step": 4000
     }
   ],
@@ -115,11 +115,11 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 500,
-  "total_flos": 9475245428463684.0,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": {
-    "learning_rate": 2.0032413727096193e-05,
     "per_device_train_batch_size": 16
   }
 }

   "log_history": [
     {
       "epoch": 0.6702412868632708,
+      "grad_norm": 5.694277763366699,
+      "learning_rate": 2.542005392773407e-05,
+      "loss": 0.557,
       "step": 500
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.7254441976547241,
+      "eval_loss": 0.5171247720718384,
+      "eval_runtime": 8.773,
+      "eval_samples_per_second": 340.02,
+      "eval_steps_per_second": 21.315,
       "step": 746
     },
     {
       "epoch": 1.3404825737265416,
+      "grad_norm": 8.974740028381348,
+      "learning_rate": 2.359390062832789e-05,
+      "loss": 0.4156,
       "step": 1000
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.7596379518508911,
+      "eval_loss": 0.6025224924087524,
+      "eval_runtime": 8.8883,
+      "eval_samples_per_second": 335.609,
+      "eval_steps_per_second": 21.039,
       "step": 1492
     },
     {
       "epoch": 2.0107238605898123,
+      "grad_norm": 7.7003068923950195,
+      "learning_rate": 2.1767747328921705e-05,
+      "loss": 0.2948,
       "step": 1500
     },
     {
       "epoch": 2.680965147453083,
+      "grad_norm": 20.24570655822754,
+      "learning_rate": 1.9941594029515523e-05,
+      "loss": 0.1262,
       "step": 2000
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.7703654170036316,
+      "eval_loss": 0.822274386882782,
+      "eval_runtime": 8.8709,
+      "eval_samples_per_second": 336.267,
+      "eval_steps_per_second": 21.08,
       "step": 2238
     },
     {
       "epoch": 3.351206434316354,
+      "grad_norm": 0.9093023538589478,
+      "learning_rate": 1.8115440730109338e-05,
+      "loss": 0.1012,
       "step": 2500
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.7683539986610413,
+      "eval_loss": 1.2840174436569214,
+      "eval_runtime": 8.9163,
+      "eval_samples_per_second": 334.557,
+      "eval_steps_per_second": 20.973,
       "step": 2984
     },
     {
       "epoch": 4.021447721179625,
+      "grad_norm": 29.010135650634766,
+      "learning_rate": 1.6289287430703153e-05,
+      "loss": 0.0675,
       "step": 3000
     },
     {
       "epoch": 4.6916890080428955,
+      "grad_norm": 5.461940288543701,
+      "learning_rate": 1.4463134131296973e-05,
+      "loss": 0.0379,
       "step": 3500
     },
     {
       "epoch": 5.0,
+      "eval_accuracy": 0.7700302004814148,
+      "eval_loss": 1.4166399240493774,
+      "eval_runtime": 8.8683,
+      "eval_samples_per_second": 336.367,
+      "eval_steps_per_second": 21.086,
       "step": 3730
     },
     {
       "epoch": 5.361930294906166,
+      "grad_norm": 0.004815839231014252,
+      "learning_rate": 1.2636980831890788e-05,
+      "loss": 0.034,
       "step": 4000
     }
   ],
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 500,
+  "total_flos": 9511987426390368.0,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": {
+    "learning_rate": 2.7246207227140256e-05,
     "per_device_train_batch_size": 16
   }
 }

run-3/checkpoint-4500/trainer_state.json CHANGED Viewed

@@ -10,119 +10,119 @@
   "log_history": [
     {
       "epoch": 0.6702412868632708,
-      "grad_norm": 13.834343910217285,
-      "learning_rate": 1.8689758651553552e-05,
-      "loss": 0.5491,
       "step": 500
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.762319803237915,
-      "eval_loss": 0.4773792326450348,
-      "eval_runtime": 8.5342,
-      "eval_samples_per_second": 349.533,
-      "eval_steps_per_second": 21.912,
       "step": 746
     },
     {
       "epoch": 1.3404825737265416,
-      "grad_norm": 12.70506477355957,
-      "learning_rate": 1.7347103576010912e-05,
-      "loss": 0.4116,
       "step": 1000
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.7696949243545532,
-      "eval_loss": 0.5922191739082336,
-      "eval_runtime": 8.5618,
-      "eval_samples_per_second": 348.409,
-      "eval_steps_per_second": 21.841,
       "step": 1492
     },
     {
       "epoch": 2.0107238605898123,
-      "grad_norm": 100.83161163330078,
-      "learning_rate": 1.6004448500468272e-05,
-      "loss": 0.2993,
       "step": 1500
     },
     {
       "epoch": 2.680965147453083,
-      "grad_norm": 251.75213623046875,
-      "learning_rate": 1.4661793424925633e-05,
-      "loss": 0.1136,
       "step": 2000
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.7676835656166077,
-      "eval_loss": 0.9344700574874878,
-      "eval_runtime": 8.6072,
-      "eval_samples_per_second": 346.57,
-      "eval_steps_per_second": 21.726,
       "step": 2238
     },
     {
       "epoch": 3.351206434316354,
-      "grad_norm": 17.935895919799805,
-      "learning_rate": 1.3319138349382991e-05,
-      "loss": 0.1,
       "step": 2500
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.777405321598053,
-      "eval_loss": 1.230825662612915,
-      "eval_runtime": 8.5403,
-      "eval_samples_per_second": 349.285,
-      "eval_steps_per_second": 21.896,
       "step": 2984
     },
     {
       "epoch": 4.021447721179625,
-      "grad_norm": 0.8948413729667664,
-      "learning_rate": 1.1976483273840351e-05,
-      "loss": 0.0715,
       "step": 3000
     },
     {
       "epoch": 4.6916890080428955,
-      "grad_norm": 0.7082040309906006,
-      "learning_rate": 1.063382819829771e-05,
-      "loss": 0.0294,
       "step": 3500
     },
     {
       "epoch": 5.0,
-      "eval_accuracy": 0.7763996124267578,
-      "eval_loss": 1.194653034210205,
-      "eval_runtime": 8.5079,
-      "eval_samples_per_second": 350.617,
-      "eval_steps_per_second": 21.98,
       "step": 3730
     },
     {
       "epoch": 5.361930294906166,
-      "grad_norm": 0.04226335510611534,
-      "learning_rate": 9.29117312275507e-06,
-      "loss": 0.025,
       "step": 4000
     },
     {
       "epoch": 6.0,
-      "eval_accuracy": 0.7713711261749268,
-      "eval_loss": 1.458601713180542,
-      "eval_runtime": 8.5492,
-      "eval_samples_per_second": 348.92,
-      "eval_steps_per_second": 21.873,
       "step": 4476
     },
     {
       "epoch": 6.032171581769437,
-      "grad_norm": 1.8958851099014282,
-      "learning_rate": 7.94851804721243e-06,
-      "loss": 0.0138,
       "step": 4500
     }
   ],
@@ -131,11 +131,11 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 500,
-  "total_flos": 1.065994825014864e+16,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": {
-    "learning_rate": 2.0032413727096193e-05,
     "per_device_train_batch_size": 16
   }
 }

   "log_history": [
     {
       "epoch": 0.6702412868632708,
+      "grad_norm": 5.694277763366699,
+      "learning_rate": 2.542005392773407e-05,
+      "loss": 0.557,
       "step": 500
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.7254441976547241,
+      "eval_loss": 0.5171247720718384,
+      "eval_runtime": 8.773,
+      "eval_samples_per_second": 340.02,
+      "eval_steps_per_second": 21.315,
       "step": 746
     },
     {
       "epoch": 1.3404825737265416,
+      "grad_norm": 8.974740028381348,
+      "learning_rate": 2.359390062832789e-05,
+      "loss": 0.4156,
       "step": 1000
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.7596379518508911,
+      "eval_loss": 0.6025224924087524,
+      "eval_runtime": 8.8883,
+      "eval_samples_per_second": 335.609,
+      "eval_steps_per_second": 21.039,
       "step": 1492
     },
     {
       "epoch": 2.0107238605898123,
+      "grad_norm": 7.7003068923950195,
+      "learning_rate": 2.1767747328921705e-05,
+      "loss": 0.2948,
       "step": 1500
     },
     {
       "epoch": 2.680965147453083,
+      "grad_norm": 20.24570655822754,
+      "learning_rate": 1.9941594029515523e-05,
+      "loss": 0.1262,
       "step": 2000
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.7703654170036316,
+      "eval_loss": 0.822274386882782,
+      "eval_runtime": 8.8709,
+      "eval_samples_per_second": 336.267,
+      "eval_steps_per_second": 21.08,
       "step": 2238
     },
     {
       "epoch": 3.351206434316354,
+      "grad_norm": 0.9093023538589478,
+      "learning_rate": 1.8115440730109338e-05,
+      "loss": 0.1012,
       "step": 2500
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.7683539986610413,
+      "eval_loss": 1.2840174436569214,
+      "eval_runtime": 8.9163,
+      "eval_samples_per_second": 334.557,
+      "eval_steps_per_second": 20.973,
       "step": 2984
     },
     {
       "epoch": 4.021447721179625,
+      "grad_norm": 29.010135650634766,
+      "learning_rate": 1.6289287430703153e-05,
+      "loss": 0.0675,
       "step": 3000
     },
     {
       "epoch": 4.6916890080428955,
+      "grad_norm": 5.461940288543701,
+      "learning_rate": 1.4463134131296973e-05,
+      "loss": 0.0379,
       "step": 3500
     },
     {
       "epoch": 5.0,
+      "eval_accuracy": 0.7700302004814148,
+      "eval_loss": 1.4166399240493774,
+      "eval_runtime": 8.8683,
+      "eval_samples_per_second": 336.367,
+      "eval_steps_per_second": 21.086,
       "step": 3730
     },
     {
       "epoch": 5.361930294906166,
+      "grad_norm": 0.004815839231014252,
+      "learning_rate": 1.2636980831890788e-05,
+      "loss": 0.034,
       "step": 4000
     },
     {
       "epoch": 6.0,
+      "eval_accuracy": 0.7720415592193604,
+      "eval_loss": 1.576446533203125,
+      "eval_runtime": 8.9004,
+      "eval_samples_per_second": 335.152,
+      "eval_steps_per_second": 21.01,
       "step": 4476
     },
     {
       "epoch": 6.032171581769437,
+      "grad_norm": 0.29464954137802124,
+      "learning_rate": 1.0810827532484605e-05,
+      "loss": 0.0175,
       "step": 4500
     }
   ],
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 500,
+  "total_flos": 1.0698816209314716e+16,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": {
+    "learning_rate": 2.7246207227140256e-05,
     "per_device_train_batch_size": 16
   }
 }

run-3/checkpoint-5000/trainer_state.json CHANGED Viewed

@@ -10,126 +10,126 @@
   "log_history": [
     {
       "epoch": 0.6702412868632708,
-      "grad_norm": 13.834343910217285,
-      "learning_rate": 1.8689758651553552e-05,
-      "loss": 0.5491,
       "step": 500
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.762319803237915,
-      "eval_loss": 0.4773792326450348,
-      "eval_runtime": 8.5342,
-      "eval_samples_per_second": 349.533,
-      "eval_steps_per_second": 21.912,
       "step": 746
     },
     {
       "epoch": 1.3404825737265416,
-      "grad_norm": 12.70506477355957,
-      "learning_rate": 1.7347103576010912e-05,
-      "loss": 0.4116,
       "step": 1000
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.7696949243545532,
-      "eval_loss": 0.5922191739082336,
-      "eval_runtime": 8.5618,
-      "eval_samples_per_second": 348.409,
-      "eval_steps_per_second": 21.841,
       "step": 1492
     },
     {
       "epoch": 2.0107238605898123,
-      "grad_norm": 100.83161163330078,
-      "learning_rate": 1.6004448500468272e-05,
-      "loss": 0.2993,
       "step": 1500
     },
     {
       "epoch": 2.680965147453083,
-      "grad_norm": 251.75213623046875,
-      "learning_rate": 1.4661793424925633e-05,
-      "loss": 0.1136,
       "step": 2000
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.7676835656166077,
-      "eval_loss": 0.9344700574874878,
-      "eval_runtime": 8.6072,
-      "eval_samples_per_second": 346.57,
-      "eval_steps_per_second": 21.726,
       "step": 2238
     },
     {
       "epoch": 3.351206434316354,
-      "grad_norm": 17.935895919799805,
-      "learning_rate": 1.3319138349382991e-05,
-      "loss": 0.1,
       "step": 2500
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.777405321598053,
-      "eval_loss": 1.230825662612915,
-      "eval_runtime": 8.5403,
-      "eval_samples_per_second": 349.285,
-      "eval_steps_per_second": 21.896,
       "step": 2984
     },
     {
       "epoch": 4.021447721179625,
-      "grad_norm": 0.8948413729667664,
-      "learning_rate": 1.1976483273840351e-05,
-      "loss": 0.0715,
       "step": 3000
     },
     {
       "epoch": 4.6916890080428955,
-      "grad_norm": 0.7082040309906006,
-      "learning_rate": 1.063382819829771e-05,
-      "loss": 0.0294,
       "step": 3500
     },
     {
       "epoch": 5.0,
-      "eval_accuracy": 0.7763996124267578,
-      "eval_loss": 1.194653034210205,
-      "eval_runtime": 8.5079,
-      "eval_samples_per_second": 350.617,
-      "eval_steps_per_second": 21.98,
       "step": 3730
     },
     {
       "epoch": 5.361930294906166,
-      "grad_norm": 0.04226335510611534,
-      "learning_rate": 9.29117312275507e-06,
-      "loss": 0.025,
       "step": 4000
     },
     {
       "epoch": 6.0,
-      "eval_accuracy": 0.7713711261749268,
-      "eval_loss": 1.458601713180542,
-      "eval_runtime": 8.5492,
-      "eval_samples_per_second": 348.92,
-      "eval_steps_per_second": 21.873,
       "step": 4476
     },
     {
       "epoch": 6.032171581769437,
-      "grad_norm": 1.8958851099014282,
-      "learning_rate": 7.94851804721243e-06,
-      "loss": 0.0138,
       "step": 4500
     },
     {
       "epoch": 6.702412868632708,
-      "grad_norm": 0.009470508433878422,
-      "learning_rate": 6.60586297166979e-06,
-      "loss": 0.0098,
       "step": 5000
     }
   ],
@@ -138,11 +138,11 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 500,
-  "total_flos": 1.1851884436529952e+16,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": {
-    "learning_rate": 2.0032413727096193e-05,
     "per_device_train_batch_size": 16
   }
 }

   "log_history": [
     {
       "epoch": 0.6702412868632708,
+      "grad_norm": 5.694277763366699,
+      "learning_rate": 2.542005392773407e-05,
+      "loss": 0.557,
       "step": 500
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.7254441976547241,
+      "eval_loss": 0.5171247720718384,
+      "eval_runtime": 8.773,
+      "eval_samples_per_second": 340.02,
+      "eval_steps_per_second": 21.315,
       "step": 746
     },
     {
       "epoch": 1.3404825737265416,
+      "grad_norm": 8.974740028381348,
+      "learning_rate": 2.359390062832789e-05,
+      "loss": 0.4156,
       "step": 1000
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.7596379518508911,
+      "eval_loss": 0.6025224924087524,
+      "eval_runtime": 8.8883,
+      "eval_samples_per_second": 335.609,
+      "eval_steps_per_second": 21.039,
       "step": 1492
     },
     {
       "epoch": 2.0107238605898123,
+      "grad_norm": 7.7003068923950195,
+      "learning_rate": 2.1767747328921705e-05,
+      "loss": 0.2948,
       "step": 1500
     },
     {
       "epoch": 2.680965147453083,
+      "grad_norm": 20.24570655822754,
+      "learning_rate": 1.9941594029515523e-05,
+      "loss": 0.1262,
       "step": 2000
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.7703654170036316,
+      "eval_loss": 0.822274386882782,
+      "eval_runtime": 8.8709,
+      "eval_samples_per_second": 336.267,
+      "eval_steps_per_second": 21.08,
       "step": 2238
     },
     {
       "epoch": 3.351206434316354,
+      "grad_norm": 0.9093023538589478,
+      "learning_rate": 1.8115440730109338e-05,
+      "loss": 0.1012,
       "step": 2500
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.7683539986610413,
+      "eval_loss": 1.2840174436569214,
+      "eval_runtime": 8.9163,
+      "eval_samples_per_second": 334.557,
+      "eval_steps_per_second": 20.973,
       "step": 2984
     },
     {
       "epoch": 4.021447721179625,
+      "grad_norm": 29.010135650634766,
+      "learning_rate": 1.6289287430703153e-05,
+      "loss": 0.0675,
       "step": 3000
     },
     {
       "epoch": 4.6916890080428955,
+      "grad_norm": 5.461940288543701,
+      "learning_rate": 1.4463134131296973e-05,
+      "loss": 0.0379,
       "step": 3500
     },
     {
       "epoch": 5.0,
+      "eval_accuracy": 0.7700302004814148,
+      "eval_loss": 1.4166399240493774,
+      "eval_runtime": 8.8683,
+      "eval_samples_per_second": 336.367,
+      "eval_steps_per_second": 21.086,
       "step": 3730
     },
     {
       "epoch": 5.361930294906166,
+      "grad_norm": 0.004815839231014252,
+      "learning_rate": 1.2636980831890788e-05,
+      "loss": 0.034,
       "step": 4000
     },
     {
       "epoch": 6.0,
+      "eval_accuracy": 0.7720415592193604,
+      "eval_loss": 1.576446533203125,
+      "eval_runtime": 8.9004,
+      "eval_samples_per_second": 335.152,
+      "eval_steps_per_second": 21.01,
       "step": 4476
     },
     {
       "epoch": 6.032171581769437,
+      "grad_norm": 0.29464954137802124,
+      "learning_rate": 1.0810827532484605e-05,
+      "loss": 0.0175,
       "step": 4500
     },
     {
       "epoch": 6.702412868632708,
+      "grad_norm": 0.010658634826540947,
+      "learning_rate": 8.984674233078421e-06,
+      "loss": 0.0101,
       "step": 5000
     }
   ],
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 500,
+  "total_flos": 1.1885859772569756e+16,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": {
+    "learning_rate": 2.7246207227140256e-05,
     "per_device_train_batch_size": 16
   }
 }

run-3/checkpoint-5500/trainer_state.json CHANGED Viewed

@@ -10,142 +10,142 @@
   "log_history": [
     {
       "epoch": 0.6702412868632708,
-      "grad_norm": 13.834343910217285,
-      "learning_rate": 1.8689758651553552e-05,
-      "loss": 0.5491,
       "step": 500
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.762319803237915,
-      "eval_loss": 0.4773792326450348,
-      "eval_runtime": 8.5342,
-      "eval_samples_per_second": 349.533,
-      "eval_steps_per_second": 21.912,
       "step": 746
     },
     {
       "epoch": 1.3404825737265416,
-      "grad_norm": 12.70506477355957,
-      "learning_rate": 1.7347103576010912e-05,
-      "loss": 0.4116,
       "step": 1000
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.7696949243545532,
-      "eval_loss": 0.5922191739082336,
-      "eval_runtime": 8.5618,
-      "eval_samples_per_second": 348.409,
-      "eval_steps_per_second": 21.841,
       "step": 1492
     },
     {
       "epoch": 2.0107238605898123,
-      "grad_norm": 100.83161163330078,
-      "learning_rate": 1.6004448500468272e-05,
-      "loss": 0.2993,
       "step": 1500
     },
     {
       "epoch": 2.680965147453083,
-      "grad_norm": 251.75213623046875,
-      "learning_rate": 1.4661793424925633e-05,
-      "loss": 0.1136,
       "step": 2000
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.7676835656166077,
-      "eval_loss": 0.9344700574874878,
-      "eval_runtime": 8.6072,
-      "eval_samples_per_second": 346.57,
-      "eval_steps_per_second": 21.726,
       "step": 2238
     },
     {
       "epoch": 3.351206434316354,
-      "grad_norm": 17.935895919799805,
-      "learning_rate": 1.3319138349382991e-05,
-      "loss": 0.1,
       "step": 2500
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.777405321598053,
-      "eval_loss": 1.230825662612915,
-      "eval_runtime": 8.5403,
-      "eval_samples_per_second": 349.285,
-      "eval_steps_per_second": 21.896,
       "step": 2984
     },
     {
       "epoch": 4.021447721179625,
-      "grad_norm": 0.8948413729667664,
-      "learning_rate": 1.1976483273840351e-05,
-      "loss": 0.0715,
       "step": 3000
     },
     {
       "epoch": 4.6916890080428955,
-      "grad_norm": 0.7082040309906006,
-      "learning_rate": 1.063382819829771e-05,
-      "loss": 0.0294,
       "step": 3500
     },
     {
       "epoch": 5.0,
-      "eval_accuracy": 0.7763996124267578,
-      "eval_loss": 1.194653034210205,
-      "eval_runtime": 8.5079,
-      "eval_samples_per_second": 350.617,
-      "eval_steps_per_second": 21.98,
       "step": 3730
     },
     {
       "epoch": 5.361930294906166,
-      "grad_norm": 0.04226335510611534,
-      "learning_rate": 9.29117312275507e-06,
-      "loss": 0.025,
       "step": 4000
     },
     {
       "epoch": 6.0,
-      "eval_accuracy": 0.7713711261749268,
-      "eval_loss": 1.458601713180542,
-      "eval_runtime": 8.5492,
-      "eval_samples_per_second": 348.92,
-      "eval_steps_per_second": 21.873,
       "step": 4476
     },
     {
       "epoch": 6.032171581769437,
-      "grad_norm": 1.8958851099014282,
-      "learning_rate": 7.94851804721243e-06,
-      "loss": 0.0138,
       "step": 4500
     },
     {
       "epoch": 6.702412868632708,
-      "grad_norm": 0.009470508433878422,
-      "learning_rate": 6.60586297166979e-06,
-      "loss": 0.0098,
       "step": 5000
     },
     {
       "epoch": 7.0,
-      "eval_accuracy": 0.7660073637962341,
-      "eval_loss": 1.4296730756759644,
-      "eval_runtime": 8.5064,
-      "eval_samples_per_second": 350.675,
-      "eval_steps_per_second": 21.983,
       "step": 5222
     },
     {
       "epoch": 7.372654155495979,
-      "grad_norm": 0.5303798317909241,
-      "learning_rate": 5.26320789612715e-06,
-      "loss": 0.0083,
       "step": 5500
     }
   ],
@@ -154,11 +154,11 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 500,
-  "total_flos": 1.3032055029202848e+16,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": {
-    "learning_rate": 2.0032413727096193e-05,
     "per_device_train_batch_size": 16
   }
 }

   "log_history": [
     {
       "epoch": 0.6702412868632708,
+      "grad_norm": 5.694277763366699,
+      "learning_rate": 2.542005392773407e-05,
+      "loss": 0.557,
       "step": 500
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.7254441976547241,
+      "eval_loss": 0.5171247720718384,
+      "eval_runtime": 8.773,
+      "eval_samples_per_second": 340.02,
+      "eval_steps_per_second": 21.315,
       "step": 746
     },
     {
       "epoch": 1.3404825737265416,
+      "grad_norm": 8.974740028381348,
+      "learning_rate": 2.359390062832789e-05,
+      "loss": 0.4156,
       "step": 1000
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.7596379518508911,
+      "eval_loss": 0.6025224924087524,
+      "eval_runtime": 8.8883,
+      "eval_samples_per_second": 335.609,
+      "eval_steps_per_second": 21.039,
       "step": 1492
     },
     {
       "epoch": 2.0107238605898123,
+      "grad_norm": 7.7003068923950195,
+      "learning_rate": 2.1767747328921705e-05,
+      "loss": 0.2948,
       "step": 1500
     },
     {
       "epoch": 2.680965147453083,
+      "grad_norm": 20.24570655822754,
+      "learning_rate": 1.9941594029515523e-05,
+      "loss": 0.1262,
       "step": 2000
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.7703654170036316,
+      "eval_loss": 0.822274386882782,
+      "eval_runtime": 8.8709,
+      "eval_samples_per_second": 336.267,
+      "eval_steps_per_second": 21.08,
       "step": 2238
     },
     {
       "epoch": 3.351206434316354,
+      "grad_norm": 0.9093023538589478,
+      "learning_rate": 1.8115440730109338e-05,
+      "loss": 0.1012,
       "step": 2500
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.7683539986610413,
+      "eval_loss": 1.2840174436569214,
+      "eval_runtime": 8.9163,
+      "eval_samples_per_second": 334.557,
+      "eval_steps_per_second": 20.973,
       "step": 2984
     },
     {
       "epoch": 4.021447721179625,
+      "grad_norm": 29.010135650634766,
+      "learning_rate": 1.6289287430703153e-05,
+      "loss": 0.0675,
       "step": 3000
     },
     {
       "epoch": 4.6916890080428955,
+      "grad_norm": 5.461940288543701,
+      "learning_rate": 1.4463134131296973e-05,
+      "loss": 0.0379,
       "step": 3500
     },
     {
       "epoch": 5.0,
+      "eval_accuracy": 0.7700302004814148,
+      "eval_loss": 1.4166399240493774,
+      "eval_runtime": 8.8683,
+      "eval_samples_per_second": 336.367,
+      "eval_steps_per_second": 21.086,
       "step": 3730
     },
     {
       "epoch": 5.361930294906166,
+      "grad_norm": 0.004815839231014252,
+      "learning_rate": 1.2636980831890788e-05,
+      "loss": 0.034,
       "step": 4000
     },
     {
       "epoch": 6.0,
+      "eval_accuracy": 0.7720415592193604,
+      "eval_loss": 1.576446533203125,
+      "eval_runtime": 8.9004,
+      "eval_samples_per_second": 335.152,
+      "eval_steps_per_second": 21.01,
       "step": 4476
     },
     {
       "epoch": 6.032171581769437,
+      "grad_norm": 0.29464954137802124,
+      "learning_rate": 1.0810827532484605e-05,
+      "loss": 0.0175,
       "step": 4500
     },
     {
       "epoch": 6.702412868632708,
+      "grad_norm": 0.010658634826540947,
+      "learning_rate": 8.984674233078421e-06,
+      "loss": 0.0101,
       "step": 5000
     },
     {
       "epoch": 7.0,
+      "eval_accuracy": 0.7753939032554626,
+      "eval_loss": 1.5760776996612549,
+      "eval_runtime": 8.8735,
+      "eval_samples_per_second": 336.169,
+      "eval_steps_per_second": 21.074,
       "step": 5222
     },
     {
       "epoch": 7.372654155495979,
+      "grad_norm": 32.647804260253906,
+      "learning_rate": 7.158520933672239e-06,
+      "loss": 0.0101,
       "step": 5500
     }
   ],
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 500,
+  "total_flos": 1.307182215348216e+16,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": {
+    "learning_rate": 2.7246207227140256e-05,
     "per_device_train_batch_size": 16
   }
 }