inflaton commited on Jun 6

Commit

8619e88

•

1 Parent(s): 3f7fbce

Training in progress, step 2500

Browse files

Files changed (24) hide show

model.safetensors +1 -1
run-1/checkpoint-1000/model.safetensors +1 -1
run-1/checkpoint-1000/optimizer.pt +1 -1
run-1/checkpoint-1000/rng_state.pth +1 -1
run-1/checkpoint-1000/scheduler.pt +1 -1
run-1/checkpoint-1000/training_args.bin +1 -1
run-1/checkpoint-1500/model.safetensors +1 -1
run-1/checkpoint-1500/optimizer.pt +1 -1
run-1/checkpoint-1500/rng_state.pth +1 -1
run-1/checkpoint-1500/scheduler.pt +1 -1
run-1/checkpoint-1500/training_args.bin +1 -1
run-1/checkpoint-2000/model.safetensors +1 -1
run-1/checkpoint-2000/optimizer.pt +1 -1
run-1/checkpoint-2000/rng_state.pth +1 -1
run-1/checkpoint-2000/scheduler.pt +1 -1
run-1/checkpoint-2000/training_args.bin +1 -1
run-1/checkpoint-2500/model.safetensors +1 -1
run-1/checkpoint-2500/optimizer.pt +1 -1
run-1/checkpoint-2500/rng_state.pth +1 -1
run-1/checkpoint-2500/scheduler.pt +1 -1
run-1/checkpoint-2500/trainer_state.json +71 -44
run-1/checkpoint-2500/training_args.bin +1 -1
run-1/checkpoint-3000/trainer_state.json +90 -54
run-1/checkpoint-3500/trainer_state.json +103 -58

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f8aac62e03ade79bd140ad03d4165c4c7674c4b98432ea9d71cb5d14f49ccdee
 size 1340618660

 version https://git-lfs.github.com/spec/v1
+oid sha256:19c2e9b0d7dc747a8d8d78f5dc799a8808ec878848fb8586ab212cf9c8c81ffb
 size 1340618660

run-1/checkpoint-1000/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2c088729f3427ac5c1e2df68174b0854bf2324672574affd7736e3e6bb2a9acd
 size 1340618660

 version https://git-lfs.github.com/spec/v1
+oid sha256:99df09116ca6c07cd2ee50f92c83af65b6ed682f87444c81d56debdb15a67bc7
 size 1340618660

run-1/checkpoint-1000/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:24fabdf20c53024f38140ea6ff24d52a80b8508e81735b52184322551cd78897
 size 2681472237

 version https://git-lfs.github.com/spec/v1
+oid sha256:b2d18b53a4e7f25346bd7c16172a4adef79a6edeb39f9f4050e609b09add8364
 size 2681472237

run-1/checkpoint-1000/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:54bea121f6144566f091fc3db2c9498700b03cbc999f62b42941d6dfd7452436
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:ee5d4f5bf9cb098c9058ef37d6ea26594c6643d7293de0cc233fefe6dc2e9266
 size 14244

run-1/checkpoint-1000/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:86e0387f8c1f0c455d9d47684623696b0dd21029c4ed1b59ee625cc8620c5218
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:59e2c9d4f5aab1b41945071fcf783c8c98428267f9d726c5315008dd5ee958e5
 size 1064

run-1/checkpoint-1000/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0d4b8161881416da68cca372d0db6cfca426bea24c4463a15d5c25fafd1f2c02
 size 5048

 version https://git-lfs.github.com/spec/v1
+oid sha256:cb93c6c6aec435a71a91d9e9d85d4dd9cc0b1363951552ae02212d34fb657545
 size 5048

run-1/checkpoint-1500/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ad04493da459f0813f0a12a3a1e6615890d448cab7cd6f98457af575a0587de8
 size 1340618660

 version https://git-lfs.github.com/spec/v1
+oid sha256:6bd242d25db48d533f5b419e9accae96c0bbb75abac1929a7bc3ff3c8fa62507
 size 1340618660

run-1/checkpoint-1500/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e8184cdbc47a88fc421339a73ca2bc3f26fda024fd480e96872d6a7d2950dabb
 size 2681472237

 version https://git-lfs.github.com/spec/v1
+oid sha256:57dc78f006df17d06afd83a6c804746d65526acad93c0007b6985d4008e130c9
 size 2681472237

run-1/checkpoint-1500/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d94e9959fe10619a73c116e156a1d9aa901f533fcb5d140a1ce44038a0d2c6fd
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:fd348b5ed52326f9e7c0a4fc04aeede902c855e83469ebb30ebe75d48562d6f0
 size 14244

run-1/checkpoint-1500/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4f2c5a1d01f0f1f7e70b8c4640a04bfb69042c6b12da253e819ac542e2bbb605
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:6cac12569c89bd6af0a6c464c2ccb5502cfa80b78c591436907cf2144eff2ef7
 size 1064

run-1/checkpoint-1500/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0d4b8161881416da68cca372d0db6cfca426bea24c4463a15d5c25fafd1f2c02
 size 5048

 version https://git-lfs.github.com/spec/v1
+oid sha256:cb93c6c6aec435a71a91d9e9d85d4dd9cc0b1363951552ae02212d34fb657545
 size 5048

run-1/checkpoint-2000/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c02a37660ef6bf57a92f148d0dee9e3d689ee051360bce911faee8e264d385bc
 size 1340618660

 version https://git-lfs.github.com/spec/v1
+oid sha256:459d423b4a4cab135485dbccd2081772edb7d23a6b21139598082433ac96a4c8
 size 1340618660

run-1/checkpoint-2000/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7962c95fabee8dfa19bc5b350d007585f00550d1180e59d92317dafa5e3865ec
 size 2681472237

 version https://git-lfs.github.com/spec/v1
+oid sha256:644bad49b0cb9c00f4eb96528debee31287df83b350f2841ba416a7119f87223
 size 2681472237

run-1/checkpoint-2000/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:75c227961e4ca5d0f7ba2c4abe0a18977107a0b2c234fd11994cf5a6ecf20ea8
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:b49bea260ecfd05aebf3d6cf4bfc1d44acdc012600b03e899ea43dd79114c75d
 size 14244

run-1/checkpoint-2000/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b8aab70f36df8a8105cdb3296e9361f9efbddc35ccdc7d44c370ace77d4ff888
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:2e241ad10906a6203ac7c777fe41f5c867da1c3afcff02ec2e9f7a5fe7164cc6
 size 1064

run-1/checkpoint-2000/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0d4b8161881416da68cca372d0db6cfca426bea24c4463a15d5c25fafd1f2c02
 size 5048

 version https://git-lfs.github.com/spec/v1
+oid sha256:cb93c6c6aec435a71a91d9e9d85d4dd9cc0b1363951552ae02212d34fb657545
 size 5048

run-1/checkpoint-2500/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1a41db24a10e574e2b78eeb6f866395aa88c5230db6759d5b95ca29c9d5a28a6
 size 1340618660

 version https://git-lfs.github.com/spec/v1
+oid sha256:19c2e9b0d7dc747a8d8d78f5dc799a8808ec878848fb8586ab212cf9c8c81ffb
 size 1340618660

run-1/checkpoint-2500/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bafc3f7f7a6509710922db78c915ecfe67f71d01e55763c57cafa025f5b507ab
 size 2681472237

 version https://git-lfs.github.com/spec/v1
+oid sha256:98005b87b74e181ecf343bb98631f3732bad5e17c680437d5a2b007ef6db45a7
 size 2681472237

run-1/checkpoint-2500/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:59660cfbae90c75aff22fbb936299b2868fa9acddf052cbe56f2d442145f3b8b
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:e8cec4ebd0626f313f72eea7d5bf9683890b0894a82bb4c8ec29edc9e8142906
 size 14244

run-1/checkpoint-2500/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:323f7ece6edd36dc80d4f36bf9473a3dc7924fe86832e5afe55cc73ff4cb517a
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:7c0fea71d66caec6080c6e087ac6154fb81cbccfc41bd256c64df83f2553485e
 size 1064

run-1/checkpoint-2500/trainer_state.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 3.351206434316354,
   "eval_steps": 500,
   "global_step": 2500,
   "is_hyper_param_search": true,
@@ -9,78 +9,105 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.6702412868632708,
-      "grad_norm": 20.23386001586914,
-      "learning_rate": 1.2656372669468497e-05,
-      "loss": 0.5543,
       "step": 500
     },
     {
-      "epoch": 1.0,
-      "eval_accuracy": 0.7663425803184509,
-      "eval_loss": 0.4670431315898895,
-      "eval_runtime": 8.8872,
-      "eval_samples_per_second": 335.653,
-      "eval_steps_per_second": 21.042,
       "step": 746
     },
     {
-      "epoch": 1.3404825737265416,
-      "grad_norm": 15.927043914794922,
-      "learning_rate": 1.1747150494937714e-05,
-      "loss": 0.3962,
       "step": 1000
     },
     {
-      "epoch": 2.0,
-      "eval_accuracy": 0.7676835656166077,
-      "eval_loss": 0.5088892579078674,
-      "eval_runtime": 8.9675,
-      "eval_samples_per_second": 332.647,
-      "eval_steps_per_second": 20.853,
       "step": 1492
     },
     {
-      "epoch": 2.0107238605898123,
-      "grad_norm": 13.621393203735352,
-      "learning_rate": 1.0837928320406931e-05,
-      "loss": 0.3095,
       "step": 1500
     },
     {
-      "epoch": 2.680965147453083,
-      "grad_norm": 11.860713005065918,
-      "learning_rate": 9.92870614587615e-06,
-      "loss": 0.1321,
       "step": 2000
     },
     {
-      "epoch": 3.0,
-      "eval_accuracy": 0.7743881940841675,
-      "eval_loss": 0.7907660007476807,
-      "eval_runtime": 8.9795,
-      "eval_samples_per_second": 332.2,
-      "eval_steps_per_second": 20.825,
       "step": 2238
     },
     {
-      "epoch": 3.351206434316354,
-      "grad_norm": 4.521104335784912,
-      "learning_rate": 9.019483971345365e-06,
-      "loss": 0.0899,
       "step": 2500
     }
   ],
   "logging_steps": 500,
-  "max_steps": 7460,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 500,
-  "total_flos": 5932068918206580.0,
-  "train_batch_size": 16,
   "trial_name": null,
   "trial_params": {
-    "learning_rate": 1.356559484399928e-05,
-    "per_device_train_batch_size": 16
   }
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 6.702412868632708,
   "eval_steps": 500,
   "global_step": 2500,
   "is_hyper_param_search": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 1.0,
+      "eval_accuracy": 0.7106939554214478,
+      "eval_loss": 0.538670003414154,
+      "eval_runtime": 8.938,
+      "eval_samples_per_second": 333.743,
+      "eval_steps_per_second": 20.922,
+      "step": 373
+    },
+    {
+      "epoch": 1.3404825737265416,
+      "grad_norm": 6.848696231842041,
+      "learning_rate": 2.0560750028839876e-06,
+      "loss": 0.5981,
       "step": 500
     },
     {
+      "epoch": 2.0,
+      "eval_accuracy": 0.7321488261222839,
+      "eval_loss": 0.5092849135398865,
+      "eval_runtime": 8.9404,
+      "eval_samples_per_second": 333.653,
+      "eval_steps_per_second": 20.916,
       "step": 746
     },
     {
+      "epoch": 2.680965147453083,
+      "grad_norm": 9.747313499450684,
+      "learning_rate": 1.7377971386604603e-06,
+      "loss": 0.4883,
       "step": 1000
     },
     {
+      "epoch": 3.0,
+      "eval_accuracy": 0.7412001490592957,
+      "eval_loss": 0.4964694678783417,
+      "eval_runtime": 8.8911,
+      "eval_samples_per_second": 335.504,
+      "eval_steps_per_second": 21.032,
+      "step": 1119
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.7412001490592957,
+      "eval_loss": 0.5169216394424438,
+      "eval_runtime": 8.9728,
+      "eval_samples_per_second": 332.448,
+      "eval_steps_per_second": 20.841,
       "step": 1492
     },
     {
+      "epoch": 4.021447721179625,
+      "grad_norm": 6.287171363830566,
+      "learning_rate": 1.4195192744369326e-06,
+      "loss": 0.4333,
       "step": 1500
     },
     {
+      "epoch": 5.0,
+      "eval_accuracy": 0.7422058582305908,
+      "eval_loss": 0.5148842930793762,
+      "eval_runtime": 8.9557,
+      "eval_samples_per_second": 333.084,
+      "eval_steps_per_second": 20.881,
+      "step": 1865
+    },
+    {
+      "epoch": 5.361930294906166,
+      "grad_norm": 10.289645195007324,
+      "learning_rate": 1.101241410213405e-06,
+      "loss": 0.3746,
       "step": 2000
     },
     {
+      "epoch": 6.0,
+      "eval_accuracy": 0.744552493095398,
+      "eval_loss": 0.5290147662162781,
+      "eval_runtime": 8.9283,
+      "eval_samples_per_second": 334.107,
+      "eval_steps_per_second": 20.945,
       "step": 2238
     },
     {
+      "epoch": 6.702412868632708,
+      "grad_norm": 7.953075408935547,
+      "learning_rate": 7.829635459898776e-07,
+      "loss": 0.3503,
       "step": 2500
     }
   ],
   "logging_steps": 500,
+  "max_steps": 3730,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 500,
+  "total_flos": 1.2728741518130688e+16,
+  "train_batch_size": 32,
   "trial_name": null,
   "trial_params": {
+    "learning_rate": 2.374352867107515e-06,
+    "per_device_train_batch_size": 32
   }
 }

run-1/checkpoint-2500/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0d4b8161881416da68cca372d0db6cfca426bea24c4463a15d5c25fafd1f2c02
 size 5048

 version https://git-lfs.github.com/spec/v1
+oid sha256:cb93c6c6aec435a71a91d9e9d85d4dd9cc0b1363951552ae02212d34fb657545
 size 5048

run-1/checkpoint-3000/trainer_state.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 4.021447721179625,
   "eval_steps": 500,
   "global_step": 3000,
   "is_hyper_param_search": true,
@@ -9,94 +9,130 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.6702412868632708,
-      "grad_norm": 20.23386001586914,
-      "learning_rate": 1.2656372669468497e-05,
-      "loss": 0.5543,
       "step": 500
     },
     {
-      "epoch": 1.0,
-      "eval_accuracy": 0.7663425803184509,
-      "eval_loss": 0.4670431315898895,
-      "eval_runtime": 8.8872,
-      "eval_samples_per_second": 335.653,
-      "eval_steps_per_second": 21.042,
       "step": 746
     },
     {
-      "epoch": 1.3404825737265416,
-      "grad_norm": 15.927043914794922,
-      "learning_rate": 1.1747150494937714e-05,
-      "loss": 0.3962,
       "step": 1000
     },
     {
-      "epoch": 2.0,
-      "eval_accuracy": 0.7676835656166077,
-      "eval_loss": 0.5088892579078674,
-      "eval_runtime": 8.9675,
-      "eval_samples_per_second": 332.647,
-      "eval_steps_per_second": 20.853,
       "step": 1492
     },
     {
-      "epoch": 2.0107238605898123,
-      "grad_norm": 13.621393203735352,
-      "learning_rate": 1.0837928320406931e-05,
-      "loss": 0.3095,
       "step": 1500
     },
     {
-      "epoch": 2.680965147453083,
-      "grad_norm": 11.860713005065918,
-      "learning_rate": 9.92870614587615e-06,
-      "loss": 0.1321,
       "step": 2000
     },
     {
-      "epoch": 3.0,
-      "eval_accuracy": 0.7743881940841675,
-      "eval_loss": 0.7907660007476807,
-      "eval_runtime": 8.9795,
-      "eval_samples_per_second": 332.2,
-      "eval_steps_per_second": 20.825,
       "step": 2238
     },
     {
-      "epoch": 3.351206434316354,
-      "grad_norm": 4.521104335784912,
-      "learning_rate": 9.019483971345365e-06,
-      "loss": 0.0899,
       "step": 2500
     },
     {
-      "epoch": 4.0,
-      "eval_accuracy": 0.7730472683906555,
-      "eval_loss": 1.2473280429840088,
-      "eval_runtime": 9.0219,
-      "eval_samples_per_second": 330.638,
-      "eval_steps_per_second": 20.727,
       "step": 2984
     },
     {
-      "epoch": 4.021447721179625,
-      "grad_norm": 1.990652084350586,
-      "learning_rate": 8.110261796814582e-06,
-      "loss": 0.0644,
       "step": 3000
     }
   ],
   "logging_steps": 500,
-  "max_steps": 7460,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 500,
-  "total_flos": 7120029848297796.0,
-  "train_batch_size": 16,
   "trial_name": null,
   "trial_params": {
-    "learning_rate": 1.356559484399928e-05,
-    "per_device_train_batch_size": 16
   }
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 8.04289544235925,
   "eval_steps": 500,
   "global_step": 3000,
   "is_hyper_param_search": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 1.0,
+      "eval_accuracy": 0.7106939554214478,
+      "eval_loss": 0.538670003414154,
+      "eval_runtime": 8.938,
+      "eval_samples_per_second": 333.743,
+      "eval_steps_per_second": 20.922,
+      "step": 373
+    },
+    {
+      "epoch": 1.3404825737265416,
+      "grad_norm": 6.848696231842041,
+      "learning_rate": 2.0560750028839876e-06,
+      "loss": 0.5981,
       "step": 500
     },
     {
+      "epoch": 2.0,
+      "eval_accuracy": 0.7321488261222839,
+      "eval_loss": 0.5092849135398865,
+      "eval_runtime": 8.9404,
+      "eval_samples_per_second": 333.653,
+      "eval_steps_per_second": 20.916,
       "step": 746
     },
     {
+      "epoch": 2.680965147453083,
+      "grad_norm": 9.747313499450684,
+      "learning_rate": 1.7377971386604603e-06,
+      "loss": 0.4883,
       "step": 1000
     },
     {
+      "epoch": 3.0,
+      "eval_accuracy": 0.7412001490592957,
+      "eval_loss": 0.4964694678783417,
+      "eval_runtime": 8.8911,
+      "eval_samples_per_second": 335.504,
+      "eval_steps_per_second": 21.032,
+      "step": 1119
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.7412001490592957,
+      "eval_loss": 0.5169216394424438,
+      "eval_runtime": 8.9728,
+      "eval_samples_per_second": 332.448,
+      "eval_steps_per_second": 20.841,
       "step": 1492
     },
     {
+      "epoch": 4.021447721179625,
+      "grad_norm": 6.287171363830566,
+      "learning_rate": 1.4195192744369326e-06,
+      "loss": 0.4333,
       "step": 1500
     },
     {
+      "epoch": 5.0,
+      "eval_accuracy": 0.7422058582305908,
+      "eval_loss": 0.5148842930793762,
+      "eval_runtime": 8.9557,
+      "eval_samples_per_second": 333.084,
+      "eval_steps_per_second": 20.881,
+      "step": 1865
+    },
+    {
+      "epoch": 5.361930294906166,
+      "grad_norm": 10.289645195007324,
+      "learning_rate": 1.101241410213405e-06,
+      "loss": 0.3746,
       "step": 2000
     },
     {
+      "epoch": 6.0,
+      "eval_accuracy": 0.744552493095398,
+      "eval_loss": 0.5290147662162781,
+      "eval_runtime": 8.9283,
+      "eval_samples_per_second": 334.107,
+      "eval_steps_per_second": 20.945,
       "step": 2238
     },
     {
+      "epoch": 6.702412868632708,
+      "grad_norm": 7.953075408935547,
+      "learning_rate": 7.829635459898776e-07,
+      "loss": 0.3503,
       "step": 2500
     },
     {
+      "epoch": 7.0,
+      "eval_accuracy": 0.7505866289138794,
+      "eval_loss": 0.5396992564201355,
+      "eval_runtime": 8.8627,
+      "eval_samples_per_second": 336.58,
+      "eval_steps_per_second": 21.1,
+      "step": 2611
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.7492457032203674,
+      "eval_loss": 0.5516654253005981,
+      "eval_runtime": 8.9319,
+      "eval_samples_per_second": 333.971,
+      "eval_steps_per_second": 20.936,
       "step": 2984
     },
     {
+      "epoch": 8.04289544235925,
+      "grad_norm": 8.618916511535645,
+      "learning_rate": 4.646856817663501e-07,
+      "loss": 0.3183,
       "step": 3000
     }
   ],
   "logging_steps": 500,
+  "max_steps": 3730,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 500,
+  "total_flos": 1.52601424956666e+16,
+  "train_batch_size": 32,
   "trial_name": null,
   "trial_params": {
+    "learning_rate": 2.374352867107515e-06,
+    "per_device_train_batch_size": 32
   }
 }

run-1/checkpoint-3500/trainer_state.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 4.6916890080428955,
   "eval_steps": 500,
   "global_step": 3500,
   "is_hyper_param_search": true,
@@ -9,101 +9,146 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.6702412868632708,
-      "grad_norm": 20.23386001586914,
-      "learning_rate": 1.2656372669468497e-05,
-      "loss": 0.5543,
       "step": 500
     },
     {
-      "epoch": 1.0,
-      "eval_accuracy": 0.7663425803184509,
-      "eval_loss": 0.4670431315898895,
-      "eval_runtime": 8.8872,
-      "eval_samples_per_second": 335.653,
-      "eval_steps_per_second": 21.042,
       "step": 746
     },
     {
-      "epoch": 1.3404825737265416,
-      "grad_norm": 15.927043914794922,
-      "learning_rate": 1.1747150494937714e-05,
-      "loss": 0.3962,
       "step": 1000
     },
     {
-      "epoch": 2.0,
-      "eval_accuracy": 0.7676835656166077,
-      "eval_loss": 0.5088892579078674,
-      "eval_runtime": 8.9675,
-      "eval_samples_per_second": 332.647,
-      "eval_steps_per_second": 20.853,
       "step": 1492
     },
     {
-      "epoch": 2.0107238605898123,
-      "grad_norm": 13.621393203735352,
-      "learning_rate": 1.0837928320406931e-05,
-      "loss": 0.3095,
       "step": 1500
     },
     {
-      "epoch": 2.680965147453083,
-      "grad_norm": 11.860713005065918,
-      "learning_rate": 9.92870614587615e-06,
-      "loss": 0.1321,
       "step": 2000
     },
     {
-      "epoch": 3.0,
-      "eval_accuracy": 0.7743881940841675,
-      "eval_loss": 0.7907660007476807,
-      "eval_runtime": 8.9795,
-      "eval_samples_per_second": 332.2,
-      "eval_steps_per_second": 20.825,
       "step": 2238
     },
     {
-      "epoch": 3.351206434316354,
-      "grad_norm": 4.521104335784912,
-      "learning_rate": 9.019483971345365e-06,
-      "loss": 0.0899,
       "step": 2500
     },
     {
-      "epoch": 4.0,
-      "eval_accuracy": 0.7730472683906555,
-      "eval_loss": 1.2473280429840088,
-      "eval_runtime": 9.0219,
-      "eval_samples_per_second": 330.638,
-      "eval_steps_per_second": 20.727,
       "step": 2984
     },
     {
-      "epoch": 4.021447721179625,
-      "grad_norm": 1.990652084350586,
-      "learning_rate": 8.110261796814582e-06,
-      "loss": 0.0644,
       "step": 3000
     },
     {
-      "epoch": 4.6916890080428955,
-      "grad_norm": 28.1745662689209,
-      "learning_rate": 7.2010396222838e-06,
-      "loss": 0.0335,
       "step": 3500
     }
   ],
   "logging_steps": 500,
-  "max_steps": 7460,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 500,
-  "total_flos": 8303869908315396.0,
-  "train_batch_size": 16,
   "trial_name": null,
   "trial_params": {
-    "learning_rate": 1.356559484399928e-05,
-    "per_device_train_batch_size": 16
   }
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 9.383378016085791,
   "eval_steps": 500,
   "global_step": 3500,
   "is_hyper_param_search": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 1.0,
+      "eval_accuracy": 0.7106939554214478,
+      "eval_loss": 0.538670003414154,
+      "eval_runtime": 8.938,
+      "eval_samples_per_second": 333.743,
+      "eval_steps_per_second": 20.922,
+      "step": 373
+    },
+    {
+      "epoch": 1.3404825737265416,
+      "grad_norm": 6.848696231842041,
+      "learning_rate": 2.0560750028839876e-06,
+      "loss": 0.5981,
       "step": 500
     },
     {
+      "epoch": 2.0,
+      "eval_accuracy": 0.7321488261222839,
+      "eval_loss": 0.5092849135398865,
+      "eval_runtime": 8.9404,
+      "eval_samples_per_second": 333.653,
+      "eval_steps_per_second": 20.916,
       "step": 746
     },
     {
+      "epoch": 2.680965147453083,
+      "grad_norm": 9.747313499450684,
+      "learning_rate": 1.7377971386604603e-06,
+      "loss": 0.4883,
       "step": 1000
     },
     {
+      "epoch": 3.0,
+      "eval_accuracy": 0.7412001490592957,
+      "eval_loss": 0.4964694678783417,
+      "eval_runtime": 8.8911,
+      "eval_samples_per_second": 335.504,
+      "eval_steps_per_second": 21.032,
+      "step": 1119
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.7412001490592957,
+      "eval_loss": 0.5169216394424438,
+      "eval_runtime": 8.9728,
+      "eval_samples_per_second": 332.448,
+      "eval_steps_per_second": 20.841,
       "step": 1492
     },
     {
+      "epoch": 4.021447721179625,
+      "grad_norm": 6.287171363830566,
+      "learning_rate": 1.4195192744369326e-06,
+      "loss": 0.4333,
       "step": 1500
     },
     {
+      "epoch": 5.0,
+      "eval_accuracy": 0.7422058582305908,
+      "eval_loss": 0.5148842930793762,
+      "eval_runtime": 8.9557,
+      "eval_samples_per_second": 333.084,
+      "eval_steps_per_second": 20.881,
+      "step": 1865
+    },
+    {
+      "epoch": 5.361930294906166,
+      "grad_norm": 10.289645195007324,
+      "learning_rate": 1.101241410213405e-06,
+      "loss": 0.3746,
       "step": 2000
     },
     {
+      "epoch": 6.0,
+      "eval_accuracy": 0.744552493095398,
+      "eval_loss": 0.5290147662162781,
+      "eval_runtime": 8.9283,
+      "eval_samples_per_second": 334.107,
+      "eval_steps_per_second": 20.945,
       "step": 2238
     },
     {
+      "epoch": 6.702412868632708,
+      "grad_norm": 7.953075408935547,
+      "learning_rate": 7.829635459898776e-07,
+      "loss": 0.3503,
       "step": 2500
     },
     {
+      "epoch": 7.0,
+      "eval_accuracy": 0.7505866289138794,
+      "eval_loss": 0.5396992564201355,
+      "eval_runtime": 8.8627,
+      "eval_samples_per_second": 336.58,
+      "eval_steps_per_second": 21.1,
+      "step": 2611
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.7492457032203674,
+      "eval_loss": 0.5516654253005981,
+      "eval_runtime": 8.9319,
+      "eval_samples_per_second": 333.971,
+      "eval_steps_per_second": 20.936,
       "step": 2984
     },
     {
+      "epoch": 8.04289544235925,
+      "grad_norm": 8.618916511535645,
+      "learning_rate": 4.646856817663501e-07,
+      "loss": 0.3183,
       "step": 3000
     },
     {
+      "epoch": 9.0,
+      "eval_accuracy": 0.7472343444824219,
+      "eval_loss": 0.5633240938186646,
+      "eval_runtime": 8.9492,
+      "eval_samples_per_second": 333.326,
+      "eval_steps_per_second": 20.896,
+      "step": 3357
+    },
+    {
+      "epoch": 9.383378016085791,
+      "grad_norm": 10.000330924987793,
+      "learning_rate": 1.4640781754282265e-07,
+      "loss": 0.2984,
       "step": 3500
     }
   ],
   "logging_steps": 500,
+  "max_steps": 3730,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 500,
+  "total_flos": 1.781054971229646e+16,
+  "train_batch_size": 32,
   "trial_name": null,
   "trial_params": {
+    "learning_rate": 2.374352867107515e-06,
+    "per_device_train_batch_size": 32
   }
 }