inflaton commited on Jun 6

Commit

e83a66f

•

1 Parent(s): 40e50c1

Training in progress, step 3500

Browse files

Files changed (17) hide show

model.safetensors +1 -1
run-2/checkpoint-2500/model.safetensors +1 -1
run-2/checkpoint-2500/optimizer.pt +1 -1
run-2/checkpoint-2500/rng_state.pth +1 -1
run-2/checkpoint-2500/scheduler.pt +1 -1
run-2/checkpoint-2500/training_args.bin +1 -1
run-2/checkpoint-3000/model.safetensors +1 -1
run-2/checkpoint-3000/optimizer.pt +1 -1
run-2/checkpoint-3000/rng_state.pth +1 -1
run-2/checkpoint-3000/scheduler.pt +1 -1
run-2/checkpoint-3000/training_args.bin +1 -1
run-2/checkpoint-3500/model.safetensors +1 -1
run-2/checkpoint-3500/optimizer.pt +1 -1
run-2/checkpoint-3500/rng_state.pth +1 -1
run-2/checkpoint-3500/scheduler.pt +1 -1
run-2/checkpoint-3500/trainer_state.json +103 -58
run-2/checkpoint-3500/training_args.bin +1 -1

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:03f58060fd011a98d8f2d969998b3f2b03b259ce50532656dcac85415292b624
 size 1340618660

 version https://git-lfs.github.com/spec/v1
+oid sha256:5b23bd5bcb6c3f20acbd47f46114a67d639b650403922c7d1cf092f251113025
 size 1340618660

run-2/checkpoint-2500/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6a4823de534c03cd8365c4d1063243e9562f9ad233f8e5b72c4faf9e5d30e9a9
 size 1340618660

 version https://git-lfs.github.com/spec/v1
+oid sha256:fd03c9a052519a37796fd580798a1b7167c12e63f4edbe7fca408f06cff6e5e4
 size 1340618660

run-2/checkpoint-2500/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:900bdd243dc7019f81b887d4d33268ba44e786303120f092f21956eaffde22c5
 size 2681472237

 version https://git-lfs.github.com/spec/v1
+oid sha256:dd55af21bbe43a82736b823ac7d9272daaf1458487f7e4061546d9909d7ec30b
 size 2681472237

run-2/checkpoint-2500/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:59660cfbae90c75aff22fbb936299b2868fa9acddf052cbe56f2d442145f3b8b
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:e8cec4ebd0626f313f72eea7d5bf9683890b0894a82bb4c8ec29edc9e8142906
 size 14244

run-2/checkpoint-2500/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dc5b41e5527ab73bd9c8d7179f5eb7befb77760a1f96a4dd58ff327d4748a0c9
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:009a2f5834038eb367fc915673c02337753238147294fc9ac84286149749ba11
 size 1064

run-2/checkpoint-2500/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c68cfe34dae325096495265befbc04045f52f535badd4f779e9c272d3d0b0f80
 size 5048

 version https://git-lfs.github.com/spec/v1
+oid sha256:2ed49fe002187d5ffed6d819c5938a827ebb9152529606096a657c65a1141ceb
 size 5048

run-2/checkpoint-3000/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ee681dc84fac79d1d9d643c003b15bd7ccdee1fb48cb870b660bb2ee31378926
 size 1340618660

 version https://git-lfs.github.com/spec/v1
+oid sha256:25be34950a69b17ba12b1d3ccfe75faee8c6694f3b41f2e87bd9a121a42947e0
 size 1340618660

run-2/checkpoint-3000/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2782860aba135a87310c45e9585c94228cb176d6a10f199e3b982b07a1496824
 size 2681472237

 version https://git-lfs.github.com/spec/v1
+oid sha256:334df518cbe61cc8ee49b8158465538643593267e658da6228234d6649832566
 size 2681472237

run-2/checkpoint-3000/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6db288463401544c237747deaf541285079a7fac434ce2c87fca0252ed44b357
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:878fd85ac5cda037d90d9829e34a480865a8673564905ce79142723b0e6d8190
 size 14244

run-2/checkpoint-3000/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f6502a7770a12ff2e084bd7551eb23352078f9a6fdfa8b4cb93b3ae1994b447c
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:bf7c6fc647fdf7339fe77d6d702eedc9cb500398ae4245ed815ba9a6fa346f3d
 size 1064

run-2/checkpoint-3000/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c68cfe34dae325096495265befbc04045f52f535badd4f779e9c272d3d0b0f80
 size 5048

 version https://git-lfs.github.com/spec/v1
+oid sha256:2ed49fe002187d5ffed6d819c5938a827ebb9152529606096a657c65a1141ceb
 size 5048

run-2/checkpoint-3500/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f507d33e2ac708b2aebe24a9e2832e2c9ca8ebfb0f277b02a31df18d9f9893b7
 size 1340618660

 version https://git-lfs.github.com/spec/v1
+oid sha256:5b23bd5bcb6c3f20acbd47f46114a67d639b650403922c7d1cf092f251113025
 size 1340618660

run-2/checkpoint-3500/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f4e47b93b237f3238d088c97ebb8c296c7735b81a7bc2954c8902b00452643ff
 size 2681472237

 version https://git-lfs.github.com/spec/v1
+oid sha256:3d95c4d377f38ddd2fe3f1efdf0181471a229d634f0504184b4364f9903406c9
 size 2681472237

run-2/checkpoint-3500/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3f4337773f0e3eb3ebd819153d5c9547815b2eb781fb1b3b8acb5f2d3c9910ed
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:f89a7fe4a55f5798a402c40524f63ed4391bf96f4737fa9c1c3b85a3eb033165
 size 14244

run-2/checkpoint-3500/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b75a1a9f7ae761e7eb2cdacbdb01d35d249e5b0ce9653f5183e3f1e93019ba13
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:77616bc41c3c2bf2895df13b27557d69c18633a5408ba8760434113beac7d02a
 size 1064

run-2/checkpoint-3500/trainer_state.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 4.6916890080428955,
   "eval_steps": 500,
   "global_step": 3500,
   "is_hyper_param_search": true,
@@ -9,101 +9,146 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.6702412868632708,
-      "grad_norm": 17.923147201538086,
-      "learning_rate": 1.3001640168623715e-05,
-      "loss": 0.5514,
       "step": 500
     },
     {
-      "epoch": 1.0,
-      "eval_accuracy": 0.7683539986610413,
-      "eval_loss": 0.46452510356903076,
-      "eval_runtime": 8.9706,
-      "eval_samples_per_second": 332.531,
-      "eval_steps_per_second": 20.846,
       "step": 746
     },
     {
-      "epoch": 1.3404825737265416,
-      "grad_norm": 19.32151222229004,
-      "learning_rate": 1.2067614294440976e-05,
-      "loss": 0.3969,
       "step": 1000
     },
     {
-      "epoch": 2.0,
-      "eval_accuracy": 0.7643312215805054,
-      "eval_loss": 0.5671606063842773,
-      "eval_runtime": 9.0896,
-      "eval_samples_per_second": 328.177,
-      "eval_steps_per_second": 20.573,
       "step": 1492
     },
     {
-      "epoch": 2.0107238605898123,
-      "grad_norm": 17.702476501464844,
-      "learning_rate": 1.1133588420258238e-05,
-      "loss": 0.2998,
       "step": 1500
     },
     {
-      "epoch": 2.680965147453083,
-      "grad_norm": 6.516891956329346,
-      "learning_rate": 1.0199562546075501e-05,
-      "loss": 0.1319,
       "step": 2000
     },
     {
-      "epoch": 3.0,
-      "eval_accuracy": 0.7770700454711914,
-      "eval_loss": 0.7936307191848755,
-      "eval_runtime": 9.0031,
-      "eval_samples_per_second": 331.332,
-      "eval_steps_per_second": 20.771,
       "step": 2238
     },
     {
-      "epoch": 3.351206434316354,
-      "grad_norm": 0.19944968819618225,
-      "learning_rate": 9.265536671892763e-06,
-      "loss": 0.0932,
       "step": 2500
     },
     {
-      "epoch": 4.0,
-      "eval_accuracy": 0.7750586867332458,
-      "eval_loss": 1.1848183870315552,
-      "eval_runtime": 9.064,
-      "eval_samples_per_second": 329.104,
-      "eval_steps_per_second": 20.631,
       "step": 2984
     },
     {
-      "epoch": 4.021447721179625,
-      "grad_norm": 0.03240065276622772,
-      "learning_rate": 8.331510797710023e-06,
-      "loss": 0.0618,
       "step": 3000
     },
     {
-      "epoch": 4.6916890080428955,
-      "grad_norm": 23.173229217529297,
-      "learning_rate": 7.397484923527286e-06,
-      "loss": 0.0314,
       "step": 3500
     }
   ],
   "logging_steps": 500,
-  "max_steps": 7460,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 500,
-  "total_flos": 8303869908315396.0,
-  "train_batch_size": 16,
   "trial_name": null,
   "trial_params": {
-    "learning_rate": 1.3935666042806453e-05,
-    "per_device_train_batch_size": 16
   }
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 9.383378016085791,
   "eval_steps": 500,
   "global_step": 3500,
   "is_hyper_param_search": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 1.0,
+      "eval_accuracy": 0.7525980472564697,
+      "eval_loss": 0.4786739945411682,
+      "eval_runtime": 8.9408,
+      "eval_samples_per_second": 333.638,
+      "eval_steps_per_second": 20.915,
+      "step": 373
+    },
+    {
+      "epoch": 1.3404825737265416,
+      "grad_norm": 76.13782501220703,
+      "learning_rate": 1.6728270896334427e-05,
+      "loss": 0.4795,
       "step": 500
     },
     {
+      "epoch": 2.0,
+      "eval_accuracy": 0.7680187821388245,
+      "eval_loss": 0.5211130976676941,
+      "eval_runtime": 8.9873,
+      "eval_samples_per_second": 331.913,
+      "eval_steps_per_second": 20.807,
       "step": 746
     },
     {
+      "epoch": 2.680965147453083,
+      "grad_norm": 7.740549087524414,
+      "learning_rate": 1.4138755277706807e-05,
+      "loss": 0.2127,
       "step": 1000
     },
     {
+      "epoch": 3.0,
+      "eval_accuracy": 0.7683539986610413,
+      "eval_loss": 0.8232186436653137,
+      "eval_runtime": 8.9717,
+      "eval_samples_per_second": 332.49,
+      "eval_steps_per_second": 20.843,
+      "step": 1119
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.7660073637962341,
+      "eval_loss": 1.132562518119812,
+      "eval_runtime": 9.1516,
+      "eval_samples_per_second": 325.954,
+      "eval_steps_per_second": 20.434,
       "step": 1492
     },
     {
+      "epoch": 4.021447721179625,
+      "grad_norm": 2.1688199043273926,
+      "learning_rate": 1.1549239659079185e-05,
+      "loss": 0.0802,
       "step": 1500
     },
     {
+      "epoch": 5.0,
+      "eval_accuracy": 0.7693597078323364,
+      "eval_loss": 1.26638662815094,
+      "eval_runtime": 9.0164,
+      "eval_samples_per_second": 330.843,
+      "eval_steps_per_second": 20.74,
+      "step": 1865
+    },
+    {
+      "epoch": 5.361930294906166,
+      "grad_norm": 3.62616229057312,
+      "learning_rate": 8.959724040451565e-06,
+      "loss": 0.0363,
       "step": 2000
     },
     {
+      "epoch": 6.0,
+      "eval_accuracy": 0.7639960050582886,
+      "eval_loss": 1.3062156438827515,
+      "eval_runtime": 9.0187,
+      "eval_samples_per_second": 330.757,
+      "eval_steps_per_second": 20.735,
       "step": 2238
     },
     {
+      "epoch": 6.702412868632708,
+      "grad_norm": 0.06093325465917587,
+      "learning_rate": 6.370208421823946e-06,
+      "loss": 0.0173,
       "step": 2500
     },
     {
+      "epoch": 7.0,
+      "eval_accuracy": 0.7693597078323364,
+      "eval_loss": 1.458601713180542,
+      "eval_runtime": 8.9619,
+      "eval_samples_per_second": 332.855,
+      "eval_steps_per_second": 20.866,
+      "step": 2611
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.7727120518684387,
+      "eval_loss": 1.3809081315994263,
+      "eval_runtime": 9.0485,
+      "eval_samples_per_second": 329.668,
+      "eval_steps_per_second": 20.666,
       "step": 2984
     },
     {
+      "epoch": 8.04289544235925,
+      "grad_norm": 0.044611748307943344,
+      "learning_rate": 3.7806928031963256e-06,
+      "loss": 0.0078,
       "step": 3000
     },
     {
+      "epoch": 9.0,
+      "eval_accuracy": 0.7717063426971436,
+      "eval_loss": 1.5632531642913818,
+      "eval_runtime": 9.0494,
+      "eval_samples_per_second": 329.634,
+      "eval_steps_per_second": 20.664,
+      "step": 3357
+    },
+    {
+      "epoch": 9.383378016085791,
+      "grad_norm": 0.052517324686050415,
+      "learning_rate": 1.1911771845687053e-06,
+      "loss": 0.0055,
       "step": 3500
     }
   ],
   "logging_steps": 500,
+  "max_steps": 3730,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 500,
+  "total_flos": 1.781054971229646e+16,
+  "train_batch_size": 32,
   "trial_name": null,
   "trial_params": {
+    "learning_rate": 1.9317786514962047e-05,
+    "per_device_train_batch_size": 32
   }
 }

run-2/checkpoint-3500/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c68cfe34dae325096495265befbc04045f52f535badd4f779e9c272d3d0b0f80
 size 5048

 version https://git-lfs.github.com/spec/v1
+oid sha256:2ed49fe002187d5ffed6d819c5938a827ebb9152529606096a657c65a1141ceb
 size 5048