inflaton commited on Jun 6

Commit

b8f963c

•

1 Parent(s): e83a66f

Training in progress, step 500

Browse files

Files changed (17) hide show

model.safetensors +1 -1
run-3/checkpoint-1000/model.safetensors +1 -1
run-3/checkpoint-1000/optimizer.pt +1 -1
run-3/checkpoint-1000/rng_state.pth +1 -1
run-3/checkpoint-1000/scheduler.pt +1 -1
run-3/checkpoint-1000/trainer_state.json +20 -29
run-3/checkpoint-1000/training_args.bin +1 -1
run-3/checkpoint-1500/trainer_state.json +30 -48
run-3/checkpoint-2000/trainer_state.json +34 -61
run-3/checkpoint-2500/trainer_state.json +44 -71
run-3/checkpoint-500/model.safetensors +1 -1
run-3/checkpoint-500/optimizer.pt +1 -1
run-3/checkpoint-500/rng_state.pth +1 -1
run-3/checkpoint-500/scheduler.pt +1 -1
run-3/checkpoint-500/trainer_state.json +10 -19
run-3/checkpoint-500/training_args.bin +1 -1
training_args.bin +1 -1

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5b23bd5bcb6c3f20acbd47f46114a67d639b650403922c7d1cf092f251113025
 size 1340618660

 version https://git-lfs.github.com/spec/v1
+oid sha256:29808a477e6dfe819802c452b4eb8059a040db301b42679e25eb9cd4177ce709
 size 1340618660

run-3/checkpoint-1000/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4d9649ba9e265d8e4fe5d708f3e7adb9d6191f9844715240ec35d509ec8e5fe6
 size 1340618660

 version https://git-lfs.github.com/spec/v1
+oid sha256:f21ff9e01d89b51eac90f2eeae545d2208d13b78f82cd701436e3013992c9c0e
 size 1340618660

run-3/checkpoint-1000/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b6ef50bc2eb08bb3dbb1e2f70d0fdf07d835c95837a40f398f4436b48b906838
 size 2681472237

 version https://git-lfs.github.com/spec/v1
+oid sha256:4074d2e16647b008b1fa854a9a0bb1e2ebe2c4168cc335c401b5cb7b7032366e
 size 2681472237

run-3/checkpoint-1000/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f15ef18f77678b087c8d8d016723a03f0d0f4e837051c67af83ea5404cfb3e09
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:38c752dc0df82afd3fc4927225721c6718f89b642523e4400a9217d164bd5d92
 size 14244

run-3/checkpoint-1000/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f2e778733aea3d76f79d700f7557d56cc34f9c1df8dc23634cecfda952769b78
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:b113482378fbd43976c3c756f387e018112046d66480e853eb7f9eecc00366b7
 size 1064

run-3/checkpoint-1000/trainer_state.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.680965147453083,
   "eval_steps": 500,
   "global_step": 1000,
   "is_hyper_param_search": true,
@@ -9,48 +9,39 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 1.0,
-      "eval_accuracy": 0.7727120518684387,
-      "eval_loss": 0.46057018637657166,
-      "eval_runtime": 8.9113,
-      "eval_samples_per_second": 334.743,
-      "eval_steps_per_second": 20.985,
-      "step": 373
-    },
-    {
-      "epoch": 1.3404825737265416,
-      "grad_norm": 8.923430442810059,
-      "learning_rate": 2.587666867882196e-05,
-      "loss": 0.4651,
       "step": 500
     },
     {
-      "epoch": 2.0,
-      "eval_accuracy": 0.7770700454711914,
-      "eval_loss": 0.5375419855117798,
-      "eval_runtime": 9.0162,
-      "eval_samples_per_second": 330.848,
-      "eval_steps_per_second": 20.74,
       "step": 746
     },
     {
-      "epoch": 2.680965147453083,
-      "grad_norm": 30.215883255004883,
-      "learning_rate": 2.187099241275045e-05,
-      "loss": 0.176,
       "step": 1000
     }
   ],
   "logging_steps": 500,
-  "max_steps": 3730,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 500,
-  "total_flos": 5069168917756236.0,
-  "train_batch_size": 32,
   "trial_name": null,
   "trial_params": {
-    "learning_rate": 2.988234494489347e-05,
-    "per_device_train_batch_size": 32
   }
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.3404825737265416,
   "eval_steps": 500,
   "global_step": 1000,
   "is_hyper_param_search": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.6702412868632708,
+      "grad_norm": 5.694277763366699,
+      "learning_rate": 2.542005392773407e-05,
+      "loss": 0.557,
       "step": 500
     },
     {
+      "epoch": 1.0,
+      "eval_accuracy": 0.7254441976547241,
+      "eval_loss": 0.5171247720718384,
+      "eval_runtime": 8.773,
+      "eval_samples_per_second": 340.02,
+      "eval_steps_per_second": 21.315,
       "step": 746
     },
     {
+      "epoch": 1.3404825737265416,
+      "grad_norm": 8.974740028381348,
+      "learning_rate": 2.359390062832789e-05,
+      "loss": 0.4156,
       "step": 1000
     }
   ],
   "logging_steps": 500,
+  "max_steps": 7460,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 500,
+  "total_flos": 2380566939876720.0,
+  "train_batch_size": 16,
   "trial_name": null,
   "trial_params": {
+    "learning_rate": 2.7246207227140256e-05,
+    "per_device_train_batch_size": 16
   }
 }

run-3/checkpoint-1000/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e7873f643bbe0bcde81dd97f76bd7f35cc2bc225794540a61053f0708234413f
 size 5048

 version https://git-lfs.github.com/spec/v1
+oid sha256:1507950b2d37b737502f824dab70976a7fa7a07f6887612e84989d3ab0cc54db
 size 5048

run-3/checkpoint-1500/trainer_state.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 4.021447721179625,
   "eval_steps": 500,
   "global_step": 1500,
   "is_hyper_param_search": true,
@@ -9,73 +9,55 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 1.0,
-      "eval_accuracy": 0.7727120518684387,
-      "eval_loss": 0.46057018637657166,
-      "eval_runtime": 8.9113,
-      "eval_samples_per_second": 334.743,
-      "eval_steps_per_second": 20.985,
-      "step": 373
-    },
-    {
-      "epoch": 1.3404825737265416,
-      "grad_norm": 8.923430442810059,
-      "learning_rate": 2.587666867882196e-05,
-      "loss": 0.4651,
       "step": 500
     },
     {
-      "epoch": 2.0,
-      "eval_accuracy": 0.7770700454711914,
-      "eval_loss": 0.5375419855117798,
-      "eval_runtime": 9.0162,
-      "eval_samples_per_second": 330.848,
-      "eval_steps_per_second": 20.74,
       "step": 746
     },
     {
-      "epoch": 2.680965147453083,
-      "grad_norm": 30.215883255004883,
-      "learning_rate": 2.187099241275045e-05,
-      "loss": 0.176,
       "step": 1000
     },
     {
-      "epoch": 3.0,
-      "eval_accuracy": 0.7777405381202698,
-      "eval_loss": 0.948959469795227,
-      "eval_runtime": 9.007,
-      "eval_samples_per_second": 331.187,
-      "eval_steps_per_second": 20.762,
-      "step": 1119
-    },
-    {
-      "epoch": 4.0,
-      "eval_accuracy": 0.7760643362998962,
-      "eval_loss": 1.1204984188079834,
-      "eval_runtime": 9.0575,
-      "eval_samples_per_second": 329.342,
-      "eval_steps_per_second": 20.646,
       "step": 1492
     },
     {
-      "epoch": 4.021447721179625,
-      "grad_norm": 0.16835728287696838,
-      "learning_rate": 1.7865316146678937e-05,
-      "loss": 0.0608,
       "step": 1500
     }
   ],
   "logging_steps": 500,
-  "max_steps": 3730,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 500,
-  "total_flos": 7610944877367948.0,
-  "train_batch_size": 32,
   "trial_name": null,
   "trial_params": {
-    "learning_rate": 2.988234494489347e-05,
-    "per_device_train_batch_size": 32
   }
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.0107238605898123,
   "eval_steps": 500,
   "global_step": 1500,
   "is_hyper_param_search": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.6702412868632708,
+      "grad_norm": 5.694277763366699,
+      "learning_rate": 2.542005392773407e-05,
+      "loss": 0.557,
       "step": 500
     },
     {
+      "epoch": 1.0,
+      "eval_accuracy": 0.7254441976547241,
+      "eval_loss": 0.5171247720718384,
+      "eval_runtime": 8.773,
+      "eval_samples_per_second": 340.02,
+      "eval_steps_per_second": 21.315,
       "step": 746
     },
     {
+      "epoch": 1.3404825737265416,
+      "grad_norm": 8.974740028381348,
+      "learning_rate": 2.359390062832789e-05,
+      "loss": 0.4156,
       "step": 1000
     },
     {
+      "epoch": 2.0,
+      "eval_accuracy": 0.7596379518508911,
+      "eval_loss": 0.6025224924087524,
+      "eval_runtime": 8.8883,
+      "eval_samples_per_second": 335.609,
+      "eval_steps_per_second": 21.039,
       "step": 1492
     },
     {
+      "epoch": 2.0107238605898123,
+      "grad_norm": 7.7003068923950195,
+      "learning_rate": 2.1767747328921705e-05,
+      "loss": 0.2948,
       "step": 1500
     }
   ],
   "logging_steps": 500,
+  "max_steps": 7460,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 500,
+  "total_flos": 3566922478004628.0,
+  "train_batch_size": 16,
   "trial_name": null,
   "trial_params": {
+    "learning_rate": 2.7246207227140256e-05,
+    "per_device_train_batch_size": 16
   }
 }

run-3/checkpoint-2000/trainer_state.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 5.361930294906166,
   "eval_steps": 500,
   "global_step": 2000,
   "is_hyper_param_search": true,
@@ -9,89 +9,62 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 1.0,
-      "eval_accuracy": 0.7727120518684387,
-      "eval_loss": 0.46057018637657166,
-      "eval_runtime": 8.9113,
-      "eval_samples_per_second": 334.743,
-      "eval_steps_per_second": 20.985,
-      "step": 373
-    },
-    {
-      "epoch": 1.3404825737265416,
-      "grad_norm": 8.923430442810059,
-      "learning_rate": 2.587666867882196e-05,
-      "loss": 0.4651,
       "step": 500
     },
     {
-      "epoch": 2.0,
-      "eval_accuracy": 0.7770700454711914,
-      "eval_loss": 0.5375419855117798,
-      "eval_runtime": 9.0162,
-      "eval_samples_per_second": 330.848,
-      "eval_steps_per_second": 20.74,
       "step": 746
     },
     {
-      "epoch": 2.680965147453083,
-      "grad_norm": 30.215883255004883,
-      "learning_rate": 2.187099241275045e-05,
-      "loss": 0.176,
       "step": 1000
     },
     {
-      "epoch": 3.0,
-      "eval_accuracy": 0.7777405381202698,
-      "eval_loss": 0.948959469795227,
-      "eval_runtime": 9.007,
-      "eval_samples_per_second": 331.187,
-      "eval_steps_per_second": 20.762,
-      "step": 1119
-    },
-    {
-      "epoch": 4.0,
-      "eval_accuracy": 0.7760643362998962,
-      "eval_loss": 1.1204984188079834,
-      "eval_runtime": 9.0575,
-      "eval_samples_per_second": 329.342,
-      "eval_steps_per_second": 20.646,
       "step": 1492
     },
     {
-      "epoch": 4.021447721179625,
-      "grad_norm": 0.16835728287696838,
-      "learning_rate": 1.7865316146678937e-05,
-      "loss": 0.0608,
       "step": 1500
     },
     {
-      "epoch": 5.0,
-      "eval_accuracy": 0.7787462472915649,
-      "eval_loss": 1.4213643074035645,
-      "eval_runtime": 9.0611,
-      "eval_samples_per_second": 329.211,
-      "eval_steps_per_second": 20.638,
-      "step": 1865
-    },
-    {
-      "epoch": 5.361930294906166,
-      "grad_norm": 0.16181084513664246,
-      "learning_rate": 1.3859639880607426e-05,
-      "loss": 0.0242,
       "step": 2000
     }
   ],
   "logging_steps": 500,
-  "max_steps": 3730,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 500,
-  "total_flos": 1.01458223839854e+16,
-  "train_batch_size": 32,
   "trial_name": null,
   "trial_params": {
-    "learning_rate": 2.988234494489347e-05,
-    "per_device_train_batch_size": 32
   }
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.680965147453083,
   "eval_steps": 500,
   "global_step": 2000,
   "is_hyper_param_search": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.6702412868632708,
+      "grad_norm": 5.694277763366699,
+      "learning_rate": 2.542005392773407e-05,
+      "loss": 0.557,
       "step": 500
     },
     {
+      "epoch": 1.0,
+      "eval_accuracy": 0.7254441976547241,
+      "eval_loss": 0.5171247720718384,
+      "eval_runtime": 8.773,
+      "eval_samples_per_second": 340.02,
+      "eval_steps_per_second": 21.315,
       "step": 746
     },
     {
+      "epoch": 1.3404825737265416,
+      "grad_norm": 8.974740028381348,
+      "learning_rate": 2.359390062832789e-05,
+      "loss": 0.4156,
       "step": 1000
     },
     {
+      "epoch": 2.0,
+      "eval_accuracy": 0.7596379518508911,
+      "eval_loss": 0.6025224924087524,
+      "eval_runtime": 8.8883,
+      "eval_samples_per_second": 335.609,
+      "eval_steps_per_second": 21.039,
       "step": 1492
     },
     {
+      "epoch": 2.0107238605898123,
+      "grad_norm": 7.7003068923950195,
+      "learning_rate": 2.1767747328921705e-05,
+      "loss": 0.2948,
       "step": 1500
     },
     {
+      "epoch": 2.680965147453083,
+      "grad_norm": 20.24570655822754,
+      "learning_rate": 1.9941594029515523e-05,
+      "loss": 0.1262,
       "step": 2000
     }
   ],
   "logging_steps": 500,
+  "max_steps": 7460,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 500,
+  "total_flos": 4761479712489300.0,
+  "train_batch_size": 16,
   "trial_name": null,
   "trial_params": {
+    "learning_rate": 2.7246207227140256e-05,
+    "per_device_train_batch_size": 16
   }
 }

run-3/checkpoint-2500/trainer_state.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 6.702412868632708,
   "eval_steps": 500,
   "global_step": 2500,
   "is_hyper_param_search": true,
@@ -9,105 +9,78 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 1.0,
-      "eval_accuracy": 0.7727120518684387,
-      "eval_loss": 0.46057018637657166,
-      "eval_runtime": 8.9113,
-      "eval_samples_per_second": 334.743,
-      "eval_steps_per_second": 20.985,
-      "step": 373
-    },
-    {
-      "epoch": 1.3404825737265416,
-      "grad_norm": 8.923430442810059,
-      "learning_rate": 2.587666867882196e-05,
-      "loss": 0.4651,
       "step": 500
     },
     {
-      "epoch": 2.0,
-      "eval_accuracy": 0.7770700454711914,
-      "eval_loss": 0.5375419855117798,
-      "eval_runtime": 9.0162,
-      "eval_samples_per_second": 330.848,
-      "eval_steps_per_second": 20.74,
       "step": 746
     },
     {
-      "epoch": 2.680965147453083,
-      "grad_norm": 30.215883255004883,
-      "learning_rate": 2.187099241275045e-05,
-      "loss": 0.176,
       "step": 1000
     },
     {
-      "epoch": 3.0,
-      "eval_accuracy": 0.7777405381202698,
-      "eval_loss": 0.948959469795227,
-      "eval_runtime": 9.007,
-      "eval_samples_per_second": 331.187,
-      "eval_steps_per_second": 20.762,
-      "step": 1119
-    },
-    {
-      "epoch": 4.0,
-      "eval_accuracy": 0.7760643362998962,
-      "eval_loss": 1.1204984188079834,
-      "eval_runtime": 9.0575,
-      "eval_samples_per_second": 329.342,
-      "eval_steps_per_second": 20.646,
       "step": 1492
     },
     {
-      "epoch": 4.021447721179625,
-      "grad_norm": 0.16835728287696838,
-      "learning_rate": 1.7865316146678937e-05,
-      "loss": 0.0608,
       "step": 1500
     },
     {
-      "epoch": 5.0,
-      "eval_accuracy": 0.7787462472915649,
-      "eval_loss": 1.4213643074035645,
-      "eval_runtime": 9.0611,
-      "eval_samples_per_second": 329.211,
-      "eval_steps_per_second": 20.638,
-      "step": 1865
-    },
-    {
-      "epoch": 5.361930294906166,
-      "grad_norm": 0.16181084513664246,
-      "learning_rate": 1.3859639880607426e-05,
-      "loss": 0.0242,
       "step": 2000
     },
     {
-      "epoch": 6.0,
-      "eval_accuracy": 0.7784109711647034,
-      "eval_loss": 1.251684308052063,
-      "eval_runtime": 9.0244,
-      "eval_samples_per_second": 330.548,
-      "eval_steps_per_second": 20.722,
       "step": 2238
     },
     {
-      "epoch": 6.702412868632708,
-      "grad_norm": 2.160583734512329,
-      "learning_rate": 9.853963614535916e-06,
-      "loss": 0.0136,
       "step": 2500
     }
   ],
   "logging_steps": 500,
-  "max_steps": 3730,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 500,
-  "total_flos": 1.2690172067220828e+16,
-  "train_batch_size": 32,
   "trial_name": null,
   "trial_params": {
-    "learning_rate": 2.988234494489347e-05,
-    "per_device_train_batch_size": 32
   }
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 3.351206434316354,
   "eval_steps": 500,
   "global_step": 2500,
   "is_hyper_param_search": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.6702412868632708,
+      "grad_norm": 5.694277763366699,
+      "learning_rate": 2.542005392773407e-05,
+      "loss": 0.557,
       "step": 500
     },
     {
+      "epoch": 1.0,
+      "eval_accuracy": 0.7254441976547241,
+      "eval_loss": 0.5171247720718384,
+      "eval_runtime": 8.773,
+      "eval_samples_per_second": 340.02,
+      "eval_steps_per_second": 21.315,
       "step": 746
     },
     {
+      "epoch": 1.3404825737265416,
+      "grad_norm": 8.974740028381348,
+      "learning_rate": 2.359390062832789e-05,
+      "loss": 0.4156,
       "step": 1000
     },
     {
+      "epoch": 2.0,
+      "eval_accuracy": 0.7596379518508911,
+      "eval_loss": 0.6025224924087524,
+      "eval_runtime": 8.8883,
+      "eval_samples_per_second": 335.609,
+      "eval_steps_per_second": 21.039,
       "step": 1492
     },
     {
+      "epoch": 2.0107238605898123,
+      "grad_norm": 7.7003068923950195,
+      "learning_rate": 2.1767747328921705e-05,
+      "loss": 0.2948,
       "step": 1500
     },
     {
+      "epoch": 2.680965147453083,
+      "grad_norm": 20.24570655822754,
+      "learning_rate": 1.9941594029515523e-05,
+      "loss": 0.1262,
       "step": 2000
     },
     {
+      "epoch": 3.0,
+      "eval_accuracy": 0.7703654170036316,
+      "eval_loss": 0.822274386882782,
+      "eval_runtime": 8.8709,
+      "eval_samples_per_second": 336.267,
+      "eval_steps_per_second": 21.08,
       "step": 2238
     },
     {
+      "epoch": 3.351206434316354,
+      "grad_norm": 0.9093023538589478,
+      "learning_rate": 1.8115440730109338e-05,
+      "loss": 0.1012,
       "step": 2500
     }
   ],
   "logging_steps": 500,
+  "max_steps": 7460,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 500,
+  "total_flos": 5940423509036040.0,
+  "train_batch_size": 16,
   "trial_name": null,
   "trial_params": {
+    "learning_rate": 2.7246207227140256e-05,
+    "per_device_train_batch_size": 16
   }
 }

run-3/checkpoint-500/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:be3fbf39b8eb79e3df9922f6763aa922164fc565b8a550581ae148e0984a5a12
 size 1340618660

 version https://git-lfs.github.com/spec/v1
+oid sha256:29808a477e6dfe819802c452b4eb8059a040db301b42679e25eb9cd4177ce709
 size 1340618660

run-3/checkpoint-500/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9539a7d53917a01fe4b419de93225226e85c3f4a9a0df5577320ae94ffe12d58
 size 2681472237

 version https://git-lfs.github.com/spec/v1
+oid sha256:e8fc0469f5aa6f117cbacf1d4a26783711bd3e55943b29bbd4da393ae27bfe75
 size 2681472237

run-3/checkpoint-500/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d9bbf563591c5fe3fe29dd3bd70b2dd79355243b58fe1d041144c9bfbba0d18a
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:b39308b250b2dde21cca6217a709d5456bcdcab3c796c6926f25c06b9c730de1
 size 14244

run-3/checkpoint-500/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dde29e8f26af104e75c5a360f6999fec6e726777ec360c3cbb8f5a9d140b76f1
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:2a9c56c5416529238c5208f6b778cd50fb2a5e3ae44a1cc288f1cb37408eb7ee
 size 1064

run-3/checkpoint-500/trainer_state.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.3404825737265416,
   "eval_steps": 500,
   "global_step": 500,
   "is_hyper_param_search": true,
@@ -9,32 +9,23 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 1.0,
-      "eval_accuracy": 0.7727120518684387,
-      "eval_loss": 0.46057018637657166,
-      "eval_runtime": 8.9113,
-      "eval_samples_per_second": 334.743,
-      "eval_steps_per_second": 20.985,
-      "step": 373
-    },
-    {
-      "epoch": 1.3404825737265416,
-      "grad_norm": 8.923430442810059,
-      "learning_rate": 2.587666867882196e-05,
-      "loss": 0.4651,
       "step": 500
     }
   ],
   "logging_steps": 500,
-  "max_steps": 3730,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 500,
-  "total_flos": 2540028594209472.0,
-  "train_batch_size": 32,
   "trial_name": null,
   "trial_params": {
-    "learning_rate": 2.988234494489347e-05,
-    "per_device_train_batch_size": 32
   }
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.6702412868632708,
   "eval_steps": 500,
   "global_step": 500,
   "is_hyper_param_search": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.6702412868632708,
+      "grad_norm": 5.694277763366699,
+      "learning_rate": 2.542005392773407e-05,
+      "loss": 0.557,
       "step": 500
     }
   ],
   "logging_steps": 500,
+  "max_steps": 7460,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 500,
+  "total_flos": 1185529179906432.0,
+  "train_batch_size": 16,
   "trial_name": null,
   "trial_params": {
+    "learning_rate": 2.7246207227140256e-05,
+    "per_device_train_batch_size": 16
   }
 }

run-3/checkpoint-500/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e7873f643bbe0bcde81dd97f76bd7f35cc2bc225794540a61053f0708234413f
 size 5048

 version https://git-lfs.github.com/spec/v1
+oid sha256:1507950b2d37b737502f824dab70976a7fa7a07f6887612e84989d3ab0cc54db
 size 5048

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2ed49fe002187d5ffed6d819c5938a827ebb9152529606096a657c65a1141ceb
 size 5048

 version https://git-lfs.github.com/spec/v1
+oid sha256:1507950b2d37b737502f824dab70976a7fa7a07f6887612e84989d3ab0cc54db
 size 5048