inflaton commited on Jun 6

Commit

842e814

•

1 Parent(s): 0f2cb6d

Training in progress, step 500

Browse files

Files changed (31) hide show

model.safetensors +1 -1
run-0/checkpoint-1000/trainer_state.json +20 -29
run-0/checkpoint-1500/trainer_state.json +30 -48
run-0/checkpoint-2000/trainer_state.json +34 -61
run-0/checkpoint-2500/trainer_state.json +44 -71
run-0/checkpoint-3000/trainer_state.json +54 -90
run-0/checkpoint-500/model.safetensors +1 -1
run-0/checkpoint-500/optimizer.pt +1 -1
run-0/checkpoint-500/rng_state.pth +1 -1
run-0/checkpoint-500/scheduler.pt +1 -1
run-0/checkpoint-500/trainer_state.json +10 -19
run-0/checkpoint-500/training_args.bin +1 -1
run-8/checkpoint-1000/model.safetensors +1 -1
run-8/checkpoint-1000/optimizer.pt +1 -1
run-8/checkpoint-1000/rng_state.pth +1 -1
run-8/checkpoint-1000/scheduler.pt +1 -1
run-8/checkpoint-1000/trainer_state.json +27 -54
run-8/checkpoint-1000/training_args.bin +1 -1
run-8/checkpoint-500/model.safetensors +1 -1
run-8/checkpoint-500/optimizer.pt +1 -1
run-8/checkpoint-500/rng_state.pth +1 -1
run-8/checkpoint-500/scheduler.pt +1 -1
run-8/checkpoint-500/trainer_state.json +16 -25
run-8/checkpoint-500/training_args.bin +1 -1
run-9/checkpoint-500/model.safetensors +1 -1
run-9/checkpoint-500/optimizer.pt +1 -1
run-9/checkpoint-500/rng_state.pth +1 -1
run-9/checkpoint-500/scheduler.pt +1 -1
run-9/checkpoint-500/trainer_state.json +10 -19
run-9/checkpoint-500/training_args.bin +1 -1
training_args.bin +1 -1

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:842fa676b513d687d5c7365813933e30a841909c1a9d95ed3881ee9900e0bd88
 size 1340618660

 version https://git-lfs.github.com/spec/v1
+oid sha256:38879bf812f2ea865a112a9cd8fdd63fcd1d9e3b5480262ad99fdeb8669aebbb
 size 1340618660

run-0/checkpoint-1000/trainer_state.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.680965147453083,
   "eval_steps": 500,
   "global_step": 1000,
   "is_hyper_param_search": true,
@@ -9,48 +9,39 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 1.0,
-      "eval_accuracy": 0.7576265335083008,
-      "eval_loss": 0.4990231990814209,
-      "eval_runtime": 8.8755,
-      "eval_samples_per_second": 336.094,
-      "eval_steps_per_second": 21.069,
-      "step": 373
-    },
-    {
-      "epoch": 1.3404825737265416,
-      "grad_norm": 10.78962230682373,
-      "learning_rate": 1.458365518757964e-05,
-      "loss": 0.5168,
       "step": 500
     },
     {
-      "epoch": 2.0,
-      "eval_accuracy": 0.7727120518684387,
-      "eval_loss": 0.4883217215538025,
-      "eval_runtime": 9.0285,
-      "eval_samples_per_second": 330.398,
-      "eval_steps_per_second": 20.712,
       "step": 746
     },
     {
-      "epoch": 2.680965147453083,
-      "grad_norm": 10.365610122680664,
-      "learning_rate": 1.2326123424796413e-05,
-      "loss": 0.2874,
       "step": 1000
     }
   ],
   "logging_steps": 500,
-  "max_steps": 3730,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 500,
-  "total_flos": 5069168917756236.0,
-  "train_batch_size": 32,
   "trial_name": null,
   "trial_params": {
-    "learning_rate": 1.6841186950362865e-05,
-    "per_device_train_batch_size": 32
   }
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.3404825737265416,
   "eval_steps": 500,
   "global_step": 1000,
   "is_hyper_param_search": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.6702412868632708,
+      "grad_norm": 6.84100866317749,
+      "learning_rate": 2.923321801244596e-06,
+      "loss": 0.5942,
       "step": 500
     },
     {
+      "epoch": 1.0,
+      "eval_accuracy": 0.7338250279426575,
+      "eval_loss": 0.5040128231048584,
+      "eval_runtime": 8.8539,
+      "eval_samples_per_second": 336.913,
+      "eval_steps_per_second": 21.121,
       "step": 746
     },
     {
+      "epoch": 1.3404825737265416,
+      "grad_norm": 10.305294036865234,
+      "learning_rate": 2.7133130511551857e-06,
+      "loss": 0.5078,
       "step": 1000
     }
   ],
   "logging_steps": 500,
+  "max_steps": 7460,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 500,
+  "total_flos": 2380566939876720.0,
+  "train_batch_size": 16,
   "trial_name": null,
   "trial_params": {
+    "learning_rate": 3.133330551334007e-06,
+    "per_device_train_batch_size": 16
   }
 }

run-0/checkpoint-1500/trainer_state.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 4.021447721179625,
   "eval_steps": 500,
   "global_step": 1500,
   "is_hyper_param_search": true,
@@ -9,73 +9,55 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 1.0,
-      "eval_accuracy": 0.7576265335083008,
-      "eval_loss": 0.4990231990814209,
-      "eval_runtime": 8.8755,
-      "eval_samples_per_second": 336.094,
-      "eval_steps_per_second": 21.069,
-      "step": 373
-    },
-    {
-      "epoch": 1.3404825737265416,
-      "grad_norm": 10.78962230682373,
-      "learning_rate": 1.458365518757964e-05,
-      "loss": 0.5168,
       "step": 500
     },
     {
-      "epoch": 2.0,
-      "eval_accuracy": 0.7727120518684387,
-      "eval_loss": 0.4883217215538025,
-      "eval_runtime": 9.0285,
-      "eval_samples_per_second": 330.398,
-      "eval_steps_per_second": 20.712,
       "step": 746
     },
     {
-      "epoch": 2.680965147453083,
-      "grad_norm": 10.365610122680664,
-      "learning_rate": 1.2326123424796413e-05,
-      "loss": 0.2874,
       "step": 1000
     },
     {
-      "epoch": 3.0,
-      "eval_accuracy": 0.7720415592193604,
-      "eval_loss": 0.7083144187927246,
-      "eval_runtime": 9.0355,
-      "eval_samples_per_second": 330.141,
-      "eval_steps_per_second": 20.696,
-      "step": 1119
-    },
-    {
-      "epoch": 4.0,
-      "eval_accuracy": 0.7646664381027222,
-      "eval_loss": 0.9298484921455383,
-      "eval_runtime": 9.116,
-      "eval_samples_per_second": 327.226,
-      "eval_steps_per_second": 20.513,
       "step": 1492
     },
     {
-      "epoch": 4.021447721179625,
-      "grad_norm": 2.833449363708496,
-      "learning_rate": 1.0068591662013187e-05,
-      "loss": 0.1128,
       "step": 1500
     }
   ],
   "logging_steps": 500,
-  "max_steps": 3730,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 500,
-  "total_flos": 7610944877367948.0,
-  "train_batch_size": 32,
   "trial_name": null,
   "trial_params": {
-    "learning_rate": 1.6841186950362865e-05,
-    "per_device_train_batch_size": 32
   }
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.0107238605898123,
   "eval_steps": 500,
   "global_step": 1500,
   "is_hyper_param_search": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.6702412868632708,
+      "grad_norm": 6.84100866317749,
+      "learning_rate": 2.923321801244596e-06,
+      "loss": 0.5942,
       "step": 500
     },
     {
+      "epoch": 1.0,
+      "eval_accuracy": 0.7338250279426575,
+      "eval_loss": 0.5040128231048584,
+      "eval_runtime": 8.8539,
+      "eval_samples_per_second": 336.913,
+      "eval_steps_per_second": 21.121,
       "step": 746
     },
     {
+      "epoch": 1.3404825737265416,
+      "grad_norm": 10.305294036865234,
+      "learning_rate": 2.7133130511551857e-06,
+      "loss": 0.5078,
       "step": 1000
     },
     {
+      "epoch": 2.0,
+      "eval_accuracy": 0.7418705821037292,
+      "eval_loss": 0.4992324709892273,
+      "eval_runtime": 8.9157,
+      "eval_samples_per_second": 334.577,
+      "eval_steps_per_second": 20.974,
       "step": 1492
     },
     {
+      "epoch": 2.0107238605898123,
+      "grad_norm": 5.501172065734863,
+      "learning_rate": 2.5033043010657747e-06,
+      "loss": 0.4546,
       "step": 1500
     }
   ],
   "logging_steps": 500,
+  "max_steps": 7460,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 500,
+  "total_flos": 3566922478004628.0,
+  "train_batch_size": 16,
   "trial_name": null,
   "trial_params": {
+    "learning_rate": 3.133330551334007e-06,
+    "per_device_train_batch_size": 16
   }
 }

run-0/checkpoint-2000/trainer_state.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 5.361930294906166,
   "eval_steps": 500,
   "global_step": 2000,
   "is_hyper_param_search": true,
@@ -9,89 +9,62 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 1.0,
-      "eval_accuracy": 0.7576265335083008,
-      "eval_loss": 0.4990231990814209,
-      "eval_runtime": 8.8755,
-      "eval_samples_per_second": 336.094,
-      "eval_steps_per_second": 21.069,
-      "step": 373
-    },
-    {
-      "epoch": 1.3404825737265416,
-      "grad_norm": 10.78962230682373,
-      "learning_rate": 1.458365518757964e-05,
-      "loss": 0.5168,
       "step": 500
     },
     {
-      "epoch": 2.0,
-      "eval_accuracy": 0.7727120518684387,
-      "eval_loss": 0.4883217215538025,
-      "eval_runtime": 9.0285,
-      "eval_samples_per_second": 330.398,
-      "eval_steps_per_second": 20.712,
       "step": 746
     },
     {
-      "epoch": 2.680965147453083,
-      "grad_norm": 10.365610122680664,
-      "learning_rate": 1.2326123424796413e-05,
-      "loss": 0.2874,
       "step": 1000
     },
     {
-      "epoch": 3.0,
-      "eval_accuracy": 0.7720415592193604,
-      "eval_loss": 0.7083144187927246,
-      "eval_runtime": 9.0355,
-      "eval_samples_per_second": 330.141,
-      "eval_steps_per_second": 20.696,
-      "step": 1119
-    },
-    {
-      "epoch": 4.0,
-      "eval_accuracy": 0.7646664381027222,
-      "eval_loss": 0.9298484921455383,
-      "eval_runtime": 9.116,
-      "eval_samples_per_second": 327.226,
-      "eval_steps_per_second": 20.513,
       "step": 1492
     },
     {
-      "epoch": 4.021447721179625,
-      "grad_norm": 2.833449363708496,
-      "learning_rate": 1.0068591662013187e-05,
-      "loss": 0.1128,
       "step": 1500
     },
     {
-      "epoch": 5.0,
-      "eval_accuracy": 0.7696949243545532,
-      "eval_loss": 1.2057135105133057,
-      "eval_runtime": 9.0846,
-      "eval_samples_per_second": 328.357,
-      "eval_steps_per_second": 20.584,
-      "step": 1865
-    },
-    {
-      "epoch": 5.361930294906166,
-      "grad_norm": 0.6012887954711914,
-      "learning_rate": 7.811059899229962e-06,
-      "loss": 0.044,
       "step": 2000
     }
   ],
   "logging_steps": 500,
-  "max_steps": 3730,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 500,
-  "total_flos": 1.01458223839854e+16,
-  "train_batch_size": 32,
   "trial_name": null,
   "trial_params": {
-    "learning_rate": 1.6841186950362865e-05,
-    "per_device_train_batch_size": 32
   }
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.680965147453083,
   "eval_steps": 500,
   "global_step": 2000,
   "is_hyper_param_search": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.6702412868632708,
+      "grad_norm": 6.84100866317749,
+      "learning_rate": 2.923321801244596e-06,
+      "loss": 0.5942,
       "step": 500
     },
     {
+      "epoch": 1.0,
+      "eval_accuracy": 0.7338250279426575,
+      "eval_loss": 0.5040128231048584,
+      "eval_runtime": 8.8539,
+      "eval_samples_per_second": 336.913,
+      "eval_steps_per_second": 21.121,
       "step": 746
     },
     {
+      "epoch": 1.3404825737265416,
+      "grad_norm": 10.305294036865234,
+      "learning_rate": 2.7133130511551857e-06,
+      "loss": 0.5078,
       "step": 1000
     },
     {
+      "epoch": 2.0,
+      "eval_accuracy": 0.7418705821037292,
+      "eval_loss": 0.4992324709892273,
+      "eval_runtime": 8.9157,
+      "eval_samples_per_second": 334.577,
+      "eval_steps_per_second": 20.974,
       "step": 1492
     },
     {
+      "epoch": 2.0107238605898123,
+      "grad_norm": 5.501172065734863,
+      "learning_rate": 2.5033043010657747e-06,
+      "loss": 0.4546,
       "step": 1500
     },
     {
+      "epoch": 2.680965147453083,
+      "grad_norm": 7.48345947265625,
+      "learning_rate": 2.293295550976364e-06,
+      "loss": 0.3872,
       "step": 2000
     }
   ],
   "logging_steps": 500,
+  "max_steps": 7460,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 500,
+  "total_flos": 4761479712489300.0,
+  "train_batch_size": 16,
   "trial_name": null,
   "trial_params": {
+    "learning_rate": 3.133330551334007e-06,
+    "per_device_train_batch_size": 16
   }
 }

run-0/checkpoint-2500/trainer_state.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 6.702412868632708,
   "eval_steps": 500,
   "global_step": 2500,
   "is_hyper_param_search": true,
@@ -9,105 +9,78 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 1.0,
-      "eval_accuracy": 0.7576265335083008,
-      "eval_loss": 0.4990231990814209,
-      "eval_runtime": 8.8755,
-      "eval_samples_per_second": 336.094,
-      "eval_steps_per_second": 21.069,
-      "step": 373
-    },
-    {
-      "epoch": 1.3404825737265416,
-      "grad_norm": 10.78962230682373,
-      "learning_rate": 1.458365518757964e-05,
-      "loss": 0.5168,
       "step": 500
     },
     {
-      "epoch": 2.0,
-      "eval_accuracy": 0.7727120518684387,
-      "eval_loss": 0.4883217215538025,
-      "eval_runtime": 9.0285,
-      "eval_samples_per_second": 330.398,
-      "eval_steps_per_second": 20.712,
       "step": 746
     },
     {
-      "epoch": 2.680965147453083,
-      "grad_norm": 10.365610122680664,
-      "learning_rate": 1.2326123424796413e-05,
-      "loss": 0.2874,
       "step": 1000
     },
     {
-      "epoch": 3.0,
-      "eval_accuracy": 0.7720415592193604,
-      "eval_loss": 0.7083144187927246,
-      "eval_runtime": 9.0355,
-      "eval_samples_per_second": 330.141,
-      "eval_steps_per_second": 20.696,
-      "step": 1119
-    },
-    {
-      "epoch": 4.0,
-      "eval_accuracy": 0.7646664381027222,
-      "eval_loss": 0.9298484921455383,
-      "eval_runtime": 9.116,
-      "eval_samples_per_second": 327.226,
-      "eval_steps_per_second": 20.513,
       "step": 1492
     },
     {
-      "epoch": 4.021447721179625,
-      "grad_norm": 2.833449363708496,
-      "learning_rate": 1.0068591662013187e-05,
-      "loss": 0.1128,
       "step": 1500
     },
     {
-      "epoch": 5.0,
-      "eval_accuracy": 0.7696949243545532,
-      "eval_loss": 1.2057135105133057,
-      "eval_runtime": 9.0846,
-      "eval_samples_per_second": 328.357,
-      "eval_steps_per_second": 20.584,
-      "step": 1865
-    },
-    {
-      "epoch": 5.361930294906166,
-      "grad_norm": 0.6012887954711914,
-      "learning_rate": 7.811059899229962e-06,
-      "loss": 0.044,
       "step": 2000
     },
     {
-      "epoch": 6.0,
-      "eval_accuracy": 0.7753939032554626,
-      "eval_loss": 1.2873387336730957,
-      "eval_runtime": 9.0691,
-      "eval_samples_per_second": 328.919,
-      "eval_steps_per_second": 20.619,
       "step": 2238
     },
     {
-      "epoch": 6.702412868632708,
-      "grad_norm": 0.0961245447397232,
-      "learning_rate": 5.553528136446735e-06,
-      "loss": 0.027,
       "step": 2500
     }
   ],
   "logging_steps": 500,
-  "max_steps": 3730,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 500,
-  "total_flos": 1.2690172067220828e+16,
-  "train_batch_size": 32,
   "trial_name": null,
   "trial_params": {
-    "learning_rate": 1.6841186950362865e-05,
-    "per_device_train_batch_size": 32
   }
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 3.351206434316354,
   "eval_steps": 500,
   "global_step": 2500,
   "is_hyper_param_search": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.6702412868632708,
+      "grad_norm": 6.84100866317749,
+      "learning_rate": 2.923321801244596e-06,
+      "loss": 0.5942,
       "step": 500
     },
     {
+      "epoch": 1.0,
+      "eval_accuracy": 0.7338250279426575,
+      "eval_loss": 0.5040128231048584,
+      "eval_runtime": 8.8539,
+      "eval_samples_per_second": 336.913,
+      "eval_steps_per_second": 21.121,
       "step": 746
     },
     {
+      "epoch": 1.3404825737265416,
+      "grad_norm": 10.305294036865234,
+      "learning_rate": 2.7133130511551857e-06,
+      "loss": 0.5078,
       "step": 1000
     },
     {
+      "epoch": 2.0,
+      "eval_accuracy": 0.7418705821037292,
+      "eval_loss": 0.4992324709892273,
+      "eval_runtime": 8.9157,
+      "eval_samples_per_second": 334.577,
+      "eval_steps_per_second": 20.974,
       "step": 1492
     },
     {
+      "epoch": 2.0107238605898123,
+      "grad_norm": 5.501172065734863,
+      "learning_rate": 2.5033043010657747e-06,
+      "loss": 0.4546,
       "step": 1500
     },
     {
+      "epoch": 2.680965147453083,
+      "grad_norm": 7.48345947265625,
+      "learning_rate": 2.293295550976364e-06,
+      "loss": 0.3872,
       "step": 2000
     },
     {
+      "epoch": 3.0,
+      "eval_accuracy": 0.7529332637786865,
+      "eval_loss": 0.5125850439071655,
+      "eval_runtime": 8.8675,
+      "eval_samples_per_second": 336.395,
+      "eval_steps_per_second": 21.088,
       "step": 2238
     },
     {
+      "epoch": 3.351206434316354,
+      "grad_norm": 8.878561973571777,
+      "learning_rate": 2.0832868008869536e-06,
+      "loss": 0.3551,
       "step": 2500
     }
   ],
   "logging_steps": 500,
+  "max_steps": 7460,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 500,
+  "total_flos": 5940423509036040.0,
+  "train_batch_size": 16,
   "trial_name": null,
   "trial_params": {
+    "learning_rate": 3.133330551334007e-06,
+    "per_device_train_batch_size": 16
   }
 }

run-0/checkpoint-3000/trainer_state.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 8.04289544235925,
   "eval_steps": 500,
   "global_step": 3000,
   "is_hyper_param_search": true,
@@ -9,130 +9,94 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 1.0,
-      "eval_accuracy": 0.7576265335083008,
-      "eval_loss": 0.4990231990814209,
-      "eval_runtime": 8.8755,
-      "eval_samples_per_second": 336.094,
-      "eval_steps_per_second": 21.069,
-      "step": 373
-    },
-    {
-      "epoch": 1.3404825737265416,
-      "grad_norm": 10.78962230682373,
-      "learning_rate": 1.458365518757964e-05,
-      "loss": 0.5168,
       "step": 500
     },
     {
-      "epoch": 2.0,
-      "eval_accuracy": 0.7727120518684387,
-      "eval_loss": 0.4883217215538025,
-      "eval_runtime": 9.0285,
-      "eval_samples_per_second": 330.398,
-      "eval_steps_per_second": 20.712,
       "step": 746
     },
     {
-      "epoch": 2.680965147453083,
-      "grad_norm": 10.365610122680664,
-      "learning_rate": 1.2326123424796413e-05,
-      "loss": 0.2874,
       "step": 1000
     },
     {
-      "epoch": 3.0,
-      "eval_accuracy": 0.7720415592193604,
-      "eval_loss": 0.7083144187927246,
-      "eval_runtime": 9.0355,
-      "eval_samples_per_second": 330.141,
-      "eval_steps_per_second": 20.696,
-      "step": 1119
-    },
-    {
-      "epoch": 4.0,
-      "eval_accuracy": 0.7646664381027222,
-      "eval_loss": 0.9298484921455383,
-      "eval_runtime": 9.116,
-      "eval_samples_per_second": 327.226,
-      "eval_steps_per_second": 20.513,
       "step": 1492
     },
     {
-      "epoch": 4.021447721179625,
-      "grad_norm": 2.833449363708496,
-      "learning_rate": 1.0068591662013187e-05,
-      "loss": 0.1128,
       "step": 1500
     },
     {
-      "epoch": 5.0,
-      "eval_accuracy": 0.7696949243545532,
-      "eval_loss": 1.2057135105133057,
-      "eval_runtime": 9.0846,
-      "eval_samples_per_second": 328.357,
-      "eval_steps_per_second": 20.584,
-      "step": 1865
-    },
-    {
-      "epoch": 5.361930294906166,
-      "grad_norm": 0.6012887954711914,
-      "learning_rate": 7.811059899229962e-06,
-      "loss": 0.044,
       "step": 2000
     },
     {
-      "epoch": 6.0,
-      "eval_accuracy": 0.7753939032554626,
-      "eval_loss": 1.2873387336730957,
-      "eval_runtime": 9.0691,
-      "eval_samples_per_second": 328.919,
-      "eval_steps_per_second": 20.619,
       "step": 2238
     },
     {
-      "epoch": 6.702412868632708,
-      "grad_norm": 0.0961245447397232,
-      "learning_rate": 5.553528136446735e-06,
-      "loss": 0.027,
       "step": 2500
     },
     {
-      "epoch": 7.0,
-      "eval_accuracy": 0.7723767757415771,
-      "eval_loss": 1.348684549331665,
-      "eval_runtime": 9.0525,
-      "eval_samples_per_second": 329.521,
-      "eval_steps_per_second": 20.657,
-      "step": 2611
-    },
-    {
-      "epoch": 8.0,
-      "eval_accuracy": 0.7730472683906555,
-      "eval_loss": 1.3971577882766724,
-      "eval_runtime": 9.0899,
-      "eval_samples_per_second": 328.168,
-      "eval_steps_per_second": 20.572,
       "step": 2984
     },
     {
-      "epoch": 8.04289544235925,
-      "grad_norm": 2.5750341415405273,
-      "learning_rate": 3.2959963736635094e-06,
-      "loss": 0.0157,
       "step": 3000
     }
   ],
   "logging_steps": 500,
-  "max_steps": 3730,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 500,
-  "total_flos": 1.5221292738223464e+16,
-  "train_batch_size": 32,
   "trial_name": null,
   "trial_params": {
-    "learning_rate": 1.6841186950362865e-05,
-    "per_device_train_batch_size": 32
   }
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 4.021447721179625,
   "eval_steps": 500,
   "global_step": 3000,
   "is_hyper_param_search": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.6702412868632708,
+      "grad_norm": 6.84100866317749,
+      "learning_rate": 2.923321801244596e-06,
+      "loss": 0.5942,
       "step": 500
     },
     {
+      "epoch": 1.0,
+      "eval_accuracy": 0.7338250279426575,
+      "eval_loss": 0.5040128231048584,
+      "eval_runtime": 8.8539,
+      "eval_samples_per_second": 336.913,
+      "eval_steps_per_second": 21.121,
       "step": 746
     },
     {
+      "epoch": 1.3404825737265416,
+      "grad_norm": 10.305294036865234,
+      "learning_rate": 2.7133130511551857e-06,
+      "loss": 0.5078,
       "step": 1000
     },
     {
+      "epoch": 2.0,
+      "eval_accuracy": 0.7418705821037292,
+      "eval_loss": 0.4992324709892273,
+      "eval_runtime": 8.9157,
+      "eval_samples_per_second": 334.577,
+      "eval_steps_per_second": 20.974,
       "step": 1492
     },
     {
+      "epoch": 2.0107238605898123,
+      "grad_norm": 5.501172065734863,
+      "learning_rate": 2.5033043010657747e-06,
+      "loss": 0.4546,
       "step": 1500
     },
     {
+      "epoch": 2.680965147453083,
+      "grad_norm": 7.48345947265625,
+      "learning_rate": 2.293295550976364e-06,
+      "loss": 0.3872,
       "step": 2000
     },
     {
+      "epoch": 3.0,
+      "eval_accuracy": 0.7529332637786865,
+      "eval_loss": 0.5125850439071655,
+      "eval_runtime": 8.8675,
+      "eval_samples_per_second": 336.395,
+      "eval_steps_per_second": 21.088,
       "step": 2238
     },
     {
+      "epoch": 3.351206434316354,
+      "grad_norm": 8.878561973571777,
+      "learning_rate": 2.0832868008869536e-06,
+      "loss": 0.3551,
       "step": 2500
     },
     {
+      "epoch": 4.0,
+      "eval_accuracy": 0.750921905040741,
+      "eval_loss": 0.5793744921684265,
+      "eval_runtime": 8.9125,
+      "eval_samples_per_second": 334.698,
+      "eval_steps_per_second": 20.982,
       "step": 2984
     },
     {
+      "epoch": 4.021447721179625,
+      "grad_norm": 17.35097312927246,
+      "learning_rate": 1.8732780507975428e-06,
+      "loss": 0.3097,
       "step": 3000
     }
   ],
   "logging_steps": 500,
+  "max_steps": 7460,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 500,
+  "total_flos": 7128413561883960.0,
+  "train_batch_size": 16,
   "trial_name": null,
   "trial_params": {
+    "learning_rate": 3.133330551334007e-06,
+    "per_device_train_batch_size": 16
   }
 }

run-0/checkpoint-500/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:55851977026014f4b784d3a7727f15e1709df53ce1e653365a304fbaa1c8c8a4
 size 1340618660

 version https://git-lfs.github.com/spec/v1
+oid sha256:38879bf812f2ea865a112a9cd8fdd63fcd1d9e3b5480262ad99fdeb8669aebbb
 size 1340618660

run-0/checkpoint-500/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6fddeffafcc1d70abcdc6aa92e96da5b7496c55f91c07a60fb32ac5af7ff783d
 size 2681472237

 version https://git-lfs.github.com/spec/v1
+oid sha256:2e07eb37769cd2feb155c6b916975aec48e551c76eda4b6fafd9cf1ca7c3bca7
 size 2681472237

run-0/checkpoint-500/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d9bbf563591c5fe3fe29dd3bd70b2dd79355243b58fe1d041144c9bfbba0d18a
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:b39308b250b2dde21cca6217a709d5456bcdcab3c796c6926f25c06b9c730de1
 size 14244

run-0/checkpoint-500/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3dc2b58cb6162128ce96179719f9e4590068a0401c821507351f2c446cb729d0
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:ae38da46bf22e39dc164f74878f73734c60df1d2faf2ab7463738d2ec368d0d2
 size 1064

run-0/checkpoint-500/trainer_state.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.3404825737265416,
   "eval_steps": 500,
   "global_step": 500,
   "is_hyper_param_search": true,
@@ -9,32 +9,23 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 1.0,
-      "eval_accuracy": 0.7576265335083008,
-      "eval_loss": 0.4990231990814209,
-      "eval_runtime": 8.8755,
-      "eval_samples_per_second": 336.094,
-      "eval_steps_per_second": 21.069,
-      "step": 373
-    },
-    {
-      "epoch": 1.3404825737265416,
-      "grad_norm": 10.78962230682373,
-      "learning_rate": 1.458365518757964e-05,
-      "loss": 0.5168,
       "step": 500
     }
   ],
   "logging_steps": 500,
-  "max_steps": 3730,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 500,
-  "total_flos": 2540028594209472.0,
-  "train_batch_size": 32,
   "trial_name": null,
   "trial_params": {
-    "learning_rate": 1.6841186950362865e-05,
-    "per_device_train_batch_size": 32
   }
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.6702412868632708,
   "eval_steps": 500,
   "global_step": 500,
   "is_hyper_param_search": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.6702412868632708,
+      "grad_norm": 6.84100866317749,
+      "learning_rate": 2.923321801244596e-06,
+      "loss": 0.5942,
       "step": 500
     }
   ],
   "logging_steps": 500,
+  "max_steps": 7460,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 500,
+  "total_flos": 1185529179906432.0,
+  "train_batch_size": 16,
   "trial_name": null,
   "trial_params": {
+    "learning_rate": 3.133330551334007e-06,
+    "per_device_train_batch_size": 16
   }
 }

run-0/checkpoint-500/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:15189c3d12b5f903b32dcdb8f142fc9f600c7b03c5e75247ee6c5c612e40a65d
 size 5048

 version https://git-lfs.github.com/spec/v1
+oid sha256:d85cbcd0df5fe052a5199b6aa6fab09a1050a56fe5d4201688db94d30085dc57
 size 5048

run-8/checkpoint-1000/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:577e69a7a059c3946386d8325e043ba9bc056922d537a8724502c81a66f6062d
 size 1340618660

 version https://git-lfs.github.com/spec/v1
+oid sha256:9461766d71cc52d818864796c1ea2b597890ec358346b294c381abf16bdf82cf
 size 1340618660

run-8/checkpoint-1000/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b329fae6655c0858c21fd312f51a6010c98395d3932cdf3cd99cc5ddec7555f0
 size 2681472237

 version https://git-lfs.github.com/spec/v1
+oid sha256:35e8bde458201cb88b3dda2faf9d7d4709af674b359a94f682f1f61df90161f1
 size 2681472237

run-8/checkpoint-1000/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b8a41427ba0c00138131c0332df47016c0febb7eb26ac8c48be842afab125544
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:f15ef18f77678b087c8d8d016723a03f0d0f4e837051c67af83ea5404cfb3e09
 size 14244

run-8/checkpoint-1000/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a462e315269088efc372b3ada630829a976fe7a09ee980f2292b5bc774303f4c
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:2213efd67cc97cffa04c26ac0b875fd692518dbd7931cbc0273bda3d0fccf497
 size 1064

run-8/checkpoint-1000/trainer_state.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 5.347593582887701,
   "eval_steps": 500,
   "global_step": 1000,
   "is_hyper_param_search": true,
@@ -10,74 +10,47 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.7566208243370056,
-      "eval_loss": 0.4764082133769989,
-      "eval_runtime": 8.6013,
-      "eval_samples_per_second": 346.81,
-      "eval_steps_per_second": 21.741,
-      "step": 187
     },
     {
-      "epoch": 2.0,
-      "eval_accuracy": 0.7707006335258484,
-      "eval_loss": 0.4789218306541443,
-      "eval_runtime": 8.7284,
-      "eval_samples_per_second": 341.757,
-      "eval_steps_per_second": 21.424,
-      "step": 374
-    },
-    {
-      "epoch": 2.6737967914438503,
-      "grad_norm": 5.854825496673584,
-      "learning_rate": 1.3210882896809641e-05,
-      "loss": 0.3976,
       "step": 500
     },
     {
-      "epoch": 3.0,
-      "eval_accuracy": 0.7670130729675293,
-      "eval_loss": 0.5469409823417664,
-      "eval_runtime": 8.6858,
-      "eval_samples_per_second": 343.435,
-      "eval_steps_per_second": 21.529,
-      "step": 561
-    },
-    {
-      "epoch": 4.0,
-      "eval_accuracy": 0.7727120518684387,
-      "eval_loss": 0.7016632556915283,
-      "eval_runtime": 8.7334,
-      "eval_samples_per_second": 341.563,
-      "eval_steps_per_second": 21.412,
-      "step": 748
-    },
-    {
-      "epoch": 5.0,
-      "eval_accuracy": 0.7750586867332458,
-      "eval_loss": 0.8148671984672546,
-      "eval_runtime": 8.7283,
-      "eval_samples_per_second": 341.762,
-      "eval_steps_per_second": 21.425,
-      "step": 935
     },
     {
-      "epoch": 5.347593582887701,
-      "grad_norm": 3.247746467590332,
-      "learning_rate": 8.389392788484955e-06,
-      "loss": 0.0984,
       "step": 1000
     }
   ],
   "logging_steps": 500,
-  "max_steps": 1870,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 500,
-  "total_flos": 1.3339838883429072e+16,
-  "train_batch_size": 64,
   "trial_name": null,
   "trial_params": {
-    "learning_rate": 1.8032373005134327e-05,
-    "per_device_train_batch_size": 64
   }
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.680965147453083,
   "eval_steps": 500,
   "global_step": 1000,
   "is_hyper_param_search": true,
   "log_history": [
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.7653369307518005,
+      "eval_loss": 0.4685952365398407,
+      "eval_runtime": 9.0759,
+      "eval_samples_per_second": 328.672,
+      "eval_steps_per_second": 20.604,
+      "step": 373
     },
     {
+      "epoch": 1.3404825737265416,
+      "grad_norm": 11.95083236694336,
+      "learning_rate": 1.278490707659754e-05,
+      "loss": 0.4881,
       "step": 500
     },
     {
+      "epoch": 2.0,
+      "eval_accuracy": 0.7707006335258484,
+      "eval_loss": 0.47391676902770996,
+      "eval_runtime": 9.0389,
+      "eval_samples_per_second": 330.018,
+      "eval_steps_per_second": 20.688,
+      "step": 746
     },
     {
+      "epoch": 2.680965147453083,
+      "grad_norm": 15.537776947021484,
+      "learning_rate": 1.0805819293842502e-05,
+      "loss": 0.2385,
       "step": 1000
     }
   ],
   "logging_steps": 500,
+  "max_steps": 3730,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 500,
+  "total_flos": 8968123585287756.0,
+  "train_batch_size": 32,
   "trial_name": null,
   "trial_params": {
+    "learning_rate": 1.4763994859352575e-05,
+    "per_device_train_batch_size": 32
   }
 }

run-8/checkpoint-1000/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3cd79611d1e9a2b1e29f7d4a2137e798ae426a72939938919f5f2a5833b63c02
 size 5048

 version https://git-lfs.github.com/spec/v1
+oid sha256:39e6a33bf8c21d040f79b518acc997a1f817992f979b28f2a817ab72bcaeabb9
 size 5048

run-8/checkpoint-500/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:34803c7ffa3413f8d688edc6ea5c974e8d7f56a690438a4dca385053434edd91
 size 1340618660

 version https://git-lfs.github.com/spec/v1
+oid sha256:a84157c5c45e1042099f88bc965875ace1cd7c98953b8ff27ad67b1cf72b8f02
 size 1340618660

run-8/checkpoint-500/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f97b1b6cfba0d414fcf63e15f168aedc51d7a06b4327a40be9ab2c868bbe3638
 size 2681472237

 version https://git-lfs.github.com/spec/v1
+oid sha256:4c751026411b0d6187a0f16f90634f79a35b4955a8297a16a2c68ab30b7da4cc
 size 2681472237

run-8/checkpoint-500/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b5c01a35b53aad6d494f823e04325bafd8b1267be264b956fed93103db217bd6
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:d9bbf563591c5fe3fe29dd3bd70b2dd79355243b58fe1d041144c9bfbba0d18a
 size 14244

run-8/checkpoint-500/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d53f8274a94cf5eebbf0b779b41dfd01b31be3f4918ec13c3fbc57b670527966
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:50a716b0a7dd5d9fc9bf3d42178286c830bd227ae23513d8ebb2eb9d208dd3b1
 size 1064

run-8/checkpoint-500/trainer_state.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.6737967914438503,
   "eval_steps": 500,
   "global_step": 500,
   "is_hyper_param_search": true,
@@ -10,40 +10,31 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.7566208243370056,
-      "eval_loss": 0.4764082133769989,
-      "eval_runtime": 8.6013,
-      "eval_samples_per_second": 346.81,
-      "eval_steps_per_second": 21.741,
-      "step": 187
     },
     {
-      "epoch": 2.0,
-      "eval_accuracy": 0.7707006335258484,
-      "eval_loss": 0.4789218306541443,
-      "eval_runtime": 8.7284,
-      "eval_samples_per_second": 341.757,
-      "eval_steps_per_second": 21.424,
-      "step": 374
-    },
-    {
-      "epoch": 2.6737967914438503,
-      "grad_norm": 5.854825496673584,
-      "learning_rate": 1.3210882896809641e-05,
-      "loss": 0.3976,
       "step": 500
     }
   ],
   "logging_steps": 500,
-  "max_steps": 1870,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 500,
-  "total_flos": 7927563847909248.0,
-  "train_batch_size": 64,
   "trial_name": null,
   "trial_params": {
-    "learning_rate": 1.8032373005134327e-05,
-    "per_device_train_batch_size": 64
   }
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.3404825737265416,
   "eval_steps": 500,
   "global_step": 500,
   "is_hyper_param_search": true,
   "log_history": [
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.7653369307518005,
+      "eval_loss": 0.4685952365398407,
+      "eval_runtime": 9.0759,
+      "eval_samples_per_second": 328.672,
+      "eval_steps_per_second": 20.604,
+      "step": 373
     },
     {
+      "epoch": 1.3404825737265416,
+      "grad_norm": 11.95083236694336,
+      "learning_rate": 1.278490707659754e-05,
+      "loss": 0.4881,
       "step": 500
     }
   ],
   "logging_steps": 500,
+  "max_steps": 3730,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 500,
+  "total_flos": 6438983261740992.0,
+  "train_batch_size": 32,
   "trial_name": null,
   "trial_params": {
+    "learning_rate": 1.4763994859352575e-05,
+    "per_device_train_batch_size": 32
   }
 }

run-8/checkpoint-500/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3cd79611d1e9a2b1e29f7d4a2137e798ae426a72939938919f5f2a5833b63c02
 size 5048

 version https://git-lfs.github.com/spec/v1
+oid sha256:39e6a33bf8c21d040f79b518acc997a1f817992f979b28f2a817ab72bcaeabb9
 size 5048

run-9/checkpoint-500/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c3baea984c83f240026d0be9a5376c8d95a32b95802239403caae61b8dbc63c5
 size 1340618660

 version https://git-lfs.github.com/spec/v1
+oid sha256:9159572245f0035f61d1cd4bfed00891c512f31df58b3a9e65a62eb65c9bfc4c
 size 1340618660

run-9/checkpoint-500/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b30ca04a6543322e6d924764ec640fb6321ca1d1d08caa6845decb1ec54ac9cf
 size 2681472237

 version https://git-lfs.github.com/spec/v1
+oid sha256:12ea73035baf6b4832de530ef21ee74c16b9cde8f8659d675f47a0ac2f1e7a2f
 size 2681472237

run-9/checkpoint-500/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:addf9ea78940efee8fedf34a91f3e64300d9a530d1afa572ef52fa1ce5da865e
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:f544045d8bc120b0bef3c491fba9f1ed6efda96a8fe519bf19d9f17a0a9934ac
 size 14244

run-9/checkpoint-500/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:224874eac5a18c3df5b2765ef3f31836618965e5c51583216d4d7041cacd3732
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:2ad97d024699994a66c55029ecab90d6ae8a0afacb2f8c1b3035f7581d29a7d6
 size 1064

run-9/checkpoint-500/trainer_state.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.3404825737265416,
   "eval_steps": 500,
   "global_step": 500,
   "is_hyper_param_search": true,
@@ -9,32 +9,23 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 1.0,
-      "eval_accuracy": 0.7328193187713623,
-      "eval_loss": 0.5106493234634399,
-      "eval_runtime": 8.5744,
-      "eval_samples_per_second": 347.895,
-      "eval_steps_per_second": 21.809,
-      "step": 373
-    },
-    {
-      "epoch": 1.3404825737265416,
-      "grad_norm": 7.487569332122803,
-      "learning_rate": 3.217425242554135e-06,
-      "loss": 0.5698,
       "step": 500
     }
   ],
   "logging_steps": 500,
-  "max_steps": 3730,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 500,
-  "total_flos": 2532645975385008.0,
-  "train_batch_size": 32,
   "trial_name": null,
   "trial_params": {
-    "learning_rate": 3.71547868567397e-06,
-    "per_device_train_batch_size": 32
   }
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.6702412868632708,
   "eval_steps": 500,
   "global_step": 500,
   "is_hyper_param_search": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.6702412868632708,
+      "grad_norm": 15.942371368408203,
+      "learning_rate": 5.489232390518381e-06,
+      "loss": 0.5696,
       "step": 500
     }
   ],
   "logging_steps": 500,
+  "max_steps": 7460,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 500,
+  "total_flos": 1796655667961520.0,
+  "train_batch_size": 16,
   "trial_name": null,
   "trial_params": {
+    "learning_rate": 5.883573797883207e-06,
+    "per_device_train_batch_size": 16
   }
 }

run-9/checkpoint-500/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fa93be00dadaea06ce272a0a4e2225ef5e788b629b9b78b1acade2295ab896bb
 size 5048

 version https://git-lfs.github.com/spec/v1
+oid sha256:cf4b65fc1c8f99c657c41e9ca3c93e5969bd485dba5c1c7339b1ef8c60c61e8c
 size 5048

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a843713c73e12f359184fae200bd4db35c7e342723c6e05d613c5eed17ea8f97
 size 5048

 version https://git-lfs.github.com/spec/v1
+oid sha256:d85cbcd0df5fe052a5199b6aa6fab09a1050a56fe5d4201688db94d30085dc57
 size 5048