Training in progress, step 500

Browse files

Files changed (9) hide show

model.safetensors +1 -1
run-4/checkpoint-1000/trainer_state.json +57 -21
run-4/checkpoint-500/model.safetensors +1 -1
run-4/checkpoint-500/optimizer.pt +1 -1
run-4/checkpoint-500/rng_state.pth +1 -1
run-4/checkpoint-500/scheduler.pt +1 -1
run-4/checkpoint-500/trainer_state.json +28 -10
run-4/checkpoint-500/training_args.bin +1 -1
training_args.bin +1 -1

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:357873f897ac28dcafef3fa3fa53be07c2ae1ce0ee7c067b30c199d7205c8456
 size 1340618660

 version https://git-lfs.github.com/spec/v1
+oid sha256:16c6add97730ff24d5a3da84b4e4b1d4c048b393ced862b071e58f104bef795f
 size 1340618660

run-4/checkpoint-1000/trainer_state.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.3404825737265416,
   "eval_steps": 500,
   "global_step": 1000,
   "is_hyper_param_search": true,
@@ -9,39 +9,75 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.6702412868632708,
-      "grad_norm": 20.911739349365234,
-      "learning_rate": 1.9406388835210846e-05,
-      "loss": 0.5519,
       "step": 500
     },
     {
-      "epoch": 1.0,
-      "eval_accuracy": 0.7670130729675293,
-      "eval_loss": 0.4711463153362274,
-      "eval_runtime": 8.8245,
-      "eval_samples_per_second": 338.035,
-      "eval_steps_per_second": 21.191,
-      "step": 746
     },
     {
-      "epoch": 1.3404825737265416,
-      "grad_norm": 12.272890090942383,
-      "learning_rate": 1.801225170624455e-05,
-      "loss": 0.3843,
       "step": 1000
     }
   ],
   "logging_steps": 500,
-  "max_steps": 7460,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 500,
-  "total_flos": 2375543264345280.0,
-  "train_batch_size": 16,
   "trial_name": null,
   "trial_params": {
-    "learning_rate": 2.0800525964177143e-05,
-    "per_device_train_batch_size": 16
   }
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 5.347593582887701,
   "eval_steps": 500,
   "global_step": 1000,
   "is_hyper_param_search": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 1.0,
+      "eval_accuracy": 0.6708012223243713,
+      "eval_loss": 0.625991940498352,
+      "eval_runtime": 8.8472,
+      "eval_samples_per_second": 337.169,
+      "eval_steps_per_second": 21.137,
+      "step": 187
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.6781763434410095,
+      "eval_loss": 0.5827099680900574,
+      "eval_runtime": 9.0096,
+      "eval_samples_per_second": 331.091,
+      "eval_steps_per_second": 20.756,
+      "step": 374
+    },
+    {
+      "epoch": 2.6737967914438503,
+      "grad_norm": 3.558804988861084,
+      "learning_rate": 7.935610461217781e-07,
+      "loss": 0.6309,
       "step": 500
     },
     {
+      "epoch": 3.0,
+      "eval_accuracy": 0.6935970783233643,
+      "eval_loss": 0.5479013323783875,
+      "eval_runtime": 8.9238,
+      "eval_samples_per_second": 334.274,
+      "eval_steps_per_second": 20.955,
+      "step": 561
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.7096882462501526,
+      "eval_loss": 0.5329120755195618,
+      "eval_runtime": 9.016,
+      "eval_samples_per_second": 330.856,
+      "eval_steps_per_second": 20.741,
+      "step": 748
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.7153871655464172,
+      "eval_loss": 0.5252031087875366,
+      "eval_runtime": 8.9923,
+      "eval_samples_per_second": 331.727,
+      "eval_steps_per_second": 20.795,
+      "step": 935
     },
     {
+      "epoch": 5.347593582887701,
+      "grad_norm": 8.559992790222168,
+      "learning_rate": 5.039402263693043e-07,
+      "loss": 0.5277,
       "step": 1000
     }
   ],
   "logging_steps": 500,
+  "max_steps": 1870,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 500,
+  "total_flos": 1.0895504027404356e+16,
+  "train_batch_size": 64,
   "trial_name": null,
   "trial_params": {
+    "learning_rate": 1.0831818658742517e-06,
+    "per_device_train_batch_size": 64
   }
 }

run-4/checkpoint-500/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:89cc74c34edf1951d871132cf3a1da9f2b46dcfd82a2bc163f0230db648eb563
 size 1340618660

 version https://git-lfs.github.com/spec/v1
+oid sha256:16c6add97730ff24d5a3da84b4e4b1d4c048b393ced862b071e58f104bef795f
 size 1340618660

run-4/checkpoint-500/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:41b80c4786ba34af72675e39f6349c9cc2e69608b2d80a05e9d7b79fdfcc8288
 size 2681472237

 version https://git-lfs.github.com/spec/v1
+oid sha256:a7621ef41e046c876527411669f95e570ebd99ea9faf74293b8c69537d7e8943
 size 2681472237

run-4/checkpoint-500/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f544045d8bc120b0bef3c491fba9f1ed6efda96a8fe519bf19d9f17a0a9934ac
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:3cb98e7f396f8e059c8d47db8cc319556058ea6647e1637d6876176292860582
 size 14244

run-4/checkpoint-500/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:51ca0a82c75bd9bdff0af759ace22c41be98f08f8640c3939ed524c15e9fe8b5
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:cae0c55c677142dd9383a12ba34c0056a14808066d20b1f418ad7e86eee44721
 size 1064

run-4/checkpoint-500/trainer_state.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.6702412868632708,
   "eval_steps": 500,
   "global_step": 500,
   "is_hyper_param_search": true,
@@ -9,23 +9,41 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.6702412868632708,
-      "grad_norm": 20.911739349365234,
-      "learning_rate": 1.9406388835210846e-05,
-      "loss": 0.5519,
       "step": 500
     }
   ],
   "logging_steps": 500,
-  "max_steps": 7460,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 500,
-  "total_flos": 1189489874818176.0,
-  "train_batch_size": 16,
   "trial_name": null,
   "trial_params": {
-    "learning_rate": 2.0800525964177143e-05,
-    "per_device_train_batch_size": 16
   }
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.6737967914438503,
   "eval_steps": 500,
   "global_step": 500,
   "is_hyper_param_search": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 1.0,
+      "eval_accuracy": 0.6708012223243713,
+      "eval_loss": 0.625991940498352,
+      "eval_runtime": 8.8472,
+      "eval_samples_per_second": 337.169,
+      "eval_steps_per_second": 21.137,
+      "step": 187
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.6781763434410095,
+      "eval_loss": 0.5827099680900574,
+      "eval_runtime": 9.0096,
+      "eval_samples_per_second": 331.091,
+      "eval_steps_per_second": 20.756,
+      "step": 374
+    },
+    {
+      "epoch": 2.6737967914438503,
+      "grad_norm": 3.558804988861084,
+      "learning_rate": 7.935610461217781e-07,
+      "loss": 0.6309,
       "step": 500
     }
   ],
   "logging_steps": 500,
+  "max_steps": 1870,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 500,
+  "total_flos": 5457641009775480.0,
+  "train_batch_size": 64,
   "trial_name": null,
   "trial_params": {
+    "learning_rate": 1.0831818658742517e-06,
+    "per_device_train_batch_size": 64
   }
 }

run-4/checkpoint-500/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1debc897a09b5f564d38d5c14028f41358d4308b7489c11fe2a009112f166360
 size 5048

 version https://git-lfs.github.com/spec/v1
+oid sha256:8c539e782ca0b96266cde875b3e061950504d8d6e280a5e81a555601aa0081af
 size 5048

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1507950b2d37b737502f824dab70976a7fa7a07f6887612e84989d3ab0cc54db
 size 5048

 version https://git-lfs.github.com/spec/v1
+oid sha256:8c539e782ca0b96266cde875b3e061950504d8d6e280a5e81a555601aa0081af
 size 5048