Training in progress, step 1500

Browse files

Files changed (12) hide show

model.safetensors +1 -1
run-4/checkpoint-1000/model.safetensors +1 -1
run-4/checkpoint-1000/optimizer.pt +1 -1
run-4/checkpoint-1000/rng_state.pth +1 -1
run-4/checkpoint-1000/scheduler.pt +1 -1
run-4/checkpoint-1000/training_args.bin +1 -1
run-4/checkpoint-1500/model.safetensors +1 -1
run-4/checkpoint-1500/optimizer.pt +1 -1
run-4/checkpoint-1500/rng_state.pth +1 -1
run-4/checkpoint-1500/scheduler.pt +1 -1
run-4/checkpoint-1500/trainer_state.json +90 -36
run-4/checkpoint-1500/training_args.bin +1 -1

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:16c6add97730ff24d5a3da84b4e4b1d4c048b393ced862b071e58f104bef795f
 size 1340618660

 version https://git-lfs.github.com/spec/v1
+oid sha256:eb01bd303b793ee9b03ad47871bea5cce22f3ecc606ecad28e5a2b49ef71cbf2
 size 1340618660

run-4/checkpoint-1000/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fcb8607265c0a4ea8afae1705d5620fa2a9809f2bd490a1345d578ba329d0b52
 size 1340618660

 version https://git-lfs.github.com/spec/v1
+oid sha256:ea953fecfc4fad3e35387ba469fa90ed9e322e9426d81de36786111e7bf48c07
 size 1340618660

run-4/checkpoint-1000/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:db09bcf133c4c734b91dee7a86864a8b21b7e4e52984275103321bc800c87b26
 size 2681472237

 version https://git-lfs.github.com/spec/v1
+oid sha256:3c445d66fc183b8fbf2ae2d3fbee89feb7971c8d76b0108cecc8612e46078d41
 size 2681472237

run-4/checkpoint-1000/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:54bea121f6144566f091fc3db2c9498700b03cbc999f62b42941d6dfd7452436
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:f2cdfcea7c19f545a5c3968413dcd70b32c860d464dd9abffbe95cff448fb946
 size 14244

run-4/checkpoint-1000/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9b1af95b8ddef74323ac8e17640e09a8c39c3d51fee72cbedb72cb1b1c730802
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:909fd078c2a20042082d4e6fe343bda98dca49bf58030b79715ccefad3cb5ba3
 size 1064

run-4/checkpoint-1000/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1debc897a09b5f564d38d5c14028f41358d4308b7489c11fe2a009112f166360
 size 5048

 version https://git-lfs.github.com/spec/v1
+oid sha256:8c539e782ca0b96266cde875b3e061950504d8d6e280a5e81a555601aa0081af
 size 5048

run-4/checkpoint-1500/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:89ed448fc318f3ecdd36c5d66ee102fcce02e21de4569328455c4afb61e15aa6
 size 1340618660

 version https://git-lfs.github.com/spec/v1
+oid sha256:eb01bd303b793ee9b03ad47871bea5cce22f3ecc606ecad28e5a2b49ef71cbf2
 size 1340618660

run-4/checkpoint-1500/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5c0e3b078c466c46fa3dff7e95706500603eb1b3c3bc888c677e949d61086e1a
 size 2681472237

 version https://git-lfs.github.com/spec/v1
+oid sha256:a9095cbe73139b23adab15574dc05e73b026fbef8c169e8f6feae6d0fcd55aa0
 size 2681472237

run-4/checkpoint-1500/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d94e9959fe10619a73c116e156a1d9aa901f533fcb5d140a1ce44038a0d2c6fd
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:fff9554be5662c81dc5324c0ba82c1e4075d9a58be3ecf2692e8a0f7f508c509
 size 14244

run-4/checkpoint-1500/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a5a766639dd7e9d9b0ee2238ed8a2a2792b3c83372c8aebddd33d02bc6873839
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:80d47b1d965732dba3a35949a6b088e36e22183e5626c3903e52293c2605dc7f
 size 1064

run-4/checkpoint-1500/trainer_state.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.0107238605898123,
   "eval_steps": 500,
   "global_step": 1500,
   "is_hyper_param_search": true,
@@ -9,55 +9,109 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.6702412868632708,
-      "grad_norm": 20.911739349365234,
-      "learning_rate": 1.9406388835210846e-05,
-      "loss": 0.5519,
       "step": 500
     },
     {
-      "epoch": 1.0,
-      "eval_accuracy": 0.7670130729675293,
-      "eval_loss": 0.4711463153362274,
-      "eval_runtime": 8.8245,
-      "eval_samples_per_second": 338.035,
-      "eval_steps_per_second": 21.191,
-      "step": 746
-    },
-    {
-      "epoch": 1.3404825737265416,
-      "grad_norm": 12.272890090942383,
-      "learning_rate": 1.801225170624455e-05,
-      "loss": 0.3843,
       "step": 1000
     },
     {
-      "epoch": 2.0,
-      "eval_accuracy": 0.7767348289489746,
-      "eval_loss": 0.5532987117767334,
-      "eval_runtime": 8.9725,
-      "eval_samples_per_second": 332.46,
-      "eval_steps_per_second": 20.841,
-      "step": 1492
-    },
-    {
-      "epoch": 2.0107238605898123,
-      "grad_norm": 15.580121994018555,
-      "learning_rate": 1.6618114577278254e-05,
-      "loss": 0.2751,
       "step": 1500
     }
   ],
   "logging_steps": 500,
-  "max_steps": 7460,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 500,
-  "total_flos": 3564872964001584.0,
-  "train_batch_size": 16,
   "trial_name": null,
   "trial_params": {
-    "learning_rate": 2.0800525964177143e-05,
-    "per_device_train_batch_size": 16
   }
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 8.02139037433155,
   "eval_steps": 500,
   "global_step": 1500,
   "is_hyper_param_search": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 1.0,
+      "eval_accuracy": 0.6708012223243713,
+      "eval_loss": 0.625991940498352,
+      "eval_runtime": 8.8472,
+      "eval_samples_per_second": 337.169,
+      "eval_steps_per_second": 21.137,
+      "step": 187
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.6781763434410095,
+      "eval_loss": 0.5827099680900574,
+      "eval_runtime": 9.0096,
+      "eval_samples_per_second": 331.091,
+      "eval_steps_per_second": 20.756,
+      "step": 374
+    },
+    {
+      "epoch": 2.6737967914438503,
+      "grad_norm": 3.558804988861084,
+      "learning_rate": 7.935610461217781e-07,
+      "loss": 0.6309,
       "step": 500
     },
     {
+      "epoch": 3.0,
+      "eval_accuracy": 0.6935970783233643,
+      "eval_loss": 0.5479013323783875,
+      "eval_runtime": 8.9238,
+      "eval_samples_per_second": 334.274,
+      "eval_steps_per_second": 20.955,
+      "step": 561
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.7096882462501526,
+      "eval_loss": 0.5329120755195618,
+      "eval_runtime": 9.016,
+      "eval_samples_per_second": 330.856,
+      "eval_steps_per_second": 20.741,
+      "step": 748
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.7153871655464172,
+      "eval_loss": 0.5252031087875366,
+      "eval_runtime": 8.9923,
+      "eval_samples_per_second": 331.727,
+      "eval_steps_per_second": 20.795,
+      "step": 935
+    },
+    {
+      "epoch": 5.347593582887701,
+      "grad_norm": 8.559992790222168,
+      "learning_rate": 5.039402263693043e-07,
+      "loss": 0.5277,
       "step": 1000
     },
     {
+      "epoch": 6.0,
+      "eval_accuracy": 0.7200804352760315,
+      "eval_loss": 0.5211048722267151,
+      "eval_runtime": 8.9939,
+      "eval_samples_per_second": 331.669,
+      "eval_steps_per_second": 20.792,
+      "step": 1122
+    },
+    {
+      "epoch": 7.0,
+      "eval_accuracy": 0.7207509279251099,
+      "eval_loss": 0.5175842046737671,
+      "eval_runtime": 8.9813,
+      "eval_samples_per_second": 332.134,
+      "eval_steps_per_second": 20.821,
+      "step": 1309
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.721756637096405,
+      "eval_loss": 0.5173760652542114,
+      "eval_runtime": 9.0321,
+      "eval_samples_per_second": 330.265,
+      "eval_steps_per_second": 20.704,
+      "step": 1496
+    },
+    {
+      "epoch": 8.02139037433155,
+      "grad_norm": 6.5567402839660645,
+      "learning_rate": 2.1431940661683059e-07,
+      "loss": 0.5002,
       "step": 1500
     }
   ],
   "logging_steps": 500,
+  "max_steps": 1870,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 500,
+  "total_flos": 1.6341528697599528e+16,
+  "train_batch_size": 64,
   "trial_name": null,
   "trial_params": {
+    "learning_rate": 1.0831818658742517e-06,
+    "per_device_train_batch_size": 64
   }
 }

run-4/checkpoint-1500/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1debc897a09b5f564d38d5c14028f41358d4308b7489c11fe2a009112f166360
 size 5048

 version https://git-lfs.github.com/spec/v1
+oid sha256:8c539e782ca0b96266cde875b3e061950504d8d6e280a5e81a555601aa0081af
 size 5048