Training in progress, step 1500, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +83 -5

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:abff6a3b395393232e5710d40106174e0677d0142a41784b9fb51f8489bb77ef
 size 577789320

 version https://git-lfs.github.com/spec/v1
+oid sha256:803debd806dc1599453d26189aa93a91d55ccde27ce073e5a76f77124d1416e1
 size 577789320

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9713c93771d1f6a6b574d01f234f860c1f651482faa1aaf4ab1ff6ee0fc8fbca
 size 1155772233

 version https://git-lfs.github.com/spec/v1
+oid sha256:5cfaccd4f937bced7521f5235ea6790eb0f5b209dbca9e77047814b9953eb4e6
 size 1155772233

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:17cf673186ae01f2692ea8b747e0fc3505fbc3d1d22ec482b81a3eae6d5672a0
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:8b5d8e9b9db0784c3f5644d0a76f28ad18847aa47c892ea065246aec4366811b
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2599834a5bb25566393aaf9a393926be754987442fa6dd0ec6e936958ebe0844
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:db7cce94191358964e35b668c9bdb6e486f8a8bf168079d634ab7bccc775845b
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.4506620466709137,
-  "best_model_checkpoint": "mikhail-panzo/fil_b64_le5_s8000/checkpoint-1000",
-  "epoch": 43.47826086956522,
   "eval_steps": 500,
-  "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -163,6 +163,84 @@
       "eval_samples_per_second": 24.596,
       "eval_steps_per_second": 3.094,
       "step": 1000
     }
   ],
   "logging_steps": 50,
@@ -182,7 +260,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.484313588256752e+16,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.4311259388923645,
+  "best_model_checkpoint": "mikhail-panzo/fil_b64_le5_s8000/checkpoint-1500",
+  "epoch": 65.21739130434783,
   "eval_steps": 500,
+  "global_step": 1500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 24.596,
       "eval_steps_per_second": 3.094,
       "step": 1000
+    },
+    {
+      "epoch": 45.65217391304348,
+      "grad_norm": 1.9366440773010254,
+      "learning_rate": 5.240000000000001e-06,
+      "loss": 0.5043,
+      "step": 1050
+    },
+    {
+      "epoch": 47.82608695652174,
+      "grad_norm": 1.5358505249023438,
+      "learning_rate": 5.490000000000001e-06,
+      "loss": 0.5034,
+      "step": 1100
+    },
+    {
+      "epoch": 50.0,
+      "grad_norm": 1.6836323738098145,
+      "learning_rate": 5.74e-06,
+      "loss": 0.499,
+      "step": 1150
+    },
+    {
+      "epoch": 52.17391304347826,
+      "grad_norm": 1.5092076063156128,
+      "learning_rate": 5.99e-06,
+      "loss": 0.487,
+      "step": 1200
+    },
+    {
+      "epoch": 54.34782608695652,
+      "grad_norm": 1.0751235485076904,
+      "learning_rate": 6.24e-06,
+      "loss": 0.4871,
+      "step": 1250
+    },
+    {
+      "epoch": 56.52173913043478,
+      "grad_norm": 1.327528476715088,
+      "learning_rate": 6.4900000000000005e-06,
+      "loss": 0.4911,
+      "step": 1300
+    },
+    {
+      "epoch": 58.69565217391305,
+      "grad_norm": 1.7827174663543701,
+      "learning_rate": 6.740000000000001e-06,
+      "loss": 0.4772,
+      "step": 1350
+    },
+    {
+      "epoch": 60.869565217391305,
+      "grad_norm": 1.2707558870315552,
+      "learning_rate": 6.99e-06,
+      "loss": 0.4786,
+      "step": 1400
+    },
+    {
+      "epoch": 63.04347826086956,
+      "grad_norm": 1.0794321298599243,
+      "learning_rate": 7.24e-06,
+      "loss": 0.4741,
+      "step": 1450
+    },
+    {
+      "epoch": 65.21739130434783,
+      "grad_norm": 2.0180580615997314,
+      "learning_rate": 7.49e-06,
+      "loss": 0.4749,
+      "step": 1500
+    },
+    {
+      "epoch": 65.21739130434783,
+      "eval_loss": 0.4311259388923645,
+      "eval_runtime": 6.4494,
+      "eval_samples_per_second": 24.653,
+      "eval_steps_per_second": 3.101,
+      "step": 1500
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 2.226780270809741e+16,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null