Training in progress, step 5000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +115 -5

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8556a691c4ab5fb89b6e13fbc99580121d0e3f94363e6ac2a01dd331ba85836b
 size 891558696

 version https://git-lfs.github.com/spec/v1
+oid sha256:98792de487e557bcbe0988d5db38585c344e70547f2893c062bf3578dc66a39a
 size 891558696

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8eaf3ec360621c1ce85b720dd55783852c2df291d2c2dee679c14211f9f7d6ad
 size 1783272762

 version https://git-lfs.github.com/spec/v1
+oid sha256:574c1f1337303e1e9ccc23d6ff418de9615ff0ff5522f313a45b3d7696c8a9e5
 size 1783272762

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c8a5efc71021ffa065719e3167f9e1a963daf4640f03e0c3b7abc98600034804
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:c37dbee48e833b4e9057a552c8f0d7af1270c21cc7d8732a724befd1c946e235
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:13e5f31b24159dd112a4c253836ceb74f5ca9e31a7bde4abe64305021c33f511
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:3a400764dfcb252d330daa830113fe3425a92b352a05d6f9c2bcc0960871c50c
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.11007058620452881,
-  "best_model_checkpoint": "./fine-tuned/checkpoint-4500",
-  "epoch": 0.7903749890225696,
   "eval_steps": 100,
-  "global_step": 4500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -997,6 +997,116 @@
       "eval_samples_per_second": 25.244,
       "eval_steps_per_second": 3.158,
       "step": 4500
     }
   ],
   "logging_steps": 50,
@@ -1016,7 +1126,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.192248406016e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.10880845785140991,
+  "best_model_checkpoint": "./fine-tuned/checkpoint-5000",
+  "epoch": 0.8781944322472995,
   "eval_steps": 100,
+  "global_step": 5000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 25.244,
       "eval_steps_per_second": 3.158,
       "step": 4500
+    },
+    {
+      "epoch": 0.7991569333450426,
+      "grad_norm": 18708.171875,
+      "learning_rate": 2.4005796592306344e-05,
+      "loss": 0.1165,
+      "step": 4550
+    },
+    {
+      "epoch": 0.8079388776675156,
+      "grad_norm": 7859.576171875,
+      "learning_rate": 2.3939926225188827e-05,
+      "loss": 0.1147,
+      "step": 4600
+    },
+    {
+      "epoch": 0.8079388776675156,
+      "eval_loss": 0.10995937138795853,
+      "eval_runtime": 176.8489,
+      "eval_samples_per_second": 25.219,
+      "eval_steps_per_second": 3.155,
+      "step": 4600
+    },
+    {
+      "epoch": 0.8167208219899886,
+      "grad_norm": 27483.9140625,
+      "learning_rate": 2.3874055858071317e-05,
+      "loss": 0.1224,
+      "step": 4650
+    },
+    {
+      "epoch": 0.8255027663124616,
+      "grad_norm": 8125.94580078125,
+      "learning_rate": 2.3808185490953804e-05,
+      "loss": 0.1112,
+      "step": 4700
+    },
+    {
+      "epoch": 0.8255027663124616,
+      "eval_loss": 0.10972581803798676,
+      "eval_runtime": 176.1825,
+      "eval_samples_per_second": 25.315,
+      "eval_steps_per_second": 3.167,
+      "step": 4700
+    },
+    {
+      "epoch": 0.8342847106349346,
+      "grad_norm": 20998.330078125,
+      "learning_rate": 2.3742315123836294e-05,
+      "loss": 0.1213,
+      "step": 4750
+    },
+    {
+      "epoch": 0.8430666549574076,
+      "grad_norm": 7832.6513671875,
+      "learning_rate": 2.3676444756718777e-05,
+      "loss": 0.1163,
+      "step": 4800
+    },
+    {
+      "epoch": 0.8430666549574076,
+      "eval_loss": 0.10929498076438904,
+      "eval_runtime": 175.008,
+      "eval_samples_per_second": 25.485,
+      "eval_steps_per_second": 3.188,
+      "step": 4800
+    },
+    {
+      "epoch": 0.8518485992798805,
+      "grad_norm": 10396.4267578125,
+      "learning_rate": 2.3610574389601264e-05,
+      "loss": 0.1056,
+      "step": 4850
+    },
+    {
+      "epoch": 0.8606305436023536,
+      "grad_norm": 10345.142578125,
+      "learning_rate": 2.3544704022483754e-05,
+      "loss": 0.1131,
+      "step": 4900
+    },
+    {
+      "epoch": 0.8606305436023536,
+      "eval_loss": 0.10942210257053375,
+      "eval_runtime": 175.0447,
+      "eval_samples_per_second": 25.479,
+      "eval_steps_per_second": 3.188,
+      "step": 4900
+    },
+    {
+      "epoch": 0.8694124879248265,
+      "grad_norm": 7617.70703125,
+      "learning_rate": 2.3478833655366237e-05,
+      "loss": 0.1033,
+      "step": 4950
+    },
+    {
+      "epoch": 0.8781944322472995,
+      "grad_norm": 8898.314453125,
+      "learning_rate": 2.3412963288248727e-05,
+      "loss": 0.1168,
+      "step": 5000
+    },
+    {
+      "epoch": 0.8781944322472995,
+      "eval_loss": 0.10880845785140991,
+      "eval_runtime": 175.2118,
+      "eval_samples_per_second": 25.455,
+      "eval_steps_per_second": 3.185,
+      "step": 5000
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 2.43583156224e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null