Training in progress, epoch 19, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.bin +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +109 -3

last-checkpoint/adapter_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dacbb11ee26d39a11b078b4e41b186858595a541a46afa40d1d56f8d3f9d09cb
 size 778185130

 version https://git-lfs.github.com/spec/v1
+oid sha256:5ae3a43f4efec245b701802773fa3672d33222c0901aefd3d8720e17deb1370c
 size 778185130

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bc3648b7441555f2f1de64686d5391ee6f025ef43d67eb1f21801a5f2feeaa26
 size 395561780

 version https://git-lfs.github.com/spec/v1
+oid sha256:1ed2ba4f7a29e297ae552e10f040d19b71f57c648e3efd9104e8940c29e0d6b1
 size 395561780

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ff2a98b7b58dd272a86869334fd0edf641ab47ceb102b634b242c3ff92151a26
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:774612f2d4811ca7da639cec8d3b509c1f87b5ffc57761546af6466447a0619a
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:91dab35b307108e4bae50d4534d800057f9a6bba8495c6b805b7d97ab7a4077d
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:9dfbf64ae704679e934ba0ab136667c219c97c5f82e2ab9b372076828c19fea3
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.4693966805934906,
   "best_model_checkpoint": "/tmp/tmp6i73fvu2/checkpoint-5596",
-  "epoch": 18.0,
   "eval_steps": 500,
-  "global_step": 25182,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1908,6 +1908,112 @@
       "eval_samples_per_second": 3.578,
       "eval_steps_per_second": 3.578,
       "step": 25182
     }
   ],
   "logging_steps": 100,
@@ -1927,7 +2033,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.685860856763515e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.4693966805934906,
   "best_model_checkpoint": "/tmp/tmp6i73fvu2/checkpoint-5596",
+  "epoch": 19.0,
   "eval_steps": 500,
+  "global_step": 26581,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 3.578,
       "eval_steps_per_second": 3.578,
       "step": 25182
+    },
+    {
+      "epoch": 18.01286633309507,
+      "grad_norm": 0.08682116866111755,
+      "learning_rate": 4.989258861439313e-06,
+      "loss": 0.3537,
+      "step": 25200
+    },
+    {
+      "epoch": 18.084345961401002,
+      "grad_norm": 0.16758058965206146,
+      "learning_rate": 4.810239885427856e-06,
+      "loss": 0.3516,
+      "step": 25300
+    },
+    {
+      "epoch": 18.155825589706932,
+      "grad_norm": 0.12864187359809875,
+      "learning_rate": 4.631220909416398e-06,
+      "loss": 0.345,
+      "step": 25400
+    },
+    {
+      "epoch": 18.227305218012866,
+      "grad_norm": 0.12607234716415405,
+      "learning_rate": 4.4522019334049415e-06,
+      "loss": 0.3448,
+      "step": 25500
+    },
+    {
+      "epoch": 18.2987848463188,
+      "grad_norm": 0.17426550388336182,
+      "learning_rate": 4.273182957393484e-06,
+      "loss": 0.3385,
+      "step": 25600
+    },
+    {
+      "epoch": 18.370264474624733,
+      "grad_norm": 0.16788093745708466,
+      "learning_rate": 4.0941639813820265e-06,
+      "loss": 0.353,
+      "step": 25700
+    },
+    {
+      "epoch": 18.441744102930663,
+      "grad_norm": 0.09532229602336884,
+      "learning_rate": 3.915145005370569e-06,
+      "loss": 0.3564,
+      "step": 25800
+    },
+    {
+      "epoch": 18.513223731236597,
+      "grad_norm": 0.1609189808368683,
+      "learning_rate": 3.7361260293591127e-06,
+      "loss": 0.3567,
+      "step": 25900
+    },
+    {
+      "epoch": 18.58470335954253,
+      "grad_norm": 0.16414226591587067,
+      "learning_rate": 3.5571070533476552e-06,
+      "loss": 0.3606,
+      "step": 26000
+    },
+    {
+      "epoch": 18.656182987848464,
+      "grad_norm": 0.17029887437820435,
+      "learning_rate": 3.378088077336198e-06,
+      "loss": 0.3595,
+      "step": 26100
+    },
+    {
+      "epoch": 18.727662616154397,
+      "grad_norm": 0.1379202902317047,
+      "learning_rate": 3.1990691013247406e-06,
+      "loss": 0.3475,
+      "step": 26200
+    },
+    {
+      "epoch": 18.799142244460327,
+      "grad_norm": 0.12663400173187256,
+      "learning_rate": 3.0200501253132835e-06,
+      "loss": 0.3564,
+      "step": 26300
+    },
+    {
+      "epoch": 18.87062187276626,
+      "grad_norm": 0.12856705486774445,
+      "learning_rate": 2.841031149301826e-06,
+      "loss": 0.3558,
+      "step": 26400
+    },
+    {
+      "epoch": 18.942101501072194,
+      "grad_norm": 0.1797301322221756,
+      "learning_rate": 2.662012173290369e-06,
+      "loss": 0.3583,
+      "step": 26500
+    },
+    {
+      "epoch": 19.0,
+      "eval_loss": 0.573534369468689,
+      "eval_runtime": 195.7446,
+      "eval_samples_per_second": 3.576,
+      "eval_steps_per_second": 3.576,
+      "step": 26581
     }
   ],
   "logging_steps": 100,
       "attributes": {}
     }
   },
+  "total_flos": 1.7795197925064704e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null