Training in progress, step 400, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +153 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6680869659eed4a175a3df5fe7e442d44c56cacf1f15a710b07f4b275cc0f370
 size 72673016

 version https://git-lfs.github.com/spec/v1
+oid sha256:710ed4ddb4c3c53e36700b43bf3a2d9a8da8dfe9323c0765ab7342c3703a85ec
 size 72673016

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e2f049a6f50f3b56c25f0d9561751e95d7c313e8a419a6895c0deb0c477cac28
 size 36892564

 version https://git-lfs.github.com/spec/v1
+oid sha256:8ac250ac4ff5d7c0c9620858af3c4d4431e4adedcc34529beefb554d7d915fb8
 size 36892564

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a2efa7c06379f0bea01efacb6999709f24f134ad727507be9e7005193945f379
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:b95251c50450ce5a4d7f4a82b9d2109ed98fb70bfda44ff1a6b473c0ce9cba43
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cb3dd5f64079a94595dc06191dfd5685a8005fae52a9b3aa3dcff492ec250d72
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:53069960eacae4f0d791eb39bd795814bb2120f9a4ba2ee8514aef805ac12eec
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.07089516967577275,
   "eval_steps": 1000,
-  "global_step": 375,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2257,13 +2257,163 @@
       "learning_rate": 5.443548387096774e-05,
       "loss": 1.8827,
       "step": 375
     }
   ],
   "logging_steps": 1,
   "max_steps": 501,
   "num_train_epochs": 1,
   "save_steps": 25,
-  "total_flos": 1.810366781502259e+16,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.07562151432082427,
   "eval_steps": 1000,
+  "global_step": 400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 5.443548387096774e-05,
       "loss": 1.8827,
       "step": 375
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 5.403225806451613e-05,
+      "loss": 1.8262,
+      "step": 376
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 5.362903225806452e-05,
+      "loss": 1.7789,
+      "step": 377
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 5.32258064516129e-05,
+      "loss": 1.7937,
+      "step": 378
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 5.282258064516129e-05,
+      "loss": 1.8751,
+      "step": 379
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 5.241935483870968e-05,
+      "loss": 1.7343,
+      "step": 380
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 5.201612903225807e-05,
+      "loss": 1.68,
+      "step": 381
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 5.161290322580645e-05,
+      "loss": 1.7465,
+      "step": 382
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 5.120967741935484e-05,
+      "loss": 1.8655,
+      "step": 383
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 5.080645161290323e-05,
+      "loss": 1.7398,
+      "step": 384
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 5.040322580645161e-05,
+      "loss": 1.8772,
+      "step": 385
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 5e-05,
+      "loss": 1.8151,
+      "step": 386
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 4.959677419354839e-05,
+      "loss": 1.8336,
+      "step": 387
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 4.9193548387096775e-05,
+      "loss": 1.8974,
+      "step": 388
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 4.8790322580645164e-05,
+      "loss": 1.8635,
+      "step": 389
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 4.8387096774193554e-05,
+      "loss": 1.8573,
+      "step": 390
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 4.7983870967741937e-05,
+      "loss": 1.8567,
+      "step": 391
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 4.7580645161290326e-05,
+      "loss": 1.7087,
+      "step": 392
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 4.7177419354838716e-05,
+      "loss": 1.9176,
+      "step": 393
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 4.67741935483871e-05,
+      "loss": 1.7583,
+      "step": 394
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 4.637096774193548e-05,
+      "loss": 1.9632,
+      "step": 395
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 4.596774193548387e-05,
+      "loss": 1.9195,
+      "step": 396
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 4.556451612903226e-05,
+      "loss": 1.3862,
+      "step": 397
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 4.516129032258064e-05,
+      "loss": 2.0477,
+      "step": 398
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 4.475806451612903e-05,
+      "loss": 1.8659,
+      "step": 399
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 4.435483870967742e-05,
+      "loss": 1.7193,
+      "step": 400
     }
   ],
   "logging_steps": 1,
   "max_steps": 501,
   "num_train_epochs": 1,
   "save_steps": 25,
+  "total_flos": 1.9304515314991104e+16,
   "trial_name": null,
   "trial_params": null
 }