Training in progress, step 325, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +153 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2c7fede2ff68f9e472a2c2b349a9cbde0a4d12580727361822f038b204a98f85
 size 838904832

 version https://git-lfs.github.com/spec/v1
+oid sha256:58bfc760e91b0d21d65d7923896fc95c4f25a4f944fedcb622d03de278369d4c
 size 838904832

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:63f7fde2e75f42c7ea00494aae5de88398db12c3a2b9a16648ef1ab7106b12c3
 size 421458386

 version https://git-lfs.github.com/spec/v1
+oid sha256:6a938569403d232d9b7ce7418e5911974858cee98b87ac1d1130486b3b546ff4
 size 421458386

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7f3cd2689612d275f444201619598c0d2ff3e0c02732d05a46fb456bcfae2c9b
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:ef8593826016a9c5e91074c43813975f98ccc4aaa6700967895ddedc6022efdd
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c79c66b60a0abe3dc1f1792ced2b6c99f10b3ada4ba94ee60000ba5931c603a9
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:9d0166e84a24bb5e8fbd3eec4a559ab0d784d0de1c9f1ce37bbb473bd77a0781
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.2,
   "eval_steps": 500,
-  "global_step": 300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1807,13 +1807,163 @@
       "learning_rate": 0.0002,
       "loss": 0.3419,
       "step": 300
     }
   ],
   "logging_steps": 1,
   "max_steps": 500,
   "num_train_epochs": 2,
   "save_steps": 25,
-  "total_flos": 3.589773546369024e+16,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.3,
   "eval_steps": 500,
+  "global_step": 325,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 0.0002,
       "loss": 0.3419,
       "step": 300
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 0.0002,
+      "loss": 0.6055,
+      "step": 301
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 0.0002,
+      "loss": 0.6022,
+      "step": 302
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 0.0002,
+      "loss": 0.5849,
+      "step": 303
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 0.0002,
+      "loss": 0.4591,
+      "step": 304
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 0.0002,
+      "loss": 0.5527,
+      "step": 305
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 0.0002,
+      "loss": 0.4893,
+      "step": 306
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 0.0002,
+      "loss": 0.4901,
+      "step": 307
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 0.0002,
+      "loss": 0.5406,
+      "step": 308
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 0.0002,
+      "loss": 0.5152,
+      "step": 309
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 0.0002,
+      "loss": 0.5013,
+      "step": 310
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 0.0002,
+      "loss": 0.5074,
+      "step": 311
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 0.0002,
+      "loss": 0.4718,
+      "step": 312
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 0.0002,
+      "loss": 0.4602,
+      "step": 313
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 0.0002,
+      "loss": 0.4424,
+      "step": 314
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 0.0002,
+      "loss": 0.4844,
+      "step": 315
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 0.0002,
+      "loss": 0.5499,
+      "step": 316
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 0.0002,
+      "loss": 0.5265,
+      "step": 317
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 0.0002,
+      "loss": 0.4419,
+      "step": 318
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 0.0002,
+      "loss": 0.4753,
+      "step": 319
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 0.0002,
+      "loss": 0.493,
+      "step": 320
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 0.0002,
+      "loss": 0.4885,
+      "step": 321
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 0.0002,
+      "loss": 0.464,
+      "step": 322
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 0.0002,
+      "loss": 0.4767,
+      "step": 323
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 0.0002,
+      "loss": 0.4766,
+      "step": 324
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 0.0002,
+      "loss": 0.4449,
+      "step": 325
     }
   ],
   "logging_steps": 1,
   "max_steps": 500,
   "num_train_epochs": 2,
   "save_steps": 25,
+  "total_flos": 3.921061058162688e+16,
   "trial_name": null,
   "trial_params": null
 }