Training in progress, step 460, checkpoint

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:496842e7f2f28cf6609e2c51f5445b2abce01f89983ddc9b7dbabf8c99c72a72
 size 100697728

 version https://git-lfs.github.com/spec/v1
+oid sha256:b2e97ba536a9cf9f3cad84abf4746e0135e3d4b06fb5f603560779d86a93736f
 size 100697728

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:23b4e5fca0a770ca2dd365b99753da86acbbb70f3bf7a9af724dfeb95dfd0ff8
 size 201541754

 version https://git-lfs.github.com/spec/v1
+oid sha256:8595eb58b690d85cb1e767c686f29da9e28dd133d34215b62d1115350a069af0
 size 201541754

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f00c9275258cd29c9fcbc7397822ab820104ea2b405434287c23b89bf231c018
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:338d183eae7b62e1d0bd6d80780849a4f9fd1da463f7c7dececa74af88cb940a
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ea120316488c31675750bd3088d0c45da519fe18337e624e504a412ce72bc4c2
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:96a992901ca361b8095fa2f834dad606f97c4c02318aaff9cbbb3f96062de392
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.15742397137745975,
   "eval_steps": 500,
-  "global_step": 440,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -359,14 +359,30 @@
       "loss": 0.411,
       "num_input_tokens_seen": 293886,
       "step": 440
     }
   ],
   "logging_steps": 10,
   "max_steps": 2795,
-  "num_input_tokens_seen": 293886,
   "num_train_epochs": 1,
   "save_steps": 20,
-  "total_flos": 6608458313330688.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.16457960644007155,
   "eval_steps": 500,
+  "global_step": 460,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "loss": 0.411,
       "num_input_tokens_seen": 293886,
       "step": 440
+    },
+    {
+      "epoch": 0.16100178890876565,
+      "grad_norm": 0.4590730667114258,
+      "learning_rate": 0.00016779964221824687,
+      "loss": 0.4441,
+      "num_input_tokens_seen": 300933,
+      "step": 450
+    },
+    {
+      "epoch": 0.16457960644007155,
+      "grad_norm": 0.25614652037620544,
+      "learning_rate": 0.0001670840787119857,
+      "loss": 0.4201,
+      "num_input_tokens_seen": 306782,
+      "step": 460
     }
   ],
   "logging_steps": 10,
   "max_steps": 2795,
+  "num_input_tokens_seen": 306782,
   "num_train_epochs": 1,
   "save_steps": 20,
+  "total_flos": 6898443812499456.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null