Training in progress, step 6500, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +81 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d095a0b3074fe5a8626cfa4acc87c71891375b0a5807fe6b082815254ce690a8
 size 577789320

 version https://git-lfs.github.com/spec/v1
+oid sha256:be130cdb6d58ca576d555e5ea8567af6f6d33afe2411bfe3f11f6564eaa152d0
 size 577789320

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:70930de6e09d970682f047c2f2015d79bef17aec7309243de6cba5bc51d6c42f
 size 1155772233

 version https://git-lfs.github.com/spec/v1
+oid sha256:062d698adb1b00a404b09b72c2a558bae0161b9bae78ab82d6699e09598840ca
 size 1155772233

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:23e913b1b09af4704f298f5d732037471d49897007ac37250e2071bb06273799
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:faf76ded8fdcf7a4a436a3933944f6bd69f05be25204a8e34a3f160837caddf2
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ea4cdeda39ba2136e592d70ee5cca1961eef743b3307c81d32a1dfebf7fdaaa7
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:048c5f28ad1e36826a9d8ed6d7ba190c323a6c73bfb07a0753770149cba430be
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.3915382921695709,
   "best_model_checkpoint": "mikhail-panzo/fil-ceb_b64_le5_s8000/checkpoint-3000",
-  "epoch": 235.2941176470588,
   "eval_steps": 500,
-  "global_step": 6000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -943,6 +943,84 @@
       "eval_samples_per_second": 29.584,
       "eval_steps_per_second": 3.78,
       "step": 6000
     }
   ],
   "logging_steps": 50,
@@ -962,7 +1040,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 6.5283263362154376e+16,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.3915382921695709,
   "best_model_checkpoint": "mikhail-panzo/fil-ceb_b64_le5_s8000/checkpoint-3000",
+  "epoch": 254.90196078431373,
   "eval_steps": 500,
+  "global_step": 6500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 29.584,
       "eval_steps_per_second": 3.78,
       "step": 6000
+    },
+    {
+      "epoch": 237.2549019607843,
+      "grad_norm": 0.8828366994857788,
+      "learning_rate": 3.2533333333333332e-06,
+      "loss": 0.3881,
+      "step": 6050
+    },
+    {
+      "epoch": 239.2156862745098,
+      "grad_norm": 1.034189224243164,
+      "learning_rate": 3.17e-06,
+      "loss": 0.3905,
+      "step": 6100
+    },
+    {
+      "epoch": 241.1764705882353,
+      "grad_norm": 0.7035565972328186,
+      "learning_rate": 3.0866666666666666e-06,
+      "loss": 0.3889,
+      "step": 6150
+    },
+    {
+      "epoch": 243.13725490196077,
+      "grad_norm": 0.8675793409347534,
+      "learning_rate": 3.0033333333333335e-06,
+      "loss": 0.3895,
+      "step": 6200
+    },
+    {
+      "epoch": 245.09803921568627,
+      "grad_norm": 0.731158435344696,
+      "learning_rate": 2.92e-06,
+      "loss": 0.3835,
+      "step": 6250
+    },
+    {
+      "epoch": 247.05882352941177,
+      "grad_norm": 0.8929085731506348,
+      "learning_rate": 2.836666666666667e-06,
+      "loss": 0.3906,
+      "step": 6300
+    },
+    {
+      "epoch": 249.01960784313727,
+      "grad_norm": 1.1059510707855225,
+      "learning_rate": 2.7533333333333334e-06,
+      "loss": 0.3905,
+      "step": 6350
+    },
+    {
+      "epoch": 250.98039215686273,
+      "grad_norm": 0.9429101347923279,
+      "learning_rate": 2.6700000000000003e-06,
+      "loss": 0.3894,
+      "step": 6400
+    },
+    {
+      "epoch": 252.94117647058823,
+      "grad_norm": 1.0544432401657104,
+      "learning_rate": 2.5866666666666667e-06,
+      "loss": 0.3937,
+      "step": 6450
+    },
+    {
+      "epoch": 254.90196078431373,
+      "grad_norm": 0.8494179844856262,
+      "learning_rate": 2.5033333333333336e-06,
+      "loss": 0.3921,
+      "step": 6500
+    },
+    {
+      "epoch": 254.90196078431373,
+      "eval_loss": 0.3925850987434387,
+      "eval_runtime": 6.2722,
+      "eval_samples_per_second": 28.698,
+      "eval_steps_per_second": 3.667,
+      "step": 6500
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 7.072681729994813e+16,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null