Training in progress, step 50, checkpoint

Browse files

Files changed (8) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +189 -6

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:39d09df23746a93d80deb26309baf339ea4b54e53e0258c78a1b0716692e5ede
 size 323014168

 version https://git-lfs.github.com/spec/v1
+oid sha256:8c894d466766edc32e5d8cd150a802b3b7c77d700888a4a5c06d7919bf3f6fca
 size 323014168

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:731e0637f02bcf654708ca3ed348210e610e8ab22ed5078cd9462affefe55d6a
 size 646253418

 version https://git-lfs.github.com/spec/v1
+oid sha256:8218b8629dd68d6f5928a592775eda95babd87fd300326b5550247ca5f41d462
 size 646253418

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:55194ca11f87a3fd3548664aa96cf813556033310bcdc45e4a7f3e065663387c
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:8009937a750f18ff12058eab6e9544d948ec05ed675cf9aa17eb61a833aacf09
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e7945147ab5d61097553475777fae61aab2eb0d416bf9ffa06accaea16d3a722
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:0331a3c5c3b78d547415362beb396f1197cc6d54b3108b1c5af38d98c40b8308
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2ab1d3f815eb96f271e9eddf1ec8e3d3bb0e7d76dd978ab3e0a24dbecb8361b1
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:821d58108cd12c386af7ad204c986e1dbf10fe7237af54f34b7496c18f456bfe
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0ad4d4f9ddf7572e39d748c4abadeb3c1ed7499faa8ca83b7bf35de054976c0b
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:5699c47423fd861ab43692102b0bf342f1e2f6d6d15264e3a7c9bbe882571e57
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f37b2aa490ccb1598b01e14cda36e9081f7ce646deab4d3c2d03de0d2169a755
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:b1df0528620c07325b8faa7567e59b0c1e86a1f1ee6af1245a69c6c0463fe4e2
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.06704580783844,
-  "best_model_checkpoint": "miner_id_24/checkpoint-25",
-  "epoch": 0.22753128555176336,
   "eval_steps": 25,
-  "global_step": 25,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -198,6 +198,189 @@
       "eval_samples_per_second": 16.154,
       "eval_steps_per_second": 2.03,
       "step": 25
     }
   ],
   "logging_steps": 1,
@@ -221,12 +404,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 2.812028905324544e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.9352908730506897,
+  "best_model_checkpoint": "miner_id_24/checkpoint-50",
+  "epoch": 0.4550625711035267,
   "eval_steps": 25,
+  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 16.154,
       "eval_steps_per_second": 2.03,
       "step": 25
+    },
+    {
+      "epoch": 0.2366325369738339,
+      "grad_norm": 4.486268997192383,
+      "learning_rate": 5e-05,
+      "loss": 0.8433,
+      "step": 26
+    },
+    {
+      "epoch": 0.24573378839590443,
+      "grad_norm": 3.177172899246216,
+      "learning_rate": 4.6729843538492847e-05,
+      "loss": 0.94,
+      "step": 27
+    },
+    {
+      "epoch": 0.25483503981797495,
+      "grad_norm": 2.8514692783355713,
+      "learning_rate": 4.347369038899744e-05,
+      "loss": 0.9403,
+      "step": 28
+    },
+    {
+      "epoch": 0.26393629124004553,
+      "grad_norm": 2.081775188446045,
+      "learning_rate": 4.0245483899193595e-05,
+      "loss": 0.9287,
+      "step": 29
+    },
+    {
+      "epoch": 0.27303754266211605,
+      "grad_norm": 1.5277687311172485,
+      "learning_rate": 3.705904774487396e-05,
+      "loss": 0.8997,
+      "step": 30
+    },
+    {
+      "epoch": 0.2821387940841866,
+      "grad_norm": 1.7213866710662842,
+      "learning_rate": 3.392802673484193e-05,
+      "loss": 0.958,
+      "step": 31
+    },
+    {
+      "epoch": 0.2912400455062571,
+      "grad_norm": 1.9582645893096924,
+      "learning_rate": 3.086582838174551e-05,
+      "loss": 1.0021,
+      "step": 32
+    },
+    {
+      "epoch": 0.3003412969283277,
+      "grad_norm": 1.9742724895477295,
+      "learning_rate": 2.7885565489049946e-05,
+      "loss": 1.0717,
+      "step": 33
+    },
+    {
+      "epoch": 0.3094425483503982,
+      "grad_norm": 1.8114529848098755,
+      "learning_rate": 2.500000000000001e-05,
+      "loss": 1.0286,
+      "step": 34
+    },
+    {
+      "epoch": 0.3185437997724687,
+      "grad_norm": 2.001466989517212,
+      "learning_rate": 2.2221488349019903e-05,
+      "loss": 1.0724,
+      "step": 35
+    },
+    {
+      "epoch": 0.32764505119453924,
+      "grad_norm": 2.1843643188476562,
+      "learning_rate": 1.9561928549563968e-05,
+      "loss": 1.1028,
+      "step": 36
+    },
+    {
+      "epoch": 0.33674630261660976,
+      "grad_norm": 2.835616111755371,
+      "learning_rate": 1.703270924499656e-05,
+      "loss": 1.1713,
+      "step": 37
+    },
+    {
+      "epoch": 0.34584755403868034,
+      "grad_norm": 2.740234375,
+      "learning_rate": 1.4644660940672627e-05,
+      "loss": 0.8349,
+      "step": 38
+    },
+    {
+      "epoch": 0.35494880546075086,
+      "grad_norm": 2.345097780227661,
+      "learning_rate": 1.2408009626051137e-05,
+      "loss": 0.73,
+      "step": 39
+    },
+    {
+      "epoch": 0.3640500568828214,
+      "grad_norm": 2.214395761489868,
+      "learning_rate": 1.0332332985438248e-05,
+      "loss": 0.7998,
+      "step": 40
+    },
+    {
+      "epoch": 0.3731513083048919,
+      "grad_norm": 1.7848715782165527,
+      "learning_rate": 8.426519384872733e-06,
+      "loss": 0.8458,
+      "step": 41
+    },
+    {
+      "epoch": 0.3822525597269625,
+      "grad_norm": 1.850387692451477,
+      "learning_rate": 6.698729810778065e-06,
+      "loss": 0.9189,
+      "step": 42
+    },
+    {
+      "epoch": 0.391353811149033,
+      "grad_norm": 1.9545140266418457,
+      "learning_rate": 5.156362923365588e-06,
+      "loss": 0.8823,
+      "step": 43
+    },
+    {
+      "epoch": 0.4004550625711035,
+      "grad_norm": 1.9864474534988403,
+      "learning_rate": 3.8060233744356633e-06,
+      "loss": 0.9604,
+      "step": 44
+    },
+    {
+      "epoch": 0.40955631399317405,
+      "grad_norm": 1.8967782258987427,
+      "learning_rate": 2.653493525244721e-06,
+      "loss": 0.9466,
+      "step": 45
+    },
+    {
+      "epoch": 0.41865756541524457,
+      "grad_norm": 1.9333577156066895,
+      "learning_rate": 1.70370868554659e-06,
+      "loss": 0.9746,
+      "step": 46
+    },
+    {
+      "epoch": 0.42775881683731515,
+      "grad_norm": 1.8357700109481812,
+      "learning_rate": 9.607359798384785e-07,
+      "loss": 1.027,
+      "step": 47
+    },
+    {
+      "epoch": 0.43686006825938567,
+      "grad_norm": 2.4668965339660645,
+      "learning_rate": 4.277569313094809e-07,
+      "loss": 1.0493,
+      "step": 48
+    },
+    {
+      "epoch": 0.4459613196814562,
+      "grad_norm": 2.4607532024383545,
+      "learning_rate": 1.0705383806982606e-07,
+      "loss": 1.0706,
+      "step": 49
+    },
+    {
+      "epoch": 0.4550625711035267,
+      "grad_norm": 2.967007875442505,
+      "learning_rate": 0.0,
+      "loss": 1.1603,
+      "step": 50
+    },
+    {
+      "epoch": 0.4550625711035267,
+      "eval_loss": 0.9352908730506897,
+      "eval_runtime": 45.835,
+      "eval_samples_per_second": 16.145,
+      "eval_steps_per_second": 2.029,
+      "step": 50
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 5.624057810649088e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null