Training in progress, step 350, checkpoint

Browse files

Files changed (8) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +371 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c6b441e5a407e166d75de29ae94a3955500ad7021ce6dca594b68aff59f6d6ed
 size 335604696

 version https://git-lfs.github.com/spec/v1
+oid sha256:30263ee37a2d68a7092f89eb8fa7493fe6f8735c772e021332473d7fcac0680b
 size 335604696

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:aadc289b586300b6c580bc1a6eca495740414d61ea7683171879f63084fc162e
 size 671466706

 version https://git-lfs.github.com/spec/v1
+oid sha256:b46b0498e23611388191f2115cb6dceb214463dd39243d7304b3cad927146750
 size 671466706

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:78a5855da155279f93abc13f1bfe89fdf931186bd840a200d37c3b15753ce1a9
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:d6999b9489bb7350f42339a6e403dbb7f9b68ad8f2757bcf005b72ef226794cb
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6686cf7ca61e0053c16815e8d590e1349f054c8a931e8bf4f04bd67e016e11bb
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:7ce49388e1c9528f986f55439875157d89a4871e8e7acd10dbbd2c4a9c1bc530
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1180d1447ec654e562fe520e2b7e53b29f2bc13d63e52f6f84d0b46af7e8e585
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:52b00fa031576decf3df4a9b5c441241f45eac22271ca0abe7bfa2975f83834a
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9e4e36ed27da4c00b2842665e4d78dfd418210e96c76a5f25a475da6320fd1f7
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:6b61c20b54b5fd3227b51531ad3983ccdfc8e54598920e059bbf33d95d6d3558
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:35854f452c47ab12eebe0e36f0be134b8fb0b52560a5a462ad8966fc50622447
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:4112ab6a51bcb64d14b5b501c1d18a2f1bd9a7dc366fede565410f8f2533667f
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 2.3020389080047607,
   "best_model_checkpoint": "miner_id_24/checkpoint-300",
-  "epoch": 1.906653426017875,
   "eval_steps": 25,
-  "global_step": 300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2211,6 +2211,372 @@
       "eval_samples_per_second": 33.113,
       "eval_steps_per_second": 8.609,
       "step": 300
     }
   ],
   "logging_steps": 1,
@@ -2225,7 +2591,7 @@
         "early_stopping_threshold": 0.0
       },
       "attributes": {
-        "early_stopping_patience_counter": 0
       }
     },
     "TrainerControl": {
@@ -2234,12 +2600,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 7.161700340780237e+18,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 2.3020389080047607,
   "best_model_checkpoint": "miner_id_24/checkpoint-300",
+  "epoch": 2.224428997020854,
   "eval_steps": 25,
+  "global_step": 350,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 33.113,
       "eval_steps_per_second": 8.609,
       "step": 300
+    },
+    {
+      "epoch": 1.9130089374379344,
+      "grad_norm": 0.23434974253177643,
+      "learning_rate": 4.366487945997335e-05,
+      "loss": 2.1907,
+      "step": 301
+    },
+    {
+      "epoch": 1.9193644488579942,
+      "grad_norm": 0.22699026763439178,
+      "learning_rate": 4.337710167617577e-05,
+      "loss": 2.2486,
+      "step": 302
+    },
+    {
+      "epoch": 1.9257199602780535,
+      "grad_norm": 0.24884426593780518,
+      "learning_rate": 4.308983231560384e-05,
+      "loss": 2.2289,
+      "step": 303
+    },
+    {
+      "epoch": 1.9320754716981132,
+      "grad_norm": 0.24829219281673431,
+      "learning_rate": 4.2803083944350016e-05,
+      "loss": 2.2107,
+      "step": 304
+    },
+    {
+      "epoch": 1.9384309831181727,
+      "grad_norm": 0.2585359513759613,
+      "learning_rate": 4.2516869105717004e-05,
+      "loss": 2.2945,
+      "step": 305
+    },
+    {
+      "epoch": 1.9447864945382323,
+      "grad_norm": 0.28458529710769653,
+      "learning_rate": 4.223120031966903e-05,
+      "loss": 2.2366,
+      "step": 306
+    },
+    {
+      "epoch": 1.951142005958292,
+      "grad_norm": 0.3298734426498413,
+      "learning_rate": 4.1946090082284264e-05,
+      "loss": 2.3884,
+      "step": 307
+    },
+    {
+      "epoch": 1.9574975173783515,
+      "grad_norm": 0.22929073870182037,
+      "learning_rate": 4.166155086520809e-05,
+      "loss": 2.1712,
+      "step": 308
+    },
+    {
+      "epoch": 1.963853028798411,
+      "grad_norm": 0.20995154976844788,
+      "learning_rate": 4.137759511510766e-05,
+      "loss": 2.1756,
+      "step": 309
+    },
+    {
+      "epoch": 1.9702085402184708,
+      "grad_norm": 0.22254884243011475,
+      "learning_rate": 4.109423525312738e-05,
+      "loss": 2.2643,
+      "step": 310
+    },
+    {
+      "epoch": 1.9765640516385303,
+      "grad_norm": 0.23102299869060516,
+      "learning_rate": 4.081148367434554e-05,
+      "loss": 2.2153,
+      "step": 311
+    },
+    {
+      "epoch": 1.9829195630585899,
+      "grad_norm": 0.25142958760261536,
+      "learning_rate": 4.052935274723222e-05,
+      "loss": 2.1985,
+      "step": 312
+    },
+    {
+      "epoch": 1.9892750744786496,
+      "grad_norm": 0.24793897569179535,
+      "learning_rate": 4.02478548131081e-05,
+      "loss": 2.256,
+      "step": 313
+    },
+    {
+      "epoch": 1.995630585898709,
+      "grad_norm": 0.28536108136177063,
+      "learning_rate": 3.9967002185604805e-05,
+      "loss": 2.3481,
+      "step": 314
+    },
+    {
+      "epoch": 2.0019860973187686,
+      "grad_norm": 0.5548765063285828,
+      "learning_rate": 3.968680715012606e-05,
+      "loss": 3.6251,
+      "step": 315
+    },
+    {
+      "epoch": 2.0083416087388284,
+      "grad_norm": 0.22422701120376587,
+      "learning_rate": 3.940728196331045e-05,
+      "loss": 2.0935,
+      "step": 316
+    },
+    {
+      "epoch": 2.0146971201588877,
+      "grad_norm": 0.20903456211090088,
+      "learning_rate": 3.912843885249515e-05,
+      "loss": 2.1515,
+      "step": 317
+    },
+    {
+      "epoch": 2.0210526315789474,
+      "grad_norm": 0.20581288635730743,
+      "learning_rate": 3.885029001518119e-05,
+      "loss": 2.1726,
+      "step": 318
+    },
+    {
+      "epoch": 2.0274081429990067,
+      "grad_norm": 0.22312361001968384,
+      "learning_rate": 3.857284761849975e-05,
+      "loss": 2.1979,
+      "step": 319
+    },
+    {
+      "epoch": 2.0337636544190665,
+      "grad_norm": 0.22348229587078094,
+      "learning_rate": 3.829612379868006e-05,
+      "loss": 2.2117,
+      "step": 320
+    },
+    {
+      "epoch": 2.0401191658391262,
+      "grad_norm": 0.22266767919063568,
+      "learning_rate": 3.8020130660518495e-05,
+      "loss": 2.2157,
+      "step": 321
+    },
+    {
+      "epoch": 2.0464746772591855,
+      "grad_norm": 0.23664413392543793,
+      "learning_rate": 3.774488027684898e-05,
+      "loss": 2.2099,
+      "step": 322
+    },
+    {
+      "epoch": 2.0528301886792453,
+      "grad_norm": 0.24889320135116577,
+      "learning_rate": 3.7470384688015e-05,
+      "loss": 2.1944,
+      "step": 323
+    },
+    {
+      "epoch": 2.059185700099305,
+      "grad_norm": 0.2663976848125458,
+      "learning_rate": 3.7196655901342836e-05,
+      "loss": 2.1792,
+      "step": 324
+    },
+    {
+      "epoch": 2.0655412115193643,
+      "grad_norm": 0.2890424132347107,
+      "learning_rate": 3.692370589061639e-05,
+      "loss": 2.2045,
+      "step": 325
+    },
+    {
+      "epoch": 2.0655412115193643,
+      "eval_loss": 2.3015811443328857,
+      "eval_runtime": 1.5096,
+      "eval_samples_per_second": 33.122,
+      "eval_steps_per_second": 8.612,
+      "step": 325
+    },
+    {
+      "epoch": 2.071896722939424,
+      "grad_norm": 0.3092862665653229,
+      "learning_rate": 3.665154659555336e-05,
+      "loss": 2.2105,
+      "step": 326
+    },
+    {
+      "epoch": 2.078252234359484,
+      "grad_norm": 0.2822588086128235,
+      "learning_rate": 3.638018992128296e-05,
+      "loss": 1.8203,
+      "step": 327
+    },
+    {
+      "epoch": 2.084607745779543,
+      "grad_norm": 0.2667306363582611,
+      "learning_rate": 3.6109647737825246e-05,
+      "loss": 2.5053,
+      "step": 328
+    },
+    {
+      "epoch": 2.090963257199603,
+      "grad_norm": 0.2170848250389099,
+      "learning_rate": 3.583993187957173e-05,
+      "loss": 2.1155,
+      "step": 329
+    },
+    {
+      "epoch": 2.097318768619662,
+      "grad_norm": 0.23939752578735352,
+      "learning_rate": 3.557105414476782e-05,
+      "loss": 2.1199,
+      "step": 330
+    },
+    {
+      "epoch": 2.103674280039722,
+      "grad_norm": 0.24040144681930542,
+      "learning_rate": 3.530302629499667e-05,
+      "loss": 2.2042,
+      "step": 331
+    },
+    {
+      "epoch": 2.1100297914597816,
+      "grad_norm": 0.23685196042060852,
+      "learning_rate": 3.503586005466474e-05,
+      "loss": 2.0769,
+      "step": 332
+    },
+    {
+      "epoch": 2.116385302879841,
+      "grad_norm": 0.23992370069026947,
+      "learning_rate": 3.476956711048885e-05,
+      "loss": 2.1787,
+      "step": 333
+    },
+    {
+      "epoch": 2.1227408142999007,
+      "grad_norm": 0.25517672300338745,
+      "learning_rate": 3.4504159110985035e-05,
+      "loss": 2.2335,
+      "step": 334
+    },
+    {
+      "epoch": 2.1290963257199604,
+      "grad_norm": 0.2546270787715912,
+      "learning_rate": 3.423964766595906e-05,
+      "loss": 2.1222,
+      "step": 335
+    },
+    {
+      "epoch": 2.1354518371400197,
+      "grad_norm": 0.2679215371608734,
+      "learning_rate": 3.3976044345998365e-05,
+      "loss": 2.1973,
+      "step": 336
+    },
+    {
+      "epoch": 2.1418073485600795,
+      "grad_norm": 0.2851313650608063,
+      "learning_rate": 3.371336068196617e-05,
+      "loss": 2.2163,
+      "step": 337
+    },
+    {
+      "epoch": 2.1481628599801392,
+      "grad_norm": 0.31128042936325073,
+      "learning_rate": 3.345160816449687e-05,
+      "loss": 2.1715,
+      "step": 338
+    },
+    {
+      "epoch": 2.1545183714001985,
+      "grad_norm": 0.3457167148590088,
+      "learning_rate": 3.3190798243493595e-05,
+      "loss": 2.2396,
+      "step": 339
+    },
+    {
+      "epoch": 2.1608738828202583,
+      "grad_norm": 0.32169675827026367,
+      "learning_rate": 3.293094232762715e-05,
+      "loss": 2.1081,
+      "step": 340
+    },
+    {
+      "epoch": 2.1672293942403176,
+      "grad_norm": 0.24396829307079315,
+      "learning_rate": 3.26720517838371e-05,
+      "loss": 2.0669,
+      "step": 341
+    },
+    {
+      "epoch": 2.1735849056603773,
+      "grad_norm": 0.25499778985977173,
+      "learning_rate": 3.241413793683458e-05,
+      "loss": 2.1445,
+      "step": 342
+    },
+    {
+      "epoch": 2.179940417080437,
+      "grad_norm": 0.25378331542015076,
+      "learning_rate": 3.215721206860673e-05,
+      "loss": 2.1485,
+      "step": 343
+    },
+    {
+      "epoch": 2.1862959285004964,
+      "grad_norm": 0.2579626441001892,
+      "learning_rate": 3.19012854179234e-05,
+      "loss": 2.1483,
+      "step": 344
+    },
+    {
+      "epoch": 2.192651439920556,
+      "grad_norm": 0.2530902326107025,
+      "learning_rate": 3.164636917984534e-05,
+      "loss": 2.135,
+      "step": 345
+    },
+    {
+      "epoch": 2.199006951340616,
+      "grad_norm": 0.26239219307899475,
+      "learning_rate": 3.1392474505234604e-05,
+      "loss": 2.169,
+      "step": 346
+    },
+    {
+      "epoch": 2.205362462760675,
+      "grad_norm": 0.275020033121109,
+      "learning_rate": 3.11396125002668e-05,
+      "loss": 2.2371,
+      "step": 347
+    },
+    {
+      "epoch": 2.211717974180735,
+      "grad_norm": 0.27179548144340515,
+      "learning_rate": 3.088779422594514e-05,
+      "loss": 2.1947,
+      "step": 348
+    },
+    {
+      "epoch": 2.2180734856007946,
+      "grad_norm": 0.2944357097148895,
+      "learning_rate": 3.063703069761679e-05,
+      "loss": 2.2554,
+      "step": 349
+    },
+    {
+      "epoch": 2.224428997020854,
+      "grad_norm": 0.31469622254371643,
+      "learning_rate": 3.0387332884490805e-05,
+      "loss": 2.1767,
+      "step": 350
+    },
+    {
+      "epoch": 2.224428997020854,
+      "eval_loss": 2.3065717220306396,
+      "eval_runtime": 1.5093,
+      "eval_samples_per_second": 33.127,
+      "eval_steps_per_second": 8.613,
+      "step": 350
     }
   ],
   "logging_steps": 1,
         "early_stopping_threshold": 0.0
       },
       "attributes": {
+        "early_stopping_patience_counter": 1
       }
     },
     "TrainerControl": {
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 8.35531706424361e+18,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null