Training in progress, step 350, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +362 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e15fa36a7da51d121e84f25d829716a535dbd34194689607b36239c21d99300d
 size 59933632

 version https://git-lfs.github.com/spec/v1
+oid sha256:d1c35ae538f4b13ed118009e42d3af5ce35d02974649d677dcae751fa109040d
 size 59933632

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2bff23961a0a2643b6a1e58d530527695c7213fd799754d4155b53febaf73ae0
 size 31823460

 version https://git-lfs.github.com/spec/v1
+oid sha256:1b4af661d5dbc2e4ded19c017724e4032b3e4ebda32ac08442406a113fb81189
 size 31823460

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:243af66d2c809c7ac6f657e380ffd6d97040d8fa7e25cfdc606fba1c0744aedd
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:e5cd4d6f1a56868495de31ebab839ccdff6500d945e21b9b50d123a2662f6221
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:af9af143f15881c8576555fab3b2b7a9ddefed8ec19a36fdf4620a9cf1014a3b
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:b881a4283fbf9ae4dd8073fe406895e163eb2a9281e2f7a0b2ffcfdeea673f59
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.5701812505722046,
   "best_model_checkpoint": "miner_id_24/checkpoint-250",
-  "epoch": 2.197802197802198,
   "eval_steps": 50,
-  "global_step": 300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2163,6 +2163,364 @@
       "eval_samples_per_second": 7.449,
       "eval_steps_per_second": 7.449,
       "step": 300
     }
   ],
   "logging_steps": 1,
@@ -2177,7 +2535,7 @@
         "early_stopping_threshold": 0.0
       },
       "attributes": {
-        "early_stopping_patience_counter": 1
       }
     },
     "TrainerControl": {
@@ -2191,7 +2549,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.24476208571351e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.5701812505722046,
   "best_model_checkpoint": "miner_id_24/checkpoint-250",
+  "epoch": 2.564102564102564,
   "eval_steps": 50,
+  "global_step": 350,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 7.449,
       "eval_steps_per_second": 7.449,
       "step": 300
+    },
+    {
+      "epoch": 2.2051282051282053,
+      "grad_norm": 0.599308431148529,
+      "learning_rate": 5.039532853343533e-05,
+      "loss": 0.249,
+      "step": 301
+    },
+    {
+      "epoch": 2.2124542124542126,
+      "grad_norm": 0.7922989130020142,
+      "learning_rate": 4.951314514232175e-05,
+      "loss": 0.2308,
+      "step": 302
+    },
+    {
+      "epoch": 2.21978021978022,
+      "grad_norm": 0.8403403162956238,
+      "learning_rate": 4.863722270645869e-05,
+      "loss": 0.2293,
+      "step": 303
+    },
+    {
+      "epoch": 2.227106227106227,
+      "grad_norm": 0.8893972039222717,
+      "learning_rate": 4.776761580125495e-05,
+      "loss": 0.2041,
+      "step": 304
+    },
+    {
+      "epoch": 2.2344322344322345,
+      "grad_norm": 0.6155855059623718,
+      "learning_rate": 4.690437860862234e-05,
+      "loss": 0.1374,
+      "step": 305
+    },
+    {
+      "epoch": 2.241758241758242,
+      "grad_norm": 0.7354236245155334,
+      "learning_rate": 4.6047564913600234e-05,
+      "loss": 0.1482,
+      "step": 306
+    },
+    {
+      "epoch": 2.249084249084249,
+      "grad_norm": 2.1080105304718018,
+      "learning_rate": 4.519722810100403e-05,
+      "loss": 0.1127,
+      "step": 307
+    },
+    {
+      "epoch": 2.2564102564102564,
+      "grad_norm": 0.4302568733692169,
+      "learning_rate": 4.435342115209916e-05,
+      "loss": 0.5135,
+      "step": 308
+    },
+    {
+      "epoch": 2.2637362637362637,
+      "grad_norm": 0.8538389205932617,
+      "learning_rate": 4.35161966413001e-05,
+      "loss": 0.6252,
+      "step": 309
+    },
+    {
+      "epoch": 2.271062271062271,
+      "grad_norm": 0.7556006908416748,
+      "learning_rate": 4.2685606732894316e-05,
+      "loss": 0.4975,
+      "step": 310
+    },
+    {
+      "epoch": 2.2783882783882783,
+      "grad_norm": 0.58868408203125,
+      "learning_rate": 4.186170317779257e-05,
+      "loss": 0.4612,
+      "step": 311
+    },
+    {
+      "epoch": 2.2857142857142856,
+      "grad_norm": 0.7426422238349915,
+      "learning_rate": 4.1044537310304135e-05,
+      "loss": 0.458,
+      "step": 312
+    },
+    {
+      "epoch": 2.293040293040293,
+      "grad_norm": 0.6092411279678345,
+      "learning_rate": 4.023416004493849e-05,
+      "loss": 0.5098,
+      "step": 313
+    },
+    {
+      "epoch": 2.3003663003663,
+      "grad_norm": 0.6772862076759338,
+      "learning_rate": 3.943062187323317e-05,
+      "loss": 0.5537,
+      "step": 314
+    },
+    {
+      "epoch": 2.3076923076923075,
+      "grad_norm": 0.5766953229904175,
+      "learning_rate": 3.863397286060752e-05,
+      "loss": 0.4449,
+      "step": 315
+    },
+    {
+      "epoch": 2.315018315018315,
+      "grad_norm": 0.5632515549659729,
+      "learning_rate": 3.784426264324364e-05,
+      "loss": 0.4455,
+      "step": 316
+    },
+    {
+      "epoch": 2.3223443223443225,
+      "grad_norm": 0.4638958275318146,
+      "learning_rate": 3.7061540424993455e-05,
+      "loss": 0.3575,
+      "step": 317
+    },
+    {
+      "epoch": 2.32967032967033,
+      "grad_norm": 0.5185256004333496,
+      "learning_rate": 3.628585497431319e-05,
+      "loss": 0.4092,
+      "step": 318
+    },
+    {
+      "epoch": 2.336996336996337,
+      "grad_norm": 0.4830188751220703,
+      "learning_rate": 3.551725462122475e-05,
+      "loss": 0.4283,
+      "step": 319
+    },
+    {
+      "epoch": 2.3443223443223444,
+      "grad_norm": 0.5283904075622559,
+      "learning_rate": 3.47557872543044e-05,
+      "loss": 0.4279,
+      "step": 320
+    },
+    {
+      "epoch": 2.3516483516483517,
+      "grad_norm": 0.48210349678993225,
+      "learning_rate": 3.400150031769916e-05,
+      "loss": 0.3868,
+      "step": 321
+    },
+    {
+      "epoch": 2.358974358974359,
+      "grad_norm": 0.49750009179115295,
+      "learning_rate": 3.325444080817054e-05,
+      "loss": 0.4265,
+      "step": 322
+    },
+    {
+      "epoch": 2.3663003663003663,
+      "grad_norm": 0.5228102803230286,
+      "learning_rate": 3.251465527216644e-05,
+      "loss": 0.3988,
+      "step": 323
+    },
+    {
+      "epoch": 2.3736263736263736,
+      "grad_norm": 0.4787524938583374,
+      "learning_rate": 3.178218980292116e-05,
+      "loss": 0.4338,
+      "step": 324
+    },
+    {
+      "epoch": 2.380952380952381,
+      "grad_norm": 0.5247374773025513,
+      "learning_rate": 3.1057090037583195e-05,
+      "loss": 0.457,
+      "step": 325
+    },
+    {
+      "epoch": 2.3882783882783882,
+      "grad_norm": 0.49824175238609314,
+      "learning_rate": 3.03394011543721e-05,
+      "loss": 0.3382,
+      "step": 326
+    },
+    {
+      "epoch": 2.3956043956043955,
+      "grad_norm": 0.5834226012229919,
+      "learning_rate": 2.9629167869763314e-05,
+      "loss": 0.4105,
+      "step": 327
+    },
+    {
+      "epoch": 2.402930402930403,
+      "grad_norm": 0.5177899599075317,
+      "learning_rate": 2.8926434435702213e-05,
+      "loss": 0.3676,
+      "step": 328
+    },
+    {
+      "epoch": 2.41025641025641,
+      "grad_norm": 0.5421662926673889,
+      "learning_rate": 2.823124463684692e-05,
+      "loss": 0.3891,
+      "step": 329
+    },
+    {
+      "epoch": 2.4175824175824174,
+      "grad_norm": 0.6656437516212463,
+      "learning_rate": 2.7543641787840137e-05,
+      "loss": 0.4003,
+      "step": 330
+    },
+    {
+      "epoch": 2.4249084249084247,
+      "grad_norm": 0.5354308485984802,
+      "learning_rate": 2.6863668730610628e-05,
+      "loss": 0.334,
+      "step": 331
+    },
+    {
+      "epoch": 2.4322344322344325,
+      "grad_norm": 0.5242961049079895,
+      "learning_rate": 2.6191367831703597e-05,
+      "loss": 0.3575,
+      "step": 332
+    },
+    {
+      "epoch": 2.4395604395604398,
+      "grad_norm": 0.5668814182281494,
+      "learning_rate": 2.5526780979641132e-05,
+      "loss": 0.251,
+      "step": 333
+    },
+    {
+      "epoch": 2.446886446886447,
+      "grad_norm": 0.6647098064422607,
+      "learning_rate": 2.486994958231238e-05,
+      "loss": 0.3012,
+      "step": 334
+    },
+    {
+      "epoch": 2.4542124542124544,
+      "grad_norm": 0.590238630771637,
+      "learning_rate": 2.422091456439338e-05,
+      "loss": 0.2125,
+      "step": 335
+    },
+    {
+      "epoch": 2.4615384615384617,
+      "grad_norm": 0.6544525027275085,
+      "learning_rate": 2.3579716364797406e-05,
+      "loss": 0.2345,
+      "step": 336
+    },
+    {
+      "epoch": 2.468864468864469,
+      "grad_norm": 0.6543833017349243,
+      "learning_rate": 2.294639493415517e-05,
+      "loss": 0.2455,
+      "step": 337
+    },
+    {
+      "epoch": 2.4761904761904763,
+      "grad_norm": 0.8714612126350403,
+      "learning_rate": 2.2320989732325816e-05,
+      "loss": 0.2462,
+      "step": 338
+    },
+    {
+      "epoch": 2.4835164835164836,
+      "grad_norm": 0.8587841391563416,
+      "learning_rate": 2.170353972593825e-05,
+      "loss": 0.1519,
+      "step": 339
+    },
+    {
+      "epoch": 2.490842490842491,
+      "grad_norm": 0.6549997329711914,
+      "learning_rate": 2.1094083385963202e-05,
+      "loss": 0.1206,
+      "step": 340
+    },
+    {
+      "epoch": 2.498168498168498,
+      "grad_norm": 0.5828280448913574,
+      "learning_rate": 2.049265868531651e-05,
+      "loss": 0.0964,
+      "step": 341
+    },
+    {
+      "epoch": 2.5054945054945055,
+      "grad_norm": 0.29954391717910767,
+      "learning_rate": 1.989930309649282e-05,
+      "loss": 0.4719,
+      "step": 342
+    },
+    {
+      "epoch": 2.5128205128205128,
+      "grad_norm": 0.41014474630355835,
+      "learning_rate": 1.9314053589231067e-05,
+      "loss": 0.5926,
+      "step": 343
+    },
+    {
+      "epoch": 2.52014652014652,
+      "grad_norm": 0.42200765013694763,
+      "learning_rate": 1.873694662821096e-05,
+      "loss": 0.5305,
+      "step": 344
+    },
+    {
+      "epoch": 2.5274725274725274,
+      "grad_norm": 0.4672837257385254,
+      "learning_rate": 1.816801817078093e-05,
+      "loss": 0.5177,
+      "step": 345
+    },
+    {
+      "epoch": 2.5347985347985347,
+      "grad_norm": 0.45549672842025757,
+      "learning_rate": 1.760730366471796e-05,
+      "loss": 0.4906,
+      "step": 346
+    },
+    {
+      "epoch": 2.542124542124542,
+      "grad_norm": 0.42634275555610657,
+      "learning_rate": 1.705483804601871e-05,
+      "loss": 0.4466,
+      "step": 347
+    },
+    {
+      "epoch": 2.5494505494505493,
+      "grad_norm": 0.5157731175422668,
+      "learning_rate": 1.6510655736722967e-05,
+      "loss": 0.5153,
+      "step": 348
+    },
+    {
+      "epoch": 2.5567765567765566,
+      "grad_norm": 0.6015162467956543,
+      "learning_rate": 1.5974790642768903e-05,
+      "loss": 0.4401,
+      "step": 349
+    },
+    {
+      "epoch": 2.564102564102564,
+      "grad_norm": 0.5981739163398743,
+      "learning_rate": 1.5447276151880473e-05,
+      "loss": 0.5157,
+      "step": 350
+    },
+    {
+      "epoch": 2.564102564102564,
+      "eval_loss": 0.6206538081169128,
+      "eval_runtime": 73.5137,
+      "eval_samples_per_second": 7.441,
+      "eval_steps_per_second": 7.441,
+      "step": 350
     }
   ],
   "logging_steps": 1,
         "early_stopping_threshold": 0.0
       },
       "attributes": {
+        "early_stopping_patience_counter": 2
       }
     },
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 4.957792987250688e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null