Training in progress, step 50, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +189 -6

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:137af21b90900b3fff76c9dd8a9befba184a80ce7b88085cdef884253d079632
 size 140815952

 version https://git-lfs.github.com/spec/v1
+oid sha256:978ba8ab13327e893a7aa6b41f401b49ad966de6664f6a34c1978e6ac47a7d5b
 size 140815952

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3e05bea4e1846b67f913230da0c6dd0044214939b0ba7325ff0534e29683a6c3
 size 281824770

 version https://git-lfs.github.com/spec/v1
+oid sha256:a6432cb98d5d32f9c79342d122679027bb390655ab87ac8067535746abdb23bd
 size 281824770

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:950fe383fee5d1d5b09cd16866ddd6e0910db275bc93d8778a9a676ba5944e07
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:306ad1d6f940186224e40e756ac8be344d9bdf615120182d32b81afe96a36cb3
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8c931ece4da598a541d357f6c98f67481603252e193960022d37ddd49c584b1f
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:b1df0528620c07325b8faa7567e59b0c1e86a1f1ee6af1245a69c6c0463fe4e2
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.3588247001171112,
-  "best_model_checkpoint": "miner_id_24/checkpoint-25",
-  "epoch": 0.373134328358209,
   "eval_steps": 25,
-  "global_step": 25,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -198,6 +198,189 @@
       "eval_samples_per_second": 63.541,
       "eval_steps_per_second": 8.435,
       "step": 25
     }
   ],
   "logging_steps": 1,
@@ -221,12 +404,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 1932120607948800.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.3470727503299713,
+  "best_model_checkpoint": "miner_id_24/checkpoint-50",
+  "epoch": 0.746268656716418,
   "eval_steps": 25,
+  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 63.541,
       "eval_steps_per_second": 8.435,
       "step": 25
+    },
+    {
+      "epoch": 0.3880597014925373,
+      "grad_norm": 2.579695701599121,
+      "learning_rate": 9.045084971874738e-05,
+      "loss": 0.3718,
+      "step": 26
+    },
+    {
+      "epoch": 0.40298507462686567,
+      "grad_norm": 5.7628350257873535,
+      "learning_rate": 8.715724127386972e-05,
+      "loss": 0.3655,
+      "step": 27
+    },
+    {
+      "epoch": 0.417910447761194,
+      "grad_norm": 6.77158784866333,
+      "learning_rate": 8.345653031794292e-05,
+      "loss": 0.3935,
+      "step": 28
+    },
+    {
+      "epoch": 0.43283582089552236,
+      "grad_norm": 8.212152481079102,
+      "learning_rate": 7.938926261462366e-05,
+      "loss": 0.4286,
+      "step": 29
+    },
+    {
+      "epoch": 0.44776119402985076,
+      "grad_norm": 2.4192326068878174,
+      "learning_rate": 7.500000000000001e-05,
+      "loss": 0.349,
+      "step": 30
+    },
+    {
+      "epoch": 0.4626865671641791,
+      "grad_norm": 1.9714003801345825,
+      "learning_rate": 7.033683215379002e-05,
+      "loss": 0.3515,
+      "step": 31
+    },
+    {
+      "epoch": 0.47761194029850745,
+      "grad_norm": 13.655623435974121,
+      "learning_rate": 6.545084971874738e-05,
+      "loss": 0.4861,
+      "step": 32
+    },
+    {
+      "epoch": 0.4925373134328358,
+      "grad_norm": 6.084580421447754,
+      "learning_rate": 6.0395584540887963e-05,
+      "loss": 0.3744,
+      "step": 33
+    },
+    {
+      "epoch": 0.5074626865671642,
+      "grad_norm": 10.576855659484863,
+      "learning_rate": 5.522642316338268e-05,
+      "loss": 0.456,
+      "step": 34
+    },
+    {
+      "epoch": 0.5223880597014925,
+      "grad_norm": 9.503621101379395,
+      "learning_rate": 5e-05,
+      "loss": 0.4167,
+      "step": 35
+    },
+    {
+      "epoch": 0.5373134328358209,
+      "grad_norm": 3.3242833614349365,
+      "learning_rate": 4.477357683661734e-05,
+      "loss": 0.3957,
+      "step": 36
+    },
+    {
+      "epoch": 0.5522388059701493,
+      "grad_norm": 9.451889038085938,
+      "learning_rate": 3.960441545911204e-05,
+      "loss": 0.3948,
+      "step": 37
+    },
+    {
+      "epoch": 0.5671641791044776,
+      "grad_norm": 6.181709289550781,
+      "learning_rate": 3.4549150281252636e-05,
+      "loss": 0.3618,
+      "step": 38
+    },
+    {
+      "epoch": 0.582089552238806,
+      "grad_norm": 6.71756649017334,
+      "learning_rate": 2.9663167846209998e-05,
+      "loss": 0.4049,
+      "step": 39
+    },
+    {
+      "epoch": 0.5970149253731343,
+      "grad_norm": 4.298834800720215,
+      "learning_rate": 2.500000000000001e-05,
+      "loss": 0.3805,
+      "step": 40
+    },
+    {
+      "epoch": 0.6119402985074627,
+      "grad_norm": 3.9876883029937744,
+      "learning_rate": 2.061073738537635e-05,
+      "loss": 0.358,
+      "step": 41
+    },
+    {
+      "epoch": 0.6268656716417911,
+      "grad_norm": 6.614153861999512,
+      "learning_rate": 1.6543469682057106e-05,
+      "loss": 0.3695,
+      "step": 42
+    },
+    {
+      "epoch": 0.6417910447761194,
+      "grad_norm": 0.9489629864692688,
+      "learning_rate": 1.2842758726130283e-05,
+      "loss": 0.339,
+      "step": 43
+    },
+    {
+      "epoch": 0.6567164179104478,
+      "grad_norm": 6.705099105834961,
+      "learning_rate": 9.549150281252633e-06,
+      "loss": 0.3795,
+      "step": 44
+    },
+    {
+      "epoch": 0.6716417910447762,
+      "grad_norm": 3.4202003479003906,
+      "learning_rate": 6.698729810778065e-06,
+      "loss": 0.3362,
+      "step": 45
+    },
+    {
+      "epoch": 0.6865671641791045,
+      "grad_norm": 1.3196394443511963,
+      "learning_rate": 4.322727117869951e-06,
+      "loss": 0.3458,
+      "step": 46
+    },
+    {
+      "epoch": 0.7014925373134329,
+      "grad_norm": 3.5369057655334473,
+      "learning_rate": 2.4471741852423237e-06,
+      "loss": 0.3614,
+      "step": 47
+    },
+    {
+      "epoch": 0.7164179104477612,
+      "grad_norm": 2.6016862392425537,
+      "learning_rate": 1.0926199633097157e-06,
+      "loss": 0.3561,
+      "step": 48
+    },
+    {
+      "epoch": 0.7313432835820896,
+      "grad_norm": 3.1364588737487793,
+      "learning_rate": 2.7390523158633554e-07,
+      "loss": 0.3334,
+      "step": 49
+    },
+    {
+      "epoch": 0.746268656716418,
+      "grad_norm": 3.0390493869781494,
+      "learning_rate": 0.0,
+      "loss": 0.3539,
+      "step": 50
+    },
+    {
+      "epoch": 0.746268656716418,
+      "eval_loss": 0.3470727503299713,
+      "eval_runtime": 1.7732,
+      "eval_samples_per_second": 63.725,
+      "eval_steps_per_second": 8.459,
+      "step": 50
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 3864241215897600.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null