Training in progress, step 450, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +134 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f732bef2952e9d32f19e762db18002aed6c12f6c825354edc05263531b046467
 size 335604696

 version https://git-lfs.github.com/spec/v1
+oid sha256:7fd98b116783dd2e2128b57f7754943e7c8c78af1a8c7737870d2430b059f158
 size 335604696

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2feeebd9398df71afacce59452b2c73c4adb2295cd53299eb4c2ded241ccce8f
 size 170920532

 version https://git-lfs.github.com/spec/v1
+oid sha256:51b03fc9ef7d2e5ec63f54ba8c56e82313d28b728558511fdc3ef093966f003d
 size 170920532

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:574041858ad47610f1228962be219c1774ebe5acbf20c9a7bf53d14a3ca80f21
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:05c6c8fe118793e2efe5d50edd9a3cde907f8de2cd1ffd9277dcf906663b389d
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a8d9346c4fcc90fb1ec8546736583b76a4fae6bc25cb93181337c187d15da94a
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:70f0f789b56065211b8c0b1a5e2a97dd0b5b08a816bbbe288fb6f9c677282af9
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.6793892979621887,
-  "best_model_checkpoint": "miner_id_24/checkpoint-300",
-  "epoch": 0.07821666014861166,
   "eval_steps": 50,
-  "global_step": 300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -273,6 +273,135 @@
       "eval_samples_per_second": 12.602,
       "eval_steps_per_second": 3.151,
       "step": 300
     }
   ],
   "logging_steps": 10,
@@ -301,7 +430,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.487523283595428e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.598429799079895,
+  "best_model_checkpoint": "miner_id_24/checkpoint-450",
+  "epoch": 0.11732499022291748,
   "eval_steps": 50,
+  "global_step": 450,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 12.602,
       "eval_steps_per_second": 3.151,
       "step": 300
+    },
+    {
+      "epoch": 0.08082388215356538,
+      "grad_norm": 7.278568744659424,
+      "learning_rate": 9.733794785622253e-05,
+      "loss": 2.2598,
+      "step": 310
+    },
+    {
+      "epoch": 0.08343110415851909,
+      "grad_norm": 11.45936393737793,
+      "learning_rate": 9.202138944469168e-05,
+      "loss": 2.221,
+      "step": 320
+    },
+    {
+      "epoch": 0.08603832616347282,
+      "grad_norm": 11.150221824645996,
+      "learning_rate": 8.672744727162781e-05,
+      "loss": 2.7018,
+      "step": 330
+    },
+    {
+      "epoch": 0.08864554816842654,
+      "grad_norm": 14.54114055633545,
+      "learning_rate": 8.147112759128859e-05,
+      "loss": 2.7212,
+      "step": 340
+    },
+    {
+      "epoch": 0.09125277017338027,
+      "grad_norm": 39.82421112060547,
+      "learning_rate": 7.626733001288851e-05,
+      "loss": 3.3754,
+      "step": 350
+    },
+    {
+      "epoch": 0.09125277017338027,
+      "eval_loss": 0.6544287800788879,
+      "eval_runtime": 512.4276,
+      "eval_samples_per_second": 12.607,
+      "eval_steps_per_second": 3.152,
+      "step": 350
+    },
+    {
+      "epoch": 0.09385999217833399,
+      "grad_norm": 10.35319709777832,
+      "learning_rate": 7.113080526603792e-05,
+      "loss": 2.0052,
+      "step": 360
+    },
+    {
+      "epoch": 0.0964672141832877,
+      "grad_norm": 11.164114952087402,
+      "learning_rate": 6.607611338819697e-05,
+      "loss": 2.3054,
+      "step": 370
+    },
+    {
+      "epoch": 0.09907443618824142,
+      "grad_norm": 10.16714859008789,
+      "learning_rate": 6.111758245266794e-05,
+      "loss": 2.4965,
+      "step": 380
+    },
+    {
+      "epoch": 0.10168165819319515,
+      "grad_norm": 10.978752136230469,
+      "learning_rate": 5.626926795411447e-05,
+      "loss": 2.8824,
+      "step": 390
+    },
+    {
+      "epoch": 0.10428888019814887,
+      "grad_norm": 19.6451473236084,
+      "learning_rate": 5.1544912966734994e-05,
+      "loss": 3.0805,
+      "step": 400
+    },
+    {
+      "epoch": 0.10428888019814887,
+      "eval_loss": 0.6194283962249756,
+      "eval_runtime": 512.9361,
+      "eval_samples_per_second": 12.594,
+      "eval_steps_per_second": 3.149,
+      "step": 400
+    },
+    {
+      "epoch": 0.1068961022031026,
+      "grad_norm": 8.461108207702637,
+      "learning_rate": 4.695790918802576e-05,
+      "loss": 1.9141,
+      "step": 410
+    },
+    {
+      "epoch": 0.10950332420805632,
+      "grad_norm": 10.8994140625,
+      "learning_rate": 4.252125897855932e-05,
+      "loss": 2.2111,
+      "step": 420
+    },
+    {
+      "epoch": 0.11211054621301003,
+      "grad_norm": 9.634496688842773,
+      "learning_rate": 3.824753850538082e-05,
+      "loss": 2.1574,
+      "step": 430
+    },
+    {
+      "epoch": 0.11471776821796376,
+      "grad_norm": 12.223336219787598,
+      "learning_rate": 3.414886209349615e-05,
+      "loss": 2.7663,
+      "step": 440
+    },
+    {
+      "epoch": 0.11732499022291748,
+      "grad_norm": 20.796768188476562,
+      "learning_rate": 3.0236847886501542e-05,
+      "loss": 3.095,
+      "step": 450
+    },
+    {
+      "epoch": 0.11732499022291748,
+      "eval_loss": 0.598429799079895,
+      "eval_runtime": 512.9195,
+      "eval_samples_per_second": 12.595,
+      "eval_steps_per_second": 3.149,
+      "step": 450
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 6.736589326437581e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null