Training in progress, step 100, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a9ee1a94a9f670c537f8d05c3195ab7cf06b71d01af63f2676222568b20c145d
 size 639691872

 version https://git-lfs.github.com/spec/v1
+oid sha256:6d1fd0c9285332e268bd1b8bdc8ce4bb0963dbab23a627f0743ec386f2b05483
 size 639691872

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7e4cc97a9897c9a7da7d92cb2437bbc50f0da9fb46be9640e474649d472e857c
 size 325339796

 version https://git-lfs.github.com/spec/v1
+oid sha256:0f1183fdfd2552d39093b6ef8d9de41cbc8a3f2edc7b02a486c58f6822bc09f2
 size 325339796

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:87721e33200438be29c7f03d550b8c7e17d801416fde909bbe2fcffaa1f66049
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:d215111a211bb199cd2db6aa686a73f2b08f35d3e54420f59ebc68cc75498062
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1d359eb5d29e75fb2bbe5b7026981da69b95b8ad1fea469302d13cde104f7e8a
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:0ddb9588ea654e56e83effcf81a2bc03480954babcf6415cb44d41d3bfb8039f
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 4.55251932144165,
-  "best_model_checkpoint": "miner_id_24/checkpoint-50",
-  "epoch": 0.2557544757033248,
   "eval_steps": 50,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -373,6 +373,364 @@
       "eval_samples_per_second": 14.023,
       "eval_steps_per_second": 3.527,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -401,7 +759,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 6.71020323176448e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 2.1948964595794678,
+  "best_model_checkpoint": "miner_id_24/checkpoint-100",
+  "epoch": 0.5115089514066496,
   "eval_steps": 50,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 14.023,
       "eval_steps_per_second": 3.527,
       "step": 50
+    },
+    {
+      "epoch": 0.2608695652173913,
+      "grad_norm": 33.81939697265625,
+      "learning_rate": 8.894386393810563e-05,
+      "loss": 6.0675,
+      "step": 51
+    },
+    {
+      "epoch": 0.2659846547314578,
+      "grad_norm": 8.315890312194824,
+      "learning_rate": 8.842005554284296e-05,
+      "loss": 4.3208,
+      "step": 52
+    },
+    {
+      "epoch": 0.2710997442455243,
+      "grad_norm": 6.041251182556152,
+      "learning_rate": 8.788574348801675e-05,
+      "loss": 4.0021,
+      "step": 53
+    },
+    {
+      "epoch": 0.27621483375959077,
+      "grad_norm": 5.480395793914795,
+      "learning_rate": 8.73410738492077e-05,
+      "loss": 3.5547,
+      "step": 54
+    },
+    {
+      "epoch": 0.2813299232736573,
+      "grad_norm": 4.745906352996826,
+      "learning_rate": 8.678619553365659e-05,
+      "loss": 3.1183,
+      "step": 55
+    },
+    {
+      "epoch": 0.2864450127877238,
+      "grad_norm": 4.063253402709961,
+      "learning_rate": 8.622126023955446e-05,
+      "loss": 2.7754,
+      "step": 56
+    },
+    {
+      "epoch": 0.2915601023017903,
+      "grad_norm": 2.9666452407836914,
+      "learning_rate": 8.564642241456986e-05,
+      "loss": 2.6057,
+      "step": 57
+    },
+    {
+      "epoch": 0.2966751918158568,
+      "grad_norm": 2.41210675239563,
+      "learning_rate": 8.506183921362443e-05,
+      "loss": 2.9152,
+      "step": 58
+    },
+    {
+      "epoch": 0.30179028132992325,
+      "grad_norm": 2.5263257026672363,
+      "learning_rate": 8.44676704559283e-05,
+      "loss": 2.5977,
+      "step": 59
+    },
+    {
+      "epoch": 0.3069053708439898,
+      "grad_norm": 2.23828125,
+      "learning_rate": 8.386407858128706e-05,
+      "loss": 2.6563,
+      "step": 60
+    },
+    {
+      "epoch": 0.31202046035805625,
+      "grad_norm": 2.502732276916504,
+      "learning_rate": 8.32512286056924e-05,
+      "loss": 2.5823,
+      "step": 61
+    },
+    {
+      "epoch": 0.3171355498721228,
+      "grad_norm": 2.560762882232666,
+      "learning_rate": 8.262928807620843e-05,
+      "loss": 2.6343,
+      "step": 62
+    },
+    {
+      "epoch": 0.32225063938618925,
+      "grad_norm": 2.3925020694732666,
+      "learning_rate": 8.199842702516583e-05,
+      "loss": 2.7233,
+      "step": 63
+    },
+    {
+      "epoch": 0.3273657289002558,
+      "grad_norm": 2.2098705768585205,
+      "learning_rate": 8.135881792367686e-05,
+      "loss": 2.2702,
+      "step": 64
+    },
+    {
+      "epoch": 0.33248081841432225,
+      "grad_norm": 2.209908962249756,
+      "learning_rate": 8.07106356344834e-05,
+      "loss": 2.1663,
+      "step": 65
+    },
+    {
+      "epoch": 0.3375959079283887,
+      "grad_norm": 2.2588908672332764,
+      "learning_rate": 8.005405736415126e-05,
+      "loss": 2.2931,
+      "step": 66
+    },
+    {
+      "epoch": 0.34271099744245526,
+      "grad_norm": 2.3859808444976807,
+      "learning_rate": 7.938926261462366e-05,
+      "loss": 2.5883,
+      "step": 67
+    },
+    {
+      "epoch": 0.34782608695652173,
+      "grad_norm": 2.467388391494751,
+      "learning_rate": 7.871643313414718e-05,
+      "loss": 2.2226,
+      "step": 68
+    },
+    {
+      "epoch": 0.35294117647058826,
+      "grad_norm": 2.762615442276001,
+      "learning_rate": 7.803575286758364e-05,
+      "loss": 2.5631,
+      "step": 69
+    },
+    {
+      "epoch": 0.35805626598465473,
+      "grad_norm": 2.483009099960327,
+      "learning_rate": 7.734740790612136e-05,
+      "loss": 2.3403,
+      "step": 70
+    },
+    {
+      "epoch": 0.3631713554987212,
+      "grad_norm": 2.626396417617798,
+      "learning_rate": 7.66515864363997e-05,
+      "loss": 2.5624,
+      "step": 71
+    },
+    {
+      "epoch": 0.36828644501278773,
+      "grad_norm": 2.52079439163208,
+      "learning_rate": 7.594847868906076e-05,
+      "loss": 2.0151,
+      "step": 72
+    },
+    {
+      "epoch": 0.3734015345268542,
+      "grad_norm": 2.606149196624756,
+      "learning_rate": 7.52382768867422e-05,
+      "loss": 2.2943,
+      "step": 73
+    },
+    {
+      "epoch": 0.37851662404092073,
+      "grad_norm": 2.5749869346618652,
+      "learning_rate": 7.452117519152542e-05,
+      "loss": 2.2601,
+      "step": 74
+    },
+    {
+      "epoch": 0.3836317135549872,
+      "grad_norm": 2.8876609802246094,
+      "learning_rate": 7.379736965185368e-05,
+      "loss": 2.3571,
+      "step": 75
+    },
+    {
+      "epoch": 0.3887468030690537,
+      "grad_norm": 2.7740166187286377,
+      "learning_rate": 7.30670581489344e-05,
+      "loss": 2.2734,
+      "step": 76
+    },
+    {
+      "epoch": 0.3938618925831202,
+      "grad_norm": 2.7462379932403564,
+      "learning_rate": 7.233044034264034e-05,
+      "loss": 2.246,
+      "step": 77
+    },
+    {
+      "epoch": 0.3989769820971867,
+      "grad_norm": 2.99219012260437,
+      "learning_rate": 7.158771761692464e-05,
+      "loss": 2.1732,
+      "step": 78
+    },
+    {
+      "epoch": 0.4040920716112532,
+      "grad_norm": 3.3825836181640625,
+      "learning_rate": 7.083909302476453e-05,
+      "loss": 2.2592,
+      "step": 79
+    },
+    {
+      "epoch": 0.4092071611253197,
+      "grad_norm": 3.214312791824341,
+      "learning_rate": 7.008477123264848e-05,
+      "loss": 2.4639,
+      "step": 80
+    },
+    {
+      "epoch": 0.4143222506393862,
+      "grad_norm": 3.0671980381011963,
+      "learning_rate": 6.932495846462261e-05,
+      "loss": 2.4281,
+      "step": 81
+    },
+    {
+      "epoch": 0.4194373401534527,
+      "grad_norm": 3.599956512451172,
+      "learning_rate": 6.855986244591104e-05,
+      "loss": 2.6475,
+      "step": 82
+    },
+    {
+      "epoch": 0.42455242966751916,
+      "grad_norm": 3.5274112224578857,
+      "learning_rate": 6.778969234612584e-05,
+      "loss": 2.9389,
+      "step": 83
+    },
+    {
+      "epoch": 0.4296675191815857,
+      "grad_norm": 3.325232982635498,
+      "learning_rate": 6.701465872208216e-05,
+      "loss": 2.2739,
+      "step": 84
+    },
+    {
+      "epoch": 0.43478260869565216,
+      "grad_norm": 2.8733978271484375,
+      "learning_rate": 6.623497346023418e-05,
+      "loss": 1.2412,
+      "step": 85
+    },
+    {
+      "epoch": 0.4398976982097187,
+      "grad_norm": 2.7152678966522217,
+      "learning_rate": 6.545084971874738e-05,
+      "loss": 1.3306,
+      "step": 86
+    },
+    {
+      "epoch": 0.44501278772378516,
+      "grad_norm": 1.1031886339187622,
+      "learning_rate": 6.466250186922325e-05,
+      "loss": 0.2063,
+      "step": 87
+    },
+    {
+      "epoch": 0.45012787723785164,
+      "grad_norm": 1.2320791482925415,
+      "learning_rate": 6.387014543809223e-05,
+      "loss": 0.1947,
+      "step": 88
+    },
+    {
+      "epoch": 0.45524296675191817,
+      "grad_norm": 2.740642786026001,
+      "learning_rate": 6.307399704769099e-05,
+      "loss": 0.7391,
+      "step": 89
+    },
+    {
+      "epoch": 0.46035805626598464,
+      "grad_norm": 1.454041838645935,
+      "learning_rate": 6.227427435703997e-05,
+      "loss": 0.0163,
+      "step": 90
+    },
+    {
+      "epoch": 0.46547314578005117,
+      "grad_norm": 0.48821330070495605,
+      "learning_rate": 6.147119600233758e-05,
+      "loss": 0.0089,
+      "step": 91
+    },
+    {
+      "epoch": 0.47058823529411764,
+      "grad_norm": 1.3230316638946533,
+      "learning_rate": 6.066498153718735e-05,
+      "loss": 0.1831,
+      "step": 92
+    },
+    {
+      "epoch": 0.47570332480818417,
+      "grad_norm": 1.6790002584457397,
+      "learning_rate": 5.985585137257401e-05,
+      "loss": 0.0349,
+      "step": 93
+    },
+    {
+      "epoch": 0.48081841432225064,
+      "grad_norm": 0.4050397574901581,
+      "learning_rate": 5.90440267166055e-05,
+      "loss": 0.0087,
+      "step": 94
+    },
+    {
+      "epoch": 0.4859335038363171,
+      "grad_norm": 1.697842001914978,
+      "learning_rate": 5.8229729514036705e-05,
+      "loss": 0.2403,
+      "step": 95
+    },
+    {
+      "epoch": 0.49104859335038364,
+      "grad_norm": 0.3642440736293793,
+      "learning_rate": 5.74131823855921e-05,
+      "loss": 0.0087,
+      "step": 96
+    },
+    {
+      "epoch": 0.4961636828644501,
+      "grad_norm": 9.899507522583008,
+      "learning_rate": 5.6594608567103456e-05,
+      "loss": 3.3783,
+      "step": 97
+    },
+    {
+      "epoch": 0.5012787723785166,
+      "grad_norm": 8.864073753356934,
+      "learning_rate": 5.577423184847932e-05,
+      "loss": 3.3658,
+      "step": 98
+    },
+    {
+      "epoch": 0.5063938618925832,
+      "grad_norm": 5.942741394042969,
+      "learning_rate": 5.495227651252315e-05,
+      "loss": 2.8918,
+      "step": 99
+    },
+    {
+      "epoch": 0.5115089514066496,
+      "grad_norm": 4.304798126220703,
+      "learning_rate": 5.4128967273616625e-05,
+      "loss": 2.6705,
+      "step": 100
+    },
+    {
+      "epoch": 0.5115089514066496,
+      "eval_loss": 2.1948964595794678,
+      "eval_runtime": 23.5471,
+      "eval_samples_per_second": 14.014,
+      "eval_steps_per_second": 3.525,
+      "step": 100
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1.342040646352896e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null