Training in progress, step 150, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:81a973d193312053a869634fc411f23cac12be03c65cb382078adb109f64ad29
 size 671149168

 version https://git-lfs.github.com/spec/v1
+oid sha256:70984448dad236418db59dd100d00dddf6a6c0b5352c37ef88f0e4b552eb21ea
 size 671149168

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:63d173bb78399bc7edd07e12400a5df44ea2f231a2e2d8796c67cffd263e3b8b
 size 1342555602

 version https://git-lfs.github.com/spec/v1
+oid sha256:c1ddcf3d25041495a3a365b6d54cdf63cb8ace0060e1e13a906220a6b27bd0cc
 size 1342555602

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:736ae02480f4960d6d5b47c03465d751c29b956ca31cb3049640818aca2810e1
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:3d55c64147f73ae2a01dd020ef6dff0dd325bc80a0ff17e1d73c1f7d88c69605
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4e0244c146d76bf610ae39789eea36d0bff336b81d211db008e020e66921060c
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:f4c9c807f0681c8b7e53ada9b6ec3dba530d303de7da0d0a0562a3d8d0bbba08
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.9467170834541321,
-  "best_model_checkpoint": "miner_id_24/checkpoint-100",
-  "epoch": 0.34305317324185247,
   "eval_steps": 50,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -731,6 +731,364 @@
       "eval_samples_per_second": 11.932,
       "eval_steps_per_second": 5.978,
       "step": 100
     }
   ],
   "logging_steps": 1,
@@ -759,7 +1117,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.4739279492572774e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.8594623804092407,
+  "best_model_checkpoint": "miner_id_24/checkpoint-150",
+  "epoch": 0.5145797598627787,
   "eval_steps": 50,
+  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 11.932,
       "eval_steps_per_second": 5.978,
       "step": 100
+    },
+    {
+      "epoch": 0.346483704974271,
+      "grad_norm": 6.344611644744873,
+      "learning_rate": 5.782172325201155e-05,
+      "loss": 4.4591,
+      "step": 101
+    },
+    {
+      "epoch": 0.34991423670668953,
+      "grad_norm": 5.29261589050293,
+      "learning_rate": 5.695865504800327e-05,
+      "loss": 4.3903,
+      "step": 102
+    },
+    {
+      "epoch": 0.35334476843910806,
+      "grad_norm": 3.7538249492645264,
+      "learning_rate": 5.6093467170257374e-05,
+      "loss": 4.1005,
+      "step": 103
+    },
+    {
+      "epoch": 0.3567753001715266,
+      "grad_norm": 3.1446287631988525,
+      "learning_rate": 5.522642316338268e-05,
+      "loss": 3.7796,
+      "step": 104
+    },
+    {
+      "epoch": 0.3602058319039451,
+      "grad_norm": 2.960186719894409,
+      "learning_rate": 5.435778713738292e-05,
+      "loss": 3.916,
+      "step": 105
+    },
+    {
+      "epoch": 0.36363636363636365,
+      "grad_norm": 3.2721056938171387,
+      "learning_rate": 5.348782368720626e-05,
+      "loss": 3.9345,
+      "step": 106
+    },
+    {
+      "epoch": 0.3670668953687822,
+      "grad_norm": 3.109593629837036,
+      "learning_rate": 5.26167978121472e-05,
+      "loss": 3.6805,
+      "step": 107
+    },
+    {
+      "epoch": 0.3704974271012007,
+      "grad_norm": 3.3663551807403564,
+      "learning_rate": 5.174497483512506e-05,
+      "loss": 4.1047,
+      "step": 108
+    },
+    {
+      "epoch": 0.37392795883361923,
+      "grad_norm": 3.3839170932769775,
+      "learning_rate": 5.0872620321864185e-05,
+      "loss": 3.7359,
+      "step": 109
+    },
+    {
+      "epoch": 0.37735849056603776,
+      "grad_norm": 3.2243165969848633,
+      "learning_rate": 5e-05,
+      "loss": 3.369,
+      "step": 110
+    },
+    {
+      "epoch": 0.38078902229845624,
+      "grad_norm": 3.484187364578247,
+      "learning_rate": 4.912737967813583e-05,
+      "loss": 3.868,
+      "step": 111
+    },
+    {
+      "epoch": 0.38421955403087477,
+      "grad_norm": 3.4150843620300293,
+      "learning_rate": 4.825502516487497e-05,
+      "loss": 3.5268,
+      "step": 112
+    },
+    {
+      "epoch": 0.3876500857632933,
+      "grad_norm": 3.528571367263794,
+      "learning_rate": 4.738320218785281e-05,
+      "loss": 3.4223,
+      "step": 113
+    },
+    {
+      "epoch": 0.3910806174957118,
+      "grad_norm": 3.6814565658569336,
+      "learning_rate": 4.6512176312793736e-05,
+      "loss": 3.5602,
+      "step": 114
+    },
+    {
+      "epoch": 0.39451114922813035,
+      "grad_norm": 3.4944686889648438,
+      "learning_rate": 4.564221286261709e-05,
+      "loss": 3.3631,
+      "step": 115
+    },
+    {
+      "epoch": 0.3979416809605489,
+      "grad_norm": 3.5598247051239014,
+      "learning_rate": 4.477357683661734e-05,
+      "loss": 3.2197,
+      "step": 116
+    },
+    {
+      "epoch": 0.4013722126929674,
+      "grad_norm": 3.637119770050049,
+      "learning_rate": 4.390653282974264e-05,
+      "loss": 3.6207,
+      "step": 117
+    },
+    {
+      "epoch": 0.40480274442538594,
+      "grad_norm": 3.621417760848999,
+      "learning_rate": 4.3041344951996746e-05,
+      "loss": 3.66,
+      "step": 118
+    },
+    {
+      "epoch": 0.40823327615780447,
+      "grad_norm": 3.71958065032959,
+      "learning_rate": 4.2178276747988446e-05,
+      "loss": 3.4363,
+      "step": 119
+    },
+    {
+      "epoch": 0.411663807890223,
+      "grad_norm": 3.881575107574463,
+      "learning_rate": 4.131759111665349e-05,
+      "loss": 3.6837,
+      "step": 120
+    },
+    {
+      "epoch": 0.41509433962264153,
+      "grad_norm": 3.5961995124816895,
+      "learning_rate": 4.045955023117276e-05,
+      "loss": 3.4126,
+      "step": 121
+    },
+    {
+      "epoch": 0.41852487135506006,
+      "grad_norm": 3.635561943054199,
+      "learning_rate": 3.960441545911204e-05,
+      "loss": 3.4925,
+      "step": 122
+    },
+    {
+      "epoch": 0.4219554030874786,
+      "grad_norm": 3.558687448501587,
+      "learning_rate": 3.875244728280676e-05,
+      "loss": 3.1293,
+      "step": 123
+    },
+    {
+      "epoch": 0.42538593481989706,
+      "grad_norm": 3.7333993911743164,
+      "learning_rate": 3.790390522001662e-05,
+      "loss": 3.1551,
+      "step": 124
+    },
+    {
+      "epoch": 0.4288164665523156,
+      "grad_norm": 4.045219898223877,
+      "learning_rate": 3.705904774487396e-05,
+      "loss": 3.5025,
+      "step": 125
+    },
+    {
+      "epoch": 0.4322469982847341,
+      "grad_norm": 4.082742691040039,
+      "learning_rate": 3.6218132209150045e-05,
+      "loss": 3.7588,
+      "step": 126
+    },
+    {
+      "epoch": 0.43567753001715265,
+      "grad_norm": 4.03236722946167,
+      "learning_rate": 3.5381414763863166e-05,
+      "loss": 3.6083,
+      "step": 127
+    },
+    {
+      "epoch": 0.4391080617495712,
+      "grad_norm": 4.0244879722595215,
+      "learning_rate": 3.4549150281252636e-05,
+      "loss": 3.5657,
+      "step": 128
+    },
+    {
+      "epoch": 0.4425385934819897,
+      "grad_norm": 3.9571797847747803,
+      "learning_rate": 3.372159227714218e-05,
+      "loss": 3.5047,
+      "step": 129
+    },
+    {
+      "epoch": 0.44596912521440824,
+      "grad_norm": 4.1520161628723145,
+      "learning_rate": 3.289899283371657e-05,
+      "loss": 3.4308,
+      "step": 130
+    },
+    {
+      "epoch": 0.44939965694682676,
+      "grad_norm": 3.731208086013794,
+      "learning_rate": 3.2081602522734986e-05,
+      "loss": 3.3306,
+      "step": 131
+    },
+    {
+      "epoch": 0.4528301886792453,
+      "grad_norm": 4.370545864105225,
+      "learning_rate": 3.12696703292044e-05,
+      "loss": 3.4649,
+      "step": 132
+    },
+    {
+      "epoch": 0.4562607204116638,
+      "grad_norm": 4.4801025390625,
+      "learning_rate": 3.046344357553632e-05,
+      "loss": 3.3989,
+      "step": 133
+    },
+    {
+      "epoch": 0.45969125214408235,
+      "grad_norm": 4.434890270233154,
+      "learning_rate": 2.9663167846209998e-05,
+      "loss": 3.3249,
+      "step": 134
+    },
+    {
+      "epoch": 0.4631217838765009,
+      "grad_norm": 4.163226127624512,
+      "learning_rate": 2.886908691296504e-05,
+      "loss": 3.2922,
+      "step": 135
+    },
+    {
+      "epoch": 0.4665523156089194,
+      "grad_norm": 4.4532151222229,
+      "learning_rate": 2.8081442660546125e-05,
+      "loss": 3.7554,
+      "step": 136
+    },
+    {
+      "epoch": 0.4699828473413379,
+      "grad_norm": 4.65369987487793,
+      "learning_rate": 2.7300475013022663e-05,
+      "loss": 3.5652,
+      "step": 137
+    },
+    {
+      "epoch": 0.4734133790737564,
+      "grad_norm": 4.77457857131958,
+      "learning_rate": 2.6526421860705473e-05,
+      "loss": 3.6568,
+      "step": 138
+    },
+    {
+      "epoch": 0.47684391080617494,
+      "grad_norm": 4.440027713775635,
+      "learning_rate": 2.575951898768315e-05,
+      "loss": 3.459,
+      "step": 139
+    },
+    {
+      "epoch": 0.48027444253859347,
+      "grad_norm": 5.082893371582031,
+      "learning_rate": 2.500000000000001e-05,
+      "loss": 3.4999,
+      "step": 140
+    },
+    {
+      "epoch": 0.483704974271012,
+      "grad_norm": 4.5789103507995605,
+      "learning_rate": 2.4248096254497288e-05,
+      "loss": 3.4001,
+      "step": 141
+    },
+    {
+      "epoch": 0.48713550600343053,
+      "grad_norm": 4.885765552520752,
+      "learning_rate": 2.350403678833976e-05,
+      "loss": 3.5424,
+      "step": 142
+    },
+    {
+      "epoch": 0.49056603773584906,
+      "grad_norm": 5.264125347137451,
+      "learning_rate": 2.2768048249248648e-05,
+      "loss": 3.5362,
+      "step": 143
+    },
+    {
+      "epoch": 0.4939965694682676,
+      "grad_norm": 4.9319539070129395,
+      "learning_rate": 2.2040354826462668e-05,
+      "loss": 3.3161,
+      "step": 144
+    },
+    {
+      "epoch": 0.4974271012006861,
+      "grad_norm": 5.442240238189697,
+      "learning_rate": 2.132117818244771e-05,
+      "loss": 3.5072,
+      "step": 145
+    },
+    {
+      "epoch": 0.5008576329331046,
+      "grad_norm": 5.463189125061035,
+      "learning_rate": 2.061073738537635e-05,
+      "loss": 3.3095,
+      "step": 146
+    },
+    {
+      "epoch": 0.5042881646655232,
+      "grad_norm": 5.8514862060546875,
+      "learning_rate": 1.9909248842397584e-05,
+      "loss": 3.3437,
+      "step": 147
+    },
+    {
+      "epoch": 0.5077186963979416,
+      "grad_norm": 6.340907096862793,
+      "learning_rate": 1.9216926233717085e-05,
+      "loss": 3.4434,
+      "step": 148
+    },
+    {
+      "epoch": 0.5111492281303602,
+      "grad_norm": 7.861410140991211,
+      "learning_rate": 1.8533980447508137e-05,
+      "loss": 4.1433,
+      "step": 149
+    },
+    {
+      "epoch": 0.5145797598627787,
+      "grad_norm": 8.327228546142578,
+      "learning_rate": 1.7860619515673033e-05,
+      "loss": 4.0453,
+      "step": 150
+    },
+    {
+      "epoch": 0.5145797598627787,
+      "eval_loss": 0.8594623804092407,
+      "eval_runtime": 41.113,
+      "eval_samples_per_second": 11.943,
+      "eval_steps_per_second": 5.984,
+      "step": 150
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 2.2144694189083853e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null